Data Mining

       

Выводы по подготовке данных


В этой лекции мы закончили изучение этапа подготовки данных. Рассмотрели две классификации инструментов очистки и редактирования данных, изучили советы по выбору программного обеспечения, основные функции инструментов очистки данных, классификацию ошибок в данных, которые возникают в результате использования средств очистки данных.

Эти знания являются необходимой составляющей знаний, обеспечивающих возможность проведения процесса Data Mining на данных высокого качества.

Инструменты очистки данных не избавляют пользователя от работы, пользователю достаточно сложно их освоить. Некоторые грязные данные вообще не поддаются автоматической очистке. Перед тем как принимать решение об очистке данных, необходимо рассчитать ее стоимость, т.е. определить, оправдан ли будет этот процесс. Если принято решение, что очистка данных необходима, аналитик получает гарантию того, что процесс Data Mining будет проведен на основе достоверных и качественных данных.

Напомним, что рассмотренные этапы могут занять до 80% всего времени, отведенного на весь проект.



Содержание раздела