Data Mining


Плохая визуализация


Результаты визуализации иногда могут вводить пользователя в заблуждение. Приведем простой пример плохой визуализации. Допустим, мы имеем базу "Прибыль компании А" за период с 2000 по 2005 года, она представлена в табличном виде в таблице 6.1.

Таблица 6.1. Прибыль компании А
годприбыль
20001100
20011101
20021104
20031105
20041106
20051107

Построим гистограмму в Excel по этим данным.

Гистограмма представляет собой визуальное изображение распределения данных.

Эта информация отображается при помощи серии прямоугольников или полос одинаковой ширины, высота которых указывает количество данных в каждом классе.

Используя все значения построения графика, принятые по умолчанию, получаем гистограмму, приведенную на рис. 6.4.

Гистограмма, минимальное значение оси y равно 1096

Рис. 6.4.  Гистограмма, минимальное значение оси y равно 1096

Данный рисунок демонстрирует значительный рост прибыли компании А за период с 2000 по 2005 года. Однако, если мы обратим внимание на ось y, показывающую величину прибыли, то увидим, что эта ось пересекает ось x в значении, равном 1096. Фактически, ось y со значениями от 1096 до 1108 вводит пользователя в заблуждение. Изменив значения параметров, отвечающих за формат оси y, получаем график, приведенный на рис. 6.5.

Гистограмма, минимальное значение оси y равно 0

Рис. 6.5.  Гистограмма, минимальное значение оси y равно 0

Ось у со значениями от 0 до 2000 дает пользователю правильную информацию о незначительном изменении прибыли компании.

Если речь идет о большой размерности и сложности исходных данных, средства визуализации обеспечивают их резкое уменьшение, конденсируя, быть может, миллионы записей данных в простые, легкие для понимания и манипулирования представления [26]. Такие представления называют визуальным или графическим способом представления информации. Визуализацию можно считать ключевым фактором в исследовании данных, полученных при помощи инструментов Data Mining. В таких случаях говорят о визуальном Data Mining.

Методы визуализации, среди которых представления информации в одно-, двух-, трехмерном и более измерениях, а также другие способы отображения информации, например, параллельные координаты, "лица Чернова", будут рассмотрены в следующем разделе курса.




Начало  Назад