Data Mining

       

Пример иерархического кластерного анализа


Порядок агломерации (протокол объединения кластеров) представленных ранее данных приведен в таблице 13.2. В протоколе указаны такие позиции:

  • Stage - стадии объединения (шаг);
  • Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);
  • Coefficients - коэффициенты.
Таблица 13.2. Порядок агломерацииCluster CombinedCoefficientsCluster 1Cluster 2
1910,000
22141,461E-02
3391,461E-02
4581,461E-02
5671,461E-02
63133,490E-02
72113,651E-02
8454,144E-02
9265,118E-02
10412,105
1113,120
12141,217
13127,516

Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.

В колонке Coefficients приведено количество кластеров, которое следовало бы считать оптимальным; под значением этого показателя подразумевается расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В нашем случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений. Процедура стандартизации используется для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений. В SPSS применяются следующие виды стандартизации:

  • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
  • Максимум 1. Значения переменных делятся на их максимум.
  • Среднее 1. Значения переменных делятся на их среднее.
  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.



Содержание раздела