Когда мы смотрим на мир вокруг нас, мы автоматически организуем, группируем, дифференцируем и классифицируем то, что видим, чтобы лучше понять окружающие нас объекты. Такой тип ментальной классификации необходим для обучения и понимания. Аналогично для лучшего изучения данных можно использовать инструмент Анализ группирования. Используя заданное число групп, инструмент ищет решение, в котором все объекты в каждой группе наиболее похожи, а сами группы максимально отличаются друг от друга. Сходство объектов основано на наборе атрибутов, указываемых для параметра Поля анализа, которые при необходимости могут накладывать пространственные или пространственно-временные ограничения. При выборе пространственных или пространственно-временных ограничений для параметра Пространственные ограничения, алгоритм использует граф связности (минимальное остовное дерево) для поиска естественных групп.
Подсказка:
Технология группировки и классификации являются некоторыми методами, широко применяемыми в машинном обучении. Инструмент Анализ группирования использует методы классификации без обучения для определения естественных групп в данных. Эти методы классификации рассматриваются как методы без обучения, поскольку им не требуется набор заранее классифицированных объектов в качестве руководства или для примера, чтобы определить группировку данных.
Хотя существует множество алгоритмов кластерного анализа, все из них классифицируются как NP-трудными. Это означает, что единственный способ гарантировать, что решение идеально максимизирует сходства в группе и различия между группами – перепробовать все возможные комбинации объектов, которые требуется сгруппировать. Хотя этого можно добиться при небольшом количестве объектов, задача быстро становится трудноразрешимой.
При решении не только нельзя найти оптимальное решение, но также нельзя определить алгоритм группировки, который будет работать лучше всего для всех возможных сценариев. Группы бывают разных форм, размеров и плотностей. Атрибуты могут содержать данные с различными диапазонами, симметрией, непрерывностью и единицами измерений. Это объясняет, почему за последние 50 лет было разработано столько разных алгоритмов кластеризации. Инструмент Анализ группирования следует рассматривать как исследовательский инструмент, позволяющий узнать больше о структурах в ваших данных.
Возможное применение
Некоторые способы использования этого инструмента перечислены ниже:
- Предположим, что у вас есть образцы сальмонеллы из ферм в вашей области. К атрибутам относятся тип/класс, расположение, а также дата и время. Чтобы лучше понять, как бактерии передаются и распространяются, можно использовать инструмент Анализ группирования, чтобы разбить образцы на отдельные "вспышки". Вы можете использовать пространственно-временное ограничение, так как образцы для одной вспышки будут располагаться рядом друг с другом в пространстве и времени, а также будут связаны с одним типом или классом бактерий. После определения групп можно использовать другие инструменты анализа пространственных шаблонов, такие как Эллипс стандартных отклонений, Усредненный центр или Ближайший объект для анализа каждой вспышки.
- Если вы собрали данные о наблюдении животных, чтобы лучше понять территории их обитания, то и здесь инструмент Анализ группирования может оказаться полезным. Знания о том, где и когда собираются стаи лосося, например, могут помочь в проектировании защищенных областей для обеспечения успешного нереста.
- Агрономам может потребоваться классифицировать разные типы почвы на изучаемой территории. Используя инструмент Анализ группирования с характеристиками почвы, полученными из ряда образцов, можно определить кластеры разных, пространственно непрерывных типов почв.
- Группируя клиентов на основе покупательских привычек, демографических характеристик и закономерностей перемещения, можно создать эффективную маркетинговую стратегию для продукции вашей компании.
- Службам городского планирования часто нужно разделять города на районы, чтобы эффективно размещать муниципальные учреждения и развивать локальные сообщества. Используя инструмент Анализ группирования с физическими и демографическими характеристиками городских кварталов, службы городского планирования могут определить пространственно непрерывные области города со схожими физическими и демографическими характеристиками.
- Экологическая ошибка – это известная задача статистического влияния при выполнении анализа на агрегированных данных. Часто схема агрегирования, используемая для анализа, никак не соотносится с тем, что нужно анализировать. Данные переписи, например, агрегируются на основе распределения населения, что может быть не лучшим вариантом для анализа лесных пожаров. Разбиение наименьших единиц агрегирования на однородные регионы с набором атрибутов, точно отражающих аналитические задачи – это эффективный метод, позволяющий сократить влияние агрегирования и избежать экологической ошибки.
Входные данные
Этот инструмент использует входные объекты точек, полилиний и полигонов, а также поле уникального ID, путь для выходного класса объектов, один или несколько полей анализа, целое значение, представляющее количество групп, которое требуется создать, и тип пространственного ограничения (если необходимо), который применяется с алгоритмом группировки. Существует также ряд дополнительных параметров, один из которых позволяет создать PDF-файл выходного отчета.
Поля анализа
Примечание:
Значения в Полях анализа стандартизируются инструментом, так как переменные с большой вариабельностью (большим распределением данных относительного среднего) по всей видимости оказывают большее влияние на кластеризацию, чем переменные с небольшой вариабельностью. Стандартизация значений атрибутов включает z-трансформацию, где каждое значение вычитается из средней величины всех значений и делится на стандартное для всех значений отклонение. Стандартизация расставляет все эти атрибуты на одни весы, даже когда они представлены совершенно разными типами чисел: коэффициентами (от 0 до 1,0), численностью население (значение свыше 1 миллиона) и расстояниями (например, километрами).
Необходимо выбрать переменные, которые, по вашему мнению, будут отличать одну группу объектов от другой. Предположим, вы хотите сгруппировать школьные округа по успеваемости учеников в стандартных тестах. Вы можете выбрать поля анализа, такие как общие оценки по тестам, результаты для каждого предмета, например математика или литература, процент учеников, получивших минимальную оценку по тесту, и т. д. После выполнения инструмента Анализ группирования для каждой переменной вычисляется значение R2. В сводных данных ниже, школьные округа сгруппированы на основе баллов учеников, набранных при тестировании, процента взрослых, которые не окончили среднюю школу, затрат на каждого ученика и среднего соотношение числа учеников и учителей. Обратите внимание, что у переменной TestScores самое большое значение R2. Это означает, что данная переменная наиболее эффективно разделяет школьные округа на группы. Значение R2 отражает, в какой степени вариация в исходных данных TestScores была сохранена в процессе группировки. Чем больше R2 для определенной переменной, тем лучше переменная различает ваши объекты.
Более подробно:
R2 вычисляется следующим образом:
(TSS – ESS) / TSS
Где TSS – общая сумма квадратов, а ESS – объясненная сумма квадратов. TSS вычисляется за счет возведения в квадрат и суммирования отклонений от глобального среднего значения для переменной. ESS вычисляется одинаково, только отклонения применяются по группам: каждое значение вычитается из среднего значения для группы, которой оно принадлежит, а затем возводится в квадрат и суммируется.
Число групп
Иногда вы будете знать количество групп, которое лучше всего подходит для вашей задачи. Например, если у вас пять менеджеров по продажам, и вы хотите назначить каждому из них собственный регион, вы используете значение 5 для параметра Число групп. Но во многих случаях критерий для выбора точного числа групп не доступен. Вместо этого вам нужно получить число, которое лучше всего позволяет классифицировать сходства и различия объектов. В этой ситуации можно отметить опцию Оценить оптимальное число групп и позволить инструменту Анализ группирования оценить эффективность деления объектов на 2, 3, 4 и до 15 групп. Эффективность группировки измеряется с помощью псевдо-F-статистики Калински-Харабаза, которая также отражает сходство объектов в группе и различие между группами:
Предположим, вы хотите создать четыре пространственно непрерывные группы. В этом случае инструмент создаст минимальное остовое дерево, отражающее как пространственную структуру ваших объектов, так и связанные с ними значения полей анализа. Затем инструмент определит наилучшее место разрезания дерева для получения двух отдельных групп. Далее он определит, какая из двух получившихся групп должна быть разделена для получения трех групп наилучшим способом. Одна из двух групп будет разделена, вторая останется нетронутой. Наконец, он определит, какая из трех получившихся групп должна быть разделена, чтобы получить четыре группы. При каждом делении, наилучшим решением считается то, при котором возрастает схожесть внутри групп и различие между группами. Группа больше не может быть разделена (кроме произвольного деления), когда значения полей анализа всех объектов внутри группы являются идентичными. В случае, когда все полученные группы имеют идентичные объекты, инструмент Анализ группирования прекращает создание новых групп, даже если не достигнуто заданное Число групп. Когда все Поля анализа имеют идентичные значения, основа для разделения отсутствует.
Пространственные ограничения
Опции непрерывности полигонов – это не очень хороший выбор, но если набор данных содержит кластеры несмежных полигонов или полигонов без смежных соседей.
Затем можно указать созданный с помощью инструмента Построить матрицу пространственных весов SWM-файл в параметре Файл матрицы весов при запуске инструмента Анализ группирования.
Примечание:
Хотя пространственные отношения между объектами хранятся в SWM-файле и используются инструментом Анализ группирования для наложения пространственных ограничений, фактически взвешивания не происходит. SWM-файл используется только для отслеживания того, какие объекты можно, а какие нельзя включить в одну группу.
Для многих аналитических операций пространственные или пространственно-временные ограничения не являются ни обязательными, ни полезными. Предположим, например, что нужно сгруппировать преступления по атрибутам нарушителя (рост, возраст, серьезность преступления и т. д.). Хотя преступления, совершенные одним человеком, обычно близки друг к другу, маловероятно, что все преступления в одной области будут совершены одним человеком. Однако вы можете включить некоторые пространственные переменные (близость к банкам, например) в список Полей анализа, чтобы выявить определенные аспекты анализируемых преступлений.
K-средних
Цель этого алгоритма – разделить объекты так, чтобы отличия между объектами в группе, для всех групп, были минимальными. Так как алгоритм является NP-трудным, для группировки объектов используется жадная эвристика. Жадный алгоритм всегда сводится к локальному минимуму, но не всегда находит глобальный (оптимальный) минимум.
Алгоритм K-средних сначала определяет начальные объекты, которые используются для формирования каждой группы. Соответственно число начальных объектов всегда равно параметру Количество групп. Первый начальный объект выбирается произвольно. При выборе оставшихся начальных значений (хотя случайный компонент также используется) применяется взвешивание, которое отдает предпочтение объектам, наиболее отдаленным от существующего набора начальных объектов (эта часть алгоритма называется K-средних ++).
После определения начальных значений все объекты назначаются ближайшему начальному объекту (в пространстве данных). Для каждого кластера объектов вычисляется центр данных, а каждый объект назначается ближайшему центру. Процесс вычисления центра данных для каждой группы и назначения объектов ближайшему центру продолжается до стабилизации групп (возможно до 100 итераций).
Минимальное остовое дерево
При указании пространственного ограничения, чтобы включать в группу смежные или близкие объекты, инструмент сначала формирует граф связности, представляющий соседские отношения объектов. На основе графа связности формируется минимальное остовое дерево, которое отражает и пространственные отношения объектов, и сходство данных объектов. Объекты становятся узлами в минимальном остовом дереве, связанном взвешенными ребрами. Вес каждого ребра пропорционален сходству объектов, которые он соединяет. После создания минимального остового дерева ветвь (ребро) дерева обрезается, после чего мы получаем два минимальных остовых дерева. Обрезаемое ребро выбирается так, чтобы минимизировать расхождение в полученных группах, избегая при этом получения групп только с одним объектом. При каждой итерации одно из минимальных остовных деревьев делится этим процессом обрезки до получения указанного количества групп. Опубликованный метод называется SKATER (пространственный кластерный анализ с удалением ребра дерева). Хотя на каждой итерации выбирается ветвь, оптимизирующая сходство объектов в группе, нельзя гарантировать, что конечный результат будет оптимальным.
Выходные данные
Результатом работы инструмента Анализ группирования по умолчанию является новый Выходной класс объектов, содержащий поля, используемые в анализе, а также новое целочисленное поле SS_GROUP обозначающее, какой группе принадлежит каждый объект. Этот выходной класс объектов добавляется в таблицу содержания с уникальной цветовой схемой отображения, которая применяется к полю SS_GROUP. Полое отображение указывает на то, что объекты не удалось добавить в группу, обычно это связано с тем, что у них нет соседних объектов.
Файл отчета о работе инструмента Анализ группирования
Если указать путь для параметра Выходной файл отчета, создается PDF-файл с информацией о созданных группах.
Примечание:
Создание дополнительного файла отчета может значительно увеличить время обработки. Хотя инструмент Анализ группирования всегда создает выходной класс объектов с отображением участников групп, PDF-файл отчета не создается, если вы укажете более 15 групп или более 15 переменных.
Более подробно:
Межквартильный размах (IQR) – верхний квартиль минус нижний квартиль. Нижние выбросы – это значения меньше 1,5*IQR (Q1-1,5*IQR), а верхние выбросы – это значения больше 1,5*IQR (Q3+1,5*IQR). Выбросы отображаются на диаграммах как символы +.
На первой странице отчета переменные (поля анализа) в каждой группе сравниваются друг с другом. В отчете ниже, например инструмент Анализ группирования был использован с районами переписи для создания четырех групп. Сводная статистика для каждой группы печатается с использованием разных цветов (синий, красный, зеленый и золотой). Первый набор сводной статистики печатается черным цветом, так как там представлено глобальное среднее, среднеквадратичное отклонение (Ср. кв.), минимум, максимум и значения R2 для всех данных в каждом поле анализа. Чем больше значение R2 для определенной переменной, тем лучше переменная отличает ваши объекты. После глобальных сводных значений, для каждой переменной в группе указываются среднее значение, среднеквадратическое отклонение, минимум, максимум и общие значения. В отчете ниже, например можно увидеть, что группа 1 (синяя) содержит 52 процента значений в глобальной переменной AGE_UNDER5. Глобальный диапазон значений – от 0 до 1453 детей в возрасте 5 лет, а синяя группа содержит районы численностью от 488 до 1246 детей возрастом младше 5 лет. Среднее количество детей младше 5 лет для районов в синей группе равно 805,3750. В ящичковой диаграмме справа от сводной статистики синей группы показано, как значения группы связаны с глобальными значениями того же поля анализа. Обратите внимание на то, что синяя точка на диаграмме выходит из верхнего квартиля, а первая синяя вертикальная линия (представляющая минимальное значение районов синей группы) расположена выше глобального среднего значения для этого поля. К слову, если посмотреть на то, где синие точка попадают в ящичковые диаграммы для всех переменных, можно увидеть, что, кроме переменной MEDIANRENT, средние значения во всех полях анализа расположены над верхним квартилем. У этой группы самые большие значения по сравнению с другими группами.
Более подробно:
Общее значение – это отношение диапазона группы к глобальному диапазону. Например, для группы 1 и переменной AGE_UNDER5 52 общая доля в 52 процента получена за счет деления диапазона группы (1246-488=758) на глобальный диапазон (1453-0=1453), что дает 0,52 при округлении до двух старших разрядов.
Во втором разделе сравниваются диапазоны переменных для каждой по одному полю анализа (переменной) за раз. В этом представлении данных легко увидеть, у какой группы наибольший и наименьший диапазон значений для каждой переменной. Минимальное, среднее и максимальное значение группы наложены в верхней части ящичковой диаграммы, отражающей все значения. Обратите внимание, что у группы 4 (оранжевая) самые маленькие значения переменной MEDIANRENT. Минимальное, среднее и максимальное значение этой группы меньше, чем у любой другой группы.
В параллельной ящичковой диаграмме представлена сводка по группам и переменным в них. На следующем графике обратите внимание на то, что группа 1 (синяя) отражает районы со средним значением ренты, самым большим количеством семей с детьми, возглавляемых женщинами (FHH_CHILD), самым большим количеством домов (HSE_UNITS) и самым большим количеством детей младше 5 лет. Группа 2 (красная) отражает районы с наибольшей медианной рентой, самым маленьким числом семей с детьми, возглавляемых женщинами, с большим, чем среднее, количеством домов (хотя с меньшим, чем в районах в группах 1 и 3) и самым маленьким количеством детей младше 5 лет.
Если установить флажок Оценить оптимальное число групп, PDF-файл отчета будет содержать график значений псевдо-F-статистики. Обведенная точка на графике – это наибольшая F-статистика, указывающая наиболее эффективное число групп для различения указанных объектов и переменных. На следующем графике F-статистика, связанная с четырьмя группами, имеет наибольшее значение. Пять групп с большим значением псевдо-F-статистики также будут хорошим выбором.
Рекомендации
Хотя существует тенденция для включения максимально возможного числа полей анализа, при использовании инструмента Анализ группирования лучше начать с одной переменной. Результаты намного легче интерпретировать при меньшем числе полей анализа. Также легче определить, какие переменные лучше разделяют группы при меньшем количестве полей.
Во многих ситуациях вы запустите инструмент Анализ группирования несколько раз в поисках оптимального количества групп, наиболее эффективных пространственных ограничений и сочетания полей анализа, которые наилучшим образом разбивают ваши объекты на группы. Так как при создании выходного отчета время обработки может значительно увеличиться, вы вряд ли захотите создавать отчет во время экспериментов с различными входными параметрами.
Дополнительные источники
Duque, J. C., R. Ramos, and J. Surinach. 2007. "Supervised Regionalization Methods: A Survey" in International Regional Science Review 30: 195–220.
Assuncao, R. M., M. C. Neves, G. Camara, and C. Da Costa Freitas. 2006. "Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees" in International Journal of Geographical Information Science 20 (7): 797–811.
Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.
Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. "Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." in Geoscience Australia, Record 2007/10, 58pp.