Как работает инструмент Вычислить составной индекс

Индекс — это численное измерение предмета интереса, в частности в тех случаях, когда его трудно измерить или определить напрямую, например, социальную уязвимость или бизнес-инновации. Инструмент Вычислить составной индекс создает индекс путем сочетания нескольких переменных в одну. Инструмент использует трехэтапный рабочий процесс для предварительной обработки переменных, объединения переменных и постобработки индекса.

Рабочий процесс создания индекса

Надлежащее построение индекса зависит от корректного определения его назначения в ходе разработки и прозрачности процесса во время коммуникации. Инструмент Вычислить составной индекс пошагово проводит вас по процессу создания корректного индекса и помогает визуализировать и интерпретировать результаты.

Подробнее о рекомендациях по созданию составных индексов в ArcGIS.

Возможное применение

Ниже приведены потенциальные возможности применения инструмента Вычислить составной индекс:

  • Департамент охраны окружающей среды хочет создать индекс качества воздуха, чтобы информировать государственную политику и общественность о загрязнении. Они собирают данные со станций мониторинга, соответствующих критериям загрязняющих веществ. Аналитик может запустить инструмент Вычислить составной индекс, чтобы объединить индикаторы отдельных загрязнителей в единый индекс качества воздуха.

    Создание индекса качества воздуха

  • Департамент здравоохранения хочет создать индекс риска для здоровья дыхательных путей, чтобы выявить наличие неравенства в отношении окружающей среды. Для этого аналитик может запустить инструмент Вычислить составной индекс несколько раз, чтобы создать индекс с несколькими суб-индексами, при этом в ходе первого запуска инструмента создаются суб-индексы для разных доменов, а последний запуск инструмента создает окончательный индекс.

    Объединение суб-индексов в единый индекс

  • Юрисдикция хочет подать заявку на инфраструктурный грант, и для подтверждения квалификации им необходимо доказать, что эти ресурсы пойдут в недостаточно обслуживаемые сообщества. Они могут создать индекс, который объединяет инфраструктурные и демографические переменные, чтобы определить самые недостаточно обслуживаемые районы.

Как проводится предварительная обработка переменных

Чтобы создать соответствующий индекс, переменные должны быть в совместимом масштабе. Для этого в инструменте предлагаются параметры предварительной обработки, которые приводят различные входные переменные к общей шкале измерений, чтобы их можно было соответствующим образом комбинировать. Инструмент также может инвертировать переменные таким образом, чтобы значения высоких значений в каждой переменной совпадали друг с другом.

Предварительная обработка переменных для перевода в единый масштаб

Примечание:

Воспользуйтесь инструментом Трансформировать поля для преобразования.

Предварительная обработка переменных для смены направления

Рассмотрите значимость низких и высоких значений каждой переменной и убедитесь, что они согласуются друг с другом. Например, в индексе социальной уязвимости места с более низким средним доходом более уязвимы, но места с низким процентом людей без страховки менее уязвимы; направления этих переменных противоположны в контексте самого индекса.

Когда вы вводите каждую переменную в инструмент, подумайте, нужно ли ее инвертировать; в этом случае поставьте отметку Обратить направление, чтобы изменить направление переменной.

Обратить направление переменных

Обратное значение переменной вычисляется путем умножения каждого значения на -1 и масштабирования поля в исходный диапазон переменной.

Предварительная обработка переменных для перевода в единый масштаб

Используйте параметр Метод пересчета входных переменных для выбора единого метода масштабирования. Выбранный метод будет применен ко всем переменным и итоговым полям, которые будут представлены в результатах. Доступны следующие опции:

  • Минимум-максимум - этот метод пересчитывает значения в диапазон от 0 до 1 на основе минимального и максимального значений каждой переменной. Это самый простой вариант, поскольку он сохраняет распределение входных переменных и пересчитывает их по шкале от 0 до 1, которую легко интерпретировать.

    Масштабирование типа Минимум – максимум

    Этот метод применяет следующую формулу:

    Формула Минимум – максимум

    Поскольку этот метод сохраняет переменное распределение, на него могут повлиять асимметричные распределения и выбросы. Например, если есть один выброс с очень высоким значением, выброс получит значение 1, но остальные значения будут похожи и ближе к нулю. В результате сокращенной вариации при предварительной обработке эта переменная может иметь меньшее влияние на результирующий индекс.

    Этот метод также зависит от минимального и максимального значений во входных данных, что делает его менее подходящим для сравнения индексов за несколько периодов времени, когда минимальное и максимальное значения переменной могут меняться с каждым временным шагом.

  • Минимум-максимум (пользовательские диапазоны данных) - этот метод пересчитывает значения в диапазон от 0 до 1 на основе возможных минимального и максимального значений каждой переменной. Этот метод полезен, когда возможный минимум и максимум пока не существуют в диапазоне переменной или вы хотите создать индекс, который должен оставаться сопоставимым по мере получения дополнительных данных.

    Пользовательское масштабирование типа Минимум – максимум

    Этот метод применяет следующую формулу:

    Пользовательская формула Минимум – максимум

    Есть несколько возможностей настройки возможного минимума и возможного максимума:

    • Когда индекс будет сравниваться во времени, а в текущих данных нет диапазона значений, которые могли бы быть у индекса в другие периоды времени.
    • Когда есть эталонная статистика, такая как минимум и максимум более широкой области исследования. Например, индекс по области исследования, установленной во Франции, может учитывать минимум и максимум для всех стран Европы.
    • Когда есть желаемый эталон, такой как ожидаемая продолжительность жизни в индексе человеческого развития. Хотя в самих данных цифры ожидаемой продолжительности жизни может не быть, выбранный эталон по-прежнему используется для задания контекста индекса.
    • Когда есть априорное знание теоретических минимумов и максимумов переменных, например, знание абсолютных температурных диапазонов на Земле и использование ежедневных записей с меньшим диапазоном.

  • Процентиль — этот метод преобразует переменные в процентили от 0 до 1. Этот метод может быть полезен, когда ранги каждой переменной более важны, чем их фактические значения. Он также устойчив к выбросам и асимметричным распределениям, поскольку переменные преобразуются в равномерное распределение.

    Формула масштабирования процентиля

    Есть несколько определений для процентилей. Этот метод использует следующую формулу:

    Формула процентиля,

    где R - это исходный ранг (на основе минимального значения ранга в случае ничьей), N - это количество значений, а P - это итоговый процентиль.

    Процентили обозначают положение значения относительно других значений внутри переменной. Например, хотя разница в доходе между 50 000 и 60 000 долларов может быть незначительной, разница в процентилях может быть большой, если имеется много признаков со значениями между ними.

  • Ранг — этот метод ранжирует входные значения, присваивая значение 1 наименьшему значению в переменной и увеличивая на 1 для каждого значения. Этот метод может быть полезен, когда ранги каждой переменной более важны, чем их фактические значения. Метод также устойчив к выбросам и асимметричным распределениям.

    Масштабирование рангов

    Метод использует метод среднего ранга, который разрешает связи путем присвоения среднего значения ранга связанным наблюдениям.

    Этот метод очень похож на процентили, но диапазон значений находится между 1 и количеством записей в таблице.

  • Z-оценка — этот метод стандартизирует каждую переменную с помощью формулы Z-оценки. Этот метод применим, когда каждое значение следует рассматривать относительно среднего значения переменной. Например, когда вы хотите узнать, выше или ниже средний показатель по стране процент людей, живущих за чертой бедности, и насколько.

    Масштабирование Z-оценки

    Этот метод использует следующую формулу:

    Формула Z-оценки,

    где x' - это z-оценка, x - это исходное значение, - это среднее (average), а σ - это стандартное отклонение.

    Z-оценки выражаются в стандартных отклонениях, являющихся мерой разброса данных. Z-оценка, равная 2, означает, что значение на два стандартных отклонения больше среднего, а z-оценка, равная -1, - на одно стандартное отклонение меньше среднего. Этот метод менее чувствителен к неблагоприятным последствиям выбросов по сравнению с методом минимума-максимума. Однако он дает отрицательные значения, что делает его несовместимым с методами мультипликативной комбинации.

  • Z-оценка (пользовательский) — этот метод стандартизирует каждую переменную с помощью формулы Z-оценки на основе пользовательского значения среднего и стандартного отклонения. Этот метод используется при создании индексов, которые сравниваются со справочной статистикой или сравниваются во времени.

    Пользовательское масштабирование Z-оценки

    Этот метод использует следующую формулу:

    Формула пользовательской z-оценки,

    где x' - это стандартизированное значение, x - исходное значение, c - пользовательское среднее, а σc - пользовательское стандартное отклонение.

    Используйте параметр Пользовательская стандартизация, чтобы установить базовые среднее значение и стандартное отклонение.

    Например, чтобы создать годовой индекс развития, который будет обновляться в течение следующих 10 лет, используя первый год в качестве точки сравнения, создайте индекс для первого года, используя опцию z-оценки, которая использует фактическое среднее значение и стандартное отклонение для каждой переменной. Затем используйте то же среднее значение и стандартное отклонение в параметре Пользовательская стандартизация в последующие годы. Это делает результаты сопоставимыми по всем годам, используя для сравнения распределение за первый год.

    Этот метод также используется при сравнении значений с теоретическим средним значением, которое может не совпадать со средним значением данных. Например, если национальный уровень безработицы составляет 8 процентов, но средний уровень безработицы в данных составляет 13 процентов, z-оценки могут быть установлены по отношению к среднему национальному значению и национальному стандартному отклонению, и выборка в данных будет иметь более положительные значения, отражая уровень безработицы выше, чем в среднем по стране.

  • Флаг по пороговому значению (бинарный) — этот метод преобразует переменную в двоичные значения (0, 1), которые указывают, находится ли значение выше или ниже указанного порога. Этот метод используется, когда важно выделить определенные значения, а вариация этих значений не принципиальна.

    Масштабирование флага по пороговому значению

    Эта опция активирует параметр Метод масштабирования для порогов, который позволяет устанавливать пороги в диапазоне масштабируемой переменной.

    Этот метод используется в следующих случаях:

    • Эксперты в области качества воздуха хотят выделить места, которые превышают пороговые значения для здоровья человека по нескольким переменным качества воздуха. Они устанавливают исходные переменные параметра Метод масштабирования порогов и задают эти пороги.
    • Правительственное учреждение хочет выделить местоположения, которые очень уязвимы в нескольких доменах. Параметр Метод масштабирования порогов они задают как процентили, а сам порог как Больше, чем 0.9 для каждой переменной, чтобы подсветить неблагополучные локации.
    • Международная организация хочет выделить страны, показатели человеческого развития которых стабильно ниже среднего. Они задают параметр Метод масштабирования порогов как z-оценка, а пороги как Меньше, чем 0, чтобы определить местоположения ниже среднего.

    Этот метод наиболее полезен в сочетании с опцией комбинации суммы для подсчета количества раз, когда местоположение превышает пороговые значения.

    На метод не влияют выбросы во входных переменных, но информация об уровне интервала в каждой входной переменной теряется, поскольку каждая переменная преобразуется в двоичную (0, 1) форму.

  • Необработанные значения—использует исходные значения переменной.

    Этот метод следует использовать только в том случае, если все переменные находятся в сопоставимом масштабе. Например, когда все переменные являются стандартной единицей, такой как проценты или части на миллион. Этот метод также может быть полезен, когда стандартизация или преобразование переменных уже были выполнены до запуска инструмента.

Примечание:

Выбранный вариант масштабирования применяется ко всем переменным. Если вам нужно применить различные параметры масштабирования к каждой переменной, используйте другие инструменты, такие как Стандартизировать поле или Переклассифицировать поле, прежде чем использовать этот инструмент.

Если в поле есть пустые значения, инструмент не сможет вычислить индекс для записей. Воспользуйтесь инструментом Заполнить пропущенные значения для вставки значений, если это допустимо, либо найдите подходящие данные.

Как инструмент комбинирует переменные в единый индекс

После предварительной обработки переменных до общего масштаба переменные объединяются для создания единого значения. У параметра Метод объединения пересчитанных переменных есть следующие опции:

  • Сумма
  • Среднее
  • Умножить
  • Геометрическое среднее

Опции Сумма и Среднее считаются аддитивными методами, а Умножить и Геометрическое среднее - мультипликативными методами.

Аддитивные методы

Методы комбинирования Сумма и Среднее относительно просты для интерпретации и обычно используются в разных индексах. Эти методы почти идентичны; они приводят к распределениям одинаковой формы, которые отличаются только масштабом, и, следовательно, результирующая индексная карта будет выглядеть одинаково. Будут отличаться только значения.

Аддитивные методы комбинирования

Эти методы позволяют компенсировать высокие значения одной переменной низкими значениями другой переменной.

Аддитивная компенсация

Мультипликативные методы

Методы Умножение и Средний геометрический требуют большей осторожности при использовании, так как результирующие значения индекса могут быть намного выше, чем при использовании аддитивного метода, и эти методы плохо работают при использовании отрицательных значений.

Мультипликативные методы комбинирования

Несмотря на свои недостатки, мультипликативные методы имеют то преимущество, что они не позволяют высоким значениям одной переменной компенсировать низкие значения другой переменной; чтобы значение индекса было высоким, несколько переменных должны иметь высокие значения.

Мультипликативные методы не компенсируют

Примечание:

Параметр Предустановленный метод пересчета и объединения переменных предоставляет шаблоны, которые устанавливают методы предварительной обработки и комбинирования на основе часто используемых подходов к созданию индексов.

Взвешивание

Переменные могут быть взвешены, чтобы отразить относительную важность каждого фактора и его вклад в индекс. По умолчанию все веса установлены на 1, что означает, что каждая переменная имеет одинаковый вес. Однако может быть важно обозначить различия в относительном вкладе переменной по сравнению с другими. Изменяя вес одной из переменных до 2 и оставляя остальные равными 1, вы указываете, что переменная должна считаться в два раза более важной, чем другие, в ее вкладе в окончательный индекс.

Вы также можете использовать веса, которые в сумме дают 1: например, если используются три переменные, и одна из них должна считаться вдвое более важной, чем две другие, вы можете использовать значения веса 0,5, 0,25 и 0,25.

В аддитивных методах веса применяются путем умножения каждой переменной на соответствующий вес. В мультипликативных методах веса применяются путем возведения каждой переменной в степень соответствующего веса.

Веса оказывают значительное влияние на итоговый индекс. Независимо от того, решите ли вы сохранить равные веса или изменить веса в пользу переменных, использование весов добавляет субъективности анализу. Кроме того, вы можете непреднамеренно выполнять взвешивание из-за корреляции и различий в дисперсии между вашими переменными. Чтобы узнать больше о влиянии корреляции и дисперсии на индекс, см. документ с рекомендациями по созданию составных индексов.

Как происходит постобработка индексов

После предварительной обработки переменных и их объединения в необработанный индекс постобработка может помочь сделать индекс более понятным. Параметры в категории параметров Настройки выходных данных позволяют регулировать направление, масштаб и классифицировать значения.

Обратить индекс

С учетом предполагаемого использования индекса оцените, соответствуют ли высокие значения индекса предполагаемым значениям. Используйте отметку для параметра Обратить выходные значения индекса для дополнительного инвертирования исходного индекса, чтобы высокие значения становились низкими, и наоборот.

Обратить значения индекса

Примечание:

Обращать значения индекса для мультипликативных методов следует с осторожностью, так как эти результаты будут отличаться от обращения входных переменных.

Масштабирование индекса с учетом минимального и максимального значений

Используйте параметр Минимальное и максимальное выходные значения индекса для настройки диапазона выходного индекса. Эта опция применима для использования шкалы, которую легче интерпретировать, независимо от выбранных методов предварительной обработки и комбинирования. Например, укажите значение Минимум как 0, а Максимум как 100, чтобы масштабировать исходный индекс в пределах этого диапазона. Эта опция использует следующую формулу:

Формула масштабирования выходного индекса Минимум-максимум,

где x - это исходное значение, min(x) - минимальное значение в индексе, max(x) - максимальное значение в индексе, a - указанное значение минимума, b - указанное максимальное значение, and а x' - масштабированное значение.

Масштабирование выходного индекса Минимум-максимум

Классификация индекса

В дополнение к необработанному выходному индексу вы можете дополнительно классифицировать выходной индекс, чтобы дополнительно исследовать результаты. У параметра Дополнительные классифицированные выходные данные есть четыре метода, которые можно использовать: Равный интервал, Квантиль, Стандартное отклонение и Пользовательский, каждый из которых будет представлен дополнительным полем в результатах.

Метод равных интервалов делит диапазон индекса на интервалы равной длины.

Классификация Равные интервалы

Метод квантилей делит значения на классы, чтобы каждый класс имел одинаковое количество признаков или строк. Этот метод создает карту, аналогичную индексному процентильному слою, но использует классы, в отличие от непрерывного процентильного распределения. Используйте этот параметр для создания карты квинтилей (с пятью классами), децилей (с 10 классами) или других типов квантилей на основе количества классов.

Классификация Квантили

Метод стандартного отклонения классифицирует индекс, чтобы показать количество стандартных отклонений каждого значения от среднего.

Классификация Стандартное отклонение

Метод пользовательских классов разбивает непрерывный индекс, используя пользовательские границы класса и пользовательские метки. Вы можете добавить числовые или текстовые метки, такие как Низкий, Средний и Высокий.

Пользовательская классификация

Интерпретация результатов

Визуализация и исследование полученного индекса — важный шаг в подготовке индекса к дальнейшему использованию. Инструмент создает различные карты и диаграммы, которые помогают интерпретировать результат.

Выходные слои

Когда для параметра Выходные объекты или таблица задан класс пространственных объектов или шейп-файл (а не добавление к входным данным), инструмент создает несколько слоев, которые включаются в выходной составной слой:

Составной слой результатов

Подсказка:

Используйте горячие клавиши Ctrl и Shift для быстрого раскрытия или скрытия списка слоев в рамках составного слоя.

Индексный слой отображает распределение значений индекса после произвольного масштабирования или реверсирования. Слой создает непрерывную картограмму, которую можно использовать для оценки результатов индекса. Вы можете использовать карту для оценки высоких и низких значений индекса, сохраняя распределение индекса и любые выбросы.

Индексный слой

Слой процентилей индекса отображает относительные позиции (ранги) между значениями индекса. Итоговые цвета карты соответствуют рангам значений индекса, поэтому они не сохраняют распределение или какой-либо смысл фактических различий индексов. Используйте этот метод, если вы хотите оценить, как местоположения связаны друг с другом на основе их рейтинга индекса.

Индексный слой процентилей

Слой классов индексов с равными интервалами показывает классы на основе индексного распределения значений, но он группирует значения в классы на основе равных интервалов, заданных параметром Количество классов выходного индекса. Этот слой классифицируется на основе индексного слоя.

Слой индексов равноинтервальных классов

Слой индексных квантилей присваивает равное количество признаков каждому классу и является классифицированной формой слоя индексных процентилей. Число классов задается в параметре Количество классов выходного индекса.

Индексный слой квантилей

Слой классов стандартных отклонений индекса визуализирует местоположения выше и ниже среднего индекса. Цветовая шкала помогает выделить чрезвычайно высокие и низкие значения индекса, что может быть полезно для определения мест, которые могут потребовать дальнейшего изучения.

Слой классов среднеквадратического отклонения

Слой пользовательских классов индекса отображает указанные категории на карте и может использоваться для многих целей, например, для разделения непрерывного индекса на нечетные категории на основе запланированных вмешательств. Например, вы можете назвать классы как Низкий, Средний и Высокий.

Слой индексов пользовательских классов

Выходные диаграммы

Инструмент создает диаграммы, которые можно использовать для получения ответов на различные вопросы об индексе.

Изучение распределения индекса

Основной индексный слой в выходных данных группового слоя содержит гистограмму распределения индекса. Наряду с картой это может помочь вам понять распределение результатов.

Гистограмма индексов

Изучение распределения входных переменных

Основной индексный слой содержит две ящичковых диаграммы входных переменных: одна визуализирует распределения переменных до масштабирования, а другая визуализирует распределения переменных после масштабирования. Часто бывает полезно сравнить эти диаграммы рядом друг с другом, чтобы оценить, как выбранный метод масштабирования изменил входные переменные. Сравнение этих диаграмм друг с другом может помочь оценить, оказал ли выбранный метод масштабирования ожидаемое влияние на распределение переменных.

Ящичковые диаграммы входных и масштабированных переменных

Вы также можете использовать ящичковые диаграммы для исследования выбросов, выбирая их на ящичковой диаграмме входных переменных и проверяя их расположение на карте. Затем вы можете просмотреть диаграмму предварительно обработанных переменных, чтобы проверить, устранил ли выбранный метод предварительной обработки эффект выброса.

Изучение результатов по каждому объекту

Открыв карту, гистограмму и две ящичковые диаграммы, а затем активировав фильтры выбора на двух ящичковых диаграммах, вы можете выбрать объект на карте или на гистограмме, чтобы визуализировать распределение значений входных переменных для выбора. Вы также можете использовать карту и фильтры экстента на ящичковых диаграммах, чтобы оценить распределение переменных в разных регионах карты.

Связанные карта, гистограмма и ящичковая диаграмма

Для начала включите фильтр выборки для каждой ящичковой диаграммы. Затем выберите объект на карте или в гистограмме. Потом посмотрите значения переменной.

Изучите, какие переменные влияют на индекс

Индексный слой включает в себя матрицу диаграммы рассеяния, которая отображает корреляцию между индексом и каждой используемой переменной. Переменные с высокой корреляцией по отношению к индексу обычно соответствуют переменным, которые внесли наибольший вклад в индекс. Следовательно, можно считать, что любые переменные с низкой корреляцией с индексом оказывают меньшее влияние на индекс. Кроме того, рассмотрите, имеют ли какие-либо переменные низкую внутреннюю вариацию; переменные с низкой вариацией с меньшей вероятностью внесут значимую информацию в ваш индекс.

Отношения масштабированных переменных и индекса

Полученные карты и визуализация данных способствуют дальнейшей корректировке и уточнению индекса. Чтобы узнать больше о дополнительных соображениях при создании и оценке индекса, см. технический документ с рекомендациями.

Дополнительные ресурсы

См. Organisation for Economic Co-operation and Development Handbook on Constructing Composite Indicators: Methodology and User Guide.