Стандартизировать поле (Управление данными)

Краткая информация

Стандартизирует значения в полях, конвертируя их в значения, соответствующие заданному масштабу. Методы стандартизации включают z-оценку, минимум-максимум, абсолютный максимум и надежную стандартизацию.

Иллюстрация

Стандартизирует значения в поле.
Стандартизирует значения в поле одним из четырех методов.

Использование

    Внимание:

    Этот инструмент изменяет входные значения. Более подробно о стратегиях предотвращения нежелательных изменений данных см. в разделе Инструменты, которые изменяют или обновляют входные данные.

  • Есть четыре метода стандартизации: Z-оценка, Минимум-максимум, Абсолютный максимум и Надежная стандартизация.

    • Метод Z-оценка измеряет разницу между значением и средним всех значений в поле, используя стандартные отклонения. Он также называется стандартной оценкой.
      • Возможное применение - оценка важности значения в отношении распределения значений в поле. Например, можно оценить участие округа в голосовании в контексте других округов страны, что поможет определить типичные модели участия избирателей и округа с особенно высоким и низким уровнем участия.
      • Замечание: этот метод рассчитан на нормальное распределение. Следовательно, этот метод не рекомендуется использовать в случаях, когда распределение данных сильно искажено.
      • Уравнение - Уравнение Z-оценки, в котором x' - это стандартизированное значение, x - исходное значение, - среднее, а σx - стандартное отклонение.
    • Метод Минимум-максимум сохраняет отношения между исходными значениями при преобразовании значений в шкалу между заданными пользователем минимальным и максимальным значениями.
      • Возможное применение: оценщик недвижимости хочет масштабировать такие характеристики домов, как число комнат в доме или возраст дома в годах, в ту же шкалу перед использованием этой характеристики в модели, например, в инструменте Классификация на основе леса и регрессия.
      • Замечание: этот подход подвержен влиянию выбросов, то есть экстремальных значений данных.
      • Уравнение - Уравнение Минимум-максимум, в котором x' - стандартизированное значение, x - исходное значение, min(x) - минимальное значение, max(x) - максимальное значение, a - заданный пользователем минимум, а b - заданный пользователем максимум.
    • Метод Абсолютный максимум сравнивает разницу между текущим и максимальным абсолютным значениями в распределении путем деления каждого значения на максимальное абсолютное значение поля.

      • Возможное применение: этот метод может пригодиться, если вы работаете с данными, имеющими стабильный и надежный максимум, и вы хотите сравнить каждое значение с этим максимумом. Например, количество поданных в округе голосов не может превышать число жителей округа, имеющих избирательное право. Округ с наибольшей долей голосов становится этим максимумом, и все остальные округа оцениваются по отношению к абсолютному максимальному числу участвовавших в выборах избирателей.
      • Замечание: выходные масштабы находится между -1 и 1. Большие положительные значения соответствуют значениям, близким к 1, а большие отрицательные значения - значениям, близким к -1.
      • Уравнение - Уравнение абсолютного максимума, где x' - стандартизированное значение, x - исходное значение, а max(|x|) - максимальное абсолютное значение данных.

    • Метод Надежной стандартизации стандартизирует значения в указанных полях, используя надежный вариант z-оценки. В этом варианте вместо среднего и стандартного отклонения используются медиана и межквартильный размах.

      • Возможное применение: оценщик недвижимости хочет оценить стоимость жилья в городе, где один конкретный район с чрезвычайно высокой стоимостью домов приводит к появлению выбросов в данных. Оценщик использует надежную стандартизацию, чтобы смягчить влияние этих выбросов на распределение стоимости недвижимости в городе.
      • Замечание: благодаря использованию медианы и межквартильного размаха этот метод может оказаться эффективным в случае необходимости смягчения влияния выбросов в распределении.
      • Уравнение - Уравнение надежной стандартизации, где x' - стандартизированное значение, x - исходное значение, median(x) - медиана данных, а IQR(x) - межквартильный размах данных.

  • Если задано несколько полей, указанный метод стандартизации применяется ко всем полям.

  • Инструмент изменяет входные данные и добавляет вновь созданные стандартизированные поля во входную таблицу или класс пространственных объектов.

  • Для каждого выбранного поля в сообщениях геообработки отображается сводная статистика. Она содержит максимальное и минимальное значения, сумму, среднее, медиану, асимметрию и эксцесс.

Параметры

ПодписьОписаниеТип данных
Входная таблица

Таблица, содержащая поля со стандартизируемыми значениями.

Table View; Raster Layer; Mosaic Layer
Поле для стандартизации

Поля, содержащие значения, которые будут стандартизироваться. Для каждого поля можно указать имя выходного поля. Если имя выходного поля не указано, инструмент создаст имя выходного поля, используя имя поля и выбранный метод.

Value Table
Метод стандартизации
(Дополнительный)

Задает метод, используемый для стандартизации значений, содержащихся в указанных полях.

  • Z-ОценкаИспользуется стандартная оценка, которая представляет собой число стандартных отклонений выше или ниже среднего. Вычисление представляет собой формулу Z-оценки, которая вычисляет разницу между текущим и средним значением в столбце, деленную на стандартное отклонение значений в столбце. Это значение по умолчанию
  • Минимум – максимумЗначения преобразуются в шкалу между заданными пользователем минимальным и максимальным значениями.
  • Абсолютный максимумКаждое значение в столбце делится на максимальное абсолютное значение в столбце.
  • Надежная стандартизацияНадежный вариант формулы Z-оценки используется для стандартизации значений в указанных полях. В этом варианте вместо среднего и стандартного отклонения используются медиана и межквартильный размах.
String
Минимальное значение
(Дополнительный)

Значение, используемое методом Минимум-максимум параметра Метод стандартизации, для указания минимального значения в шкале предоставленных выходных значений.

Double
Максимальное значение
(Дополнительный)

Значение, используемое методом Минимум-максимум параметра Метод стандартизации, для указания максимального значения в масштабе предоставленных выходных значений.

Double

Производные выходные данные

ПодписьОписаниеТип данных
Обновленная входная таблица

Таблица, содержащая новые закодированные поля.

Table View

arcpy.management.StandardizeField(in_table, fields, {method}, {min_value}, {max_value})
ИмяОписаниеТип данных
in_table

Таблица, содержащая поля со стандартизируемыми значениями.

Table View; Raster Layer; Mosaic Layer
fields
[[input_field, output_field],...]

Поля, содержащие значения, которые будут стандартизироваться. Для каждого поля можно указать имя выходного поля. Если имя выходного поля не указано, инструмент создаст имя выходного поля, используя имя поля и выбранный метод.

Value Table
method
(Дополнительный)

Задает метод, используемый для стандартизации значений, содержащихся в указанных полях.

  • Z-SCOREИспользуется стандартная оценка, которая представляет собой число стандартных отклонений выше или ниже среднего. Вычисление представляет собой формулу Z-оценки, которая вычисляет разницу между текущим и средним значением в столбце, деленную на стандартное отклонение значений в столбце. Это значение по умолчанию
  • MIN-MAXЗначения преобразуются в шкалу между заданными пользователем минимальным и максимальным значениями.
  • MAXABSКаждое значение в столбце делится на максимальное абсолютное значение в столбце.
  • ROBUSTНадежный вариант формулы Z-оценки используется для стандартизации значений в указанных полях. В этом варианте вместо среднего и стандартного отклонения используются медиана и межквартильный размах.
String
min_value
(Дополнительный)

Значение, используемое методом MIN-MAX параметра method, для указания минимального значения в масштабе предоставленных выходных значений.

Double
max_value
(Дополнительный)

Значение, используемое методом MIN-MAX параметра method для указания максимального значения в шкале предоставленных выходных значений.

Double

Производные выходные данные

ИмяОписаниеТип данных
updated_table

Таблица, содержащая новые закодированные поля.

Table View

Пример кода

StandardizeField, пример 1 (окно Python)

В следующем скрипте окна Python показано, как используется инструмент StandardizeField.


arcpy.management.StandardizeField("County_VoterTurnout", 
       "voter_turnout voter_turnout_Z_SCORE", "Z-SCORE")
StandardizeField, пример 2 (автономный скрипт)

В следующем автономном скрипте показано, как использовать инструмент StandardizeField.


# Import system modules
import arcpy

try:
    # Set the workspace and input features.
    arcpy.env.workspace = r"C:\\Standardize\\MyData.gdb"
    inputFeatures = ”County_VoterTurnout”

    # Set the input fields that will be standardized
    fields = "votes_total;rawdiff_dem_vs_gop;pctdiff_dem_vs_gop"

    # Set the standardization method.
    method = "ROBUST"

    # Run the Standardize Field tool
    arcpy.management.StandardizeField(inputFeatures, fields, method)

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Параметры среды