Работа со статистикой

Вы можете оценить качество и распределение значений в каждом поле в ваших данных с помощью инженерии данных (data engineering). Например, количество нулевых значений в поле может оказаться полезной метрикой данных при выявлении объектов с отсутствующими данными. Описательная статистика, например, среднее, стандартное отклонение и эксцесс, может помочь в понимании распределения значений в полях, а также оценить то, как их обрабатывать при использовании поля в анализе.

Вид Data Engineering в AllSource позволяет показать описательную статистику и метрики для полей интереса ваших данных в табличном формате, где каждое поле представлено как строка, а каждый тип статистики - как столбец. Вы можете использовать эту таблицу для дальнейшего изучения данных и исправления ошибок в них через доступ к настройке символов, созданию графиков и запуску инструментов геообработки, соответствующих каждой метрике и свойству выбранного поля.

Выбор полей и вычисление статистики

Когда вы открываете вид Data Engineering, он содержит две панели: одна показывает поля в данных, а другая - таблицу статистики для полей (когда они были выбраны и вычислены)

Более подробно о виде Data Engineering

Для начала щелкните на поле на панели полей, нажмите Ctrl и щелчок, чтобы выбрать несколько полей по отдельности, либо Shift и щелчок, чтобы выбрать поля подряд. Затем перетащите поля на панели статистики.

Выбор и перетаскивание полей на панели статистики.

Либо вы можете щелкнуть правой кнопкой мыши на выбранных полях и щелкнуть Добавить к статистике или Добавить к статистике и вычислить.

Примечание:

Вы также можете добавить и вычислить все поля одним действием, щелкнув кнопку Добавить поля и вычислить статистику Добавить поля и вычислить статистику на панели инструментов Панель Поля или щелкнув кнопку Добавить все поля и вычислить в середине пустой панели статистики перед добавлением полей.

Когда поля будут добавлены, они будут отображены как строки в таблице статистики. Каждая строка содержит имя поля, псевдоним и тип данных выбранных полей. Дополнительно может появиться ряд столбцов со статистикой, которые содержат дополнительную информацию о выбранных полях после выполненных вычислений.

Для заполнения сведений в столбцах статистики для выбранных полей щелкните кнопку Вычислить. Во время вычисления статистики кнопка Вычислить меняется на кнопку Отмена, которую можно нажать, чтобы отменить вычисление.

Кнопка Вычислить

Столбцы статистики будут заполнены сведениями по каждому из полей в данных.

Таблица статистики со статистикой и графиками для каждого поля

Если у вас есть выбранные записи, то результат будет соответствовать только выбранным записям в данных. Количество выбранных элементов и количество объектов, которые использовались для вычисления статистики, будет показано внизу таблицы.

Если у вас есть ожидающие правки в векторном слое или таблице, то они также используются в этом вычислении.

Типы статистики

В виде Data Engineering вы можете вычислить и показать статистику и метрики качества данных для каждого поля в данных в виде столбцов таблицы. После того, как значения будут вычислены, щелкните правой кнопкой на ячейках статистики для каждого поля, чтобы получить доступ к дополнительной функциональности, связанной с данной статистикой. Некоторые из этих функций используют инструменты геообработки, которые изменяют входные данные. Если данные не являются редактируемыми, сделайте редактируемую копию перед тем, как приступите к инженерии данных.

Примечание:

То, как будут округлены результаты в таблице статистики, зависит от величины значения По крайней мере, один десятичный знак отображается для статистики с десятичными знаками, но дополнительные десятичные знаки добавляются только в том случае, если поддерживается ошибка округления менее 1 процента.

СтатистикаОписаниеДопустимые типы данныхОпции меню

Значения NULL

Количество и процент от общего числа записей, содержащих пустые значения в поле.

Чтобы выбрать записи, которые содержат пустые значения, щелкните правой кнопкой мыши на ячейках в этом столбце.

Примечание:

Если в символах этого слоя не настроено отображение пустых значений, выборка может не отобразиться на карте. Настройте символы на показ значений за пределами диапазона, чтобы показать объекты с пустыми значениями.

Числовые, текст, даты

Предварительный просмотр диаграммы

Визуальное представление распределения значений в поле.

Для числовых полей (short, long, float, double) будут показаны гистограммы, для категорийных полей (текст) будут показаны столбчатые диаграммы, а для полей типа дат - диаграммы-графики.

Используйте столбец предварительного просмотра диаграммы для первичного изучения. Чтобы создать диаграммы для нужных полей, щелкните правой кнопкой на ячейках в этом столбце.

Примечание:

Гистограммы и диаграммы-графики по умолчанию отображаются с 20 ячейками. В зависимости от разреженности данных могут быть ячейки, которые не содержат данных, а ячейки с пустыми значениями обрабатываются как нулевые в предварительном просмотре диаграммы. Чтобы изменить уровень детализации, щелкните правой кнопкой мыши на предварительном просмотре диаграммы и создайте ее.

Чтобы отобразить Подсказку инструмента с дополнительной информацией, наведите курсор на столбчатые диаграммы или диаграммы-графики. Для столбчатых диаграмм Подсказка отображает наиболее частые категории, а для диаграмм-графиков описывает количество и продолжительность интервалов на диаграмме.

Примечание:

Для интервальных описаний полей даты месяц считается равным 30 дням. Например, интервал в 3,2 месяца соответствует 96 дням.

Числовые, текст, даты

Минимум

Наименьшее значение в поле.

Чтобы выбрать записи, которые содержат минимальное значение, щелкните правой кнопкой мыши на ячейках в этом столбце.

Числовые, даты

Максимум

Наибольшее значение в поле.

Чтобы выбрать записи, которые содержат максимальное значение, щелкните правой кнопкой мыши на ячейках в этом столбце.

Числовые, даты

Среднее

Среднее из всех значений в поле.

Среднее - это среднее значение в распределении, рассчитываемое как сумма значений, деленная на общее количество значений в поле. Среднее значение является наиболее распространенной мерой центральной тенденции в распределении.

Чтобы вычислить среднюю дату для полей даты, каждая дата преобразуется в число путем вычисления разницы между датой и контрольной датой (например, 1900-01-01), рассчитанной в миллисекундах. Сумма всех значений в миллисекундах, деленная на количество значений даты, дает среднюю дату, которая для отображения округляется до ближайшей секунды.

Примечание:

Средняя дата может иметь другое временное разрешение (т.е. минуты, секунды, миллисекунды), что и значения в поле.

Чтобы выбрать записи, содержащие значения выше и ниже среднего, щелкните правой кнопкой мыши ячейки в этом столбце.

Числовые, даты

  • Выбрать (выбрать строки ниже или выше среднего)

Стандартное отклонение

Стандартное отклонение значений в поле.

Стандартное отклонение - это измеренеие разброса в распределении. Он рассчитывается как квадратный корень из дисперсии, в которой дисперсия представляет собой среднее значение квадрата разницы каждого значения от среднего значения поля.

Число

Медиана

Медиана для всех значений в поле.

Медиана - это серединное значение в отсортированном списке значений. Если имеется четное количество значений, медиана - это среднее между двумя средними значениями в распределении.

Чтобы выбрать записи, содержащие значения выше медианы и значения ниже медианы, щелкните правой кнопкой мыши ячейки в этом столбце.

Числовые, даты

  • Выбрать (выбрать сроки ниже или выше среднего)

Количество

Количество и процент от общего числа ненулевых значений в поле.

Числовые, текст, даты

  • Выбрать все (выбрать строки, которые были частью вычисленной статистики)

Количество уникальных значений

Количество уникальных значений в поле.

Числовые, текст, даты

Нет уникальных действий

Мода

Мода для всех значений в поле.

Мода - это наиболее часто встречающееся значение в поле. В случае связей, когда наиболее часто встречающееся значение в поле соответствует нескольким значениям, в ячейке отображается [Несколько значений], а вы можете навести курсор на ячейку, чтобы отобразить значения моды и их частоту. Когда все значения в поле уникальные, в ячейке отображается [Все уникальные значения].

Чтобы выбрать записи, которые содержат моду, щелкните правой кнопкой мыши на ячейках в этом столбце.

Числовые, текст, даты

  • Выбрать моду (выбрать строки со значением режим - только для целочисленных, текстовых полей и полей даты)

Наименьшее общее

Наименьшее общее значение в поле.

В случае связей, когда наиболее наименьшее общее значение в поле соответствует нескольким значениям, в ячейке отображается [Несколько значений], а вы можете навести курсор на ячейку, чтобы отобразить наименьшие общие значения и их частоту. Когда все значения в поле уникальные, в ячейке отображается [Все уникальные значения].

Чтобы выбрать записи, которые содержат наименьшее общее, щелкните правой кнопкой мыши на ячейках в этом столбце.

Числовые, текст, даты

  • Выбрать наименьшее общее (выбрать строки с наименьшим общим значением - только для целочисленных, текстовых полей и полей даты).

Выбросы

Количество записей со значениями выбросов в поле.

Выбросы - это значения, которые более чем в 1,5 раза превышают межквартильный диапазон выше третьего квартиля или ниже первого квартиля выбранного поля.

Чтобы выбрать записи, которые содержат значения выбросов (или все значения, кроме выбросов), щелкните правой кнопкой мыши на ячейках в этом столбце.

Число

  • Выбрать выбросы (выбрать строки с выбросами)
  • Выбрать не выбросы (выбрать строки, которые не являются выбросами)

Сумма

Сумма всех значений в поле.

Число

Нет уникальных действий

Диапазон

Разница между наименьшим и наибольшим значениями в поле.

Для полей даты диапазон представляет собой промежуток времени между самой ранней датой и самой поздней датой, найденной в поле.

Примечание:

Для диапазона поля даты месяц считается равным 30 дням. Например, диапазон 3,2 месяца соответствует 96 дням.

Числовые, даты

Нет уникальных действий

Межквартильный диапазон

Диапазон между значениями первого и третьего квартилей в поле.

Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Значение первого квартиля - это верхняя граница первой группы в порядке возрастания, а третья квартиль - верхняя граница третьей группы.

Чтобы выбрать записи в пределах этого диапазона, щелкните правой кнопкой мыши ячейки в этом столбце.

Число

Квартиль 1

Значение первого квартиля в поле.

Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Значение первого квартиля - это верхняя граница первой группы в порядке возрастания.

В случае ничьей отображается среднее всех соответствующих значений.

Чтобы выбрать записи, содержащие значения выше и ниже первого квартиля, щелкните правой кнопкой мыши ячейки в этом столбце.

Числовые, даты

Квартиль 3

Значение третьего квартиля в поле.

Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Третий квартиль - верхняя граница третьей группы.

В случае ничьей отображается среднее всех соответствующих значений.

Чтобы выбрать записи, содержащие значения выше и ниже третьего квартиля, щелкните правой кнопкой мыши ячейки в этом столбце.

Числовые, даты

Коэффициент дисперсии

Коэффициент дисперсии для значений в поле.

Коэффициент дисперсии - это мера относительного разброса значений. Он рассчитывается как стандартное отклонение, деленное на среднее значение поля.

В отличие от стандартного отклонения, которое всегда следует рассматривать в контексте диапазона данных, коэффициент вариации позволяет сравнивать ряды данных с различными диапазонами и средними значениями.

Коэффициент дисперсии невозможно вычислить, если среднее значение равно нулю. Если среднее значение близко к нулю, а в наборе данных есть положительные и отрицательные значения, то интерпретация коэффициента дисперсии может оказаться бессмысленной.

Число

Асимметрия

Асимметрия значений в поле.

Асимметрия – это показатель симметрии распределения. Асимметрия равна нулю (или близка к нулю), если распределение симметрично с обеих сторон, как видно из нормального распределения. Распределения с более длинными хвостами слева имеют отрицательную асимметрию, а распределения с более длинными хвостами справа имеют положительную асимметрию.

Асимметрия рассчитывается как третий момент (среднее значение данных в кубе), деленный на стандартное отклонение в кубе.

Число

Эксцесс

Эксцесс значений в поле.

Эксцесс описывает тяжесть хвостов распределения по сравнению с хвостами нормального распределения, помогая определить частоту экстремальных значений. Распределения с эксцессом меньше трех имеют более легкие хвосты и меньше экстремальных значений, чем нормальное распределение, а распределения с эксцессом больше трех имеют более тяжелые хвосты и более экстремальные значения, чем нормальное распределение.

Эксцесс рассчитывается как четвертый момент (ожидаемое значение значений данных, взятых в четвертой степени), деленный на четвертую степень стандартного отклонения.

Число

Интерактивная табличная статистика

Статистическая таблица является интерактивной. Щелкните правой правой кнопкой на ячейках или заголовках, а затем используйте панель инструментов для доступа к различным функциям.

Взаимодействие с полями

Щелкните правой кнопкой мыши на заголовке строки, чтобы перейти к функциональности, которая применима к выбранному полю, например:

  • Создать диаграмму - создать диаграммы на основе выбранного поля. Предложенные рекомендации зависят от типа данных.
  • Поля - открыть вид Поля и установить текущее поле в качестве активного поля в представлении.
  • Таблица атрибутов - открыть таблицу атрибутов и задать текущее поле в качестве активного поля в таблице атрибутов.
  • Очистка, Построение, Интеграция и Форматирование—доступ к инструментам геообработки для подготовки данных. См. Подготовка данных, чтобы узнать больше об этих опциях.
  • Удалить поле - удалить поле и очистить его статистику из таблицы статистики.

Примечание:

Большинство операций геообработки, изменяющих входные данные, нельзя отменить.

Возможные опции для строки в таблице статистики

Взаимодействие с ячейками

Щелкните правой кнопкой мыши на ячейку, чтобы получить доступ к функциональности, применимой к выбранной ячейке. Для всех ячеек можно применить Копировать, чтобы копировать значение ячейки в буфер обмена. Для ячеек в столбце Предварительный просмотр диаграммы можно открыть диаграмму ячейки по умолчанию или создать диаграмму, применимую к типу данных ячейки. Для всех остальных столбцов доступны параметры контекстно-зависимого выбора и опции инструмента геообработки. Например, столбец Среднеквадратическое отклонение позволяет выбирать записи в пределах одного, двух или трех стандартных отклонений от среднего значения и содержит ссылки на инструменты Стандартизировать поле и Трансформировать поле. См. таблицу Типы статистики в разделе ниже, чтобы изучить список всех доступных опций и функций для каждого столбца.

Примечание:

Контекстно-зависимый выбор отключен в следующих двух случаях:

  • Когда вычисление статистики производилось по выборке. Чтобы делать выборки по вычисляемой статистике из выборки на слое, вы можете создать слой выборки.
  • Когда одиночное выбранное значение имеет тип данных float или double.

Отображение определенных типов данных

Панель инструментов таблицы статистики включает опции для определения того, какие поля и столбцы статистики будут отображены на основе типа данных.

Фильтр полей по типу данных

Например, вы можете щелкнуть опцию Текст, чтобы удалить поля данных типа текст.

Когда вы удаляете типы данных из таблицы статистики, то столбцы, которые являются уникальными для удаленных типов данных, также удаляются. За счет этого таблицу будет легче просматривать. Например, если вы отображаете только поля типа даты, столбцы, описывающие распределения, такие как асимметрия и эксцесс, убираются, поэтому количество столбцов сокращается до тех, которые представляют интерес.

Сортировка, скрывание, закрепление и изменение порядка столбцов

По умолчанию поля отображаются в том же порядке, что и в таблице атрибутов. Опции для заголовков столбцов позволяют сортировать, скрывать и закреплять столбцы в таблице.

Опции для столбце Number of Nulls в таблице статистики

Сортировка позволяе вам изменить порядок строк на основе значений в вычисленной статистике. Например, вы можете отсортировать поля по столбцу значения NULL, чтобы узнать, в каких полях отсутсвуют данные.

Примечание:

Вы можете выполнить сортировку, только если таблица содержит поля с одним типом данных. Используйте опции отображения на панели инструментов, чтобы отфильтровать по указанному типу данных, а затем отсортировать. Порядок сортировки сбрасывается до настройки по умолчанию каждый раз, когда в таблицу статистики добавляется новое поле.

Щелкните Закрепить/Открепить, чтобы переместить столбец в начало таблицы статистики и зафиксировать его на месте, чтобы столбец отображался при прокрутке таблицы по горизонтали. Чтобы изменить порядок столбцов, переместите заголовок столбца в новое место.

Чтобы скрыть столбцы, щелкните Скрыть столбец. Таким образом вы удалите столбец из вида. Чтобы показать все скрытые столбцы, щелкните Показать все столбцы.

Опция Показать все столбцы

Чтобы удалить все поля и их статистику из таблицы статистики, нажмите Удалить все поля. Если удаленное поле добавляется обратно в таблицу статистики, вам нужно будет снова нажать кнопку Вычислить, чтобы просмотреть его статистику.

Экспорт статистики

Чтобы использовать статистику в других компонентах AllSource, сохраните статистику как автономную таблицу. Щелкните Экспорт статистики как таблицы, чтобы открыть инструмент Статистика поля в таблицу. Эта опция позволяет экспортировать статистику как одну таблицу или как отдельные таблицы для каждого типа данных.

Справочная информация