Введение в файлы модели пространственной статистики

Файл модели пространственной статистики (.ssm) — это файл, содержащий обученную модель, свойства и диагностику модели анализа, выполненного несколькими инструментами из группы инструментов Моделирования пространственных взаимоотношений. Вы можете использовать файл модели пространственной статистики для построения прогнозов на основе новых наборов данных и безопасно передавать его другим пользователям, которые могут использовать его со своими данными. Например, эколог заповедника может собрать полевые данные об известных местонахождениях исчезающего вида растений и построить модель для прогнозирования других вероятных местонахождений этого вида в пределах изучаемой территории. Затем этим файлом .ssm можно поделиться с другими экологами, чтобы они могли использовать его для прогнозирования местонахождения представителей этого вида в пределах территорий своих исследований. Поскольку данные, используемые для обучения модели, не хранятся в файле .ssm, высокочувствительные исходные местоположения исчезающих видов не будут раскрыты при совместном использовании файла модели.

Для управления файлами .ssm и прогнозирования их работы можно использовать следующие инструменты:

  • Установить свойства файла модели пространственной статистики — задает свойства файла .ssm, включая описания переменных и единицы измерения. Это позволяет объяснить переменные модели и их единицы измерения, чтобы другие могли соответствующим образом использовать этот файл. Например, можно указать, что независимые объекты расстояния представляет расстояния до больниц, измеряемые в милях США, чтобы другие могли знать, что модель следует использовать только для определенного типа данных.
  • Описать файл модели пространственной статистики — обеспечивает просмотр свойств файла .ssm, включая метод анализа, имена наборов данных, свойства и диагностику модели. Это позволяет понять, что означает каждая переменная, чтобы правильно сопоставлять все переменные, наборы данных и единицы измерения при использовании файла для составления прогнозов на основе новых данных.
  • Прогнозировать, используя файл модели пространственной статистики — Используйте файл .ssm для составления прогнозов с новыми наборами данных. Вы должны сопоставить каждую переменную или набор данных в файле .ssm с новым набором данных, имеющим тот же тип и единицу измерения. Например, для независимой переменной в файле модели может потребоваться растр значений температур, измеренных в градусах Цельсия.

Вы можете создать файл .ssm, используя параметр Выходной файл обученной модели в следующих инструментах:

Рабочий процесс с файлом модели пространственной статистики

Примеры применения

Следующие сценарии описывают аналитические рабочие процессы, в которых файл .ssm может быть полезен.

Сценарий 1: Повторное использование модели для сокращения времени ее обучения

При выполнении аналитического моделирования с большими наборами данных, процесс обучения может занять очень много времени и потребовать дорогостоящего компьютерного оборудования. Во многих случаях также потребуется несколько раз обучить модель для точной настройки параметров. После выбора параметров модели, которые дают наилучшие результаты, вы не захотите повторять этот процесс обучения для каждого будущего набора данных, который будет использоваться для составления прогнозов. Создание файла .ssm с первоначальными результатами обучения позволит повторно использовать его со всеми наборами данных объектов без необходимости повторного обучения модели. Использование одной и той же модели обучения также обеспечивает согласованность прогнозов для всех будущих наборов данных за счет использования одной и той же базовой модели прогнозирования.

Сценарий 2: Поделитесь файлами обученной модели с другими

Можно поделиться файлом .ssm с другими пользователями, которые хотят использовать модель со своими данными. Поскольку данные, использованные для создания модели, недоступны непосредственно из файла модели, вы можете поделиться ими, не раскрывая конфиденциальных данных, которые были использованы для ее обучения. Прежде чем предоставить доступ к модели, можно использовать инструмент Установить свойства модели пространственной статистики, чтобы добавить описания переменных и единицы измерения переменных. Это будет полезно другим пользователям, чтобы они знали, какие типы данных и какие единицы измерения использовать при составлении прогнозов с помощью данного файла. После получения файла модели получатель может просмотреть свойства и диагностику модели с помощью инструмента Описать файл модели пространственной статистики, а затем делать прогнозы на основе своих данных с помощью инструмента Прогнозировать, используя файл модели пространственной статистики.

Сценарий 3: Автоматизация анализа сервисов потоковой передачи данных

При работе с регулярно обновляемыми данными, такими как сервис потоковой передачи данных о местоположениях лесных пожаров, использование файла .ssm обеспечивает простую автоматизацию процесса по мере поступления новых данных. При каждом обновлении данных можно быстро повторно использовать файл .ssm в инструменте Прогнозировать, используя файл модели пространственной статистики с обновленными данными.

Содержание файла .ssm

Файл модели хранит всестороннюю информацию о моделях. Помимо описания переменных и единиц измерения, которые создаются с помощью инструмента Установить свойства модели пространственной статистики, файлы .ssm также содержат диагностику модели для проверки точности и надежности модели.

ArcGIS Pro 3.3 и более поздние версии позволяют проводить обучение и прогнозирование с использованием данных с 64-битными типами полей ObjectID и полями больших целых чисел.

Для инструмента Обобщенная линейная регрессия файл .ssm содержит коэффициенты регрессии и диагностические данные, такие как AICc, R2, скорректированный R2, объединенная F-статистика и объединенная статистика Вальда. Смотрите раздел Диагностика интерпретирующего сообщения для получения расширенного списка и описаний диагностики модели.

Для инструмента Классификация на основе леса, расширенная классификация с бустингом и регрессия файл .ssm содержит деревья решений, характеристики модели, диагностику проверки, важность главной переменной и диагностику диапазона независимых переменных. Ошибки модели, не вошедшие в набор (Model Out Of Bag (OOB)), не включены, поскольку эта диагностика не имеет отношения к составлению новых прогнозов и значительно увеличила бы размер файла .ssm. Файлы моделей, созданные с использованием типа модели с градиентным бустингом, поддерживаются в ArcGIS Pro 3.3 и более поздних версиях.

Дополнительную информацию смотрите в разделе Выходное сообщение и диагностика.

Для инструмента Прогнозирование только присутствия (MaxEnt) файл .ssm содержит важную информацию по обученной модели, характеристики модели и сводную информацию, коэффициенты регрессии, сводку по категориям (если какие-либо независимые переменные являются категориальными) и диагностику диапазонов независимых переменных для обучающих данных. Результаты перекрестной проверки и подсчет присутствия и фоновых точек не включены, поскольку они потенциально могут быть использованы для обратного проектирования конфиденциальных данных, используемых для обучения модели, таких как местоположение исчезающих видов. Дополнительную информацию смотрите в разделе Сообщения геообработки.

Рекомендации

При создании и использовании файлов .ssm следует учитывать следующие факторы:

  • Чтобы сделать модель более прозрачной и значимой для совместного применения, вы используете инструмент Установить свойства модели пространственной статистики, чтобы указать описание и единицу измерения для каждой переменной. Документирование переменных и их использование важно для обеспечения научной точности и воспроизводимости.
  • Хотя файлы .ssm напрямую не пакетируют обучающие данные (только результаты обучения) и не хранят наиболее чувствительную диагностику модели, конфиденциальность и безопасность данных по-прежнему являются потенциальной проблемой. Некоторая сложная диагностика модели, такая как матрица неточностей, потенциально может быть использована для обратного проектирования некоторых исходных обучающих данных.
  • При использовании файла .ssm, созданного другими пользователями, следует изучить его свойства с помощью инструмента Описать файл модели пространственной статистики. Описания переменных и единицы измерения особенно важны, и возможно, потребуется вручную преобразовать данные в единицы измерения, принятые моделью, прежде чем использовать их для прогнозирования. Например, может потребоваться преобразовать значения температуры из градусов по Фаренгейту в градусы Цельсия, чтобы прогнозы были точными.

Модель данных HDF5

Файл .ssm использует модель данных иерархического формата данных версии 5 (HDF5) для хранения результатов модели и метаданных. HDF5 обладает следующими преимуществами:

  • HDF5 хранит большие объемы данных в организованной структуре, которая может быть сильно сжата. Например, он может хранить регрессионную модель на основе лесов, обученную с использованием 600 000 объектов и 10 000 деревьев, в файле объемом менее 20 ГБ. Менее эффективная модель данных не смогла бы сохранить такой сложный результат моделирования в обычном файле, которым можно удобно поделиться.
  • HDF5 — это модель данных с самоописанием, что означает, что вы можете прикреплять метаданные непосредственно к наборам данных, вместо того, чтобы разделять данные и метаданные по разным файлам. Такая синхронизация позволяет сделать данные HDF5 прозрачными и доступными без необходимости управлять несколькими файлами, которые необходимо хранить вместе.
  • HDF5 обеспечивает высокую производительность чтения и записи данных. Например, выбор в пользу создания файла .ssm при использовании инструмента пространственной статистики не приведет к заметному увеличению времени работы инструмента. При использовании модели для составления прогнозов на основе новых данных к модели можно быстро получить доступ, чтобы свести к минимуму накладные расходы.

Более подробно о HDF5.

В дополнение к инструментам Установить свойства файла модели пространственной статистики, Описать файл модели пространственной статистики и Прогнозировать, используя файл модели пространственной статистики, вы также можете проверять файлы .ssm с помощью стандартных библиотек HDF5.

В следующем примере кода Python показано, как проверить и распечатать свойства файла .ssm с помощью пакета h5py:

# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close