Использование записей хранилища Microsoft Azure—ArcGIS Data Pipelines

Используйте записи из файлов, хранящихся в хранилище Microsoft Azure, в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с источником хранилища Microsoft Azure нужно учитывать следующее:

Чтобы использовать набор данных из хранилища Azure, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните шаги, описанные в разделе Подключение к хранилищу Azure.
Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
- Добавить хранилище данных — создайте новый элемент хранилища данных.
- Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
Используйте параметр Путь в наборе данных, чтобы указать имя набора данных или имя папки, содержащей набор данных. Например, вы можете указать пути к наборам данных следующими способами:
- Сошлитесь на отдельный файл, указав путь к этому файлу, например Hurricanes.shp или CustomerInfo.csv.
- Сошлитесь на папку, содержащую несколько наборов данных, указав путь, например MyFolder/. Все файлы в папке должны иметь одинаковую схему и тип файла.
- Ссылайтесь на определенные типы файлов из папки, содержащей несколько файлов и форматов, указав путь, например MyFolder/*.parquet. В этом примере будут прочитаны только файлы parquet. Все файлы parquet в папке должны иметь одинаковую схему.
- Ссылайтесь на несколько файлов и вложенных папок, используя шаблоны glob, указав путь, например MyFolder/**/*.geojson. В этом примере будут загружены все подпапки в MyFolder и все файлы GeoJSON в этих подпапках.
Путь к набору данных также должен быть относительным к контейнеру и папке, которые были указаны при создании элемента хранилища данных. Например, если полный путь к набору данных — https://myaccount.blob.core.windows.net/my-container/my-folder/my-subfolder/file.csv, а элемент хранилища данных указывает my-container для контейнера, и для папки - my-folder, то путь к набору данных должен быть my-subfolder/file.csv.
Используйте параметр Формат файла, чтобы указать формат файла набора данных, указанного в параметре Путь к набору данных. Доступны следующие форматы:
- CSV или с разделителями (например, .csv, .tsv и .txt)
- Parquet (.parquet)
- GeoParquet (.parquet)
- JSON (например, .json или файл .txt, содержащий данные в формате JSON)
- GeoJSON (например, .json и .geojson, или файл .txt, содержащий данные в формате GeoJSON)
- Шейп-файл (.shp)
- Файловая база геоданных (.gdb)
- ORC (.orc)
Если указана опция формата CSV или с разделителями, доступны следующие параметры определения набора данных:
- Разделитель — Разделитель, используемый для разделения значений поля (или столбца) и записи (или строки). Вы можете выбрать из следующих вариантов или ввести свое собственное значение:
  - Запятая (,) — Значения полей и записей разделяются запятыми (,). Используется по умолчанию.
  - Табуляция (\t) — Значения полей и записей разделяются табуляцией (\t).
  - Вертикальная линия (|) — Значения полей и записей разделяются вертикальными линиями (|).
  - Точка с запятой (;) — Значения полей и записей разделяются точкой с запятой (;).
  - Пробел ( ) — Значения полей и записей разделяются пробелами ( ).
  Если вы вводите свое собственное значение, его длина должна составлять один или два символа, включая пробелы. Разделители длиной более двух символов не поддерживаются.
- Содержит строку заголовка — Указывает, содержит ли набор данных строку заголовка. Значением по умолчанию является true. Если установлено значение false, первая строка набора данных будет считаться записью.
- Содержит мультилинейные данные — Указывает, содержит ли набор данных записи, содержащие символы новой строки. Значением по умолчанию является false. Если установлено значение true, данные, содержащие мультилинейные данные, будут прочитаны и отформатированы корректно.
- Кодировка символов — Указывает тип кодировки, используемый для чтения указанного набора данных. По умолчанию это будет UTF-8. Вы можете выбрать один из доступных опций кодировки или указать тип кодировки. Пробелы не поддерживаются в значениях кодировки. Например формат значения ISO 8859-8 недопустим, должно быть ISO-8859-8.

Поля доступны для настройки имен и типов полей, если значение формата данных — CSV или с разделителями. Кнопка Настроить схему открывает диалоговое окно, содержащее поля набора данных со следующими параметрами:

Включить или удалить поля — Вы можете удалить поля, поставив отметку рядом с полем. По умолчанию включаются все поля.
Имя поля — Имя поля, которое будет использоваться в Data Pipelines. Это значение можно изменить. По умолчанию это значение будет соответствовать полю исходного набора данных, если имя источника не содержит недопустимых символов и не является зарезервированным словом. Недопустимые символы будут заменены подчеркиванием (_), а зарезервированные слова будут содержать префикс - подчеркивание (_).
Тип поля — Тип поля, который будет использоваться в Data Pipelines.

Удаление или изменение полей в Data Pipelines не меняет исходные данные.

В следующей таблице приводится описание доступных типов полей:


Тип поля	Описание
Строка	Текстовые поля поддерживают строку текстовых символов.
Small integer	Поля типа Small integer поддерживают целые числа в диапазоне от -32768 до 32767.
Integer	Поля типа Integer поддерживают целые числа в диапазоне от -2147483648 до 2147483647.
Big integer	Поля типа Big integer поддерживают целые числа в диапазоне от -9223372036854776000 до 9223372036854776000.
Float	Поля типа с плавающей точкой поддерживают дробные числа приблизительно от -3.4E38 до 3.4E38.
Double	Поля типа двойной точности поддерживают дробные числа приблизительно от -2.2E308 до 1.8E308.
Дата	Поля типа дата поддерживают значения в формате yyyy-MM-dd HH:mm:ss, например допустимо значение 2025-12-31 13:30:30. Если значения даты хранятся в другом формате, используйте инструмент Создать дату и время, чтобы вычислить поле дата.
Только дата	Поля типа дата поддерживают значения в формате yyyy-MM-dd, например допустимо значение 2025-12-31. Если значения, содержащие только дату, хранятся в другом формате, используйте эти значения в качестве входных данных для инструмента Вычислить поле, чтобы вычислить поле, содержащее только дату.
Boolean	Поля Boolean поддерживают значения True и False. Если есть поле, содержащее целочисленные представления значений Boolean (0 и 1), используйте инструмент Обновить поля, чтобы вместо этого привести целые числа к логическим значениям Boolean.

Если указана опция формата JSON, доступен параметр Корневое свойство. С помощью этого параметра можно указать свойство в JSON для чтения данных. Вы можете ссылаться на вложенные свойства, используя десятичный разделитель между каждым свойством, например, property.subProperty. По умолчанию будет прочитан полный файл JSON.
Если указана опция формата GeoJSON, доступен параметр Тип геометрии. Это дополнительный параметр. По умолчанию используется тип геометрии в файле GeoJSON. Если файл GeoJSON содержит несколько типов геометрии, необходимо указать значение этого параметра. Смешанные типы геометрии не поддерживаются, и будет использован только указанный тип. Возможны опции Точечный, Мультиточечный, Полилинейный и Полигональный. Поле геометрии, содержащее местоположения данных GeoJSON, будет автоматически рассчитано и добавлено во входной набор данных. Поле геометрии можно использовать в качестве входных данных для пространственных операций или для включения геометрии в выходной результат.
Если указана опция формат Файловой базы геоданных, то доступен параметр Класс объектов или имя таблицы. Используйте этот параметр, чтобы указать имя класса объектов или таблицы, которую вы хотите использовать в качестве входных данных. Поддерживаются только классы точечных, мультиточечных, полилинейных и полигональных объектов и таблицы. Не поддерживаются такие наборы данных, как растровые, наборы данных мозаики и траектории. Не поддерживаются продвинутые типы объектов, например, объекты геометрической сети.
Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
  - Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
  - Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
  - Выбрать поля — Сохраняет только поля интереса.
  - Вырезание — Сохраняет подмножество записей, которые пересекаются с определенными геометриями.

Подключиться к хранилищу Azure

Чтобы использовать данные, находящиеся в Хранилище Azure, выполните следующие шаги для создания элемента хранилища данных в редакторе Data Pipelines.

На панели инструментов редактор Data Pipelines щелкните Входные данные и выберите Хранилище Microsoft Azure.
Появится диалоговое окно Выбрать подключение к хранилищу данных.
Выберите Добавить новое хранилище данных.
Щелкните Далее.
Появится диалоговое окно Добавить подключение к хранилищу данных.
Выберите тип аутентификации, используемый для доступа к данным.
Укажите значения аутентификации.
Значения аутентификации различаются в зависимости от выбранного типа аутентификации.
Укажите имя контейнера, в котором хранятся данные.
Дополнительно укажите путь к папке внутри контейнера, чтобы зарегистрировать ее.
Щелкните Далее.
Откроется страница с информацией об элементе.
Щелкните Создать подключение, чтобы создать элемент хранилища данных.
Откроется диалоговое окно Выбрать наборы данных.
Укажите путь к набору данных, который будет использоваться в качестве входных данных для конвейера данных.
Укажите формат файла набора данных, указанный в предыдущем шаге.
Щёлкните Добавить.
Элемент Хранилище Microsoft Azure добавляется на канву.

Ограничения

Известны следующие ограничения:

Ваша учетная запись должны иметь как минимум права READ и LIST. Эти разрешения позволяют получить доступ к указанному контейнеру и читать наборы данных внутри него.
Если вы указываете папку, содержащую несколько файлов, представляющих один набор данных, все файлы, идентифицированные в папке хранилища Azure, должны иметь одинаковую схему и тип геометрии.
Архивированные файлы (.zip) не поддерживаются.
Файлы Esri JSON (.esrijson) не поддерживаются.
В данных Azure, являющихся входными для Data Pipelines, должна быть отключена опция Включить мягкое удаление для Blob.
Если набор данных содержит имена полей с пробелами или недопустимыми символами, имена автоматически обновляются для использования подчеркивания. Например, поле с именем Population 2022 переименовывается в Population_2022, а поле %Employed в _Employed.
Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

Тип пользователя Creator или Professional
Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования

Отзыв по этому разделу?