Skip To Content

Использование записей хранилища Microsoft Azure

Используйте записи из файлов, хранящихся в хранилище Microsoft Azure, в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с источником хранилища Microsoft Azure нужно учитывать следующее:

  • Чтобы использовать набор данных из хранилища Azure, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните шаги, описанные в разделе Подключение к хранилищу Azure.
  • Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
    • Добавить хранилище данных — создайте новый элемент хранилища данных.
    • Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
  • Укажите набор данных или папку, содержащую набор данных, используя параметр Путь к набору данных. Например, набор данных MyHurricanesDataset ссылается на один файл, а MyFolder/ ссылается на коллекцию файлов, которые можно использовать как единый набор данных. Наборы данных в папке должны иметь одинаковую схему и тип файла, чтобы использоваться как единый набор данных. Если папка содержит файлы разных типов, вы можете указать файлы с помощью подстановочного знака. Например, если папка содержит как файлы .csv, так и .orc, вы можете указать только файлы .orc, используя значение пути MyFolder/*.orc.
  • Используйте параметр Формат файла, чтобы указать формат файла набора данных, указанного в параметре Путь к набору данных. Доступны следующие форматы:
    • CSV или с разделителями (например, .csv, .tsv и .txt)
    • JSON (например, .json или файл .txt, содержащий данные, отформатированные как JSON )
    • Шейп-файл (.shp)
    • GeoJSON (например, .json и .geojson, или файл .txt, содержащий данные в формате GeoJSON)
    • ORC (.orc)
    • Parquet (.parquet)
  • Если указана опция формата CSV или с разделителями, доступны следующие параметры определения набора данных:
    • Разделитель — разделитель, используемый для разделения значений поля (или столбца) и записи (или строки). Разделитель по умолчанию — запятая (,). Другие общие форматы разделителей включают, помимо прочего, табуляцию (\t), точку с запятой (;), вертикальную черту (|), прямую и обратную косые черты (/ и \).
    • Содержит строку заголовка — Указывает, содержит ли набор данных строку заголовка. Значением по умолчанию является true. Если установлено значение false, первая строка набора данных будет считаться записью.
    • Содержит мультилинейные данные — Указывает, содержит ли набор данных записи, содержащие символы новой строки. Значением по умолчанию является false. Если установлено значение true, данные, содержащие мультилинейные данные, будут прочитаны и отформатированы корректно.
    • Кодировка символов — указывает тип кодировки, используемый для чтения указанного набора данных. По умолчанию это будет UTF-8. Вы можете выбрать один из доступных опций кодировки или указать тип кодировки. Пробелы не поддерживаются в значениях кодировки. Например формат значения ISO 8859-8 недопустим, должно быть ISO-8859-8.
  • Поля доступны для настройки имен и типов полей, если значение формата данных — CSV или с разделителями. Кнопка Настроить схему открывает диалоговое окно, содержащее поля набора данных со следующими параметрами:
    • Включить или удалить поля — вы можете удалить поля, поставив отметку рядом с полем. По умолчанию включаются все поля.
    • Имя поля - имя поля, которое будет использоваться в Data Pipelines. Это значение можно изменить. По умолчанию это значение будет соответствовать полю исходного набора данных, если имя источника не содержит недопустимых символов и не является зарезервированным словом. Недопустимые символы будут заменены подчеркиванием (_), а зарезервированные слова будут содержать префикс - подчеркивание (_).
    • Тип поля — тип поля, который будет использоваться в Data Pipelines. Это значение можно изменить.
    В следующей таблице приводится описание доступных типов полей:

    Тип поляОписание

    String

    Текстовые поля поддерживают строку текстовых символов.

    Small integer

    Поля типа Small integer поддерживают целые числа в диапазоне от -32768 до 32767.

    Integer

    Поля типа Integer поддерживают целые числа в диапазоне от -2147483648 до 2147483647.

    Большое целое

    Поля типа Big integer поддерживают целые числа в диапазоне от -9223372036854776000 до 9223372036854776000.

    Float

    Поля типа с плавающей точкой поддерживают дробные числа приблизительно от -3.4E38 до 3.4E38.

    Double

    Поля типа двойной точности поддерживают дробные числа приблизительно от -2.2E308 до 1.8E308.

    Дата

    Поля типа дата поддерживают значения в формате yyyy-MM-dd HH:mm:ss, например допустимо значение 2022-12-31 13:30:30. Если значения даты хранятся в другом формате, используйте инструмент Создать дату и время, чтобы вычислить поле дата.

    Boolean

    Булевы поля поддерживают значения True и False. Если есть поле, содержащее целочисленные представления логических значений (0 и 1), используйте инструмент Обновить поля, чтобы привести целые числа к логическим значениям.

  • Если указана опция формата JSON, доступен параметр Корневое свойство. С помощью этого параметра можно указать свойство в JSON для чтения данных. Вы можете ссылаться на вложенные свойства, используя десятичный разделитель между каждым свойством, например, property.subProperty. По умолчанию будет прочитан полный файл JSON.
  • Если указана опция формата GeoJSON, доступен параметр Тип геометрии. Это дополнительный параметр. По умолчанию используется тип геометрии в файле GeoJSON. Если файл GeoJSON содержит несколько типов геометрии, необходимо указать значение этого параметра. Смешанные типы геометрии не поддерживаются, и будет использован только указанный тип. Возможны опции Точечный, Мультиточечный, Полилинейный и Полигональный. Поле геометрии, содержащее местоположения данных GeoJSON, будет автоматически рассчитано и добавлено во входной набор данных. Поле геометрии можно использовать в качестве входных данных для пространственных операций или для включения геометрии в выходной результат.
  • Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
    • Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
    • После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:

Подключиться к хранилищу Azure

Чтобы использовать данные, хранящиеся в хранилище Azure, выполните следующие шаги для создания элемента хранилища данных в редакторе Data Pipelines.

  1. На панели инструментов редактор Data Pipelines щелкните Входные данные и выберите Хранилище Microsoft Azure.

    Появится диалоговое окно Выбрать подключение к хранилищу данных.

  2. Выберите Добавить новое хранилище данных.
  3. Щелкните Далее.

    Появится диалоговое окно Добавить подключение к хранилищу данных.

  4. Выберите тип аутентификации, используемый для доступа к данным.
  5. Укажите значения аутентификации.

    Значения аутентификации различаются в зависимости от выбранного типа аутентификации.

  6. Укажите имя контейнера, в котором хранятся данные.
  7. Дополнительно укажите путь к папке внутри контейнера, чтобы зарегистрировать ее.
  8. Щелкните Далее.

    Откроется страница с информацией об элементе.

  9. Введите заголовок для нового элемента хранилища данных.

    Это заголовок, который появится в ваших ресурсах. Также можно сохранить элемент в определенной папке и указать теги элемента или сводную информацию.

  10. Щелкните Создать подключение, чтобы создать элемент хранилища данных.

    На канву добавляется элемент хранилища Microsoft Azure, который можно настроить для конкретного набора данных.

Ограничения

Известны следующие ограничения:

  • Если вы указываете папку, содержащую несколько файлов, представляющих один набор данных, все файлы, идентифицированные в папке хранилища Azure, должны иметь одинаковую схему и тип геометрии.
  • Архивированные файлы (.zip) не поддерживаются.
  • Файлы Esri JSON (.esrijson) не поддерживаются.
  • В данных Azure, являющихся входными для Data Pipelines, должна быть отключена опция Включить мягкое удаление для Blob.
  • Если набор данных содержит имена полей с пробелами или недопустимыми символами, имена автоматически обновляются для использования подчеркивания. Например, поле с именем Population 2022 переименовывается в Population_2022, а поле %Employed в _Employed.
  • Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных, к которым вам предоставлен доступ, не поддерживаются в качестве входных данных.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

  • Тип пользователя Creator или GIS Professional
  • Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования