Использование записей Amazon S3—ArcGIS Data Pipelines

Используйте записи из файлов, хранящихся в бакете Amazon S3, в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Amazon S3 нужно учитывать следующее:

Чтобы использовать набор данных из Amazon S3, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Amazon S3.
Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
- Добавить хранилище данных — создайте новый элемент хранилища данных.
- Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
Используйте параметр Путь к набору данных, чтобы указать имя набора данных или имя папки, содержащей набор данных. Например, вы можете указать пути к наборам данных следующими способами:
- Сошлитесь на отдельный файл, указав путь к этому файлу, например Hurricanes.shp или CustomerInfo.csv.
- Сошлитесь на папку, содержащую несколько наборов данных, указав путь, например MyFolder/. Все файлы в папке должны иметь одинаковую схему и тип файла.
- Ссылайтесь на определенные типы файлов из папки, содержащей несколько файлов и форматов, указав путь, например MyFolder/*.parquet. В этом примере будут прочитаны только файлы parquet. Все файлы parquet в папке должны иметь одинаковую схему.
- Ссылайтесь на несколько файлов и вложенных папок, используя шаблоны glob, указав путь, например MyFolder/**/*.geojson. В этом примере будут загружены все подпапки в MyFolder и все файлы GeoJSON в этих подпапках.
Путь к набору данных также должен быть относительным к контейнеру и папке, которые были указаны при создании элемента хранилища данных. Например, если полный путь к набору данных - s3://my-bucket/my-folder/my-subfolder/file.csv, элемент хранилища данных указывает my-bucket для контейнера, а my-folder - для папки, то путь к набору данных должен быть my-subfolder/file.csv.
Используйте параметр Формат файла, чтобы указать формат файла набора данных, указанного в параметре Путь к набору данных. Доступны следующие форматы:
- CSV или с разделителями (например, .csv, .tsv и .txt)
- Parquet (.parquet)
- GeoParquet (.geoparquet)
- JSON (например, .json или файл .txt, содержащий данные в формате JSON)
- GeoJSON (например, .json и .geojson, или файл .txt, содержащий данные в формате GeoJSON)
- Шейп-файл (.shp)
- Файловая база геоданных (.gdb)
- ORC (.orc)
Если указана опция формата CSV или с разделителями, доступны следующие параметры определения набора данных:
- Разделитель — разделитель, используемый для разделения значений поля (или столбца) и записи (или строки). Разделитель по умолчанию — запятая (,). Другие общие форматы разделителей включают, помимо прочего, табуляцию (\t), точку с запятой (;), вертикальную черту (|), прямую и обратную косые черты (/ и \).
- Содержит строку заголовка — Указывает, содержит ли набор данных строку заголовка. Значением по умолчанию является true. Если установлено значение false, первая строка набора данных будет считаться записью.
- Содержит мультилинейные данные — Указывает, содержит ли набор данных записи, содержащие символы новой строки. Значением по умолчанию является false. Если установлено значение true, данные, содержащие мультилинейные данные, будут прочитаны и отформатированы корректно.
- Кодировка символов — указывает тип кодировки, используемый для чтения указанного набора данных. По умолчанию это будет UTF-8. Вы можете выбрать один из доступных опций кодировки или указать тип кодировки. Пробелы не поддерживаются в значениях кодировки. Например формат значения ISO 8859-8 недопустим, должно быть ISO-8859-8.

Поля доступны для настройки имен и типов полей, если значение формата данных — CSV или с разделителями. Кнопка Настроить схему открывает диалоговое окно, содержащее поля набора данных со следующими параметрами:

Включить или удалить поля — вы можете удалить поля, поставив отметку рядом с полем. По умолчанию включаются все поля.
Имя поля - имя поля, которое будет использоваться в Data Pipelines. Это значение можно изменить. По умолчанию это значение будет соответствовать полю исходного набора данных, если имя источника не содержит недопустимых символов и не является зарезервированным словом. Недопустимые символы будут заменены подчеркиванием (_), а зарезервированные слова будут содержать префикс - подчеркивание (_).
Тип поля — тип поля, который будет использоваться в Data Pipelines. Это значение можно изменить.

В следующей таблице приводится описание доступных типов полей:


Тип поля	Описание
Строка	Текстовые поля поддерживают строку текстовых символов.
Small integer	Поля типа Small integer поддерживают целые числа в диапазоне от -32768 до 32767.
Integer	Поля типа Integer поддерживают целые числа в диапазоне от -2147483648 до 2147483647.
Большое целое	Поля типа Big integer поддерживают целые числа в диапазоне от -9223372036854776000 до 9223372036854776000.
Float	Поля типа с плавающей точкой поддерживают дробные числа приблизительно от -3.4E38 до 3.4E38.
Double	Поля типа двойной точности поддерживают дробные числа приблизительно от -2.2E308 до 1.8E308.
Date	Поля типа дата поддерживают значения в формате yyyy-MM-dd HH:mm:ss, например допустимо значение 2022-12-31 13:30:30. Если значения даты хранятся в другом формате, используйте инструмент Создать дату и время, чтобы вычислить поле дата.
Boolean	Поля Boolean поддерживают значения True и False. Если есть поле, содержащее целочисленные представления значений Boolean (0 и 1), используйте инструмент Обновить поля, чтобы вместо этого привести целые числа к логическим значениям Boolean.

Если указана опция формата JSON, доступен параметр Корневое свойство. С помощью этого параметра можно указать свойство в JSON для чтения данных. Вы можете ссылаться на вложенные свойства, используя десятичный разделитель между каждым свойством, например, property.subProperty. По умолчанию будет прочитан полный файл JSON.
Если указана опция формата GeoJSON, доступен параметр Тип геометрии. Это дополнительный параметр. По умолчанию используется тип геометрии в файле GeoJSON. Если файл GeoJSON содержит несколько типов геометрии, необходимо указать значение этого параметра. Смешанные типы геометрии не поддерживаются, и будет использован только указанный тип. Возможны опции Точечный, Мультиточечный, Полилинейный и Полигональный. Поле геометрии, содержащее местоположения данных GeoJSON, будет автоматически рассчитано и добавлено во входной набор данных. Поле геометрии можно использовать в качестве входных данных для пространственных операций или для включения геометрии в выходной результат.
Если указана опция формат Файловой базы геоданных, то доступен параметр Класс объектов или имя таблицы. Используйте этот параметр, чтобы указать имя класса объектов или таблицы, которую вы хотите использовать в качестве входных данных. Поддерживаются только классы точечных, мультиточечных, полилинейных и полигональных объектов и таблицы. Не поддерживаются такие наборы данных, как растровые, наборы данных мозаики и траектории. Не поддерживаются продвинутые типы объектов, например, объекты геометрической сети.
Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
  - Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
  - Выбрать поля — Сохраняет только поля интереса.
  - Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.

Подключитесь к Amazon S3

Чтобы использовать данные, хранящиеся в Amazon S3, выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines.

На панели инструментов редактор Data Pipelines щелкните Входные данные и выберите Amazon S3.
Появится диалоговое окно Выбрать подключение к хранилищу данных.
Выберите Добавить новое хранилище данных.
Щелкните Далее.
Появится диалоговое окно Добавить подключение к хранилищу данных.
Предоставьте идентификатор ключа доступа и соответствующий секретный ключ доступа, который вы получили из своей учетной записи Amazon Web Services (AWS).
Укажите регион, в котором существует бакет, и введите имя бакета.
Дополнительно укажите путь к папке внутри контейнера, чтобы зарегистрировать ее.
Щелкните Далее.
Откроется страница с информацией об элементе.
Введите заголовок для нового элемента хранилища данных.
Это заголовок, который появится в ваших ресурсах. Также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.
Щелкните Создать подключение, чтобы создать элемент хранилища данных.
На канву добавляется элемент Amazon S3, который вы можете настроить для конкретного набора данных.

Ограничения

Известны следующие ограничения:

Ваша учетная запись должны иметь как минимум права s3:ListBucket, s3:GetBucketAcl и s3:GetObject. Эти права позволяют получить доступ к чтению указанного бакета и наборов данных в нем.
Если вы указываете папку, содержащую несколько файлов, представляющих один набор данных, все файлы, идентифицированные в папке Amazon S3, должны иметь одинаковую схему и тип геометрии.
Архивированные файлы (.zip) не поддерживаются.
Файлы Esri JSON (.esrijson) не поддерживаются.
Если набор данных содержит имена полей с пробелами или недопустимыми символами, имена автоматически обновляются для использования подчеркивания. Например, поле с именем Population 2022 переименовывается в Population_2022, а поле %Employed в _Employed.
Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных, к которым вам предоставлен доступ, не поддерживаются в качестве входных данных.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

Тип пользователя Creator или Professional
Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования

Отзыв по этому разделу?

Примечания по использованию

Подключитесь к Amazon S3

Ограничения

Лицензионные требования

В этом разделе