Skip To Content

Использование записей Amazon S3

Используйте записи из файлов, хранящихся в бакете Amazon S3, в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Amazon S3 нужно учитывать следующее:

  • Чтобы использовать набор данных из Amazon S3, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Amazon S3.
  • Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
    • Добавить хранилище данных — создайте новый элемент хранилища данных.
    • Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
  • Используйте параметр Путь в наборе данных, чтобы указать имя набора данных или имя папки, содержащей набор данных. Например, вы можете указать пути к наборам данных следующими способами:
    • Сошлитесь на отдельный файл, указав путь к этому файлу, например Hurricanes.shp или CustomerInfo.csv.
    • Сошлитесь на папку, содержащую несколько наборов данных, указав путь, например MyFolder/. Все файлы в папке должны иметь одинаковую схему и тип файла.
    • Ссылайтесь на определенные типы файлов из папки, содержащей несколько файлов и форматов, указав путь, например MyFolder/*.parquet. В этом примере будут прочитаны только файлы parquet. Все файлы parquet в папке должны иметь одинаковую схему.
    • Ссылайтесь на несколько файлов и вложенных папок, используя шаблоны glob, указав путь, например MyFolder/**/*.geojson. В этом примере будут загружены все подпапки в MyFolder и все файлы GeoJSON в этих подпапках.

    Путь к набору данных также должен быть относительным к контейнеру и папке, которые были указаны при создании элемента хранилища данных. Например, если полный путь к набору данных - s3://my-bucket/my-folder/my-subfolder/file.csv, элемент хранилища данных указывает my-bucket для контейнера, а my-folder - для папки, то путь к набору данных должен быть my-subfolder/file.csv.

  • Используйте параметр Формат файла, чтобы указать формат файла набора данных, указанного в параметре Путь к набору данных. Доступны следующие форматы:
    • CSV или с разделителями (например, .csv, .tsv и .txt)
    • Parquet (.parquet)
    • GeoParquet (.parquet)
    • JSON (например, .json или файл .txt, содержащий данные в формате JSON)
    • GeoJSON (например, .json и .geojson, или файл .txt, содержащий данные в формате GeoJSON)
    • Шейп-файл (.shp)
    • Файловая база геоданных (.gdb)
    • ORC (.orc)
  • Если указана опция формата CSV или с разделителями, доступны следующие параметры определения набора данных:
    • Разделитель — Разделитель, используемый для разделения значений поля (или столбца) и записи (или строки). Вы можете выбрать из следующих вариантов или ввести свое собственное значение:
      • Запятая (,) — Значения полей и записей разделяются запятыми (,). Используется по умолчанию.
      • Табуляция (\t) — Значения полей и записей разделяются табуляцией (\t).
      • Вертикальная линия (|) — Значения полей и записей разделяются вертикальными линиями (|).
      • Точка с запятой (;) — Значения полей и записей разделяются точкой с запятой (;).
      • Пробел ( ) — Значения полей и записей разделяются пробелами ( ).
      Если вы вводите свое собственное значение, его длина должна составлять один или два символа, включая пробелы. Разделители длиной более двух символов не поддерживаются.
    • Содержит строку заголовка — Указывает, содержит ли набор данных строку заголовка. Значением по умолчанию является true. Если установлено значение false, первая строка набора данных будет считаться записью.
    • Содержит мультилинейные данные — Указывает, содержит ли набор данных записи, содержащие символы новой строки. Значением по умолчанию является false. Если установлено значение true, данные, содержащие мультилинейные данные, будут прочитаны и отформатированы корректно.
    • Кодировка символов — Указывает тип кодировки, используемый для чтения указанного набора данных. По умолчанию это будет UTF-8. Вы можете выбрать один из доступных опций кодировки или указать тип кодировки. Пробелы не поддерживаются в значениях кодировки. Например формат значения ISO 8859-8 недопустим, должно быть ISO-8859-8.
  • Поля доступны для настройки имен и типов полей, если значение формата данных — CSV или с разделителями. Кнопка Настроить схему открывает диалоговое окно, содержащее поля набора данных со следующими параметрами:
    • Включить или удалить поля — Вы можете удалить поля, поставив отметку рядом с полем. По умолчанию включаются все поля.
    • Имя поля — Имя поля, которое будет использоваться в Data Pipelines. Это значение можно изменить. По умолчанию это значение будет соответствовать полю исходного набора данных, если имя источника не содержит недопустимых символов и не является зарезервированным словом. Недопустимые символы будут заменены подчеркиванием (_), а зарезервированные слова будут содержать префикс - подчеркивание (_).
    • Тип поля — Тип поля, который будет использоваться в Data Pipelines.

    Удаление или изменение полей в Data Pipelines не меняет исходные данные.

    В следующей таблице приводится описание доступных типов полей:

    Тип поляОписание

    Строка

    Текстовые поля поддерживают строку текстовых символов.

    Small integer

    Поля типа Small integer поддерживают целые числа в диапазоне от -32768 до 32767.

    Integer

    Поля типа Integer поддерживают целые числа в диапазоне от -2147483648 до 2147483647.

    Big integer

    Поля типа Big integer поддерживают целые числа в диапазоне от -9223372036854776000 до 9223372036854776000.

    Float

    Поля типа с плавающей точкой поддерживают дробные числа приблизительно от -3.4E38 до 3.4E38.

    Double

    Поля типа двойной точности поддерживают дробные числа приблизительно от -2.2E308 до 1.8E308.

    Дата

    Поля типа дата поддерживают значения в формате yyyy-MM-dd HH:mm:ss, например допустимо значение 2025-12-31 13:30:30. Если значения даты хранятся в другом формате, используйте инструмент Создать дату и время, чтобы вычислить поле дата.

    Только дата

    Поля типа дата поддерживают значения в формате yyyy-MM-dd, например допустимо значение 2025-12-31. Если значения, содержащие только дату, хранятся в другом формате, используйте эти значения в качестве входных данных для инструмента Вычислить поле, чтобы вычислить поле, содержащее только дату.

    Boolean

    Поля Boolean поддерживают значения True и False. Если есть поле, содержащее целочисленные представления значений Boolean (0 и 1), используйте инструмент Обновить поля, чтобы вместо этого привести целые числа к логическим значениям Boolean.

  • Если указана опция формата JSON, доступен параметр Корневое свойство. С помощью этого параметра можно указать свойство в JSON для чтения данных. Вы можете ссылаться на вложенные свойства, используя десятичный разделитель между каждым свойством, например, property.subProperty. По умолчанию будет прочитан полный файл JSON.
  • Если указана опция формата GeoJSON, доступен параметр Тип геометрии. Это дополнительный параметр. По умолчанию используется тип геометрии в файле GeoJSON. Если файл GeoJSON содержит несколько типов геометрии, необходимо указать значение этого параметра. Смешанные типы геометрии не поддерживаются, и будет использован только указанный тип. Возможны опции Точечный, Мультиточечный, Полилинейный и Полигональный. Поле геометрии, содержащее местоположения данных GeoJSON, будет автоматически рассчитано и добавлено во входной набор данных. Поле геометрии можно использовать в качестве входных данных для пространственных операций или для включения геометрии в выходной результат.
  • Если указана опция формат Файловой базы геоданных, то доступен параметр Класс объектов или имя таблицы. Используйте этот параметр, чтобы указать имя класса объектов или таблицы, которую вы хотите использовать в качестве входных данных. Поддерживаются только классы точечных, мультиточечных, полилинейных и полигональных объектов и таблицы. Не поддерживаются такие наборы данных, как растровые, наборы данных мозаики и траектории. Не поддерживаются продвинутые типы объектов, например, объекты геометрической сети.
  • Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
    • Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
    • После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
      • Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
      • Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
      • Выбрать поля — Сохраняет только поля интереса.
      • Вырезание — Сохраняет подмножество записей, которые пересекаются с определенными геометриями.

Подключитесь к Amazon S3

Чтобы использовать данные, хранящиеся в Amazon S3, выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines.

  1. На панели инструментов редактор Data Pipelines щелкните Входные данные и выберите Amazon S3.

    Появится диалоговое окно Выбрать подключение к хранилищу данных.

  2. Выберите Добавить новое хранилище данных.
  3. Щелкните Далее.

    Появится диалоговое окно Добавить подключение к хранилищу данных.

  4. Предоставьте идентификатор ключа доступа и соответствующий секретный ключ доступа, который вы получили из своей учетной записи Amazon Web Services (AWS).
  5. Укажите регион, в котором существует бакет, и введите имя бакета.
  6. Дополнительно укажите путь к папке внутри контейнера, чтобы зарегистрировать ее.
  7. Щелкните Далее.

    Откроется страница с информацией об элементе.

  8. Введите заголовок для нового элемента хранилища данных.

    Это заголовок, который появится в ваших ресурсах. Также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.

  9. Щелкните Создать подключение, чтобы создать элемент хранилища данных.

    Откроется диалоговое окно Выбрать наборы данных.

  10. Укажите путь к набору данных, который будет использоваться в качестве входных данных для конвейера данных.
  11. Укажите формат файла набора данных, указанного в предыдущем шаге.
  12. Щёлкните Добавить.

    Элемент Amazon S3 добавляется на канву.

Ограничения

Известны следующие ограничения:

  • Ваша учетная запись должны иметь как минимум права s3:ListBucket, s3:GetBucketAcl и s3:GetObject. Эти права позволяют получить доступ к чтению указанного бакета и наборов данных в нем.
  • Если вы указываете папку, содержащую несколько файлов, представляющих один набор данных, все файлы, идентифицированные в папке Amazon S3, должны иметь одинаковую схему и тип геометрии.
  • Архивированные файлы (.zip) не поддерживаются.
  • Файлы Esri JSON (.esrijson) не поддерживаются.
  • Если набор данных содержит имена полей с пробелами или недопустимыми символами, имена автоматически обновляются для использования подчеркивания. Например, поле с именем Population 2022 переименовывается в Population_2022, а поле %Employed в _Employed.
  • Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

  • Тип пользователя Creator или Professional
  • Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования