Skip To Content

使用 Amazon S3 记录

可以使用存储在 Amazon S3 存储段的文件中的记录作为 ArcGIS Data Pipelines 的输入。

用法说明

使用 Amazon S3 时,请谨记以下信息:

  • 要使用 Amazon S3 中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便 Data Pipelines 能够读取数据。 要创建数据存储,请按照以下“连接到 Amazon S3”部分中的步骤进行操作。
  • 要更改之前配置的数据存储项目,使用数据存储项目参数移除当前选定项目,然后选择以下选项之一:
    • 添加数据存储 - 创建新数据存储项目。
    • 选择项目 - 浏览内容以选择现有数据存储项目。
  • 使用数据集路径参数可指定数据集或者包含数据集的文件夹。 例如,MyHurricanesDataset 将引用单个文件,MyFolder/ 将引用可用作单个数据集的文件集合。 文件夹中的数据集必须具有相同的方案和文件类型,才能用作单个数据集。 如果文件夹包含不同类型的文件,则可以使用通配符指定文件。 例如,如果文件夹同时包含 .csv 文件和 .orc 文件,则可以使用路径值 MyFolder/*.orc 仅指定 .orc 文件。
  • 使用文件格式参数可指定在数据集路径参数中指定的数据集的文件格式。 以下格式选项可用:
    • CSV 或分隔文件(例如,.csv.tsv.txt
    • Parquet (.parquet)
    • GeoParquet (.geoparquet)
    • JSON(例如,包含格式化为 JSON 的数据的 .json.txt 文件)
    • GeoJSON(例如,包含格式化为 GeoJSON 的数据的 .json.geojson.txt 文件)
    • Shapefile (.shp)
    • 文件地理数据库 (.gdb)
    • ORC (.orc)
  • 如果指定了 CSV 或分隔格式选项,则可以使用以下数据集定义参数:
    • 分隔符 - 用于分割字段(或列)和记录(或行)值的分隔符。 默认为逗号分隔 (,)。 其他常见的分隔符格式包括但不限于制表符 (\t)、分号 (;)、竖线 (|) 以及正斜线与反斜线(/ 和 \)。
    • 具有标题行 - 指定数据集是否包含标题行。 默认为 true。 如果设置为 false,则将数据集的第一行视为一条记录。
    • 包含多行数据 - 指定数据集是否具有包含换行符的记录。 默认为 false。 如果设置为 true,将正确读取和格式化包含多行数据的数据。
    • 字符编码 - 指定用于读取指定数据集的编码类型。 默认值为 UTF-8。 您可以从可用的编码选项中进行选择,或指定一种编码类型。 编码值不支持空格。 例如,指定 ISO 8859-8 值是无效的,必须指定为 ISO-8859-8。
  • 当数据格式值为 CSV 或分隔值时,可以使用字段来配置字段名称和类型。 配置方案按钮可打开一个对话框,其中包含数据集字段,并提供以下选项:
    • 包括或删除字段 - 可以通过选中字段旁边的复选框来移除字段。 默认情况下,包含所有字段。
    • 字段名称 - 字段在 Data Pipelines 中将使用的名称。 可以编辑此值。 默认情况下,此值将与源数据集中的字段相同,除非源名称包含无效字符或为保留字。 无效字符将替换为下划线 (_),保留字将以下划线 (_) 为前缀。
    • 字段类型 - 将在 Data Pipelines 中使用的字段类型。 可以编辑此值。
    下表介绍了可用字段类型:

    字段类型描述

    字符串

    字符串字段支持文本字符串。

    短整型

    小整型字段支持介于 -32768 和 32767 之间的整数。

    整型

    整型字段支持介于 -2147483648 和 2147483647 之间的整数。

    大整数

    大整型字段支持介于 -9223372036854776000 和 9223372036854776000 之间的整数。

    浮点型

    浮点型字段支持介于大约 -3.4E38 和 3.4E38 之间的小数。

    双精度

    双精度型字段支持介于大约 -2.2E308 和 1.8E308 之间的小数。

    日期

    日期字段支持格式为 yyyy-MM-dd HH:mm:ss 的值,例如 2022-12-31 13:30:30 为有效值。 如果日期值以其他格式存储,则使用创建日期时间工具计算日期字段。

    布尔

    布尔字段支持 TrueFalse 值。 如果字段包含布尔值的整数表示(0 和 1),请使用更新字段工具将整数转换为布尔值。

  • 如果指定了 JSON 格式选项,则可以使用根属性参数。 可使用此参数在 JSON 中指定要从中读取数据的属性。 可通过在每个属性之间使用小数点分隔符引用嵌套属性,例如 property.subProperty。 默认将读取整个 JSON 文件。
  • 如果指定了 GeoJSON 格式选项,则可以使用 Geometry 类型参数。 设置此参数属于可选操作。 默认情况下,将使用 GeoJSON 文件中的几何类型。 如果 GeoJSON 文件包含多个几何类型,则必须指定此参数值。 不支持混合几何类型,仅可使用指定的类型。 选项包含多点折线。 包含 GeoJSON 数据位置的几何字段将自动计算并添加到输入数据集中。 几何字段可用作空间操作的输入或在输出结果上启用几何。
  • 如果指定文件地理数据库格式选项,则要素类或表名称参数可用。 使用此参数可指定您希望用作输入的要素类或表的名称。 仅支持点、多点、折线以及面要素类和表。 诸如栅格、镶嵌、轨迹等数据集不受支持。 诸如几何网络要素等高级要素类型不受支持。
  • 为了提高读取输入数据集的性能,请考虑以下选项:
    • 使用使用缓存参数存储数据集的副本。 仅在至少已连接一个打开并显示编辑器的浏览器选项卡时,缓存副本才会保留。 这样可以提高在处理过程中访问数据的速度。 如果源数据自缓存后已更新,请取消选中此参数并再次预览或运行该工具。
    • 在配置输入数据集之后,可以配置以下工具之一,以限制数据处理量:

连接到 Amazon S3

要使用存储在 Amazon S3 中的数据,请完成以下步骤以在 Data Pipelines 编辑器中创建数据存储项目。

  1. Data Pipelines 编辑器工具栏中,单击输入,然后选择 Amazon S3

    随即显示选择数据存储连接对话框。

  2. 选择添加新数据存储
  3. 单击下一步

    随即出现添加与数据存储的连接对话框。

  4. 提供从 Amazon Web Services (AWS) 账户获得的访问密钥 ID 和相应的保密访问密钥。
  5. 提供存储段存在的区域并键入存储段的名称。
  6. 或者,提供容器内文件夹的路径以进行注册。
  7. 单击下一步

    随即显示项目详细信息窗格。

  8. 为新的数据存储项目提供标题。

    该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。

  9. 单击创建连接以创建数据存储项目。

    随即将 Amazon S3 元素添加至画布,您可以为特定数据集配置该元素。

局限性

以下为已知局限性:

  • 您的凭据必须至少具有 s3:ListBuckets3:GetBucketAcls3:GetObject 权限。 这些权限允许访问以读取指定存储段及其中的数据集。
  • 如果指定相应文件夹,其中包含代表单个数据集的多个文件,则 Amazon S3 文件夹中标识的所有文件必须具有相同的方案和几何类型。
  • 压缩文件 (.zip) 不受支持。
  • 不支持 Esri JSON 文件 (.esrijson)。
  • 如果数据集包含带空格或无效字符的字段名称,名称会自动更新为使用下划线。 例如,名为 Population 2022 的字段将重命名为 Population_2022,名为 %Employed 的字段将重命名为 _Employed
  • 要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 不支持将与您共享的数据存储项目作为输入。

许可要求

需要以下许可和配置:

  • CreatorProfessional 用户类型
  • 发布者、服务商或管理员角色,或等效的自定义角色

有关 Data Pipelines 要求的详细信息,请参阅要求