可以使用存储在 Microsoft Azure 存储容器的文件中的记录作为 ArcGIS Data Pipelines 的输入。
用法说明
使用 Microsoft Azure 存储时,切记以下内容:
- 要使用 Azure 存储中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便 Data Pipelines 能够读取数据。 要创建数据存储,请按照以下“连接到 Azure 存储”部分中的步骤进行操作。
- 要更改之前配置的数据存储项目,使用数据存储项目参数移除当前选定项目,然后选择以下选项之一:
- 添加数据存储 - 创建新数据存储项目。
- 选择项目 - 浏览内容以选择现有数据存储项目。
- 可以使用数据集路径参数指定数据集的名称,或者包含数据集的文件夹的名称。 例如,可以通过以下方式指定数据集路径:
- 通过指定单个文件(例如 Hurricanes.shp 或 CustomerInfo.csv)的路径来引用该文件。
- 通过指定路径(例如 MyFolder/)来引用包含多个数据集的文件夹。 该文件夹中的所有文件必须具有相同的方案和文件类型。
- 通过指定路径(例如 MyFolder/*.parquet)从包含多个文件和格式的文件夹中引用特定文件类型。 在本示例中,将仅读取 parquet 文件。 该文件夹中的所有 parquet 文件必须具有相同方案。
- 通过指定路径(例如 MyFolder/**/*.geojson),使用 glob 模式引用多个文件和嵌套文件夹。 在本示例中,将加载 MyFolder 中的任何子文件夹以及这些子文件夹中的任何 GeoJSON 文件。
数据集路径还必须相对于创建数据存储项目时指定的容器和文件夹。 例如,如果完整数据集路径为 https://myaccount.blob.core.windows.net/my-container/my-folder/my-subfolder/file.csv,并且数据存储项目针对容器指定了 my-container,针对文件夹指定了 my-folder,则数据集路径应为 my-subfolder/file.csv。
- 使用文件格式参数可指定在数据集路径参数中指定的数据集的文件格式。 以下格式选项可用:
- CSV 或分隔文件(例如,.csv、.tsv 和 .txt)
- Parquet (.parquet)
- GeoParquet (.geoparquet)
- JSON(例如,包含格式化为 JSON 的数据的 .json 或 .txt 文件)
- GeoJSON(例如,包含格式化为 GeoJSON 的数据的 .json、.geojson 或 .txt 文件)
- Shapefile (.shp)
- 文件地理数据库 (.gdb)
- ORC (.orc)
- 如果指定了 CSV 或分隔格式选项,则可以使用以下数据集定义参数:
- 分隔符 - 用于分割字段(或列)和记录(或行)值的分隔符。 默认为逗号分隔 (,)。 其他常见的分隔符格式包括但不限于制表符 (\t)、分号 (;)、竖线 (|) 以及正斜线与反斜线(/ 和 \)。
- 具有标题行 - 指定数据集是否包含标题行。 默认为 true。 如果设置为 false,则将数据集的第一行视为一条记录。
- 包含多行数据 - 指定数据集是否具有包含换行符的记录。 默认为 false。 如果设置为 true,将正确读取和格式化包含多行数据的数据。
- 字符编码 - 指定用于读取指定数据集的编码类型。 默认值为 UTF-8。 您可以从可用的编码选项中进行选择,或指定一种编码类型。 编码值不支持空格。 例如,指定 ISO 8859-8 值是无效的,必须指定为 ISO-8859-8。
- 当数据格式值为 CSV 或分隔值时,可以使用字段来配置字段名称和类型。 配置方案按钮可打开一个对话框,其中包含数据集字段,并提供以下选项:
- 包括或删除字段 - 可以通过选中字段旁边的复选框来移除字段。 默认情况下,包含所有字段。
- 字段名称 - 字段在 Data Pipelines 中将使用的名称。 可以编辑此值。 默认情况下,此值将与源数据集中的字段相同,除非源名称包含无效字符或为保留字。 无效字符将替换为下划线 (_),保留字将以下划线 (_) 为前缀。
- 字段类型 - 将在 Data Pipelines 中使用的字段类型。 可以编辑此值。
字段类型 描述 字符串
字符串字段支持文本字符串。
短整型
小整型字段支持介于 -32768 和 32767 之间的整数。
整型
整型字段支持介于 -2147483648 和 2147483647 之间的整数。
大整数
大整型字段支持介于 -9223372036854776000 和 9223372036854776000 之间的整数。
转为浮点型
浮点型字段支持介于大约 -3.4E38 和 3.4E38 之间的小数。
双精度
双精度型字段支持介于大约 -2.2E308 和 1.8E308 之间的小数。
日期
日期字段支持格式为 yyyy-MM-dd HH:mm:ss 的值,例如 2022-12-31 13:30:30 为有效值。 如果日期值以其他格式存储,则使用创建日期时间工具计算日期字段。
布尔
布尔字段支持 True 和 False 值。 如果字段包含布尔值的整数表示(0 和 1),请使用更新字段工具将整数转换为布尔值。
- 如果指定了 JSON 格式选项,则可以使用根属性参数。 可使用此参数在 JSON 中指定要从中读取数据的属性。 可通过在每个属性之间使用小数点分隔符引用嵌套属性,例如 property.subProperty。 默认将读取整个 JSON 文件。
- 如果指定了 GeoJSON 格式选项,则可以使用 Geometry 类型参数。 设置此参数属于可选操作。 默认情况下,将使用 GeoJSON 文件中的几何类型。 如果 GeoJSON 文件包含多个几何类型,则必须指定此参数值。 不支持混合几何类型,仅可使用指定的类型。 选项包含点、多点、折线和面。 包含 GeoJSON 数据位置的几何字段将自动计算并添加到输入数据集中。 几何字段可用作空间操作的输入或在输出结果上启用几何。
- 如果指定文件地理数据库格式选项,则要素类或表名称参数可用。 使用此参数可指定您希望用作输入的要素类或表的名称。 仅支持点、多点、折线以及面要素类和表。 诸如栅格、镶嵌、轨迹等数据集不受支持。 诸如几何网络要素等高级要素类型不受支持。
- 为了提高读取输入数据集的性能,请考虑以下选项:
连接到 Azure 存储
要使用存储在 Azure 存储中的数据,请完成以下步骤以在 Data Pipelines 编辑器中创建数据存储项目:
- 在 Data Pipelines 编辑器工具栏中,单击输入,然后选择 Microsoft Azure 存储。
随即显示选择数据存储连接对话框。
- 选择添加新数据存储。
- 单击下一步。
随即出现添加与数据存储的连接对话框。
- 选择用于访问数据的身份验证类型。
- 提供身份验证值。
根据所选的身份验证类型,身份验证值有所不同。
- 提供数据存储在的容器的名称。
- 或者,提供容器内文件夹的路径以进行注册。
- 单击下一步。
随即显示项目详细信息窗格。
- 为新的数据存储项目提供标题。
该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。
- 单击创建连接以创建数据存储项目。
随即将 Microsoft Azure 存储元素添加至画布,您可以为特定数据集配置该元素。
局限性
以下为已知局限性:
- 您的凭据必须至少具有 READ 和 LIST 权限。 这些权限允许访问指定容器并读取其中的数据集。
- 如果指定相应文件夹,其中包含代表单个数据集的多个文件,则 Azure 存储文件夹中标识的所有文件必须具有相同的方案和几何类型。
- 压缩文件 (.zip) 不受支持。
- 不支持 Esri JSON 文件 (.esrijson)。
- 作为 Data Pipelines 输入的 Azure 数据必须已禁用针对 Blob 启用软删除。
- 如果数据集包含带空格或无效字符的字段名称,名称会自动更新为使用下划线。 例如,名为 Population 2022 的字段将重命名为 Population_2022,名为 %Employed 的字段将重命名为 _Employed。
- 要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 不支持将与您共享的数据存储项目作为输入。
许可要求
需要以下许可和配置:
- Creator 或 Professional 用户类型
- 发布者、服务商或管理员角色,或等效的自定义角色
有关 Data Pipelines 要求的详细信息,请参阅要求。