Skip To Content

使用 ArcGIS Data Pipelines

您在 ArcGIS Data Pipelines 应用程序中创建的数据管道作为项目存储在您的内容中。 您将使用 Data Pipelines 编辑器来创建和编辑数据管道。 以下部分概述了数据管道编辑器并解释了如何在编辑器中创建和运行数据管道。

数据管道元素

以下介绍了数据管道的三个要素:

  • 输入
    • 输入用于将数据加载到数据管道中以供下游处理。 您可以使用许多输入源类型。 有关源和源类型的详细信息,请参阅数据集配置
    • 单个数据管道中可以包含多个数据源。 数据管道工作流中至少需要一个数据源。
  • 工具
    • 工具用于处理从输入数据集中加载的数据。
    • 单个数据管道中可以包含多个工具。
    • 工具可以相互连接,其中一个工具的输出表示下一个工具的输入。
    • 要了解有关可用工具及其使用方法的详细信息,请参阅数据处理
  • 输出
    • 输出用于定义数据管道结果的处理方式。
    • 您可以将数据管道结果输出到新的要素图层,替换现有要素图层中的数据,或者添加和更新要素图层中的现有数据。
    • 单个数据管道中可以包含多个输出。
    • 您可以为单个工具结果或输入数据集配置多个输出。 运行数据管道至少需要一个输出。
    • 要了解有关写入结果的详细信息,请参阅要素图层

数据管道工作流

数据管道工作流由上面概述的三个元素组成:连接到现有数据、执行数据工程以及写出新准备的数据。 运行数据管道时,它会生成一个或多个输出。 您的内容中提供了所有输出结果。

数据管道工作流

连接到数据

创建数据管道的第一步是连接到数据。 在编辑器工具栏上的输入下,选择要连接的源类型。 例如,选择要素图层并浏览至该图层,或选择 Amazon S3 并浏览至表示包含数据集的存储容器和文件夹的数据存储项。 要了解有关连接到数据以及如何优化读取性能的详细信息,请参阅数据集配置

执行数据处理

第二步是处理输入数据。 在编辑器工具栏上的工具下,选择要在数据集上完成的过程。 例如,要计算 CSV 数据的位置并过滤特定感兴趣区域的位置,您可以使用“创建几何”和“按范围过滤”工具。

要指定用作工具输入的数据集,请执行以下操作之一:

  • 通过将指针从一个元素的连接器拖动到另一个元素来绘制一条线。
  • 使用输入数据集参数来识别输入数据集。

处理数据为可选操作。 连接到数据集后,可以将其作为要素图层写出,无需任何处理。

要提高数据管道处理的性能,您可以使用以下一种或多种工具来限制您正在使用的数据量:

  • 选择字段 - 仅维护感兴趣的字段。 例如,您有一个包含 2000 年和 2010 年字段的人口普查数据集,但您只对 2010 年感兴趣。 仅选择代表 2010 年值的字段。
  • 按属性过滤 - 维护包含特定属性值的记录子集。 例如,针对震级大于 5.5 的地震过滤地震数据集。
  • 按范围过滤 - 维护特定空间范围内的记录子集。 例如,将美国洪水灾害区域的数据集过滤到表示州边界的另一个数据集的范围。

预览数据管道元素

在工作流的任何步骤使用预览来调查您的数据。 预览提供以下方法来检查您的数据:

  • 表预览 表预览 - 显示数据的表格表示。
  • 地图预览 地图预览 - 在地图上显示数据集的位置。 在地图预览中,您可以平移、缩放和检查属性。
  • 方案 方案 - 查看数据集的方案。
  • 消息 消息 - 查看从预览操作返回的消息。

预览最多可显示 8000 条数据记录。

在预览日期时间字段时,值将显示为浏览器的时区。 在将值写入要素图层时,它们将以 UTC 时间存储。

预览包含复杂几何的数据集可能会消耗大量可用内存。 如果超出了内存阈值,可能无法渲染地图预览,或者在进行恢复时状态可能变为“正在重新连接”。 为了改善预览性能,请考虑以下事项:

要将完整数据集写入要素图层,请确保在运行数据管道之前移除过滤器或简化工具。

运行数据管道

可以使用画布操作栏中的运行 运行 按钮来运行已配置的流程。 要运行数据管道,必须至少配置一个输出要素图层元素。 可以从最新的运行详细信息控制台访问作业结果和消息。 可以单击结果以打开项目页面。

要按照自动计划运行数据管道,可以创建一个任务。 有关为数据管道创建计划任务的详细信息,请参阅计划数据管道任务