Skip To Content

使用 Databricks (Beta) 记录

注:
此功能目前处于测试阶段。 请通过 Data Pipelines 社区中的测试版功能反馈论坛分享您的经验并寻求支持。

可以使用 Databricks (Beta) 表中的记录作为 ArcGIS Data Pipelines 的输入。

用法说明

当使用 Databricks (Beta) 时,请谨记以下信息:

  • 要使用 Databricks (Beta) 中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便 Data Pipelines 能够读取数据。 要创建数据存储,请按照以下“连接到 Databricks (Beta)”部分中的步骤进行操作。
  • 要更改之前配置的数据存储项目,使用数据存储项目参数移除当前选定项目,然后选择以下选项之一:
    • 添加数据存储 - 创建新数据存储项目。
    • 选择项目 - 浏览内容以选择现有数据存储项目。
  • 可以使用方案参数以指定包含要使用的数据集的方案。
  • 使用表格参数可指定要使用的数据集。
  • 为了提高读取输入数据集的性能,请考虑以下选项:
    • 使用使用缓存参数存储数据集的副本。 仅在至少已连接一个打开并显示编辑器的浏览器选项卡时,缓存副本才会保留。 这样可以提高在处理过程中访问数据的速度。 如果源数据自缓存后已更新,请取消选中此参数并再次预览或运行该工具。
    • 在配置输入数据集之后,可以配置以下工具之一,以限制数据处理量:

连接到 Databricks (Beta)

要使用存储在 Databricks (Beta) 中的数据,请完成以下步骤以在 Data Pipelines 编辑器中创建数据存储项目:

  1. Data Pipelines 编辑器工具栏中,单击输入,然后选择 Databricks (Beta)

    随即显示选择数据存储连接对话框。

  2. 选择添加新数据存储,然后单击下一步

    随即出现添加与数据存储的连接对话框。

  3. 提供 Databricks 账户的服务器 URL。
    以下提供了一个示例:my_account.azuredatabricks.net

    如果在服务器 URL 中指定 https://,则验证可能会失败。

  4. 选择以下身份验证类型之一:
    • OAuth 计算机对计算机 - 提供 Databricks 账户的客户端 ID 和客户端密钥。
    • 个人访问令牌 - 提供 Databricks 账户的令牌。
  5. HTTP 路径参数中,提供将使用的 Databricks 计算资源的 HTTP 路径。

    建议使用无服务器仓库。 无服务器仓库的连接速度可能比传统仓库更快。

  6. 目录(可选)参数中,提供要使用的数据集所在目录的名称。
    如果未指定目录,则数据存储项目将连接到 Databricks 账户的默认目录。
  7. 单击下一步

    随即显示项目详细信息窗格。

  8. 为新的数据存储项目提供标题。

    该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。

  9. 单击创建连接以创建数据存储项目。

    选择数据集对话框随即出现。

  10. 方案参数中,提供相应方案的名称,其中包含要从中加载记录的表格。
  11. 表格参数中,提供相应表格的名称,其中包含要用作数据管道输入的记录。
  12. 单击添加

    随即将 Databricks (Beta) 元素添加至画布。

局限性

以下为已知局限性:

  • 如果您的组织已阻止测试版应用程序和功能,则无法访问 Databricks (Beta) 输入选项。
  • 要使用 Databricks 表格中的数据,必须首先启动 Databricks 仓库。 当请求数据时,Data Pipelines 将启动该仓库。 从 Databricks 表格中加载记录或字段可能需要几分钟时间,具体取决于启动仓库所需的时间。 为了提高性能,建议您使用无服务器仓库,而非经典仓库。
  • 无法在 Data Pipelines 中使用无法通过 Databricks SQL 进行查询的字段类型。
  • 要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 数据存储项目为私有项目,无法进行共享。

许可要求

需要以下许可和配置:

  • CreatorProfessional 用户类型
  • 发布者、服务商或管理员角色,或等效的自定义角色

有关 Data Pipelines 要求的详细信息,请参阅要求