可以使用 Databricks (Beta) 表中的记录作为 ArcGIS Data Pipelines 的输入。
用法说明
当使用 Databricks (Beta) 时,请谨记以下信息:
- 要使用 Databricks (Beta) 中的数据集,您必须首先创建一个数据存储项目。 数据存储项目安全地存储凭据和连接信息,以便 Data Pipelines 能够读取数据。 要创建数据存储,请按照以下“连接到 Databricks (Beta)”部分中的步骤进行操作。
- 要更改之前配置的数据存储项目,使用数据存储项目参数移除当前选定项目,然后选择以下选项之一:
- 添加数据存储 - 创建新数据存储项目。
- 选择项目 - 浏览内容以选择现有数据存储项目。
- 可以使用方案参数以指定包含要使用的数据集的方案。
- 使用表格参数可指定要使用的数据集。
- 为了提高读取输入数据集的性能,请考虑以下选项:
连接到 Databricks (Beta)
要使用存储在 Databricks (Beta) 中的数据,请完成以下步骤以在 Data Pipelines 编辑器中创建数据存储项目:
- 在 Data Pipelines 编辑器工具栏中,单击输入,然后选择 Databricks (Beta)。
随即显示选择数据存储连接对话框。
- 选择添加新数据存储,然后单击下一步。
随即出现添加与数据存储的连接对话框。
- 提供 Databricks 账户的服务器 URL。以下提供了一个示例:my_account.azuredatabricks.net。
如果在服务器 URL 中指定 https://,则验证可能会失败。
- 选择以下身份验证类型之一:
- OAuth 计算机对计算机 - 提供 Databricks 账户的客户端 ID 和客户端密钥。
- 个人访问令牌 - 提供 Databricks 账户的令牌。
- 在 HTTP 路径参数中,提供将使用的 Databricks 计算资源的 HTTP 路径。
建议使用无服务器仓库。 无服务器仓库的连接速度可能比传统仓库更快。
- 在目录(可选)参数中,提供要使用的数据集所在目录的名称。如果未指定目录,则数据存储项目将连接到 Databricks 账户的默认目录。
- 单击下一步。
随即显示项目详细信息窗格。
- 为新的数据存储项目提供标题。
该标题将显示在您的内容中。 您还可以将项目存储在特定文件夹中,并提供项目标签或摘要。
- 单击创建连接以创建数据存储项目。
选择数据集对话框随即出现。
- 在方案参数中,提供相应方案的名称,其中包含要从中加载记录的表格。
- 在表格参数中,提供相应表格的名称,其中包含要用作数据管道输入的记录。
- 单击添加。
随即将 Databricks (Beta) 元素添加至画布。
局限性
以下为已知局限性:
- 如果您的组织已阻止测试版应用程序和功能,则无法访问 Databricks (Beta) 输入选项。
- 要使用 Databricks 表格中的数据,必须首先启动 Databricks 仓库。 当请求数据时,Data Pipelines 将启动该仓库。 从 Databricks 表格中加载记录或字段可能需要几分钟时间,具体取决于启动仓库所需的时间。 为了提高性能,建议您使用无服务器仓库,而非经典仓库。
- 无法在 Data Pipelines 中使用无法通过 Databricks SQL 进行查询的字段类型。
- 要使用数据存储项连接到外部数据源,您必须为数据存储项的所有者。 数据存储项目为私有项目,无法进行共享。
许可要求
需要以下许可和配置:
- Creator 或 Professional 用户类型
- 发布者、服务商或管理员角色,或等效的自定义角色
有关 Data Pipelines 要求的详细信息,请参阅要求。