“连接”工具将基于指定关系连接数据集。 可以使用匹配属性、空间关系、时间关系或三者的任意组合来连接数据集。
示例
“连接”工具可用于以下场景:
- 根据匹配的 countyID 字段值将县面与县人口普查数据连接起来。
- 使用时间关系和空间关系连接在相对时间和位置发生的记录。
参数
下表概述了在“连接”工具中使用的参数:
参数 | 描述 |
---|---|
目标数据集 | 将连接记录的数据集。 |
连接数据集 | 将连接到目标数据集的数据集。 |
连接操作 | 指定是否连接所有匹配记录(一对多)或是否将所有匹配记录汇总在一起(一对一)。 |
连接类型 | 指定是否在输出中返回无匹配连接记录的目标记录。 |
汇总字段 | 确定将计算哪些连接数据集字段的统计数据。 |
使用匹配字段 | 指定是否使用属性关系。 |
目标字段 | 目标数据集中的字段,将用于匹配连接数据集中的记录。 |
连接字段 | 来自连接数据集的字段,将用于匹配目标数据集中的记录。 |
使用空间关系 | 指定是否使用空间关系。 |
空间关系 | 指定将用于定义目标数据集和连接数据集之间的连接条件的空间关系类型。 |
近距离 | 将用于确定彼此靠近的位置的线性距离阈值。 此参数仅适用于平面邻近或测地线邻近类型的空间关系。 |
近距离单位 | 线性距离阈值的单位。 此参数仅适用于平面邻近或测地线邻近类型的空间关系。 |
目标几何 | 目标数据集中的几何字段,将用于识别与连接数据集的空间关系。 |
连接几何 | 连接数据集中的几何字段,将用于识别与目标数据集的空间关系。 |
使用时态关系 | 指定是否使用时态关系。 |
时态关系 | 指定将用于定义目标数据集和连接数据集之间的连接条件的时态关系类型。 |
近距离 | 将用于确定时间上彼此接近的记录的时态距离阈值。 此参数仅适用于类型为邻近、近前和近后的时态关系。 |
近距离单位 | 时态距离阈值的单位。 此参数仅适用于类型为邻近、近前和近后的时态关系。 |
目标开始时间 | 目标数据集中的日期时间字段,将用于指定记录的开始时间。 |
目标结束时间 | 目标数据集中的日期时间字段,将用于指定记录的结束时间。 如果希望使用类型间隔的时间进行连接,则此参数为必需项。 有关详细信息,请参阅 Data Pipelines 中的时态关系。 |
连接开始时间 | 连接数据集中的日期时间字段,将用于指定记录的开始时间。 |
连接结束时间 | 连接数据集中的日期时间字段,将用于指定记录的结束时间。 如果希望使用类型间隔的时间进行连接,则此参数为必需项。 有关详细信息,请参阅 Data Pipelines 中的时态关系。 |
用法说明
使用目标数据集参数来识别记录将连接到的数据集。 使用连接数据集参数来识别包含将连接到目标记录的记录的数据集。
如果多个连接记录匹配同一个目标记录,则可以指定是连接所有匹配记录(一对多连接选项)还是将所有匹配记录汇总在一起(一对多连接选项),如下所示:
- 一对多连接 - 将连接数据集中所有的匹配记录连接到目标数据集。 此输出数据集将包含目标记录的多条记录。
- 一对一连接 - 所有匹配的连接记录都将与目标数据集中的每条记录一起汇总。 只有具备匹配项的记录才会包括在汇总和输出中。 将添加已连接记录的计数。 默认情况下,仅具有指定关系的目标记录才会保留在输出记录类(内部连接)中。 如果指定保留连接,则所有输入目标记录都将写入输出记录类(这称为左外部连接)。
汇总字段参数用于确定将汇总连接数据集中的哪些字段。 汇总字段参数仅在连接操作为一对多连接时可用。 可得到以下汇总统计数据:
- 总和 - 字段内数值的总和。 [null, 1, 3] 的总和为 4。
- 最小值 - 数值或日期字段的最小值。 [0, 2, null] 的最小值为 0。
- 最大值 - 数值或日期字段的最大值。 [0, 2, null] 的最大值为 2。
- 平均值 - 数值的平均值。 [0, 2, null] 的平均值为 1。
- 标准差 - 数值字段的标准差。 [null, 1, 1, 1] 的标准差为 0。
- 计数 - 非空值的数目。 可以在任何类型的字段上使用。 [null, "hello", "world"] 的计数为 2。
- 任何 - 任何类型的字段中的示例值。
可以根据空间关系、时间关系、属性关系或上述三者的组合来连接记录。 空间连接根据其空间位置匹配来自输入记录(目标数据集和连接数据集参数值)的记录(行)。 时态连接根据时态关系匹配输入记录中的记录。 属性连接根据字段值匹配记录。 下表描述了每种类型的连接关系:
关系 | 描述 |
---|---|
属性 | 将确定记录是否彼此相连的属性关系。 如果连接数据集中的字段值等于目标数据集中的字段值,则会对记录进行匹配。 建议使用相同类型的字段。 |
空间 | 将确定记录是否彼此相连的空间关系。 可用的关系将取决于正在连接的数据集的几何类型(点、线或面)。 可用的空间关系如下:
|
时态 | 将确定记录是否彼此相连的时态关系。 可用的关系取决于正在连接的数据集的时间类型(时刻或间隔)。 可用的时间关系如下:
|
如果目标几何和连接几何处于不同的坐标系中,则将使用目标数据集的坐标系来分析空间关系。
当空间关系参数值为平面邻近时,目标几何参数值必须使用投影坐标系。
输出
当运行一对多连接时,目标数据集和连接数据集的所有字段都将包含在输出中。 如果两个数据集中存在相同的字段名称,则连接字段将以单词 join 开头(例如,join_fieldname)。
当运行一对一连接时,除了目标数据集中的所有字段(包括几何)之外,以下字段将包含在输出中:
字段名 | 描述 |
---|---|
COUNT | 已连接的记录数。 输出中始终包含此内容。 |
STATISTIC_fieldname | 指定的统计数据将分别创建一个属性字段,名称格式如下:STATISTIC_fieldname。 例如,id 字段的最大值为 MAX_id。 |
START_DATETIME | 此字段表示开始时间,仅在使用时态连接时才包含此字段。 |
END_DATETIME | 此字段表示结束时间,并且仅在使用具有间隔时间值的时态连接时才包含此字段。 |
许可要求
需要以下许可和配置:
- Creator 或 Professional 用户类型
- 发布者、服务商或管理员角色,或等效的自定义角色
有关 Data Pipelines 要求的详细信息,请参阅要求。
相关主题
有关详细信息,请参阅以下主题: