“移除重复项”工具根据一个或多个关键字段移除重复记录。 输出为没有重复记录的新数据集。
示例
“移除重复项”工具可用于以下场景:
- 您的位置数据包含具有相同时间、纬度和经度值的记录。 指定包含这些值的字段以移除重复位置。
- 您的交易数据出错,多次存储了同一交易。 根据交易 ID 字段移除重复记录,更准确地了解您的销售情况。
参数
下表概述了在“移除重复项”工具中使用的参数:
参数 | 描述 |
---|---|
输入数据集 | 包含重复记录的数据集。 |
关键字段 | 标识唯一记录的一个或多个字段的列表。 |
用法说明
使用输入数据集参数来标识包含重复记录的数据集。
使用关键字段参数指定一个或多个指示记录唯一的字段。 如果数据集包含单个唯一标识符字段,您可以使用它来移除重复项。 或者,您可以指定字段组合来标识唯一记录。 例如,如果您有传感器读数的数据,则可以指定包含时间戳、ID 和读数值的字段以移除相同读数的重复项。
移除的重复记录可能不是输入数据集中第一次出现的记录。 例如,如果输入数据集的前三条记录是重复项,则可以移除第一条和第三条记录并保留第二条记录。
输出
该工具输出没有重复记录的数据集。
许可要求
需要以下许可和配置:
- Creator 或 Professional 用户类型
- 发布者、服务商或管理员角色,或等效的自定义角色
有关 Data Pipelines 要求的详细信息,请参阅要求。