Skip To Content

移除重复项

“移除重复项”工具根据一个或多个关键字段移除重复记录。 输出为没有重复记录的新数据集。

示例

“移除重复项”工具可用于以下场景:

  • 您的位置数据包含具有相同时间、纬度和经度值的记录。 指定包含这些值的字段以移除重复位置。
  • 您的交易数据出错,多次存储了同一交易。 根据交易 ID 字段移除重复记录,更准确地了解您的销售情况。

参数

下表概述了在“移除重复项”工具中使用的参数:

参数描述

输入数据集

包含重复记录的数据集。

关键字段

标识唯一记录的一个或多个字段的列表。

用法说明

使用输入数据集参数来标识包含重复记录的数据集。

使用关键字段参数指定一个或多个指示记录唯一的字段。 如果数据集包含单个唯一标识符字段,您可以使用它来移除重复项。 或者,您可以指定字段组合来标识唯一记录。 例如,如果您有传感器读数的数据,则可以指定包含时间戳、ID 和读数值的字段以移除相同读数的重复项。

根据三个字段的值移除重复项的示例
在此示例中,关键字段 Reading_Value、SensorID 和 Timestamp 用于移除重复项。

移除的重复记录可能不是输入数据集中第一次出现的记录。 例如,如果输入数据集的前三条记录是重复项,则可以移除第一条和第三条记录并保留第二条记录。

输出

该工具输出没有重复记录的数据集。

许可要求

需要以下许可和配置:

  • CreatorProfessional 用户类型
  • 发布者、服务商或管理员角色,或等效的自定义角色

有关 Data Pipelines 要求的详细信息,请参阅要求