Инструмент Удалить дубликаты удаляет дублирующиеся записи на основе одного или нескольких ключевых полей. На выходе получается новый набор данных без дубликатов записей.
Примеры
Инструмент Удалить дубликаты можно использовать в следующих сценариях:
- У вас есть данные о местоположении, содержащие записи, которые имеют одинаковые значения для времени, широты и долготы. Укажите поля, содержащие эти значения, чтобы удалить дублирующееся местоположение.
- В ваших данных о транзакциях неправильно хранится одна и та же транзакция несколько раз. Удалите дублирующие записи на основе поля ID транзакции, чтобы получить более точное представление о ваших продажах.
Параметры
В следующей таблице приводится описание параметров, используемых в инструменте Удалить дубликаты:
Параметр | Описание |
---|---|
Входной набор данных | Набор данных, содержащий дублированные записи. |
Ключевые поля | Список из одного или нескольких полей, которые идентифицируют уникальные записи. |
Примечания по использованию
Используйте параметр Входной набор данных для определения набора данных, содержащего дубликаты записей.
Используйте параметр Ключевые поля, чтобы указать одно или несколько полей, которые указывают на уникальность записи. Если набор данных содержит единственное поле уникального идентификатора, вы можете использовать его для удаления дубликатов. Вы можете указать комбинацию полей для идентификации уникальных записей. Например, если у вас есть данные о показаниях датчиков, вы можете указать поля, содержащие метку времени, ID и показание, чтобы удалить дубликаты одного и того же показания.
Удаляемые дубликаты записей могут быть не первыми возникновениями записи во входном наборе данных. Например, если первые три записи входного набора данных являются дубликатами, первая и третья записи могут быть удалены, а вторая запись может быть сохранена.
Выходные данные
Инструмент выводит набор данных, в котором нет дубликатов записей.
Лицензионные требования
Требуется следующее лицензии и конфигурации:
- Тип пользователя Creator или Professional
- Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль
Подробнее о системных требованиях Data Pipelines см. раздел Требования