Skip To Content

Eliminar duplicados

La herramienta Eliminar duplicados elimina los registros duplicados en función de uno o varios campos clave. El resultado es un nuevo dataset sin registros duplicados.

Ejemplos

La herramienta Eliminar duplicados se puede utilizar en situaciones como las siguientes:

  • Tiene datos de ubicación que contienen registros que tienen los mismos valores de hora, latitud y longitud. Especifique los campos que contienen esos valores para eliminar la ubicación duplicada.
  • Sus datos de transacción almacenan incorrectamente la misma transacción varias veces. Elimine los registros duplicados basándose en el campo Id. de transacción para obtener un conocimiento más preciso de sus ventas.

Parámetros

La siguiente tabla muestra los parámetros utilizados en la herramienta Eliminar duplicados:

ParámetroDescripción

Dataset de entrada

El dataset que contiene los registros duplicados.

Campos clave

Una lista de uno o más campos que identifican registros únicos.

Notas de uso

Utilice el parámetro Datos de entrada para identificar el dataset que contiene registros duplicados.

Utilice el parámetro Campos clave para especificar uno o varios campos que indiquen que el registro es único. Si el dataset contiene un único campo identificador único, puede utilizarlo para eliminar duplicados. Si lo desea, puede especificar una combinación de campos para identificar registros únicos. Por ejemplo, si tiene datos de lecturas de sensores, puede especificar los campos que contienen la marca de tiempo, el Id. y el valor de lectura para eliminar duplicados de la misma lectura.

Ejemplo de eliminación de duplicados basada en los valores de tres campos
En este ejemplo, se utilizaron los campos clave Reading_Value, SensorID y Timestamp para eliminar duplicados.

Los registros duplicados que se eliminan pueden no ser las primeras apariciones del registro en el dataset de entrada. Por ejemplo, si los tres primeros registros del dataset de entrada son duplicados, se pueden eliminar el primero y el tercero y mantener el segundo.

Salidas

La herramienta genera un conjunto de datos sin registros duplicados.

Requisitos de licencia

Se requieren las siguientes licencias y configuraciones:

  • Tipo de usuario Creator o Professional
  • Rol de publicador, moderador o administrador, o rol personalizado equivalente

Para obtener más información sobre los requisitos de Data Pipelines, consulte Requisitos.