Skip To Content

Eliminar duplicados

La herramienta Eliminar duplicados elimina los registros duplicados en función de uno o varios campos clave. El resultado es un nuevo dataset sin registros duplicados.

Ejemplos

La herramienta Eliminar duplicados se puede utilizar en situaciones como las siguientes:

  • Tiene datos de ubicación que contienen registros que tienen los mismos valores de hora, latitud y longitud. Especifique los campos que contienen esos valores para eliminar la ubicación duplicada.
  • Sus datos de transacción almacenan incorrectamente la misma transacción varias veces. Elimine los registros duplicados basándose en el campo Id. de transacción para obtener un conocimiento más preciso de sus ventas.

Parámetros

La siguiente tabla muestra los parámetros utilizados en la herramienta Eliminar duplicados:

ParámetroDescripción

Dataset de entrada

El dataset que contiene los registros duplicados.

Campos clave

Una lista de uno o más campos que identifican registros únicos.

Notas de uso

Utilice el parámetro Datos de entrada para identificar el dataset que contiene registros duplicados.

Utilice el parámetro Campos clave para especificar uno o varios campos que indiquen que el registro es único. Si el dataset contiene un único campo identificador único, puede utilizarlo para eliminar duplicados. Si lo desea, puede especificar una combinación de campos para identificar registros únicos. Por ejemplo, si tiene datos de lecturas de sensores, puede especificar los campos que contienen la marca de tiempo, el Id. y el valor de lectura para eliminar duplicados de la misma lectura.

Ejemplo de eliminación de duplicados basada en los valores de tres campos
En este ejemplo, se utilizaron los campos clave Reading_Value, SensorID y Timestamp para eliminar duplicados.

Cuando se eliminan los registros duplicados, no se tiene en cuenta el orden de los datos. No podemos garantizar qué instancia del duplicado se conservará. Por ejemplo, si tiene tres registros duplicados, el registro que se mantenga podría ser cualquiera de los tres, independientemente del orden en que aparezcan en el dataset.

Salidas

La herramienta genera un conjunto de datos sin registros duplicados.

Requisitos de licencia

Se requieren las siguientes licencias y configuraciones:

  • Tipo de usuario Creator o Professional
  • Rol de publicador, moderador o administrador, o rol personalizado equivalente

Para obtener más información sobre los requisitos de Data Pipelines, consulte Requisitos.