Skip To Content

Supprimer les doublons

L’outil Supprimer les doublons supprime les enregistrements en double en fonction d’un ou de plusieurs champs clés. La sortie est un jeu de données sans enregistrements en double.

Exemples

L’outil Supprimer les doublons peut être utilisé dans les scénarios suivants :

  • Vous possédez des données de localisation contenant des enregistrements qui ont les mêmes valeurs en termes de temps, de latitude et de longitude. Spécifiez les champs contenant ces valeurs pour supprimer la localisation en double.
  • Vos données de transaction stockent à tort une même transaction à plusieurs reprises. Supprimez les enregistrements en double en fonction du champ d’identifiant de la transaction pour mieux comprendre vos ventes.

Paramètres

Le tableau suivant explique les paramètres utilisés dans l’outil Supprimer les doublons :

ParamètreDescription

Jeu de données en entrée

Jeu de données contenant les enregistrements en double.

Champs clés

Liste d’un ou plusieurs champs qui identifient des enregistrements uniques.

Remarques sur l’utilisation

Utilisez le paramètre Input dataset (Jeu de données en entrée) pour identifier le jeu de données contenant les enregistrements en double.

Utilisez le paramètre Key fields (Champs clés) pour spécifier un ou plusieurs champs indiquant les enregistrements uniques. Si le jeu de données contient un seul champ d’identifiant unique, vous pouvez l’utiliser pour supprimer les doublons. Vous pouvez également spécifier une combinaison de champs pour identifier des enregistrements uniques. Admettons, par exemple, que vous ayez des données sur des relevés de capteur. Vous pouvez spécifier les champs contenant l’horodatage et la valeur de relevé pour supprimer les doublons concernant un même relevé.

Exemple de suppression de doublons basée sur la valeur de trois champs
Dans cet exemple, les champs clés Reading_Value, SensorID, et Timestamp ont été utilisés pour supprimer les doublons.

Si des enregistrements en double sont supprimés, l’ordre des données n’est pas pris en compte. Nous ne sommes pas en mesure de garantir quelle occurrence du doublon sera conservée. Par exemple, en présence d’enregistrement en double, l’enregistrement conservé peut être l’un des trois, quel que soit leur ordre d’apparition dans le jeu de données.

Sorties

L’outil produit un jeu de données en sortie dans enregistrements en double.

Licences requises

Les licences et configurations suivantes sont requises :

  • Type d’utilisateur Creator ou Professional
  • Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent

Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.