Skip To Content

Supprimer les doublons

L’outil Supprimer les doublons supprime les enregistrements en double en fonction d’un ou de plusieurs champs clés. La sortie est un jeu de données sans enregistrements en double.

Exemples

L’outil Supprimer les doublons peut être utilisé dans les scénarios suivants :

  • Vous possédez des données de localisation contenant des enregistrements qui ont les mêmes valeurs en termes de temps, de latitude et de longitude. Spécifiez les champs contenant ces valeurs pour supprimer la localisation en double.
  • Vos données de transaction stockent à tort une même transaction à plusieurs reprises. Supprimez les enregistrements en double en fonction du champ d’identifiant de la transaction pour mieux comprendre vos ventes.

Paramètres

Le tableau suivant explique les paramètres utilisés dans l’outil Supprimer les doublons :

ParamètreDescription

Jeu de données en entrée

Jeu de données contenant les enregistrements en double.

Champs clés

Liste d’un ou plusieurs champs qui identifient des enregistrements uniques.

Remarques sur l’utilisation

Utilisez le paramètre Input dataset (Jeu de données en entrée) pour identifier le jeu de données contenant les enregistrements en double.

Utilisez le paramètre Key fields (Champs clés) pour spécifier un ou plusieurs champs indiquant les enregistrements uniques. Si le jeu de données contient un seul champ d’identifiant unique, vous pouvez l’utiliser pour supprimer les doublons. Vous pouvez également spécifier une combinaison de champs pour identifier des enregistrements uniques. Admettons, par exemple, que vous ayez des données sur des relevés de capteur. Vous pouvez spécifier les champs contenant l’horodatage et la valeur de relevé pour supprimer les doublons concernant un même relevé.

Exemple de suppression de doublons basée sur la valeur de trois champs
Dans cet exemple, les champs clés Reading_Value, SensorID, et Timestamp ont été utilisés pour supprimer les doublons.

Les enregistrements en double qui sont supprimés ne sont pas nécessairement les premières occurrences de l’enregistrement au sein du jeu de données en entrée. Si, par exemple, les trois premiers enregistrements du jeu de données en entrée sont en double, le premier et le troisième peuvent être supprimés tandis que le deuxième enregistrement est conservé.

Sorties

L’outil produit un jeu de données en sortie dans enregistrements en double.

Licences requises

Les licences et configurations suivantes sont requises :

  • Type d’utilisateur Creator ou Professional
  • Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent

Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.