L’outil Supprimer les doublons supprime les enregistrements en double en fonction d’un ou de plusieurs champs clés. La sortie est un jeu de données sans enregistrements en double.
Exemples
L’outil Supprimer les doublons peut être utilisé dans les scénarios suivants :
- Vous possédez des données de localisation contenant des enregistrements qui ont les mêmes valeurs en termes de temps, de latitude et de longitude. Spécifiez les champs contenant ces valeurs pour supprimer la localisation en double.
- Vos données de transaction stockent à tort une même transaction à plusieurs reprises. Supprimez les enregistrements en double en fonction du champ d’identifiant de la transaction pour mieux comprendre vos ventes.
Paramètres
Le tableau suivant explique les paramètres utilisés dans l’outil Supprimer les doublons :
| Paramètre | Description |
|---|---|
Jeu de données en entrée | Jeu de données contenant les enregistrements en double. |
Champs clés | Liste d’un ou plusieurs champs qui identifient des enregistrements uniques. |
Remarques sur l’utilisation
Utilisez le paramètre Input dataset (Jeu de données en entrée) pour identifier le jeu de données contenant les enregistrements en double.
Utilisez le paramètre Key fields (Champs clés) pour spécifier un ou plusieurs champs indiquant les enregistrements uniques. Si le jeu de données contient un seul champ d’identifiant unique, vous pouvez l’utiliser pour supprimer les doublons. Vous pouvez également spécifier une combinaison de champs pour identifier des enregistrements uniques. Admettons, par exemple, que vous ayez des données sur des relevés de capteur. Vous pouvez spécifier les champs contenant l’horodatage et la valeur de relevé pour supprimer les doublons concernant un même relevé.
Si des enregistrements en double sont supprimés, l’ordre des données n’est pas pris en compte. Nous ne sommes pas en mesure de garantir quelle occurrence du doublon sera conservée. Par exemple, en présence d’enregistrement en double, l’enregistrement conservé peut être l’un des trois, quel que soit leur ordre d’apparition dans le jeu de données.
Sorties
L’outil produit un jeu de données en sortie dans enregistrements en double.
Licences requises
Les licences et configurations suivantes sont requises :
- Type d’utilisateur Creator ou Professional
- Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent
Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.
Vous avez un commentaire à formuler concernant cette rubrique ?