L’outil Supprimer les doublons supprime les enregistrements en double en fonction d’un ou de plusieurs champs clés. La sortie est un jeu de données sans enregistrements en double.
Exemples
L’outil Supprimer les doublons peut être utilisé dans les scénarios suivants :
- Vous possédez des données de localisation contenant des enregistrements qui ont les mêmes valeurs en termes de temps, de latitude et de longitude. Spécifiez les champs contenant ces valeurs pour supprimer la localisation en double.
- Vos données de transaction stockent à tort une même transaction à plusieurs reprises. Supprimez les enregistrements en double en fonction du champ d’identifiant de la transaction pour mieux comprendre vos ventes.
Paramètres
Le tableau suivant explique les paramètres utilisés dans l’outil Supprimer les doublons :
Paramètre | Description |
---|---|
Jeu de données en entrée | Jeu de données contenant les enregistrements en double. |
Champs clés | Liste d’un ou plusieurs champs qui identifient des enregistrements uniques. |
Remarques sur l’utilisation
Utilisez le paramètre Input dataset (Jeu de données en entrée) pour identifier le jeu de données contenant les enregistrements en double.
Utilisez le paramètre Key fields (Champs clés) pour spécifier un ou plusieurs champs indiquant les enregistrements uniques. Si le jeu de données contient un seul champ d’identifiant unique, vous pouvez l’utiliser pour supprimer les doublons. Vous pouvez également spécifier une combinaison de champs pour identifier des enregistrements uniques. Admettons, par exemple, que vous ayez des données sur des relevés de capteur. Vous pouvez spécifier les champs contenant l’horodatage et la valeur de relevé pour supprimer les doublons concernant un même relevé.
Les enregistrements en double qui sont supprimés ne sont pas nécessairement les premières occurrences de l’enregistrement au sein du jeu de données en entrée. Si, par exemple, les trois premiers enregistrements du jeu de données en entrée sont en double, le premier et le troisième peuvent être supprimés tandis que le deuxième enregistrement est conservé.
Sorties
L’outil produit un jeu de données en sortie dans enregistrements en double.
Licences requises
Les licences et configurations suivantes sont requises :
- Type d’utilisateur Creator ou Professional
- Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent
Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.
Vous avez un commentaire à formuler concernant cette rubrique ?