Das Werkzeug "Duplikate entfernen" entfernt doppelte Datensätze auf der Grundlage von einem oder mehreren Schlüsselfeldern. Die Ausgabe ist ein neues Dataset ohne doppelte Datensätze.
Beispiele
Das Werkzeug "Duplikate entfernen" kann beispielsweise in den folgenden Szenarien verwendet werden:
- Sie haben Positionsdaten mit Datensätzen, die die gleichen Werte für Zeit, Breitengrad und Längengrad enthalten. Geben Sie die Felder mit diesen Werten an, um die doppelte Position zu entfernen.
- In Ihren Transaktionsdaten wird fälschlich mehrmals die gleiche Transaktion gespeichert. Entfernen Sie die doppelten Datensätze auf der Grundlage des Transaktions-ID-Feldes, um genauere Einblicke in Ihre Umsätze zu erzielen.
Parameter
In der folgenden Tabelle werden die Parameter beschrieben, die im Werkzeug "Duplikate entfernen" verwendet werden:
| Parameter | Beschreibung |
|---|---|
Eingabe-Dataset | Das Dataset mit den doppelten Datensätzen |
Schlüsselfelder | Eine Liste mit einem oder mehreren Feldern, die zum Identifizieren eindeutiger Datensätze verwendet werden |
Verwendungshinweise
Verwenden Sie den Parameter Eingabe-Dataset, um das Dataset mit doppelten Datensätzen zu identifizieren.
Verwenden Sie den Parameter Schlüsselfelder, um mindestens ein Feld anzugeben, aus dem hervorgeht, dass der Datensatz eindeutig ist. Wenn das Dataset ein einziges Feld mit einem eindeutigen Identifikator enthält, können Sie dieses Feld zum Entfernen von Duplikaten verwenden. Alternativ können Sie eine Kombination von Feldern angeben, um eindeutige Datensätze zu identifizieren. Wenn Sie beispielsweise Daten für Sensormesswerte haben, können Sie die Felder angeben, die den Zeitstempel, die ID und den abgelesenen Wert enthalten, um Duplikate der gleichen Ablesung zu entfernen.
Beim Entfernen doppelter Datensätze wird die Reihenfolge der Daten nicht berücksichtigt. Wir können nicht genau vorhersagen, welche der beiden Duplikate beibehalten wird. Wenn Sie beispielsweise drei doppelte Datensätze haben, könnte der beibehaltene Datensatz jeder der drei sein, unabhängig von der Reihenfolge, in der sie im Dataset angezeigt werden.
Ausgaben
Das Werkzeug gibt ein Dataset ohne doppelte Datensätze aus.
Lizenzanforderungen
Die folgenden Lizenzen und Konfigurationen werden benötigt:
- Benutzertyp Creator oder Professional
- Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle
Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.