Skip To Content

Duplikate entfernen

Das Werkzeug "Duplikate entfernen" entfernt doppelte Datensätze auf der Grundlage von einem oder mehreren Schlüsselfeldern. Die Ausgabe ist ein neues Dataset ohne doppelte Datensätze.

Beispiele

Das Werkzeug "Duplikate entfernen" kann beispielsweise in den folgenden Szenarien verwendet werden:

  • Sie haben Positionsdaten mit Datensätzen, die die gleichen Werte für Zeit, Breitengrad und Längengrad enthalten. Geben Sie die Felder mit diesen Werten an, um die doppelte Position zu entfernen.
  • In Ihren Transaktionsdaten wird fälschlich mehrmals die gleiche Transaktion gespeichert. Entfernen Sie die doppelten Datensätze auf der Grundlage des Transaktions-ID-Feldes, um genauere Einblicke in Ihre Umsätze zu erzielen.

Parameter

In der folgenden Tabelle werden die Parameter beschrieben, die im Werkzeug "Duplikate entfernen" verwendet werden:

ParameterBeschreibung

Eingabe-Dataset

Das Dataset mit den doppelten Datensätzen

Schlüsselfelder

Eine Liste mit einem oder mehreren Feldern, die zum Identifizieren eindeutiger Datensätze verwendet werden

Verwendungshinweise

Verwenden Sie den Parameter Eingabe-Dataset, um das Dataset mit doppelten Datensätzen zu identifizieren.

Verwenden Sie den Parameter Schlüsselfelder, um mindestens ein Feld anzugeben, aus dem hervorgeht, dass der Datensatz eindeutig ist. Wenn das Dataset ein einziges Feld mit einem eindeutigen Identifikator enthält, können Sie dieses Feld zum Entfernen von Duplikaten verwenden. Alternativ können Sie eine Kombination von Feldern angeben, um eindeutige Datensätze zu identifizieren. Wenn Sie beispielsweise Daten für Sensormesswerte haben, können Sie die Felder angeben, die den Zeitstempel, die ID und den abgelesenen Wert enthalten, um Duplikate der gleichen Ablesung zu entfernen.

Beispiel für das Entfernen von Duplikaten basierend auf den Werten von drei Feldern
In diesem Beispiel wurden die Schlüsselfelder "Reading_Value", "SensorID" und "Timestamp" zum Entfernen von Duplikaten verwendet.

Beim Entfernen doppelter Datensätze wird die Reihenfolge der Daten nicht berücksichtigt. Wir können nicht genau vorhersagen, welche der beiden Duplikate beibehalten wird. Wenn Sie beispielsweise drei doppelte Datensätze haben, könnte der beibehaltene Datensatz jeder der drei sein, unabhängig von der Reihenfolge, in der sie im Dataset angezeigt werden.

Ausgaben

Das Werkzeug gibt ein Dataset ohne doppelte Datensätze aus.

Lizenzanforderungen

Die folgenden Lizenzen und Konfigurationen werden benötigt:

  • Benutzertyp Creator oder Professional
  • Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle

Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.