Skip To Content

Duplikate entfernen

Das Werkzeug "Duplikate entfernen" entfernt doppelte Datensätze auf der Grundlage von einem oder mehreren Schlüsselfeldern. Die Ausgabe ist ein neues Dataset ohne doppelte Datensätze.

Beispiele

Das Werkzeug "Duplikate entfernen" kann beispielsweise in den folgenden Szenarien verwendet werden:

  • Sie haben Positionsdaten mit Datensätzen, die die gleichen Werte für Zeit, Breitengrad und Längengrad enthalten. Geben Sie die Felder mit diesen Werten an, um die doppelte Position zu entfernen.
  • In Ihren Transaktionsdaten wird fälschlich mehrmals die gleiche Transaktion gespeichert. Entfernen Sie die doppelten Datensätze auf der Grundlage des Transaktions-ID-Feldes, um genauere Einblicke in Ihre Umsätze zu erzielen.

Parameter

In der folgenden Tabelle werden die Parameter beschrieben, die im Werkzeug "Duplikate entfernen" verwendet werden:

ParameterBeschreibung

Eingabe-Dataset

Das Dataset mit den doppelten Datensätzen

Schlüsselfelder

Eine Liste mit einem oder mehreren Feldern, die zum Identifizieren eindeutiger Datensätze verwendet werden

Verwendungshinweise

Verwenden Sie den Parameter Eingabe-Dataset, um das Dataset mit doppelten Datensätzen zu identifizieren.

Verwenden Sie den Parameter Schlüsselfelder, um mindestens ein Feld anzugeben, aus dem hervorgeht, dass der Datensatz eindeutig ist. Wenn das Dataset ein einziges Feld mit einem eindeutigen Identifikator enthält, können Sie dieses Feld zum Entfernen von Duplikaten verwenden. Alternativ können Sie eine Kombination von Feldern angeben, um eindeutige Datensätze zu identifizieren. Wenn Sie beispielsweise Daten für Sensormesswerte haben, können Sie die Felder angeben, die den Zeitstempel, die ID und den abgelesenen Wert enthalten, um Duplikate der gleichen Ablesung zu entfernen.

Beispiel für das Entfernen von Duplikaten basierend auf den Werten von drei Feldern
In diesem Beispiel wurden die Schlüsselfelder "Reading_Value", "SensorID" und "Timestamp" zum Entfernen von Duplikaten verwendet.

Bei den entfernten doppelten Datensätze handelt es sich möglicherweise nicht um die ersten Vorkommen des Datensatzes im Eingabe-Dataset. Wenn zum Beispiel die ersten drei Datensätze des Eingabe-Datasets Duplikate sind, werden möglicherweise der erste und der dritte Datensatz entfernt, und der zweite Datensatz wird beibehalten.

Ausgaben

Das Werkzeug gibt ein Dataset ohne doppelte Datensätze aus.

Lizenzanforderungen

Die folgenden Lizenzen und Konfigurationen werden benötigt:

  • Benutzertyp Creator oder Professional
  • Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle

Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.