Skip To Content

Verbinden

Das Werkzeug "Verbinden" verbindet Datasets auf der Grundlage der angegebenen Beziehungen. Datasets können mithilfe von übereinstimmenden Attributen, räumlichen oder zeitlichen Beziehungen oder einer Kombination dieser drei Aspekte verbunden werden.

Beispiele

Das Werkzeug "Verbinden" kann beispielsweise in den folgenden Szenarien verwendet werden:

  • Verbinden von County-Polygonen mit County-Volkszählungsdaten auf der Grundlage übereinstimmender countyID-Feldwerte
  • Verbinden von Datensätzen, die zu einem relativen Zeitpunkt und an einem relativen Ort entstehen, mithilfe sowohl einer zeitlichen als auch einer räumlichen Beziehung

Parameter

In der folgenden Tabelle werden die Parameter beschrieben, die im Werkzeug "Verbinden" verwendet werden:

ParameterBeschreibung

Ziel-Dataset

Das Dataset, mit dem Datensätze verbunden werden

Verbindungs-Dataset

Das Dataset, das mit dem Ziel-Dataset verbunden wird

Verbindungsvorgang

Gibt an, ob alle übereinstimmenden Datensätze verbunden werden sollen (Eins zu Viele) oder ob alle übereinstimmenden Datensätze zusammen verbunden werden (Eins zu Eins).

Verbindungstyp

Gibt an, ob Zieldatensätze, die keinen übereinstimmenden Verbindungsdatensatz haben, in der Ausgabe zurückgegeben werden sollen.

Zusammenfassungsfelder

Bestimmt, für welche Verbindungs-Dataset-Felder Statistiken berechnet werden.

Übereinstimmende Felder verwenden

Gibt an, ob eine Attributbeziehung verwendet wird.

Zielfeld

Das Feld aus dem Ziel-Dataset, das zum Abgleichen von Datensätzen im Verbindungs-Dataset verwendet wird

Join-Feld

Das Feld aus dem Verbindungs-Dataset, das zum Abgleichen von Datensätzen im Ziel-Dataset verwendet wird

Räumliche Beziehung verwenden

Gibt an, ob eine räumliche Beziehung verwendet wird.

Räumliche Beziehung

Gibt den Typ der räumlichen Beziehung an, die zum Definieren der Verbindungsbedingung zwischen Ziel- und Verbindungs-Dataset verwendet wird.

Near-Entfernung

Der Schwellenwert für die lineare Entfernung, der zum Ermitteln von nah beieinander gelegenen Positionen verwendet wird. Dieser Parameter ist nur für räumliche Beziehungen des Typs Nahe (planar) oder Nahe (geodätisch) verfügbar.

Einheit für Near-Entfernung

Die Einheit für den Schwellenwert für die lineare Entfernung. Dieser Parameter ist nur für räumliche Beziehungen des Typs Nahe (planar) oder Nahe (geodätisch) verfügbar.

Zielgeometrie

Das Geometriefeld aus dem Ziel-Dataset, das zum Identifizieren räumlicher Beziehungen mit dem Verbindungs-Dataset verwendet wird

Geometrie verbinden

Das Geometriefeld aus dem Verbindungs-Dataset, das zum Identifizieren räumlicher Beziehungen mit dem Ziel-Dataset verwendet wird

Zeitliche Beziehung verwenden

Gibt an, ob eine zeitliche Beziehung verwendet wird.

Zeitliche Beziehung

Gibt den Typ der zeitlichen Beziehung an, die zum Definieren der Verbindungsbedingung zwischen Ziel- und Verbindungs-Dataset verwendet wird.

Near-Entfernung

Der Schwellenwert für die zeitliche Entfernung, der zum Ermitteln von zeitlich nah beieinander gelegenen Datensätzen verwendet wird. Dieser Parameter ist nur für zeitliche Beziehungen des Typs Nahe, Nahe vor oder Nahe nach verfügbar.

Einheit für Near-Entfernung

Die Einheit für den Schwellenwert für die zeitliche Entfernung. Dieser Parameter ist nur für zeitliche Beziehungen des Typs Nahe, Nahe vor oder Nahe nach verfügbar.

Zielstartzeit

Das Feld für Datum/Uhrzeit aus dem Ziel-Dataset, das zum Angeben der Startzeit eines Datensatzes verwendet wird

Zielendzeit

Das Feld für Datum/Uhrzeit aus dem Ziel-Dataset, das zum Angeben der Endzeit eines Datensatzes verwendet wird. Dieser Parameter ist erforderlich, wenn Sie zum Verbinden Zeiten des Typs "Intervall" verwenden möchten. Weitere Informationen finden Sie unter Zeitliche Beziehungen in Data Pipelines.

Verbindungsstartzeit

Das Feld für Datum/Uhrzeit aus dem Verbindungs-Dataset, das zum Angeben der Startzeit eines Datensatzes verwendet wird

Verbindungszielzeit

Das Feld für Datum/Uhrzeit aus dem Verbindungs-Dataset, das zum Angeben der Endzeit eines Datensatzes verwendet wird. Dieser Parameter ist erforderlich, wenn Sie zum Verbinden Zeiten des Typs "Intervall" verwenden möchten. Weitere Informationen finden Sie unter Zeitliche Beziehungen in Data Pipelines.

Verwendungshinweise

Verwenden Sie den Parameter Ziel-Dataset zum Identifizieren des Datasets, mit dem Datensätze verbunden werden. Verwenden Sie den Parameter Verbindungs-Dataset zum Identifizieren des Datasets, das die Datensätze enthält, die mit den Zieldatensätzen verbunden werden.

Wenn mehrere Verbindungsdatensätze mit dem gleichen Zieldatensatz übereinstimmen, können Sie wie folgt angeben, ob alle übereinstimmenden Datensätze verbunden werden sollen (Option Eins-zu-Viele-Verbindung) oder ob alle übereinstimmenden Datensätze zusammen verbunden werden (Option Eins-zu-Eins-Verbindung):

  • Eins-zu-Viele-Verbindung: Alle übereinstimmenden Datensätze im Verbindungs-Dataset werden mit dem Ziel-Dataset verbunden. Der Ausgabe-Dataset enthält mehrere Datensätze für den Datensatz aus dem Ziel-Dataset.
  • Eins-zu-Eins-Verbindung: Alle übereinstimmenden Verbindungsdatensätze werden zusammengefasst mit jedem Datensatz im Ziel-Dataset verbunden. In die Zusammenfassung und Ausgabe werden nur Datensätze mit einer Übereinstimmung einbezogen. Die Anzahl der verbundenen Datensätze wird hinzugefügt. Standardmäßig werden nur Zieldatensätze mit den angegebenen Beziehungen in der Ausgabe-Datensatzklasse (Inner Join) beibehalten. Wenn Left Join angegeben ist, werden alle Eingabe-Zieldatensätze in die Ausgabe-Datensatzklasse geschrieben (Left Outer Join).
Beispiele für Eins-zu-Viele- und Eins-zu-Eins-Verbindungen
In diesem Beispiel enthält die Eins-zu-Eins-Verbindung nur die Anzahl.

Der Parameter Zusammenfassungsfelder bestimmt, welche Felder aus dem Verbindungs-Dataset zusammengefasst werden. Der Parameter Zusammenfassungsfelder ist verfügbar, wenn der Verbindungsvorgang Eins zu vielen verbinden ist. Die folgenden Summenstatistiken sind verfügbar:

  • Summe: Die Summe der numerischen Werte in einem Feld. Die Summe von [null, 1, 3] ist 4.
  • Min: Der Minimalwert eines numerischen Feldes oder Datumsfeldes. Das Minimum von [0, 2, null] ist 0.
  • Max: Der Maximalwert eines numerischen Feldes oder Datumsfeldes. Das Maximum von [0, 2, null] ist 2.
  • Mittelwert: Der Mittelwert der numerischen Werte. Der Mittelwert von [0, 2, null] ist 1.
  • Standardabweichung: Die Standardabweichung eines numerischen Feldes. Die Standardabweichung von [null, 1, 1, 1] ist 0.
  • Anzahl: Die Anzahl der Nicht-NULL-Werte. Kann für ein Feld jedes beliebigen Typs verwendet werden. Die Anzahl von [null, "hello", "world"] ist 2.
  • Beliebig: Dies ist ein Beispielwert aus einem Feld eines beliebigen Typs.

Datensätze können basierend auf einer räumlichen Beziehung, einer zeitlichen Beziehung, einer Attributbeziehung oder einer Kombination aus diesen verbunden werden. Bei einer räumlichen Verbindung werden Datensätze (Zeilen) aus den Eingabedatensätzen (Parameterwerte Ziel-Dataset und Verbindungs-Dataset) basierend auf ihren räumlichen Positionen zugeordnet. Bei einer zeitlichen Verbindung werden Datensätze aus den Eingabedatensätzen basierend auf ihren zeitlichen Beziehungen zugeordnet. Bei einer Attributverbindung werden Datensätze basierend auf Feldwerten zugeordnet. In der folgenden Tabelle werden die jeweiligen Verbindungsbeziehungstypen beschrieben:

BeziehungBeschreibung

Attribut

Die Attributbeziehung, mit der festgelegt wird, ob Datensätze miteinander verbunden werden. Datensätze werden zugeordnet, wenn die Feldwerte im Verbindungs-Dataset den Feldwerten im Ziel-Dataset entsprechen. Es wird empfohlen, Felder desselben Typs zu verwenden.

Räumlich

Die räumliche Beziehung, anhand derer festgelegt wird, ob Datensätze miteinander verbunden werden. Die verfügbaren Beziehungen hängen vom Geometrietyp (Punkt, Linie oder Fläche) der Datasets ab, die verbunden werden. Die folgenden räumlichen Beziehungen sind verfügbar:

  • Schneidet
  • Gleich
  • Nahe (planar): Verwendet planare Entfernungen.
  • Nahe (geodätisch): Verwendet geodätische Entfernungen.
  • Enthält
  • Innerhalb
  • Berührt
  • Kreuzt
  • Überlappt

Zeitlich

Die zeitliche Beziehung, anhand derer festgelegt wird, ob Datensätze miteinander verbunden werden. Die verfügbaren Beziehungen hängen vom Zeittyp (Zeitpunkt oder Intervall) der Datasets ab, die verbunden werden. Die folgenden zeitlichen Beziehungen sind verfügbar:

  • Entspricht
  • Erfüllt von
  • Überlappt
  • Überlappt von
  • Zwischen
  • Enthält
  • Gleich
  • Beendet
  • Beendet von
  • Startet
  • Gestartet von
  • Schneidet
  • Nahe
  • Nahe vor
  • Nahe nach

Wenn sich Ziel- und Verbindungsgeometrien in unterschiedlichen Koordinatensystemen befinden, wird beim Analysieren räumlicher Beziehungen das Koordinatensystem des Ziel-Datasets verwendet.

Wenn der Parameterwert Räumliche Beziehung auf Nahe (planar) festgelegt ist, muss der Parameterwert Zielgeometrie auf ein projiziertes Koordinatensystem festgelegt sein.

Ausgaben

Beim Ausführen einer Eins-zu-viele-Verbindung werden alle Felder aus dem Ziel-Dataset und dem verbundenen Dataset in die Ausgabe aufgenommen. Falls in beiden Datasets ein Feld mit dem gleichen Namen vorhanden ist, wird an den Anfang des Namens des verbundenen Feldes das Wort "join" angefügt (z. B. join_fieldname).

Beim Ausführen einer Eins-zu-eins-Verbindung werden neben allen Feldern (einschließlich "Geometrie") aus dem Ziel-Dataset die folgenden Felder in die Ausgabe aufgenommen:

FeldnameBeschreibung

COUNT

Die Anzahl der verbundenen Datensätze. Dieses Feld ist immer in der Ausgabe enthalten.

STATISTIC_fieldname

Für jede der angegebenen Statistiken wird ein Attributfeld mit einem Namen im folgenden Format erstellt: STATISTIC_Feldname. So hat beispielsweise der Maximalwert des Feldes id den Namen MAX_id.

START_DATETIME

Dieses Feld gibt die Startzeit an und ist nur bei Verwendung zeitlicher Verbindungen enthalten.

END_DATETIME

Dieses Feld gibt die Endzeit an und ist nur bei Verwendung räumlicher Verbindungen mit Intervallzeitwerten enthalten.

Lizenzanforderungen

Die folgenden Lizenzen und Konfigurationen werden benötigt:

  • Benutzertyp Creator oder Professional
  • Publisher-, Vermittler- oder Administratorrolle oder eine entsprechende benutzerdefinierte Rolle

Weitere Informationen zu den Anforderungen für Data Pipelines finden Sie unter Anforderungen.

Verwandte Themen

Weitere Informationen finden Sie in den folgenden Themen: