Extrahieren von Positionen aus Dokumenten und Text

Der ArcGIS AllSource-Bereich Positionen extrahieren in der Erweiterung ArcGIS LocateXT ermöglicht Ihnen das Scannen von Dokumenten und Text, um räumliche Koordinaten und benutzerdefinierte Positionen zu suchen. Öffnen Sie die Karte, der Sie die gefundenen Positionen hinzufügen möchten. Die Punkte, die die Positionen darstellen, werden in einer Feature-Class gespeichert und der aktiven Karte als Layer hinzugefügt.

Öffnen des Bereichs "Positionen extrahieren"

Zum Öffnen des Bereichs Positionen extrahieren muss eine Karte in ArcGIS AllSource aktiviert sein.

  1. Erstellen oder öffnen Sie eine Karte. Klicken Sie z. B. auf der Registerkarte Karte in der Gruppe Einfügen auf Neue Karte.
  2. Klicken Sie auf der Registerkarte Daten in der Gruppe Werkzeuge auf Positionen extrahieren Positionen extrahieren und klicken Sie auf Positionen extrahierenPositionen extrahieren.

    Der Bereich Positionen extrahieren wird angezeigt.

Positionen extrahieren

Im Bereich Positionen extrahieren können Sie auf der Registerkarte Extrahieren Folgendes angeben:

  • Die Dateien, die Ordner oder den Text, die zum Suchen von Positionen gescannt werden sollen
  • Der Name des Karten-Layers und der Ausgabe-Feature-Class, die erstellt oder aktualisiert werden
  • Das Koordinatensystem der Ausgabe-Feature-Class (sofern erstellt)

Wenn Sie Positionen aus Dokumenten oder Text extrahieren, können Sie auswählen, ob eine neue Feature-Class erstellt und der aktiven Karte ein neuer Layer hinzugefügt wird, ob ein vorhandener Karten-Layer und eine vorhandene Feature-Class aktualisiert werden oder ob eine vorhandene Feature-Class überschrieben wird.

Hinzufügen eines neuen Layers zur Karte

Eine Feature-Class zum Speichern der extrahierten Positionen wird erstellt. In der aktiven Karte wird ein Karten-Layer erstellt, um den Inhalt der Feature-Class anzuzeigen.

  1. Öffnen Sie den Bereich Positionen extrahieren.
  2. Geben Sie mit einer der folgenden Methoden einen Namen für den neuen Karten-Layer und die Feature-Class an, die erstellt werden:
    • Geben Sie im Textfeld Name einen Namen für den neuen Karten-Layer und die neue Feature-Class ein. In der Standard-Geodatabase des Projekts wird dann eine neue Feature-Class mit diesem Namen erstellt.
    • Klicken Sie auf die Schaltfläche Durchsuchen Durchsuchen, und navigieren Sie im Dialogfeld Neue Feature-Class zu dem Speicherort, an dem Sie eine Feature-Class oder ein Shapefile erstellen möchten. Geben Sie im Textfeld Name einen Namen für das neue Element ein, und klicken Sie auf Speichern.
      Vorsicht:

      Wenn Sie statt eines neuen Namens den Namen einer vorhandenen Feature-Class auswählen, wird im Bereich Positionen extrahieren eine Warnung eingeblendet. Die vorhandene Feature-Class wird gelöscht, und eine neue Feature-Class mit demselben Namen wird erstellt. Das kann sich auch auf andere Karten auswirken.

  3. Klicken Sie auf die Dropdown-Liste Koordinatensystem oder die Schaltfläche Koordinatensystem auswählen Koordinatensystem und dann auf das Koordinatensystem, das Sie für die Ausgabe-Feature-Class verwenden möchten.

    Das Koordinatensystem der Eingabe-Features wird eigenständig auf der Registerkarte Koordinaten und in der Datei mit benutzerdefinierten Positionen angegeben. Die gefundenen Positionen werden in das Koordinatensystem der Ausgabe-Feature-Class umgewandelt.

  4. Klicken Sie auf die Registerkarte Dateien und Ordner, und geben Sie die Elemente an, die zum Suchen von Positionen gescannt werden sollen.
    • Ziehen Sie Dateien und Ordner aus dem Windows-Explorer auf die Registerkarte.
    • Klicken Sie auf Durchsuchen, navigieren Sie im Dialogfeld Dateien und Ordner hinzufügen zu den entsprechenden Dateien oder Ordnern, und klicken Sie auf OK. Klicken Sie auf Weitere hinzufügen, um der Liste Dateien und Ordner hinzuzufügen.
  5. Klicken Sie auf die Registerkarte Text, und geben Sie den Text an, der zum Suchen von Positionen gescannt werden soll.
    • Kopieren Sie Text in einem Dokument, einer E-Mail oder auf einer Webseite, und fügen Sie ihn auf der Registerkarte ein.
    • Wählen Sie den in einem Dokument, einer E-Mail oder auf einer Webseite zu scannenden Text aus, und ziehen Sie ihn in ArcGIS AllSource und auf die Registerkarte.
  6. Es muss mindestens eine Datei, ein Ordner oder ein Text als Eingabe angegeben werden. Alle Elemente können auf einmal gescannt werden.
  7. Klicken Sie auf Extrahieren.

Sie können den Vorgang jederzeit abbrechen. Nach Abschluss des Vorgangs wird unten im Bereich eine Meldung angezeigt, die angibt, ob der Vorgang erfolgreich abgeschlossen wurde.

Die angegebene Feature-Class wird erstellt, und die gefundenen Positionen werden in der Feature-Class als Punkte gespeichert. Der aktiven Karte wird ein Karten-Layer hinzugefügt, der die Feature-Class referenziert. Wenn in den Dokumenten und im Text keine Positionen gefunden wurden, sind die Feature-Class und der Karten-Layer leer.

Hinweis:

Wenn Sie eine vorhandene Feature-Class überschreiben, die zuvor zur Karte hinzugefügt wurde, wird ein neuer Karten-Layer erstellt und zu der Karte hinzugefügt, die auf die neue Feature-Class zugreift.

Um Positionen aus einem anderen Satz von Dokumenten oder aus an anderer Stelle erfasstem Text zu extrahieren, klicken Sie im unteren Bereich der Registerkarte Extrahieren auf Gesamte Eingabe löschen. Alle Dateien werden aus der Liste auf der Registerkarte Dateien und Ordner entfernt, und sämtlicher Text wird von der Registerkarte Text entfernt. Geben Sie einen neuen Satz zu verarbeitender Elemente an.

Aktualisieren eines vorhandenen Layers auf der Karte

Sie können einer vorhandenen Feature-Class schrittweise Positionen hinzufügen. Beispielsweise können Sie jede Woche einen neuen Satz von Berichten verarbeiten und dem vorhandenen Satz Positionen aus diesen Dateien hinzufügen. Oder Sie können, wenn Sie nach dem Verarbeiten einer Stichprobe von Dokumenten mit den Ergebnissen zufrieden sind, zusätzliche Dokumente verarbeiten und der vorhandenen Feature-Class diese Positionen hinzufügen.

  1. Öffnen Sie den Bereich Positionen extrahieren.
  2. Klicken Sie auf die Dropdown-Liste Name, und klicken Sie auf den vorhandenen Karten-Layer, der aktualisiert werden soll.

    Der vorhandenen Feature-Class, die von dem Karten-Layer referenziert wird, werden die aus den Dokumenten und dem Text extrahierten Positionen hinzugefügt. Die Steuerelemente zur Angabe des Koordinatensystems der Ausgabe-Feature-Class werden deaktiviert.

  3. Klicken Sie auf die Registerkarte Dateien und Ordner, und geben Sie die Elemente an, die zum Suchen von Positionen gescannt werden sollen.
  4. Klicken Sie auf die Registerkarte Text, und geben Sie den Text an, der zum Suchen von Positionen gescannt werden soll.
  5. Klicken Sie auf Extrahieren.

    Im Bereich Positionen extrahieren wird der Bereich Feldabgleich angezeigt.

  6. Geben Sie das Feld in der Attributtabelle des vorhandenen Layers an, in dem die aus den Dokumenten und dem Text extrahierten Informationen gespeichert werden sollen.

    Weiter unten werden sämtliche Felder beschrieben, die in der Ausgabe-Feature-Class aufgefüllt werden können.

  7. Wenn in keinem der Felder in der vorhandenen Feature-Class extrahierte Informationen gespeichert werden können, klicken Sie auf Zurück Zurück, und wählen Sie einen anderen Ausgabe-Layer aus, oder erstellen Sie einen neuen Layer.
  8. Wenn Sie mit der Übereinstimmung zwischen den Feldern des vorhandenen Layers und den Feldern mit den aus den Dokumenten und dem Text extrahierten Informationen zufrieden sind, klicken Sie auf OK.

Sie können den Vorgang jederzeit abbrechen. Nach Abschluss des Vorgangs wird unten im Bereich eine Meldung angezeigt, die angibt, ob der Vorgang erfolgreich abgeschlossen wurde.

Wenn beim Scannen der Dokumente und des Textes Positionen gefunden wurden, werden diese der angegebenen Feature-Class hinzugefügt. Der vorhandene Karten-Layer und seine Attributtabelle werden mit den neuen Positionen aktualisiert.

Überprüfen der extrahierten Positionen

Nachdem Dokumente und Text gescannt wurden und die Ausgabe-Feature-Class erstellt wurde, wird der Ausgabe-Karten-Layer zur Karte hinzugefügt und im Bereich Inhalt ausgewählt. Klicken Sie auf eine gefundene Position, um weitere Informationen über sie zu erhalten. Im Pop-up-Fenster werden die extrahierte Position, das Dokument, aus dem sie extrahiert wurde, sowie aus dem Dokument um die Position herum extrahierte Informationen angezeigt, die Kontext vermitteln. Öffnen Sie die Attributtabelle des Layers, um sämtliche gefundenen Positionen zu vergleichen. Beim Bewerten der Daten können Sie Positionen außerhalb des aktuellen Umfangs löschen oder eine Teilmenge der Daten exportieren, die für Sie von besonderem Interesse sind.

Im Bereich Positionen extrahieren sind verschiedene Standardeinstellungen für die Erkennung der häufigsten Positionen vorhanden. Wenn Sie über bessere Kenntnisse der in den Daten vorhandenen Positionen verfügen, können Sie diese Einstellungen auf der Registerkarte Eigenschaften anpassen, um zusätzliche Positionen oder genauer eingegrenzte Informationen in den Ausgabefeldern zu extrahieren.

Weitere Informationen über die Einstellungen zum Extrahieren von Positionen und Attributen

Definitionen der Ausgabefelder

Wenn eine neue Feature-Class zum Speichern der extrahierten Positionen erstellt wird, enthält die Feature-Class die folgenden Standardfelder und ggf. zusätzliche Felder, die in einer benutzerdefinierten Attributdatei definiert sind:

Weitere Informationen über benutzerdefinierte Attributdateien

FeldnameFeld-AliasDatentypBeschreibung

Name

Name

Text: standardmäßig 50 Zeichen

Der Name der verarbeiteten Datei oder Text, um anzugeben, dass Text verarbeitet wurde. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Pre_Text

Pre-Text

Text: standardmäßig 254 Zeichen

Ein Auszug aus der Datei oder dem Text vor der gefundenen Position. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Ext_Text

Extracted Text

Text: standardmäßig 120 Zeichen

Die in der Datei oder im Text gefundene Position, zum Beispiel 52.825°N, 169.944°W für eine räumliche Koordinate oder LAX für eine benutzerdefinierte Position, um einen Flughafencode mit einer räumlichen Koordinate zu verknüpfen. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Ext_Type

Extracted Type

Text: standardmäßig 50 Zeichen

Der Typ der gefundenen Position, z. B. eine Koordinate in Dezimalgrad (Decimal Degrees, DD). Wenn eine benutzerdefinierte Position gefunden wurde, wird die Position aufgezeichnet, die in der abgeglichenen Datei mit benutzerdefinierten Positionen definiert ist. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Post_Text

Post-Text

Text: standardmäßig 254 Zeichen

Ein Auszug aus der Datei oder dem Text nach der gefundenen Position. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Precision

Precision (m)

Long

Für räumliche Koordinaten die Genauigkeit der Position (in Metern) auf dem Boden. Beispielsweise ist eine Koordinate in Dezimalgrad mit vielen Dezimalstellen genauer, und die Entfernung ist geringer.

Für benutzerdefinierte Positionen die Anzahl der Buchstaben, die beim Abgleich des ursprünglichen Textes mit der Position nicht übereingestimmt haben. Bei deaktiviertem Fuzzy-Abgleich ist eine genaue Übereinstimmung erforderlich, und der Wert ist 0. Wenn Fuzzy-Abgleich aktiviert ist und die falsch geschriebene Position Redalnds mit Redlands abgeglichen wird, ist der Wert 2.

Std_Coord

Stand. Coord.

Text: 30 Zeichen

Eine standardisierte Version der extrahierten Position, zum Beispiel 52.825000N 169.944000W. Das Format dieser Koordinate wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

First_Date

First Date

Datum

Das erste in der Datei oder dem Text gefundene Datum, sofern Datumsangaben extrahiert werden. Andernfalls enthält das Feld NULL-Werte. Datumsangaben werden nur extrahiert, wenn sie in dem Bereich liegen, der auf der Registerkarte Ausgabe angegeben ist, das Datum nicht übersprungen wird und die maximale Anzahl der zu extrahierenden Datumsangaben nicht erreicht wurde.

Early_Date

Earliest Date

Datum

Das älteste in der Datei oder dem Text gefundene Datum, sofern Datumsangaben extrahiert werden. Andernfalls enthält das Feld NULL-Werte. Datumsangaben werden nur extrahiert, wenn sie in dem Bereich liegen, der auf der Registerkarte Ausgabe angegeben ist, das Datum nicht übersprungen wird und die maximale Anzahl der zu extrahierenden Datumsangaben nicht erreicht wurde.

Late_Date

Latest Date

Datum

Das neueste in der Datei oder dem Text gefundene Datum, sofern Datumsangaben extrahiert werden. Andernfalls enthält das Feld NULL-Werte. Datumsangaben werden nur extrahiert, wenn sie in dem Bereich liegen, der auf der Registerkarte Ausgabe angegeben ist, das Datum nicht übersprungen wird und die maximale Anzahl der zu extrahierenden Datumsangaben nicht erreicht wurde.

All_Dates

All Dates

Text: standardmäßig 254 Zeichen

Eine durch Kommas getrennte Liste aller im Text gefundenen Datumsangaben, sofern Datumsangaben extrahiert werden. Andernfalls enthält das Feld NULL-Werte. Alle Datumsangaben werden im standardmäßig im Format jjjj-mm-tt dargestellt. Datumsangaben werden nur extrahiert, wenn sie in dem Bereich liegen, der auf der Registerkarte Ausgabe angegeben ist, das Datum nicht übersprungen wird und die maximale Anzahl der zu extrahierenden Datumsangaben nicht erreicht wurde. Wenn die durch Kommas getrennte Liste der Datumsangaben die Größe dieses Feldes überschreitet, wird die Liste gekürzt. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

ExDateText

Extrahierter Datumstext

Text: standardmäßig 254 Zeichen

Die in der Datei oder im Text gefundenen Datumsangaben, zum Beispiel August 18, 2019 oder 2/3/2020. Wenn die durch Kommas getrennte Liste der Datumsangaben die Größe dieses Feldes überschreitet, wird die Liste gekürzt. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Filename

Filename

Text: standardmäßig 254 Zeichen

Der vollständige Pfad der verarbeiteten Datei oder ein NULL-Wert, wenn Text verarbeitet wurde. Sie können die Dateien auswählen, die verarbeitet oder übersprungen werden sollen. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

File_Type

File Type

Text: standardmäßig 10 Zeichen

Das Format der verarbeiteten Datei oder ein NULL-Wert, wenn Text verarbeitet wurde. Sie können festlegen, dass bestimmte Dateitypen verarbeitet werden. Die Größe wird durch die Einstellungen auf der Registerkarte Ausgabe gesteuert.

Modified

Modified (UTC)

Text: 20 Zeichen

Das Datum und die Uhrzeit der letzten Änderung der Datei im Format JJJJ-MM-TT hh:mm:ss.

Scanned

Scanned (UTC)

Text: 20 Zeichen

Das Datum und die Uhrzeit der letzten Verarbeitung der Datei im Format JJJJ-MM-TT hh:mm:ss.

Ergebnisse auswerten

Beim ersten Scannen eines Dokuments erhalten Sie möglicherweise nicht die erwarteten Positionen. Zusätzlich zum Ausgabe-Karten-Layer und der Ausgabe-Feature-Class können zwei Protokolldateien erzeugt werden: ein Scanprotokoll und ein Protokoll ungültiger Koordinaten. Wenn Sie als Eingabe ein Dokument bereitgestellt haben, dessen Inhalt Sie kennen, und die Anzahl der in der Ausgabe-Feature-Class erstellten Positionen nicht mit der erwarteten Anzahl übereinstimmt, können die Protokolldateien helfen, die Ergebnisse zu bewerten.

Nachdem die Dokumente und der Text gescannt wurden und die Ausgabe-Feature-Class erstellt wurde, wird unten im Bereich Positionen extrahieren die Meldung angezeigt, dass der Vorgang erfolgreich abgeschlossen wurde. Die Meldung enthält Links zu den Protokolldateien. Dies sind temporäre Dateien. Um sie für die zukünftige Überprüfung zu speichern, öffnen Sie die Dateien, und speichern Sie sie an einem dauerhaften Speicherort, z. B. im Home-Ordner des Projekts. Fügen Sie z. B. den Namen des Karten-Layers oder der Feature-Class hinzu, dem bzw. der die Protokolldatei zugeordnet ist.

Scanprotokoll

Klicken Sie in der Meldung unten im Bereich Positionen extrahieren auf den Link Scanprotokoll anzeigen, um die Scanprotokolldatei zu öffnen. Im Protokoll werden für jedes gescannte Dokument die folgenden Informationen angezeigt:

  • Der Dateiname und Speicherort des Dokuments auf dem lokalen oder Netzwerkcomputer
  • Gegebenenfalls eine Meldung, die angibt, dass beim Scannen des Dokuments ein Problem aufgetreten ist
  • Die Anzahl der gefundenen potenziellen Positionen
  • Die Anzahl der gefundenen eindeutigen Datumsangaben

Eine potenzielle Position ist im Inhalt des Dokuments gefundener Text, der einer räumlichen Koordinate oder einer benutzerdefinierten Position ähnelt. Wenn es sich bei der Eingabe um Text gehandelt hat, enthält das Scanprotokoll keinen Dateinamen und keine Positionen, jedoch alle anderen der oben genannten Informationen.

Wenn Sie die Extraktion von neun Positionen erwartet haben, in der Ausgabe jedoch beispielsweise nur sechs Positionen erstellt wurden, kann das Scanprotokoll zur Aufklärung der Ursachen beitragen. Das Protokoll gibt möglicherweise an, dass aufgrund der aktuellen Einstellungen im Bereich Positionen extrahieren nur sechs mögliche Positionen gefunden wurden. Möglicherweise wird im Protokoll auch angegeben, dass mehr Datumsangaben als erwartet gefunden wurden – eventuell wurde eine Koordinate als Datum interpretiert. Passen Sie die Einstellungen an, bevor Sie erneut Positionen aus dem Dokument extrahieren.

Protokoll ungültiger Koordinaten

Wenn eine potenzielle Position erstellt und als ungültig erachtet wurde, wird ein Protokoll ungültiger Koordinaten erzeugt. Klicken Sie auf Ungültiges Koordinatenprotokoll anzeigen, um es zu öffnen.

Das Protokoll ungültiger Koordinaten enthält die folgenden Angaben:

  • Das Dokument, in dem die potenzielle Position gefunden wurde
  • Den ursprünglichen Text, der als potenzielle Position bestimmt wurde
  • Das zum Auswerten der Position verwendete Koordinatenformat

Wenn beispielsweise eine Breitengrad- und Längengradkoordinate gefunden wurde, der Breitengrad der Koordinate jedoch größer als 90 Grad ist, gilt die Koordinate als ungültig. Möglicherweise stellen Sie fest, dass die potenziellen Positionen im Dokument mit einem anderen als dem erwarteten Koordinatenformat ausgewertet wurden. Passen Sie die Einstellungen an, bevor Sie erneut Positionen aus dem Dokument extrahieren.

Wenn das Protokoll ungültiger Koordinaten nicht hilfreich ist, können Sie das Kontrollkästchen Ungültige Koordinaten protokollieren auf der Registerkarte Koordinaten deaktivieren, damit ungültige Koordinaten für die verwendeten Formate räumlicher Koordinaten nicht aufgezeichnet werden.