Entwerfen einer Big-Data-Analyse

In dieser Lektion wird gezeigt, wie Sie mit ArcGIS Velocity eine Big-Data-Analyse erstellen. Sie übernehmen die Rolle eines Verkehrsplaners, der Kfz-Unfälle mit Radfahrern über einen Zeitraum von mehreren Jahren untersuchen möchte. Mithilfe Ihrer Ergebnisse soll ermittelt werden, wo sich durch die Entwicklung einer neuen fahrradfreundlichen Infrastruktur, z. B. Radwege oder Radwegabgrenzungen, die größte Wirkung für die Sicherheit der Radfahrer erzielen lässt.

Die in dieser Lektion verwendeten Daten können von der OpenData-Website von New York City (NYC) heruntergeladen werden. Das vollständige Dataset mit mehr als 1,5 Millionen Datensätzen wurde von dieser Website im CSV-Format heruntergeladen. Die CSV-Datei wird für diese Lektion in einem öffentlichen Amazon S3-Bucket gehostet. Die Verbindungsinformationen werden in den folgenden Schritten angegeben.

Bei der Durchführung der Schritte erstellen Sie eine Big-Data-Analyse und eine Datenquelle, konfigurieren verschiedene Werkzeuge und generieren einen Ausgabe-Feature-Layer, der Analyseergebnisse enthält, die in einer Webkarte angezeigt werden können.

Diese Lektion ist für Einsteiger konzipiert. Sie benötigen ein ArcGIS Online-Konto mit Zugriff auf ArcGIS Velocity. Die Lektion dauert insgesamt ca. 30 Minuten.

Erstellen einer Big-Data-Analyse

Zunächst erstellen Sie in ArcGIS Velocity eine neue Big-Data-Analyse.

  1. Öffnen Sie die ArcGIS Velocity-App in einem Webbrowser, und melden Sie sich mit Ihren ArcGIS Online-Anmeldedaten an.

    Es empfiehlt sich, Google Chrome oder Mozilla Firefox zu verwenden.

    Hinweis:

    Wenn beim Anmelden Probleme auftreten, wenden Sie sich an den ArcGIS Online-Administrator. Möglicherweise muss Ihnen eine ArcGIS Online-Rolle mit Berechtigungen für die Verwendung von ArcGIS Velocity zugewiesen sein.

  2. Klicken Sie im Hauptmenü unter ANALYSE auf Big Data, um auf die Seite Big-Data-Analysen zuzugreifen.

    Sie können vorhandene Big-Data-Analysen anzeigen und neue Big-Data-Analysen erstellen sowie Big-Data-Analysen starten, beenden, ihre Gültigkeit und ihren Ausführungsstatus überprüfen und vorhandene Big-Data-Analysen bearbeiten, klonen und löschen.

    Seite "Big-Data-Analyse"

  3. Klicken Sie auf Big-Data-Analyse erstellen, um einen Datenquellentyp auszuwählen.

Konfigurieren der Datenquelle

Bei der Konfiguration einer Big-Data-Analyse müssen Sie zunächst die Datenquelle konfigurieren, mit der Sie die durch die Big-Data-Analyse zu analysierenden Daten laden.

  1. Klicken Sie im Fenster Datenquellentyp auswählen unter der Kategorie Cloud auf Alle anzeigen.

    Fenster "Datenquellentyp auswählen"

    Hinweis:

    Für alle Big-Data-Analysen muss mindestens eine Datenquelle als Eingabe vorhanden sein.

  2. Wählen Sie unter Cloud-Optionen Amazon S3 aus.

    Optionen für Cloud-Datenquelle

    Informationen zu den Cloud-Anbietern finden Sie auf den Websites für Azure Blob Speicher, Azure Cosmos DB, oder Amazon S3.

  3. Legen Sie im Fenster Amazon S3 konfigurieren für den Schritt Amazon S3-Bucket konfigurieren die Parameter wie folgt fest:
    1. Wählen Sie für Zugriffsmodus die Option Öffentlich aus.
    2. Geben Sie unter Bucket-Name arcgis-velocity-public ein.
    3. Wählen Sie für Region die Region USA West (Oregon) aus.
    4. Unter Ordnerpfad (optional) geben Sie /nyc-motor-vehicle-collisions ein.
    5. Unter Dataset geben Sie NYPD_Motor_Vehicle_Collisions.csv ein.
    6. Klicken Sie auf Weiter, um die Parameter des Amazon S3-Buckets anzuwenden.

    Assistent für Konfiguration der

    Die Datenquelle wird überprüft.

Bestätigen des Datenschemas

Nachdem die Amazon S3-Bucket-Parameters eingestellt sind, bestätigen Sie nun das Datenschema. Beim Konfigurieren einer Datenquelle ist es wichtig, das Schema der empfangenen Daten zu definieren. Velocity versucht beim Abfragen der Daten, das Schema zu definieren und das Datumsformat, Feldtrennzeichen, Feldtypen und Feldnamen schätzungsweise zu ermitteln.

  1. Überprüfen und bestätigen Sie im Schritt Schema bestätigen das Schema der Daten.

    Bestätigen des Schemas der Datenquelle

    Velocity hat die Verbindung mit der Datenquelle getestet, erste Stichproben der Datensätze entnommen und aus diesen Datensätzen das Schema der Daten abgeleitet. Sie können jetzt bei Bedarf die Datenformate, Feldtrennzeichen, Feldtypen und Feldnamen ändern, um sicherzustellen, dass das Schema gültig ist. In dieser Lektion übernehmen Sie die Standardschemaeigenschaften.

  2. Klicken Sie auf Weiter, um das Schema als Stichprobe zu bestätigen.

Identifizieren der Schlüsselfelder

Als Nächstes konfigurieren Sie die Schlüsselfelder, damit Velocity ordnungsgemäß die Geometrie, die Datumsinformationen und eine eindeutige Kennung für die Daten erzeugen kann.

  1. Konfigurieren Sie im Schritt Schlüsselfelder identifizieren die Position-Parameter wie folgt:
    1. Wählen Sie für Positionstyp den Typ X-/Y-Felder aus.
    2. Wählen Sie für X (Längengrad) die Option LONGITUDE aus.
    3. Wählen Sie für Y (Breitengrad) die Option LATITUDE aus.
    4. Wählen Sie für Z (Höhe) die Option Keine aus.
    5. Wählen Sie für Raumbezug das Koordinatensystem GCS WGS 1984 aus.
    6. Wählen Sie für Weisen Ihre Daten Datumsfelder auf? die Antwort Nein aus.

      Mithilfe dieses Parameters kann ein Feld für Start- und Enddatum oder ein Datums-/Uhrzeitfeld in der Datenquelle festgelegt werden. Wenn die eingehenden Daten Datumsinformationen in einem Zeichenfolgenformat enthalten, ist ein Datumsformat erforderlich. Weitere Informationen finden Sie unter Definieren von Datums- und Uhrzeiteigenschaften. In dieser Lektion geben Sie keine Datums- oder Uhrzeitinformationen an.

    7. Wählen Sie für Track-ID die Option Die Daten verfügen über keine Track-ID aus.

      Mit diesem Parameter kann ein Track-ID-Feld in der Datenquelle festgelegt werden. Weitere Informationen finden Sie unter Track-ID. In dieser Lektion definieren Sie keine Track-ID.

      Identifizieren der Schlüsselfelder in der Datenquelle

  2. Klicken Sie auf Abschließen, um die Datenquelle zu erstellen.

Erstellen der Big-Data-Analyse

Die Amazon S3-Datenquelle ist jetzt konfiguriert, und der Analyse-Editor wird geöffnet. Im Analyse-Editor können Sie Werkzeuge, Datenquellen und Ausgaben hinzufügen, um den Workflow und die Analyse zu definieren, die Sie für die Daten durchführen möchten. Sie erstellen jetzt die Big-Data-Analyse.

  1. Klicken Sie auf der Seite Neue Big-Data-Analyse auf Analyse erstellen.
  2. Geben Sie im Fenster Analyse erstellen unter Titel den Text NYC Cyclist Accidents ein.
  3. Geben Sie unter Zusammenfassung den Text Process motor vehicle accidents to identify and analyze those involving cyclists ein.

    Titel und Zusammenfassung im Fenster "Analyse erstellen"

  4. Klicken Sie auf Analyse erstellen, um die Analyse zu erstellen.

    Nachdem die Analyse erstellt wurde, werden auf einer Werkzeugleiste im oberen Bereich des Analyse-Editors zusätzliche Optionen und Steuerelemente zum Speichern, Starten, Planen der Analyse sowie Ausführungseinstellungen für die Analyse angezeigt.

Hinzufügen und Konfigurieren von Werkzeugen in der Analyse

Nachdem die neue Analyse erstellt wurde, können Sie dieser jetzt Werkzeuge hinzufügen, mit denen die Big-Data-Analyse der Radfahrer-Unfalldaten von New York City ausgeführt wird. Sie konfigurieren mit Velocity eine Analyse-Pipeline, in der die Ausgabe eines Schrittes die Eingabe des nächsten Schrittes ist. Sie konfigurieren sequenzielle Werkzeuge, um die Kfz-Unfälle zu untersuchen, bei denen Radfahrer verletzt wurden.

Als Erstes fügen Sie ein Feld mit dem Namen TotalCyclistCasualties hinzu, in dem die Werte in den Feldern NUMBER OF CYCLIST INJURED und NUMBER OF CYCLIST KILLED für jeden einzelnen Datensatz aus der Datenquelle summiert werden.

  1. Wählen Sie im Ordner Daten verwalten das Werkzeug Feld berechnen aus.

    Auswählen des Werkzeugs "Feld berechnen"

  2. Konfigurieren Sie das Werkzeug Feld berechnen wie folgt:
    1. Wählen Sie Neues Feld aus.
    2. Geben Sie unter Feld Folgendes ein:

      TotalCyclistCasualties

    3. Wählen Sie Int32 als Typ aus.

      Damit geben Sie an, dass es sich um ein ganzzahliges 32-Bit-Feld handelt.

    4. Klicken Sie auf die Schaltfläche Arcade-Ausdruck konfigurieren, um das Fenster Arcade-Ausdruck konfigurieren zu öffnen.
    5. Geben Sie in das Feld Ausdruck Folgendes ein:

      $feature["NUMBER OF CYCLIST INJURED"] + $feature["NUMBER OF CYCLIST KILLED"]

      Das Ergebnis sollte in etwa wie in der Abbildung unten aussehen.

      Fenster "Arcade-Ausdruck konfigurieren"

    6. Klicken Sie auf OK, um den Ausdruck zu speichern.
    7. Klicken Sie in der Spalte Feldberechnung hinzufügen auf Hinzufügen, um das neue Feld hinzuzufügen.

      Konfiguriertes Werkzeug "Feld berechnen"

    8. Klicken Sie auf Übernehmen, um das Werkzeug Feld berechnen zu speichern.

      Das Werkzeug Feld berechnen wird unter der Amazon S3-Datenquelle, die Sie weiter oben definiert haben, der Analyse hinzugefügt.

    Nachdem Sie das Werkzeug "Feld berechnen" hinzugefügt haben, filtern Sie als Nächstes die Kfz-Unfalldaten von New York City, um die Unfälle mit gültigen Standortkoordinaten zu identifizieren, die zu einer Verletzung oder zum Tod eines Radfahrers geführt haben.

  3. Wählen Sie im Ordner Daten verwalten das Werkzeug Nach Ausdruck filtern aus, und konfigurieren Sie es wie folgt:
    1. Klicken Sie auf die Schaltfläche Arcade-Ausdruck konfigurieren, um das Fenster Arcade-Ausdruck konfigurieren zu öffnen.
    2. Geben Sie in das Feld Ausdruck Folgendes ein:

      $feature.TotalCyclistCasualties > 0 & $feature.LATITUDE > 0

      In diesem Dataset gibt es Datensätze mit ungültigen Koordinaten. Diese Datensätze können ignoriert werden, indem die Datensätze herausgefiltert werden, deren Breitengrad kleiner als oder gleich 0 ist.

    3. Klicken Sie auf OK, um zum Konfigurationsassistenten des Werkzeugs Nach Ausdruck filtern zurückzukehren.
    4. Klicken Sie auf Übernehmen, um den Ausdruck anzuwenden.

      Hinzugefügtes Werkzeug "Nach Ausdruck filtern"

      Das Werkzeug Nach Ausdruck filtern wird im Analyse-Editor hinter dem Werkzeug Feld berechnen, das Sie zuvor erstellt haben, hinzugefügt.

    Nachdem jetzt der Filter hinzugefügt wurde, fügen Sie als Nächstes ein weiteres Werkzeug hinzu. Mit diesem werden Punkte räumlich aggregiert, um die Anzahl der Unfälle, die zu Verletzungen oder zum Tod von Radfahrern geführt haben, als reguläre hexagonale Abschnitte darzustellen.

  4. Wählen Sie im Ordner Daten zusammenfassen das Werkzeug Punkte aggregieren aus, und konfigurieren Sie es wie folgt:
    1. Wählen Sie für Punkte aggregieren in die Option Bins aus.
    2. Wählen Sie für Abschnittstyp den Typ Hexagon aus.
    3. Geben Sie als Abschnittsgröße den Wert 250 ein. Lassen Sie die Maßeinheit auf Meter festgelegt.
    4. Klicken Sie auf Erweiterte Optionen.
    5. Wählen Sie im Abschnitt Zusammenfassungsfelder unter Attribut den Text TotalCyclistCasualties aus.
    6. Wählen Sie für Statistik die Option Summe aus.
    7. Lassen Sie für Ausgabefeldname den Standardnamen TotalCyclistCasualties_Sum unverändert.
    8. Klicken Sie auf Hinzufügen, um das Zusammenfassungsfeld hinzuzufügen.

      Konfiguriertes Werkzeug "Punkte aggregieren"

    9. Klicken Sie auf Übernehmen, um die Werkzeugparameter anzuwenden.

      Das Werkzeug Punkte aggregieren wird im Analyse-Editor hinter dem Werkzeug Nach Ausdruck filtern, das Sie im vorherigen Schritt konfiguriert haben, hinzugefügt.

Konfigurieren einer Ausgabe

Die Datenquelle und eine Pipeline von Analysewerkzeugen sind jetzt konfiguriert. Als Nächstes fügen Sie eine Ausgabe hinzu, mit der Sie die Ergebnisse der Big-Data-Analyse in einer Webkarte visualisieren können. Schreiben Sie die Ausgabe in einen neuen Feature-Layer, den Sie mit den folgenden Schritten erstellen.

  1. Klicken Sie im Analyse-Editor auf Ausgabe hinzufügen, um eine Ausgabe auszuwählen.
  2. Klicken Sie auf Alle anzeigen in der Kategorie ArcGIS.
  3. Wählen Sie Feature-Layer und dann Feature-Layer (neu) aus.
  4. Legen Sie im Fenster Feature-Layer (neu) konfigurieren für den Schritt Feature-Layer konfigurieren die folgenden Parameter fest:
    1. Wählen Sie für Datenspeichermethode die Option Neue Features hinzufügen aus.

      Wenn Sie eine Datenquelle verwendet haben, zu der eine Track-ID definiert wurde, wenden Sie die Methode Neuestes Feature beibehalten an. Mit dieser Speichermethode wird bei jedem Empfang eines neuen Features für eine bestimmte Track-ID das gespeicherte Feature, das mit dieser Track-ID verknüpft ist, durch das neue Feature ersetzt.

    2. Wählen Sie für Bei jeder Ausführung der Analyse die Option Vorhandene Features und Schema ersetzen aus.

      Konfigurieren der Ausgabe des neues Feature-Layers

      Wenn Sie Vorhandene Features und Schema ersetzen verwenden, werden bei jedem Ausführen der Big-Data-Analyse die Features und das Schema im Ausgabe-Feature-Layer überschrieben. Dies kann hilfreich sein, wenn Sie eine Big-Data-Analyse entwickeln und zwischen einzelnen Ausführungen der Analyse Werkzeuge hinzufügen, entfernen oder ändern. Die Option Vorhandene Features und Schema beibehalten kann hingegen hilfreich sein, wenn Sie bei jedem Ausführen der Big-Data-Analyse Datensätze anhängen möchten.

  5. Klicken Sie auf Weiter.
  6. Geben Sie im Schritt Speichern für Feature-Layer-Name NYC_Cyclist_Accident_Aggregation ein.
  7. Klicken Sie auf Abschließen, um die neue Ausgabe zu speichern.

    Name des Ausgabe-Feature-Layers

    Die neue Ausgabe von Feature-Layer (neu) wird unter dem Werkzeug Punkte aggregieren hinzugefügt, das Sie zuvor hinzugefügt haben.

  8. Klicken Sie oben in der Velocity-App auf Speichern, um die Big-Data-Analyse NYC Cyclist Accidents zu speichern.

Starten der Big-Data-Analyse

Sie haben mit Erfolg eine Big-Data-Analyse konfiguriert. Die Analyse lädt Millionen Datensätze unter Verwendung eines definierten Schemas aus einer durch Trennzeichen getrennten Textdatei, verarbeitet die Ereignisdatensätze mit verschiedenen Werkzeugen und schreibt die Analyseausgabe in einen neuen Feature-Layer. Als Nächstes starten Sie die Big-Data-Analyse NYC Cyclist Accidents.

  1. Klicken Sie oben in der Velocity-App auf Start, um die Analyse NYC Cyclist Accidents zu starten.

    Starten der Big-Data-Analyse

    Der Text der Schaltfläche Start wird zu Initialisierung stoppen und dann zu Stoppen. Damit wird angezeigt, dass die Analyse gestartet wurde und ausgeführt wird.

    Hinweis:

    Velocity-Feeds und -Echtzeitanalyse werden nach dem Starten ausgeführt, bis sie beendet werden. Big-Data-Analysen werden automatisch beendet, sobald sie abgeschlossen sind. Mit den Optionen im Dropdown-Menü Zeitplan kann die wiederholte Ausführung von Big-Data-Analysen konfiguriert werden. Dies bedeutet, dass Big-Data-Analysen regelmäßig in Intervallen von einigen Minuten oder Stunden, an bestimmten Wochentagen oder zu bestimmten Uhrzeiten ausgeführt werden können. Weitere Informationen zur Zeitplanung einer Big-Data-Analyse finden Sie unter Planen von wiederkehrenden Big-Data-Analysen.

  2. Überwachen Sie die Analyse, bis sich der Text der Schaltfläche Stoppen in Start ändert.

    Wenn sich die Schaltfläche Stoppen in Start ändert, bedeutet dies, dass die Analyse ausgeführt wurde, abgeschlossen wurde und jetzt nicht mehr ausgeführt wird. Sie können außerdem auf der Seite Big-Data-Analyse in der App Velocity den Status von Big-Data-Analysen überwachen.

Untersuchen der Analyseergebnisse in einer Webkarte

Als Sie im vorherigen Abschnitt die Big-Data-Analyse gestartet haben, wurde ein Ausgabe-Feature-Layer erstellt. Sie öffnen jetzt diesen Ausgabe-Feature-Layer in einer Webkarte und zeigen die Ergebnisse der Big-Data-Analyse der Radfahrer-Unfalldaten von New York City an.

  1. Klicken Sie im Hauptmenü unter AUSGABE auf Layer, um die Seite Layer zu öffnen.
  2. Suchen Sie in der Liste den Feature-Layer NYC_Cyclist_Accident_Aggregation, und klicken Sie auf das Symbol In Map Viewer öffnen, um den Layer in einer Webkarte anzuzeigen.

    Feature-Layer in Map Viewer öffnen

    Hinweis:

    Durch Echtzeit- oder Big-Data-Analysen erstellte Ausgabe-Layer werden erst auf der Seite Layer angezeigt, wenn die Analyse erfolgreich ausgeführt wurde und eine Ausgabe generiert hat.

  3. Zoomen Sie in die Ausdehnung der Daten im Gebiet von New York City.
  4. Ändern Sie die Grundkarte in Dunkelgrauer Hintergrund.
  5. Klicken Sie auf dem Layer auf die Schaltfläche Style ändern. Wählen Sie für den Schritt Ein Attribut auswählen, das angezeigt werden soll das Attribut Anzahl aus dem Dropdown-Menü aus.
  6. Wählen Sie für den Schritt Einen Darstellungs-Style auswählen den Eintrag Anzahl und Mengen (Farbe) aus, und klicken Sie auf Optionen.
  7. Klicken Sie auf Symbole, ändern Sie den Farbverlauf in Rot/Orange/Weiß, und klicken Sie auf OK.
  8. Aktivieren Sie das Kontrollkästchen Daten klassifizieren.
  9. Wählen Sie im Dropdown-Menü Methode den Eintrag Standardabweichung aus, und legen Sie die Klassengröße auf die Standardabweichung 1 fest.
  10. Übernehmen Sie die anderen Standardeigenschaften, klicken Sie auf OK und dann auf Fertig.

    Ergebnisse der Big-Data-Analyse in einer Webkarte

  11. Schwenken und zoomen Sie in der Webkarte, um die Ergebnisse der Big-Data-Analyse zu untersuchen. Vergleichen Sie Gebiete, in denen mehr Radfahrer bei Verkehrsunfällen verletzt oder getötet wurden, mit Gebieten, die eine geringere Anzahl solcher Unfälle aufweisen.

Nächste Schritte

Sie haben in dieser Lektion eine Big-Data-Analyse erstellt und ausgeführt, mit der Millionen von Radfahrerunfällen analysiert wurden, um Gebiete in New York City mit den höchsten Unfallzahlen zu ermitteln. Auf Grundlage dieser Ergebnisse können Sie fundierte Entscheidungen darüber treffen, wo eine neue fahrradfreundliche Infrastruktur die größte Wirkung entfaltet.

Überprüfen Sie die folgenden Ressourcen, während Sie weiter mit Velocity arbeiten: GrundlegendeArcGIS Velocity Begriffe, Durchführen von Big-Data-Analysen und Verwenden von Arcade-Ausdrücken.