Feld standardisieren (Datenmanagement)

Zusammenfassung

Standardisiert Werte in Feldern, indem sie in Werte konvertiert werden, die einem bestimmten Maßstab folgen. Zu dem Standardisierungsmethoden gehören "Z-Wert", "Minimum-Maximum", "Absolutes Maximum" und "Robuste Standardisierung".

Abbildung

Standardisieren Sie die Werte eines Feldes.
Standardisieren Sie die Werte eines Feldes mit einer von vier Methoden.

Verwendung

    Vorsicht:

    Mit diesem Werkzeug werden die Eingabedaten geändert. Weitere Informationen und Strategien zur Vermeidung unerwünschter Datenänderungen finden Sie unter Werkzeuge, die Eingabedaten ändern oder aktualisieren.

  • Es gibt vier Standardisierungsmethoden: Z-Wert, Minimum-Maximum, Absolutes Maximum und Robuste Standardisierung.

    • Mit der Methode Z-Wert wird mithilfe von Standardabweichungen die Differenz zwischen einem Wert und dem Mittelwert aller Werte in einem Feld gemessen. Dies wird auch als Standardwert bezeichnet.
      • Mögliche Anwendung: Bewerten Sie die Signifikanz eines Wertes in Relation zur Verteilung der Werte in einem Feld. Beispielsweise kann die Wahlbeteiligung in einem Landkreis im Kontext anderer Landkreise im Land untersucht werden, um typische Muster bei der Wahlbeteiligung und Landkreise mit signifikant hoher und niedriger Wahlbeteiligung zu ermitteln.
      • Überlegung: Bei dieser Methode wird eine Normalverteilung erwartet. Folglich ist diese Methode nicht empfehlenswert, wenn die Verteilung der Daten stark verzerrt ist.
      • Gleichung:Gleichung für "Z-Wert", dabei gilt: x' ist der standardisierte Wert, x ist der ursprüngliche Wert, x̄ ist der Mittelwert (Durchschnitt), und σx ist die Standardabweichung.
    • Bei der Methode Minimum-Maximum bleiben die Beziehungen zwischen den ursprünglichen Datenwerten erhalten, während die Werte in einen Maßstab zwischen benutzerdefinierten Minimal- und Maximalwerten konvertiert werden.
      • Mögliche Anwendung: Ein Immobiliengutachter könnte für die Eigenschaften von Häusern einen einheitlichen Maßstab festlegen, beispielsweise die Anzahl von Räumen in einem Haus oder das Alter des Hauses in Jahren, bevor diese Eigenschaften in einem Modell verwendet werden, z. B. im Werkzeug Forest-basierte Klassifizierung und Regression.
      • Überlegung: Diese Methode ist anfällig für den Einfluss von Ausreißern oder Extremwerten in den Daten.
      • Gleichung: Gleichung für "Minimum-Maximum", dabei gilt: x' ist der standardisierte Wert, x ist der ursprüngliche Wert, min(x) ist das Minimum der Daten, max(x) ist das Maximum der Daten, a ist das benutzerdefinierte Minimum, und b ist das benutzerdefinierte Maximum.
    • Mit der Methode Absolutes Maximum wird die Differenz zwischen einem Wert und dem absoluten Maximalwert in einer Verteilung verglichen, indem die einzelnen Werte durch den absoluten Maximalwert im Feld geteilt werden.

      • Mögliche Anwendung: Diese Methode ist für die Arbeiten mit Daten nützlich, die ein stabiles und logisches Maximum aufweisen, wenn Sie die einzelnen Werte mit diesem Maximum vergleichen möchten. Beispielsweise kann die Anzahl von abgegebenen Stimmen in einem Landkreis nicht über der Anzahl von Wahlberechtigten in dem Landkreis liegen. Der Landkreis mit dem höchsten Anteil von Stimmen wird dieses Maximum, und alle anderen Landkreise werden in Relation zum absoluten Maximum der Wahlbeteiligung bewertet.
      • Überlegung: Der Maßstab für die Ausgabe liegt zwischen -1 und 1. Größere positive Werte entsprechen Werten in der Nähe von 1, und größere negative Werte entsprechen Werten in der Nähe von -1.
      • Gleichung: Gleichung für "Absolutes Maximum", dabei gilt: x' ist der standardisierte Wert, x ist der ursprüngliche Wert, und max(|x|) ist das Maximum der absoluten Werte der Daten.

    • Mit der Methode Robuste Standardisierung werden die Werte in den angegebenen Feldern mithilfe einer robusten Variante des Z-Wertes standardisiert. Diese Variante nutzt den Medianwert und den Interquartil-Bereich statt des Mittelwerts und der Standardabweichung.

      • Mögliche Anwendung: Ein Immobiliengutachter versucht, die Werte von Häusern in einer Stadt zu schätzen, und eine teure Wohngegend mit sehr hohen Hauswerten führt zu Ausreißern in den Daten. Der Gutachter nutzt eine robuste Standardisierung, um den Einfluss dieser Ausreißer in der Verteilung der Hauswerte in der Stadt abzuschwächen.
      • Überlegung: Durch die Verwendung des Medianwertes und des Interquartil-Bereichs kann dies eine effektive Methode sein, den Einfluss von Ausreißern in der Verteilung abzuschwächen.
      • Gleichung: Gleichung für "Robuste Standardisierung", dabei gilt: x' ist der standardisierte Wert, x ist der ursprüngliche Wert, median(x) ist der Medianwert der Daten, und IQR(x) ist der Interquartil-Bereich der Daten.

  • Wenn mehrere Felder bereitgestellt werden, wird die angegebene Standardisierungsmethode auf alle Felder angewendet.

  • Das Werkzeug ändert die Eingabedaten und fügt die neu erstellten standardisierten Felder der Eingabetabelle oder -Feature-Class an.

  • Für jedes ausgewählte Feld werden in den Ergebnismeldungen der Geoverarbeitung Summenstatistiken angegeben. Sie enthalten Werte für Maximum, Minimum, Summe, Mittelwert, Standardabweichung, Medianwert, Verzerrung und Wölbung.

Parameter

BeschriftungErläuterungDatentyp
Eingabetabelle

Die Tabelle, die das Feld mit den zu standardisierenden Werten enthält.

Table View; Raster Layer; Mosaic Layer
Zu standardisierendes Feld

Die Felder, die die zu standardisierenden Werte enthalten. Für jedes Feld kann ein Ausgabefeldname angegeben werden. Wenn kein Ausgabefeldname angegeben wird, erstellt das Werkzeug einen Ausgabefeldnamen aus dem Feldnamen und der ausgewählten Methode.

Value Table
Standardisierungsmethode
(optional)

Gibt die Methode an, die zum Standardisieren der Werte in den angegebenen Feldern verwendet werden soll.

  • Z-ScoreDer Standardwert, also die Anzahl der Standardabweichungen oberhalb oder unterhalb des Mittelwertes, wird verwendet. Die Berechnung ist die Formel für "Z-Wert", mit der die Differenz zwischen dem Wert und dem Mittelwert der Werte in der Spalte geteilt durch die Standardabweichung der Werte in der Spalte berechnet wird. Dies ist die Standardeinstellung.
  • Minimum-MaximumDie Werte werden in einen Maßstab zwischen den benutzerdefinierten Minimal- und Maximalwerten konvertiert.
  • Absolutes MaximumJeder Wert in der Spalte wird durch den absoluten Maximalwert in der Spalte geteilt.
  • Robuste StandardisierungEine robuste Variante der Formel für "Z-Wert" wird zum Standardisieren der Werte in den angegebenen Feldern verwendet. Diese Variante nutzt den Medianwert und den Interquartil-Bereich statt des Mittelwerts und der Standardabweichung.
String
Minimum
(optional)

Der von der Methode Minimum-Maximum des Parameters Standardisierungsmethode verwendete Wert, um den Minimalwert im Maßstab der angegebenen Ausgabewerte anzugeben.

Double
Maximum
(optional)

Der von der Methode Minimum-Maximum des Parameters Standardisierungsmethode verwendete Wert, um den Maximalwert im Maßstab der angegebenen Ausgabewerte anzugeben.

Double

Abgeleitete Ausgabe

BeschriftungErläuterungDatentyp
Aktualisierte Eingabetabelle

Die Tabelle, die die neuen codierten Felder enthält.

Table View

arcpy.management.StandardizeField(in_table, fields, {method}, {min_value}, {max_value})
NameErläuterungDatentyp
in_table

Die Tabelle, die das Feld mit den zu standardisierenden Werten enthält.

Table View; Raster Layer; Mosaic Layer
fields
[[input_field, output_field],...]

Die Felder, die die zu standardisierenden Werte enthalten. Für jedes Feld kann ein Ausgabefeldname angegeben werden. Wenn kein Ausgabefeldname angegeben wird, erstellt das Werkzeug einen Ausgabefeldnamen aus dem Feldnamen und der ausgewählten Methode.

Value Table
method
(optional)

Gibt die Methode an, die zum Standardisieren der Werte in den angegebenen Feldern verwendet werden soll.

  • Z-SCOREDer Standardwert, also die Anzahl der Standardabweichungen oberhalb oder unterhalb des Mittelwertes, wird verwendet. Die Berechnung ist die Formel für "Z-Wert", mit der die Differenz zwischen dem Wert und dem Mittelwert der Werte in der Spalte geteilt durch die Standardabweichung der Werte in der Spalte berechnet wird. Dies ist die Standardeinstellung.
  • MIN-MAXDie Werte werden in einen Maßstab zwischen den benutzerdefinierten Minimal- und Maximalwerten konvertiert.
  • MAXABSJeder Wert in der Spalte wird durch den absoluten Maximalwert in der Spalte geteilt.
  • ROBUSTEine robuste Variante der Formel für "Z-Wert" wird zum Standardisieren der Werte in den angegebenen Feldern verwendet. Diese Variante nutzt den Medianwert und den Interquartil-Bereich statt des Mittelwerts und der Standardabweichung.
String
min_value
(optional)

Der von der Methode MIN-MAX des Parameters method verwendete Wert, um den Minimalwert im Maßstab der angegebenen Ausgabewerte anzugeben.

Double
max_value
(optional)

Der von der Methode MIN-MAX des Parameters method verwendete Wert, um den Maximalwert im Maßstab der angegebenen Ausgabewerte anzugeben.

Double

Abgeleitete Ausgabe

NameErläuterungDatentyp
updated_table

Die Tabelle, die die neuen codierten Felder enthält.

Table View

Codebeispiel

StandardizeField: Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs StandardizeField im Python-Fenster.


arcpy.management.StandardizeField("County_VoterTurnout", 
       "voter_turnout voter_turnout_Z_SCORE", "Z-SCORE")
StandardizeField: Beispiel 2 (eigenständiges Skript)

Im folgenden eigenständigen Skript wird veranschaulicht, wie das Werkzeug StandardizeField verwendet wird.


# Import system modules
import arcpy

try:
    # Set the workspace and input features.
    arcpy.env.workspace = r"C:\\Standardize\\MyData.gdb"
    inputFeatures = ”County_VoterTurnout”

    # Set the input fields that will be standardized
    fields = "votes_total;rawdiff_dem_vs_gop;pctdiff_dem_vs_gop"

    # Set the standardization method.
    method = "ROBUST"

    # Run the Standardize Field tool
    arcpy.management.StandardizeField(inputFeatures, fields, method)

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Umgebungen