Boxplot

Boxplots ermöglichen Ihnen die Visualisierung und den Vergleich der Verteilung und zentralen Tendenz numerischer Werte über deren Quantile. Quartile ermöglichen die Unterteilung numerischer Werte in gleiche Gruppen basierend auf fünf Hauptwerten: Minimum, erstes Quartil, Median, drittes Quartil, und Maximum.

Der Rechteckbereich des folgenden Diagramms veranschaulicht die mittleren 50 Prozent der Datenwerte, die auch als Interquartil-Bereich (IQR) bezeichnet werden. Der Median der Werte wird als Linienunterteilung des Rechtecks in zwei Hälften dargestellt. Der IQR veranschaulicht die Variabilität in einer Reihe von Werten. Ein großer IQR gibt weit verstreute Werte an, während ein kleinerer IQR angibt, dass sich die meisten Werte in der Mitte befinden. Boxplots stellen zudem die Minimum- und Maximumwerte durch vom Rechteck ausgehende Whiskers (oder Linien) und optional Ausreißer als Punkte dar, die sich über die Whiskers hinaus erstrecken.

Boxplot-Diagramm

Beispiel

Der folgende Boxplot zeigt die Verteilung der Lebenserwartung nach Kontinent in 20-Jahres-Schritten von 1800 bis 2040.

  • Numerische Felder:Life expectancy
  • Kategorie:Year
  • Unterteilen nach:Continent
  • Ausreißer anzeigen: Aktiviert
Boxplot der Stimmen für die Lebenserwartung nach Kontinent

Daten

In den Konfigurationen auf der Registerkarte Daten Daten sind die Variablen enthalten, die für die Erstellung des Boxplots verwendet werden.

Variablen

Boxplots bestehen aus einer X- und einer Y-Achse. Die X-Achse weist ein Rechteck für jede Kategorie oder numerische Variable zu. Die Y-Achse dient zum Messen der Werte Minimum, erstes Quartil, Median, drittes Quartil, und Maximum in einer Reihe von Zahlen.

Sie können Boxplots zum Visualisieren einer oder mehrerer Verteilungen nutzen. Um eine einzelne Verteilung zu visualisieren, fügen Sie eine Variable vom Typ Numerische Felder hinzu. Dies ergibt ein Diagramm mit einem Boxplot, mit dem das ausgewählte numerische Attribut visualisiert wird.

Sie können weitere Variablen vom Typ Numerische Felder hinzufügen, um mehrere Verteilungen aus verschiedenen Attributfeldern in einer Tabelle zu vergleichen. In einem Landkreis-Dataset werden beispielsweise Population2010 und Population2015 als Variablen vom Typ Numerische Felder hinzugefügt. Das resultierende Diagramm zeigt zwei Boxplots an, eines zum Visualisieren der Verteilung von Population2010 und das andere zum Visualisieren der Verteilung von Population2015 für alle Landkreise im Dataset.

Wird ein Boxplot aus mehreren numerischen Feldern erstellt, wird standardmäßig eine Z-Wert-Standardisierung angewendet. Die Standardisierung ermöglicht das Vergleichen von numerischen Variablen in unterschiedlichen Einheiten.

Zum Beispiel wäre ein Boxplot zum Vergleichen der Verteilungen von Einkommen (bei dem die Werte im Bereich von Zehntausendern liegen) und Arbeitslosenquote (bei der die Werte von 0 bis 1 reichen) ohne Standardisierung nur schwer zu lesen, da die Werte für die Arbeitslosenquote sehr viel kleiner als die für das Einkommen sind.

Die Standardisierung der Attributwerte umfasst eine Z-Transformation, wobei der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Die Z-Score-Standardisierung bringt alle Attribute auf derselben Skala unter, sodass mehrere Verteilungen in einem Diagramm visualisiert werden können. Wenn Sie stattdessen die Rohwerte visualisieren möchten, dann deaktivieren Sie Werte standardisieren (Z-Wert).

Wenn nur eine einzelne Variable vom Typ Numerische Felder hinzugefügt wird, können Sie eine Variable vom Typ Kategorie hinzufügen, um Verteilungen über Kategorien hinweg zu vergleichen. Beispiel: Für ein Landkreis-Dataset ist Population2010 als Variable vom Typ Numerische Felder und StateName als Variable vom Typ Kategorie festgelegt. Das resultierende Diagramm zeigt einen Boxplot für jeden US-Bundesstaat an, der die Verteilung von Population2010 für alle Landkreise visualisiert, die zu den einzelnen Bundesstaaten gehören.

Mehrere Reihen

Mithilfe von Boxplots mit mehreren Reihen können Verteilungen unterschiedlicher Typen verglichen oder Vergleiche nach unterschiedlichen Kategorien durchgeführt werden.

Boxplots mit mehreren Reihen können erstellt werden, indem Sie ein Kategoriefeld und mehrere numerische Felder angeben oder ein "Unterteilen nach"-Kategoriefeld angeben.

Bei Verwendung einer Variablen vom Typ Kategorie mit mehreren Variablen vom Typ Numerische Felder wird durch jedes numerische Feld, das der Tabelle "Reihe" hinzugefügt wird, eine Reihe erstellt. Beispiel: In einem Landkreis-Dataset sind StateName als Variable vom Typ Kategorie und Population2010, Population2015 und Population2020 als Variablen vom Typ Numerische Felder festgelegt. Das resultierende Diagramm verfügt über US-Bundesstaaten als Kategorien entlang der X-Achse mit jeweils drei Reihen (Population2010, Population2015 und Population2020).

Alternativ kann die Variable Unterteilen nach hinzugefügt werden, um die Daten weiter zu unterteilen und mehrere Reihen zu erstellen. Population2010 ist beispielsweise als Variable vom Typ Numerische Felder, StateName als Variable vom Typ Kategorie und ElectionWinner als ein Unterteilen nach-Feld für ein Landkreis-Dataset festgelegt. Das resultierende Diagramm zeigt für jeden Staat zwei Boxplots nebeneinander an (100 Boxplots insgesamt), wobei einer die Verteilung von Population2010 für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Democrat visualisiert und der andere die Verteilung für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Republican.

Unterteilen nach-Felder können auch verwendet werden, wenn mehrere Variablen vom Typ Numerische Felder anstelle einer Variable vom Typ Kategorie verwendet werden. Beispielsweise werden Population2010, Population2015 und Population2020 als Variablen vom Typ Numerische Felder und ElectionWinner als Unterteilen nach-Feld für ein Landkreis-Dataset festgelegt. Das resultierende Diagramm zeigt die drei Werte aus den Variablen vom Typ Numerische Felder entlang der X-Achse (Population2010, Population2015 und Population2020) mit jeweils zwei Boxplots nebeneinander an: Der eine zeigt die Verteilung für alle Landkreise mit dem ElectionWinner-Wert Democrat an und der andere die Verteilung für alle Landkreise mit dem ElectionWinner-Wert Republican.

Ausreißer

Sie können Ausreißer als Punkte anzeigen, die über die Whisker hinausgehen, indem Sie Ausreißer anzeigen aktivieren. Wenn diese Option nicht aktiviert ist, erstrecken sich die Whisker auf alle Datenpunkte.

Sortierreihenfolge

Boxplots werden automatisch alphabetisch nach Kategorie (X-Achse aufsteigend) sortiert. Die Sortierung kann mit dem Parameter Sortierreihenfolge geändert werden. Die folgenden Sortieroptionen sind für Boxplots verfügbar:

  • X-Achse aufsteigend: Kategorien werden alphabetisch von links nach rechts angeordnet.
  • X-Achse absteigend: Kategorien werden in umgekehrter alphabetischer Reihenfolge angeordnet.
  • Mittelwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Mittelwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.
  • Medianwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Medianwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.

Reihe

Die Konfigurationen auf der Registerkarte Reihe Reihe werden verwendet, um die Farbe und die Beschriftung der Felder im Boxplot zu ändern.

Achsen

Mit den Konfigurationen auf der Registerkarte Achsen Achsen werden die Spezifikationen der X- und Y-Achse geändert.

X-Achse

Kategoriebeschriftungen werden standardmäßig nach 11 Zeichen abgeschnitten. Wenn Beschriftungen abgeschnitten sind, bewegen Sie die Maus darüber, um den vollständigen Text anzuzeigen. Um den vollständigen Beschriftungstext im Diagramm anzuzeigen, erhöhen Sie den Wert Zeichenbegrenzung für Beschriftungen.

Y-Achse

Die Standardgrenzen der Y-Achse basieren auf dem Bereich der Datenwerte auf der Achse. Sie können diese Werte anpassen, indem Sie unter Minimale Grenzwerte oder Maximale Grenzwerte einen Wert eingeben. Durch das Festlegen einer Grenze für die Y-Achse bleibt der Maßstab des Diagramms für Vergleiche einheitlich. Klicken Sie auf die Schaltfläche Zurücksetzen, um die Grenze der Achse auf den Standardwert zurückzusetzen.

Sie können die Anzeige von numerischen Werten auf der Y-Achse formatieren, indem Sie die Anzahl an Dezimalstellen angeben und festlegen, ob ein Tausendertrennzeichen verwendet werden soll.

Führungslinien

Mit den Konfigurationen auf der Registerkarte Führungslinien Führungslinien werden Führungslinien oder Führungsbereiche zum Diagramm hinzugefügt.

Führungslinien oder Bereiche können als Referenz oder zum Hervorheben signifikanter Werte zu Diagrammen hinzugefügt werden. Durch Klicken auf die Schaltfläche Führungslinie hinzufügen können Sie der Y-Achse Führungslinien hinzufügen.

Um eine Führungslinie zu erstellen, geben Sie einen Startwert ein, wo die Linie gezeichnet werden soll. Geben Sie einen Startwert und einen Endwert ein, um eine Führungslinienbereich zu erstellen. Sie können auch das Aussehen der Führungslinie bzw. des Bereichs ändern. Bei Linien können der Style, die Breite und die Farbe aktualisiert werden. Bei Bereichen können Sie die Füllfarbe aktualisieren.

Sie können den Namen der Führungslinie mit dem Parameter Name der Führungslinie ändern und der Führungslinie mit dem Parameter Führungslinienbeschriftung Text hinzufügen (z. B. den Medianwert).

Sie können festlegen, ob die Führungslinie vor oder hinter dem Diagramm dargestellt werden soll, indem Sie die Schaltflächen Im Vordergrund und Im Hintergrund im Parameter Anzeige verwenden.

Format

Mit den Konfigurationen auf der Registerkarte Format Format kann durch Formatieren der Text- und Symbolelemente das Aussehen des Diagramms geändert werden.

Die Optionen für Diagrammformatierung lauten wie folgt:

  • Textelemente: Größe, Farbe und Schriftschnitt der Schriftart für den Diagrammtitel, den X-Achsentitel, den Y-Achsentitel, den Legendentitel, den Beschreibungstext, den Legendentext, die Achsenbeschriftungen und die Datenbeschriftungen. Sie können das Format für mehrere Elemente auf einmal ändern, indem Sie die Strg-Taste gedrückt halten und auf die Elemente klicken, die Sie auswählen möchten.
  • Symbolelemente: Farbe, Breite und Style (Durchgezogen, Gepunktet oder Gestrichelt) für Gitternetz- und Achsenlinien und die Hintergrundfarbe des Diagramms.

Allgemein

Mit den Konfigurationen auf der Registerkarte Allgemein Allgemein können die Titel für das Diagramm, die Achsen und die Legende aktualisiert werden.

Die Standardtitel für Diagramme und Achsen basieren auf den Variablennamen und dem Diagrammtyp. Auf der Registerkarte Allgemein können Sie die Titel bearbeiten oder deaktivieren. Sie können auch einen Titel im Parameter Legendentitel angeben. Für die Einstellung Legendenausrichtung kann Rechts, Links, Oben oder Unten festgelegt werden. Sie können auch eine Diagrammbeschreibung im Parameter Beschreibung hinzufügen. Eine Beschreibung ist ein Textblock, der am unteren Rand des Diagrammfensters angezeigt wird.

Ressourcen

Weitere Informationen zu Diagrammen finden Sie in den folgenden Quellen: