Boxplot

Boxplots ermöglichen Ihnen die Visualisierung und den Vergleich der Verteilung und zentralen Tendenz numerischer Werte über deren Quantile. Quartile ermöglichen die Unterteilung numerischer Werte in gleiche Gruppen basierend auf fünf Hauptwerten: Minimum, erstes Quartil, Median, drittes Quartil, und Maximum.

Der Rechteckbereich des folgenden Diagramms veranschaulicht die mittleren 50 Prozent der Datenwerte, die auch als Interquartil-Bereich (IQR) bezeichnet werden. Der Median der Werte wird als Linienunterteilung des Rechtecks in zwei Hälften dargestellt. Der IQR veranschaulicht die Variabilität in einer Reihe von Werten. Ein großer IQR gibt weit verstreute Werte an, während ein kleinerer IQR angibt, dass sich die meisten Werte in der Mitte befinden. Boxplots stellen zudem die Minimum- und Maximumwerte durch vom Rechteck ausgehende Whiskers (oder Linien) und optional Ausreißer als Punkte dar, die sich über die Whiskers hinaus erstrecken.

Boxplot-Diagramm

Variablen

Boxplots bestehen aus einer X- und einer Y-Achse. Die X-Achse weist ein Rechteck für jede Kategorie oder jede Variable vom Typ Numerisches Feld zu. Die Y-Achse dient zum Messen der Werte Minimum, erstes Quartil, Median, drittes Quartil, und Maximum in einer Reihe von Zahlen.

Sie können Boxplots zum Visualisieren einer oder mehrerer Verteilungen nutzen. Um eine einzelne Verteilung zu visualisieren, fügen Sie eine Variable vom Typ Numerisches Feld hinzu. Dies ergibt ein Diagramm mit einem Boxplot, mit dem das ausgewählte numerische Attribut visualisiert wird.

Sie können zusätzliche numerische Felder hinzufügen, um mehrere Verteilungen aus verschiedenen Attributfeldern in einer Tabelle zu vergleichen. In einem Landkreis-Dataset werden beispielsweise Population2010 und Population2015 als Variablen vom Typ Numerisches Feld hinzugefügt. Das resultierende Diagramm zeigt zwei Boxplots an, eines zum Visualisieren der Verteilung von Population2010 und das andere zum Visualisieren der Verteilung von Population2015 für alle Landkreise im Dataset.

Wenn nur eine einzelne Variable vom Typ Numerisches Feld hinzugefügt wird, ist die Option zum Hinzufügen einer Variable vom Typ Kategorie verfügbar, um Verteilungen über Kategorien hinweg zu vergleichen. Beispiel: Für ein Landkreis-Dataset ist Population2010 als Variable vom Typ Numerisches Feld und StateName als Variable vom Typ Kategorie festgelegt. Das resultierende Diagramm zeigt einen Boxplot für jeden US-Bundesstaat an, der die Verteilung von Population2010 für alle Landkreise visualisiert, die zu den einzelnen Bundesstaaten gehören.

Mehrere Reihen

Mithilfe von Boxplots mit mehreren Reihen können Verteilungen unterschiedlicher Typen verglichen oder Vergleiche nach unterschiedlichen Kategorien durchgeführt werden.

Boxplots mit mehreren Reihen können erstellt werden, indem Sie ein Kategoriefeld und mehrere numerische Felder angeben oder ein Unterteilen nach-Kategoriefeld angeben.

Bei Verwendung einer Kategorievariablen mit mehreren numerischen Feldern wird durch jedes numerische Feld, das der Tabelle "Reihe" hinzugefügt wird, eine Reihe erstellt. Beispiel: In einem Landkreis-Dataset sind StateName als Variable vom Typ Kategorie und Population2010, Population2015 und Population2020 als Variablen vom Typ Numerisches Feld festgelegt. Das resultierende Diagramm verfügt über US-Bundesstaaten als Kategorien entlang der X-Achse mit jeweils drei Reihen (Population2010, Population2015 und Population2020).

Alternativ kann die Variable Unterteilen nach hinzugefügt werden, um die Daten weiter zu unterteilen und mehrere Reihen zu erstellen. Population2010 ist beispielsweise als Variable vom Typ Numerisches Feld, StateName als Variable vom Typ Kategorie und ElectionWinner als ein Unterteilen nach-Feld für ein Landkreis-Dataset festgelegt. Die Tabelle "Reihe" wird mit den jeweiligen Einzelwerten für ElectionWinner (Democrat oder Republican) gefüllt. Das resultierende Diagramm zeigt für jeden Staat zwei Boxplots nebeneinander an (100 Boxplots insgesamt), wobei einer die Verteilung von Population2010 für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Democrat visualisiert und der andere die Verteilung für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Republican.

Unterteilen nach-Felder können auch verwendet werden, wenn mehrere Variablen vom Typ Numerisches Feld anstelle einer Variable vom Typ Kategorie verwendet werden. Beispielsweise werden Population2010, Population2015 und Population2020 als Variablen vom Typ Numerisches Feld und ElectionWinner als Unterteilen nach-Feld für ein Landkreis-Dataset festgelegt. Das resultierende Diagramm zeigt die drei Werte aus den Variablen vom Typ Numerisches Feld entlang der X-Achse (Population2010, Population2015 und Population2020) mit jeweils zwei Boxplots nebeneinander an: einer zeigt die Verteilung für alle Landkreise mit dem ElectionWinner-Wert Democrat an und der andere die Verteilung für alle Landkreise mit dem ElectionWinner-Wert Republican.

Anzeigen mehrerer Reihen

Wird ein Unterteilen nach-Feld zum Erstellen mehrerer Reihen verwendet, sind zwei Optionen zum Visualisieren der Ergebnisse verfügbar:

  • Nebeneinander Multibox-Diagramm: Es werden nebeneinander dargestellte Boxplots erstellt, einer für jede Reihe.
  • Als Mittellinien Mittelliniendiagramm: Erstellen Sie einen Boxplot für jeden Wert der Option Kategorie bzw. für jede Variable vom Typ Numerisches Feld, und zeigen Sie mithilfe von Linien den Mittelwert für jeden Einzelwert im Unterteilen nach-Feld an.

Beispiel:Population2010 wird als Variable vom Typ Numerisches Feld, StateName wird als Variable vom Typ Kategorie und ElectionWinner wird als Unterteilen nach-Feld für ein Landkreis-Dataset festgelegt. Die Tabelle "Reihe" wird mit den jeweiligen Einzelwerten für ElectionWinner (Democrat und Republican) gefüllt. Statt jeden US-Bundesstaat in einen Boxplot für jeden ElectionWinner-Wert zu teilen, wird im resultierenden Diagramm ein Boxplot pro Bundesstaat dargestellt. Darin wird die Verteilung von Population2010 für die Landkreise in diesem Bundesstaat anzeigt. Die Boxplots werden mit dem Mittelwert jeder Unterteilen nach-Reihe (Democrat und Republican) überlagert, um anzuzeigen, wo der Mittelwert der jeweiligen Reihe in Bezug auf die Gesamtverteilung liegt.

Standardisierung

Wird ein Boxplot aus mehreren Numerischen Feldern erstellt, wird standardmäßig eine Z-Wert-Standardisierung angewendet. Die Standardisierung ermöglicht das Vergleichen von numerischen Variablen in unterschiedlichen Einheiten.

Zum Beispiel wäre ein Boxplot zum Vergleichen der Verteilungen von Einkommen (bei dem die Werte im Bereich von Zehntausendern liegen) und Arbeitslosenquote (bei der die Werte von 0 bis 1 reichen) ohne Standardisierung nur schwer zu lesen, da die Werte für die Arbeitslosenquote sehr viel kleiner als die für das Einkommen sind.

Die Standardisierung der Attributwerte umfasst eine Z-Transformation, wobei der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Die Z-Score-Standardisierung bringt alle Attribute auf derselben Skala unter, sodass mehrere Verteilungen in einem Diagramm visualisiert werden können. Wenn Sie stattdessen die Rohwerte visualisieren möchten, deaktivieren Sie das Kontrollkästchen Werte standardisieren (Z-Wert) im Bereich Diagrammeigenschaften.

Achsen

Mehrere Optionen steuern die Achsen und die zugehörigen Einstellungen.

Zeichenbegrenzung für X-Achsenbeschriftung

Kategoriebeschriftungen werden standardmäßig nach 11 Zeichen abgeschnitten. Wenn Beschriftungen abgeschnitten sind, können Sie den Mauszeiger über die Beschriftung bewegen, um den vollständigen Text zu sehen. Um den vollständigen Beschriftungstext im Diagramm anzuzeigen, erhöhen Sie die Zeichenbegrenzung für Beschriftungen.

Grenzen der Y-Achse

Die Standardgrenzen der Y-Achse werden entsprechend dem Bereich der Datenwerte auf der Achse festgelegt. Sie können diese Werte anpassen, indem Sie einen neuen Wert für die Achsengrenze eingeben. Sie können Achsengrenzen festlegen, um einen konsistenten Diagrammmaßstab für Vergleiche zu verwenden. Klicken Sie auf die Schaltfläche "Zurücksetzen" Aktualisieren, um die Grenze der Achse auf den Standardwert zurückzusetzen.

Zahlenformat

Sie können formatieren, wie numerische Werte auf einer Achse dargestellt werden, indem Sie eine Zahlenformatkategorie angeben oder eine benutzerdefinierte Formatzeichenfolge definieren. Sie können beispielsweise $#,### als benutzerdefinierte Formatzeichenfolge für die Darstellung von Werten in einer Währung verwenden.

Aussehen

Mehrere Optionen steuern das Aussehen des Diagramms und die zugehörigen Einstellungen.

Titel und Beschreibung

Diagramme und Achsen erhalten Standardtitel basierend auf den Variablennamen und dem Diagrammtyp. Diese können auf der Registerkarte Allgemein im Bereich Diagrammeigenschaften bearbeitet werden. Sie können auch eine Beschreibung für das Diagramm eingeben, wobei es sich um einen Textblock handelt, der am unteren Rand des Diagrammfensters angezeigt wird.

Visuelle Formatierung

Sie können das Aussehen Ihres Diagramms konfigurieren, indem Sie Text- und Symbolelemente formatieren oder ein Diagrammdesign anwenden. Formateigenschaften können auf der Registerkarte Format im Bereich Diagrammeigenschaften konfiguriert werden. Auf der Registerkarte Diagramm kann ein Diagrammdesign ausgewählt werden. Die Optionen für Diagrammformatierung lauten wie folgt:

  • Größe, Farbe und Schriftschnitt der Schriftart für Achsentitel, Achsenbeschriftungen, Beschreibungstexte, Legendentitel, Legendentexte und Führungslinienbeschriftungen
  • Farbe, Breite und Linientyp für Raster- und Achsenlinien
  • Hintergrundfarbe des Diagramms

Weitere Informationen zum Ändern des Aussehens eines Diagramms

Farbe

Boxplots entsprechen nach Möglichkeit der Umrisslinie und den Füllfarben, die in der Layer-Symbolisierung definiert sind. Wenn Reihen auf eine Weise geteilt werden, die nicht mit der Layer-Symbolisierung übereinstimmt, wird eine Standardfarbpalette angewendet. Reihenfarben können auf der Registerkarte Reihe im Bereich Diagrammeigenschaften geändert werden, indem in der Tabelle Reihe auf das Farbfeld Symbol geklickt und eine neue Farbe ausgewählt wird.

Sortieren

Boxplots werden automatisch alphabetisch nach ihren Kategorien (X-Achse aufsteigend) sortiert. Dies lässt sich mit den Optionen zum Sortieren im Bereich Diagrammeigenschaften ändern. Die folgenden Sortieroptionen sind für Boxplots verfügbar:

  • X-Achse aufsteigend: Kategorien werden alphabetisch von links nach rechts angeordnet.
  • X-Achse absteigend: Kategorien werden in umgekehrter alphabetischer Reihenfolge angeordnet.
  • Mittelwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Mittelwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.
  • Medianwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Medianwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.
  • Benutzerdefinierte Sortierung: Kategorien können manuell in der Tabelle Benutzerdefinierte Sortierung angeordnet werden.

Ausrichtung

Boxen können horizontal im Diagrammfenster gezeichnet werden, indem Sie auf die Schaltfläche Diagramm drehen Diagramm drehen klicken.

Führungslinien

Führungslinien oder Bereiche können als Referenz oder zum Hervorheben signifikanter Werte zu Diagrammen hinzugefügt werden. Um eine neue Führungslinie zur Registerkarte Führungslinien im Bereich Diagrammeigenschaften hinzuzufügen, klicken Sie auf Führungslinie hinzufügen. Um eine Linie zu zeichnen, geben Sie einen Wert ein, wo die Linie gezeichnet werden soll. Um einen Bereich zu erstellen, geben Sie einen Wert bis ein. Sie können optional Text zur Führungslinie hinzufügen, indem Sie Beschriftung angeben.

Beispiel

Erstellen Sie einen Boxplot, um die Verteilungen und die Variabilität chronischer Erkrankungen nach US-Bundesstaat zu vergleichen.

  • Numerische Felder: % Diabetes, % Asthma, % Heart Failure
  • Kategorie:State

Boxplots zum Vergleichen der Verteilungen und Variabilität chronischer Erkrankungen nach US-Bundesstaat