Diagram pudełkowy

Diagramy pudełkowe umożliwiają wizualizację i porównanie rozkładu i tendencji centralnej wartości liczbowych poprzez ich kwartyle. Kwartyle to metoda podziału wartości liczbowych na cztery równe grupy w oparciu o pięć kluczowych wartości: minimum, pierwszy kwartyl, mediana, trzeci kwartyl i maksimum.

Pudełkowa część poniższego diagramu ilustruje środkowe 50 procent wartości danych, znane również jako rozstęp ćwiartkowy (IQR). Mediana wartości jest przedstawiona jako linia rozdzielająca pudełko na pół. IQR ilustruje zmienność zbioru wartości. Duży IQR wskazuje na duży rozrzut wartości, podczas gdy mniejszy IQR wskazuje, że większość wartości znajduje się w pobliżu środka. Diagramy pudełkowe ilustrują również minimalne i maksymalne wartości danych za pomocą wąsów lub linii rozciągających się od pudełka i opcjonalnie elementów odstających jako punktów rozciągających się poza wąsami.

Diagram pudełkowy

Przykład

Poniższy diagram pudełkowy przedstawia rozkład oczekiwanej długości życia w podziale na kontynenty w 20-letnich odstępach od 1800 do 2040 roku.

  • Pola liczboweLife expectancy
  • KategoriaYear
  • Dziel wgContinent
  • Pokaż elementy odstające — włączone
Diagram pudełkowy głosów dotyczących oczekiwanej długości życia w podziale na kontynenty

Dane

Konfiguracje karty Dane Dane zawierają zmienne używane do tworzenia diagramu pudełkowego.

Zmienne

Wykresy pudełkowe składają się z osi X i osi Y. Oś X przypisuje jedno pudełko dla każdej zmiennej kategorii lub liczbowej. Oś Y służy do pomiaru wartości minimalnej, pierwszego kwartyla, mediany, trzeciego kwartyla i wartości maksymalnej w zbiorze liczb.

Diagramów pudełkowych można używać do wizualizacji jednego lub wielu rozkładów. Aby zwizualizować pojedynczy rozkład, należy dodać jedną zmienną Pola liczbowe. W rezultacie powstanie diagram z jednym diagramem pudełkowym wizualizującym rozkład wybranego atrybutu liczbowego.

Można dodać inne zmienne Pola liczbowe, aby porównać wiele rozkładów z różnych pól atrybutów w tabeli. Na przykład w zestawie danych powiatów Population2010 i Population2015 są dodawane jako zmienne Pola liczbowe. Wynikowy diagram wyświetla dwa diagramy pudełkowe, jeden wizualizujący rozkład Population2010, a drugi wizualizujący rozkład Population2015 dla wszystkich powiatów w zestawie danych.

Gdy tworzony jest diagram pudełkowy z użyciem wielu pól typu pola liczbowe, domyślnie stosowana jest standaryzacja z użyciem wskaźnika z (z-score). Standaryzacja umożliwia porównywanie zmiennych liczbowych wyrażonych w różnych jednostkach.

Na przykład diagram pudełkowy porównujący rozkłady dochodu (z wartościami w dziesiątkach tysięcy) i stopy bezrobocia (wartości w zakresie od 0 do 1,0) byłby trudny do odczytania bez standaryzacji, ponieważ wartości stopy bezrobocia są znacznie mniejsze niż wartości dochodu.

Standaryzacja wartości atrybutów obejmuje transformację z, w której średnia dla wszystkich wartości jest odejmowana od każdej wartości i dzielona przez odchylenie standardowe dla wszystkich wartości. Standaryzacja za pomocą wskaźnika z (z-score) umieszcza wszystkie atrybuty na tej samej skali, umożliwiając wizualizację wielu rozkładów na tym samym diagramie. Aby zamiast tego wizualizować wartości nieprzetworzone, należy wyłączyć opcję Standaryzuj wartości (wskaźnik z).

Gdy dodana jest tylko jedna zmienna Pola liczbowe, można dodać zmienną Kategoria jako metodę porównywania rozkładów między kategoriami. Na przykład pole Population2010 jest ustawione jako zmienna Pola liczbowe i pole StateName jako zmienna Kategoria dla zestawu danych powiatów. Wynikowy diagram wyświetla wykres pudełkowy dla każdego stanu, wizualizując rozkład Population2010 dla wszystkich powiatów należących do każdego stanu.

Wiele serii

Diagramów pudełkowych z wieloma seriami można używać do porównywania rozkładów różnych typów lub według różnych kategorii.

Diagramy pudełkowe z wieloma seriami można tworzyć przez określenie pola Kategoria i wielu pól Pola liczbowe lub przez określenie pola kategorii Dziel wg.

W przypadku korzystania ze zmiennej Kategoria z wieloma zmiennymi Pola liczbowe, każde pole liczbowe dodane do tabeli serii tworzy serię. Na przykład w zestawie danych powiatów, StateName jest ustawione jako zmienna Kategoria, a Population2010, Population2015 i Population2020 są ustawione jako zmienne typu Pola liczbowe. Wynikowy diagram będzie zawierał stany jako kategorie wzdłuż osi X, z trzema seriami (Population2010, Population2015 i Population2020).

Alternatywnie można dodać zmienną Dziel wg jako sposób na dalsze rozdzielanie danych i tworzenie wielu serii. Na przykład pole Population2010 jest ustawione jako zmienna Pola liczbowe, pole StateName jako zmienna Kategoria i ElectionWinner jako pole Dziel wg dla zestawu danych powiatów. Wynikowy diagram wyświetli dwa diagramy pudełkowe obok siebie dla każdego stanu (łącznie 100 diagramów pudełkowych), jeden wizualizujący rozkład zmiennej Population2010 dla wszystkich powiatów w każdym stanie z polem ElectionWinner o wartości Democrat, a drugi dla wszystkich powiatów w każdym stanie z polem ElectionWinner o wartości Republican.

Można również użyć pól Dziel wg, gdy zamiast zmiennej Kategoria używanych jest wiele zmiennych Pola liczbowe. Na przykład Population2010, Population2015 i Population2020 są ustawione jako zmienne Pola liczbowe, a ElectionWinner jest ustawione jako pole Dziel wg dla zestawu danych powiatów. Wynikowy diagram wyświetli trzy zmienne Pola liczbowe wzdłuż osi X (Population2010, Population2015 i Population2020), każda z dwoma diagramami pudełkowymi obok siebie: jeden wyświetlający rozkład dla wszystkich powiatów z polem ElectionWinner o wartości Democrat, a drugi dla wszystkich powiatów z polem ElectionWinner o wartości Republican.

Elementy odstające

Możesz pokazać wartości odstające jako punkty wykraczające poza wąs, włączając opcję Pokaż wartości odstające. Jeśli opcja ta nie zostanie włączona, wąs będzie obejmował wszystkie punkty danych.

Kolejność sortowania

Diagramy pudełkowe są automatycznie sortowane alfabetycznie według kategorii (oś X rosnąco). Sortowanie można zmienić za pomocą parametru Kolejność sortowania. W przypadku diagramów pudełkowych dostępne są następujące opcje sortowania:

  • Oś X rosnąco — kategorie są uporządkowane alfabetycznie od lewej do prawej.
  • Oś X malejąco — kategorie są uporządkowane w odwrotnej kolejności alfabetycznej.
  • Średnia rosnąco — pudełka są uporządkowane według statystyki średniej w kolejności rosnącej.
  • Średnia malejąco — pudełka są uporządkowane według statystyki średniej w kolejności malejącej.
  • Mediana rosnąco — pudełka są uporządkowane według statystyki mediany w kolejności rosnącej.
  • Mediana malejąco — pudełka są uporządkowane według statystyki mediany w kolejności malejącej.

Serie

Konfiguracje karty Serie Serie służą do zmiany koloru i etykiety pudełek na diagramie pudełkowym.

Osie

Konfiguracje karty Osie Osie służą do zmiany specyfikacji osi X i Y.

Oś X

Domyślnie etykiety kategorii są obcinane do 11 znaków. Gdy etykiety są obcięte, pełny tekst jest wyświetlany po umieszczeniu wskaźnika myszy nad etykietą. Aby wyświetlać na diagramie cały tekst etykiety, należy zwiększyć wartość Limit liczby znaków etykiety.

Oś Y

Domyślnie granice osi y są oparte na zakresie wartości danych reprezentowanych na osi y. Wartości te można dostosować, wpisując wartości w polach Granice minimalne i Granice maksymalne. Ustawienie granicy osi y umożliwia zachowanie spójnej skali diagramu na potrzeby porównywania. Kliknij przycisk Resetuj, aby przywrócić domyślną wartość granicy osi.

Możliwe jest sformatowanie sposobu wyświetlania wartości liczbowych na osi y przez podanie liczby miejsc po przecinku i określenie, czy ma być stosowany separator tysięcy.

Prowadnice

Konfiguracje karty Prowadnice Prowadnice służą do dodawania prowadnic lub zakresów prowadnic do diagramów.

Linie i zakresy prowadnicy można dodać do diagramu jako informacje dodatkowe lub w celu wyróżnienia ważnych wartości. Prowadnice można dodać do osi Y, klikając przycisk Dodaj prowadnicę.

Aby utworzyć linię prowadnicy, wprowadź wartość Początek, określającą, gdzie ma być początek tej linii. Aby utworzyć zakres prowadnicy, wprowadź wartość Początek i wartość Koniec. Można także zmienić wygląd linii lub zakresu prowadnicy. W przypadku linii można zaktualizować styl, szerokość i kolor. W przypadku zakresów można zaktualizować kolor wypełnienia.

Opcjonalnie można także zmienić nazwę prowadnicy przy użyciu parametru Nazwa prowadnicy i dodać do prowadnicy tekst za pomocą parametru Etykieta prowadnicy (na przykład Mediana).

Istnieje możliwość wyboru, czy prowadnice mają być wyświetlane z przodu diagramu, czy za nim, za pomocą przycisków Z przodu i Z tyłu w parametrze Wyświetl.

Format

Konfiguracje karty Format Format służą do zmiany wyglądu diagramu poprzez formatowanie elementów tekstu i symboli.

Dostępne są następujące opcje formatowania diagramu:

  • Elementy tekstowe — rozmiar, kolor i styl czcionki używanej w tytule diagramu, tytule osi x, tytule osi y, tytule legendy, tekście opisu, tekście legendy, etykietach osi i etykietach danych. Aby zmienić format wielu elementów jednocześnie, należy je wybierać, klikając przy naciśniętym jednocześnie klawiszu Ctrl.
  • Elementy symboli — kolor, szerokość i styl (Pełny, Kropka lub Kreska) linii siatki oraz osi, a także kolor tła diagramu.

Ogólne

Konfiguracje karty Ogólne Ogólne służą do aktualizowania tytułów diagramu, osi i legendy.

Domyślne tytuły diagramów i osi są określane na podstawie nazw zmiennych i typu diagramu. Tytuły można modyfikować lub wyłączyć na karcie Ogólne. Tytuł można też podać w parametrze Tytuł legendy. Wyrównanie legendy można ustawić jako Prawe, Lewe, U góry lub U dołu. W parametrze Opis można również dodać opis diagramu. Opis to blok tekstu, który jest wyświetlany u dołu okna diagramu.

Zasoby

Aby dowiedzieć się więcej na temat diagramów, skorzystaj z następujących zasobów: