Histogram

Histogramy wizualnie podsumowują rozkład ciągłej zmiennej liczbowej poprzez pomiar częstotliwości, z jaką pewne wartości pojawiają się w zestawie danych. Oś X w histogramie jest linią liczb, która została podzielona na zakresy liczb (kosze). Dla każdego kosza rysowany jest słupek, którego szerokość reprezentuje zakres kosza, a wysokość słupka — liczbę punktów danych, które mieszczą się w tym zakresie. Zrozumienie rozkładu danych jest ważnym etapem procesu eksploracji danych.

Przykład

Poniższy histogram przedstawia rozkład frekwencji wyborczej w wyborach, które miały miejsce w USA w 2016 roku.

  • Liczba — frekwencja wyborcza
  • Nakładki — średnia, rozkład normalny
Histogram przedstawiający frekwencję wyborczą w wyborach, które miały miejsce w USA w 2016 roku

Dane

Konfiguracje Danych obejmują zmienną, która jest używana do tworzenia histogramu, liczbę koszy i statystykę wyświetlaną na diagramie.

Zmienna

Histogramy wymagają jednej ciągłej zmiennej typu Liczba na osi X.

Niektóre metody analityczne wymagają, aby dane miały rozkład normalny. Gdy dane są zaburzone (rozkład jest nierównomierny), możesz je przekształcić, aby miały rozkład normalny. Do diagramu można stosować transformacje za pomocą parametru Z transformacją. Transformacje mogą być logarytmiczne lub wykorzystywać pierwiastek kwadratowy.

Wskazówka:

Dla porównania do histogramu można dodać nakładkę rozkładu normalnego, wybierając opcję Rozkład normalny w sekcji Nakładki.

Transformacja logarytmiczna

Transformacja logarytmiczna jest często stosowana w przypadku, gdy dane mają rozkład zaburzony dodatnio i występuje kilka dużych wartości. Jeśli takie duże wartości znajdują się w Twoim zestawie danych, za pomocą transformacji logarytmicznej możesz uczynić wariancje bardziej stałymi i znormalizować dane.

Poniższe przykłady przedstawiają rozkład łącznej liczby głosów w wyborach, które miały miejsce w USA w 2016 roku. Pierwszy obraz jest zaburzony dodatnio i nie ma zastosowanej transformacji. Drugi obraz ma zastosowaną transformację logarytmiczną, która nadaje histogramowi bardziej normalny rozkład.

Histogramy całkowitej liczby głosów z transformacją logarytmiczną i bez niej

ObrazTransformacja
Obraz 1

Brak

Obraz 2

Logarytmiczne

Notatka:

Transformacje logarytmiczne mogą być stosowane tylko do liczb większych od zera.

Transformacja Pierwiastek kwadratowy

Transformacja Pierwiastek kwadratowy jest podobna do transformacji logarytmicznej w tym sensie, że zmniejsza asymetrię zestawu danych skierowaną w prawo. W przeciwieństwie do transformacji logarytmicznych, transformacje Pierwiastek kwadratowy mogą być stosowane do wartości zero.

Notatka:

Transformacje Pierwiastek kwadratowy mogą być stosowane tylko do liczb większych od zera lub równych zero.

Kosze

Domyślna liczba koszy wynosi 32. Można ją dopasować, zmieniając wartość parametru Kosze na karcie Dane. Zmiana liczby koszy umożliwia zobaczenie większej lub mniejszej liczby szczegółów w strukturze danych.

Kolor koszy histogramu można zmienić za pomocą paska kolorów obok opcji Kolor kosza.

Nakładki

Obliczane są następujące statystyki opisowe, które są wyświetlane w postaci linii na histogramach:

  • Rozkład normalny — krzywa w kształcie dzwonu używana do porównania danych z rozkładem normalnym
  • Średnia — pojedyncza pionowa linia wskazująca średnią wartość zestawu danych
  • Mediana — pojedyncza pionowa linia wskazująca wartość mediany zestawu danych
  • Odchylenie standardowe — dwie pionowe linie wskazujące wartości jednego odchylenia standardowego powyżej i poniżej średniej

Kliknij nakładkę, aby ją włączyć lub wyłączyć. Kolor linii można zmienić za pomocą paska kolorów obok statystyki.

Etykiety można włączyć za pomocą parametru Pokaż etykiety danych. Etykiety wskazują liczbę wartości dla każdego kosza.

Statystyka

Dla wybranego pola liczbowego wyświetlane są następujące statystyki:

  • Średnia
  • Średnia
  • Odchylenie standardowe
  • Wiersze
  • Liczba
  • Minimum
  • Maksimum
  • Suma
  • Puste wartości

Osie

Konfiguracje Osie są używane do zmiany specyfikacji osi x i osi y.

Możliwe jest sformatowanie sposobu wyświetlania wartości liczbowych na osiach X i Y przez podanie liczby miejsc po przecinku i określenie, czy ma być stosowany separator tysięcy.

Domyślnie granice osi y są oparte na zakresie wartości danych reprezentowanych na osi y. Wartości te można dostosować, wpisując wartość w polu Granice maksymalne. Ustawienie granicy osi y umożliwia zachowanie spójnej skali diagramu na potrzeby porównywania. Kliknij przycisk Resetuj, aby przywrócić domyślną wartość granicy osi.

Prowadnice

Linie i zakresy prowadnicy można dodać do diagramu jako informacje dodatkowe lub w celu wyróżnienia ważnych wartości. Prowadnice można dodać do osi Y, klikając przycisk Dodaj prowadnicę.

Aby utworzyć linię prowadnicy, wprowadź wartość Początek, określającą, gdzie ma być początek tej linii. Aby utworzyć zakres prowadnicy, wprowadź wartość Początek i wartość Koniec. Można także zmienić wygląd linii lub zakresu prowadnicy. W przypadku linii można zaktualizować styl, szerokość i kolor. W przypadku zakresów można zaktualizować kolor wypełnienia.

Opcjonalnie można także zmienić nazwę prowadnicy przy użyciu parametru Nazwa prowadnicy i dodać do prowadnicy tekst za pomocą parametru Etykieta prowadnicy (na przykład Mediana).

Istnieje możliwość wyboru, czy prowadnice mają być wyświetlane na wierzchu diagramu, czy pod nim, za pomocą przycisków Nad i Pod w parametrze Wyświetlaj.

Format

Wygląd diagramu można skonfigurować za pomocą formatowania tekstu i elementów symboli. Dostępne są następujące opcje formatowania diagramu:

  • Elementy tekstowe — rozmiar, kolor i styl czcionki używanej w tytule diagramu, tytule osi x, tytule osi y, tytule legendy, tekście opisu, tekście legendy, etykietach osi i etykietach danych. Aby zmienić format wielu elementów jednocześnie, należy je wybierać, klikając przy naciśniętym jednocześnie klawiszu Ctrl.
  • Elementy symboli — kolor, szerokość i styl (Pełny, Kropka lub Kreska) linii siatki oraz osi, a także kolor tła diagramu.

Ogólne

Domyślne tytuły diagramów i osi są określane na podstawie nazw zmiennych i typu diagramu. Tytuły można modyfikować lub wyłączyć na karcie Ogólne. Tytuł można również podać w parametrze Tytuł legendy, a opis diagramu — w parametrze Opis. Opis to blok tekstu, który jest wyświetlany u dołu okna diagramu.

Zasoby

Aby dowiedzieć się więcej na temat diagramów, skorzystaj z następujących zasobów: