W histogramach dane liczbowe są agregowane w zakresach o równej szerokości, nazywanych koszami, a wyświetlane są częstości występowania wartości w poszczególnych koszach. Histogram tworzy się przy użyciu pojedynczego pola liczbowego lub wskaźnika/współczynnika.
Histogramy umożliwiają uzyskanie odpowiedzi na takie pytania dotyczące danych, jak: Jaki jest rozkład wartości liczbowych i częstotliwość ich występowania w zestawie danych? Czy istnieją wartości odstające?
Przykład
Pozarządowa instytucja prozdrowotna bada wskaźniki otyłości młodzieży mieszkającej w Stanach Zjednoczonych. Histogram częstotliwości występowania otyłości wśród młodych ludzi w poszczególnych stanach można wykorzystać do określenia rozkładu wskaźników otyłości, w tym najbardziej i najmniej typowych częstotliwości oraz ich ogólny zakres.
Powyższy histogram przedstawia rozkład normalny i wskazuje, że najczęściej występują wskaźniki w zakresie między 10, a 14 procent.
Zwiększanie lub zmniejszanie liczby koszy może mieć wpływ na sposób analizowania danych. Same dane nie ulegają zmianie, ale ich wygląd może się zmieniać. Jest ważne, aby wybrać odpowiednią liczbę koszy dla posiadanych danych, aby nie doprowadzić do błędnej interpretacji występujących wzorców. Zbyt mała liczba koszy może ukryć ważne wzorce, a zbyt duża może spowodować, że niewielkie, ale oczekiwane, wahania będą sprawiać wrażenie istotnych. Na poniższym rysunku przedstawiono przykład odpowiedniej liczby koszy dla danych. Każdy kosz obejmuje zakres o wielkości około jednego procenta, a dane można badać z większą szczegółowością, co pozwala dostrzec wzorce, które nie są widoczne w przypadku użycia sześciu koszy. W tym przypadku wyłaniający się wzorzec reprezentuje rozkład normalny wokół wartości średniej z niewielkim, ale prawdopodobnie nieistotnym, przesunięciem w lewą stronę.
Tworzenie histogramu
Aby utworzyć histogram, wykonaj poniższe czynności:
- Wybierz pole liczbowe bądź pole wskaźnika/współczynnika .
Wskazówka:
Można wyszukiwać pola przy użyciu paska wyszukiwania na panelu danych.
- Utwórz histogram, wykonując poniższe czynności:
- Przeciągnij wybrane pola do nowej karty.
- Umieść wskaźnik myszy nad strefą upuszczania Diagram.
- Upuść wybrane pola na obszar Histogram.
Wskazówka:
Diagramy można utworzyć, korzystając z menu Diagram nad panelem danych lub przycisku Typ wizualizacji na istniejącej karcie. W przypadku menu Diagram zostaną włączone tylko diagramy zgodne z wyborem danych. W przypadku menu Typ wizualizacji zostaną wyświetlone tylko zgodne wizualizacje (w tym mapy, diagramy lub tabele).
Histogramy można także tworzyć za pomocą polecenia Wyświetl histogram dostępnego po kliknięciu przycisku Działanie w obszarze Znajdź odpowiedzi > Jaki jest rozkład?
Uwagi dotyczące korzystania
Histogramy są przedstawiane za pomocą pojedynczych wartości. Przycisk Opcje warstwy umożliwia zmianę koloru symboli i koloru obrysu. Zmiany te zostaną zastosowane do wszystkich koszy.
Podczas tworzenia histogramu aplikacja Insights automatycznie wylicza odpowiednią liczbę koszy do wyświetlania danych. Istnieje możliwość zmiany liczby koszy za pomocą suwaka znajdującego się wzdłuż osi x lub przez kliknięcie liczby koszy i wprowadzenie nowej wartości.
Notatka:
Jeśli wybrana liczba koszy nie dzieli się równomiernie na zakres danych, kosze zostaną obliczone z użyciem wartości dziesiętnych. Jako etykiety koszy na histogramach są wyświetlane zaokrąglone liczby całkowite zamiast dziesiętnych. Zaokrąglone liczby całkowite są tylko wyświetlane, a do wszystkich obliczeń są używane wartości dziesiętne. W sytuacji, gdy kosz zawiera wartości danych zbliżone do limitu górnego lub dolnego i etykieta jest zaokrąglona, początkowa i końcowa wartość kosza mogą wydawać się nieprawidłowe, ponieważ w etykietach są wyświetlane wartości zaokrąglone, a nie dziesiętne.
Przycisk Statystyki diagramu umożliwia wyświetlenie średniej, mediany i rozkładu normalnego danych. Krzywa rozkładu normalnego reprezentuje oczekiwany rozkład losowej próbki danych ciągłych, w której najwyższa częstość wartości koncentruje się wokół wartości średniej i maleje w miarę zwiększania lub zmniejszania wartości w porównaniu do wartości średniej. Krzywa rozkładu normalnego jest przydatna przy określaniu, czy w danych występują pewne odchylenia (na przykład istnieje więcej niższych wartości) lub wartości odstające.
Przycisk Typ wizualizacji umożliwia bezpośrednie przełączanie między histogramem i mapą z symbolami stopniowanymi lub tabelą podsumowania.
Użyj przycisku Odwróć kartę , aby wyświetlić tylną część karty. Karta Informacje o karcie udostępnia informacje na temat danych zawartych na karcie, a karta Eksport danych umożliwia użytkownikom eksportowanie danych z karty.
W tylnej części histogramu wyświetlane są następujące obliczone wartości: średnia, mediana, odchylenie standardowe, asymetria i kurtoza (uproszczona). Statystyki asymetria i kurtoza są opisane w poniższej tabeli:
Statystyka | Opis |
---|---|
Asymetria | Asymetria wskazuje, czy rozkład danych jest symetryczny. Pomiar asymetrii określa, czy większość wartości w rozkładzie leży po lewej, czy po prawej stronie wartości średniej. Asymetria rozkładu normalnego wynosi zero, co oznacza, że równe ilości danych są wyświetlane po każdej stronie wartości średniej. Wartość asymetrii może być równa zeru, ujemna lub dodatnia, zgodnie z poniższym opisem:
|
Kurtoza | Kurtoza opisuje kształt rozkładu częstotliwości i daje miarę prawdopodobieństwa tego, że w rozkładzie wystąpią elementy odstające. Rozkłady bardziej „wysmukłe” są nazywane leptokurtycznymi i mają kurtozę o wartości większej od zera. Rozkłady bardziej „spłaszczone” są nazywane platokurtycznymi i mają kurtozę o wartości mniejszej od zera. Kurtoza rozkładu normalnego ma wartość trzy lub, jeśli stosowana jest kurtoza uproszczona, zero (używany jest ten sam wzór na kurtozę, ale odejmowana jest wartość 3). Wartość kurtozy uproszczonej może być równa zeru, ujemna lub dodatnia, zgodnie z poniższym opisem:
|