Tworzenie histogramu i korzystanie z niego

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

W histogramach dane liczbowe są agregowane w zakresach o równej szerokości, nazywanych koszami, a wyświetlane są częstości występowania wartości w poszczególnych koszach. Histogram tworzy się przy użyciu pojedynczego pola liczbowego lub wskaźnika/współczynnika.

Histogramy umożliwiają uzyskanie odpowiedzi na takie pytania dotyczące danych, jak: Jaki jest rozkład wartości liczbowych i częstotliwość ich występowania w zestawie danych? Czy istnieją wartości odstające?

Przykład

Pozarządowa instytucja prozdrowotna bada wskaźniki otyłości młodzieży mieszkającej w Stanach Zjednoczonych. Histogram częstotliwości występowania otyłości wśród młodych ludzi w poszczególnych stanach można wykorzystać do określenia rozkładu wskaźników otyłości, w tym najbardziej i najmniej typowych częstotliwości oraz ich ogólny zakres.

Histogram przedstawiający rozkład wskaźników otyłości młodzieży w Stanach Zjednoczonych

Powyższy histogram przedstawia rozkład normalny i wskazuje, że najczęściej występują wskaźniki w zakresie między 10, a 14 procent.

Zwiększanie lub zmniejszanie liczby koszy może mieć wpływ na sposób analizowania danych. Same dane nie ulegają zmianie, ale ich wygląd może się zmieniać. Jest ważne, aby wybrać odpowiednią liczbę koszy dla posiadanych danych, aby nie doprowadzić do błędnej interpretacji występujących wzorców. Zbyt mała liczba koszy może ukryć ważne wzorce, a zbyt duża może spowodować, że niewielkie, ale oczekiwane, wahania będą sprawiać wrażenie istotnych. Na poniższym rysunku przedstawiono przykład odpowiedniej liczby koszy dla danych. Każdy kosz obejmuje zakres o wielkości około jednego procenta, a dane można badać z większą szczegółowością, co pozwala dostrzec wzorce, które nie są widoczne w przypadku użycia sześciu koszy. W tym przypadku wyłaniający się wzorzec reprezentuje rozkład normalny wokół wartości średniej z niewielkim, ale prawdopodobnie nieistotnym, przesunięciem w lewą stronę.

Histogram o 12 koszach ujawniający nowe wzorce

Tworzenie histogramu

Aby utworzyć histogram, wykonaj poniższe czynności:

  1. Wybierz pole liczbowe Pole liczbowe bądź pole wskaźnika/współczynnika Pole wskaźnika/współczynnika.
    Wskazówka:

    Można wyszukiwać pola przy użyciu paska wyszukiwania na panelu danych.

  2. Utwórz histogram, wykonując poniższe czynności:
    1. Przeciągnij wybrane pola do nowej karty.
    2. Umieść wskaźnik myszy nad strefą upuszczania Diagram.
    3. Upuść wybrane pola na obszar Histogram.
Wskazówka:

Diagramy można utworzyć, korzystając z menu Diagram nad panelem danych lub przycisku Typ wizualizacji Typ wizualizacji na istniejącej karcie. W przypadku menu Diagram zostaną włączone tylko diagramy zgodne z wyborem danych. W przypadku menu Typ wizualizacji zostaną wyświetlone tylko zgodne wizualizacje (w tym mapy, diagramy lub tabele).

Histogramy można także tworzyć za pomocą polecenia Wyświetl histogram dostępnego po kliknięciu przycisku Działanie Działanie w obszarze Znajdź odpowiedzi > Jaki jest rozkład?

Uwagi dotyczące korzystania

Histogramy są przedstawiane za pomocą pojedynczych wartości. Przycisk Opcje warstwy Legenda umożliwia zmianę koloru symboli i koloru obrysu. Zmiany te zostaną zastosowane do wszystkich koszy.

Podczas tworzenia histogramu aplikacja Insights automatycznie wylicza odpowiednią liczbę koszy do wyświetlania danych. Istnieje możliwość zmiany liczby koszy za pomocą suwaka znajdującego się wzdłuż osi x lub przez kliknięcie liczby koszy i wprowadzenie nowej wartości.

Notatka:

Jeśli wybrana liczba koszy nie dzieli się równomiernie na zakres danych, kosze zostaną obliczone z użyciem wartości dziesiętnych. Jako etykiety koszy na histogramach są wyświetlane zaokrąglone liczby całkowite zamiast dziesiętnych. Zaokrąglone liczby całkowite są tylko wyświetlane, a do wszystkich obliczeń są używane wartości dziesiętne. W sytuacji, gdy kosz zawiera wartości danych zbliżone do limitu górnego lub dolnego i etykieta jest zaokrąglona, początkowa i końcowa wartość kosza mogą wydawać się nieprawidłowe, ponieważ w etykietach są wyświetlane wartości zaokrąglone, a nie dziesiętne.

Przycisk Statystyki diagramu Statystyki wykresu umożliwia wyświetlenie średniej, mediany i rozkładu normalnego danych. Krzywa rozkładu normalnego reprezentuje oczekiwany rozkład losowej próbki danych ciągłych, w której najwyższa częstość wartości koncentruje się wokół wartości średniej i maleje w miarę zwiększania lub zmniejszania wartości w porównaniu do wartości średniej. Krzywa rozkładu normalnego jest przydatna przy określaniu, czy w danych występują pewne odchylenia (na przykład istnieje więcej niższych wartości) lub wartości odstające.

Przycisk Typ wizualizacji Typ wizualizacji umożliwia bezpośrednie przełączanie między histogramem i mapą z symbolami stopniowanymi lub tabelą podsumowania.

Użyj przycisku Odwróć kartę Odwróć kartę, aby wyświetlić tylną część karty. Karta Informacje o karcie Informacje o karcie udostępnia informacje na temat danych zawartych na karcie, a karta Eksport danych Eksport danychumożliwia użytkownikom eksportowanie danych z karty.

W tylnej części histogramu wyświetlane są następujące obliczone wartości: średnia, mediana, odchylenie standardowe, asymetria i kurtoza (uproszczona). Statystyki asymetria i kurtoza są opisane w poniższej tabeli:

StatystykaOpis

Asymetria

Asymetria wskazuje, czy rozkład danych jest symetryczny. Pomiar asymetrii określa, czy większość wartości w rozkładzie leży po lewej, czy po prawej stronie wartości średniej. Asymetria rozkładu normalnego wynosi zero, co oznacza, że równe ilości danych są wyświetlane po każdej stronie wartości średniej.

Wartość asymetrii może być równa zeru, ujemna lub dodatnia, zgodnie z poniższym opisem:

  • Zero — rozkład danych jest symetryczny.
  • Ujemna — dane są asymetryczne z przesunięciem w prawą stronę. Najwyższa częstotliwość wartości znajduje się po prawej stronie wartości średniej, a lewa część krzywej wykresu jest dłuższa od prawej. Mediana jest większa od średniej.
  • Dodatnia — dane są asymetryczne z przesunięciem w lewą stronę. Najwyższa częstotliwość wartości znajduje się po lewej stronie od środka, a prawa część krzywej wykresu jest dłuższa od lewej. Średnia jest większa niż mediana.

Kurtoza

Kurtoza opisuje kształt rozkładu częstotliwości i daje miarę prawdopodobieństwa tego, że w rozkładzie wystąpią elementy odstające. Rozkłady bardziej „wysmukłe” są nazywane leptokurtycznymi i mają kurtozę o wartości większej od zera. Rozkłady bardziej „spłaszczone” są nazywane platokurtycznymi i mają kurtozę o wartości mniejszej od zera. Kurtoza rozkładu normalnego ma wartość trzy lub, jeśli stosowana jest kurtoza uproszczona, zero (używany jest ten sam wzór na kurtozę, ale odejmowana jest wartość 3).

Wartość kurtozy uproszczonej może być równa zeru, ujemna lub dodatnia, zgodnie z poniższym opisem:

  • Zero — tryb jest taki sam jak średnia.
  • Ujemna — rozkład danych ma bardziej płaski szczyt i krótsze końce.
  • Dodatnia — wartość szczytowa jest wyższa, a końce krzywej dłuższe.