Klasyfikacja danych to proces, w ramach którego stopniowane wartości liczbowe są grupowane w zakresy, a każdy zakres klasyfikacji jest reprezentowany przez odcień lub kolor na skali barw. Klasyfikacja jest dostępna dla zegarów danych i diagramów skupień.
Zastosowana metoda klasyfikacji zależy od rodzaju używanych danych i od informacji, jakie ma przekazywać diagram.
Naturalne przerwy
Klasyfikacja naturalnych przerw tworzy klasy na podstawie naturalnych grup nieodłącznie związanych z danymi. To jest klasyfikacja domyślna.
Używaj klasyfikacji Naturalne przerwy, jeśli chcesz podkreślić naturalne grupowania w danych. Na przykład użyj klasyfikacji Naturalne przerwy, aby porównać wskaźniki przestępczości w mieście na przestrzeni miesięcy i lat, korzystając z zegara danych. Wskaźniki przestępczości zostaną pogrupowane w taki sposób, że miesiące i lata o podobnych wskaźnikach przestępczości będą prezentowane za pomocą tego samego koloru.
Nie używaj klasyfikacji Naturalne przerwy do porównywania wykresów utworzonych za pomocą różnych danych.
Równe przedziały
Klasyfikacja równych przedziałów dzieli zakres wartości atrybutów na równej wielkości podzakresy.
Klasyfikacja Równe przedziały podkreśla wielkość atrybutu w stosunku do innych wartości. Używaj klasyfikacji Równe przedziały w przypadku danych o znanych zakresach. Na przykład użyj klasyfikacji Równe przedziały, aby porównać odsetek różnych gatunków drzew z inwazyjnymi chrząszczami w parkach w powiecie, korzystając z diagramu skupień. Wartości procentowe mieszczą się w zakresie od 0 do 100. W przypadku zastosowania czterech koszy klasy będą oparte na przedziałach o wartości 25%.
Kwantyle
Klasyfikacja kwantylowa dzieli atrybuty na kosze z równą liczbą obiektów.
Klasyfikacja kwantylowa może zniekształcić wygląd diagramu przez umieszczenie podobnych wartości w różnych klasach. Klasyfikacji kwantylowej należy używać w przypadku danych, które są stosunkowo jednolite. Klasyfikacji kwantylowej można też używać do wizualnego szeregowania. Na przykład użyj przedziałów kwantylowych, aby porównać stopy bezrobocia w różnych stanach w Stanach Zjednoczonych w poszczególnych latach, korzystając z diagramu skupień. W przypadku zastosowania pięciu koszy dla 50 stanów oraz Dystryktu Kolumbii na kosz będzie przypadać ok. 10 stanów. Wyniki mogą zostać wykorzystane do przedstawienia wskaźników bezrobocia uszeregowanych w grupach liczących 10 pozycji.
Manualnie
Klasyfikacja ręczna dodaje niestandardowe, odpowiednie dla danych podziały klas.
Klasyfikacja ręczna może być używana do tworzenia nowych podziałów klas lub modyfikowania podziałów utworzonych przy użyciu innej metody klasyfikacji. Można na przykład sklasyfikować dane przy użyciu równych interwałów i użyć ręcznej klasyfikacji, aby zmodyfikować podziały na zaokrąglone liczby.
Używaj klasyfikacji ręcznej, jeśli znane są zakresy, które należy zastosować do danych. Na przykład w przypadku tworzenia wielu diagramów z tymi samymi koszami. Na przykład użyj klasyfikacji ręcznej, aby porównać średni koszt wynajmu mieszkania według miesięcy i lat dla różnych dzielnic, korzystając z zegara danych. Te same kosze można zastosować do wszystkich diagramów, co pozwoli na stosowanie wzorców i porównań nieobarczonych fałszywymi założeniami wynikającymi z różnic między klasyfikacjami.
Zasoby
Aby dowiedzieć się więcej, skorzystaj z następujących zasobów: