히스토그램은 숫자형 데이터를 등간격 그룹(bin이라고 함)으로 집약하고 각 bin에 속해 있는 값의 빈도를 표시합니다. 히스토그램은 단일 숫자 또는 속도/비율 필드를 사용하여 생성됩니다.
히스토그램을 사용하면 다음과 같은 데이터 관련 질문에 답변할 수 있습니다: 숫자 값의 분포와 데이터셋에 숫자 값이 나타나는 빈도는 무엇입니까? 이상치가 있습니까?
예시
민간 의료 기관에서 미국 청소년의 비만율을 조사하고 있습니다. 각 주 청소년의 비만 빈도에 대한 히스토그램을 사용하여 가장 많은/적은 빈도와 전체 범위를 비롯한 비만율 분포를 확인할 수 있습니다.
위의 히스토그램에서는 정규 분포를 보여주며 발생률이 가장 높은 범위는 10~14%임을 알 수 있습니다.
그룹 개수를 늘리거나 줄이면 데이터 분석 방식에 영향을 줄 수 있습니다. 데이터는 변경되지 않지만 모양이 바뀔 수 있습니다. 데이터의 패턴이 잘못 해석되지 않도록 그룹 개수를 적절하게 선택하는 것이 중요합니다. 그룹 개수가 너무 적으면 중요한 패턴이 숨겨질 수 있고, 너무 많으면 데이터의 적은 예상 변동이 중요해질 수 있습니다. 다음 그림은 데이터의 그룹 개수가 적합한 예입니다. 각 그룹에는 약 1%의 범위가 포함되어 있는데, 데이터를 좀 더 세분화된 단위로 검사하면 6개 그룹을 사용했을 때 보이지 않던 패턴을 볼 수 있습니다. 이 경우에 나타나는 패턴은 평균에서 왼쪽으로 약간 기울여진 정규 분포입니다.
히스토그램 생성
히스토그램을 생성하려면 다음 단계를 완료합니다.
- 숫자 또는 비율 필드 를 선택합니다.
비고:
데이터 창의 검색 표시줄을 사용하여 필드를 검색할 수 있습니다.
- 다음 단계를 따라 차트를 생성합니다.
- 선택한 필드를 새 카드에 드래그합니다.
- 차트 드롭 영역 위에 마우스를 놓습니다.
- 선택한 필드를 히스토그램에 드롭합니다.
팁:
데이터 창 위의 차트 메뉴를 사용하거나 기존 카드의 시각화 유형 버튼을 사용하여 차트를 생성할 수도 있습니다. 차트 메뉴의 경우 데이터 선택 사항과 호환되는 차트만 활성화됩니다. 시각화 유형 메뉴의 경우 호환되는 시각화(맵, 차트, 테이블 포함)만 표시됩니다.
히스토그램은 히스토그램 보기를 사용하여 생성할 수도 있습니다. 이 도구는 답변 찾기 > 어떻게 배포되었습니까? 아래의 작업 버튼 을 통해 접근할 수 있습니다.
사용 참고사항
히스토그램 생성 시 Insights에서는 데이터를 표시하는 데 적절한 그룹 수가 자동으로 계산됩니다. 이 bin 수를 클릭한 다음 새 숫자를 입력하거나 x축을 따라 표시된 슬라이더를 사용하여 bin 수를 변경할 수 있습니다.
비고:
선택한 그룹 수가 데이터 범위로 균등하게 분할되지 않는 경우 그룹은 소수 값을 사용하여 계산됩니다. 히스토그램은 반올림된 정수를 소수가 아닌 그룹 레이블로 표시합니다. 반올림된 정수는 표시용이며 모든 계산에는 소수 값이 사용됩니다. 그룹에 상한 또는 하한에 가까운 데이터 값이 포함되어 있고 레이블이 반올림된 경우 레이블이 소수가 아닌 반올림된 값을 표시하기 때문에 그룹 시작 및 종료 값이 올바르게 표시되지 않을 수 있습니다.
레이어 옵션 버튼 을 사용하여 모든 그룹에 적용될 심볼 색상과 윤곽선 색상을 변경할 수 있습니다.
차트 통계 버튼 을 사용하면 데이터의 평균, 중앙값, 정규 분포를 표시할 수 있습니다. 정규 분포 곡선은 연속 데이터 랜덤 샘플의 기대 분포를 나타냅니다. 이 곡선에서는 빈도가 가장 높은 값이 평균 근처의 중앙에 있으며 값이 평균보다 낮아지거나 높아질수록 값의 빈도는 떨어집니다. 정규 분포 곡선은 데이터가 편향되었는지(예: 낮은 값이 더 자주 나타나는 데이터) 또는 이상치가 있는지를 확인하는 데 유용합니다.
카드 필터 버튼 을 사용하여 카드에서 원하지 않는 데이터를 제거합니다. 필터는 모든 문자열, 숫자, 비율, 날짜/시간 필드에 적용할 수 있습니다. 카드 필터는 동일한 데이터셋을 사용하는 다른 카드에 영향을 주지 않습니다.
선택 도구 버튼 을 사용하여 단일 선택 도구를 통해 차트에서 피처를 선택하거나 선택 항목을 반전합니다.
시각화 유형 버튼 을 사용하면 히스토그램과 점진 심볼 맵 또는 요약 테이블 간에 직접 전환할 수 있습니다.
최대화 버튼 을 사용하여 카드를 확대합니다. 페이지에 있는 다른 카드는 썸네일로 축소됩니다. 이전 크기로 복원 버튼 을 사용하면 카드를 이전 크기로 되돌릴 수 있습니다.
교차 필터 활성화 버튼 을 사용하여 다른 카드에서 선택한 항목으로 해당 카드에 대한 필터를 생성할 수 있습니다. 크로스 필터는 크로스 필터 비활성화 버튼 을 사용하여 제거할 수 있습니다.
카드 뒷면을 보려면 카드 뒤집기 버튼 을 사용합니다. 카드 정보 탭 에는 카드의 데이터에 대한 정보를 제공하며 데이터 내보내기 탭 에서는 사용자가 카드에서 데이터를 내보낼 수 있습니다.
히스토그램 뒷면에는 계산된 값(평균, 중앙값, 표준 편차, 왜곡도, 간이 첨도)이 표시됩니다. 왜곡도와 첨도가 다음 테이블에 설명되어 있습니다.
통계 | 설명 |
---|---|
왜곡도 | 왜곡도는 데이터 분포가 대칭적인지를 결정합니다. 왜곡도 수치에 따라, 대부분의 분포 값이 평균의 왼쪽에 있는지 아니면 오른쪽에 있는지를 확인할 수 있습니다. 정규 분포의 왜곡도는 0으로서 평균의 양쪽에 있는 데이터 양이 동일합니다. 왜곡도 값은 다음과 같이 0, 음수, 양수입니다.
|
첨도 | 첨도는 빈도 분포의 모양을 나타내며 분포에서 이상치가 생성될 가능성에 대한 척도로 사용됩니다. 꼬리가 상대적으로 두꺼운 분포를 급첨이라고 하며 이 경우 첨도는 0보다 큽니다. 꼬리가 상대적으로 얇은 분포를 평첨이라고 하며 이 경우 첨도는 0보다 작습니다. 정규 분포의 첨도는 3이고, '간이 첨도'를 사용하는 경우 정규 분포의 첨도는 0(첨도 식에서 3을 뺀 값)입니다. 간이 첨도 값은 다음과 같이 0, 음수, 양수입니다.
|
카드 옵션 버튼 을 사용하여 다음 옵션에 접근합니다.
- 모양 버튼 — 카드의 배경 색상, 전경 색상, 테두리를 변경합니다.
- 레이블 편집 버튼 — 차트 축의 사용자 설정 레이블을 생성합니다. 레이블을 편집하려면 레이블 편집 버튼을 클릭한 다음 축을 클릭하면 편집합니다.
- 정렬 버튼 — 페이지의 다른 카드와 비교하여 카드를 앞으로 옮기거나 뒤로 옮깁니다.
- 삭제 버튼 — 페이지에서 카드를 제거합니다. 카드를 삭제할 생각이 없었던 경우 실행 취소 버튼 을 사용하여 되돌릴 수 있습니다.
리소스
다음 리소스를 사용하여 차트에 대해 자세히 알아봅니다.