히스토그램 생성 및 사용

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

히스토그램은 숫자형 데이터를 등간격 그룹(bin이라고 함)으로 집약하고 각 bin에 속해 있는 값의 빈도를 표시합니다. 히스토그램은 단일 숫자 또는 속도/비율 필드를 사용하여 생성됩니다.

히스토그램은 "숫자 값의 분포와 데이터셋에 숫자 값이 나타나는 빈도는?", "이상치 유무는?" 등의 데이터 관련 질문에 답변할 수 있습니다.

예시

민간 의료 기관에서 미국 청소년의 비만율을 조사하고 있습니다. 각 주 청소년의 비만 빈도에 대한 히스토그램을 사용하여 가장 많은/적은 빈도와 전체 범위를 비롯한 비만율 분포를 확인할 수 있습니다.

미국의 청소년 비만율 분포를 보여주는 히스토그램

위의 히스토그램에서는 정규 분포를 보여주며 발생률이 가장 높은 범위는 10~14%임을 알 수 있습니다.

그룹 개수를 늘리거나 줄이면 데이터 분석 방식에 영향을 줄 수 있습니다. 데이터는 변경되지 않지만 모양이 바뀔 수 있습니다. 데이터의 패턴이 잘못 해석되지 않도록 그룹 개수를 적절하게 선택하는 것이 중요합니다. 그룹 개수가 너무 적으면 중요한 패턴이 숨겨질 수 있고, 너무 많으면 데이터의 적은 예상 변동이 중요해질 수 있습니다. 다음 그림은 데이터의 그룹 개수가 적합한 예입니다. 각 그룹에는 약 1%의 범위가 포함되어 있는데, 데이터를 좀 더 세분화된 단위로 검사하면 6개 그룹을 사용했을 때 보이지 않던 패턴을 볼 수 있습니다. 이 경우에 나타나는 패턴은 평균에서 왼쪽으로 약간 기울여진 정규 분포입니다.

새 패턴을 보여주는 12개 그룹이 사용된 히스토그램

히스토그램 생성

히스토그램을 생성하려면 다음 단계를 완료합니다.

  1. 숫자 숫자 필드 또는 비율 필드 속도/비율 필드를 선택합니다.
    팁:

    데이터 창의 검색 표시줄을 사용하여 필드를 검색할 수 있습니다.

  2. 다음 단계에 따라 히스토그램을 생성합니다.
    1. 선택한 필드를 새 카드에 드래그합니다.
    2. 차트 드롭 영역 위에 마우스를 놓습니다.
    3. 선택한 필드를 히스토그램에 드롭합니다.
팁:

데이터 창 위의 차트 메뉴를 사용하거나 기존 카드의 시각화 유형 버튼시각화 유형을 사용하여 차트를 생성할 수도 있습니다. 차트 메뉴의 경우 데이터 선택 사항과 호환할 수 있는 차트만 활성화됩니다. 시각화 유형 메뉴의 경우 호환되는 시각화(맵, 차트, 테이블 포함)만 표시됩니다.

히스토그램은 히스토그램 보기를 사용하여 생성할 수도 있습니다. 이 도구는 답변 찾기 > 어떻게 배포되었습니까? 아래의 작업 버튼 동작을 통해 접근할 수 있습니다.

사용 참고 사항

히스토그램은 단일 값을 사용하여 심볼화됩니다. 레이어 옵션 버튼 범례을 사용하여 모든 그룹에 적용될 심볼 색상과 윤곽선 색상을 변경할 수 있습니다.

히스토그램 생성 시 Insights에서는 데이터를 표시하는 데 적절한 그룹 수가 자동으로 계산됩니다. 이 bin 수를 클릭한 다음 새 숫자를 입력하거나 x축을 따라 표시된 슬라이더를 사용하여 bin 수를 변경할 수 있습니다.

비고:

선택한 그룹 수가 데이터 범위로 균등하게 분할되지 않는 경우 그룹은 소수 값을 사용하여 계산됩니다. 히스토그램은 반올림된 정수를 소수가 아닌 그룹 레이블로 표시합니다. 반올림된 정수는 표시용이며 모든 계산에는 소수 값이 사용됩니다. 그룹에 상한 또는 하한에 가까운 데이터 값이 포함되어 있고 레이블이 반올림된 경우 레이블이 소수가 아닌 반올림된 값을 표시하기 때문에 그룹 시작 및 종료 값이 올바르게 표시되지 않을 수 있습니다.

차트 통계 버튼 차트 통계을 사용하면 데이터의 평균, 중앙값, 정규 분포를 표시할 수 있습니다. 정규 분포 곡선은 연속 데이터 랜덤 샘플의 기대 분포를 나타냅니다. 이 곡선에서는 빈도가 가장 높은 값이 평균 근처의 중앙에 있으며 값이 평균보다 낮아지거나 높아질수록 값의 빈도는 떨어집니다. 정규 분포 곡선은 데이터가 편향되었는지(예: 값이 낮을수록 빈도가 높아지는 데이터) 또는 이상치가 있는지를 확인하는 데 유용합니다.

시각화 유형 버튼 시각화 유형을 사용하면 히스토그램과 점진 심볼 맵, 요약 테이블 간에 직접 전환할 수 있습니다.

카드 뒷면을 보려면 카드 뒤집기 버튼 카드 뒤집기을 사용합니다. 카드 정보카드 정보에는 카드의 데이터에 대한 정보를 제공하며 데이터 내보내기데이터 내보내기에서는 사용자가 카드에서 데이터를 내보낼 수 있습니다.

히스토그램 뒷면에는 계산된 값(평균, 중앙값, 표준 편차, 왜곡도, 간이 첨도)이 표시됩니다. 왜곡도와 첨도가 다음 테이블에 설명되어 있습니다.

통계설명

왜곡도

왜곡도는 데이터 분포가 대칭적인지를 결정합니다. 왜곡도 수치에 따라, 대부분의 분포 값이 평균의 왼쪽에 있는지 아니면 오른쪽에 있는지를 확인할 수 있습니다. 정규 분포의 왜곡도는 0으로서 평균의 양쪽에 있는 데이터 양이 동일합니다.

왜곡도 값은 다음과 같이 0, 음수, 양수입니다.

  • 0 - 데이터가 대칭적으로 분포되어 있습니다.
  • 음수 - 데이터가 오른쪽으로 치우친 비대칭 분포입니다. 빈도가 가장 높은 값이 평균의 오른쪽에 있으며 왼쪽 꼬리가 오른쪽 꼬리보다 깁니다. 중앙값이 평균보다 큽니다.
  • 양수 - 데이터가 왼쪽으로 치우친 비대칭 분포입니다. 빈도가 가장 높은 값이 중심의 왼쪽에 있으며 오른쪽 꼬리가 왼쪽 꼬리보다 깁니다. 평균이 중앙값보다 큽니다.

첨도

첨도는 빈도 분포의 모양을 나타내며 분포에서 이상치가 생성될 가능성에 대한 척도로 사용됩니다. 꼬리가 상대적으로 두꺼운 분포를 급첨이라고 하며 이 경우 첨도는 0보다 큽니다. 꼬리가 상대적으로 얇은 분포를 평첨이라고 하며 이 경우 첨도는 0보다 작습니다. 정규 분포의 첨도는 3이고, '간이 첨도'를 사용하는 경우 정규 분포의 첨도는 0(첨도 식에서 3을 뺀 값)입니다.

간이 첨도 값은 다음과 같이 0, 음수, 양수입니다.

  • 0 - 모드가 평균과 같습니다.
  • 음수 - 데이터 분포 곡선의 꼬리가 더 짧아지고 곡선은 더 평탄해집니다.
  • 양수 - 곡선의 꼬리가 더 길어지고 곡선은 더 뾰족해집니다.