히스토그램은 특정 값이 데이터셋에 나타나는 빈도를 측정하여 연속 숫자 변수의 분포를 시각적으로 요약합니다. 히스토그램의 x축은 숫자 범위 또는 그룹으로 분할된 숫자 라인입니다. 각 그룹에 대해 막대가 그려지며 막대의 폭은 그룹의 범위를, 막대의 높이는 해당 범위에 속하는 데이터 포인트의 수를 나타냅니다. 데이터의 분포를 이해하는 것은 데이터 탐색 프로세스의 중요한 단계입니다.
예시
아래의 히스토그램에서는 2016년 미국 선거의 투표자 수 분포를 시각화합니다.
- 숫자 - 투표자 수
- 중첩 - 평균, 정규 분포
데이터
데이터 탭 구성에는 히스토그램을 생성하는 데 사용된 변수, 그룹의 수, 차트에 표시된 통계가 포함됩니다.
변수
히스토그램의 x축에는 하나의 연속 숫자 변수가 필요합니다.
일부 분석 방법에서는 데이터가 정규 분포를 따라야 합니다. 데이터가 한쪽으로 편향되는 경우(분포가 한쪽으로 치우침) 데이터를 정규 분포로 변환할 수 있습니다. 변환 포함 매개변수를 이용해 차트에 변환을 적용할 수 있습니다. 변환은 로그이거나 제곱근일 수 있습니다.
팁:
참조를 위해, 중첩 아래에서 정규 분포를 선택해 히스토그램에 정규 분포 중첩을 추가할 수 있습니다.
로그 변환
로그 변환은 데이터가 양의 방향으로 치우쳐 분포되었고 매우 큰 값이 소수일 경우 자주 사용됩니다. 이러한 큰 값이 데이터셋에 있는 경우 로그 변환을 사용하여 분산을 더욱 일정하게 만들고 데이터를 정규화할 수 있습니다.
아래 예시는 2016년 미국 선거에서 총 투표 수의 분포를 보여줍니다. 첫 번째 이미지는 양의 방향으로 치우쳐졌고 변환이 적용되지 않았습니다. 두 번째 이미지에는 로그 변환이 적용되었으며 이는 히스토그램을 정규 분포에 가깝게 만들어 줍니다.
이미지 | 변환 |
---|---|
없음 | |
로그 |
비고:
로그 변환은 0보다 큰 숫자에만 적용될 수 있습니다.
제곱근 변환
제곱근 변환은 데이터셋의 오른쪽 왜곡도를 줄여준다는 점에서 로그 변환과 유사합니다. 로그 변환과 달리 제곱근 변환은 0에 적용할 수 있습니다.
비고:
제곱근 변환은 0과 같거나 큰 숫자에만 적용할 수 있습니다.
bin
그룹의 기본 수는 32입니다. 데이터 탭에서 그룹 값을 변경해 이를 조정할 수 있습니다. 그룹의 수를 변경하면 데이터 구조를 더 상세히 또는 덜 상세히 확인할 수 있습니다.
그룹 색상 옆에 있는 색상 패치를 사용해 히스토그램의 그룹 색상을 변경할 수 있습니다.
중첩
다음 설명 통계가 계산되어 히스토그램에 라인으로 표시됩니다.
- 정규 분포 - 데이터를 정규 분포와 비교하기 위해 사용되는 벨 모양의 곡선입니다.
- 평균 - 데이터셋의 평균 값을 나타내는 단일 수직 라인입니다.
- 중앙값 - 데이터셋의 중앙값을 나타내는 단일 수직 라인입니다.
- 표준편차 - 평균 위와 아래의 단일 표준 편차 값을 나타내는 두 개의 수직 라인입니다.
중첩을 클릭하여 켜거나 끕니다. 통계 옆에 있는 색상 패치를 사용해 라인 색상을 변경할 수 있습니다.
데이터 레이블 보기 매개변수를 사용해 레이블을 켤 수 있습니다. 레이블은 각 그룹의 값 수를 나타냅니다.
통계
다음 통계는 선택한 숫자 필드에 대해 열거됩니다.
- 평균
- 보통
- 표준편차
- 행
- 개수
- 최소값
- 최대값
- 합계
- Null
축
축 탭 구성은 x축과 y축의 사양을 변경하는 데 사용됩니다.
소수 자릿수와 1,000단위 구분 기호의 포함 여부를 지정해 x축과 y축이 숫자 값을 표시하는 방식의 형식을 지정할 수 있습니다.
기본 y축 경계는 y축에 표시되는 데이터 값 범위를 기반으로 합니다. 최대 경계 값을 입력해 이러한 값을 사용자 정의할 수 있습니다. y축 경계를 설정하여 비교를 위해 차트의 눈금을 일정하게 유지할 수 있습니다. 재설정 버튼을 클릭해 축 경계를 기본값으로 되돌립니다.
가이드
가이드 탭 구성은 차트에 가이드 또는 가이드 범위를 추가하는 데 사용됩니다.
가이드라인 또는 범위는 레퍼런스나 중요한 값을 강조하는 방법으로 차트에 추가할 수 있습니다. 가이드 추가 버튼을 클릭하면 y축에 가이드가 추가됩니다.
가이드라인을 생성하려면 라인을 그릴 위치에 시작 값을 입력합니다. 가이드 범위를 생성하려면 시작 값 및 종료 값을 입력합니다. 가이드라인 또는 범위의 모양을 변경할 수도 있습니다. 라인의 경우 스타일, 너비, 색상을 업데이트할 수 있습니다. 범위의 경우 채우기 색상을 업데이트할 수 있습니다.
필요한 경우 가이드 이름 매개변수를 사용하여 가이드 이름을 변경하고 가이드 레이블 매개변수(예시: 중앙값)를 사용하여 텍스트를 가이드에 추가할 수 있습니다.
렌더러 매개변수의 위 및 아래 버튼을 사용하여 가이드를 차트 상단 또는 차트 하단에 렌더링할지 여부를 선택할 수 있습니다.
형식
형식 탭 구성은 텍스트 및 심볼 요소의 형식을 지정하여 차트의 외관을 변경하는 데 사용됩니다.
차트 형식 지정 옵션에는 다음이 포함됩니다.
- 텍스트 요소 — 차트 제목, x축 제목, y축 제목, 범례 제목, 설명 텍스트, 범례 텍스트, 축 레이블, 데이터 레이블에 사용되는 글꼴의 크기, 색상 및 스타일. Ctrl 키를 누른 채 클릭하고 요소를 선택하는 방법으로 한 번에 여러 요소의 형식을 변경할 수 있습니다.
- 심볼 요소 — 그리드 및 축 라인 색상, 너비, 스타일(실선, 점선 또는 파선)과 차트 배경 색상.
일반
일반 탭 구성은 차트, 축, 범례의 제목을 업데이트하는 데 사용됩니다.
차트 및 축의 기본 제목은 변수 이름 및 차트 유형에 따라 지정됩니다. 일반 탭에서 제목을 편집하거나 끌 수 있습니다. 범례 제목 매개변수에 제목을 입력할 수도 있습니다. 범례 정렬은 오른쪽, 왼쪽, 상단, 하단으로 설정할 수 있습니다. 설명 매개변수에 차트 설명을 추가할 수도 있습니다. 설명은 차트 창의 하단에 나타나는 텍스트 블록입니다.
리소스
다음 리소스를 사용하여 차트에 대해 자세히 알아봅니다.