박스 플롯을 사용하면 사분위수를 통해 숫자 값의 분포 및 중심경향을 시각화하고 비교할 수 있습니다. 사분위수는 숫자 값을 5가지 주요 값인 최소값, 첫 번째 사분위수, 중앙값, 세 번째 사분위수, 최대값에 기반하여 4개의 동일한 그룹으로 분할하는 방법입니다.
다음과 같은 다이어그램의 박스 부분에서는 사분범위(IQR)라고도 알려진 데이터 값의 중간 50%를 보여줍니다. 값의 중앙값은 박스를 반으로 분할하는 라인으로 표시됩니다. IQR은 값 집합의 변동성을 보여줍니다. IQR이 크면 값이 광범위하게 퍼져 있다는 것을 나타내고, IQR이 작으면 대부분의 값이 중심 근처에 있다는 것을 나타냅니다. 또한 박스 플롯은 박스에서 연장되는 수염 또는 라인을 통해 데이터의 최소값과 최대값을 보여주며, 필요에 따라 이상치를 수염을 초과하여 연장되는 포인트로 보여줍니다.
예시
아래의 박스 플롯은 1800년부터 2040년까지 20년 증분으로 대륙별 기대 수명의 분포도를 보여줍니다.
- 숫자 필드—Life expectancy
- 범주—Year
- 분할 기준 —Continent
- 이상치 표시—활성화됨
동일한 박스 플롯을 평균 라인을 사용하여 표시할 수도 있습니다.
데이터
데이터 탭 구성에는 박스 플롯을 생성하는 데 사용되는 변수가 포함됩니다.
변수
박스 플롯은 x축 및 y축으로 구성됩니다. x축은 각 범주 또는 숫자 변수에 하나의 박스를 할당합니다. y축은 숫자 집합의 최소값, 첫 번째 사분위수, 중앙값, 세 번째 사분위수, 최대값을 측정하는 데 사용됩니다.
박스 플롯을 사용하여 하나 이상의 분포를 시각화할 수 있습니다. 단일 분포를 시각화하려면 하나의 숫자 필드 변수를 추가합니다. 이를 통해 선택한 숫자 속성의 분포를 시각화하는 하나의 박스 플롯이 있는 차트가 생성됩니다.
다른 숫자 필드 변수를 추가하면 한 테이블에서 서로 다른 속성 필드의 여러 가지 분포를 비교할 수 있습니다. 예를 들어 카운티 데이터셋에서 Population2010 및 Population2015 필드가 숫자 필드 변수로 추가됩니다. 결과 차트에는 데이터셋의 모든 카운티에 대해 Population2010의 분포를 시각화하고 Population2015의 분포를 시각화하는 두 개의 박스 플롯이 표시됩니다.
여러 숫자 필드로 박스 플롯을 생성하는 경우 기본 설정에 따라 Z-Score 표준화가 적용됩니다. 표준화를 적용하면 다양한 단위의 숫자 변수를 비교할 수 있습니다.
예를 들어, 소득 분포(수만 값)와 실업률(0~1.0 범위의 값)을 비교하는 박스 플롯은 실업률 값이 소득 값보다 훨씬 작기 때문에 표준화를 적용하지 않고 읽기가 어렵습니다.
속성 값의 표준화에는 모든 값의 평균을 각 값에서 빼고 모든 값의 표준편차로 나누는 z 변환이 포함됩니다. z-score 표준화를 적용하면 모든 속성을 동일한 척도로 표시하여 여러 분포를 동일한 차트에서 시각화할 수 있습니다. 대신 원시 값을 시각화하려면 값 표준화(Z-Score)를 끕니다.
단일 숫자 필드 변수만 추가하는 경우 여러 범주의 분포를 비교할 방법으로 범주 변수를 추가할 수 있습니다. 예를 들어 카운티 데이터셋에서 Population2010을(를) 숫자 필드 변수로 설정하고 StateName을(를) 범주 변수로 설정합니다. 결과 차트에는 각 주에 속하는 모든 카운티에 대해 Population2010의 분포를 시각화하는 각 주의 박스 플롯이 표시됩니다.
여러 시리즈
여러 시리즈의 박스 플롯을 사용하여 분포를 다양한 유형 또는 다양한 범주별로 비교할 수 있습니다.
범주 필드와 여러 숫자 필드를 지정하거나 범주별 분할 필드를 지정하면 여러 시리즈의 박스 플롯을 생성할 수 있습니다.
여러 숫자 필드 변수가 있는 범주 변수를 사용하는 경우 시리즈 테이블에 추가된 각 숫자 필드는 하나의 시리즈를 생성합니다. 예를 들어 카운티 데이터셋에서 StateName을(를) 범주 변수로 설정하고 Population2010, Population2015, Population2020을(를) 숫자 필드 변수로 설정합니다. 결과 차트에는 각각 세 개의 시리즈(Population2010, Population2015, Population2020)를 포함하여 x축을 따라 주가 범주로 표시됩니다.
또는 분할 기준 변수를 추가하여 데이터를 추가로 분할하고 여러 시리즈를 생성할 수 있습니다. 예를 들어 카운티 데이터셋에서 Population2010을(를) 숫자 필드 변수로 설정하고 StateName을(를) 범주 변수로 설정하고 ElectionWinner을(를) 분할 기준 필드로 설정합니다. 결과 차트에는 각 주마다 Democrat의 ElectionWinner 값으로 각 주 모든 카운티의 Population2010 분포를 시각화하는 박스 플롯과 Republican의 ElectionWinner 값으로 각 주의 모든 카운티를 시각화하는 박스 플롯이 나란히 표시됩니다(총 100개의 박스 플롯).
범주 변수 대신 여러 숫자 필드 변수를 사용하는 경우에는 분할 기준 필드를 사용할 수도 있습니다. 예를 들어, 카운티 데이터셋에서 Population2010, Population2015, Population2020은(는) 숫자 필드 변수로 설정하고 ElectionWinner은(는) 분할 기준 필드로 설정합니다. 결과 차트에는 x축(Population2010, Population2015, Population2020)을 따라 세 개의 숫자 필드 변수가 표시되며, 각각 Democrat의 ElectionWinner 값으로 모든 카운티 분포를 표시하는 박스 플롯과 Republican의 ElectionWinner 값으로 모든 카운티 분포를 표시하는 박스 플롯이 하나씩 나란히 표시됩니다.
이상치
이상치 표시를 활성화하면 이상치를 위스커 너머로 확장되는 포인트로 표시할 수 있습니다. 이상치 표시를 활성화하지 않으면 위스커가 모든 데이터 포인트를 포함하도록 확장됩니다.
정렬 순서
박스 플롯은 범주별 알파벳순으로 자동 정렬됩니다(x축 오름차순). 정렬 순서 매개변수를 사용하여 정렬 순서를 변경할 수 있습니다. 박스 플롯에는 다음과 같은 정렬 옵션을 사용할 수 있습니다.
- X축 오름차순 — 범주가 알파벳순으로 왼쪽에서 오른쪽으로 정렬됩니다.
- X축 내림차순 — 범주가 알파벳 역순으로 정렬됩니다.
- 평균 오름차순 — 박스가 평균 통계를 기준으로 오름차순 정렬됩니다.
- 평균 내림차순 — 박스가 평균 통계를 기준으로 내림차순 정렬됩니다.
- 중앙값 오름차순 — 박스가 중앙값 통계를 기준으로 오름차순 정렬됩니다.
- 중앙값 내림차순 — 박스가 중앙값 통계를 기준으로 내림차순 정렬됩니다.
- 사용자 설정 정렬 — 범주를 범주 목록에서 수동으로 정렬할 수 있습니다. 정렬 순서를 변경하려면 위치 조정 을 누른 채 범주를 새 위치로 드래그하거나 범주를 선택하고 위쪽 또는 아래쪽 화살표를 클릭합니다. 예를 들어 주중을 올바른 순서로 구성할 수 있습니다.
시리즈
시리즈 탭 구성은 박스 플롯에서 박스의 색상과 레이블을 변경하는 데 사용됩니다.
분할 기준 필드를 지정하여 여러 시리즈를 만들면 여러 시리즈 표시도 사용할 수 있습니다. 디스플레이 옵션에는 다음이 포함됩니다.
- 나란히 — 박스 플롯을 각 시리즈에 대해 하나씩 나란히 생성합니다.
- 평균 라인 — 각 범주 또는 숫자 필드 변수에 대해 하나의 박스 플롯을 생성하고 라인을 사용하여 분할 기준 필드의 각 고유 값에 대한 평균을 표시합니다.
축
축 탭 구성은 x축과 y축의 사양을 변경하는 데 사용됩니다.
X축
범주 레이블은 기본적으로 11자에서 잘립니다. 레이블이 잘린 경우 레이블 위에 마우스를 놓으면 전체 텍스트를 볼 수 있습니다. 차트에 전체 레이블 텍스트를 표시하려면 레이블 문자 제한 값을 높이세요.
Y축
기본 y축 경계는 y축에 표시되는 데이터 값 범위를 기반으로 합니다. 최소 경계 또는 최대 경계 값을 입력해 이 값을 사용자 정의할 수 있습니다. y축 경계를 설정하여 비교를 위해 차트의 눈금을 일정하게 유지할 수 있습니다. 재설정 버튼을 클릭해 축 경계를 기본값으로 되돌립니다.
소수 자릿수와 1,000단위 구분 기호의 포함 여부를 지정해 y축이 숫자 값을 표시하는 방식을 지정할 수 있습니다.
가이드
가이드 탭 구성은 차트에 가이드 또는 가이드 범위를 추가하는 데 사용됩니다.
가이드라인 또는 범위는 레퍼런스나 중요한 값을 강조하는 방법으로 차트에 추가할 수 있습니다. 가이드 추가 버튼을 클릭하면 y축에 가이드가 추가됩니다.
가이드라인을 생성하려면 라인을 그릴 위치에 시작 값을 입력합니다. 가이드 범위를 생성하려면 시작 값 및 종료 값을 입력합니다. 가이드라인 또는 범위의 모양을 변경할 수도 있습니다. 라인의 경우 스타일, 너비, 색상을 업데이트할 수 있습니다. 범위의 경우 채우기 색상을 업데이트할 수 있습니다.
필요한 경우 가이드 이름 매개변수를 사용하여 가이드 이름을 변경하고 가이드 레이블 매개변수(예시: 중앙값)를 사용하여 텍스트를 가이드에 추가할 수 있습니다.
표시 매개변수의 앞에 및 뒤에 버튼을 사용하면 가이드를 차트 앞뒤 중 어느 쪽에 렌더링할지 선택할 수 있습니다.
형식
형식 탭 구성은 텍스트 및 심볼 요소의 형식을 지정하여 차트의 외관을 변경하는 데 사용됩니다.
차트 형식 지정 옵션에는 다음이 포함됩니다.
- 텍스트 요소 - 차트 제목, x축 제목, y축 제목, 범례 제목, 설명 텍스트, 범례 텍스트, 축 레이블, 데이터 레이블에 사용되는 글꼴의 크기, 색상 및 스타일. Ctrl 키를 누른 채 클릭하고 요소를 선택하는 방법으로 한 번에 여러 요소의 형식을 변경할 수 있습니다.
- 심볼 요소 - 그리드 및 축 라인 색상, 너비, 스타일(실선, 점선 또는 파선)과 차트 배경 색상.
일반
일반 탭 구성은 차트, 축, 범례의 제목을 업데이트하는 데 사용됩니다.
차트 및 축의 기본 제목은 변수 이름 및 차트 유형에 따라 지정됩니다. 일반 탭에서 제목을 편집하거나 끌 수 있습니다. 범례 제목 매개변수에 제목을 입력할 수도 있습니다. 범례 정렬은 오른쪽, 왼쪽, 상단, 하단으로 설정할 수 있습니다. 설명 매개변수에 차트 설명을 추가할 수도 있습니다. 설명은 차트 창의 하단에 나타나는 텍스트 블록입니다.
리소스
다음 리소스를 사용하여 차트에 대해 자세히 알아봅니다.