박스 플롯 생성 및 사용

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

박스 플롯에서는 데이터셋의 값에 대한 변동성 요약을 시각적으로 금방 확인할 수 있습니다. 데이터셋의 중앙값, 상한/하한 사분위수, 최소/최대값, 이상치가 표시됩니다. 이상치는 데이터 오류 또는 비정상적 발생을 나타낼 수 있습니다. 박스 플롯은 y축의 숫자 필드나 속도/비율 필드를 사용하여 생성됩니다.

박스 플롯을 사용하면 "데이터가 어떻게 배포되었습니까?", 데이터셋에 이상치가 있나요?" "데이터셋의 일련의 값 분포에는 어떤 변동이 있습니까?" 등의 데이터 관련 질문에 답변할 수 있습니다.

예시

시장 조사원은 소매점의 실적을 조사하려고 합니다. 각 매장의 연간 매출에 대한 박스 플롯을 사용하여 최대값, 최소값, 중앙값을 포함한 매출 분포를 확인할 수 있습니다.

매장 매출에 대한 박스 플롯

위의 박스 플롯에서 판매액 중앙값은 1,111,378달러입니다(차트 위에 마우스를 놓거나 카드 뒤집기 버튼 카드 뒤집기을 사용하여 카드를 뒤집으면 나타남). 중앙값이 상자 중간에 있으며 수염의 크기가 비슷한 매우 고른 분포를 보여줍니다. 분석가에게 실적이 우수한 매장과 저조한 매장을 알려주는 높은 이상치와 낮은 이상치도 있습니다.

박스 플롯 구성 요소에 대한 자세한 정보

분석가는 데이터를 더 자세히 조사하기 위해 매장이 위치한 각 지역별로 박스 플롯을 생성하기로 결정합니다. 이를 위해 Group by 필드를 Region으로 변경합니다. 그 결과 각 지역에 대한 정보를 식별하는 데 비교할 수 있는 4개의 박스 플롯이 나타납니다.

지역별 매장 매출에 대한 박스 플롯

해당 박스 플롯을 기반으로 분석가는 지역 간 차이가 거의 없음을 알 수 있습니다. 즉, 중앙값은 4개의 상자 그림에서 일치하고 상자 크기는 비슷하며 모든 지역의 이상치는 최소/최대값 양쪽에 위치해 있습니다. 하지만 북부 지역/중부 지역의 수염이 베이 지역/남부 지역보다 약간 짧으므로 해당 지역의 판매 실적이 다른 지역보다 더 일관적임을 알 수 있습니다. 베이 지역/남부 지역의 수염은 조금 더 길게 그려져 있으므로 판매 실적이 저조한 매장과 우수한 매장이 함께 있음을 알 수 있습니다. 분석가는 이러한 판매 실적 차이가 발생하는 원인을 파악하기 위해 해당 지역에 대해 집중적으로 분석할 수 있습니다.

박스 플롯 생성

박스 플롯을 생성하려면 다음 단계를 완료하세요.

  1. 다음 데이터 조합 중 하나를 선택합니다.
    • 숫자 숫자 필드 또는 비율 필드 속도/비율 필드
    • 숫자 숫자 필드 또는 비율 필드 속도/비율 필드와 문자열 필드 문자열 필드
    비고:

    데이터 창의 검색 표시줄을 사용하여 필드를 검색할 수 있습니다.

  2. 다음 단계를 따라 차트를 생성합니다.
    1. 선택한 필드를 새 카드에 드래그합니다.
    2. 차트 드롭 영역 위에 마우스를 놓습니다.
    3. 선택한 필드를 박스 플롯에 드롭합니다.
팁:

데이터 창 위의 차트 메뉴를 사용하거나 기존 카드의 시각화 유형 버튼시각화 유형을 사용하여 차트를 생성할 수도 있습니다. 차트 메뉴의 경우 데이터 선택 사항과 호환할 수 있는 차트만 활성화됩니다. 시각화 유형 메뉴의 경우 호환되는 시각화(맵, 차트, 테이블 포함)만 표시됩니다.

비고:

데이터베이스 데이터셋을 통해 생성된 상자 그림박스 플롯에는 레코드가 5개 이상 있어야 합니다. 레코드가 5개 미만인 박스 플롯은 문자열 필드를 사용하여 박스 플롯을 그룹화하거나 데이터셋이나 카드에 필터를 적용하는 경우에 발생할 가능성이 높습니다. 데이터베이스 데이터셋은 Insights in ArcGIS EnterpriseInsights desktop의 데이터베이스 연결을 통해 사용할 수 있습니다.

사용 참고 사항

이 시각화는 차트를 생성하는 데 사용된 필드를 포함하는 결과 데이터셋 결과을 데이터 창에 생성합니다. 결과 데이터셋을 사용하여 추가 시각화를 생성하거나, 차트 축 또는 팝업의 필드 이름을 바꾸거나, 차트에 필터를 적용합니다.

박스 플롯의 주요 특징은 이상치 측정입니다. 이상치는 다른 데이터보다 휠씬 크거나 작은 값입니다. 박스 플롯의 수염은 이를 초과할 경우 이상치로 간주되는 임계값을 나타냅니다. 이상치가 없으면 수염이 데이터셋의 최소/최대값으로 늘어납니다. Insights에서 상한/하한 이상치 값의 범위는 박스 플롯에서 점선으로 연결된 원으로 표시됩니다.

필드를 기준으로 그룹화가 사용되면 여러 박스 플롯이 나란히 생성되며 범주별 데이터 분포를 나타냅니다.

박스 플롯의 각 통계나 범위는 차트를 클릭하여 선택할 수 있습니다.

레이어 옵션 버튼 레이어 옵션을 사용하여 레이어 옵션 창을 열고 다음 구성 옵션을 업데이트합니다.

  • 범례범례을 사용하여 차트의 심볼을 봅니다. 범례 팝 아웃 버튼 범례 팝 아웃은 페이지에 범례를 별도의 카드로 표시합니다. 범례를 사용하여 차트에서 선택할 수 있습니다(고유 심볼에 사용 가능).

    값과 연결된 색상을 변경하려면 심볼을 클릭한 다음 색상표에서 색상을 선택하거나 16진수 값을 입력합니다. 범례 탭에서도 심볼을 변경할 수 있지만 고유 심볼만 변경할 수 있습니다.
  • 모양모양을 사용하면 차트의 심볼 색상을 변경할 수 있습니다(단일 심볼만 해당).

카드 필터 버튼 카드 필터을 사용하여 카드에서 원하지 않는 데이터를 제거합니다. 필터는 모든 문자열, 숫자, 비율, 날짜/시간 필드에 적용할 수 있습니다. 카드 필터는 동일한 데이터셋을 사용하는 다른 카드에 영향을 주지 않습니다.

선택 도구 버튼 선택 도구을 사용하여 단일 선택 도구를 통해 차트에서 피처를 선택하거나 선택 항목을 반전합니다.

시각화 유형 버튼 시각화 유형을 사용하면 박스 플롯과 기타 시각화(예시: 점진 심볼 맵, 요약 테이블, 히스토그램) 간에 직접 전환할 수 있습니다. 박스 플롯에 그룹화 기준 필드가 포함된 경우 라인 그래프나 세로 막대형 차트 등으로 시각화가 변경될 수 있습니다.

최대화 버튼 최대화을 사용하여 카드를 확대합니다. 페이지에 있는 다른 카드는 썸네일로 축소됩니다. 이전 크기로 복원 버튼 이전 크기로 복원을 사용하면 카드를 이전 크기로 되돌릴 수 있습니다.

교차 필터 활성화 버튼 교차 필터 활성화을 사용하여 다른 카드에서 선택한 항목으로 해당 카드에 대한 필터를 생성할 수 있습니다. 크로스 필터는 크로스 필터 비활성화 버튼 교차 필터 비활성화을 사용하여 제거할 수 있습니다.

카드 뒷면을 보려면 카드 뒤집기 버튼 카드 뒤집기을 사용합니다. 카드 정보카드 정보에는 카드의 데이터에 대한 정보를 제공하며 데이터 내보내기데이터 내보내기에서는 사용자가 카드에서 데이터를 내보낼 수 있습니다.

카드 옵션 버튼 카드 옵션을 사용하여 다음 메뉴 옵션에 접근합니다.

  • 모양 버튼 모양 — 카드의 배경 색상, 전경 색상, 테두리를 변경합니다.
  • 레이블 편집 버튼 레이블 편집 — 차트 축의 사용자 설정 레이블을 생성합니다. 레이블을 편집하려면 레이블 편집 버튼을 클릭한 다음 축을 클릭하면 편집합니다.
  • 정렬 버튼 순서 — 페이지의 다른 카드와 비교하여 카드를 앞으로 옮기거나 뒤로 보냅니다.
  • 삭제 버튼 삭제 — 페이지에서 카드를 제거합니다. 카드를 삭제할 생각이 없었던 경우 실행 취소 버튼 실행 취소을 사용하여 되돌릴 수 있습니다.

박스 플롯 작동 방식

박스 플롯은 다음과 같은 컴포넌트로 구성됩니다.

레이블이 표시된 박스 플롯 다이어그램

레이블컴포넌트설명
1

수염

첫 번째 사분위수보다 작고 세 번째 사분위수보다 큰 데이터 범위입니다. 각 수염에는 데이터의 25%가 포함됩니다. 일반적으로 수염은 IQR의 1.5배(이상치의 임계값)보다 작아야 합니다.

2

상자

첫 번째 사분위수와 세 번째 사분위수 간의 데이터 범위입니다. 데이터의 50%가 이 범위에 속합니다. 첫 번째와 세 번째 사분위수 간의 범위를 사분범위(IQR)라고 합니다.

3

최대값

데이터셋에서 가장 큰 값 또는 수염에 의해 설정된 임계값 이내의 가장 큰 값입니다.

4

세 번째 사분위수

데이터의 75%가 이 값보다 작고 25%는 이 값보다 큰 값입니다.

5

중앙값

데이터셋의 중앙에 있는 수입니다. 숫자의 절반은 중앙값보다 크고 나머지 절반은 중앙값보다 작습니다. 중앙값은 두 번째 사분위수라고도 합니다.

6

첫 번째 사분위수

데이터의 25%가 이 값보다 작고 75%는 이 값보다 큰 값입니다.

7

최소값

데이터셋에서 가장 작은 값 또는 수염에 의해 설정된 임계값 이내의 가장 작은 값입니다.

8

이상치

수염에 의해 설정된 한도보다 크거나 작은 데이터 값입니다.

리소스

다음 리소스를 사용하여 차트에 대해 자세히 알아봅니다.