박스 플롯 생성 및 사용

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

박스 플롯에서는 데이터셋의 값에 대한 변동성 요약을 시각적으로 금방 확인할 수 있습니다. 데이터셋의 중앙값, 상한/하한 사분위수, 최소/최대값, 이상치가 표시됩니다. 이상치는 데이터 오류 또는 비정상적 발생을 나타낼 수 있습니다. 박스 플롯은 y축의 숫자 필드나 속도/비율 필드를 사용하여 생성됩니다.

박스 플롯을 사용하면 "데이터가 어떻게 배포되었습니까?", 데이터셋에 이상치가 있나요?" "데이터셋의 일련의 값 분포에는 어떤 변동이 있습니까?" 등의 데이터 관련 질문에 답변할 수 있습니다.

예시

시장 조사원은 소매점의 실적을 조사하려고 합니다. 각 매장의 연간 매출에 대한 박스 플롯을 사용하여 최대값, 최소값, 중앙값을 포함한 매출 분포를 확인할 수 있습니다.

매장 매출에 대한 박스 플롯

위의 박스 플롯에서 판매액 중앙값은 1,111,378달러입니다(차트 위에 마우스를 놓거나 카드 뒤집기 버튼 카드 뒤집기을 사용하여 카드를 뒤집으면 나타남). 중앙값이 상자 중간에 있으며 수염의 크기가 비슷한 매우 고른 분포를 보여줍니다. 분석가에게 실적이 우수한 매장과 저조한 매장을 알려주는 높은 이상치와 낮은 이상치도 있습니다.

분석가는 데이터를 더 자세히 조사하기 위해 매장이 위치한 각 지역별로 박스 플롯을 생성하기로 결정합니다. 이를 위해 Group by 필드를 Region으로 변경합니다. 그 결과 각 지역에 대한 정보를 식별하는 데 비교할 수 있는 4개의 박스 플롯이 나타납니다.

지역별 매장 매출에 대한 박스 플롯

해당 박스 플롯을 기반으로 분석가는 지역 간 차이가 거의 없음을 알 수 있습니다. 즉, 중앙값은 4개의 상자 그림에서 일치하고 상자 크기는 비슷하며 모든 지역의 이상치는 최소/최대값 양쪽에 위치해 있습니다. 하지만 북부 지역/중부 지역의 수염이 베이 지역/남부 지역보다 약간 짧으므로 해당 지역의 판매 실적이 다른 지역보다 더 일관적임을 알 수 있습니다. 베이 지역/남부 지역의 수염은 조금 더 길게 그려져 있으므로 판매 실적이 저조한 매장과 우수한 매장이 함께 있음을 알 수 있습니다. 분석가는 이러한 판매 실적 차이가 발생하는 원인을 파악하기 위해 해당 지역에 대해 집중적으로 분석할 수 있습니다.

박스 플롯 생성

박스 플롯을 생성하려면 다음 단계를 완료하세요.

  1. 다음 데이터 옵션 중 하나를 선택합니다.
    • 숫자 숫자 필드 또는 비율 필드 속도/비율 필드
    • 숫자 숫자 필드 또는 비율 필드 속도/비율 필드와 문자열 필드 문자열 필드
    비고:

    데이터 창의 검색 표시줄을 사용하여 필드를 검색할 수 있습니다.

  2. 다음 단계에 따라 박스 플롯을 생성합니다.
    1. 선택한 필드를 새 카드에 드래그합니다.
    2. 차트 드롭 영역 위에 마우스를 놓습니다.
    3. 선택한 필드를 박스 플롯에 드롭합니다.
팁:

데이터 창 위의 차트 메뉴를 사용하거나 기존 카드의 시각화 유형 버튼시각화 유형을 사용하여 차트를 생성할 수도 있습니다. 차트 메뉴의 경우 데이터 선택 사항과 호환할 수 있는 차트만 활성화됩니다. 시각화 유형 메뉴의 경우 호환되는 시각화(맵, 차트, 테이블 포함)만 표시됩니다.

비고:

데이터베이스 데이터셋을 통해 생성된 상자 그림박스 플롯에는 레코드가 5개 이상 있어야 합니다. 레코드가 5개 미만인 박스 플롯은 문자열 필드를 사용하여 박스 플롯을 그룹화하거나 데이터셋이나 카드에 필터를 적용하는 경우에 발생할 가능성이 높습니다. 데이터베이스 데이터셋은 Insights in ArcGIS EnterpriseInsights desktop의 데이터베이스 연결을 통해 사용할 수 있습니다.

사용 참고 사항

레이어 옵션 버튼 범례을 누르면 레이어 옵션 창이 열립니다. 레이어 옵션 창에는 다음 기능이 포함되어 있습니다.

  • 범례범례은 차트의 x축에 필드를 기준으로 그룹화가 적용된 경우 사용할 수 있습니다. 필드를 기준으로 그룹화가 사용되면 여러 박스 플롯이 나란히 생성되며 범주별 데이터 분포를 나타냅니다. 범례 팝 아웃 버튼 범례 팝 아웃은 페이지에 범례를 별도의 카드로 표시합니다. 범례를 사용하여 차트에서 선택할 수 있습니다. 값과 연결된 색상을 변경하려면 심볼을 클릭한 다음 색상표에서 색상을 선택하거나 16진수 값을 입력합니다.
  • 모양모양을 사용하면 차트의 심볼 색상을 변경할 수 있습니다(단일 심볼만 해당).

시각화 유형 버튼 시각화 유형을 사용하면 박스 플롯과 기타 시각화(예시: 점진 심볼 맵, 요약 테이블, 히스토그램) 간에 직접 전환할 수 있습니다. 박스 플롯에 Group by 필드가 포함된 경우에는 라인 그래프세로 막대형 차트 등으로 시각화가 변경될 수 있습니다.

카드 뒷면을 보려면 카드 뒤집기 버튼 카드 뒤집기을 사용합니다. 카드 정보카드 정보에는 카드의 데이터에 대한 정보를 제공하며 데이터 내보내기데이터 내보내기에서는 사용자가 카드에서 데이터를 내보낼 수 있습니다.

박스 플롯의 주요 특징은 이상치 측정입니다. 이상치는 다른 데이터보다 휠씬 크거나 작은 값입니다. 박스 플롯의 수염은 이를 초과할 경우 이상치로 간주되는 임계값을 나타냅니다. 이상치가 없으면 수염이 데이터셋의 최소/최대값으로 늘어납니다. Insights에서 상한/하한 이상치 값의 범위는 박스 플롯에서 점선으로 연결된 원으로 표시됩니다.

박스 플롯의 각 통계나 범위는 차트를 클릭하여 선택할 수 있습니다.

박스 플롯을 생성하면 입력 필드와 결과 통계가 포함된 결과 데이터셋 결과이 데이터 창에 추가됩니다. 해당 데이터셋은 작업 버튼동작을 통한 비공간 분석으로 답변을 찾는 데 사용할 수 있습니다.

박스 플롯 작동 방식

박스 플롯은 다음과 같은 컴포넌트로 구성됩니다.

레이블이 표시된 박스 플롯 다이어그램

레이블컴포넌트설명
1

수염

첫 번째 사분위수보다 작고 세 번째 사분위수보다 큰 데이터 범위입니다. 각 수염에는 데이터의 25%가 포함됩니다. 일반적으로 수염은 IQR의 1.5배(이상치의 임계값)보다 작아야 합니다.

2

상자

첫 번째 사분위수와 세 번째 사분위수 간의 데이터 범위입니다. 데이터의 50%가 이 범위에 속합니다. 첫 번째와 세 번째 사분위수 간의 범위를 사분범위(IQR)라고 합니다.

3

최대값

데이터셋에서 가장 큰 값 또는 수염에 의해 설정된 임계값 이내의 가장 큰 값입니다.

4

세 번째 사분위수

데이터의 75%가 이 값보다 작고 25%는 이 값보다 큰 값입니다.

5

중앙값

데이터셋의 중앙에 있는 수입니다. 숫자의 절반은 중앙값보다 크고 나머지 절반은 중앙값보다 작습니다. 중앙값은 두 번째 사분위수라고도 합니다.

6

첫 번째 사분위수

데이터의 25%가 이 값보다 작고 75%는 이 값보다 큰 값입니다.

7

최소값

데이터셋에서 가장 작은 값 또는 수염에 의해 설정된 임계값 이내의 가장 작은 값입니다.

8

이상치

수염에 의해 설정된 한도보다 크거나 작은 데이터 값입니다.