K-평균 클러스터 찾기는 K-평균 알고리즘을 사용하여 위치 또는 속성 값을 기반으로 한 기본 피처 클러스터를 찾습니다. 알고리즘은 클러스터 내의 피처는 최대한 유사하고, 클러스터끼리는 최대한 다르도록 피처를 분류합니다.
예시
다음은 K-평균 클러스터 찾기를 사용한 사례 시나리오입니다.
- 한 비정부 기구는 버려진 어구 및 기타 대형 해양 쓰레기에 대한 데이터를 수집합니다. 쓰레기의 위치를 분석하여 쓰레기 클러스터를 찾을 수 있으며, 이는 기관이 버려진 장비와 쓰레기의 주요 출처를 파악하도록 도움을 줄 수 있습니다.
- 소매점의 고객들은 인구통계학적 특성과 구매 패턴을 기반으로 분석될 수 있습니다. 가처분 소득 및 지출과 같은 속성을 기반으로 하는 클러스터를 사용하여 매장의 마케팅 전략을 설계할 수 있습니다.
K-평균 클러스터 찾기 실행
K-평균 클러스터 찾기는 포인트, 라인 또는 영역 피처를 사용하여 맵, 차트 또는 테이블 카드에서 실행할 수 있습니다.
다음 단계를 완료하여 기본 클러스터를 찾습니다.
- 필요한 경우 맵 카드를 클릭하여 활성화합니다.
도구모음 및 작업 버튼 이 나타나면 카드가 활성화됩니다.
- 작업 버튼을 클릭하고 다음 중 하나를 수행합니다.
- 맵 카드의 공간 분석 탭에서 K-평균 클러스터 찾기를 클릭합니다.
- 차트 및 테이블 카드의 경우 어떻게 분포되었나요?을 클릭하고 K-평균 클러스터 찾기를 클릭합니다.
- 레이어 선택에서 클러스터를 찾으려는 레이어를 선택합니다.
- 분석 필드에서 다음 옵션 중 하나를 선택합니다.
- K-평균 클러스터 찾기를 공간적으로 실행하려면 위치 필드를 선택합니다.
- K-평균 클러스터 찾기를 비공간적으로 실행하려면 숫자 필드를 하나 이상 선택합니다.
- 추가 옵션을 확장하고 필요한 경우 클러스터 수 매개변수의 값을 입력합니다.
- 실행을 클릭합니다.
사용 참고사항
클러스터를 찾을 데이터셋을 선택하려면 레이어 선택 매개변수를 사용합니다. 데이터셋은 포인트, 라인 또는 영역 피처가 포함될 수 있으며, 비공간 테이블일 수도 있습니다(차트 또는 테이블의 기능을 사용하는 경우 사용 가능).
분석 필드 매개변수는 클러스터의 기반이 될 필드를 선택하는 데 사용됩니다. 필드는 클러스터가 지리적 위치를 기반으로 하는 위치 필드이거나, 속성 간의 유사성을 기반으로 한 하나 이상의 숫자 또는 비율 필드일 수 있습니다. 위치 및 숫자 또는 비율 필드의 조합은 지원되지 않습니다.
추가 옵션을 확장하여 클러스터 수 매개변수를 표시할 수 있습니다. 분석에 특정 클러스터 수가 필요한 경우 클러스터 수 매개변수에 해당 값을 입력합니다. 값을 입력하지 않으면, Davies and Bouldin(1979)에 설명된 Davies-Bouldin 색인을 사용하여 클러스터 내 유사성과 클러스터 간의 차이가 최적화되도록 여러 클러스터가 계산됩니다.
제한 사항
이 도구는 Google BigQuery 및 지원되는 기본 제공 항목이 아닌 데이터베이스 플랫폼에 대한 읽기 전용 연결에는 지원되지 않습니다.
크로스 필터, 필터 위젯, 임시 필터 위젯은 K-평균 클러스터 찾기 결과에 적용할 수 있지만, 필터가 변경될 때마다 도구를 다시 실행하지는 않습니다.
참조
Davies, David L., and Donald W. Bouldin. 1979. "A Cluster Separation Measure." IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1, no. 2 (April): 224 - 227.https://doi.org/10.1109/TPAMI.1979.4766909.