회귀 모델 생성(Create Regression Model)

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

회귀 모델 생성은 선형 방정식을 관찰 데이터에 적합화하여 둘 이상의 설명 변수와 하나의 응답 변수 간의 관계를 모델링하는 데 사용됩니다. 각각의 독립 변수(x) 값은 종속 변수(y) 값과 연결됩니다.

회귀 모델 생성은 최소 제곱법을 회귀 유형으로 사용합니다.

예시

환경 단체에서 1990~2015년의 국가별 온실 가스 배출 원인에 대해 조사하고 있습니다. 회귀 모델 생성을 사용하면 인구와 국내 총생산(GDP)과 같은 설명 변수를 기반으로 국가별로 온실 가스 배출량을 추정할 수 있는 방정식을 만들 수 있습니다.

회귀 모델 생성 기능 사용

다음 단계를 수행하여 회귀 모델 생성 분석 기능을 실행합니다.

  1. 회귀 모델을 생성할 데이터셋을 사용하여 맵, 차트, 테이블을 생성합니다.
  2. 작업 버튼 동작을 클릭합니다.
  3. 다음 중 하나를 수행합니다.
    • 카드가 차트나 테이블인 경우 분석 창에서 어떻게 관련되었나요?를 클릭합니다.
    • 카드가 맵인 경우 답변 찾기 탭을 클릭하고 어떻게 관련되었나요?를 클릭합니다.
  4. 회귀 모델 생성을 클릭합니다.
  5. 레이어 선택에서 회귀 모델을 생성할 데이터셋을 선택합니다.
  6. 종속 변수 선택에서 모델과 함께 설명할 필드를 선택합니다. 필드는 숫자나 비율이어야 합니다.
  7. 설명 변수 선택을 클릭하여 사용 가능한 필드의 메뉴를 표시합니다.
  8. 설명 변수(독립 변수라고도 함)로 사용할 필드를 선택합니다.
  9. 선택을 클릭하여 설명 변수를 적용합니다.
  10. 사용 가능한 경우 종속 변수와 설명 변수의 산점도 또는 산점도 행렬을 보려면 시각화 버튼을 클릭합니다. 산점도는 모델에 대한 탐색적 분석의 일부로 사용할 수 있습니다.
    비고:

    5개 이상의 설명 변수를 선택한 경우에는 시각화 버튼을 사용할 수 없습니다.

  11. 실행을 클릭합니다.

선택한 종속 변수와 설명 변수에 대한 회귀 모델이 생성됩니다. 이제 탐색적 분석과 확증적 분석을 통해 결과 및 통계를 사용하여 모델 유효성을 계속 확인할 수 있습니다.

사용 참고 사항

회귀 모델 생성은 답변 찾기 탭에서 어떻게 관련되었나요? 아래의 작업 버튼 동작을 사용하여 찾을 수 있습니다.

하나의 숫자 또는 비율 필드를 종속 변수로 선택할 수 있습니다. 종속 변수는 회귀 모델을 사용하여 설명하고자 하는 숫자 필드입니다. 예를 들어 유아 사망 원인을 확인하는 회귀 모델을 만드는 경우 유아 사망률이 종속 변수입니다.

최대 20개의 숫자 또는 비율 필드를 설명 변수로 선택할 수 있습니다. 설명 변수는 회귀 모델의 일부로 선택되어 종속 변수를 설명하는 독립 변수입니다. 예를 들어 유아 사망 원인을 확인하는 회귀 모델을 만드는 경우 빈곤율, 발병률, 예방 접종률이 설명 변수에 포함될 수 있습니다. 선택한 설명 변수 개수가 4개 이하인 경우 시각화를 클릭하면 산점도 매트릭스나 산점도를 생성할 수 있습니다.

다음과 같은 결과 값이 모델 통계에 제공됩니다.

  • 회귀 방정식
  • R2
  • 조정된 R2
  • Durbin-Watson 검정
  • p-값
  • 잔차 표준 오차
  • F 통계

결과 및 통계를 사용하여 모델의 정확도를 분석할 수 있습니다.

모델을 생성하고 나면 새로운 함수 데이터셋이 데이터 창에 추가됩니다. 이 함수 데이터셋은 변수 예측 기능에 사용할 수 있습니다. 또한 회귀 모델 생성은 입력의 모든 필드와 estimated, residual, standardized_residual 필드가 포함된 결과 데이터셋도 생성합니다. 이러한 필드에는 다음과 같은 정보가 포함됩니다.

  • estimated- 회귀 모델에서 예상된 종속 변수의 값
  • residual- 기존 필드 값과 종속 변수 예상 값 간의 차이
  • standardized_residual- 잔차의 표준편차 간 비율

회귀 모델 생성 작동 방식

최소 제곱법(Ordinary Least Square) 모델은 다음과 같은 가정 하에 생성할 수 있습니다.

  • 모델은 매개변수가 선형이어야 합니다.
  • 데이터는 인구의 랜덤 샘플입니다.
  • 독립 변수의 동일 선상 관계는 그다지 강력하지 않습니다.
  • 독립 변수는 측정 오류를 무시해도 될 정도로 정확하게 측정되었습니다.
  • 예상 잔차 값은 항상 0입니다.
  • 잔차에는 상수 분산(등분산)이 있습니다.
  • 잔차는 정규 분포를 따릅니다.

회귀 모델 생성은 하나 이상의 가정이 충족되지 않더라도 성공적으로 실행됩니다. 따라서 회귀 모델 생성을 사용하기 전에 OLS의 가정을 테스트해야 합니다. 가정을 충족하지 않으면 모델이 유효하지 않을 수 있습니다.

세 번째 가정(독립 변수의 동일 선상 관계는 그다지 강력하지 않음)을 충족하지 않으면 모델을 생성할 수 없습니다. 이 경우 둘 이상의 설명 변수가 관련되어 있습니다. 동일 선상 변수 중 하나를 제거하고 다시 시도하세요.라는 메시지가 나타납니다. 산점도 또는 산점도 행렬을 사용하여 동일 선상의 변수를 확인할 수 있습니다. 동일 선상 변수는 선형 관계를 가지며 변수 중 하나가 다른 변수에 대한 강력한 종속성을 갖게 됩니다. 모델에서 종속 동일 선상 변수를 제거합니다.

OLS 모델 가정에 대한 자세한 내용은 회귀 분석을 참고하세요.