회귀 모델 생성은 선형 방정식을 관찰 데이터에 적합화하여 둘 이상의 설명 변수와 하나의 응답 변수 간의 관계를 모델링합니다. 각각의 독립 변수(x) 값은 종속 변수(y) 값과 연결됩니다.
회귀 모델 생성은 최소 제곱법을 회귀 유형으로 사용합니다.
예시
환경 단체에서 1990~2015년의 국가별 온실 가스 배출 원인에 대해 조사하고 있습니다. 회귀 모델 생성을 사용하면 인구와 국내 총생산 등의 설명 변수를 기반으로 국가별로 온실 가스 배출량을 추정하는 방정식을 만들 수 있습니다.
회귀 모델 생성 실행
다음 단계를 수행하여 회귀 모델을 생성합니다.
- 회귀 모델을 생성할 데이터셋을 사용하여 맵, 차트, 테이블을 생성합니다.
- 작업 버튼 을 클릭합니다.
- 다음 중 하나를 수행합니다.
- 차트 및 테이블 카드인 경우 분석 창에서 어떻게 관련되었나요?를 클릭합니다.
- 맵 카드인 경우 답변 찾기 탭을 클릭하고 어떻게 관련되었나요?를 클릭합니다.
- 회귀 모델 생성을 클릭합니다.
- 레이어 선택에서 회귀 모델 생성에 사용할 데이터셋을 선택합니다.
- 종속 변수 선택에서 모델과 함께 설명할 필드를 선택합니다.
필드는 숫자나 비율이어야 합니다.
- 설명 변수 선택을 클릭하여 사용 가능한 필드의 메뉴를 표시합니다.
- 설명 변수(독립 변수라고도 함)로 사용할 필드를 선택합니다.
- 선택을 클릭하여 설명 변수를 적용합니다.
- 사용 가능한 경우 종속 변수와 설명 변수의 산점도 또는 산점도 행렬을 보려면 시각화 버튼을 클릭합니다.산점도는 모델에 대한 탐색적 분석의 일부로 사용할 수 있습니다.
비고:
5개 이상의 설명 변수를 선택한 경우에는 시각화 버튼을 사용할 수 없습니다.
- 실행을 클릭합니다.
지정한 종속 변수와 설명 변수에 대한 회귀 모델이 생성됩니다. 이제 탐색적 분석과 확증적 분석을 통해 결과 및 통계를 사용하여 모델 유효성을 계속 확인할 수 있습니다.
사용 참고사항
회귀 모델 생성에 접근하려면 답변 찾기 탭에서 어떻게 관련되었나요? 아래의 작업 버튼 을 클릭합니다.
하나의 숫자 또는 비율 필드를 종속 변수로 지정할 수 있습니다. 종속 변수는 회귀 모델을 사용하여 설명하려는 숫자 필드입니다. 예를 들어 유아 사망 원인을 확인하는 회귀 모델을 만드는 경우 유아 사망률이 종속 변수입니다.
최대 20개의 숫자 또는 비율 필드를 설명 변수로 지정할 수 있습니다. 설명 변수는 회귀 모델의 일부로 지정되어 종속 변수를 설명하는 독립 변수입니다. 예를 들어 유아 사망 원인을 확인하는 회귀 모델을 만드는 경우 빈곤율, 발병률, 예방 접종률이 설명 변수에 포함될 수 있습니다. 선택한 설명 변수 개수가 4개 이하인 경우 시각화를 클릭하면 산점도나 산점도 행렬을 생성할 수 있습니다.
다음과 같은 결과 값을 모델 통계에서 사용할 수 있습니다.
- 회귀 방정식
- R2
- 조정된 R2
- Durbin-Watson 검정
- p-값
- 잔차 표준 오차
- F 통계
결과 및 통계를 사용하여 모델의 정확도를 분석할 수 있습니다.
모델을 생성하고 나면 새로운 함수 데이터셋이 데이터 창에 추가됩니다. 이 함수 데이터셋은 변수 예측 기능에 사용할 수 있습니다. 또한 회귀 모델 생성은 입력의 모든 필드와 estimated, residual, standardized_residual 필드가 포함된 결과 데이터셋도 생성합니다. 이러한 필드에는 다음과 같은 정보가 포함됩니다.
- estimated— 회귀 모델에서 예상된 종속 변수의 값
- residual— 기존 필드 값과 종속 변수 예상 값 간의 차이
- standardized_residual— 잔차의 표준편차 간 비율
회귀 모델 생성 작동 방식
다음 가정을 충족하는 경우 OLS 회귀 모델을 생성할 수 있습니다.
- 모델은 매개변수가 선형이어야 합니다.
- 데이터는 인구의 랜덤 샘플입니다.
- 독립 변수의 동일 선상 관계가 강력하지 않습니다.
- 독립 변수는 측정 오류를 무시해도 될 정도로 정확하게 측정되었습니다.
- 예상 잔차 값은 항상 0입니다.
- 잔차에는 상수 분산(등분산)이 있습니다.
- 잔차는 정규 분포를 따릅니다.
회귀 모델 생성은 하나 이상의 가정이 충족되지 않더라도 성공적으로 실행됩니다. 회귀 모델 생성을 사용하기 전에 OLS의 가정을 테스트해야 합니다. 가정을 충족하지 않으면 모델이 유효하지 않을 수 있습니다.
세 번째 가정(독립 변수의 동일 선상 관계가 강력하지 않음)을 충족하지 않으면 모델을 생성할 수 없습니다. 이 경우 둘 이상의 설명 변수가 관련되어 있습니다. 동일 선상에 있는 변수 중 하나를 제거하고 다시 시도하세요. 메시지가 나타납니다. 산점도 또는 산점도 행렬을 사용하여 동일 선상의 변수를 확인할 수 있습니다. 동일 선상 변수는 선형 관계를 가지며 변수 중 하나가 다른 변수에 대한 강력한 종속성을 갖게 됩니다. 모델에서 종속 동일 선상 변수를 제거합니다.
OLS 모델 가정에 대한 자세한 내용은 회귀 분석을 참고하세요.