회귀 분석은 종속 변수와 1개 이상의 설명 변수 간의 예상 관계를 계산하는 분석 기술입니다. 회귀 분석을 통해 모델에 따라 값을 예측하고 선택한 변수 간의 관계를 모델링할 수 있습니다.
회귀 분석 개요
회귀 분석은 선택한 예측 방법, 종속 변수, 1개 이상의 설명 변수를 사용하여 종속 변수의 값을 추정하는 방정식을 생성합니다.
회귀 모델에는 모델이 종속 변수를 얼마나 잘 추정하는지에 대한 정보를 제공하기 위해 R2 및 P-Value와 같은 결과가 포함됩니다.
산점도 행렬, 히스토그램, 포인트 차트와 같은 차트를 회귀 분석에 사용해서 관계를 분석하고 가정을 테스트할 수도 있습니다.
회귀 분석을 사용하여 다음 유형의 문제를 해결할 수 있습니다.
- 종속 변수와 관련된 설명 변수를 결정하세요.
- 종속 및 설명 변수 간 관계를 이해하세요.
- 종속 변수의 알 수 없는 값을 예측하세요.
예시
소형 소매점 분석가가 여러 매장 위치의 실적을 연구하고 있습니다. 분석가는 일부 매장의 판매량이 예상과 달리 저조한 이유를 알고 싶어 합니다. 분석가는 판매에 영향을 주는 변수를 결정하기 위해 소매 중심지 및 대중 교통까지의 거리, 주변 지역의 평균 연령 및 소득과 같은 설명 변수로 회귀 모델을 생성합니다.
교육부 분석가는 학교 아침 식사 프로그램의 영향을 연구하고 있습니다. 분석가는 학급 규모, 가정 소득, 1인당 학교 예산, 매일 아침 식사를 하는 학생의 비율 등의 설명 변수를 사용하여 졸업률과 같은 교육 성과의 회귀 모델을 생성합니다. 모델의 방정식을 사용하여 교육 성과에 대한 각 변수의 상대적 효과를 결정할 수 있습니다
비영리 단체의 분석가는 지구 온난화 가스 배출량을 연구하고 있습니다. 분석가는 국내 총생산(GDP), 인구, 화석 연료를 사용한 전기 생산, 차량 사용과 같은 설명 변수를 사용하여 각 국가의 최신 배출량에 대한 회귀 모델을 생산합니다. 이 모델을 사용하면 예상 GDP 및 인구 값을 통해 미래 지구 온난화 가스 배출량을 예측할 수 있습니다.
OLS 회귀 분석(Ordinary Least Squares)
ArcGIS Insights의 회귀 분석은 최소 제곱법을 사용하여 모델링됩니다.
OLS 방법은 다중 선형 회귀의 형태이며, 종속 변수와 독립 변수 간의 관계는 선형 방정식을 관측 데이터에 적합화하여 모델링되어야 함을 의미합니다.
OLS 모델은 다음 방정식을 사용합니다.
yi=β0+β1x1+β2x2+...+βnxn+ε
여기서 각 항목 정보는 다음과 같습니다.
- yi = 포인트 i에서 종속 변수의 관찰 값
- β0 = y 절편(상수)
- Βn = 포인트 i에서 설명 변수 N의 회귀 계수 또는 경사
- xn = 포인트 i에서 변수 N의 값
- ε = 회귀 방정식의 오류
가정
각 회귀 방식에는 방정식을 신뢰할 수 있는 것으로 간주하기 위해 충족되어야 하는 여러 가정이 있습니다. 회귀 모델 생성 시 OLS 가정의 유효성을 검사해야 합니다.
OLS 방법 사용 시 다음 가정을 테스트하고 충족해야 합니다.
- 모델은 선형이어야 합니다.
- 데이터는 임의로 샘플링해야 합니다.
- 설명 변수는 동일 선상에 있으면 안 됩니다.
- 설명 변수는 측정 시 무시할만한 오류가 있어야 합니다.
- 잔차의 예상 합계는 0입니다.
- 잔차에 등분산이 있습니다.
- 잔차는 정규 분포를 따릅니다.
- 인접한 잔차는 자기상관관계를 표시하면 안 됩니다.
모델은 선형이어야 합니다.
OLS 회귀는 선형 모델을 생성하는 데에만 사용할 수 있습니다. 산점도를 사용하여 종속 변수와 설명 변수 간의 선형성을 테스트할 수 있습니다. 산점도 행렬은 총 변수가 5개 이하면 모든 변수를 테스트할 수 있습니다.
데이터는 임의로 샘플링해야 합니다.
회귀 분석에 사용되는 데이터는 샘플 자체가 외부 인자에 의존하지 않는 방식으로 샘플링되어야 합니다. 회귀 모델의 잔차를 사용하여 임의 샘플링을 테스트할 수 있습니다. 회귀 모델의 결과인 잔차는 산점도 또는 산점도 행렬의 설명 변수에 대해 플롯할 때 상관 관계가 없어야 합니다.
설명 변수는 동일 선상에 있으면 안됩니다.
공선성은 모델에서 중복을 생성하는 설명 변수 간의 선형 관계를 나타냅니다. 어떤 경우에는 공선성으로 모델을 생성할 수 있습니다. 그러나 공선성 변수 중 하나가 다른 변수에 종속된 것으로 보이면 해당 변수를 모델에서 제외하는 것이 좋습니다. 설명 변수의 산점도 또는 산점도 행렬을 사용하여 공선성을 테스트할 수 있습니다.
설명 변수는 측정 시 무시할만한 오류가 있어야 합니다.
회귀 모델은 입력 데이터만큼 정확합니다. 설명 변수의 오차가 큰 경우 모델을 정확하다고 받아들일 수 없습니다. 회귀 분석 수행 시 무시할만한 오류가 발생하도록 알려져 있고 믿을 수 있는 소스를 사용하는 것이 중요합니다.
잔차의 예상 합계는 0
잔차는 회귀 분석에서 관측 및 예상 값의 차이입니다. 회귀 곡선 위의 관측 값은 양의 잔차 값을 가지며, 회귀 곡선 아래의 관측 값은 음의 잔차 값을 가집니다. 회귀 곡선은 데이터 포인트의 중심을 따라 위치해야 하므로 잔차의 합은 0이어야 합니다. 필드의 합은 요약 테이블에서 계산될 수 있습니다.
잔차에 등분산이 있습니다.
분산은 모든 잔차에 대해 동일해야 합니다. 잔차(y축) 및 예상 값(x축)의 산점도를 사용하여 이 가정을 테스트할 수 있습니다. 결과 산점도는 플롯에서 임의로 플롯된 점의 수평 밴드로 나타나야 합니다.
잔차는 정규 분포를 따릅니다.
종형 곡선이라고도 하는 정규 분포는 현상의 빈도가 평균 근처에서 높고 평균으로부터의 거리가 늘어날수록 낮아지는 자연 발생 분포입니다. 정규 분포는 간혹 통계 분석에서 null 가설로 사용됩니다. 잔차는 자동 맞춤선이 관찰된 데이터 포인트 내에서 중앙 집중식으로 최적화되고 다른 방향으로 왜곡되지 않게 표시되도록 정규 분포를 따라야 합니다. 잔차가 있는 히스토그램을 작성하여 이 가정을 테스트할 수 있습니다. 정규 분포 곡선을 중첩하여 왜곡도 및 첨도 측정 값을 히스토그램 카드 뒷면에 보고합니다.
인접한 잔차는 자기 상관관계를 표시하면 안 됩니다.
이 가정은 시간 순서에 따라 다릅니다. 데이터가 시간 순서대로 정렬되면 각 데이터 포인트는 이전 또는 이후 데이터 포인트와 독립적이어야 합니다. 그러므로 회귀 분석을 수행할 때 시간 순서에 따른 데이터가 올바른 순서로 구성되어 있는지 확인하는 것이 중요합니다. 이 가정은 Durbin-Watson 테스트를 통해 계산할 수 있습니다.
Durbin-Watson 테스트는 회귀 모델에서 잔차의 자기 상관관계에 대한 척도입니다. Durbin-Watson 테스트는 0~4의 척도를 사용하며, 0~2 값은 양의 자기 상관관계를 나타내며 2~4 값은 음의 자기 상관관계를 나타냅니다. 그러므로 2에 가까운 값은 잔차에 자기 상관관계가 없다는 가정을 충족해야 합니다. 일반적으로 1.5와 2.5 사이의 값은 허용 가능한 것으로 간주되지만 1.5보다 작거나 2.5보다 큰 값은 자기상관이 없다는 가정에 모델이 적합하지 않음을 나타냅니다.
모델 유효성
회귀 분석에서 회귀 방정식의 정확성은 중요한 부분입니다. 모든 모델에는 오류가 있지만 통계를 이해하면 모델을 분석에 사용할 수 있는지 혹은 조정이 필요한지를 결정하는 데 도움이 됩니다.
회귀 모델의 유효성을 결정하는 데에는 탐색적 분석 및 확증적 분석의 두 가지 기법이 있습니다.
탐색적 분석
탐색적 분석은 다양한 시각 및 통계 기법을 사용하여 데이터를 파악하는 방법입니다. 탐색적 분석 과정 동안 OLS 회귀 가정을 테스트하고 여러 설명 변수의 효과를 비교합니다. 탐색적 분석을 사용하면 여러 모델의 효과와 정확성을 비교할 수 있지만 모델의 사용 또는 거부 여부는 결정하지 않습니다. 각 회귀 모델에 대한 확증적 분석 전에 탐색적 분석을 수행하고 모델 간에 비교하도록 반복해야 합니다.
탐색적 분석의 일부로 다음 차트와 통계를 사용할 수 있습니다.
- 산점도 및 산점도 행렬
- 히스토그램 및 정규 분포
- 회귀 방정식 및 새 관측 예측
- 결정계수, R2 및 조정된 R2
- 잔차 표준 오차
- 포인트 차트
설명 변수를 선택하는 동안 및 회귀 모델을 생성하기 전에 탐색적 분석을 시작해야 합니다. OLS는 선형 회귀 분석 방법이기 때문에 주요 가정 중 하나는 모델이 선형이어야 한다는 것입니다. 산점도 또는 산점도 행렬을 사용하여 종속 변수와 설명 변수 간의 선형성을 평가할 수 있습니다. 산점도 행렬은 종속 변수와 함께 최대 4개의 설명 변수를 표시할 수 있으므로 모든 변수를 대규모로 비교하는 중요한 도구입니다. 단일 산점도에는 하나의 종속 변수와 하나의 독립 변수 또는 설명 변수만 표시됩니다. 종속 변수와 단일 설명 변수의 산점도를 보면 변수 간의 관계를 더욱 정확하게 평가할 수 있습니다. 허용 가능한 모델을 생성할 설명 변수를 결정하는 데 도움이 되는 회귀 모델을 생성하기 전에 선형성을 테스트할 수 있습니다.
회귀 방정식, R2 값, Durbin-Watson 검정을 포함하여 회귀 모델을 생성한 후 여러 통계 결과를 사용할 수 있습니다. 회귀 모델을 생성한 후에는 결과 및 필요한 차트와 테이블을 사용하여 나머지 OLS 회귀 가정을 테스트해야 합니다. 모델이 가정을 충족하면 나머지 탐색적 분석을 계속할 수 있습니다.
회귀 방정식은 각 설명 변수의 회귀 계수를 포함하여 예측 값에 대해 각 설명 변수의 영향에 관한 유용한 정보를 제공합니다. 경사 값을 비교하여 종속 변수에 대한 각 설명 변수의 상대적인 영향을 확인할 수 있습니다. 경사 값이 0에서 멀수록(양수 또는 음수) 영향이 커집니다. 회귀 방정식을 사용하면 각 설명 변수에 값을 입력하여 종속 변수에 대한 값을 예측할 수도 있습니다.
R2로 심볼화된 결정 계수는 회귀 방정식이 실제 데이터 포인트를 얼마나 잘 모델링하는지를 측정합니다. R2 값은 0과 1 사이의 숫자이며 1에 가까울수록 더 정확한 모델을 나타냅니다. 1의 R2 값은 완벽한 모델을 나타내며, 이러한 모델은 여러 인수와 알려지지 않은 변수 간의 복잡한 상호 작용으로 인해 실생활에서 거의 발생하지 않습니다. 그러므로 값이 1에 가까울 수 없다는 사실을 인지하고 가능한 한 가장 높은 R2 값을 가진 회귀 모델을 생성하도록 노력해야 합니다.
회귀 분석 수행 시, 가능성만을 기반으로 더 잘 맞는 설명 변수를 추가하여 허용할 수 있는 R2 값을 갖는 회귀 모델을 생성할 위험이 있습니다. 0과 1 사이의 값으로 조정된 R2 값은 추가 설명 변수를 설명하므로 가능성이 계산에서 차지하는 역할이 줄어듭니다. 조정된 R2는 많은 설명 변수를 사용하는 모델에 사용되거나 설명 변수의 수가 다른 모델을 비교할 때 사용됩니다.
잔차 표준 오차는 회귀 모델이 새 데이터로 값을 예측할 수 있는 정확도를 측정합니다. 값이 작을수록 더 정확한 모델을 나타냅니다. 따라서 여러 모델을 비교할 때 가장 작은 값을 가진 모델이 잔차 표준 오차를 최소화하는 모델이 됩니다.
포인트 차트를 사용하여 군집화 및 이상치와 같은 패턴에 대한 설명 변수를 분석할 수 있으며, 이는 모델의 정확도에 영향을 줄 수 있습니다.
확증적 분석
확증적 분석은 Null 가설에 대한 모델을 테스트하는 프로세스입니다. 회귀 분석에서 Null가설은 종속 변수와 설명 변수 간에 관계가 없다는 것을 나타냅니다. 관계가 없는 모델의 경사 값은 0입니다. 확증적 분석의 요소가 통계적으로 유의하면 Null 가설을 기각할 수 있습니다(즉, 통계적 유의도는 종속 변수와 설명 변수 간에 관계가 있음을 나타냄).
다음 통계 결과는 확증적 분석의 일환으로 유의도를 확인하는 데 사용됩니다.
- F 통계 및 연관된 P-Value
- t 통계 및 연관된 P-Value
- 신뢰 구간
F 통계는 F 검정에서 반환된 글로벌 통계로, 모델의 모든 회귀 계수가 0과 상당히 다른지 여부를 파악하여 회귀 모델의 예측 기능을 나타냅니다. F 검정은 설명 변수를 개별적으로 테스트하지 않고 설명 변수의 결합된 영향을 분석합니다. F 통계에는 연관된 P-Value가 있으며 이는 데이터의 관계가 우연히 발생할 확률을 나타냅니다. P-Value는 확률을 기반으로 하며 값은 0.0에서 1.0 사이의 범위로 제공됩니다. 모델의 관계가 실제인지(즉, 우연히 발생하지 않음) 확인하고 Null 가설을 기각하려면 작은 P-Value(일반적으로 0.05 이하)가 필요합니다. 이 경우 모델의 관계가 우연히 발생할 확률은 0.05 또는 1/20입니다. 또한 관계가 실제로 발생할 확률은 0.95 또는 19/20입니다.
t 통계는 t 검정에서 반환된 로컬 통계로, 각 설명 변수의 예측 기능을 개별적으로 나타냅니다. F 검정과 마찬가지로 t 검정은 모델의 회귀 계수가 0과 상당히 다른지 분석합니다. 그러나 각 설명 변수에 대해 t 검정이 수행되므로 모델은 모델당 하나가 아니라 각 설명 변수에 대한 t 통계 값을 반환합니다. 각 t 통계에는 연관된 P-Value가 있으며 이는 설명 변수의 유의도를 나타냅니다. F 검정의 P-Value와 마찬가지로 Null 가설을 기각하기 위해 각 t 검정의 P-Value는 0.05 이하여야 합니다. 설명 변수에 0.05보다 큰 P-Value가 있는 경우에는 글로벌 P-Value가 유의하더라도 변수를 삭제하고 새 모델을 생성해야 합니다.
신뢰 구간은 각 설명 변수에 대한 회귀 계수 및 연관된 90, 95, 99% 신뢰 구간을 보여줍니다. 그러므로 t 검정의 P-Value와 함께 신뢰 구간을 사용하여 개별 설명 변수에 대한 Null 가설을 평가할 수 있습니다. Null 가설을 기각하고 모델을 계속 사용하려면 회귀 계수가 0이 아니어야 합니다. 그러므로 각 설명 변수에 대해 회귀 계수와 연관된 신뢰 구간이 0과 중첩되지 않아야 합니다. 지정된 설명 변수에 대한 99% 또는 95% 신뢰 구간이 0과 중첩되면 설명 변수가 Null 가설을 기각하는 데 실패합니다. 모델에 이러한 변수를 포함하면 모델의 전반적인 유의도에 영향을 줄 수 있습니다. 90% 신뢰 구간만 0과 중첩되는 경우에는 다른 글로벌 통계가 유의하면 설명 변수가 모델에 포함될 수 있습니다. 이상적으로 모든 설명 변수의 신뢰 구간은 0에서 멀어야 합니다.
기타 결과
예상 값 및 잔차와 같은 기타 결과는 OLS 회귀 가정을 테스트하는 데 중요합니다. 이 섹션에서는 이러한 값을 계산하는 방법에 대해 자세히 알아봅니다.
예상 값
예상 값은 회귀 방정식과 각 설명 변수의 값을 사용하여 계산됩니다. 이상적으로는 예상 값이 관측 값(즉, 종속 변수의 실제 값)과 동일합니다.
예상 값은 잔차를 계산하기 위해 관측 값과 함께 사용됩니다.
잔차
회귀 분석의 잔차 값은 데이터셋의 관측 값과 회귀 방정식으로 계산된 예상 값 간의 차이입니다.
위 관계의 잔차 A 및 B는 다음과 같이 계산됩니다.
잔차A = 관측된A - 예상A 잔차A = 595 - 487.62 잔차A = 107.38
잔차B = 관측된B - 예상B 잔차B = 392 - 527.27 잔차B = -135.27
잔차를 사용하여 회귀 방정식의 오류를 계산하고 여러 가정을 테스트할 수 있습니다.