경험적 베이지안 크리깅의 개념

ArcGIS Image for ArcGIS Online에서 사용할 수 있습니다.

경험적 베이지안 크리깅(EBK)은 유효한 크리깅 모델을 구축하는 작업의 가장 어려운 측면을 자동화하는 공간통계 보간법입니다. Geostatistical Analyst의 다른 크리깅 방법에서는 정확한 결과를 얻으려면 매개변수를 수동으로 조정해야 하지만, EBK는 하위 설정 및 시뮬레이션 프로세스를 통해 이러한 매개변수를 자동으로 계산합니다.

경험적 베이지안 크리깅은 또한 기본 반베리오그램을 추정하여 도입된 오차를 설명한다는 점에서 다른 크리깅 방법과 다릅니다. 다른 크리깅 방법은 알려진 데이터 위치에서 반베리오그램을 계산하고 해당 단일 반베리오그램을 사용하여 알려지지 않은 위치에서 예측을 수행합니다. 이 프로세스는 추정된 반베리오그램이 보간 지역에 대한 실제 반베리오그램이라고 암시적으로 가정합니다. 다른 크리깅 방법은 반베리오그램 추정의 불확실성을 고려하지 않으므로 예측의 표준 오차가 과소 평가됩니다.

경험적 베이지안 크리깅은 Geostatistical Wizard에서, 그리고 지오프로세싱 도구로 제공됩니다.

장점 및 단점

경험적 베이지안 크리깅은 다른 보간 방법과 비교하여 다양한 장점과 단점이 있습니다.

장점

  • 최소한의 인터랙티브 모델링만 필요합니다.
  • 예측의 표준 오차가 다른 크리깅 방법보다 정확합니다.
  • 중간 정도로 비정상성을 띠는 데이터를 정확하게 예측할 수 있습니다.
  • 소용량 데이터셋의 경우 다른 크리깅 방법보다 더 정확합니다.

단점

  • 입력 포인트 수, 부분집합 크기, 중첩 계수가 증가할수록 처리 시간이 급격하게 증가합니다. 변환을 적용하면 처리 시간도 증가하며, 특히 반베리오그램 모델 유형으로 K-Bessel 또는 K-Bessel 추세 제거가 선택된 경우 더욱 크게 증가합니다. 이러한 매개변수는 이 항목의 다음 섹션에 나와 있습니다.
  • 특히 래스터로 결과를 출력하는 경우 다른 크리깅 방법보다 처리 속도가 느립니다.
  • 코크리깅 및 비등방성 보정을 사용할 수 없습니다.
  • 경험적 로그 변환은 이상치에 특히 민감합니다. 이상치가 포함된 데이터에 이 변환을 사용하면 입력 포인트 값보다 크기 순서가 훨씬 크거나 작은 예측을 수신할 수 있습니다. 이 매개변수는 다음의 변환 섹션에 나와 있습니다.

반베리오그램 추정

다른 크리깅 방법(가중치 회귀 분석을 사용하는 방법)과 달리, EBK의 반베리오그램 매개변수는 제한 최대 가능도(REML)를 사용하여 추정됩니다. 대용량 데이터셋에 대한 REML의 계산 제한으로 인해, 입력 데이터는 먼저 지정된 크기의 중첩 부분집합으로 나뉩니다(기본 설정에 따라 부분집합당 100포인트). 각 부분집합에서 반베리오그램은 다음과 같은 방식으로 추정됩니다.

  1. 부분집합의 데이터에서 반베리오그램이 추정됩니다.
  2. 이 반베리오그램을 모델로 사용하여 부분집합의 각 입력 위치에서 새 데이터가 조건 없이 시뮬레이션됩니다.
  3. 시뮬레이션된 데이터에서 새로운 반베리오그램이 추정됩니다.
  4. 2단계 및 3단계가 지정된 횟수만큼 반복됩니다. 각 반복의 1단계에서 추정된 반베리오그램은 입력 위치에서 새로운 데이터 집합을 시뮬레이션하는 데 사용되며, 시뮬레이션된 데이터는 새로운 반베리오그램을 추정하는 데 사용됩니다.

이 프로세스는 각 부분집합에 대해 수많은 반베리오그램을 생성하며, 이들이 함께 플롯되는 경우 결과는 밀도로 음영 처리된 반베리오그램의 경험적 분포가 됩니다(파란색이 진할수록 해당 영역을 통과하는 반베리오그램이 더 많음). 경험적 반베리오그램은 파란색 십자로 나타나 있습니다. 또한 아래와 같이 분포의 중앙값은 빨간색 실선으로 표시되고, 25번째 및 75번째 백분위수는 빨간색 파선으로 표시됩니다.

시뮬레이션된 반베리오그램
시뮬레이션된 반베리오그램이 하나의 부분집합에 대해 표시되어 있습니다.

부분집합당 시뮬레이션된 반베리오그램의 수는 기본 설정에 따라 100이며, 이러한 각 반베리오그램은 부분집합에 대한 실제 반베리오그램의 추정치입니다.

예측은 각 예측 위치에 대해 포인트의 인접 영역에 있는 반베리오그램 분포에서 개별 반베리오그램을 병합하여 생성된 새로운 경험적 반베리오그램 분포를 사용하여 계산됩니다. 예를 들어 예측 위치의 3개 부분집합에 인접 피처가 있는 경우(검색 인접 영역으로 지정된 경우), 예측은 각 3개 부분집합에 대해 시뮬레이션된 반베리오그램을 사용하여 계산됩니다. 각 부분집합의 반베리오그램은 예측에 기여하는 인접 영역 수에 따라 가중치가 부여됩니다. 이를 통해 더 많은 인접 피처에 기여하는 부분집합이 예측 값에 더 큰 영향을 미칠 수 있습니다.

Geostatistical Wizard에서 경험적 베이지안 크리깅을 수행하면 예측 값을 계산하는 데 사용된 부분집합을 볼 수 있습니다. 아래 이미지에서 예측 위치는 미리 보기 표면의 십자선 중심입니다. 십자선 주변의 작은 원은 검색 인접 영역이며, 커다란 중첩 폴리곤 2개는 예측을 계산하는 데 사용된 두 부분집합에 포함된 포인트를 보여줍니다. 이 예시에서는 맵 중간에 있는 포인트가 두 부분집합 모두에 포함되어 있습니다. 화살표로 표시된 버튼을 사용하여 이러한 폴리곤 시각화를 켜거나 끌 수 있습니다.

부분집합을 사용한 예측
예측이 인접한 부분집합에서 생성됩니다.

크리깅 모델

경험적 베이지안 크리깅은 고유한 무작위 함수를 크리깅 모델로 사용한다는 점에서 Geostatistical Analyst의 다른 크리깅 방법과 다릅니다.

다른 크리깅 모델은 프로세스가 이 평균 주변의 개별 변동과 함께 전체 평균(또는 지정된 추세)을 따른다고 가정합니다. 큰 편차는 평균 쪽으로 뒤로 당겨지기 때문에 값이 너무 멀리 벗어나지는 않습니다. 그러나 EBK는 전체 평균에 대한 추세를 가정하지 않으므로, 큰 편차는 작아질 가능성도 있지만 커질 가능성도 있습니다. 따라서 고유한 무작위 함수는 데이터의 추세에 대해 본질적으로 정확합니다.

반베리오그램 모델

주어진 거리 h에 대해 경험적 베이지안 크리깅은 다음과 같은 반베리오그램을 지원합니다.

  • 거듭제곱
    • γ(h)= 너깃 + b|h|α
  • 선형
    • γ(h)= 너깃 + b|h|
  • 박막 스플라인
    • γ(h)= 너깃 + b|h2|*ln(|h|)

너깃과 b(경사)는 양수여야 하며, α(거듭제곱)는 0.25에서 1.75 사이여야 합니다. 이러한 제한 사항에 따라 매개변수가 REML을 사용하여 추정됩니다. 이러한 반베리오그램 모델에서는 함수에 상한이 없으므로 범위 또는 문턱값 매개변수가 없습니다.

EBK에서는 각 위치에서 여러 반베리오그램을 추정하기 때문에 매개변수 추정치의 경험적 분포를 분석할 수 있습니다. 너깃, 경사, 거듭제곱 탭을 클릭하면 연관된 매개변수의 분포가 표시됩니다. 다음 그래픽은 이전 그래픽에 나와 있는 시뮬레이션된 반베리오그램에 대한 반베리오그램 매개변수의 분포를 보여줍니다.

너깃, 경사, 거듭제곱의 분포가 나와 있습니다.
너깃, 경사, 거듭제곱의 분포

미리 보기 표면에서 다른 위치를 클릭하면 새 위치에 대한 반베리오그램 분포 및 반베리오그램 매개변수의 분포가 표시됩니다. 분포가 데이터 도메인 전반에 걸쳐 크게 변경되지 않는 경우 데이터가 전역적으로 정상성을 띤다는 것을 나타냅니다. 분포는 데이터 도메인 전반에 걸쳐 원활하게 변경되어야 합니다. 그러나 작은 거리에서 분포가 크게 변하는 경우 중첩 계수의 값을 늘리면 분포를 원활하게 전환할 수 있습니다.

비고:

아래의 변환 섹션에서 설명한 것처럼, 변환을 적용하면 크리깅 모델이 고유한 무작위 함수에서 단순한 크리깅 모델로 변경되고 몇 가지 추가 반베리오그램 모델을 사용할 수 있게 됩니다.

변환

경험적 베이지안 크리깅은 두 가지 기본 분포인 경험적 및 경험적 로그 중에서 선택할 수 있으며 승산식 왜곡 정규 점수 변환을 제공합니다. 경험적 로그 변환은 모든 데이터 값이 양수여야 하며, 모든 예측이 양수로 나오도록 보장합니다. 이는 강우량과 같이 음수가 될 수 없는 데이터에 적합합니다.

변형을 적용하면 고유한 무작위 함수 대신 단순 크리깅 모델이 사용됩니다. 이러한 변경으로 인해 매개변수 분포가 너깃, 부분 문턱값, 범위로 변경됩니다.

반베리오그램 유형으로 K-Bessel 또는 K-Bessel 추세 제거를 선택한 경우 K-Bessel의 모양 매개변수에 대한 추가 그래프가 표시됩니다. 적합한 변환의 분포(각 시뮬레이션에 대해 하나씩)를 표시하는 추가 변환 탭도 나타납니다. 반베리오그램 탭과 마찬가지로 변환 분포는 밀도별로 색상이 지정되며 등도수 라인이 제공됩니다.

너깃, 부분 문턱값, 범위, 변환의 분포가 나와 있습니다.
너깃, 부분 문턱값, 범위 변환의 분포

반베리오그램

모든 공간통계 방법은 가까운 것이 멀리 있는 것보다 더 유사하다는 공간적 자기상관을 가정하며, 반베리오그램은 거리가 지남에 따라 이러한 유사성이 감소되는 방법을 정의합니다. 일부 반베리오그램(예시: 지수형)은 유사성이 빠르게 감소한다고 가정합니다. 반면 휘틀 반베리오그램 모델에서는 이러한 유사성이 천천히 감소한다고 가정합니다. 너깃, 범위, 문턱값이 동일하더라도 이러한 두 반베리오그램은 유사성의 감소를 완전히 다른 방식으로 정의합니다. 신뢰할 수 있는 결과를 얻기 위한 핵심은 현상의 동작 방식과 가장 가까운 반베리오그램을 선택하는 것입니다. 사용할 수 있는 반베리오그램 모델은 선택한 변환에 따라 달라집니다.

변환없음으로 설정된 경우 다음 반베리오그램 모델을 사용할 수 있습니다.

  • 거듭제곱(기본값)
  • 선형
  • 박막 스플라인

변환경험적 또는 경험적 로그로 설정된 경우 다음 반베리오그램 모델을 사용할 수 있습니다.

  • 지수형(기본값)
  • 지수형 추세 제거
  • 휘틀
  • 휘틀 추세 제거
  • K-Bessel
  • K-Bessel 추세 제거

3가지 추세 제거 반베리오그램 모델은 1차 추세 제거가 적용된다는 점을 제외하면 추세가 제거되지 않은 모델과 동일합니다. 추세 제거는 계산 속도에 거의 영향을 미치지 않습니다.

각 모델의 장점 및 단점

각 반베리오그램에는 장점과 단점이 있습니다. 반베리오그램을 선택할 때는 계산 시간 및 모델의 유연성(광범위한 데이터셋을 정확하게 수용할 수 있는 능력)을 고려해야 합니다.

  • 거듭제곱
    • 장점: 상대적으로 빠르고 유연합니다. 성능과 정확도의 균형을 맞춘, 일반적으로 안전한 선택입니다.
    • 단점: 다른 선택보다 느리고 유연성이 떨어집니다.
  • 선형
    • 장점: 매우 빠릅니다.
    • 단점: 유연성이 가장 낮은 모델입니다.
  • 박막 스플라인
    • 장점: 매우 빠릅니다. 강력한 추세가 있는 경우 가장 효과적으로 작동합니다.
    • 단점: 특별한 추세가 없는 경우 유연성이 떨어집니다.
  • 지수형
    • 장점: 유연한 변환을 제공합니다. K-Bessel 및 K-Bessel 추세 제거보다 빠릅니다.
    • 단점: 반베리오그램 모양의 유연성이 떨어집니다. 거듭제곱, 선형, 박막 스플라인에 비해 느립니다.
  • 지수형 추세 제거
    • 장점: 유연한 변환을 제공합니다. K-Bessel 및 K-Bessel 추세 제거보다 빠릅니다. 1차 추세를 제거합니다.
    • 단점: 반베리오그램 모양의 유연성이 떨어집니다. 거듭제곱, 선형, 박막 스플라인에 비해 느립니다.
  • 휘틀
    • 장점: 유연한 변환을 제공합니다. K-Bessel 및 K-Bessel 추세 제거보다 빠릅니다.
    • 단점: 반베리오그램 모양의 유연성이 떨어집니다. 거듭제곱, 선형, 박막 스플라인에 비해 느립니다.
  • 휘틀 추세 제거
    • 장점: 유연한 변환을 제공합니다. K-Bessel 및 K-Bessel 추세 제거보다 빠릅니다. 1차 추세를 제거합니다.
    • 단점: 반베리오그램 모양의 유연성이 떨어집니다. 거듭제곱, 선형, 박막 스플라인에 비해 느립니다.
  • K-Bessel
    • 장점: 가장 유연성이 높고 정확합니다.
    • 단점: 계산이 가장 오래 걸립니다.
  • K-Bessel 추세 제거
    • 장점: 가장 유연성이 높고 정확합니다. 1차 추세를 제거합니다.
    • 단점: 계산이 가장 오래 걸립니다.

반베리오그램 선택

어떤 반베리오그램을 선택할지는 대부분의 경우 명확해야 하며, 다음 기준을 따릅니다.

  • 가장 정확한 결과를 얻기 위해 기다릴 의향이 있는 경우 K-Bessel 또는 K-Bessel 추세 제거를 선택해야 합니다. 둘 중 어느 것을 선택할지는 추세의 유무에 따라 결정됩니다.
  • 결과를 빨리 얻어야 하고 정확도가 약간 떨어지는 것을 감수할 수 있는 경우 선형 또는 박막 스플라인을 선택해야 합니다. 추세가 없거나 약하다면 선형을 선택하는 것이 좋습니다.
  • 정확도와 속도가 균형 잡혀야 한다면 거듭제곱을 선택하는 것이 좋습니다.
  • 변환이 필요하지만 결과가 나오기까지 오래 기다릴 수 없는 경우 지수형이나 휘틀(또는 지수형 추세 제거나 휘틀 추세 제거)을 선택해야 합니다. Geostatistical Wizard(아래에 설명되어 있음)의 경험적 반베리오그램과 가장 가깝게 일치하는 반베리오그램을 선택해야 합니다. 교차 검증도 고려해야 합니다.

지수형, 지수형 추세 제거, 휘틀, 휘틀 추세 제거 중에서 선택하려는 경우 경험적 반베리오그램에 시각적으로 가장 잘 맞는 반베리오그램을 선택해야 합니다(아래 그래픽의 파란색 십자 표시). 원칙적으로는 경험적 반베리오그램이 반베리오그램 스펙트럼의 중간에 위치해야 합니다. 예를 들어 다음 그래픽에서 파란색 십자 표시는 반베리오그램 스펙트럼의 중간에 위치하지 않습니다(대부분 스펙트럼 위쪽에 위치).

경험적 반베리오그램이 스펙트럼의 중간에 위치하지 않습니다.
경험적 반베리오그램이 스펙트럼의 중간에 위치하지 않습니다.

대신 파란색 십자가가 반베리오그램 스펙트럼의 중간에 위치하는 다음과 같은 반베리오그램이 더 좋습니다.

경험적 반베리오그램이 스펙트럼의 중간에 위치합니다.
경험적 반베리오그램이 스펙트럼의 중간에 위치합니다.

지리 좌표 데이터의 거리 계산

입력 데이터에 지리 좌표계가 사용된 경우 거리는 현형 거리를 사용하여 계산됩니다. 두 포인트 간의 현형 거리는 두 포인트를 연결하는 직선 거리입니다. 이 라인은 지구 표면을 따라 이동하지 않고 지구를 통과하여 이동합니다. 이 모습을 머릿속에 그려 보려면 투명한 구를 통해 손전등을 비추는 것을 상상하면 됩니다. 빛이 구에 들어오고 나가는 포인트 간의 광선 길이가 이러한 두 포인트 간 현형 거리가 됩니다. 측지 거리를 사용하는 것과 비교할 때 현형 거리를 사용하는 것의 주요 이점은 계산이 덜 복잡하다는 것입니다. 또한 회전 타원체에서 크리깅을 수행하는 작업의 경우 제한된 이론만 존재합니다.

비고:

현형 거리는 십진도수(DD) 30도를 초과하는 거리에 대한 측지 거리의 정확한 근사치가 아닙니다. 따라서 검색 반경은 십진도수 15도를 초과할 수 없으며(따라서 직경은 30도를 초과할 수 없음), 십진도수 15도 이내에 인접 피처가 없는 모든 위치는 NoData로 계산됩니다. 또한 일부 반베리오그램 모델의 경우 추세 제거를 수행하려면 각 부분집합에 평면을 맞춰야 합니다. 이 평면은 범위가 십진도수 30도를 초과하는 부분집합의 경우 정확하게 생성될 수 없습니다. 따라서 다음 반베리오그램 모델의 경우 개별 부분집합의 범위가 30도로 제한됩니다.

  • 박막 스플라인
  • 지수형 추세 제거
  • 휘틀 추세 제거
  • K-Bessel 추세 제거

이전 버전의 ArcGIS에서는 지리 좌표를 사각형 좌표로 처리하고 포인트 간의 유클리드 거리를 계산했습니다. 그러나 1도x1도 셀은 실제로는 사각형이 아니기 때문에 이 거리는 왜곡됩니다. 이러한 왜곡은 적도에서 북쪽 또는 남쪽으로 멀리 이동할수록 심해집니다.

경험적 베이지안 크리깅을 위한 추가 매개변수

경험적 베이지안 크리깅은 다른 크리깅 방법에는 없는 세 가지 매개변수를 사용합니다.

  • 각 로컬 모델의 최대 포인트 수 - 각 부분집합의 포인트 수를 지정합니다. 부분집합의 크기가 클수록 EBK가 계산하는 데 더 오래 걸립니다.
  • 로컬 모델 영역 중첩 계수 - 부분집합 간의 중첩 정도를 지정합니다. 각 입력 포인트는 여러 부분집합에 속할 수 있으며, 중첩 계수는 각 포인트가 속하게 될 부분집합의 평균 수를 지정합니다. 예를 들어, 중첩 계수가 1.5이면 포인트의 약 절반이 하나의 부분집합에서 사용되고 나머지 절반은 두 개의 부분집합에서 사용됩니다. 중첩 계수 값이 높으면 결과 표면이 더 매끄러워지지만 처리 시간도 늘어납니다.
  • 시뮬레이션된 반베리오그램 수 - 각 부분집합에 대해 시뮬레이션할 반베리오그램의 수를 지정합니다. 시뮬레이션이 많을수록 예측이 더 정확해지지만 처리 시간도 증가합니다.

참조

  • Chilès, J-P., P. Delfiner(1999). 지리 통계: 공간 불확실성 모델링 4장 New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "경험적 베이지안 크리깅", ArcUser Fall 2012.
  • Krivoruchko K. (2012). "경험적 베이지안 크리깅을 사용한 오염 모델링", ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). "비정상 및 적정의 비가우시안 데이터를 위한 실용적인 베이지안 크리깅," Mathematics of Planet Earth. International Association for Mathematical Geosciences의 제15 연례 컨퍼런스 회의록, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., G. Spöck(2007). "베이지안 크리깅 방법이 필요한 이유 및 구현 방법," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.