O que é Krigagem Bayesiana Empírica?

Disponível com ArcGIS Image for ArcGIS Online.

A krigagem Bayesiana Empírica (EBK) é um método de interpolação de estatística geográfica que automatiza os aspectos mais difíceis da construção de um modelo de krigagem válido. Outros métodos de krigagem no Geostatistical Analyst exigem que você ajuste manualmente os parâmetros para receber resultados precisos, mas a EBK calcula automaticamente esses parâmetros por meio de um processo de subconjunto e simulações.

A krigagem Bayesiana Empírica também difere de outros métodos de krigagem por contabilizar o erro introduzido pela estimativa do semivariograma subjacente. Outros métodos de krigagem calculam o semivariograma a partir de locais de dados conhecidos e usam esse único semivariograma para fazer previsões em locais desconhecidos; esse processo assume implicitamente que o semivariograma estimado é o verdadeiro semivariograma para a região de interpolação. Ao não levar em consideração a incerteza da estimativa do semivariograma, outros métodos de krigagem subestimam os erros padrão de previsão.

A krigagem Bayesiana Empírica é oferecida no Assistente de Geoestatística e como uma ferramenta de geoprocessamento.

Vantagens e desvantagens

A krigagem Bayesiana Empírica tem uma série de vantagens e desvantagens em comparação com outros métodos de interpolação.

Vantagens

  • Requer modelagem interativa mínima.
  • Erros padrão de previsão são mais precisos do que outros métodos de krigagem.
  • Permite previsões precisas de dados moderadamente não estacionários.
  • Mais preciso do que outros métodos de krigagem para pequenos conjuntos de dados.

Desvantagens

  • O tempo de processamento aumenta rapidamente conforme o número de pontos de entrada, o tamanho do subconjunto ou o aumento do fator de sobreposição. A aplicação de uma transformação também aumentará o tempo de processamento, principalmente se K-Bessel ou K-Bessel Destendenciado for escolhido para o tipo de modelo de semivariograma. Esses parâmetros são descritos nas seções subsequentes deste tópico.
  • O processamento é mais lento do que outros métodos de krigagem, especialmente quando a saída é raster.
  • Cokrigagem e correções anisotrópicas não estão disponíveis.
  • A transformação Log Empírica é particularmente sensível a saídas. Se você usar essa transformação com dados que contêm valores discrepantes, poderá receber previsões com ordens de magnitude maiores ou menores que os valores de seus pontos de entrada. Este parâmetro é descrito na seção Transformações abaixo.

Estimativa do semivariograma

Ao contrário de outros métodos de krigagem (que usam mínimos quadrados ponderados), os parâmetros do semivariograma em EBK são estimados usando máxima verossimilhança restrita (REML). Devido às limitações computacionais do REML para grandes conjuntos de dados, os dados de entrada são primeiro divididos em subconjuntos sobrepostos de um tamanho especificado (o padrão é 100 pontos por subconjunto). Em cada subconjunto, os semivariogramas são estimados da seguinte maneira:

  1. Um semivariograma é estimado a partir de dados do subconjunto.
  2. Usando este semivariograma como modelo, novos dados são simulados incondicionalmente em cada um dos locais de entrada no subconjunto.
  3. Um novo semivariograma é estimado a partir de dados simulados.
  4. As etapas 2 e 3 são repetidas um número especificado de vezes. A cada repetição, o semivariograma estimado na etapa 1 é usado para simular um novo conjunto de dados nos locais de entrada, e os dados simulados são usados para estimar um novo semivariograma.

Esse processo cria um grande número de semivariogramas para cada subconjunto e, quando eles são plotados juntos, o resultado é uma distribuição empírica de semivariogramas sombreados por densidade (quanto mais escura a cor azul, mais semivariogramas passam por essa região). As semivariâncias empíricas são representadas por cruzes azuis. Além disso, a mediana da distribuição é colorida com uma linha vermelha contínua, e os percentis 25 e 75 são coloridos com linhas tracejadas vermelhas, conforme mostrado abaixo.

Semivariogramas simulados
Os semivariogramas simulados são mostrados para um subconjunto.

O número de semivariogramas simulados por subconjunto é padronizado para 100, e cada um desses semivariogramas é uma estimativa do verdadeiro semivariograma para o subconjunto.

Para cada local de predição, a predição é calculada usando uma nova distribuição empírica de semivariograma que é gerada pela fusão dos semivariogramas individuais das distribuições de semivariograma na vizinhança do ponto. Por exemplo, se um local de previsão tiver vizinhos em três subconjuntos (conforme especificado pela vizinhança de pesquisa), a previsão será calculada usando os semivariogramas simulados de cada um dos três subconjuntos. Os semivariogramas de cada subconjunto são ponderados pelo número de vizinhos que contribuem para a previsão. Isso permite que os subconjuntos que contribuem com mais vizinhos tenham mais influência no valor previsto.

Quando a krigagem Bayesiana Empírica é executada no Assistente de Geoestatística, é possível visualizar os subconjuntos que foram usados para calcular o valor previsto. Na imagem abaixo, o local de previsão é o centro da mira na superfície de visualização. O pequeno círculo ao redor do retículo é a vizinhança de busca, e os dois grandes polígonos sobrepostos mostram os pontos contidos nos dois subconjuntos que foram usados para calcular a previsão. Neste exemplo, os pontos no meio do mapa estão contidos em ambos os subconjuntos. Você pode ativar e desativar essas visualizações de polígonos com o botão indicado pela seta:

Previsão com subconjuntos
As previsões são geradas a partir de subconjuntos vizinhos.

Modelo de krigagem

A krigagem Bayesiana Empírica difere de outros métodos de krigagem no Geostatistical Analyst por usar uma função aleatória intrínseca como modelo de krigagem.

Outros modelos de krigagem assumem que o processo segue uma média geral (ou tendência especificada) com variações individuais em torno dessa média. Grandes desvios são puxados de volta para a média, então os valores nunca se desviam muito. No entanto, a EBK não assume uma tendência em direção a uma média geral; portanto, grandes desvios têm a mesma probabilidade de aumentar ou diminuir. Portanto, as funções aleatórias intrínsecas corrigem inerentemente as tendências nos dados.

Modelo de semivariograma

Para uma determinada distância h, a krigagem Bayesiana Empírica suporta os seguintes semivariogramas:

  • Potência
    • γ(h)= Efeito Pepita + b|h|α
  • Linear
    • γ(h)= Efeito Pepita + b|h|
  • Curva Paramétrica de Linha Fina
    • γ(h)= Efeito Pepita + b|h2|*ln(|h|)

O Efeito Pepita e b (inclinação) devem ser positivos e α (potência) deve estar entre 0.25 e 1.75. Sob essas restrições, os parâmetros são estimados usando REML. Esses modelos de semivariograma não têm um parâmetro de faixa ou limiar, pois as funções não têm limite superior.

Na EBK é possível analisar a distribuição empírica das estimativas dos parâmetros, pois muitos semivariogramas são estimados em cada localidade. Clicar na guia Efeito Pepita, Inclinação ou Potência exibe as distribuições dos parâmetros associados. O gráfico a seguir mostra as distribuições dos parâmetros do semivariograma para os semivariogramas simulados, mostrados no gráfico anterior:

Distribuições de efeito pepita, inclinação e potência são mostradas.
Distribuições de efeito pepita, inclinação e potência

Ao clicar em um local diferente na superfície de visualização, a distribuição do semivariograma e as distribuições dos parâmetros do semivariograma são exibidas para o novo local. Se as distribuições não mudarem significativamente no domínio dos dados, isso sugere que os dados são globalmente estacionários. As distribuições devem mudar suavemente em todo o domínio de dados; no entanto, se você observar grandes mudanças nas distribuições em pequenas distâncias, aumentar o valor do Fator de Sobreposição pode suavizar as transições das distribuições.

Anotação:

Conforme descrito na seção Transformações abaixo, a aplicação de uma transformação altera o modelo de krigagem de uma função aleatória intrínseca para um modelo de krigagem simples, e vários modelos de semivariogramas adicionais ficam disponíveis.

Transformações

A krigagem Bayesiana Empírica oferece a transformação de pontuação normal de inclinação multiplicativa com a opção de duas distribuições básicas: Empírica e Log Empírica. A transformação Log Empírica exige que todos os valores de dados sejam positivos e garantirá que todas as previsões sejam positivas. Isso é apropriado para dados como precipitação que não podem ser negativos.

Se uma transformação for aplicada, um modelo de krigagem simples será usado em vez de uma função aleatória intrínseca. Devido a essas alterações, as distribuições do parâmetro mudam para Efeito Pepita, Limiar Parcial e Intervalo.

Se K-Bessel ou K-Bessel Destendenciado for escolhido para o Tipo de semivariograma, um gráfico adicional para o parâmetro Forma no K-Bessel será exibido. Uma guia Transformação adicional também aparece que exibe a distribuição das transformações ajustadas (uma para cada simulação). Assim como na guia Semivariogramas, a distribuição da transformação é colorida pela densidade e as linhas quantílicas são fornecidas.

Distribuições de efeito pepita, limiar parcial, intervalo e transformação são mostradas.
Distribuições de efeito pepita, limiar parcial, intervalo e transformação

Semivariogramas

Todos os métodos geoestatísticos assumem a autocorrelação espacial, que as coisas mais próximas são mais semelhantes do que as coisas mais distantes, e o semivariograma define como essa semelhança diminui com a distância. Alguns semivariogramas (exponencial, por exemplo) assumem que a similaridade diminui rapidamente. O modelo de semivariograma Whittle, por outro lado, assume que a similaridade diminui lentamente. Mesmo com o mesmo efeito pepita, intervalo e limiar, esses dois semivariogramas definirão a similaridade decrescente de maneiras totalmente diferentes. A chave para obter resultados confiáveis é escolher o semivariograma que mais se aproxima do comportamento do seu fenômeno. Os modelos de semivariograma disponíveis para você dependem de sua opção de transformação.

Se a Transformação for definida como Nenhuma, os seguintes modelos de semivariograma estarão disponíveis:

  • Potência (padrão)
  • Linear
  • Curva Paramétrica de Linha Fina

Se a Transformação for definida como Empírica ou Log Empírica, os seguintes modelos de semivariograma estarão disponíveis:

  • Exponencial (padrão)
  • Exponencial Destendenciado
  • Whittle
  • Whittle Destendenciado
  • K-Bessel
  • K-Bessel Destendenciado

Os três modelos de semivariograma sem tendência são os mesmos que suas contrapartes sem tendência, exceto que uma remoção de tendência de primeira ordem será aplicada. A remoção da tendência tem um efeito insignificante na velocidade do cálculo.

Vantagens e desvantagens de cada modelo

Cada semivariograma tem vantagens e desvantagens. Ao escolher um semivariograma, o tempo de cálculo e a flexibilidade do modelo (capacidade de acomodar com precisão uma ampla gama de conjuntos de dados) devem ser levados em consideração:

  • Potência
    • Vantagens: Relativamente rápido e flexível. Geralmente uma opção segura que equilibra desempenho e precisão.
    • Desvantagens: Menos flexível e mais lento do que outras opções.
  • Linear
    • Vantagens: Muito rápido.
    • Desvantagens: Modelo menos flexível.
  • Curva Paramétrica de Linha Fina
    • Vantagens: Muito rápido. Funciona melhor quando fortes tendências estão presentes.
    • Desvantagens: Menos flexível, especialmente quando nenhuma tendência está presente.
  • Exponencial
    • Vantagens: Oferece uma transformação flexível. Mais rápido que K-Bessel e K-Bessel Destendenciado.
    • Desvantagens: A forma do semivariograma não é flexível. Lento em comparação com Potência, Linear e Curva Paramétrica de Linha Fina.
  • Exponencial Destendenciado
    • Vantagens: Oferece uma transformação flexível. Mais rápido que K-Bessel e K-Bessel Destendenciado. Remove a tendência de primeira ordem.
    • Desvantagens: A forma do semivariograma não é flexível. Lento em comparação com Potência, Linear e Curva Paramétrica de Linha Fina.
  • Whittle
    • Vantagens: Oferece uma transformação flexível. Mais rápido que K-Bessel e K-Bessel Destendenciado.
    • Desvantagens: A forma do semivariograma não é flexível. Lento em comparação com Potência, Linear e Curva Paramétrica de Linha Fina.
  • Whittle Destendenciado
    • Vantagens: Oferece uma transformação flexível. Mais rápido que K-Bessel e K-Bessel Destendenciado. Remove a tendência de primeira ordem.
    • Desvantagens: A forma do semivariograma não é flexível. Lento em comparação com Potência, Linear e Curva Paramétrica de Linha Fina.
  • K-Bessel
    • Vantagens: Mais flexível e preciso.
    • Desvantagens: Leva mais tempo para calcular.
  • K-Bessel Destendenciado
    • Vantagens: Mais flexível e preciso. Remove a tendência de primeira ordem.
    • Desvantagens: Leva mais tempo para calcular.

Escolhendo um semivariograma

A escolha do semivariograma deve ser clara na maioria das vezes, com base nos seguintes critérios:

  • Se você estiver disposto a esperar para obter os resultados mais precisos, K-Bessel ou K-Bessel Destendenciado deverá ser escolhido. A presença ou ausência de tendência deve determinar qual deles.
  • Se você precisar de resultados rapidamente e estiver disposto a sacrificar alguma precisão, Linear ou Curva Paramétrica de Linha Fina deve ser escolhido. Se não houver tendência ou a tendência for fraca, Linear é uma opção melhor.
  • Se você precisar de um equilíbrio entre precisão e velocidade, Potência é uma boa opção.
  • Se uma transformação for necessária, mas não for possível esperar muito tempo pela saída, deve-se escolher Exponencial ou Whittle (ou suas contrapartes sem tendência). Você deve escolher aquele que melhor corresponda às semivariâncias empíricas no Assistente de Geoestatística (descrito abaixo). Validação Transversal também deve ser levado em consideração.

Se você estiver tentando escolher entre Exponencial, Whittle e suas contrapartes sem tendência, você deverá escolher o semivariograma que forneça o melhor ajuste visual para as semivariâncias empíricas (as cruzes azuis nos gráficos abaixo). Idealmente, as semivariâncias empíricas devem cair no meio do espectro do semivariograma. Por exemplo, no gráfico a seguir, as cruzes azuis não ficam no meio do espectro do semivariograma (a maioria fica no topo do espectro):

As semivariâncias empíricas não ficam no meio do espectro.
As semivariâncias empíricas não ficam no meio do espectro.

Em vez disso, o seguinte semivariograma deve ser preferido, pois as cruzes azuis ficam no meio do espectro do semivariograma:

As semivariâncias empíricas ficam no meio do espectro.
As semivariâncias empíricas ficam no meio do espectro.

Cálculos de distância para dados em coordenadas geográficas

Se os seus dados de entrada estiverem em um sistema de coordenadas geográficas, as distâncias serão calculadas usando a distância cordal. A distância cordal entre quaisquer dois pontos é a distância em linha reta que conecta os dois pontos. Esta linha passará pela Terra e não ao longo de sua superfície. Para visualizar isso, imagine uma lanterna brilhando através de uma esfera transparente. O comprimento do feixe de luz entre o ponto onde a luz entra e sai da esfera é a distância cordal entre esses dois pontos. O principal benefício de usar a distância cordal sobre a distância geodésica é que é menos intensivo computacionalmente. Além disso, há apenas uma teoria limitada sobre a realização de krigagem em esferóides.

Anotação:

Como as distâncias cordais não são boas aproximações de distâncias geodésicas para distâncias acima de 30 graus decimais, o raio de pesquisa não pode exceder 15 graus decimais (portanto, o diâmetro não pode exceder 30 graus) e qualquer local que não tenha vizinhos dentro de 15 graus decimais será calculado como NoData. Além disso, alguns modelos de semivariograma exigem o ajuste de um plano para cada subconjunto para realizar a remoção de tendência. Este plano não pode ser criado com precisão para subconjuntos cuja extensão exceda 30 graus decimais, portanto, a extensão de subconjuntos individuais é restrita a 30 graus para os seguintes modelos de semivariograma:

  • Curva Paramétrica de Linha Fina
  • Exponencial Destendenciado
  • Whittle Destendenciado
  • K-Bessel Destendenciado

As versões anteriores do ArcGIS tratavam as coordenadas geográficas como coordenadas quadradas e calculavam a distância Euclidiana entre os pontos. No entanto, uma célula de 1 grau por 1 grau não é realmente um quadrado, então essa distância será distorcida. Essa distorção piora à medida que você se move mais para o Norte ou para o Sul do Equador.

Parâmetros adicionais para krigagem Bayesiana Empírica

A krigagem Bayesiana Empírica emprega três parâmetros que não aparecem em outros métodos de krigagem:

  • Número máximo de pontos em cada modelo local—Especifica o número de pontos em cada subconjunto. Quanto maior o tamanho do subconjunto, mais tempo a EBK levará para ser calculada.
  • Fator de sobreposição da área do modelo local—Especifica o grau de sobreposição entre os subconjuntos. Cada ponto de entrada pode cair em vários subconjuntos, e o fator de sobreposição especifica o número médio de subconjuntos em que cada ponto cairá. Por exemplo, um fator de sobreposição de 1.5 significa que cerca de metade dos pontos serão usados em um subconjunto e metade será usada em dois subconjuntos. Um valor mais alto para o fator de sobreposição torna a superfície de saída mais suave, mas também aumenta o tempo de processamento.
  • Número de semivariogramas simulados—Especifica o número de semivariogramas que serão simulados para cada subconjunto. Mais simulações farão com que as previsões sejam mais precisas, mas o tempo de processamento também aumentará.

Referências

  • Chilès, J-P. and P. Delfiner (1999). Capítulo 4 de Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.