Uma operação de estatística zonal é aquela que calcula estatísticas sobre valores de células de um raster (um raster de valor) dentro das zonas definidas por outro conjunto de dados. Há duas ferramentas que calculam estatísticas por zonas, Estatística Zonal e Estatística Zonal como Tabela.
A ferramenta Estatística Zonal calcula apenas uma estatística por vez e cria uma saída raster. Este valor torna-se o valor da célula da saída raster para as células correspondentes a essa zona. Se uma feição de zona tiver zonas sobrepostas, a estatística será calculada para apenas uma zona, pois uma célula no raster de saída pode representar apenas um valor.
A ferramenta Estatística Zonal como Tabela calcula uma ou várias estatísticas usando subconjuntos pré-definidos, ou todas as estatísticas e cria uma saída de tabela. Assim como na Estatística Zonal, a estatística resultante é um valor único para cada zona. Há um registro por zona na tabela de saída e os valores estatísticos são relatados em campos pré-definidos. Se a entrada da zona for uma feição e tiver zonas sobrepostas, as estatísticas serão calculadas para todas as zonas e a saída será relatada em registros individuais para cada zona.
A camada de zona de entrada define a forma, os valores e as localizações das zonas, que podem ser raster ou feição. Durante a operação zonal, os dados de feição são primeiro convertidos em um raster. Nos dados raster, uma zona são todas as células que têm o mesmo valor, sejam elas contíguas ou não. Cada zona deve ter uma identidade única e se for um raster, deve ter um tipo de dados inteiro. Qualquer campo inteiro ou string de valores únicos na entrada da zona pode ser especificado para definir as zonas.
O raster do valor de entrada contém os valores usados no cálculo da estatística de saída para cada zona. Pode ser do tipo inteiro ou flutuante.
Na ilustração a seguir, a média da entrada do valor é identificada para cada zona:
Como as células em um raster de valor são identificadas para uma zona de raster
Para calcular uma estatística, a ferramenta primeiro extrai valores de célula do raster de valor para todas as células que se enquadram em cada zona. Essa identificação de células em um raster de valor dentro de uma zona é feita sobrepondo zonas no raster de valor. Quando as entradas de zona e valor são rasters do mesmo tamanho de célula e as células estão alinhadas, os valores das células do raster de valor que se sobrepõe aos das zonas são extraídos e as estatísticas são calculadas.
Quando o tamanho da célula ou o alinhamento do raster de zona é diferente daquele do raster de valor, as células entre os rasters de zona e de valor não podem ser perfeitamente sobrepostas umas às outras. A ferramenta então ajusta internamente um ou ambos os rasters para obter essa sobreposição perfeita de células. Este ajuste é feito seguindo algumas regras simples. Quando o tamanho da célula do raster de zona e o raster de valor forem diferentes, o tamanho da célula de saída será o valor Máximo de Entradas e o raster de valor será usado como raster de ajuste internamente. Se o tamanho da célula for o mesmo, mas as células não estiverem alinhadas, o raster de valor será usado como raster de ajuste internamente. Qualquer um desses casos acionará uma reamostragem interna antes que a operação zonal seja realizada.
Como as células em um raster de valor são identificadas para uma zona de feição
Uma operação zonal é fundamentalmente uma análise raster realizada em dois rasters, no qual um é a zona e o outro é o valor. Se as zonas forem definidas por feições, ocorrerá uma conversão interna de feições para raster. A conversão interna para uma zona de polígono usa o método do centro da célula na ferramenta Converter Feição para Raster para rasterizar a entrada usando o tamanho da célula e o raster de ajuste do raster de valor.Isso pode levar a um resultado inesperado de zonas ausentes na saída quando nenhum dos centros de célula da grade de rasterização cai dentro da zona de feição. Isso pode ocorrer com zonas menores que a área de uma célula do raster de zona interna, como também, com zonas maiores.
No exemplo abaixo, a figura (1) representa a zona de feição de entrada, o raster de valor de entrada e seu centro de célula. Os recursos de entrada têm três zonas (formas amarelas), onde o seguinte é verdadeiro:
- zone1 é maior do que uma célula individual.
- zone2 e zone3 são menores que uma célula.
- Um centro de célula cai fora de zone2, mas dentro de zone3.
Durante o processo de rasterização da zona na figura (2), como nenhum centro de célula cai dentro de zone1 e zone2, apenas zone3 é rasterizado, e as outras duas zonas essencialmente desaparecem.
Para evitar que as zonas desapareçam de sua saída, certifique-se que cada zona contenha um ou mais centros de célula do raster de valor. Uma maneira de fazer isso é criar mais centros de célula especificando um tamanho de célula menor no ambiente. Por padrão, o tamanho da célula de análise é o do raster de valor. No entanto, se você especificar um tamanho de célula no ambiente de análise menor do que o raster de valor, permitirá que mais zonas sejam capturadas, como demonstra a figura (3) acima. Lembre-se que especificar um tamanho de célula menor gerará um raster de saída maior. A saída de resolução mais alta não será necessariamente um resultado de alta qualidade como parece, já que o detalhe adicional não existe realmente no raster de valor de entrada.
Após uma zona de feição ser convertida em uma zona de raster usando o mesmo tamanho de célula e alinhamento de célula do raster de valor, a extração de células de um raster de valor dentro de uma zona será feita sobrepondo as zonas no raster de valor.
Calcular estatísticas aritméticas e circulares
Calcular uma média somando todos os valores de célula e, em seguida, dividindo pelo número de células pode funcionar com dados como elevação. No entanto, se os seus dados representarem quantidades cíclicas, como aspecto (direção da bússola de 0 graus a 360 graus em graus) ou horas de um dia (0 a 24 horas), o cálculo da média aritmética produzirá uma saída incorreta, pois o valor mínimo e o valor máximo representam a mesma quantidade. Para esse tipo de dados, você deve calcular estatísticas circulares.
Por exemplo, se você estiver calculando a média de dois valores de célula, 0 graus e 360 graus, a média aritmética será de 180 graus. Isso é incorreto, pois 0 graus e 360 graus representam a mesma direção da bússola. As estatísticas corretas podem ser obtidas calculando a média circular, que será 0 grau.
Você pode especificar o cálculo de estatísticas circulares selecionando o parâmetro Calcular Estatísticas Circulares (circular_calculation = "CIRCULAR" no Python). Ao calcular estatísticas circulares, preste atenção aos valores mais baixos e mais altos para representar os dados cíclicos. O valor mais baixo é assumido como 0. O valor mais alto pode ser especificado como o parâmetro Valor de Quebra Circular (circular_wrap_value in Python). O padrão para este parâmetro é 360.
Dependendo do tipo de seus dados, selecione o tipo de cálculo de estatística e um valor de quebra circular apropriado para estatísticas circulares, para obter a saída correta. As seguintes estatísticas circulares são suportadas: Média, Majoria, Minoria, Desvio Padrão e Variedade.
Calcular estatística zonal com rasters multidimensionais
Os dados raster multidimensionais representam dados em vários momentos e em várias profundidades ou alturas. Este tipo de dados é comumente usado em ciências atmosféricas, oceanográficas e terrestres e é observado por plataformas de monitoramento, capturados por satélites ou gerados a partir de modelos de simulação numérica onde os dados são processados, agregados ou interpolados usando várias técnicas estatísticas.
As ferramentas Estatística Zonal e Estatística Zonal como Tabela suportam dados raster de valor e zona multidimensional como entrada. As estatísticas zonais são calculadas para todas as partes de um raster multidimensional quando o parâmetro Processar como Multidimensional é marcado (ALL_SLICES no parâmetro process_as_multidimensional no Python). Se o parâmetro Processar como Multidimensional estiver desmarcado (CURRENT_SLICES no Python), apenas a parte atual será processada.
Exemplos da análise de estatística zonal em dados multidimensionais incluem o seguinte:
- Um meteorologista deseja obter informações sobre o movimento do furacão e a distribuição da precipitação ao longo da trajetória do furacão em um determinado período. Usando processamento multidimensional na ferramenta Estatística Zonal, o meteorologista pode encontrar a precipitação média para cada parte do tempo para as zonas de furacões que mudaram ao longo do tempo.
- Um ecologista deseja observar a distribuição de eventos extremos a partir do máximo de dados diários de precipitação dos últimos 30 anos para uma determinada bacia hidrográfica. A ferramenta Estatística Zonal como Tabela com o tipo de estatística de percentil para uma lista de valores de percentil pode ser usada para observar a distribuição do máximo de dados diários de precipitação para os dados da série temporal ao processar como multidimensional.
Saída multidimensional da estatística zonal
Quando você especificar que a ferramenta Estatística Zonal deve processar a entrada como multidimensional, a ferramenta criará uma saída raster multidimensional. A operação zonal ocorre parte por parte entre as partes do raster de zona e as partes da variável atual do raster de valor. Os valores estatísticos calculados são armazenados em uma variável multidimensional cujo nome é criado combinando o nome da variável do raster de valor e a estatística que está sendo calculada. O número de dimensões da variável de saída e o número de partes dependem da natureza específica das entradas do raster de valor e zona.
Para Estatística Zonal como Tabela, quando você especifica que os dados devem ser processados como multidimensionais, ela gerará uma saída de tabela plana com as estatísticas calculadas para todas as zonas e partes. Esta tabela incluirá campos adicionais para indicar o nome da variável, os nomes das dimensões e seus valores, como também, as estatísticas que serão calculadas para cada zona.
Como o processamento multidimensional ocorre parte por parte entre os rasters de valor e zona, o número de partes no raster multidimensional de saída da ferramenta Estatística Zonal e o número de registros na tabela de saída da ferramenta Estatística Zonal como Tabela dependerá do tipo de rasters de entrada e número de partes neles. As subseções a seguir descrevem exemplos.
Rasters de valor e zona multidimensional com as mesmas dimensões
Encontrar a salinidade máxima em várias profundidades do oceano para várias faixas de temperatura em uma profundidade correspondente exigirá a realização de estatísticas zonais com uma zona multidimensional representando zonas de temperatura e um raster de valor multidimensional representando a salinidade. A operação zonal será executada para cada parte de zona com a parte correspondente do raster de valor. O raster multidimensional de saída terá o mesmo número de partes que o raster de valor.
Na ilustração abaixo, as variáveis nos rasters de valor e zona têm as mesmas três dimensões, x, y e d, e o mesmo número de partes nos valores de dimensão d0, d1 e d2. A variável no raster multidimensional de saída também terá as mesmas três dimensões, x, y e d, e o mesmo número de partes nos valores de dimensão d0, d1 e d2.
O número total de registros na saída Estatística Zonal como Tabela é determinado pela adição do número de zonas em cada parte. Se o número de zonas nas profundidades d0, d1 e d2 forem 5, 4 e 3, respectivamente, o número total de registros será 12 (5 + 4 + 3 = 12).
Rasters de valor e zona multidimensional com diferentes dimensões
Um local adequado e uma janela de tempo para implantar ativos, como veículos operados remotamente (ROVs), podem ser determinados realizando estatísticas zonais com uma zona multidimensional representando potenciais locais para ROVs em diferentes momentos e raster de valor multidimensional, como a saída do modelo Hybrid Coordinate Ocean Model (HYCOM ) que representa a corrente oceânica em diferentes profundidades e tempos.
A operação zonal será realizada para cada parte do raster de zona com cada parte do raster de valor. O número de partes no raster multidimensional de saída é determinado pela multiplicação do número de partes no raster de zona pelo número de partes no raster de valor.
Na ilustração abaixo, a variável no raster de zona tem três dimensões, x, y e d, e três partes em valores de dimensão, d0, d1 e d2. A variável no raster de valor tem três dimensões, x, y e t, e duas partes em valores de dimensão, t0 e t1. A variável no raster multidimensional de saída também terá quatro dimensões - x, y, d e t.
O número total de partes na saída da ferramenta Estatística Zonal é determinado pela multiplicação do número de profundidades no raster da zona e o número de intervalos de tempo no raster de valor, que neste caso, será 6 (3 profundidades x 2 vezes = 6 O número total de registros na saída Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas em cada parte. Se o número de zonas for 5, o número total de registros neste caso será 30 (5 zonas x 3 profundidade x 2 vezes = 30).
Somente raster de valor multidimensional
Encontrar a temperatura máxima dentro de cada condado para cada dia do ano exigirá a realização de estática zonal com um raster de valor multidimensional representando a temperatura diária e um raster de zona representando condados. A operação zonal será realizada para cada parte do raster de valor usando o mesmo raster de zona. O raster multidimensional de saída terá o mesmo número de partes que o raster de valor.
Na ilustração abaixo, as variáveis no raster de valor tem três dimensões, x, y e t, e três partes em valores de dimensão, t0, t1 e t2. A variável no raster multidimensional de saída também terá as mesmas três dimensões, x, y e t, e o mesmo número de partes em valores de dimensão, t0, t1 e t2.
O número total de registros na saída Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas e o número de partes no raster de valor. Se o número de zonas for 5, o número total de registros será 15 (5 x 3 =15).
Somente raster de zona multidimensional
Encontrar a média da precipitação máxima decadal dentro de cada categoria da zona de várzea variando no tempo que muda ao longo do tempo para o planejamento ecológico da paisagem exigirá a realização de estática zonal com um raster de zona multidimensional representando zonas de várzea e um raster de valor representando a precipitação máxima decadal. A operação zonal será realizada para cada parte do raster de zona usando o mesmo raster de valor. O raster multidimensional de saída terá o mesmo número de partes que o raster de zona.
Na ilustração abaixo, as variáveis no raster de valor tem três dimensões, x, y e t, e três partes em valores de dimensão, t0, t1 e t2. A variável no raster multidimensional de saída também terá as mesmas três dimensões, x, y e t, e o mesmo número de partes em valores de dimensão, t0, t1 e t2.
O número total de registros na saída Estatística Zonal como Tabela é determinado pela multiplicação do número de zonas e o número de partes no raster de zona. Se o número de zonas for 5, o número total de registros será 15 (5 x 3 =15).
Estatística
Os tipos de estatísticas disponíveis para computar estatísticas zonais estão listados abaixo com detalhes adicionais e uma ilustração gráfica mostrando os resultados para cada opção em uma entrada de exemplo.
Maioria
- O valor que ocorre com mais frequência em cada zona é atribuído a todas as células dessa zona.
- Quando há um empate para o valor de maioria em uma zona, a saída para todas as localizações de células na zona é atribuída ao menor dos valores empatados.
Exemplo:
Máximo
- O valor mais alto em cada zona é atribuído a todas as células dessa zona.
Exemplo:
Média
- A média dos valores em cada zona é atribuída a todas as células de saída nessa zona.
- A fórmula da média aritmética é a seguinte:
Onde:
- x̄ = média
- xi = valores observados
- N = número de observações
- A fórmula da média circular é a seguinte:
Onde:
- x̄ = média circular
- xi = valores observados
- N = número de observações
No caso degenerado onde ambos Σsin xi e Σcos xi são iguais a zero, o valor -1 espacial é usado, indicando que a média circular não está bem definida.
Exemplo:
Mediana
- A mediana dos valores em cada zona é atribuída a todas as células de saída nessa zona.
- Estes valores do tipo de estatística são calculados usando o método Q1 de Hyndman e Fan (1996). Quando dois valores classificados estão igualmente próximos do valor mediano de destino, o menor dos dois valores é escolhido.
- Para calcular a mediana, todas as células em uma zona são classificadas. Se houver n células na zona e n for ímpar, o valor do meio ((n+1)/2) será gravado em cada célula na zona. Se houver um número par de células, o valor (n/2) será emitido.
Exemplo:
Mínimo
- O valor mais baixo em cada zona é atribuído a todas as células dessa zona.
Exemplo:
Minoria
- O valor que ocorre com menos frequência em cada zona é atribuído a todas as células dessa zona.
- Quando há um empate para o valor de minoria em uma zona, a saída para todas as localizações de células na zona é atribuída ao menor dos valores empatados.
Exemplo:
Percentil
- O percentil dos valores em cada zona é atribuído a todas as células de saída nessa zona.
- Este valor do tipo de estatística é calculado usando o método Q1 de Hyndman e Fan (1996) Quando dois valores classificados estão igualmente próximos do valor mediano de destino, o menor dos dois valores é escolhido.
- Para calcular o percentil, todas as células em um raster de valor são classificadas usando a seguinte fórmula: R = P/100 x (n - 1) +1, onde P é o percentil desejado e n é o número de células.
Exemplo:
Intervalo
- A diferença entre os valores máximo e mínimo em cada zona é atribuída a todas as células dessa zona.
- O intervalo é definido da seguinte maneira:
Intervalo Zonal = Máximo Zonal - Mínimo Zonal
Exemplo:
Desvio padrão
- O desvio padrão dos valores em cada zona é atribuído a todas as células de saída nessa zona.
- A fórmula para o desvio padrão aritmético é a seguinte:
Onde:
- σ = desvio padrão
- xi = valores observados
- x̄ = média
- N = número de observações
Anotação:
O desvio padrão é calculado em toda a população (o método N); não estimado com base em uma amostra (o método N-1). Para comparação, o cálculo do desvio padrão é equivalente ao método STDEVP, não STDEV, no Microsoft Excel.
- A fórmula para o desvio padrão circular é a seguinte:
Onde:
- σ = Desvio padrão circular
- R̄ = Comprimento médio resultante de
Em uma amostra de n ângulos em graus, os ângulos de um1, a2, …, an são resumidos, e cada ângulo é representado por um vetor unitário, que aponta na direção da observação correspondente.
Exemplo:
Soma
- A soma de todos os valores de célula em cada zona é atribuído a todas as células dessa zona.
- O tipo de dados do raster de saída é ponto flutuante. Isso ocorre, pois o valor da soma tende a ser muito grande e pode não ser possível representá-la com um valor inteiro.
Considere, por exemplo, uma zona com 2.500 linhas e colunas de células e o valor de cada célula seja 1.000. A soma dessa zona seria 2.500 x 2.500 x 1.000 = 6.25 bilhões. Se for necessária uma saída inteira e o intervalo estiver dentro de ± 2,147 bilhões, você poderá aplicar a ferramenta Int.
Exemplo:
Variedade
- O número de valores únicos em cada zona é atribuído a todas as células dessa zona
Exemplo:
Tipo de Dados de Saída
O tipo de dados de saída (inteiro ou flutuante) é determinado pelo cálculo zonal que está sendo executado e pelo tipo de raster do valor de entrada. A tabela a seguir identifica os tipos de dados esperados do raster de saída:
Estatística | Tipo do valor de entrada | Saída |
---|---|---|
Maioria | Inteiro* | Inteiro |
Máximo | Inteiro, Flutuante | Igual ao Valor |
Média | Inteiro, Flutuante | Flutuante |
Mediana | Inteiro, Flutuante | Inteiro |
Mínimo | Inteiro, Flutuante | Igual ao Valor |
Minoria | Inteiro* | Inteiro |
Percentil | Inteiro, Flutuante | Inteiro |
Intervalo | Inteiro, Flutuante | Igual ao Valor |
Desvio padrão | Inteiro, Flutuante | Flutuante |
Soma | Inteiro, Flutuante | Flutuante |
Variedade | Inteiro* | Inteiro |
Anotação:
* Somente valores inteiros são suportados.
Se qualquer localização de célula no conjunto de dados da Zona for NoData, essa localização será atribuída a NoData na saída.
Referências
Rob J. Hyndman and Yanan Fan (1996) "Sample Quantiles in Statistical Packages" The American Statistician, Vol. 50, No. 4 (Nov., 1996), pp. 361-365.