Diagrama de caixa

Os diagramas de caixa permitem visualizar e comparar a distribuição e tendência central dos valores numéricos através de seus quartis. Quartis são um método de divisão de valores numéricos em quatro grupos iguais com base em cinco valores principais: mínimo, primeiro quartil, mediana, terceiro quartil e máximo.

A parte da caixa do diagrama abaixo ilustra os 50 porcento intermediários dos valores dos dados, também conhecidos como intervalo interquartil (IQR). A mediana dos valores é representada como uma linha que divide a caixa ao meio. O IQR ilustra a variabilidade em um conjunto de valores. Um IQR grande indica uma grande dispersão nos valores, enquanto um IQR menor indica que a maioria dos valores fica perto do centro. Os diagramas de caixa também ilustram os valores mínimos e máximos dos dados através de ramificações, ou linhas, que se estendem a partir da caixa e, opcionalmente, valores discrepantes como pontos que se estendem além dos ramificações.

Diagrama de caixa

Exemplo

O gráfico de caixa abaixo mostra a distribuição da esperança de vida por continente em incrementos de 20 anos, de 1800 a 2040.

  • Campos numéricosLife expectancy
  • CategoriaYear
  • Dividir porContinent
  • Mostrar valores discrepantes—Habilitado
Gráfico de caixa de votos para expectativa de vida por continente

Dados

As configurações da guia Dados Dados incluem as variáveis que são usadas para criar o gráfico de caixa.

Variáveis

Os diagramas de caixa são compostos por um eixo x e um eixo y. O eixo x atribui uma caixa para cada categoria ou variável numérica. O eixo y é usado para medir o valor mínimo, primeiro quartil, mediana, terceiro quartil e máximo em um conjunto de números.

Você pode usar diagramas de caixa para visualizar uma ou mais distribuições. Para visualizar uma única distribuição, adicione uma variável de Campos numéricos. Isso resulta em um gráfico com um diagrama de caixa visualizando a distribuição do atributo numérico escolhido.

Você pode adicionar outras variáveis ​de campos numéricos​ para comparar diversas distribuições de diferentes campos de atributos em uma tabela. Por exemplo, em um conjunto de dados de município, Population2010 e Population2015 são adicionadas como variáveis ​​de Campos numéricos. O gráfico resultante exibe dois diagramas de caixa, um deles visualizando a distribuição dePopulation2010, e o outro visualizando a distribuição dePopulation2015, para todos os municípios no conjunto de dados.

Ao criar um diagrama de caixa a partir de múltiplos campos numéricos, uma padronização de pontuação z é aplicada por padrão. A padronização permite que variáveis ​​numéricas de unidades diferentes sejam comparáveis.

Por exemplo, um diagrama de caixa comparando as distribuições de renda (com valores na casa das dezenas de milhares) e a taxa de desemprego (valores variando entre 0 e 1,0) seria difícil de ler sem padronização porque os valores da taxa de desemprego são muito menores do que a renda valores.

A padronização dos valores dos atributos envolve uma transformada z, onde a média de todos os valores é subtraída de cada valor e dividida pelo desvio padrão de todos os valores. A padronização da pontuação-z coloca todos os atributos na mesma escala, permitindo visualizar múltiplas distribuições em um mesmo gráfico. Para visualizar os valores brutos, desative Padronizar valores (pontuação z).

Quando apenas uma única variável de Campos numéricos é adicionado, você pode adicionar uma variável Categoria como um método de comparação de distribuições entre categorias. Por exemplo, Population2010 é definido como a variável de Campos numéricos e StateName como a variável de Categoria para um conjunto de dados do município. O gráfico resultante exibe um diagrama de caixa para cada estado, visualizando a distribuição de Population2010 para todos os municípios pertencentes a cada estado.

Múltiplas séries

Você pode usar diagramas de caixa de múltiplas séries para comparar distribuições de diferentes tipos ou por diferentes categorias.

Diagramas de caixa de múltiplas séries podem ser criados especificando um campo de categoria e múltiplos campos numéricos ou especificando um campo de categoria Dividir por.

Ao utilizar a variável Categoria com múltiplos Campos numéricos, cada campo numérico adicionado à tabela de séries cria uma série. Por exemplo, em um conjunto de dados de município, StateName é definido como variável Categoria e Population2010, Population2015, e Population2020 são definidos como variáveis de Campos numéricos. O gráfico resultante terá estados como categorias ao longo do eixo x, com três séries cada (Population2010, Population2015 e Population2020).

Alternativamente, uma variável Dividir por pode ser adicionado como uma forma de dividir ainda mais os dados e criar múltiplas séries. Por exemplo, Population2010 é definido como a variável Campos numéricos, StateName como a variável Categoria e ElectionWinner como um campo Dividir por para um conjunto de dados do município. O gráfico resultante exibirá dois diagramas de caixa lado a lado para cada estado (100 diagramas de caixa no total), um deles visualizando a distribuição de Population2010 de todos os município de cada estado com o valor ElectionWinner de Democrat e um para todos os municípios de cada estado com o valor ElectionWinner de Republican.

Você também pode usar campos de Dividir por quando múltiplas variáveis de Campos numéricos são usadas ​​em vez de uma variável Categoria. Por exemplo Population2010, Population2015 e Population2020 são definidos como variáveis de Campos numéricos e ElectionWinner é definido como o campo Dividir por para um conjunto de dados do município. O gráfico resultante exibirá as três variáveis de Campos numéricos ao longo do eixo x (Population2010, Population2015 e Population2020), cada um com dois diagramas de caixa lado a lado: um exibindo a distribuição para todos os municípios com o valor ElectionWinner de Democrat e outro para todos os municípios com valor ElectionWinner de Republican.

Valores Atípicos

Você pode mostrar valores atípicos como pontos que se estendem além dos limites habilitando Mostrar valores atípicos. Se não estiver habilitado, os limites se estenderão para abranger todos os pontos de dados.

Ordem de classificação

Os diagramas de caixa são classificados automaticamente em ordem alfabética por categoria (eixo X ascendente). A classificação pode ser alterada usando o parâmetro Ordem de classificação. As seguintes opções de classificação estão disponíveis para diagramas de caixa:

  • Eixo X crescente—As categorias são organizadas em ordem alfabética da esquerda para a direita.
  • Eixo X decrescente—As categorias são organizadas em ordem alfabética reversa.
  • Média crescente—As caixas são organizadas pela estatística média em ordem crescente.
  • Média decrescente—As caixas são organizadas pela estatística média em ordem decrescente.
  • Mediana crescente—As caixas são organizadas pela estatística mediana em ordem crescente.
  • Mediana decrescente—As caixas são organizadas pela estatística mediana em ordem decrescente.

Série

As configurações da guia Série Série são usadas para alterar a cor e o rótulo das caixas no diagrama de caixa.

Eixos

As configurações da guia EixosEixos são usadas para alterar as especificações do eixo x e y.

Eixo X

Os rótulos de categoria são truncados em 11 caracteres por padrão. Quando os rótulos estão truncados, você pode ver o texto completo passando o mouse sobre o rótulo. Para exibir todo o texto do rótulo no gráfico, aumente o valor Limite de caractere do rótulo .

Eixo Y

Os limites do eixo y padrão são baseados no intervalo de valores de dados representados no eixo y. Você pode personalizar esses valores digitando um valor de Limites mínimos ou Limites máximos. Defina um limite do eixo y para manter a escala do gráfico consistente para comparação. Clique no botão Redefinir para reverter o limite do eixo para o valor padrão.

Você pode formatar a maneira como o eixo y exibe os valores numéricos especificando o número de casas decimais e se deseja incluir um separador de milhar.

Guias

As configurações da guia Guias Guias são usadas para adicionar guias ou faixas de guias ao gráfico.

Linhas guia ou intervalos podem ser adicionados aos gráficos como referência ou forma de destacar valores significativos. As guias são adicionadas ao eixo y clicando no botão Adicionar guia.

Para criar uma linha guia, insira um valor Inicial onde deseja que a linha seja desenhada. Para criar um intervalo guia, insira um valor Inicial e um valor Final. Você também pode alterar a aparência da linha de guia ou intervalo. Para linhas, o estilo, largura e cor podem ser atualizados. Para intervalos, a cor de preenchimento pode ser atualizada.

Opcionalmente, você pode alterar o nome do guia usando o parâmetro Nome do guia e adicionar texto ao eu guia usando o parâmetro Rótulo do guia (por exemplo, Mediano).

Você pode escolher se a guia será renderizada na frente ou atrás do gráfico usando os botões Na frente e Atrás no parâmetro Exibir.

Formato

As configurações da guia FormatarFormato são usados ​​para alterar a aparência do gráfico formatando elementos de texto e símbolo.

As opções de formatação do gráfico incluem o seguinte:

  • Elementos de texto—Tamanho, cor e estilo da fonte usada para o título do gráfico, título do eixo x, título do eixo y, título da legenda, texto de descrição, texto da legenda, rótulos de eixo e rótulos de dados. Você pode alterar o formato de vários elementos de uma vez pressionando Ctrl e clicando para selecionar os elementos.
  • Elementos de símbolo—Cor, largura e estilo (Sólido, Ponto ou Traço) para linhas de grade e eixo e a cor do plano de fundo do gráfico.

Geral

As configurações da guia GeralGeral são usadas para atualizar os títulos do gráfico, eixos e legenda.

Os títulos padrão dos gráficos e eixos são baseados nos nomes de variáveis ​​e tipo de gráfico. Você pode editar ou desativar os títulos na guia Geral . Você também pode fornecer um título no parâmetro Título da legenda. O Alinhamento da legenda pode ser definido como Direita, Esquerda, Superior ou Inferior. Você também pode adicionar uma descrição do gráfico no parâmeto Descrição. Uma descrição é um bloco de texto que aparece na parte inferior da janela do gráfico.

Recursos

Use os seguintes recursos para saber mais sobre gráficos: