Box plot

I box plot consentono di visualizzare e confrontare la distribuzione e la tendenza centrale dei valori numerici attraverso i loro quartili. I quartili sono un metodo di divisione dei valori numerici in quattro gruppi equivalenti in base a cinque valori chiave: minimo, primo quartile, mediana, terzo quartile e massimo.

La porzione di box del diagramma seguente illustra il 50 percento centrale dei valori dei dati, conosciuto anche come intervallo interquartile (IQR). La mediana dei valori è rappresentata come una linea che divide il box a metà. L'IQR illustra la variabilità in un insieme di valori. Un IQR di grandi dimensioni indica una grande dispersione dei valori, mentre un IQR più piccolo indica che la maggior parte dei valori sono collocati vicino al centro. I box plot inoltre illustrano i valori dei dati minimo e massimo attraverso linee che si estendono dal box e, facoltativamente, valori anomali come punti che si estendono oltre le linee.

Diagramma box plot

Esempio

Il box plot qui sotto mostra la distribuzione dell'aspettativa di vita per continente con incrementi di 20 anni dal 1800 al 2040.

  • Campi numerici-Life expectancy
  • Categoria:Year
  • Dividi per-Continent
  • Mostra outliers- Abilitato
Box plot dei voti per l'aspettativa di vita per continente

Dati

Le configurazioni della scheda Dati Datiincludono le variabili utilizzate per creare il box plot.

Variabili

I box plot sono composti da un asse x e un asse y. L'asse x assegna un box per ogni categoria o variabile numerica. L'asse y è utilizzato per misurare il valore di minimo, primo quartile, mediana, terzo quartile e massimo in un insieme di numeri.

È possibile utilizzare i box plot per visualizzare una o più distribuzioni. Per visualizzare una singola distribuzione, aggiungere una variabile Campi numerici. Ciò produce un grafico con un box plot che mostra la distribuzione dell'attributo numerico selezionato.

È possibile aggiungere ulteriori variabili di Campi numerici per confrontare distribuzioni multiple da campi di attributi diversi in una tabella. Ad esempio, in un dataset di una regione, Population2010 e Population2015 vengono aggiunti come variabili dei Campi numerici. Il grafico risultante mostra due box plot, una che mostra la distribuzione di Population2010 e l'altra che mostra la distribuzione di Population2015, per tutte le regioni nel dataset.

Quando si crea un box plot da più campi numerici, viene applicata una standardizzazione risultato z per impostazione predefinita. La standardizzazione consente alle variabili numeriche con unità differenti di essere confrontabili.

Ad esempio, un box plot che confronta le distribuzioni del reddito (con valori nelle decine di migliaia) e il tasso di disoccupazione (valori che spaziano da 0 a 1,0) sarebbero difficili da leggere senza standardizzazione, poiché i valori del tasso di disoccupazione sono molto più piccoli dei valori di reddito.

La standardizzazione dei valori di attributo implica una trasformazione z in cui la media di tutti i valori viene sottratta da ciascun valore e divisa per la deviazione standard di tutti i valori. La standardizzazione risultato z pone tutti gli attributi sulla stessa scala, consentendo a più distribuzioni di essere visualizzate nello stesso grafico. Per visualizzare invece i valori grezzi, disattivare Standardizzare i valori (risultato z).

Quando viene aggiunta una sola variabile Campi numerici, è possibile aggiungere una variabile Categoria come metodo per confrontare le distribuzioni tra le categorie. Ad esempio, Population2010 è impostato come variabile Campi numerici e StateName come variabile Categoria per un dataset regione. Il grafico risultante mostra un box plot per ciascuno stato, che mostra la distribuzione di Population2010 per tutte le regioni che appartengono a ciascuno stato.

Serie multiple

È possibile utilizzare box plot di serie multiple per confrontare le distribuzioni di diversi tipi, o per diverse categorie.

È possibile creare diagrammi a scatola a più serie specificando un campo categoria e più campi numerici oppure specificando una divisione per categoria.

Quando si utilizza una variabile Categoria con più variabili Campi numerici, ogni campo numerico aggiunto alla tabella delle serie crea una serie. Ad esempio, in un dataset di regione, StateName è impostato come variabile Categoria e Population2010, Population2015 e Population2020 sono impostati come variabili Campi numerici. Il grafico risultante avrà gli stati come categorie lungo l'asse x, con tre serie ciascuno (Population2010, Population2015 e Population2020).

In alternativa, è possibile aggiungere una variabile Dividi per come modo per dividere ulteriormente i dati e creare serie multiple. Ad esempio,Population2010 è impostato come variabile Campi numerici, StateName come variabileCategoria e ElectionWinner come campo Dividere per per un dataset di regione. Il grafico risultante mostrerà due box plot affiancati per ogni Stato (100 box plot in totale), uno che visualizza la distribuzione di Population2010 di tutte le regioni di ogni Stato con il valore ElectionWinner di Democrat, e uno per tutte le regioni di ogni Stato con il valore ElectionWinner di Republican.

È inoltre possibile utilizzare i campi Dividere per quando si utilizzano più variabili Campi numerici invece di una variabile Categoria. Ad esempio, Population2010,Population2015 e Population2020 sono impostati come variabili Campi numerici eElectionWinner è impostato come campo Dividere per per un dataset di regione. Il grafico risultante visualizzerà le tre variabili Campi numerici lungo l'asse x (Population2010, Population2015 e Population2020), ciascuna con due box plot affiancati: uno che mostra la distribuzione per tutte le regioni con il valore ElectionWinner di Democrat, e l'altro per tutte le regioni con il valore ElectionWinner di Republican.

Outlier

È possibile mostrare gli outlier come punti che si estendono oltre i baffi abilitando Mostra outlier. Se non abilitato, i baffi si estenderanno per comprendere tutti i punti di dati.

Criterio di ordinamento

I box plot sono automaticamente ordinati in ordine alfabetico in base alla categoria (asse x ascendente). Ciò può essere modificato utilizzando il parametro Criterio di ordinamento. Sono disponibili le seguenti opzioni di ordinamento per i box plot:

  • Crescente asse x: le categorie sono disposte in ordine alfabetico da sinistra a destra.
  • Decrescente asse y: le categorie sono disposte in ordine alfabetico inverso.
  • Crescente media: i box sono ordinati in base alla statistica media in ordine crescente.
  • Decrescente media: i box sono ordinati in base alla statistica media in ordine decrescente.
  • Crescente mediana: i box sono ordinati in base alla statistica mediana in ordine crescente.
  • Decrescente mediana: i box sono ordinati in base alla statistica mediana in ordine decrescente.

Serie

Le configurazioni della scheda Serie Serievengono utilizzate per modificare il colore e l'etichetta delle caselle sul box plot.

Assi

Le configurazioni della scheda Assi Assi servono per cambiare le specifiche per l'asse x e l'asse y.

Asse X

Per impostazione predefinita le etichette categoria vengono troncate a 11 caratteri. Quando le etichette sono troncate, puoi vedere il testo completo passando il mouse sull'etichetta. Aumentare il valore Limite del carattere dell'etichettaper visualizzare l'intero testo dell'etichetta nel grafico.

Asse Y

I limiti predefiniti dell'asse y sono basati sulla gamma di valori dei dati rappresentati sull'asse y. È possibile personalizzare questi valori digitando un valore Limite minimo o Limite massimo. Imposta un limite per l'asse y per mantenere la scala del grafico coerente per il confronto. Cliccare il pulsante Reimposta per riportare l'asse legato al valore di default.

È possibile formattare il modo in cui l'asse y visualizza i valori numerici specificando il numero di posizioni decimali e se includere un separatore delle migliaia.

Guide

Le configurazioni della scheda Guide Guide sono utilizzate per aggiungere guide o intervalli di guida al grafico.

Linee guida o intervalli possono essere aggiunti ai grafici come riferimento o modo per evidenziare valori significativi. Le guide vengono aggiunte all'asse y cliccando sul pulsante Aggiungi guida.

Per creare una linea guida, inserite un valore di Inizio dove volete che la linea sia disegnata. Per creare un intervallo di guida, inserisci un valore iniziale e un valore finale. Puoi anche cambiare l'aspetto della linea guida o dell'intervallo. Per le linee, lo stile, la larghezza e il colore possono essere aggiornati. Per gli intervalli, il colore di riempimento può essere aggiornato.

Puoi opzionalmente cambiare il nome della guida usando il parametro Nome guida e aggiungere del testo alla tua guida usando il parametro Etichetta guida (per esempio, Mediana).

È possibile scegliere se la guida viene visualizzata davanti al grafico o dietro al grafico, utilizzando i pulsanti Davanti e Dietro nel parametro Visualizza.

Formato

Le configurazioni della scheda Formato Formato sono utilizzate per cambiare l'aspetto del grafico formattando gli elementi di testo e i simboli.

Le opzioni di formattazione del grafico includono:

  • Elementi di testo: dimensione, colore e stile del font utilizzato per il titolo del grafico, i titoli degli assi x e y, il titolo della legenda, il testo descrizione, il testo legenda, le etichette degli assi e le etichette dei dati. È possibile modificare il formati per più elementi allo stesso tempo premento Ctrl e cliccando per selezionare gli elementi.
  • Elementi simbolo: colore, dimensione e stile (Solido, Punto o Trattino) delle linee griglia e asse e colore di sfondo del grafico.

Generale

Le configurazioni della scheda Generale Generale sono utilizzate per aggiornare i titoli per il grafico, gli assi e la legenda.

I titoli predefiniti per i grafici e gli assi sono basati sui nomi delle variabili e sul tipo di grafico. È possibile modificare o disattivare i titoli dalla scheda Generale. Inoltre, è possibile aggiungere un titolo nel parametro Titolo legenda. L'allineamento della legenda può essere impostato su Destra, Sinistra, In alto o In basso. Inoltre, è possibile aggiungere una descrizione del grafico nel parametro Descrizione. Una descrizione è un blocco di testo che compare in basso nella finestra del grafico.

Risorse

Usare le seguenti risorse per ulteriori informazioni sui grafici: