箱ひげ図

箱ひげ図では、四分位を使用して数値の分布と中心傾向を視覚化および比較できます。 四分位は、最小値、第 1 四分位値、中央値、第 3 四分位値、最大値という 5 つのキー値に基づいて数値を 4 つの等しいグループに分割する方法です。 箱ひげ図は、パーセンタイル計算を使用して、四分位値を決定します。 たとえば、第1四分位値は、25 パーセンタイルに等しくなります。

次の図の箱部分には、中央の 50 パーセントのデータ値 (四分位範囲、IQR とも呼ばれる) が示されます。 これらの値の中央値は箱を半分に分割するラインとして描画されます。 IQR は一連の値の変動を表します。 IQR が大きい場合、値が広く分散していることを意味し、IQR が小さい場合、大部分の値が中心近くにあることを意味します。 箱ひげ図では、ボックスから伸びるひげ (線) を使用して最小データ値と最大データ値も示されます。また、ひげを越えて広がるポイントとして外れ値を示すこともできます。

箱ひげ図の図

変数

箱ひげ図は、X 軸と Y 軸で構成されています。 X 軸では、[カテゴリ] または [数値フィールド] 変数ごとに 1 つの箱が割り当てられます。 Y 軸は、一連の数値内で最小値、第 1 四分位値、中央値、第 3 四分位値、最大値を測定するために使用されます。

箱ひげ図を使用すると、1 つまたは多数の分布を視覚化できます。 単一の分布を視覚化するには、1 つの [数値フィールド] 変数を追加します。 これにより、選択した数値属性の分布を視覚化する 1 つの箱ひげ図を含むチャートが生成されます。

さらに、追加の [数値フィールド] 変数を追加して、テーブル内の別々の属性フィールドから提供される複数の分布を比較できます。 たとえば、郡のデータセットで、Population2010Population2015[数値フィールド] 変数として追加されるとします。 結果として生成されるチャートには 2 つの箱ひげ図が表示されます。1 つはデータセット内のすべての郡について Population2010 の分布を視覚化し、もう 1 つは Population2015 の分布を視覚化するためのものです。

[数値フィールド] 変数が 1 つだけ追加された場合は、カテゴリ間で分布を比較する方法として [カテゴリ] 変数を追加するオプションが使用可能になります。 たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として、StateName[カテゴリ] 変数として設定されるとします。 結果として生成されるチャートには、州ごとに 1 つの箱ひげ図が表示されます。この箱ひげ図では、各州に属するすべての郡について Population2010 の分布が視覚化されます。

複数のシリーズ

複数のシリーズの箱ひげ図は、異なるタイプまたは異なるカテゴリの分布の比較に使用できます。

複数のシリーズの箱ひげ図は [カテゴリ] フィールドと複数の [数値フィールド] を指定するか、[分割] カテゴリ フィールドを指定することで作成できます。

複数の [数値フィールド] を持つ [カテゴリ] 変数を使用すると、[数値フィールド] がシリーズ テーブルに追加されるごとにシリーズが作成されます。 たとえば、郡のデータセットで StateName[カテゴリ] 変数として設定され、Population2010Population2015Population2020[数値フィールド] 変数として設定されるとします。 結果として生成されるチャートでは、カテゴリとして州が X 軸に示され、州ごとに 3 つのシリーズ (Population2010Population2015Population2020) が表示されます。

あるいは、データをさらに分割し、複数のシリーズを作成する方法として [分割] 変数を追加できます。 たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として、StateName[カテゴリ] 変数として設定され、さらに ElectionWinner[分割] フィールドとして設定されるとします。 シリーズ テーブルには、それぞれ一意の ElectionWinner 値 (「Democrat」、「Republican」) が入力されます。 結果として生成されるチャートには、横に並んだ 2 つの箱ひげ図が州ごとに表示されます (合計で 100 個の箱ひげ図)。1 つは各州で ElectionWinner 値として「Democrat」を持つすべての郡について、もう 1 つは各州で ElectionWinner 値として「Republican」を持つすべての郡について Population2010 の分布を視覚化します。

[分割] フィールドは、[カテゴリ] 変数の代わりに複数の [数値フィールド] 変数が使用される場合にも使用できます。 たとえば、郡のデータセットで、Population2010Population2015Population2020[数値フィールド] 変数として、ElectionWinner[分割] フィールドとして設定されるとします。 結果として生成されるチャートでは、X 軸に 3 つの [数値フィールド] 変数 (Population2010Population2015Population2020) が表示され、フィールドごとに、横に並んだ 2 つの箱ひげ図が示されます。1 つは ElectionWinner 値として「Democrat」を持つすべての郡の分布を表示し、もう 1 つは ElectionWinner 値として「Republican」を持つすべての郡の分布を表示します。

複数のシリーズを表示

[分割] フィールドが複数のシリーズの作成に使用される場合は、結果の視覚化のために 2 つのオプションが提供されます。

  • [並べて表示] マルチボックス チャート - 横に並んだ箱ひげ図を、シリーズごとに 1 つずつ作成します。
  • [平均ラインとして表示] 平均ライン チャート - [カテゴリ] の値または [数値フィールド] 変数ごとに 1 つの箱ひげ図が作成され、[分割] フィールドのそれぞれ一意の値の平均を表示するためにラインが使用されます。

たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として、StateName[カテゴリ] 変数として設定され、さらに ElectionWinner[分割] フィールドとして設定されるとします。 シリーズ テーブルには、それぞれ一意の ElectionWinner 値 (「Democrat」、「Republican」) が入力されます。ただし、各州が ElectionWinner 値ごとの箱ひげ図に分けられるのではなく、結果として生成されるチャートには、州ごとに 1 つの箱ひげ図が表示され、その州内に存在する郡の Population2010 の分布が視覚化されます。さらに、各 [分割] シリーズ (「Democrat」、「Republican」) の平均値が箱ひげ図上にオーバーレイされ、各シリーズの平均値が全体的な分布との関連でどの位置にあたるかが示されます。

標準化

箱ひげ図が複数の [数値フィールド] から作成されるとき、Z スコア標準化がデフォルトで適用されます。 標準化により、異なる単位の数値変数を比較できるようになります。

たとえば、収入 (万単位の値) の分布と失業率 (0 ~ 1.0 の範囲の値) の分布を比較する箱ひげ図は、標準化なしで読み取ることが困難になります。これは、失業率の値が収入値よりもはるかに小さいためです。

属性値の標準化には、Z 変換が含まれます。この変換では、すべての値の平均を各値から引いた後、その結果をすべての値の標準偏差で割ります。 Z スコア標準化は、すべての属性を同じ縮尺にして、複数の分布を同じチャートに表示できるようにします。 その代わりに、生の値を表示する場合は、[チャート プロパティ] ウィンドウの [値の標準化 (z スコア)] チェックボックスをオフにします。

軸と関連する設定は、複数のオプションによって制御されます。

X 軸ラベル文字制限

カテゴリ ラベルは、デフォルトで 11 文字に切詰められます。 ラベルが切詰められているときは、ラベルの上にポインターを合わせることでフル テキストを表示できます。 チャート内のラベル テキストの全体を表示するには、ラベルの文字数制限を増やします。

Y 軸範囲

デフォルトの Y 軸範囲は、Y 軸上に表示されるデータ値の範囲に基づいて設定されます。 これらの値をカスタマイズするには、新しい軸範囲値を入力します。 軸の範囲を設定すると、チャートの縮尺を一定に保つことができ、値を比較する際に役立ちます。 リセット ボタン リセット をクリックすると、軸範囲がデフォルト値に戻ります。

格子線の間隔

[間隔] コントロールを使用して、Y 軸の格子線の間隔を構成します。 デフォルトの格子線の間隔は、自動的に計算されます。

数値形式

数値形式のカテゴリを指定するか、カスタム形式の文字列を定義して、軸が数値を表示する方法を書式設定できます。 たとえば、「$#,###」は通貨の値を表示するカスタム形式の文字列として使用します。

表示設定

チャートの外観と関連する設定は、複数のオプションによって制御されます。

タイトルと説明

チャートおよび軸には、変数名およびチャート タイプに基づいてデフォルトのタイトルが与えられます。 これらのタイトルは、[チャート プロパティ] ウィンドウの [一般] タブで編集できます。 [説明] にチャートの説明 (チャート ウィンドウの下部に表示される一連のテキスト) を入力することもできます。

外観の書式設定

テキスト エレメントやシンボル エレメントを書式設定したり、チャートのテーマを適用したりすると、チャートの外観を設定することができます。 書式設定のプロパティは [チャート プロパティ] ウィンドウの [書式設定] タブで設定できます。 [チャート] タブでチャート テーマを選択できます。 チャートの書式設定オプションには次のものがあります。

  • 軸タイトル、軸ラベル、説明テキスト、凡例タイトル、凡例テキスト、ガイド ラベルに使用されるフォントのサイズ、色、スタイル
  • グリッドと軸線の色、幅、ライン タイプ
  • チャートの背景色

チャートの外観を変更する方法の詳細

箱ひげ図では、レイヤー シンボルで定義されたアウトライン色と塗りつぶし色に一致する色が可能な限り適用されます。 シリーズが、レイヤー シンボルに一致しない方法で分割された場合は、標準のカラー パレットが適用されます。 シリーズの色を変更するには、[チャート プロパティ] ウィンドウの [シリーズ] タブで、[シリーズ] テーブルの [シンボル] カラー パッチをクリックし、新しい色を選択します。

並べ替え

箱ひげ図は、カテゴリのアルファベット順に自動的に並べ替えられます (X 軸昇順)。 [チャート プロパティ] ウィンドウの [並べ替え] オプションを使用すると、これを変更できます。 箱ひげ図では、次の並べ替えオプションが利用できます。

  • [X 軸昇順] - カテゴリは、左から右にアルファベットの昇順に並べられます。
  • [X 軸降順] - カテゴリは、アルファベットの降順に並べられます。
  • [平均昇順] - 箱は、平均統計の昇順に並べられます。
  • [平均降順] - 箱は、平均統計の降順に並べられます。
  • [中央値昇順] - 箱は、中央値統計の昇順に並べられます。
  • [中央値降順] - 箱は、中央値統計の降順に並べられます。
  • [ユーザー設定の並べ替え] - カテゴリは [ユーザー設定の並べ替え] テーブルで手動で並べ替えることができます。

方向

箱は、チャート ウィンドウの [チャートの回転] ボタン チャートの回転 をクリックすると水平に描画できます。

ガイド

参照または重要な値をハイライト表示する方法として、ガイドのラインまたは範囲を追加できます。 新しいガイドを追加するには、[チャート プロパティ] ウィンドウの [ガイド] タブで、[ガイドの追加] をクリックします。 ラインを描画するには、ラインを描画したい [値] を入力します。 範囲を作成するには、[幅] の値を入力します。 [ラベル] を指定して、ガイドにテキストを追加することもできます。

慢性的健康障害の分布と変動を州別に比較する箱ひげ図を作成します。

  • [数値フィールド] - % Diabetes% Asthma% Heart Failure
  • [カテゴリ] - State

慢性的健康障害の分布と変動を州別に比較する箱ひげ図