ヒストグラム

ヒストグラムでは、特定の値がデータセット内に表示される頻度を計測して、連続数値変数の分布を視覚的に集約します。 ヒストグラムの X 軸は、数値範囲 (ビン) に分割された数値ラインです。 ビンごとにバーが描画され、バーの幅はビンの範囲を表し、バーの高さはその範囲内にあるデータ ポイントの数を表します。 データの分布を理解することは、データ探索プロセスにおける重要な足掛かりになります。

変数

ヒストグラムでは、X 軸上に 1 つの連続した [数値] の変数が必要です。

複数のシリーズ

複数のシリーズのヒストグラムを作成するには、[分割] フィールドを設定します。 [分割] フィールドを設定すると、フィールド内の個別カテゴリの数に基づいてヒストグラムが複数のシリーズに分割されます。 たとえば、住宅価格に関連したデータセットのヒストグラムを表示する場合は、市内の住宅価格の分布を確認するために [数値] コントロールを SoldPrice に設定します。 [分割] コントロールを Neighborhood に設定すると、ヒストグラムが N シリーズに分割されます。ここで、N は一意の近傍値の数を示します。 複数のシリーズのヒストグラムには、N 個のミニチャート (一意の Neighborhood 値ごとに 1 つ) が表示されるため、[分割] の値全体で住宅価格の分布を比較することができます。

注意:

一意の値を数多く含むカテゴリ フィールドは、複数のシリーズへの分割には適していません。

複数のシリーズを表示

複数のシリーズのヒストグラムは、グリッド レイアウトでしか表示できません。グリッド レイアウトは、[チャート プロパティ] ウィンドウの [シリーズ] タブでカスタマイズできます。 [行ごとのミニ チャート] の数値入力を設定することで、グリッド チャートのレイアウトの寸法をカスタマイズすることができます。 たとえば、[行ごとのミニ チャート] を 3 に設定した場合、1 行につき最大 3 つのチャートが表示され、グリッドの行の総数はチャート内のシリーズの数によって決まります。 [チャートのプレビュー表示] チェックボックスをオンにすると、大きいプレビュー チャートで表示するミニ チャートを選択して、各ミニ チャートをより細かく動的に探索できます。マルチシリーズ ヒストグラム

変換

解析方法には、データが正規分布していることを必要とするものもあります。 データが偏っている (分布が不均衡) 場合は、データを変換して、正規化できます。 ヒストグラムを使用すると、データ分布で対数変換や平方根変換の効果を探索できます。 参考までに、[チャート プロパティ] ウィンドウの [正規分布の表示] チェックボックスをオンにすると、正規分布オーバーレイをヒストグラムに追加できます。

対数変換

対数変換は、データの分布が正に偏り、非常に大きい値がいくつかある場合によく使用されます。 これらの大きな値がデータセット内にある場合、対数変換は、分散をより一定にし、データを正規化するのに役立ちます。

たとえば、左側にある正に偏った分布は、右側のチャートで対数変換を使用して正規分布に変換されます。

左側の生データ分布のチャートと右側の対数変換との比較

注意:

対数変換は、0 より大きい数値にのみ適用できます。

平方根変換

平方根変換は、データセットの右の歪度を減らした対数変換に似ています。 対数変換とは異なり、平方根変換は 0 に適用できます。

注意:

平方根変換は、0 以上の数値にのみ適用できます。

逆変換

逆変換は、フィールド内の各値 (x) の逆数 (1/x) を取ります。

注意:

逆変換は値ゼロには適用できません。 フィールド内に値ゼロがある場合、この値は NULL 値として評価されます。

Box-Cox 変換

Box-Cox 変換は、値を正規分布させるために次の累乗関数を適用します。

Box-Cox 変換

ここで、x' は変換後の値、x は元の値、λ1[累乗] パラメーター、λ2[シフト] パラメーターです。

注意:

Box-Cox 変換は正の値にしか適用できません。 負またはゼロの値が存在する場合、すべての値が正になるように [シフト] パラメーターを使用します。

ビンの数

ビンの数は、デフォルトでデータセット内のレコード数の平方根に設定されています。 この値を調整するには、[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の値を変更します。 クラスを変更すると、データの構造の詳細または概要を確認できます。

統計

いくつかの記述統計が計算され、ヒストグラムの縦線として表示されます。 平均値と中央値はそれぞれ 1 つのラインで表示され、平均値を上回る標準偏差と平均値を下回る標準偏差は 2 つのラインで表示されます。 チャートの凡例に含まれるこれらのアイテムをクリックして、オン/オフを切り替えることができます。

[統計] テーブルは [チャート プロパティ] ウィンドウの [データ] タブに表示されます。このテーブルには、選択された数値フィールドについて次の統計が含まれます。

  • 平均
  • 中央値
  • 標準偏差
  • 個数
  • 最小
  • 最大
  • 合計
  • Null
  • 歪度
  • 尖度

チャートのソース レイヤーの選択セットがある場合、統計テーブルには完全なデータセットの統計を表示する列が 1 つ、選択セットの統計のみを表示する列が 1 つ含まれます。

統計テーブルには、ヒストグラムの平均、中央値、標準偏差のラインのオンとオフを切り替えたり、色を変更したりするためのコントロールも含まれます。

統計テーブル内を右クリックし、[テーブルのコピー][行のコピー][値のコピー] を選択できます。 この操作により、[チャート プロパティ] ウィンドウの統計をコピーし、他のウィンドウやアプリケーションに貼り付けることができます。

軸と関連する設定は、複数のオプションによって制御されます。

Y 軸範囲

デフォルトの Y 軸範囲は、Y 軸上に表示されるデータ値の範囲に基づいて設定されます。 これらの値をカスタマイズするには、新しい目的の軸範囲値を入力します。 軸の範囲を設定すると、チャートの縮尺を一定に保つことができ、値を比較する際に役立ちます。 リセット ボタンをクリックすると、軸境界がデフォルト値に戻ります。

数値形式

数値形式のカテゴリを指定するか、カスタム形式の文字列を定義して、軸が数値を表示する方法を書式設定できます。 たとえば、「$#,###」は通貨の値を表示するカスタム形式の文字列として使用できます。

表示設定

タイトルと説明

チャートおよび軸には、変数名およびチャート タイプに基づいてデフォルトのタイトルが与えられます。 これらのタイトルは、[チャート プロパティ] ウィンドウの [一般] タブで編集できます。 [説明] にチャートの説明 (チャート ウィンドウの下部に表示される一連のテキスト) を入力することもできます。

[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の横にあるカラー パッチを使用して、ヒストグラムのビンの色を変更できます。

ガイド

参照または重要な値をハイライト表示する方法として、ガイドのラインまたは範囲を追加できます。 新しいガイドを追加するには、[チャート プロパティ] ウィンドウの [ガイド] タブで、[ガイドの追加] をクリックします。 ラインを描画するには、ラインを描画したい [値] を入力します。 範囲を作成するには、[幅] の値を入力します。 [ラベル] を指定して、ガイドにテキストを追加することもできます。

ワシントン D.C. の国勢調査ブロック グループ全体での人口密度の分布を視覚化するヒストグラムを作成します。

  • [数値] - Population Density

ワシントン D.C. の国勢調査ブロック グループ全体での人口密度の分布を示すヒストグラム