ヒストグラムでは、特定の値がデータセット内に表示される頻度を計測して、連続数値変数の分布を視覚的に集約します。 ヒストグラムの X 軸は、数値範囲 (ビン) に分割された数値ラインです。 ビンごとにバーが描画され、バーの幅はビンの範囲を表し、バーの高さはその範囲内にあるデータ ポイントの数を表します。 データの分布を理解することは、データ探索プロセスにおける重要な足掛かりになります。
変数
ヒストグラムでは、X 軸上に 1 つの連続した [数値] の変数が必要です。
複数のシリーズ
次のビデオでは、[分割] フィールドを使用して、複数のシリーズのヒストグラムを作成する方法を示します。
- 視聴時間: 0:57
- このビデオは、ArcGIS Pro 3.2 を使用して、作成されています。
複数のシリーズのヒストグラムを作成するには、[分割] コントロールを設定します。 [分割] コントロールを設定すると、フィールド内の個別カテゴリの数に基づいてヒストグラムが複数のシリーズに分割されます。 たとえば、住宅価格に関連したデータセットのヒストグラムを表示する場合は、市内の住宅価格の分布を確認するために [数値] コントロールを SoldPrice に設定します。 [分割] コントロールを Neighborhood に設定すると、ヒストグラムが N シリーズに分割されます。ここで、N は一意の近傍値の数を示します。 複数のシリーズのヒストグラムには、N 個のミニチャート (一意の Neighborhood 値ごとに 1 つ) が表示されるため、[分割] の値全体で住宅価格の分布を比較することができます。
注意:
一意の値を数多く含むカテゴリ フィールドは、複数のシリーズへの分割には適していません。
複数のシリーズのヒストグラムは、グリッド レイアウトでしか表示できません。グリッド レイアウトは、[チャート プロパティ] ウィンドウの [シリーズ] タブでカスタマイズできます。 [行ごとのミニ チャート] の値を設定することで、グリッド チャートのレイアウトの寸法をカスタマイズすることができます。 たとえば、[行ごとのミニ チャート] を 3 に設定した場合、1 行につき最大 3 つのチャートが表示され、グリッドの行の総数はチャート内のシリーズの数によって決まります。 [チャートのプレビュー表示] チェックボックスをオンにすると、大きいプレビュー チャートで表示するミニ チャートを選択して、各ミニ チャートを細かく動的に探索することができます。
変換
解析方法には、データが正規分布していることを必要とするものもあります。 データが偏っている (分布が不均衡) 場合は、データを変換して、正規化できます。 ヒストグラムを使用すると、データ分布で対数変換や平方根変換の効果を探索できます。 参考までに、[チャート プロパティ] ウィンドウの [正規分布の表示] チェックボックスをオンにすると、正規分布オーバーレイをヒストグラムに追加できます。
対数変換
対数変換は、データの分布が正に偏り、大きい値がいくつかある場合によく使用されます。 これらの大きな値がデータセット内にある場合、対数変換は、分散をより一定にし、データを正規化するのに役立ちます。
たとえば、最初のチャートにある正に偏った分布は、2 つ目のチャートで対数変換を使用して正規分布に変換されます。
注意:
対数変換は、0 より大きい数値にのみ適用できます。
平方根変換
平方根変換は、データセットの右の歪度を減らした対数変換に似ています。 対数変換とは異なり、平方根変換は 0 に適用できます。
注意:
平方根変換は、0 以上の数値にのみ適用できます。
逆変換
逆変換は、フィールド内の各値 (x) の逆数 (1/x) を取ります。
注意:
逆変換は値ゼロには適用できません。 フィールド内に値ゼロがある場合、この値は NULL 値として評価されます。
Box-Cox 変換
Box-Cox 変換は、値を正規分布させるために次の累乗関数を適用します。
ここで、x' は変換後の値、x は元の値、λ1 は [累乗] パラメーター値、λ2 は [シフト] パラメーター値です。
注意:
Box-Cox 変換は正の値にしか適用できません。 負またはゼロの値が存在する場合、すべての値が正になるように [シフト] パラメーターを使用します。
ビンの数
ビンの数は、デフォルトでデータセット内のレコード数の平方根に設定されています。 この値を調整するには、[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の値を変更します。 クラスを変更すると、データの構造の詳細または概要を確認できます。
注意:
ヒストグラムは最大 64 個のビンに制限されています。 使用されるビン数が多すぎるとヒストグラムのノイズも多くなり、分布の特性を解釈するのが難しくなるため、この制限が課せられています。
統計
いくつかの記述統計が計算され、ヒストグラムの縦線として表示されます。 平均値と中央値はそれぞれ 1 つのラインで表示され、平均値を上回る標準偏差と平均値を下回る標準偏差は 2 つのラインで表示されます。 チャートの凡例に含まれるこれらのアイテムをクリックして、オン/オフを切り替えることができます。
統計テーブルは [チャート プロパティ] ウィンドウの [データ] タブに表示されます。このテーブルには、選択された数値フィールドについて次の統計が含まれます。
- 平均
- 中央値
- 標準偏差
- 個数
- 最小値
- 最大値
- 合計
- Null
- 歪度
- 尖度
チャートのソース レイヤーの選択セットがある場合、統計テーブルには完全なデータセットの統計を表示する列が 1 つ、選択セットの統計のみを表示する列が 1 つ含まれます。
統計情報テーブルには、ヒストグラムの平均値、中央値、標準偏差ラインのオンとオフを切り替えたり、色を変更したりするコントロールもあります。
[チャート プロパティ] ウィンドウから他のウィンドウまたはアプリケーションに統計情報をコピーするには、統計テーブル内を右クリックし、[テーブルのコピー]、[行のコピー]、[値のコピー] を選択します。
軸
軸と関連する設定は、複数のオプションによって制御されます。
Y 軸範囲
デフォルトの Y 軸範囲は、Y 軸上に表示されるデータ値の範囲に基づいて設定されます。 これらの値をカスタマイズするには、新しい軸範囲値を指定します。 軸の範囲を設定すると、チャートの縮尺を一定に保つことができ、値を比較する際に役立ちます。 リセット ボタンをクリックすると、軸境界がデフォルト値に戻ります。
格子線の間隔
[間隔] コントロールを使用して、Y 軸の格子線の間隔を構成します。 デフォルトの格子線の間隔は、自動的に計算されます。
数値形式
数値形式のカテゴリを指定するか、カスタム形式の文字列を定義して、軸が数値を表示する方法を書式設定できます。 たとえば、$#,### は通貨の値を表示するカスタム形式の文字列として使用できます。
表示設定
タイトルと説明
チャートおよび軸には、変数名およびチャート タイプに基づいてデフォルトのタイトルが与えられます。 これらのタイトルは、[チャート プロパティ] ウィンドウの [一般] タブで編集できます。 [説明] にチャートの説明 (チャート ウィンドウの下部に表示される一連のテキスト) を入力することもできます。
色
[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の横にあるカラー パッチを使用して、ヒストグラムのビンの色を変更できます。
ガイド
参照または重要な値をハイライト表示する方法として、ガイドのラインまたは範囲を追加できます。 新しいガイドを追加するには、[チャート プロパティ] ウィンドウの [ガイド] タブで、[ガイドの追加] をクリックします。 ラインを描画するには、ラインを描画したい [値] を入力します。 範囲を作成するには、[幅] の値を入力します。 [ラベル] を指定して、ガイドにテキストを追加することもできます。
例
以下のヒストグラムは、ワシントン D.C. の国勢調査ブロック グループ全体での人口密度の分布を視覚化したものです。
- [数値] - Population Density