ヒストグラム

ヒストグラムでは、特定の値がデータセット内に表示される頻度を計測して、連続数値変数の分布を視覚的に集約します。 ヒストグラムの X 軸は、数値範囲 (ビン) に分割された数値ラインです。 ビンごとにバーが描画され、バーの幅はビンの範囲を表し、バーの高さはその範囲内にあるデータ ポイントの数を表します。 データの分布を理解することは、データ探索プロセスにおける重要な足掛かりになります。

変数

ヒストグラムでは、X 軸上に 1 つの連続した [数値] の変数が必要です。

複数のシリーズ

次のビデオでは、[分割] フィールドを使用して、複数のシリーズのヒストグラムを作成する方法を示します。

Play Video

  • 視聴時間: 0:57
  • このビデオは、ArcGIS Pro 3.2 を使用して、作成されています。

複数のシリーズのヒストグラムを作成するには、[分割] コントロールを設定します。 [分割] コントロールを設定すると、フィールド内の個別カテゴリの数に基づいてヒストグラムが複数のシリーズに分割されます。 たとえば、住宅価格に関連したデータセットのヒストグラムを表示する場合は、市内の住宅価格の分布を確認するために [数値] コントロールを SoldPrice に設定します。 [分割] コントロールを Neighborhood に設定すると、ヒストグラムが N シリーズに分割されます。ここで、N は一意の近傍値の数を示します。 複数のシリーズのヒストグラムには、N 個のミニチャート (一意の Neighborhood 値ごとに 1 つ) が表示されるため、[分割] の値全体で住宅価格の分布を比較することができます。

注意:

一意の値を数多く含むカテゴリ フィールドは、複数のシリーズへの分割には適していません。

複数のシリーズのヒストグラムは、グリッド レイアウトでしか表示できません。グリッド レイアウトは、[チャート プロパティ] ウィンドウの [シリーズ] タブでカスタマイズできます。 [行ごとのミニ チャート] の値を設定することで、グリッド チャートのレイアウトの寸法をカスタマイズすることができます。 たとえば、[行ごとのミニ チャート] を 3 に設定した場合、1 行につき最大 3 つのチャートが表示され、グリッドの行の総数はチャート内のシリーズの数によって決まります。 [チャートのプレビュー表示] チェックボックスをオンにすると、大きいプレビュー チャートで表示するミニ チャートを選択して、各ミニ チャートを細かく動的に探索することができます。

マルチシリーズ ヒストグラム

変換

解析方法には、データが正規分布していることを必要とするものもあります。 データが偏っている (分布が不均衡) 場合は、データを変換して、正規化できます。 ヒストグラムを使用すると、データ分布で対数変換や平方根変換の効果を探索できます。 参考までに、[チャート プロパティ] ウィンドウの [正規分布の表示] チェックボックスをオンにすると、正規分布オーバーレイをヒストグラムに追加できます。

対数変換

対数変換は、データの分布が正に偏り、大きい値がいくつかある場合によく使用されます。 これらの大きな値がデータセット内にある場合、対数変換は、分散をより一定にし、データを正規化するのに役立ちます。

たとえば、最初のチャートにある正に偏った分布は、2 つ目のチャートで対数変換を使用して正規分布に変換されます。

2 つの人口チャート

注意:

対数変換は、0 より大きい数値にのみ適用できます。

平方根変換

平方根変換は、データセットの右の歪度を減らした対数変換に似ています。 対数変換とは異なり、平方根変換は 0 に適用できます。

注意:

平方根変換は、0 以上の数値にのみ適用できます。

逆変換

逆変換は、フィールド内の各値 (x) の逆数 (1/x) を取ります。

注意:

逆変換は値ゼロには適用できません。 フィールド内に値ゼロがある場合、この値は NULL 値として評価されます。

Box-Cox 変換

Box-Cox 変換は、値を正規分布させるために次の累乗関数を適用します。

Box-Cox 変換

ここで、x' は変換後の値、x は元の値、λ1[累乗] パラメーター値、λ2[シフト] パラメーター値です。

注意:

Box-Cox 変換は正の値にしか適用できません。 負またはゼロの値が存在する場合、すべての値が正になるように [シフト] パラメーターを使用します。

ビンの数

ビンの数は、デフォルトでデータセット内のレコード数の平方根に設定されています。 この値を調整するには、[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の値を変更します。 クラスを変更すると、データの構造の詳細または概要を確認できます。

注意:

ヒストグラムは最大 64 個のビンに制限されています。 使用されるビン数が多すぎるとヒストグラムのノイズも多くなり、分布の特性を解釈するのが難しくなるため、この制限が課せられています。

統計

いくつかの記述統計が計算され、ヒストグラムの縦線として表示されます。 平均値と中央値はそれぞれ 1 つのラインで表示され、平均値を上回る標準偏差と平均値を下回る標準偏差は 2 つのラインで表示されます。 チャートの凡例に含まれるこれらのアイテムをクリックして、オン/オフを切り替えることができます。

統計テーブルは [チャート プロパティ] ウィンドウの [データ] タブに表示されます。このテーブルには、選択された数値フィールドについて次の統計が含まれます。

  • 平均
  • 中央値
  • 標準偏差
  • 個数
  • 最小値
  • 最大値
  • 合計
  • Null
  • 歪度
  • 尖度

チャートのソース レイヤーの選択セットがある場合、統計テーブルには完全なデータセットの統計を表示する列が 1 つ、選択セットの統計のみを表示する列が 1 つ含まれます。

統計情報テーブルには、ヒストグラムの平均値、中央値、標準偏差ラインのオンとオフを切り替えたり、色を変更したりするコントロールもあります。

[チャート プロパティ] ウィンドウから他のウィンドウまたはアプリケーションに統計情報をコピーするには、統計テーブル内を右クリックし、[テーブルのコピー][行のコピー][値のコピー] を選択します。

軸と関連する設定は、複数のオプションによって制御されます。

Y 軸範囲

デフォルトの Y 軸範囲は、Y 軸上に表示されるデータ値の範囲に基づいて設定されます。 これらの値をカスタマイズするには、新しい軸範囲値を指定します。 軸の範囲を設定すると、チャートの縮尺を一定に保つことができ、値を比較する際に役立ちます。 リセット ボタンをクリックすると、軸境界がデフォルト値に戻ります。

格子線の間隔

[間隔] コントロールを使用して、Y 軸の格子線の間隔を構成します。 デフォルトの格子線の間隔は、自動的に計算されます。

数値形式

数値形式のカテゴリを指定するか、カスタム形式の文字列を定義して、軸が数値を表示する方法を書式設定できます。 たとえば、$#,### は通貨の値を表示するカスタム形式の文字列として使用できます。

表示設定

タイトルと説明

チャートおよび軸には、変数名およびチャート タイプに基づいてデフォルトのタイトルが与えられます。 これらのタイトルは、[チャート プロパティ] ウィンドウの [一般] タブで編集できます。 [説明] にチャートの説明 (チャート ウィンドウの下部に表示される一連のテキスト) を入力することもできます。

[チャート プロパティ] ウィンドウの [データ] タブで [ビン] の横にあるカラー パッチを使用して、ヒストグラムのビンの色を変更できます。

ガイド

参照または重要な値をハイライト表示する方法として、ガイドのラインまたは範囲を追加できます。 新しいガイドを追加するには、[チャート プロパティ] ウィンドウの [ガイド] タブで、[ガイドの追加] をクリックします。 ラインを描画するには、ラインを描画したい [値] を入力します。 範囲を作成するには、[幅] の値を入力します。 [ラベル] を指定して、ガイドにテキストを追加することもできます。

以下のヒストグラムは、ワシントン D.C. の国勢調査ブロック グループ全体での人口密度の分布を視覚化したものです。

  • [数値] - Population Density

人口密度のヒストグラム