ヒストグラムは、数値データをビンと呼ばれる等間隔のグループに集約し、各ビン内の値の頻度を表示します。 ヒストグラムは、単一の数値または割合/比率フィールドを使用して作成します。
ヒストグラムは、「データセット内の数値および数値の発生頻度の分布はどうなっているか?」や 「外れ値はあるか?」といったデータに関する質問に答えることができます。
例
ある民間保健機関が、米国の若者の肥満度を調べています。 各州の若者の肥満の頻度を表すヒストグラムを使用して、肥満率の分布を確認できます。これには、最も一般的な頻度と最小の頻度、全体的な範囲も含まれます。
上記のヒストグラムは正規分布を示しており、最も頻度が高いレートは 10 ~ 14% の範囲であることがわかります。
ビン数を増減させると、データの分析に影響を与えます。 データは変わりませんが、見た目は変化します。 データのパターンを誤って解釈しないよう、データに適したビン数を選択してください。 ビン数が少なすぎると重要なパターンを見逃してしまい、多すぎると、想定されるデータの変動の重要性を低いものにします。 次の図に、データに適したビンの個数の例を示します。 それぞれのビンには約 1% の範囲が含まれており、より細かい尺度でデータを調べることができ、ビンが 6 個の場合には見えないパターンが表示されます。 この場合に現れるパターンは平均値周辺の正規分布で、ごくわずかに左側に傾いていますが、この傾きには有意性はないと思われます。
ヒストグラムの作成
ヒストグラムを作成するには、次の手順に従います。
- 数値 または割合/比率フィールド を選択します。
ヒント:
データ ウィンドウで検索バーを使用して、フィールドを検索できます。
- 次の手順を使用して、ヒストグラムを作成します。
- 選択したフィールドを新しいカードにドラッグします。
- [チャート] ドロップ領域にポインターを置きます。
- 選択したフィールドを [ヒストグラム] にドロップします。
ヒント:
データ ウィンドウの上にある [チャート] メニューまたは既存のカード上の [可視化タイプ] ボタン を使用して、チャートを作成することもできます。 [チャート] メニューの場合、データ選択に対応しているチャートのみが、有効化されます。 [可視化タイプ] メニューの場合、対応している視覚化 (マップ、チャート、またはテーブルを含む) のみが表示されます。
ヒストグラムは、[ヒストグラムの表示] を使用して作成することもできます。これには、[回答の検索] > [どのように分布していますか?] の下にある [アクション] ボタン からアクセスできます。
使用上の注意
ヒストグラムは、単一の値を使用してシンボル表示されます。 [レイヤー オプション] ボタン を使用して、すべてのビンに適用されるシンボル色とアウトライン色を変更できます。
ヒストグラムを作成すると、Insights は、データを表示するのに適したビン数を自動的に計算します。 ビン数を変更するには、X 軸に沿ったスライダーを使用するか、ビン数をクリックして新しい数を入力します。
注意:
選択したビン数がデータ範囲に均等に分割されない場合は、小数の値を使用してビンが計算されます。 ヒストグラムでは、ビンのラベルには小数ではなく四捨五入された整数が表示されます。 四捨五入した整数は表示目的のみで、すべての計算で小数の値が使用されます。 ビンに上限または下限に近いデータ値が含まれていて、ラベルが四捨五入されている場合、ラベルには小数ではなく四捨五入された整数が表示されているため、ビンの開始値と終了値の表示が誤っているように見える場合があります。
[チャートの統計情報] ボタン は、データの平均値、中央値、および正規分布を表示する場合に使用します。 正規分布曲線は、連続的データのランダムなサンプルの期待される分布を表します。正規分布曲線では、最高の頻度の値が平均値を中心にして中央に表示され、値が平均値から離れて増加または減少するにつれて、値の頻度が減少します。 正規分布曲線は、データに偏り (たとえば、データに頻度の高い小さい値が存在する) または外れ値が存在するかどうかの判断に役立ちます。
[可視化タイプ] ボタン を使用して、ヒストグラムと、等級シンボル マップまたは集計テーブル間を直接切り替えます。
[カードの反転] ボタン を使用して、カードの裏面を表示します。 [カード情報] タブ には、カード上のデータに関する情報が記載されており、[データのエクスポート] タブ を使用すると、カードからデータをエクスポートすることができます。
ヒストグラムの背後には、計算値 (平均値、中央値、標準偏差、歪度、および尖度 (単純化)) が表示されます。 下記の表で歪度と尖度について説明します。
統計 | 説明 |
---|---|
歪度 | 歪度は、データの分布が対称的かどうかを決定します。 歪度の計測値は、分布値の大部分が平均値の左または右のいずれに存在するかを決定します。 正規分布の歪度はゼロであり、平均値の両側でデータ量が等しいことを示します。 歪度の値は、次のようにゼロ、負、または正になります。
|
尖度 | 尖度は頻度分布の形状を表し、分布が外れ値を生成する可能性の尺度を提供します。 相対的に尾部が厚い分布は、急尖的と呼ばれ、ゼロよりも大きい尖度を持ちます。 相対的に尾部が薄い分布は、緩尖的と呼ばれ、ゼロよりも小さい尖度を持ちます。 正規分布の尖度は 3 に等しくなり、単純化された尖度を使用した場合、正規分布の尖度はゼロになります (この値は、尖度と同じ公式を使用して 3 を引くことによって得られます)。 単純化された歪度の値は、次のようにゼロ、負、または正になります。
|