ベンチマーク比較ワークフローでは、指定した条件とベンチマーク値を使用してサイトを比較します。 まず、解析に含めるサイトを選択し、変数を選択して、比較するベンチマークを設定します。 このワークフローでは、マップ上にカラーコード シンボルとして表示されるサイトを比較し、比較方法やベンチマーク値の変更に伴って解析を調整します。 この解析の結果は、[結果] ウィンドウに表示され、新規レイヤーとしてプロジェクトに保存するか、Excel ワークシートとしてエクスポートできます。
例
B to C (企業と消費者間) 向けの代理店が、テレビ広告キャンペーンのために、ペンシルベニア州ピッツバーグの地域を調査しています。 ベンチマーク比較ワークフローを使用して、ピッツバーグの DMA (指定商圏) 内の郵便番号と [人口と所得] 変数リストを比較し、ベンチマーク値として中央値を使用します。 マップでは [ベンチマークの上下] による比較方法で色分けし、郵便番号が中央値を上回るか下回るかを表します。
代理店は、この解析をもとに、サイトとベンチマーク値との比較に基づいて、広告キャンペーンのターゲットを絞ります。 たとえば、中央値を上回る郵便番号は収入が高い地域や人口が多い地域を表すので高級品の広告に向いているが、中央値を下回る郵便番号は財布に優しい商品をターゲットにするなどです。 代理店がさらに解析を実施する必要がある場合は、同じ地域内で異なるタイプの商品やサービスをターゲットにすることを示唆するような所得格差が存在するかどうか、標準偏差を用いて評価することもできます。
結果
解析の結果はマップ レイヤーとして、および [結果] ウィンドウで表示できます。このウィンドウには、[サマリー] 、[ヒストグラム] 、[バブル チャート] 、[テーブル] が含まれています。 ベンチマーク比較の [結果] ウィンドウの詳細については、「結果ウィンドウのリファレンス」をご参照ください。 マップ上の各サイトは、ベンチマーク比較を表すために色分けされます。
計算
ベンチマーク比較では、データの分布を使用して、ベンチマークとの相対的なパフォーマンスを比較します。 この解析では、中心傾向、データの散らばり、データ分布の形状を計測します。 これらの洞察は、データが集中しているか広く散らばっているか、あるいは極値があるかどうかを識別するうえで役立ちます。
中心傾向の計測
中心傾向の計測は、データの傾向を集計するために使用されます。 ベンチマーク比較ワークフローでは、平均値と中央値をベンチマークに使用できます。
平均
平均は、すべての値の和を、値の数で除算することで計算されます。 これはデータの中央ポイントになります。 ベンチマーク比較では、データの平均をベンチマークと比較することで、データが平均的にベンチマークを上回る傾向があるか下回る傾向があるかを評価します。
中央値
中央値とは、最小から最大にデータを並べたときに中央にくる値を指します。 データセットに偏りがある場合、中央値は平均値よりも中心傾向をより効果的に示すことがあります。中央値は、平均値に偏りを生じさせる極値や外れ値の影響を受けにくいためです。 ベンチマーク比較では、特に偏りのあるデータがある場合に、典型的な値を理解するために中央値が使われることが多々あります。
データの散らばり
データの散らばりは、IQR (四分位範囲) または SD (標準偏差) のいずれかを使用して計測されます。 IQR は、偏りがあるデータや非正規のデータによる解析に適していますが、標準偏差はデータの正規分布による解析に適しています。 データの散らばりを解析すると、異常な値や外れ値を特定できます。 外れ値とは、異常な範囲に存在し、残りのデータのパターンに従わないデータ ポイントまたは値を表します。 具体的には、外れ値は通常、正規分布の平均値から Q3 を 1.5 * IQR 上回る値、Q1 を 1.5 * IQR 下回る値、または正規分布で平均値から 3 標準偏差以上離れた値を指します。
最小値と最大値は、すべてのデータが収まる範囲を定義します。 ベンチマーク比較では、最小値と最大値は、基準データ (つまり比較に使用されるベンチマーク) と比べてデータの範囲や散らばり、すなわちデータ値の分布の大きさを特定するうえで役立ちます。 最小値は、データの一番小さい値です。 最大値は、データの一番大きい値です。
IQR (四分位範囲)
IQR (四分位範囲) はデータの中央 50% の散らばりを計測します。 第 1 四分位 (Q1) と第 3 四分位 (Q3) 間の範囲を表します。
- Q1 (第 1 四分位): 25 パーセンタイル。データの 25% がこの値以下になります。
- Q2 (第 2 四分位、中央値): 50 パーセンタイル、またはデータの中央値。
- Q3 (第 3 四分位): 75 パーセンタイル。データの 75% がこの値以下になります。
IQR はデータの中央の散らばりを特定する際に便利で、多くの場合は箱ひげ図で視覚化されます。 データの中央の 50% が含まれる範囲に注目することで、極値や外れ値を除外した中央値周辺のデータのばらつきに関する洞察を得ることができます。
標準偏差
標準偏差は、データセット内のばらつきと分散を計測します。 正規分布では、データ ポイントの約 68.1% が平均値の ±1 標準偏差以内、約 95.4% が ±2 標準偏差以内、約 99.7% が ±3 標準偏差以内に収まります。 標準偏差が低いということはほとんどのデータ ポイントが平均値に近いことを意味し、標準偏差が高いということはデータの散らばりが大きいことを意味します。 標準偏差を評価すると、ベンチマークと比較したときのデータの散らばりを把握できます。
データ分布の形状
データ分布の形状は、歪度と尖度で計測できます。 歪度は、データ分布の対称性の尺度です。 ベンチマークと比較し、データが高い値に傾いているか、低い値に傾いているかを示すことができます。 尖度は、正規分布と比較したデータ分布の裾の尖鋭さと重さを示します。 正規分布と比べたときに、外れ値が存在することを示します。
歪度
歪度は、以下のように Pearson Mode Skewness を用いて計算されます。
この式は、平均値と中央値を比較することで、データセットの非対称性を計測します。 3 は歪みのある分布における典型的な関係を調整する経験的定数です。ここで、歪みのあるデータでは、平均値と中央値の差は約 3 倍になります。 データが対称からどの程度逸脱しているかを定量化し、データに平均値と比較して極端に低い値や高い値があるかどうかを示します。
計算後、3 つのタイプの歪みが見られます。
歪みのタイプ | 画像 | 説明 | 計算 |
---|---|---|---|
対称分布 | 歪みはなく、データは平均値周辺に均等に散らばっています。 |
| |
正の歪み (右側に偏っている) | より多くの値が平均値を下回り、右の裾が長くなります。 |
| |
負の歪み (左側に偏っている) | より多くの値が平均値を上回り、左の裾が長くなります。 |
|
尖度
尖度は、次の式を使用して計算されます。
この式では、[n] は観測数、[μ] は人口平均、[σ] は人口の標準偏差を表します。 正の尖度は分布が正規よりも尖鋭であることを示し、負の尖度は分布がより平坦であることを示します。 正規分布の尖度は 0 です。
計算後、3 つのタイプの尖度が見られます。
尖度のタイプ | 画像 | 説明 | 計算 |
---|---|---|---|
中尖的 | 外れ値がわずかな正規分布に似ています。 |
| |
急尖的 | 裾が重い先の尖鋭な分布になり、外れ値が多いことを示します。 |
| |
緩尖的 | 裾が軽い平坦な分布になり、外れ値が少ないことを示します。 |
|
制限事項
最大で 5,000 の既存サイトを選択できます。 また、マップ上の最大 1,000 のフィーチャ (たとえば、目標物検索またはファイルのインポートによってマップに追加されたフィーチャ) を選択することもできます。
クレジット
このワークフローでは、クレジットが消費されます。 結果を Excel にエクスポートすると、推定で 1,000 レコードにつき 10 クレジットがかかります。
Business Analyst Web App でのクレジット消費の詳細については、「クレジット」をご参照ください。
リソース
ベンチマーク比較の詳細については、「ベンチマーク比較の実行」をご参照ください。