注意:
データ エンジニアリングは、Insights desktop で使用できます。 すべての Insights in ArcGIS Online および Insights in ArcGIS Enterprise ユーザーは、Insights desktop にアクセスすることができます。 詳細については、「ArcGIS Insights の概要」をご参照ください。
データ エンジニアリングは現時点でプレビュー版です。
列ツールは、特定の列でデータに変更を加える際に使用するもので、データ モデル下部にある表の各列から利用できます。 列ツールを適用すると、データ モデルに追加されます。
データ タイプの変換
データ タイプは、Insights で各列に適用されます。 入力データの形式によっては、デフォルトのデータ タイプが不適切な列が存在することがあります。 たとえば、.csv ファイルは日付/時間形式をサポートしていないため、すべての日付/時間列は文字列としてインポートされます。
列は文字列、整数、倍精度浮動小数点数、もしくは日付/時間のデータ タイプに変換できます。
[データ タイプの変換] を使用するには、次の手順を実行します。
- Insights desktop でデータ ワークブックを開き、必要に応じてデータを追加します。
- 列名の横の矢印をクリックすると、列ツール メニューが展開します。
注意:
モデル ビューまたはマップ ビューのみを使用している場合は、[テーブルを表示] ボタン をクリックします。
- [データ タイプの変換] を選択します。
- [出力データ タイプ] については、列の変換に適用したいデータ タイプを選択して必要な形式オプションを適用します。
- 列を日付または時間に変換する場合、日付/時間形式を入力します。
- 整数または浮動小数点数に変換する場合、データで使用する小数記号のタイプ ([ポイント] または [カンマ]) を選択します。
- [適用] をクリックします。
列が選択したデータ タイプに変換されます。
Integer
Integer データ タイプは小数の値を持たない数値です。
数値を持つ列は Integer に変換できます。 数値ではない文字が列に含まれている場合、その文字は削除されます。
小数の値が列に含まれている場合、小数点以下の数値は削除されます。整数値の端数処理は行われません。 数値の端数処理が必要な場合は、列を Double に変換して ROUND() 関数で新しい列を計算できます。
Integer データ タイプは Insights ワークブックの数値フィールドに読み込まれます。
Double
Double (または倍精度浮動小数点数) データ タイプは、小数の値を許容する数値です。
数値を持つ列は Double に変換できます。 数値ではない文字が列に含まれている場合、その文字は削除されます。
Double データ タイプは Insights ワークブックの数値フィールドに読み込まれます。
日付/時間
日付/時間列は日付のみ、時間のみ、または日付と時間を表示できます。
日付/時間形式を使用するには、列を日付/時間データ タイプに変換する必要があります。 デフォルトの日付/時間形式は ISO 8601 です。 ISO 8601 形式を使用していないデータでは、[カスタム形式] ボックスでデータにあわせた形式に変更する必要があります。
注意:
単一の列に存在するすべての日付と時間は同じ形式を使用する必要があります。 実務上は、12 時間制を使用してすべての時間値に対する期間コンポーネントを組み込み、正しい時間が確実に使用されるようにするのが良いでしょう。
日付/時間形式の作成では、次の変数がサポートされています。
日付/時間コンポーネント | 変数 | サポートされている値 |
---|---|---|
月 | MM | 01 ~ 12 |
M | 1 ~ 12 | |
日 | DD | 01 ~ 31 |
D | 1 ~ 31 | |
年 | YYYY | 4 桁の年 |
YY | 2 桁の年 (00 ~ 99) | |
時間 | HH | 00 ~ 24 |
H | 0 ~ 24 | |
hh | 01 ~ 12 | |
h | 1 ~ 12 | |
分 | mm | 00 ~ 59 |
m | 0 ~ 59 | |
秒 | ss | 00 ~ 59 |
s | 0 ~ 59 | |
期間 | A | AM、PM、またはロケールによりサポートされている期間形式。 |
a | ||
タイム ゾーン | ZZ | +HHmm または -HHmm |
TZD | +hh:mm または -hh:mm |
値のフィルタリング
属性フィルターはクエリを使用して不要なデータをデータセットから削除します。 このツールは、データセットのサイズを削減して分析に関連するデータだけを含めたい場合に使用できます。 たとえば、NULL 値を持つエントリを削除したり、データにフィルター処理をかけて指定した分析範囲や日付範囲に限定したいことがあるかもしれません。
[値のフィルタリング] を使用するには次の手順を実行します。
- Insights desktop でデータ ワークブックを開き、必要に応じてデータを追加します。
- 列名の横の矢印をクリックすると、列ツール メニューが展開します。
注意:
モデル ビューまたはマップ ビューのみを使用している場合は、[テーブルを表示] ボタン をクリックします。
- [値のフィルタリング] を選択します。
- 次のいずれかを実行します。
- 文字列の列をフィルター処理するには、表示したい固有の値を選択するか、除外したい値を選択解除します。
- 数値列または割合/比率列をフィルター処理するには、範囲の上限と下限のスライダーを調整するか、ノードをクリックして新しい値を指定します。
- 日付/時間列をフィルター処理するには、カレンダー ボタンと時計ボタンを使用し、開始日時と終了日時をそれぞれ調整します。 また、日付または時間をフィルターに直接入力することもできます。
各データ タイプに対するフィルター設定の適用については、「データのフィルタリング」をご参照ください。
- [適用] をクリックします。
フィルターが適用され、フィルター条件に一致しない行が取り除かれます。
検索と置換
注意:
現在、[検索と置換] は文字列の列で利用可能です。 数値または日付/時間列の値を置換するには、列を文字列に変換し、文字列を置換してから列を元のデータ タイプに変換しなおす必要があります。
検索と置換を使用すると、特定の値を列内で検索して、新しい値と置換することができます。 このツールは、プレースホルダーまたは NULL 値を持つデフォルト値を置換する、スペルミスのある文字列を修正する、一貫性のあるケーシングを作成するといったさまざまな用途に使用できます。
[検索と置換] を使用するには次の手順を実行します。
- Insights desktop でデータ ワークブックを開き、必要に応じてデータを追加します。
- 列名の横の矢印をクリックすると、列ツール メニューが展開します。
注意:
モデル ビューまたはマップ ビューのみを使用している場合は、[テーブルを表示] ボタン をクリックします。
- [検索と置換] を選択します。
- 次のいずれかを実行します。
- カスタム文字列の検索と置換を行うには、[文字列] タブ (デフォルト) に留まります。 [検索] ボックスで、列から検索したいカスタム文字列を入力します。 必要に応じて、[大文字と小文字を区別する] を選択して大文字と小文字を区別しながら検索し、[完全に一致する単語のみ] を選択して完全一致する文字列のみを返すようにします。
- 空の文字列の値を検索して置換するには、[空の文字列] タブをクリックします。
- NULL 値を検索して置換するには、[NULL] タブをクリックします。
- [置換後の文字列] ボックスに、一致する文字列と置換したい文字列を入力します。 空の文字列に置換するには、[置換後の文字列] ボックスを未入力のままにします。 空の文字列を NULL 値 ([空の文字列] タブ) に置換する場合、[NULL に置換] を選択します。
- 必要に応じ、[検索] をクリックして一致する文字列を検索、ハイライト表示します。
- [置換] をクリックして一致する文字列を検索置換します。
- 他の文字列についても検索置換の手順を繰り返すか、[完了] をクリックしてダイアログ ボックスを閉じます。
一致文字列が更新されます。
列の削除
[列の削除] ツールは、出力データセットから不要な列を取り除く場合に使用します。 削除された列は、[非表示フィールドの表示] を使用しても分析中に後から表示できません。 列の削除は出力データセットにのみ影響し、ソースとなるデータセットから列が削除されることはありません。
注意:
データ ワークブック内のデータセットは、少なくとも 1 つの列を持つ必要があります。 列が 1 つしかないデータセットでは、[列の削除] が無効になります。
データセットから列を削除するには次の手順を実行します。
- Insights desktop でデータ ワークブックを開き、必要に応じてデータを追加します。
- 列名の横の矢印をクリックすると、列ツール メニューが展開します。
注意:
モデル ビューまたはマップ ビューのみを使用している場合は、[テーブルを表示] ボタン をクリックします。
- [列の削除] を選択します。
テーブルから列が削除されます。
列のサマリーを表示
[列のサマリーを表示] では、列のデータを使用して、分布グラフの作成と統計の計算を行います。 このサマリーを使用すると、スペルミスのある文字列や異常値など、データの問題を見つけることができます。
注意:
[列のサマリーを表示] では、列の値を変更するのではなく、値を視覚化します。 そのため、[列のサマリーを表示] はデータ モデルには追加されません。
列のサマリーを作成するには次の手順を実行します。
- Insights desktop でデータ ワークブックを開き、必要に応じてデータを追加します。
- 列名の横の矢印をクリックすると、列ツール メニューが展開します。
注意:
モデル ビューまたはマップ ビューのみを使用している場合は、[テーブルを表示] ボタン をクリックします。
- [列のサマリーを表示] をクリックします。
列のチャートと統計情報とあわせてサイド パネルが表示されます。
文字列の列
文字列の列は棒グラフのサマリーを作成します。 棒グラフには列の固有値がフィーチャ数とあわせて表示され、サマリーには合計フィーチャ数、NULL 値の数、空の文字列の数、固有値の合計数について統計情報が表示されます。 必要に応じてチャート横にあるスライダーを使用して拡大表示し、すべての固有値を確認します。 [並び替え] ボタン を使用すると、チャートを昇順、降順、あるいはアルファベット順に並べ替えることができます。
個々のバーをクリックして、バー チャートのサマリーで選択を行うことができます。 該当する場合は、列のサマリーで選択した内容がテーブル ビューまたはマップ ビューに反映されます。
文字列のサマリーで、次の問題がないか探してみましょう。
- 列に NULL 値や空の文字列が含まれていませんか? NULL 値と空の文字列は別々に分析されます。 [検索と置換] ツールは、NULL 値を空の文字列に置換する場合などに使用します。
- すべての値に一貫したケーシングが使用されていますか? 一貫性のないケーシングは、単一の固有値として集約すべき値を不適切に区切ってしまうことがあります。 [検索と置換] ツールを使用すると、大文字と小文字を区別せずに文字列を検索して、一致したすべての値を単一の値に置換できます。
- スペルミスのある値が列に含まれていませんか? スペルに一貫性がないと、集約結果が不正確になります。 [検索と置換] ツールを使用すると、スペルミスのある値を検索して正しいスペルで置換できます。
数値列
数値列はヒストグラムのサマリーを作成します。 ヒストグラムは、数値をビンに集約して各ビンに含まれる値の頻度を表示します。 ヒストグラムには平均値と中央値が表示されて、サマリーには合計フィーチャ数、NULL 値の数、平均値、概算中央値、四分位数の上限と下限、標準偏差、歪度、超過尖度について統計情報が表示されます。 X 軸の下にあるスライダーを使用して、ヒストグラム上のビン数を変更できます。
個々のバーをクリックして、ヒストグラムのサマリーで選択を行うことができます。 該当する場合は、ヒストグラムのサマリーで選択した内容がテーブル ビューまたはマップ ビューに反映されます。
数値列のサマリーで、次の問題がないか探してみましょう。
- 異常値や有効な範囲を外れた値がデータセットに含まれていませんか? たとえば、列がパーセントの値を含む場合、有効な範囲は 0 から 100 になります。 [値のフィルタリング] ツールを使用して、不適切な値を持つ行を削除します。
- データは正規分布していますか? 回帰モデルの作成など一部の統計分析には、正規分布されたデータが必要になります。 [列の計算] ツールを使用して、座標変換を列に適用しましょう。
- プレースホルダーや削除すべきデフォルト値 (9999 など) がデータセットに含まれていませんか? [検索と置換] ツールを使用して (不適切なものであれば) 値を NULL 値に置換したり、[値のフィルタリング] ツールを使用してプレースホルダーまたはデフォルト値を含む行を削除したりできます。
注意:
現在、[検索と置換] は文字列の列に対してのみサポートされています。 数値列は文字列に変換し、文字列を置換してから数値 (Integer または Double) 列に変換しなおす必要があります。
日付/時間列
日付/時間列は時系列サマリーを作成します。 時系列は日付/時間値を間隔ごとに集約して、各間隔の数を表示します。 サマリーには、合計フィーチャ数、日付の最低値と最大値、NULL 値の数が表示されます。 時系列の上部にあるスライダーを使用して拡大表示し、グラフをより詳細な縮尺で表示できます。 ズーム レベルが必須の閾値を超えると、日付/時間の間隔が適切な間隔に更新されます。
個々の時点をクリックして、時系列のサマリーで選択を行うことができます。 該当する場合は、時系列のサマリーで選択した内容がテーブル ビューまたはマップ ビューに反映されます。
日付/時間列のサマリーで、次の問題がないか探してみましょう。
- 日付が必要な日付範囲に収まっていますか? [値のフィルタリング] ツールを使用すると、目的の日付/時間範囲内の数値のみを残すことができます。
- プレースホルダーや削除すべきデフォルト値 (1000-01-01 など) がデータセットに含まれていませんか? [検索と置換] ツールを使用して (不適切なものであれば) 値を NULL 値に置換したり、[値のフィルタリング] ツールを使用してプレースホルダーまたはデフォルト値を含む行を削除したりできます。
注意:
現在、[検索と置換] は文字列の列に対してのみサポートされています。 日付/時間列は文字列に変換し、文字列を置換してから日付/時間列に変換しなおす必要があります。