注意:
データ エンジニアリングは、Insights desktop で使用できます。 すべての Insights in ArcGIS Online および Insights in ArcGIS Enterprise ユーザーは、Insights desktop にアクセスすることができます。 詳細については、「ArcGIS Insights の概要」をご参照ください。
データ エンジニアリングは現時点でプレビュー版です。
[インポート オプション] メニューのツールは、データ ワークブックに追加される際にデータセットに適用されますが、データ モデルには追加されません。
インポート ツール
データセットをデータ ワークブックにインポートする際には、次のツールを使用できます。
ツール | 説明 |
---|---|
高度なフィルターをデータセットに適用し、サンプル データセットに含めるフィールドを選択します。 | |
空のスペースを切詰め | 文字列値の先頭および末尾から空のスペースを削除します。 このツールは、デフォルトで有効になっています。 |
データセットのサンプルを作成する方法を選択します。 このツールは、レコード数が 250,000 を超えるデータセットで使用できます。 |
インポート オプションの使用
インポート ツールをデータセットに適用するには、次の手順を実行します。
- 次のいずれかの操作を実行して、[ページに追加] ウィンドウを開きます。
- データ ワークブックを作成します。 データ ワークブックが作成されると、[ページに追加] ウィンドウが表示されます。
- 既存のデータ ワークブックのデータ ウィンドウの上にある [ページに追加] ボタンをクリックします。
- データセットを選択してデータ ワークブックに追加します。
- [インポート オプション] ボタンをクリックして、次の操作を行います。
- [フィルター データセット] を選択して高度なフィルターを適用し、サンプル データセットに含めるフィールドを選択します。
- 文字列の先頭および末尾から空のスペースを削除するかどうかを選択します (デフォルトで有効)。
- データセットのレコード数が 250,000 を超えている場合、サンプリング方法で、[ランダム] (デフォルト) か [固定] のどちらを使用するかを選択します。
- [追加] をクリックします。
サンプリング方法
データをサンプリングするには、[ランダム] と [固定] の 2 つの方法があります。
ランダム
[ランダム] は、データセットからランダムに 250,000 レコードを選択するサンプリング方法です。 この方法は、個別値と数値の範囲の代表的なサンプルを作成するのに向いています。 ただし、比較的出現回数の少ない値は、サンプルに選択されない可能性があります。 たとえば、一度しか表示されない文字列の列の入力ミスは、ランダム サンプルでは選択されない可能性があります。その場合、データ エンジニアリング ワークフローの一環で入力ミスを修正すべきであることを把握できません。
[ランダム] 法は、ほとんどのデータセットに推奨されます。
注意:
追加設定が必要なデータベース コネクタの場合、ランダム サンプリングをサポートできるよう構成ファイルを更新しておく必要があります。 使用しているコネクタの構成ファイルが最新でない場合、既存のコネクタ タイプを削除してから最新のファイルが付属したコネクタを再追加する必要があります。
組織に Insights 2022.2 以降がインストールされていない場合、ArcGIS Enterprise へのデータ専用接続はランダム サンプリングをサポートしていません。
[Living Atlas] と [ArcGIS パブリック] タブのデータの場合、ランダム サンプリングはサポートされていない場合があります。
固定
[固定] は、レコードをデータセットに作成された順に選択するサンプリング方法です。 デフォルトのサンプル サイズは 250,000 レコードですが、データセットをインポートする際にサンプル サイズを増減させることができます。
[固定] 法は、サンプル サイズを増やしたい場合や、レコードを作成された順に使用すれば代表的なサンプルを作成できるデータセットの場合に使用します。
レコードの並び順がサンプルに存在する値に影響を与えるようなデータセットの場合、[固定] 法は使用しないでください。 たとえば、ある国の気象データを数年分格納するデータセットがあるとします。ただし、このデータセットの最初の 250,000 レコードには、最初の 2 か月のデータしか含まれていません。 その場合、最初の 250,000 レコードは、データセット全体に記録されている日付、気温、降水量などの気象の状態を代表するデータにはなりません。