ドキュメントとテキストからの位置の抽出

ArcGIS LocateXT エクステンションの一部として、ArcGIS AllSource[位置の抽出] ウィンドウでは、ドキュメントとテキストをスキャンして空間座標とカスタム位置を検索できます。 見つかった位置を追加するマップを開きます。 その位置を表すポイントがフィーチャクラスに格納され、アクティブなマップにレイヤーとして追加されます。

[位置の抽出] ウィンドウを開く

[位置の抽出] ウィンドウを開くためには、ArcGIS AllSource でマップがアクティブになっている必要があります。

  1. マップを作成するか開きます。 たとえば、[マップ] タブの [挿入] グループで、[新しいマップ] をクリックします。
  2. [データ] タブの [インポート] グループで、[位置の抽出] 位置の抽出 をクリックします。

    [位置の抽出] ウィンドウが表示されます。

位置の抽出

[位置の抽出] ウィンドウの [抽出] タブで以下を指定できます。

  • 位置をスキャンするファイル、フォルダー、またはテキスト
  • 作成または更新するマップ レイヤーと出力フィーチャクラスの名前
  • 作成する出力フィーチャクラスの座標系

ドキュメントまたはテキストから位置を抽出するたびに、フィーチャクラスを作成して新しいレイヤーをアクティブなマップに追加するか、既存のマップ レイヤーとフィーチャクラスを更新するか、または既存のフィーチャクラスを上書きするかを選択できます。

マップへの新しいレイヤーの追加

抽出した位置を格納するフィーチャクラスが作成されます。 フィーチャクラスのコンテンツが表示されるマップ レイヤーがアクティブなマップに作成されます。

  1. [位置の抽出] ウィンドウを開きます。
  2. 次のいずれかの操作を行って、作成する新しいマップ レイヤーとフィーチャクラスの名前を指定します。
    • 新しいマップ レイヤーとフィーチャクラスの名前を [名前] テキスト ボックスに入力します。 プロジェクトのデフォルト ジオデータベースに、この名前を持つ新しいフィーチャクラスが作成されます。
    • [参照] ボタン 参照 をクリックし、[新しいフィーチャクラス] ダイアログ ボックスで、フィーチャクラスまたはシェープファイルを作成する場所を参照します。 [名前] テキスト ボックスに新しいアイテムの名前を入力し、[保存] をクリックします。
      注意:

      新しいフィーチャクラスの名前を指定せずに既存のフィーチャクラスを選択した場合は、[位置の抽出] ウィンドウに警告が表示されます。 既存のフィーチャクラスが削除され、同じ名前を持つ新しいフィーチャクラスが作成されます。 他のマップも影響を受けることがあります。

  3. [座標系] ドロップダウン リストまたは [座標系の選択] ボタン 座標系 をクリックし、出力フィーチャクラスに使用する座標系をクリックします。

    入力フィーチャの座標系はこれとは別に [座標] タブカスタム位置情報ファイルで指定します。 見つかった位置が出力フィーチャクラスの座標系に変換されます。

  4. [ファイルとフォルダー] タブをクリックし、位置をスキャンするアイテムを指定します。
    • ファイルとフォルダーを Windows エクスプローラーからタブ上にドラッグします。
    • [参照] をクリックし、[ファイルとフォルダーの追加] ダイアログ ボックスで、適切なファイルまたはフォルダーを参照して選択し、[OK] をクリックします。 [追加] をクリックして、ファイルとフォルダーをリストに追加します。
  5. [テキスト] タブをクリックし、位置をスキャンするテキストを指定します。
    • ドキュメント、電子メール、または Web ページからテキストをコピーし、タブ上に貼り付けます。
    • ドキュメント、電子メール、または Web ページでスキャンするテキストを選択し、ArcGIS AllSource のタブ上にドラッグします。
  6. 少なくとも 1 つのファイルかフォルダー、またはテキストを入力として指定する必要があります。 必要に応じて、すべて一度にスキャンできます。
  7. [抽出] をクリックします。

このプロセスはいつでもキャンセルできます。 このプロセスが完了すると、成功したかどうかを示すメッセージがウィンドウの下部に表示されます。

指定したフィーチャクラスが作成され、見つかった位置がポイントとしてフィーチャクラスに格納されます。 そのフィーチャクラスを参照するマップ レイヤーがアクティブなマップに追加されます。 ドキュメントやテキストで位置が見つからなかった場合、フィーチャクラスとマップ レイヤーは空になります。

注意:

過去にマップに追加された既存のフィーチャクラスを上書きする場合、新しいマップ レイヤーが作成され、新しいフィーチャクラスにアクセスするマップに追加されます。

別の場所から取得された別のドキュメント セットやテキストから位置を抽出するには、[抽出] タブの下部にある [すべての入力をクリア] をクリックします。 [ファイルとフォルダー] タブ上のリストからすべてのファイルが削除され、[テキスト] タブからすべてのテキストが削除されます。 処理する新しいアイテムのセットを指定します。

マップ内の既存のレイヤーの更新

既存のフィーチャクラスに段階的に位置を追加できます。 たとえば、毎週、新しいレポートのセットを処理し、それらのファイルから既存のセットに位置を追加できます。 あるいは、サンプルのドキュメント セットを処理した後で、結果に問題がなければ、追加のドキュメントを処理し、それらの位置を既存のフィーチャクラスに追加できます。

  1. [位置の抽出] ウィンドウを開きます。
  2. [名前] ドロップダウン リストをクリックし、更新する既存のマップ レイヤーをクリックします。

    ドキュメントやテキストから抽出された位置が、そのマップ レイヤーによって参照される既存のフィーチャクラスに追加されます。 出力フィーチャクラスの座標系を指定するためのコントロールは無効になります。

  3. [ファイルとフォルダー] タブをクリックし、位置をスキャンするアイテムを指定します。
  4. [テキスト] タブをクリックし、位置をスキャンするテキストを指定します。
  5. [抽出] をクリックします。

    [フィールドの一致] パネルが [位置の抽出] ウィンドウに表示されます。

  6. ドキュメントやテキストから抽出された情報を格納する、既存のレイヤーの属性テーブル内のフィールドを指定します。

    出力フィーチャクラスで設定可能なフィールドの詳細については、以下で説明します。

  7. 抽出された情報を格納できるフィールドが既存のフィーチャクラスにない場合、[戻る] 戻る をクリックし、別の出力レイヤーを選択するか、代わりにレイヤーを作成します。
  8. 既存のレイヤーのフィールドと、ドキュメントやテキストから抽出された情報のフィールドが問題なく一致している場合、[OK] をクリックします。

このプロセスはいつでもキャンセルできます。 このプロセスが完了すると、成功したかどうかを示すメッセージがウィンドウの下部に表示されます。

ドキュメントやテキストのスキャン中に位置が見つかった場合、指定されているフィーチャクラスにそれらの位置が追加されます。 既存のマップ レイヤーとその属性テーブルが更新されて新しい位置が表示されます。

抽出された位置の確認

ドキュメントやテキストがスキャンされて出力フィーチャクラスが作成された後、出力マップ レイヤーがマップに追加されて [コンテンツ] ウィンドウで選択されます。 見つかった位置をクリックすると、詳細情報が表示されます。 抽出された位置、抽出元のドキュメント、およびドキュメントから抽出された、その位置の前後にあり文脈の理解に役立つ情報がポップアップ ウィンドウに表示されます。 レイヤーの属性テーブルを開き、見つかったすべての位置を比較します。 データを評価しながら、対象外の位置を削除したり、主な評価対象である位置のサブセットをエクスポートしたりすることができます。

[位置の抽出] ウィンドウには、最もよく使用される位置を認識するための各種デフォルト設定が用意されています。 データに存在する位置についてよく理解している場合、[プロパティ] タブでこれらの設定を調整して、追加の位置やさらに限定された情報を出力フィールドに抽出できます。

位置と属性の抽出に使用される設定の詳細

出力フィールドの定義

抽出された位置を格納する新しい出力フィーチャクラスが作成された場合、そのフィーチャクラスは、次のようなデフォルトのフィールドと、カスタム属性ファイルによって定義される追加のフィールドを持ちます。

カスタム属性ファイルの詳細

フィールド名フィールド エイリアスデータ タイプ説明

Name

名前

Text - デフォルトでは 50 文字

処理されたファイルの名前、またはテキストが処理されたことを示す Text。 このサイズは [出力] タブ上の設定によって制御します。

Pre_Text

プレテキスト

Text - デフォルトでは 254 文字

見つかった位置の前にある、ファイルまたはテキストの抜粋。 このサイズは [出力] タブ上の設定によって制御します。

Ext_Text

抽出テキスト

Text - デフォルトでは 120 文字

ファイルまたはテキスト内で見つかった位置。たとえば、52.825°N, 169.944°W は空間座標、LAX は空港名コードを空間座標に関連付けるカスタム位置です。 このサイズは [出力] タブ上の設定によって制御します。

Ext_Type

抽出タイプ

Text - デフォルトでは 50 文字

見つかった位置のタイプ。たとえば、度 (10 進) (DD) 座標。 カスタム位置が見つかった場合、カスタム位置情報ファイルで定義されている一致した位置が記録されます。 このサイズは [出力] タブ上の設定によって制御します。

Post_Text

ポストテキスト

Text - デフォルトでは 254 文字

見つかった位置の後ろにある、ファイルまたはテキストの抜粋。 このサイズは [出力] タブ上の設定によって制御します。

Precision

精度 (m)

Long

空間座標の場合、地上でのその位置の精度 (単位: メートル)。 たとえば、度 (10 進) 座標は小数点以下の桁数が多いほど正確で距離が小さくなります。

カスタム位置の場合、元のテキストを対応する位置と比較したときに一致しなかった文字の数。 あいまい一致が無効になっている場合、完全一致が必要であり、値は 0 になります。 あいまい一致を有効にし、スペル ミスのある Redalnds が Redlands と一致する場合、値は 2 になります。

Std_Coord

標準 座標

Text - 30 文字

抽出された位置の標準化されたバージョン。たとえば、52.825000N 169.944000W。 この座標の形式は [出力] タブ上の設定によって制御します。

First_Date

最初の日付

Date

日付が抽出される場合、ファイルまたはテキストで見つかった 1 つ目の日付。 そうでない場合、このプロパティには Null 値が格納されます。 日付は [出力] タブで指定されている範囲内にあり、その日付をスキップするよう設定されておらず、抽出する日付数の上限に達していない場合にのみ抽出されます。

Early_Date

最も古い日付

Date

日付が抽出される場合、ファイルまたはテキストで見つかった最も古い日付。 そうでない場合、このプロパティには Null 値が格納されます。 日付は [出力] タブで指定されている範囲内にあり、その日付をスキップするよう設定されておらず、抽出する日付数の上限に達していない場合にのみ抽出されます。

Late_Date

最新の日付

日付

日付が抽出される場合、ファイルまたはテキストで見つかった最新の日付。 そうでない場合、このプロパティには Null 値が格納されます。 日付は [出力] タブで指定されている範囲内にあり、その日付をスキップするよう設定されておらず、抽出する日付数の上限に達していない場合にのみ抽出されます。

All_Dates

すべての日付

Text - デフォルトでは 254 文字

日付が抽出される場合、テキストで見つかったすべての日付のカンマ区切りリスト。 そうでない場合、このプロパティには Null 値が格納されます。 すべての日付は yyyy-mm-dd 形式で標準化されています。 日付は [出力] タブで指定されている範囲内にあり、その日付をスキップするよう設定されておらず、抽出する日付数の上限に達していない場合にのみ抽出されます。 日付のカンマ区切りリストがこのフィールドのサイズには大きすぎる場合、リストが切り捨てられます。 このサイズは [出力] タブ上の設定によって制御します。

ExDateText

日付の抽出テキスト

Text - デフォルトでは 254 文字

ファイルまたはテキスト内で見つかった日付。たとえば、August 18, 2019 や 2/3/2020。 日付のカンマ区切りリストがこのフィールドのサイズには大きすぎる場合、リストが切り捨てられます。 このサイズは [出力] タブ上の設定によって制御します。

Filename

ファイル名

Text - デフォルトでは 254 文字

処理されたファイルへの絶対パス、またはテキストが処理された場合には Null 値。 処理またはスキップするファイルを選択できます。 このサイズは [出力] タブ上の設定によって制御します。

File_Type

ファイル タイプ

Text - デフォルトでは 10 文字

処理されたファイルの形式、またはテキストが処理された場合には Null 値。 特定のファイル タイプを処理するよう選択できます。 このサイズは [出力] タブ上の設定によって制御します。

Modified

更新日 (UTC)

Text - 20 文字

ファイルが最後に更新された日時 (yyyy-mm-dd hh:mm:ss 形式)。

Scanned

スキャン日 (UTC)

Text - 20 文字

ファイルが処理された日時 (yyyy-mm-dd hh:mm:ss 形式)。

結果の評価

ドキュメントを初めてスキャンしたときに、期待どおりの位置が得られないことがあります。 出力マップ レイヤーとフィーチャクラスに加え、スキャン ログと無効な座標のログの 2 つのログ ファイルを作成できます。 ドキュメントを入力として指定し、そのコンテンツがわかっているときに、出力フィーチャクラスに作成された位置の数が期待する数と一致しない場合、ログ ファイルを基に結果を評価できます。

ドキュメントやテキストがスキャンされて出力フィーチャクラスが作成された後、[位置の抽出] ウィンドウの下部に、プロセスが正常に完了したことを示すメッセージが表示されます。 このメッセージには一時的なログ ファイルへのリンクが含まれています。 後から確認するためにこれを保存するには、ファイルを開き、プロジェクトのホーム フォルダーなどの永続的な場所に保存します。 たとえば、そのログ ファイルに関連するマップ レイヤーやフィーチャクラスの名前を追加します。

スキャン ログ

[位置の抽出] ウィンドウの下部にあるメッセージ内の [スキャン ログの表示] リンクをクリックすると、スキャン ログ ファイルが開きます。 このログには、スキャンされた各ドキュメントについて以下の情報が表示されます。

  • ドキュメントのファイル名およびローカル コンピューターまたはネットワーク コンピューター上の位置
  • ドキュメントのスキャン中に発生した問題を示すメッセージ (該当する場合)
  • 見つかった候補位置の数
  • 見つかった日付の数 (重複を除く)

候補位置とは、ドキュメントのコンテンツ内で見つかった、空間座標またはカスタム位置と似ているテキストのことです。 入力としてテキストが指定されている場合、ファイルの名前と場所はスキャン ログに記録されていませんが、ログ ファイル内の残りの情報は同じです。

たとえば、9 つの位置が抽出されることを想定していたのに 6 つの位置しか出力として作成されなかった場合に、スキャン ログを見れば何が起こったのかわかることがあります。 [位置の抽出] ウィンドウでの現在の設定に基づいて候補位置が 6 つしか見つからなかったことがログからわかる場合や、 座標が日付として解釈されたことで、想定よりも多くの日付が見つかったことがログからわかる場合もあります。 ドキュメントから位置の抽出を再度試みる前に、設定を調整してください。

無効な座標のログ

候補位置が評価され、無効と見なされた場合、無効な座標のログが作成されます。 [不正な座標ログの表示] をクリックして開きます。

無効な座標のログには以下が記録されています。

  • 候補位置が見つかったドキュメント
  • 候補位置として判定された元のテキスト
  • その位置の評価に使用された座標形式

たとえば、緯度-経度の座標が見つかったが、座標の緯度が 90 度より大きい場合、その座標は無効と見なされます。 想定したものとは異なる座標形式を使用してドキュメント内の候補位置が評価された可能性もあります。 ドキュメントから位置の抽出を再度試みる前に、設定を調整してください。

無効な座標のログが役に立たない場合、[座標] タブ[無効な座標のログ記録] チェックボックスをオフにすることで、使用している空間座標形式で無効な座標を記録しないように設定できます。