位置と属性の抽出方法の調整

LocateXT のライセンスで利用可能。

ドキュメント セットまたはテキストをスキャンして結果を評価した後で、何を抽出してコンテンツをどのように評価するかを調整できます。 形式が異なるさまざまなドキュメントがある場合と、半構造化された情報を含む既知の形式のドキュメントの各種コレクションがある場合とでは、アプローチが異なります。

[位置の抽出] ウィンドウには、最もよく使用される位置を認識したり最近の日付の抽出をサポートしたりするための各種デフォルト設定が用意されています。 ドキュメントまたはテキストの内容についてよく理解している場合、これらの設定を調整して、抽出される情報を最適化できます。 これらの設定は [プロパティ] タブで調整します。

デフォルト設定のコレクションは [デフォルトの非構造化データ] テンプレートに関連付けられています。 ドキュメントのコレクションや特定の形式のテキストに最適な設定を決定したら、これらをカスタム テンプレートに保存できます。 ドキュメントのコレクションや類似テキストの新しいバッチを受け取った場合にこのテンプレートを使用します。

位置抽出用テンプレートの詳細

オプション

デフォルトでは、[プロパティ] タブをクリックすると、[オプション] タブ オプション が選択されます。 ここでは、入力ドキュメントまたはテキストから抽出可能な情報の各カテゴリやその情報の処理方法に関連付けられている切り替えボタンのオンとオフを切り替えることができます。 出力マップ レイヤーで使用されるシンボルを指定することもできます。

  • 位置の抽出
    • [座標] - [座標] 切り替えボタンはデフォルトではオンになっています。 ドキュメントをスキャンすると、空間座標が調べられます。 検出された位置を表すポイントが出力フィーチャクラスに作成されます。
    • [カスタム位置情報] - [カスタム位置情報] 切り替えボタンはデフォルトではオフになっています。 ドキュメントをスキャンすると、カスタム位置情報ファイルで指定されている地名が調べられます。 カスタム位置情報ファイルによって地名と空間座標が関連付けられます。 検出された位置を表すポイントが出力フィーチャクラスに作成されます。
    • [あいまい一致] - [あいまい一致] 切り替えボタンはデフォルトではオフになっています。 カスタム位置を検索する際に、あいまい一致を使用して入力ドキュメントのコンテンツをカスタム位置と比較することで、スペル ミスにも対応できます。
  • 属性の抽出
    • [日付] - [日付] 切り替えボタンはデフォルトではオンになっています。 ドキュメントをスキャンすると、最近の日付が調べられます。 検出された日付が抽出され、出力フィーチャクラスの属性テーブル内のフィールドに格納されます。
    • [カスタム属性] - [カスタム属性] 切り替えボタンはデフォルトではオフになっています。 ドキュメントをスキャンすると、カスタム属性ファイルで指定されているキーワードが調べられます。 カスタム属性ファイルでは、検索するキーワードおよびそのキーワードが見つかった場合に抽出されるテキストが指定され、出力フィーチャクラスの属性テーブルに作成される、抽出されたコンテンツが格納されるカスタム フィールドが定義されています。
  • 検索コントロール
    • [単語の区切りが必要] - [単語の区切りが必要] 切り替えボタンはデフォルトでオンになっています。 ドキュメントをスキャンすると、ヨーロッパ言語では空白または区切り文字で区切られた一単語を含む複数の単語が調べられます。 この設定は、ドキュメント内でカスタム位置およびカスタム属性を検索するときに単語を特定する方法に影響します。 また、たとえば、座標や日付を表すことのできるテキストが他の文字で囲まれている場合に、座標や日付を特定する方法にも影響します。
  • [シンボル] - 赤色の塗りつぶし円がデフォルトのシンボルです。 出力マップ レイヤーが作成されると、指定されているシンボルを使用して出力フィーチャクラス内のポイントが表示されます。

一部の切り替えボタンの横には矢印ボタン オプションまで移動 が表示されています。 矢印ボタンを使用して、[位置の抽出] ウィンドウ内の別のタブに移動して、座標、カスタム位置、日付、カスタム属性を評価および抽出する方法をカスタマイズできます。

[位置の抽出] ウィンドウで次のオプションを使用して、処理するファイル、抽出するコンテンツ、作成する出力をカスタマイズすることもできます。 ただし、[オプション] タブにこれらのオプションに対応する切り替えボタンはありません。

  • [ファイルのスキャン] - スキャンするファイルを制御できます。
  • [出力] - 評価するフィーチャおよび日付の数、出力フィーチャクラスの属性テーブルに含めるコンテンツを制御できます。

座標

[座標] タブでは、入力ドキュメントをスキャンするときに考慮する座標形式を指定します。 数字および英数字の組み合わせのペアが有効な座標形式と一致しているかどうかを調べます。 空間座標候補が有効なすべての形式と照合されます。

  • [X Y 形式] - x、y 値として指定された座標
  • [DD 形式] - 度 (10 進) 形式
  • [DM 形式] - 度分 (10 進) 形式
  • [DMS 形式] - 度分秒形式
  • [UTM 形式] - ユニバーサル横メルカトル形式
  • [MGRS 形式] - Military Grid Reference System 形式

検出された 1 つ目の一致する座標形式を表す位置が出力フィーチャクラスに作成されます。

適切な出力位置のセットを提供するため、各オプションがデフォルトでオンまたはオフに設定されている異なるオプション セットに各座標形式が関連付けられています。 一部のオプションでは、空間座標と類似するが実際には地上の場所を表さない数字または英数字の組み合わせのペアが入力ドキュメントに含まれている場合に出力位置が生成されることがあり、これを誤検知と呼びます。 デフォルトでオフになっているオプションは誤検知が生じる可能性が高くなります。 ただし、ドキュメントにこれらの形式の位置が含まれていることがわかっている場合、これらのオプションを有効にする必要があります。 有効になっている座標形式の数が少ないほど、ドキュメントのスキャン時間は短くなります。

サポートされる座標形式は、ドキュメント セットに合わせてカスタマイズできます。 たとえば、ドキュメントが異なる言語で記述されていたり、非標準表記を使用して記述された空間座標が含まれていたりする場合があります。 サポートされる座標形式については、それらの座標の評価方法をカスタマイズする方法とともに、以下で詳しく説明します。

[座標] タブで、空間座標を関連付ける座標系を指定できます。 デフォルトでは、ドキュメント内で検出された座標は GCS_WGS_1984 座標系に基づいて定義されているものとして処理されます。 座標が別の座標系に基づいて収集されたことがわかっている場合、[座標系の選択] ボタン 座標系の選択 をクリックし、正しい座標系をクリックします。

ドキュメントの末尾または抽出可能な位置の数の上限に達するまで、入力ドキュメント内のすべての空間座標が処理されます。

抽出されるフィーチャの数の制限の詳細

[座標] タブへのアクセス

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [座標] タブにアクセスします。
    • [オプション] タブ オプション をクリックした後、[座標] 切り替えボタンの横にある矢印 オプションまで移動 をクリックします。
    • [位置の抽出] タブ 位置の抽出 をクリックした後、[座標] タブをクリックします。

座標の切り替えボタンのオンまたはオフ

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. 座標の切り替えボタンをオンまたはオフにします。
    • [オプション] タブ オプション をクリックした後、[座標] 切り替えボタンをクリックします。
    • [位置の抽出] タブ 位置の抽出 をクリックした後、[座標] タブをクリックし、[座標からのフィーチャの作成] 切り替えボタンをクリックします。

X Y 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式は x、y として指定されます。

デフォルトでは、x、y 座標形式全体が無効になっています。 これらの形式では、座標は指定された座標系の単位での計測値を示す数値ペアとして表されます。 これらは空間とは関係がない数字または計測値の並びとよく似ているため、誤検知の位置が生成される可能性があります。 また、これらの座標形式に一致するテキストが見つかっても、生成された位置が正しくない座標系に関連付けられている場合は、その位置も間違っています。

  • [X Y (単位テキストあり)] - 英数字テキストが次の構成である場合に、位置として認識されます: 71.2071779dd 46.8075410dd または 630084m 4833438m。 単位は入力ドキュメントの座標系に一致するように設定されますが、ドキュメント内に存在する他の単位または同じ単位の追加表記を認識するために変更される場合があります。 これらの形式では、見つかった座標の座標系が正しい場合には、誤検出の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y (単位テキストなし)] - 英数字テキストが次の構成である場合に、位置として認識されます: 630084 4833438 または 235407.742 900560.004。 この座標形式、および度 (10 進) 座標形式 [X Y (シンボルなし)] は両方が数値ペアを確認し、両方の形式で同じ x、y 座標ペアとの一致が見つかることがあります。 両方の形式が有効な場合は、競合することを示す警告が表示されます。 両方が有効で両方が一致を見つけた場合は、度 (10 進) の結果が出力位置として使用されます。 投影座標系が指定されている場合は、両方の形式で競合が生じる可能性は低くなります。 これはデフォルトで有効になっています。

[無効な座標のログ記録] がオンになっている場合、無効な値を持つか、定義された座標系から外れている空間座標候補は無効としてログ ファイルに記録されます。 プロセスが完了したら、このログ ファイルを確認できます。 無効な座標はデフォルトでログに記録されます。

座標単位の設定

入力ドキュメントに含まれる情報に基づいて、x、y 形式に関連付けられた単位を変更して、正確な位置を生成できます。

  1. [座標] タブにアクセスします
  2. 座標をオンにします
  3. [座標系] ドロップダウン リストまたは [座標系の選択] ボタン 座標系の選択 をクリックし、入力ドキュメントに存在する空間座標に関連付けられている座標系をクリックします。 たとえば、投影座標系を指定します。
  4. [X Y 形式] オプションをオンにします。
  5. クリックして、[X Y (単位テキストあり)] 形式に関連付けられたオプションを展開します。

    デフォルトでは、単位は座標系の単位に一致するように設定されます。 たとえば、単位 US フィートに基づく座標系の単位は [ftUS] に設定されます。

  6. ドキュメント内の単位として認識される表示に変更するには、[単位を設定] ボタン 鉛筆 をクリックします。

    [許可された単位] ダイアログ ボックスが表示されます。

  7. [リストから追加] ボタン リストから追加 をクリックして、必要に応じて、既知の事前定義された計測単位をリストに追加します。
  8. 必要に応じて、カスタム単位をリストに追加します。
    1. テーブルの下部の新しい行で、[単位テキスト] 列をクリックし、この計測単位の表現として認識させる必要のある文字を入力します。 たとえば、ft (US) と入力して、これを [ftUS] 単位を表す追加の方法として認識させます。
    2. この計測単位に関連付ける距離をメートル単位で指定します。
    3. [OK] をクリックします。
  9. クリックして、[X Y (単位テキストなし)] 形式に関連付けられたオプションを展開します。
  10. ドキュメント内で見つかった座標ペアに関連付けられた単位を変更するには、[単位を設定] ボタン 鉛筆 をクリックします。

    [デフォルトの単位] ダイアログ ボックスが表示されます。

  11. [単位名] ドロップダウン リストをクリックし、リストに定義済みの国際的に認識されている単位のいずれかをクリックするか、リストに表示されていない別の距離の計測単位の名前を入力します。

    リストで単位を選択すると、選択した計測単位に関連付けられたメートル単位の距離が [メートル/単位] テキスト ボックスに表示されます。

  12. カスタムな計測単位の名前を [単位名] テキスト ボックスに入力した場合は、[メートル/単位] テキスト ボックスに表示するメートル数を入力します。
  13. [OK] をクリックします。

DD 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式は度 (10 進) として指定されます。

  • [緯度と経度] - 英数字テキストが次の構成である場合に、位置として認識されます: 38.8N 77.035W または W77N38.88909。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y および度記号] - 英数字テキストが次の構成である場合に、位置として認識されます: 38.8° -77.035° または -077d+38.88909d。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y (記号なし)] - 英数字テキストが次の構成である場合に、位置として認識されます: 38.8 -77.035 または -077.0, +38.88909。 これらの形式は空間とは関係がない数字の並びとよく似ているため、誤検知の位置が生成される可能性があります。 これらの形式は、投影座標系で空間位置を定義する数字にもよく似ています。この形式と [X Y (単位テキストなし)] オプションの両方が有効な場合は、競合していることを示す警告が表示されます。 これはデフォルトで有効になっています。

[無効な座標のログ記録] がオンになっている場合、有効な形式のいずれとも一致しない空間座標候補は無効な座標としてログ ファイルに記録されます。 プロセスが完了したら、このログ ファイルを確認できます。 無効な座標はデフォルトでログに記録されます。

DM 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式は度分 (10 進) として指定されます。

  • [緯度と経度] - 英数字テキストが次の構成である場合に、位置として認識されます: 3853.3N 7702.100W または W7702N3853.3458。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y および分記号] - 英数字テキストが次の構成である場合に、位置として認識されます: 3853' -7702.1' または -07702m+3853.3458m。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。

[無効な座標のログ記録] がオンになっている場合、有効な形式のいずれとも一致しない空間座標候補は無効な座標としてログ ファイルに記録されます。 プロセスが完了したら、このログ ファイルを確認できます。 無効な座標はデフォルトでログに記録されます。

DMS 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式は度分秒として指定されます。

  • [緯度と経度] - 英数字テキストが次の構成である場合に、位置として認識されます: 385320.7N 770206.000W または W770206N385320.76。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y および秒記号] - 英数字テキストが次の構成である場合に、位置として認識されます: 385320" -770206.0" または -0770206.0s+355320.76s。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [X Y および区切り記号] - 英数字テキストが次の構成である場合に、位置として認識されます: 38:53:20 -77:2:6.0 または -077/02/06/, +38/53/20.76。 これらの形式は日付や時刻などのその他の書式の数値とよく似ているため、誤検知の位置が生成されることがあります。 これはデフォルトで有効になっています。

[無効な座標のログ記録] がオンになっている場合、有効な形式のいずれとも一致しない空間座標候補は無効な座標としてログ ファイルに記録されます。 プロセスが完了したら、このログ ファイルを確認できます。 無効な座標はデフォルトでログに記録されます。

UTM 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式はユニバーサル横メルカトルとして指定されます。

  • [ユニバーサル横メルカトル図法] - 英数字テキストが次の構成である場合に、位置として認識されます: 18S 323503 4306438 または 18 north 323503.25 4306438.39。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [北極] - 英数字テキストが次の構成である場合に、位置として認識されます: Y 2722399 2000000 または north 2711399 2000000。 これらの形式では誤検知の位置が生成される可能性はありませんが、一般的なドキュメントでこのような座標が検出されることはめったにありません。 これはデフォルトでは有効になっていません。
  • [南極] - 英数字テキストが次の構成である場合に、位置として認識されます: A 2000000 3168892 または south 2000000 3168892。 これらの形式では誤検知の位置が生成される可能性はありませんが、一般的なドキュメントでこのような座標が検出されることはめったにありません。 これはデフォルトでは有効になっていません。

MGRS 形式

空間座標候補が次の座標形式と比較されます (有効になっている場合)。 このいずれかの形式と候補が一致する場合、出力フィーチャクラスに位置が作成されます。 出力フィーチャクラスで元の座標の形式は Military Grid Reference System として指定されます。

  • [Military Grid Reference System] - 英数字テキストが次の構成である場合に、位置として認識されます: 18S UJ 13503 06438 または 18SUJ0306。 これらの形式では誤検知の位置が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [北極] - 英数字テキストが次の構成である場合に、位置として認識されます: Y TG 56814 69009 または YTG5669。 これらの形式では誤検知の位置が生成される可能性はありませんが、一般的なドキュメントでこのような座標が検出されることはめったにありません。 これはデフォルトでは有効になっていません。
  • [南極] - 英数字テキストが次の構成である場合に、位置として認識されます: A TN 56814 30991 または ATN5630。 これらの形式は通常の数値と似ているため、誤検知の位置が生成されることがあります。 これはデフォルトでは有効になっていません。

[無効な座標のログ記録] がオンになっている場合、有効な形式のいずれとも一致しない空間座標候補は無効な座標としてログ ファイルに記録されます。 プロセスが完了したら、このログ ファイルを確認できます。 無効な座標はデフォルトでログに記録されます。

空間座標の認識方法のカスタマイズ

操作中のドキュメントに標準座標形式設定では検出できない空間座標が含まれている場合があります。 たとえば、ドキュメントの作成者が GIS トレーニングを受けていなかったり、標準でない方法で空間座標を記述したりすることがあります。 よくある例では、緯度値と経度値の間に余分なテキストが追加されています。 たとえば、テキスト +45.56° and -69.66° では、余分な単語によって and テキストが空間座標として認識されません。

同様に、分析中のドキュメントが複数の混じり合った言語で記述されている場合、デフォルトでは、テキストは英語で記述されたドキュメント、または方位表記で英語の単語または略語を使用しているドキュメントの空間座標としてのみ認識されます。 たとえば、ドキュメントのテキストがフランス語で、方位が 60.91°N, 147.34°O などのように O (Ouest の略) を使用した空間座標で表されている (英語の W (West の略) の代わりに) 場合、テキストは空間座標として認識されません。 座標形式は、希望するドキュメントの処理方法に応じて、英語に加えて、または英語の代わりに、他の言語で使用されている形式を認識するようにカスタマイズできます。

ドキュメント内の空間座標の認識方法をカスタマイズするには、[カスタマイズ] ダイアログ ボックスを使用します。 一部の言語にはデフォルト設定が用意されており、[設定] タブでドキュメントの言語を選択します。 アジア系言語のドキュメントで、[北緯51.50°、西経17.63°] のようにアジア文字と全角ヒンドゥーアラビア数字を組み合わせて定義した空間座標は、現時点では空間座標として認識されません。

  1. [座標] タブにアクセスします
  2. 座標をオンにします
  3. 空間座標形式のリストの上部にある [カスタマイズ] ボタン カスタマイズ をクリックします。
  4. ドキュメントが別の言語で記述されており、[カスタマイズ] ダイアログ ボックスの [設定] タブで、その言語の設定が使用可能な場合は、リストでその言語をクリックします。
  5. 選択した言語の設定を [カスタマイズ] ダイアログ ボックスに追加します。
    • [設定の置換] をクリックし、選択した言語に関連付けられた設定のみを使用してドキュメントをスキャンします。 現在の言語が英語で、選択した言語がフランス語の場合、ダイアログ ボックスで英語の設定をフランス語の設定で置換した後は、フランス語を使用して記述された空間座標形式のみがドキュメント内で認識されます。
    • [設定の結合] をクリックして、現在の言語と追加の言語の設定を使用してドキュメントをスキャンします。 現在の言語が英語で、選択した言語がフランス語の場合、ダイアログ ボックスでフランス語の設定を設定に結合した後は、英語とフランス語の両方を使用して記述された空間座標形式がドキュメント内で認識されます。
  6. 空間座標には、一部の言語グループに固有なものを含め、多数のコンポーネントがあります。 空間座標のいずれかのコンポーネントに関連付けられた [座標] 見出しの下にあるタブ、たとえば、[北] または [緯度/経度の間] を選択します。
  7. このコンポーネントの語句のリストを変更して、スキャンしているドキュメントで使用されている表記を含めます。
    1. [語句テキスト] 列でグリッドの下部にある新しい行をクリックします。
    2. 空間座標のコンポーネントとして認識する必要があり、ドキュメントに表示する適切な値を入力します。 たとえば、ドキュメント グループでよく発生する場合は、ミススペルの Nort[北] タブの語句リストに追加します。 and[緯度/経度の間] タブの語句リストに追加し、この余分なテキストが緯度値と経度値の間に表示されるドキュメントに対応します。
    3. Enter キーを押します。
  8. [カスタマイズ] ダイアログ ボックスの複数のタブに同じ語句が入力されると警告が表示されます。 語句を重複させることはできますが、ドキュメント内での位置認識の精度が低下します。 テキストを位置として認識するプロセスに不可欠でない重複する語句は削除します。
    1. 影響を受けるタブのいずれかをクリックします。
    2. グリッド内の行をクリックして、使用する必要のない重複する語句を選択します。
    3. [削除] ボタン 削除 をクリックして、グリッドから選択した行を削除します。

    重複する語句が残っている場合は、[抽出] ボタンの横の [位置の抽出] ウィンドウの下に警告メッセージが表示されます。

  9. [OK] をクリックします。

次にドキュメント セットから位置が抽出されるときには、テキストが空間座標を表しているかどうかを評価し判別するために、カスタム定義が使用されます。

小数記号にカンマを使用

デフォルトでは、座標の小数記号としてピリオド (.) または中点 (·) が使用されているものとしてドキュメントがスキャンされます。例: Lat 01° 10·80’ N Long 103° 28·60’ E 数値の小数記号としてカンマが使用されているドキュメントを操作している場合 (例: 52° 8′ 32,14″ N; 5° 24′ 56,09″ E)、代わりに [小数記号にカンマを使用] オプションをオンにする必要があります。

この設定では、英数字テキストを評価して空間座標かどうかを判別する方法だけが制御されます。 この設定は、カスタム位置情報を表すかどうかや、カスタム属性に格納する必要があるキーワードと一致しているかどうかを判別するためのテキストの評価方法には影響しません。 つまりこの設定は、テキストが、数値の小数点としてカンマがよく使用されるフランス語など欧州系言語で書き込まれていることを示すショートカットを提供していません。 コンピューターの地域設定はこの設定の制御に使用されません。

経度、緯度と解釈

記号または方位表記がない座標のペアがある場合、一方の数値が 0 ~ 90 の範囲にあり、もう一方の数値が 90 ~ 180 の範囲にある場合、正確な空間位置が生成される可能性があります。 両方の数値が 0 ~ 90 の範囲にある場合、正しい位置を特定するのは困難です。

地理学においては緯度-経度が確固たる規則なので、両方の数値が 0 ~ 90 の範囲にある座標ペアはデフォルトではこの方法で評価されます。つまり、1 つ目の数値は Y 軸上の値であり、2 つ目の数値は X 軸上の値となります。 ただし、数学などのその他の分野では座標ペアを X,Y の組み合わせで指定することがよくあります。

このようなあいまいな座標ペアを X,Y の組み合わせとして (1 つ目の数値を経度、2 つ目の数値を緯度として) 評価する場合、[経度、緯度と解釈] オプションをオンにします。

座標の評価方法の指定

ドキュメントを調査するときの空間座標の評価方法を変更するには、座標がオンになっている必要があります。

  1. [座標] タブにアクセスします
  2. 座標をオンにします
  3. [座標系] ドロップダウン リストまたは [座標系の選択] ボタン 座標系の選択 をクリックし、入力ドキュメントに存在する空間座標に関連付けられている座標系をクリックします。
  4. 空間座標候補の評価に使用する座標形式をオンにします。 使用しない座標形式をオフにします。
  5. テキストが空間座標を表しているか評価し判別するときに使用する必要のあるカスタマイズを指定します。
  6. ログ ファイルを使用して結果を評価するかどうかに応じて、[無効な座標のログ記録] のオプションをオンまたはオフにします。
  7. 入力ドキュメントのコンテンツで、小数記号としてカンマを使用して空間座標が指定されている場合、[小数記号にカンマを使用] をオンにします。
  8. 入力ドキュメントのコンテンツで、空間座標が緯度-経度の座標ではなく経度-緯度の座標として指定されている場合、[経度、緯度と解釈] をオンにします。

次回に位置が抽出されるときには、これらの座標設定を使用して空間座標候補が評価され、出力フィーチャクラスに含める位置が決定されます。

あいまい一致によるカスタム位置の特定

カスタム位置情報がオンになっている場合、スキャンされているドキュメント内のコンテンツがカスタム位置情報ファイルで指定されている地名と比較されます。 デフォルトでは、出力フィーチャクラスに位置が作成されるためには、指定されている地名のいずれかとコンテンツが完全に一致している必要があります。

あいまい一致がオンになっている場合、代わりにあいまい一致を使用して、指定されている地名とドキュメントのコンテンツが比較されます。 入力コンテンツが地名の文字の 70 パーセントと一致する場合、位置が出力フィーチャクラスに作成されます。 これによって、一部のスペル ミスや、地名の単語に単数形ではなく複数形が使用されているなどのバリエーションにも対応できます。 70 パーセントの評価は、一致する文字の数に厳密に基づきます。ドキュメント内の単語がカスタム位置と一致するかどうかの判別にステミングなどの自然言語処理アルゴリズムは使用されません。

有益なワークフローとしては、最初にあいまい一致をオフにして位置を抽出してから、あいまい一致をオンにして再度抽出を試みて、追加の地名を検出します。 その後で結果を比較して最適な結果を判断できます。 この設定にすることで、他の設定では取得できなかった追加の位置を検出できる場合がありますが、ドキュメント内のコンテンツが誤って地名と一致してしまうことで誤検知の位置が返されることもあります。

あいまい一致はカスタム位置でのみ使用します。 カスタム位置の切り替えボタンがオフになっている場合、あいまい一致の切り替えボタンをオンにしても影響はありません。 このオプションでは、カスタム属性ファイルで指定されているキーワードとドキュメントのコンテンツを比較する方法などは変更されません。

あいまい一致の切り替えボタンのオンまたはオフ

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. あいまい一致の切り替えボタンをオンまたはオフにします。
    • [オプション] タブ オプション をクリックした後、[あいまい一致] 切り替えボタンをクリックします。
    • [位置の抽出] タブ 位置の抽出 をクリックした後、[カスタム位置] タブをクリックし、[あいまい一致の使用] 切り替えボタンをクリックします。

日付

[日付] タブでは、入力ドキュメントをスキャンするときに考慮する日付形式を指定します。 英数字の組み合わせが有効な日付形式と一致しているかどうかを調べます。 以下で指定されている順序で日付候補が有効なすべての形式と照合されます。 通常の数値が日付として間違って識別されることがあり、これを誤検知と呼びます。

サポートされる日付形式は、ドキュメント セットに合わせてカスタマイズできます。 たとえば、ドキュメントが異なる言語で記述されていたり、非標準表記を使用して記述された日付が含まれていたりする場合があります。 日付形式については、それらの日付の評価方法をカスタマイズする方法とともに、以下で詳しく説明します。

ドキュメントの末尾または抽出可能な日付の数の上限に達するまで、入力ドキュメント内のすべての日付が処理されます。

抽出される日付の数の制限の詳細

  • [月名を使用] - January 1, 20102 FEB 11 のように、テキスト内で月名が正式表記または省略表記で記されています。 英語以外の言語では、このオプションが有効なときに認識される日付が、厳密に言うと、月名を使用していない場合があります。それは、たとえば、月が数値で識別されることがあるためです。 ただし、このオプションが有効なときに特定される日付は、ISO 8601 日付形式のバリエーションを使用する代わりに、従来の方法で記述された日付です。 これらの形式では誤検知の日付が生成される可能性はありません。 これはデフォルトで有効になっています。
  • [M/D/Y および D/M/Y] - 日付形式は、月、日、年または日、月、年のいずれかで、値が区切り記号で区切られています。例: 10/31/2017 または 28-2-11。 これらの形式では誤検知の日付が生成されることがあります。 月と日の両方が 12 以下の数字で示される場合、表される実際の日付は曖昧になります。 曖昧な日付を見つけたときに、それらの解釈方法を選択するためのオプションを利用できます。 デフォルトでは、[曖昧なときは MDY と解釈] オプションが選択されており、テキスト 03/02/2012 は 2012 年 3 月 2 日として解釈されます。このオプションは、デフォルトの日付形式が MM/DD/YYYY の米国で作成されたドキュメントを操作している場合に適しています。 デフォルトの日付形式が DD/MM/YYY の別の国で作成されたドキュメントを操作している場合は、代わりに [DMY と解釈] を選択します。この場合、テキスト 4-12-13 は、2013 年 12 月 4 日として解釈されます。 月と日が 1 桁の場合とこれらの 1 桁の数字の先頭にゼロが付いている場合に日付として認識されます。 この形式は、デフォルトで有効になっています。
  • [YYYYMMDD] - この日付形式は、年、月、日です。例: 2015-06-03 または 20140502。 日付の異なる部分の間で区切り文字が使用されている場合、1 桁の月の値と日の値が認識されます。 たとえば、2015-6-3 は 2015 年 6 月 3 日としても認識されますが、201452 は 2014 年 5 月 2 日として認識されません。 生成され標準化された日付は、元の値が 1 桁の場合は先頭に 0 が付いた月と日、さらに 4 桁の年が続きます。 これらの形式では誤検知の日付が生成されることがあります。 これはデフォルトで有効になっています。
  • [YYMMDD] - この日付形式は、年、月、日です。例: 160722 または 170304。 月と日の値が 1 桁の場合には先頭にゼロが付き、年は 2 桁です。 これらの形式では誤検知の日付が生成される可能性があります。 これはデフォルトで有効になっています。
  • [YYJJJ] - 年とユリウス日。ユリウス日は 1 ~ 366 の数字を使用して暦年内での順序番号として表され、日が 1 桁または 2 桁の数字である場合には先頭にゼロが付きます。 たとえば、1800119365 です。 形式 YYYYJJJ もサポートされています。年が省略されません。たとえば、2020060 は、Feb 29, 2020 (2 月 29 日、2020 年) と表されます。 これらの形式では誤検知の日付が生成される可能性があります。 これはデフォルトで有効になっています。

日付が評価対象の日付範囲内にある限り、検出された 1 つ目の一致する日付が抽出されて出力フィーチャクラスの属性テーブルにある [最初の日付] 列に格納されます。 同様に、検出された最も古い日付は [最も古い日付] 列に格納され、検出された最新の日付は [最新の日付] 列に格納されます。 ドキュメントで検出されたすべての日付は、テーブルの最大許容サイズを上限に、カンマ区切りで [すべての日付] 列に表示されます。 これらの日付はすべて、元のテキストで使用されている形式に関係なく、YYYY-MM-DD 形式で記録されます。 これに対して、[抽出された日付テキスト] 列には、ドキュメントで検出されたとおりに、ドキュメントで検出され、日付として解釈されたテキストが記録されます。

日付範囲の設定の詳細

ドキュメントに特定の形式の日付だけが含まれていることがわかっている場合、その他の日付形式を無効にすることができます。 有効になっている日付形式の数が少ないほど、ドキュメントのスキャン時間は短くなります。

[日付] タブへのアクセス

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [日付] タブにアクセスします。
    • [オプション] タブ オプション をクリックした後、[日付] 切り替えボタンの横にある矢印 オプションまで移動 をクリックします。
    • [属性の抽出] タブ 属性の抽出 をクリックした後、[日付] タブをクリックします。

日付の切り替えボタンのオンまたはオフ

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. 日付の切り替えボタンをオンまたはオフにします。
    • [オプション] タブ オプション をクリックした後、[日付] 切り替えボタンをクリックします。
    • [属性の抽出] タブ 属性の抽出 をクリックした後、[日付] タブをクリックし、[日付からフィールドを作成] 切り替えボタンをクリックします。

日付の認識方法をカスタマイズ

操作中のドキュメントに標準日付形式設定では検出できない日付が含まれている場合があります。 たとえば、[月名を使用] オプションが有効だが、ドキュメント セットの作成者が習慣的に February を Febuary としてミススペルする場合、テキストは日付として認識されません。

同様に、分析中のドキュメントが複数の混じり合った言語で記述されている場合、デフォルトでは、テキストは英語で記述されたドキュメントの日付としてのみ認識されます。 たとえば、[月名を使用] オプションでは、英語の日付 July 17, 2018 は認識されます。 ただし、フランス語のドキュメントでは、等価の日付 17 juillet, 2018 は、デフォルトでは日付として認識されません。 日付形式は、希望するドキュメントの処理方法に応じて、英語に加えて、または英語の代わりに、他の言語で使用されている形式を認識するようにカスタマイズできます。

ドキュメント内の日付の認識方法をカスタマイズするには、[カスタマイズ] ダイアログ ボックスを使用します。 一部の言語にはデフォルト設定が用意されており、[設定] タブでドキュメントの言語を選択します。 アジア系言語のドキュメントでは、[数値] タブのオプションを使用することで、[平成三十年六月十八日] のようにアジア文字のみを使用して指定した日付や、[平成28年4月14日] のようにアジア文字と全角ヒンドゥーアラビア数字を組み合わせて指定した日付を認識できます。

一部の設定は、ドキュメント内に出現する 2 桁および 4 桁の数字を年として認識するかどうかを制御します。これは、テキストを日付として認識するかどうか、さらには、それがドキュメントから抽出するための日付の許容範囲内であるかどうかにも影響します。 履歴ドキュメントまたは将来のイベントの予測を提供するドキュメントのデジタル バージョンを操作している場合は、[位置の抽出] ウィンドウの [出力] タブの [抽出する日付をこの範囲に制限] 設定を変更する以外にも、それらのドキュメントに合わせて、年として認識される数値範囲を調整する必要が生じることがあります。

  1. [日付] タブにアクセスします
  2. 日付の切り替えボタンをオンにします
  3. 日付形式のリストの上部にある [カスタマイズ] ボタンをクリックします。
  4. ドキュメントが別の言語で記述されており、[カスタマイズ] ダイアログ ボックスの [設定] タブで、その言語の設定が使用可能な場合は、リストでその言語をクリックします。
  5. 選択した言語の設定を [カスタマイズ] ダイアログ ボックスに追加します。
    • [設定の置換] をクリックし、選択した言語に関連付けられた設定のみを使用してドキュメントをスキャンします。 現在の言語が英語で、選択した言語がフランス語の場合、ダイアログ ボックスで英語の設定をフランス語の設定で置換した後は、フランス語を使用して記述された空間座標形式のみがドキュメント内で認識されます。
    • [設定の結合] をクリックして、現在の言語と追加の言語の設定を使用してドキュメントをスキャンします。 現在の言語が英語で、選択した言語がフランス語の場合、ダイアログ ボックスでフランス語の設定を設定に結合した後は、英語とフランス語の両方を使用して記述された空間座標形式がドキュメント内で認識されます。
  6. 1 つの日付には、記述するときに、多数のコンポーネントを含めることができます。 日付のいずれかのコンポーネントに関連付けられた [日付] 見出しの下にあるタブ、たとえば、[2 月] を選択します。
  7. 語句のリストを変更して、スキャンしているドキュメントで使用されている表記を含めます。
    1. [語句テキスト] 列でグリッドの下部にある新しい行をクリックします。
    2. 2 月である月を識別できる値の 1 つとして、ミススペル Febuary などの、ドキュメント内で表示される適切な値を入力します。
    3. Enter キーを押します。
  8. [カスタマイズ] ダイアログ ボックスの複数のタブに同じ語句が入力されると警告が表示されます。 語句を重複させることはできますが、ドキュメント内での日付認識の精度が低下します。 テキストを日付として認識するプロセスに不可欠でない重複する語句は削除します。
    1. 影響を受けるタブのいずれかをクリックします。
    2. グリッド内の行をクリックして、使用する必要のない重複する語句を選択します。
    3. [削除] ボタン 削除 をクリックして、グリッドから選択した行を削除します。

    重複する語句が残っている場合は、[抽出] ボタンの横の [位置の抽出] ウィンドウの下に警告メッセージが表示されます。

  9. [年の範囲] タブで、ドキュメント内で年として解釈する数値の範囲を指定します。
  10. [数値] タブで、日付として認識できる文字のタイプを指定します。
  11. [OK] をクリックします。

日付の評価方法の指定

入力ドキュメント内の日付を評価する方法を変更し、この情報を出力フィーチャクラスに含めるには、日付の切り替えボタンがオンになっている必要があります。

  1. [日付] タブにアクセスします
  2. 日付の切り替えボタンをオンにします
  3. 日付候補の評価に使用する日付形式をオンにします。 使用しない日付形式をオフにします。
  4. テキストが日付を表しているか評価し判別するときに使用する必要のあるカスタマイズを指定します。

次回に日付が抽出されるときには、これらの日付設定を使用して日付候補が評価され、出力フィーチャクラスの属性テーブルに含める日付が決定されます。

単語の区切りが必要

[単語の区切りが必要] 設定は、テキストが単語であると見なす方法を決定します。 単語の区切りが必要な場合、ヨーロッパ言語では空白または区切り文字で区切られている場合に、テキストは単語として見なされます。 たとえば、英語の単語 Pacific はテキスト The City of Pacifica is located just 15 minutes south of San Francisco. との一致を正しく生成しません。ただし、テキスト I flew to Tokyo は日本語で 私は東京に飛んで ですが、単語 Tokyo東京 を見つけることはできません。

[単語の区切りが必要] が無効な場合は、特定のテキスト セットと一致させるためにテキストを空白または区切り文字で区切る必要はありません。 たとえば、単語 Pacific を検索していたカスタム位置が誤ってテキスト The City of Pacifica is located just 15 minutes south of San Francisco. との一致を生成します。ただし、日本語のテキスト Tokyo, 東京 を検索していたカスタム位置は、日本語のテキスト I flew to Tokyo, 私は東京に飛んで との一致を正常に生成します。

この設定は、ドキュメントでカスタム位置、カスタム属性、座標および日付に一致する単語をスキャンする方法に影響します。 ドキュメント内のテキストの言語に応じて、この設定は誤検出を頻繁に生成する場合もあれば、稀にしか生成しない場合もあります。 異なる言語で記述されたドキュメントは、各言語の必要に応じて、この設定を有効または無効にし個別に処理するのが最も賢明です。

単語の区切りが必要切り替えボタンをオンまたはオフにする

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [オプション] タブ オプション をクリックします。
  3. [単語の区切りが必要] 切り替えボタンをクリックして、オンまたはオフにします。

[単語の区切りが必要] 切り替えボタンがオンの場合は、次にドキュメントが処理されるときに、空白または区切り文字で区切られている場合のみ、テキストは単語と見なされます。 [単語の区切りが必要] 切り替えボタンがオフの場合は、次にドキュメントが処理されるときに、検索対象のテキストと一致するテキストが単語と見なされます。

Symbology

出力マップ レイヤーの作成時に入力ドキュメントで検出された位置を表すために使用するシンボルをカスタマイズできます。 この方法でマップ レイヤーに指定できるシンボルは 1 つだけです。

  1. [位置の抽出] ウィンドウを開きます
  2. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  3. [オプション] タブ オプション をクリックします。
  4. [シンボル] の見出しの下にあるポイント シンボル (赤色の塗りつぶし円など) をクリックします。

    [ポイント シンボルの書式設定] パネルが [位置の抽出] ウィンドウに表示されます。

  5. ギャラリーでポイント シンボルをクリックするか、シンボルのプロパティをカスタマイズして変更を適用します。 または、[戻る] ボタン 戻る をクリックして変更をキャンセルし、[オプション] タブに戻ります。

次回に位置が抽出されて出力マップ レイヤーが作成される際には、指定したシンボルを使用してマップ上に位置が描画されます。

カテゴリまたは数量で位置をシンボル表示

ドキュメント セットから位置を抽出した後、カスタム属性を使用して、出力された位置のシンボル表示を変更できます。 たとえば、各位置で見つかったキーワードを別々のシンボルによって表すことができます。 次に同じ設定を使用して位置を抽出するときに、既存のマップ レイヤーにそれらを追加できます。 結果のポイントは、同じ方法で自動的にシンボル表示されます。

後から、同じ [位置の抽出] テンプレートを使用して同じシンボルのある新しいマップ レイヤーを作成する場合は、最初に元のマップ レイヤーのシンボルをスキーマのみのレイヤー パッケージとして取得する必要があります。 レイヤー パッケージを使用して新しいフィーチャクラスと付随するマップレイヤーを作成し、それに新しいドキュメント セットから位置を追加できます。

  1. 再利用するシンボル表示があるマップ レイヤーを含むマップを開きます。
  2. 既存のマップ レイヤーからスキーマのみのレイヤー パッケージを作成します。
  3. 新しい位置セットを抽出する新しいマップにスキーマのみのレイヤー パッケージを追加します。

    レイヤー パッケージに定義されたスキーマを使用して、新しいフィーチャクラスがプロジェクトのデフォルトのジオデータベースに作成されます。 レイヤー パッケージからのレイヤー定義を使用して新しいマップ レイヤーが作成されます。

    レイヤーとレイヤー パッケージの詳細

  4. 前のステップで作成した既存のマップ レイヤーへ位置を抽出するためのワークフローに従います。

マップ レイヤーに抽出された位置は、ドキュメントとテキストから抽出されたカスタム属性値に基づいて、自動的にシンボル表示されます。

ファイルのスキャン

[ファイルのスキャン] タブ ファイルのスキャン では、スキャンまたはスキップするドキュメントを制御できます。

特定のファイル タイプのスキャン

このコンテキストでのファイル タイプとはファイル名拡張子のことです。 たとえば、table.txt ファイルがある場合、TXT はファイル タイプになります。 入力としてフォルダーを指定し、そのフォルダーに多数のファイルが含まれている場合、操作するファイル タイプのセットを指定することで、スキャンされるファイルを制限できます。 関連しないことがわかっているファイルを除外することも、関連することがわかっているファイルにスキャンの対象を限定することもできます。

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [ファイルのスキャン] タブ ファイルのスキャン をクリックします。
  3. [ファイル タイプ] の見出しをクリックします。
  4. 指定したファイル タイプをスキャンするかスキップするかを選択します。
    • [以下のタイプを除くすべてのファイルをスキャン] - スキップするファイル タイプを指定します。 これがデフォルトのオプションです。
    • [以下のファイル タイプのみをスキャン] - スキャンするファイル タイプを指定します。
  5. ファイル タイプ リストに拡張子を追加します。
    • [拡張子の追加] エクステンションの追加 をクリックします。 [拡張子の追加] ダイアログ ボックスで、[拡張子] テキスト ボックスに 1 つ以上のファイル拡張子を入力します。 複数のファイル拡張子を入力する場合、これらを区切るにはスペースのみを使用します。ファイル拡張子の後ろにカンマを付けないでください。 たとえば、「txt doc csv」と入力します。 必要に応じて、ファイル拡張子の前にピリオドを付けることができます。 [OK] をクリックします。
    • ファイルを Windows エクスプローラーからファイル タイプ リスト上にドラッグします。

    指定したファイル拡張子がファイル タイプ リストに追加されます。

ファイル拡張子が認識されると、Windows エクスプローラーで使用されているアイコンとタイプ文字列を使用して、そのファイル タイプがリストに含まれていることが表されます。 たとえば、ファイル拡張子 .docx を指定した場合、コンピューター上でこれらのファイルを表すファイル拡張子 .DOCX とアイコンがリスト内の [拡張子] 列に表示されます。 [種類] 列には「Microsoft Word ドキュメント」という値が挿入されます。

特定のファイルやフォルダーのスキップ

多数のファイルが含まれているフォルダーまたはディスクをスキャンする場合、ファイルまたはフォルダーごとにスキャンをスキップすると便利です。 スキャンの時間が短縮され、誤検知の位置が少なくなります。 たとえば、財務レポートが含まれているフォルダーに、空間座標とよく似た数値が含まれていることがあります。

ディスクをスキャンする際、インストールされているソフトウェア、オペレーティング システム ファイル、ハードウェア ドライバーなどが含まれているフォルダーは除外するようにしてください。 通常は Windows エクスプローラーには表示されない隠しファイルやシステム ファイルはデフォルトではスキップされますが、状況に応じてこれらのオプションをオフにすることができます。

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [ファイルのスキャン] タブ ファイルのスキャン をクリックします。
  3. [スキップ タイプ] の見出しをクリックします。
  4. 必要に応じて、[ファイル属性] の見出しの下の [非表示] または [システム] をオフにします。
  5. スキップするファイルおよびフォルダーを [ファイルとフォルダー] リストに追加します。
    • [ファイルとフォルダーの追加] ファイルとフォルダーの追加 をクリックします。 [ファイルとフォルダーの追加] ダイアログ ボックスが表示されます。 スキップするファイルとフォルダーを参照して選択し、[開く] をクリックします。
    • ファイルとフォルダーを Windows エクスプローラーから [ファイルとフォルダー] リスト上にドラッグします。

    指定したファイルとフォルダーがリストに追加されます。

Windows エクスプローラーでそのアイテムを表すアイコンとアイテム名がリストの [名前] 列に表示されます。 [パス] 列にファイルまたはフォルダーのパスが表示されます。

一部の処理されないファイル

Windows Search でコンピューター上のファイルの調査に使用されるものと同じテクノロジ (IFilter という名前のプラグイン) を使用してドキュメントが処理されます。 [位置の抽出] ウィンドウとそれに関連するツールでは Windows Search は使用されません。入力ドキュメントとテキストの調査には、コンピューター上で事前に有効になっている IFilter プラグインが使用されます。

テキスト ファイル、HTML ファイル、一部の Microsoft Office ドキュメントなどを処理可能な複数の IFilter が Microsoft Windows オペレーティング システムに組み込まれています。 使用可能な IFilter はオペレーティング システムによって異なります。 お使いのコンピューターにインストールされているその他のアプリケーションによって、そのアプリケーションで扱うドキュメントの処理に使用可能な追加の IFilter が提供される場合があります。 たとえば、Adobe Acrobat Reader DC または Adobe Acrobat をインストールした場合、PDF ファイルのコンテンツの処理に使用可能な IFilter が提供されることがあります。 ファイルをスキャンする際、そのファイル タイプ専用の IFilter があればそれが使用されます。専用の IFilter がない場合、標準の IFilter を使用してファイルがスキャンされ、できるだけ多くの情報が抽出されます。

AllSource は 64 ビット アプリケーションなので、入力ドキュメントとテキストの処理には 64 ビットの IFilter のみを使用できます。 通常、32 ビット アプリケーションではそのドキュメントの処理に使用可能な 32 ビット IFilter のみが提供されます。AllSource はこれらの IFilter を使用できません。

特定のファイル タイプ (PDF ファイルなど) をスキップするように設定していないが、存在することがわかっているファイルから位置を抽出できない場合、適切な 64 ビットの IFilter がお使いのコンピューターにインストールされていることを確認してください。

Windows 10 では、AllSource が PDF ファイルの処理に使用する IFilter が提供されているはずです。 その他のバージョンの Windows では、32 ビット バージョンの Adobe Reader をインストールしている場合、PDF ドキュメントを処理するための 64 ビットの IFilter が使用できない場合があります。 Windows 標準の IFilter を使用して PDF ドキュメントからコンテンツを抽出することはできません。 64 ビットの PDF IFilter を Adobe Web サイトからダウンロードできます。

出力

[出力] タブ 出力 では、ドキュメントから抽出して出力フィーチャクラスに格納するコンテンツを制御できます。

ドキュメント制限

入力ドキュメントから抽出される位置と日付に制限を設定できます。 入力ドキュメントのセットを初めてスキャンしているときに、空間座標とよく似ているが空間座標ではない多数の数値が含まれているファイルや、数字の並びが日付に似ているが実際には別のタイプのデータであるファイルが見つかることがあります。 デフォルトでは、入力ドキュメントから抽出されるフィーチャと日付の数に制限が設定されています。 これにより、数百万のポイントが間違って生成されたり、多数の無意味な日付が属性テーブルに格納されたりすることがなくなります。 出力位置およびその属性に格納されている日付を評価した後で、ドキュメントを再びスキャンする前に、この制限を無効にしたり制限を変更したりすることができます。

スキャンするドキュメントについて何も知らない場合や、 レポートなどの、半構造化されたドキュメントのセットを定期的にスキャンする場合があります。 通常、レポートの先頭にはレポートの作成日およびレポートの作成場所が記録されていますが、レポートの主題はさまざまな日にさまざまな場所で発生したイベントに関するものです。 これらのドキュメントを処理するときに、先頭からいくつかの数の位置と日付をスキップして、出力フィーチャクラスに対象のコンテンツが取り込まれるようにすることができます。

フィーチャ数と日付、入力ドキュメントから抽出されるフィーチャと日付に制限を設定できます。 これらの制限については、以下で説明します。

  • フィーチャ制限
    • [ドキュメントごとにフィーチャ数を制限] - デフォルトでは、ドキュメントで見つかった最初の 3,000 個の位置だけが抽出されて出力フィーチャクラスに格納されます。 このオプションがオンになっている場合、1 つのドキュメントから抽出されるフィーチャ数の上限を変更できます。 このオプションをオフにした場合、ドキュメント内の空間座標とカスタム位置の候補がすべて評価され、見つかったすべてのフィーチャが抽出されます。 これはデフォルトで有効になっています。
    • [ドキュメントごとに最初のフィーチャ数を無視] - デフォルトでは、入力ドキュメントで見つかった 1 つ目の空間座標またはカスタム位置の候補が評価された後、フィーチャ数の上限またはドキュメントの末尾に達するまで、その他すべての座標とカスタム位置の候補が評価されます。 このオプションがオンになっている場合、ドキュメントの先頭にある指定した数のフィーチャをスキップしてから、以降のすべてのフィーチャを上限まで抽出できます。デフォルトでは、1 つ目のフィーチャだけがスキップされますが、必要に応じてこの数を増やすことができます。 このオプションをオフにした場合、すべての空間座標とカスタム位置の候補が上限まで評価されます。 これはデフォルトでは有効になっていません。
  • 日付制限
    • [ドキュメントごとに日付数を制限] - デフォルトでは、ドキュメントで見つかった最初の 30 個の日付だけが抽出されて出力フィーチャクラスの属性テーブルに格納されます。 このオプションがオンになっている場合、1 つのドキュメントから抽出される日付数の上限を変更できます。 このオプションをオフにした場合、ドキュメント内のすべての日付候補が評価され、見つかったすべての日付が抽出されます。 これはデフォルトで有効になっています。
    • [ドキュメントごとに最初の日付数を無視] - デフォルトでは、入力ドキュメントで見つかった 1 つ目の日付候補が評価された後、日付数の上限またはドキュメントの末尾に達するまで、その他すべての日付候補が評価されます。 このオプションがオンになっている場合、ドキュメントの先頭にある指定した数の日付をスキップしてから、以降のすべての日付を上限まで抽出できます。デフォルトでは、1 つ目の日付だけがスキップされますが、必要に応じてこの数を増やすことができます。 このオプションをオフにした場合、すべての日付候補が上限まで評価されます。 これはデフォルトでは有効になっていません。
  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [出力] タブ 出力 をクリックします。
  3. [ドキュメント制限] の見出しをクリックします。
  4. 必要に応じて、抽出されるフィーチャまたは日付の数を制限するオプションをオンまたはオフにします。
  5. 有効になった [フィーチャ] または [日付] テキスト ボックス内をクリックし、抽出するフィーチャまたは日付の最大数を入力します。
  6. 必要に応じて、入力ドキュメントまたはテキストの先頭にある指定した数のフィーチャまたは日付をスキップするオプションをオンまたはオフにします。
  7. 有効になった [フィーチャ] または [日付] テキスト ボックス内をクリックし、後ろにあるフィーチャまたは日付を抽出する前にスキップするフィーチャまたは日付の数を入力します。

プレテキストおよびポストテキストの制限

空間座標またはカスタム位置がドキュメントから抽出されて出力フィーチャクラスに格納される際に、一部の情報は出力フィーチャクラスの属性テーブルに格納され、後からこれらの位置を評価するときに使用できます。 位置の前にあるドキュメントの抜粋は、フィーチャクラスの属性テーブル内の [プレテキスト] フィールドに格納されます。 位置の後ろにあるドキュメントの抜粋は、フィーチャクラスの属性テーブル内の [ポストテキスト] フィールドに格納されます。 これらの属性を基にして、それが実際の位置であるか、そうである場合にはそこで何が起こったか、それは解析に関連するかなど、位置のコンテキストを確立できます。

抽出されてフィーチャクラスに格納される位置の前後のテキストの量は次の設定によって決まります。

  • [プレテキスト] - デフォルトでは、位置の前にあるテキストのうちの 254 文字がドキュメントから抽出されて [プレテキスト] フィールドに格納されます。 必要に応じて、この値を増減できます。
  • [ポストテキスト] - デフォルトでは、位置の後ろにあるテキストのうちの 254 文字がドキュメントから抽出されて [ポストテキスト] フィールドに格納されます。 必要に応じて、この値を増減できます。
  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [出力] タブ 出力 をクリックします。
  3. [プレテキストおよびポストテキストの制限] の見出しをクリックします。
  4. [プレテキスト] テキスト ボックス内をクリックし、入力ドキュメントから抽出される、位置の前にある文字の最大数を入力します。
  5. [ポストテキスト] テキスト ボックス内をクリックし、入力ドキュメントから抽出される、位置の後ろにある文字の最大数を入力します。

その他のテキスト フィールドの制限

[プレテキスト] および [ポストテキスト] フィールドに加え、情報のさまざまな部分が、抽出された位置と日付の評価に役立つ出力フィーチャクラスの属性テーブルに記録されます。 現在のドキュメントのコレクション内のコンテンツに合わせて、保持する情報量を増減するために、これらのフィールドのサイズを調整できます。

フィーチャクラスに格納されるテキストの量は次の設定によって決まります。

  • [名前] - デフォルトでは、位置が見つかったファイル名を表すために、50 文字のテキストを [名前] フィールドに格納できます。 必要に応じて、この値を増減できます。
  • [抽出テキスト] - デフォルトでは、見つかった空間座標またはカスタム位置を表すために、120 文字のテキストを [抽出テキスト] フィールドに格納できます。 必要に応じて、この値を増減できます。
  • [抽出タイプ] - デフォルトでは、見つかった空間座標またはカスタム位置のタイプを表すために、50 文字のテキストを [抽出タイプ] フィールドに格納できます。 必要に応じて、この値を増減できます。
  • [すべての日付] - デフォルトでは、ドキュメントで見つかった日付を表す 254 文字のテキストを [すべての日付] フィールドに格納できます。 これらの日付は、yyyy-mm-dd 形式で標準化されます。 必要に応じて、この値を増減できます。
  • [抽出された日付テキスト] - デフォルトでは、ドキュメントで見つかった日付を表す 254 文字のテキストを [抽出された日付テキスト] フィールドに格納できます。 日付として認識された元のドキュメントからのテキストが抽出され、記録されます。 必要に応じて、この値を増減できます。
  • [ファイル名] - デフォルトでは、位置が見つかったファイルのフル パスを表すために、254 文字のテキストを [ファイル名] フィールドに格納できます。 必要に応じて、この値を増減できます。
  • [ファイル タイプ] - デフォルトでは、処理されたファイルのタイプを表すために、10 文字のテキストを [ファイル タイプ] フィールドに格納できます。 必要に応じて、この値を増減できます。

出力フィーチャクラスのフィールドの詳細

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [出力] タブ 出力 をクリックします。
  3. [その他のテキスト フィールドの制限] 見出しをクリックします。
  4. フィールド テキスト ボックス内をクリックし、各フィールドに記録できる最大文字数を表す数値を入力します。

日付範囲

数値のなかには空間座標と日付が似ているものがあります。 デフォルトでは、日付は選択されている日付形式のいずれかと一致し、生成された日付が指定されている日付範囲内にある場合にのみ抽出されます。 これによって、誤検知の日付が抽出される可能性が低くなります。 デフォルトの日付範囲は 1985 年 1 月 1 日~ 2030 年 12 月 31 日です。 入力ドキュメント内で日付が見つかった場合でも、指定されている日付範囲内にない場合、その日付は抽出されず、出力フィーチャクラスの属性テーブルに格納されません。

一致するすべての日付を入力ドキュメントから抽出するには、[抽出する日付をこの範囲に制限] をオフにします。 この設定では、すべての数値を選択されている日付形式と照らして評価する必要があるため、ドキュメントのコンテンツの評価にかかる時間が長くなります。

特定の期間内に発生したイベントのみを対象とする場合、[抽出する日付をこの範囲に制限] オプションをオンにし、それらのイベントが発生した期間とより厳密に一致するように日付範囲を調整します。

  • [開始日] - デフォルトでは、1985 年 1 月 1 日。 ドロップダウン メニューをクリックし、カレンダー コントロール上で有効な日付範囲の開始日をクリックします。
  • [終了日] - デフォルトでは、2030 年 12 月 31 日。ドロップダウン メニューをクリックし、カレンダー コントロール上で有効な日付範囲の終了日をクリックします

カレンダー コントロールでは一度に 1 つの月にアクセスできます。 左右の上隅にある矢印を使用して、前の月または次の月にアクセスします。 カレンダーの最上部で月と年をクリックすると、月のリストが表示されます。 月のリストの最上部で年をクリックすると、年のリストが表示されます。 左右の上隅にある矢印を使用して、前の年または次の年にアクセスします。

履歴ドキュメントを操作している場合は、[カスタマイズ] ダイアログ ボックスの [年の範囲] タブの追加設定が、テキストを日付として認識するかどうか、および [抽出する日付をこの範囲に制限] 設定の動作方法に影響します。 [年の範囲] タブの設定によって、2 桁および 4 桁の数値を年として解釈するかどうかが決まります。 この評価は、年に隣接するテキストが日付かどうかを決定する前に行われます。

デフォルトでは、1900 ~ 2099 の範囲の 4 桁の数値は年として認識されます。 [抽出する日付をこの範囲に制限] 設定は、その年がこの範囲内である限り、見つかった 4 桁の年を持つあらゆる日付を制限するように効果的に機能します。 デジタルで利用可能になった履歴ドキュメントを操作している場合は、ドキュメントが記述された期間を説明するために、[出力] タブの [抽出する日付をこの範囲に制限] 設定と、[カスタマイズ] ダイアログ ボックスの [年の範囲] タブも 4 桁の年の範囲の両方を調整する必要があります。

同様に、2 桁の数値を分析して、それらが年を表しているかどうかを判別する場合は、デフォルトでは、1970 年に始まる 100 年ウィンドウが使用されます。 [抽出する日付をこの範囲に制限] 設定は、その年がこの範囲内である限り、見つかった 2 桁の年を持つあらゆる日付を制限するように効果的に機能します。 ただし、履歴ドキュメントまたは将来の予測に関するレポートを操作している場合は、ドキュメントの期間を説明するために、[カスタマイズ] ダイアログ ボックスの [年の範囲] タブと、[出力] タブの [抽出する日付をこの範囲に制限] 設定で 100 年ウィンドウを調整する必要が生じることがあります。

テキストを日付として認識する方法のカスタマイズの詳細

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [出力] タブ 出力 をクリックします。
  3. [日付範囲] の見出しをクリックします。
  4. 必要に応じて、[抽出する日付をこの範囲に制限] オプションをオンまたはオフにします。
  5. このオプションを有効にした場合、[開始日] ドロップダウン矢印をクリックし、抽出する日付範囲の開始日を参照して選択します。
  6. このオプションを有効にした場合、[終了日] ドロップダウン矢印をクリックし、抽出する日付範囲の終了日を参照して選択します。
  7. テキストが日付を表しているか評価し判別するときに使用する必要のあるカスタマイズを指定します。

標準化された座標

空間座標またはカスタム位置がドキュメントから抽出されて出力フィーチャクラスに格納される際に、一部の情報は出力フィーチャクラスの属性テーブルに格納され、後からこれらの位置を評価するときに使用できます。 位置を表すドキュメントの元のテキストが属性テーブル内の Extracted Text フィールドに格納され、見つかった位置のタイプが Extracted Type フィールドに記録されます。

さらに、見つかったすべての位置の一貫した表現が、エイリアス Stand. Coord. を持つ標準化された座標フィールドに格納されます。 ポイント フィーチャに関連付けられている X,Y 座標は [標準化された座標] オプションによって指定されている形式で記録されます。

要件を満たす座標形式を次のオプションから選択します。 たとえば、入力ドキュメントで見つかった座標 117.1717550°W 34.0552456°N は、選択されている各座標形式に応じて、以下に示すように標準化された座標フィールドに表示されます。

  • [DD - 度 (10 進)] - 34.055246N 117.171755W (デフォルトで選択されています)
  • [DM - 分 (10 進)] - 34 03.3147N 117 10.3053W
  • [DMS - 度分秒] - 34 03 18.88N 117 10 18.32W
  • [UTM - ユニバーサル横メルカトル] - 11S 484149 3768294
  • [MGRS - Military Grid Reference System] - 11SMT8414968295

  1. [位置の抽出] ウィンドウで、[プロパティ] タブをクリックします。
  2. [出力] タブ 出力 をクリックします。
  3. [標準化された座標] の見出しをクリックします。
  4. ドロップダウン リストをクリックし、抽出された位置を記録するときの座標形式をクリックします。