Skip To Content

重複の削除

重複の削除ツールは、1 つまたは複数のキー フィールドに基づき、重複レコードを削除します。 重複レコードが含まれない新しいデータセットが出力されます。

重複の削除ツールは、次のようなシナリオで使用できます。

  • 時間、緯度、経度の値が同じレコードを含む位置データが存在する場合。 これらの値を含むフィールドを指定して、重複する位置を削除します。
  • トランザクション データに、同じトランザクションが誤って複数回格納されている場合。 トランザクション ID フィールドに基づいて重複レコードを削除することで、売上をより正確に把握できるようになります。

パラメーター

次の表に、重複の削除ツールで使用するパラメーターの概要を示します。

パラメーター説明

入力データセット

重複レコードを含むデータセット。

キー フィールド

一意のレコードを識別する 1 つ以上のフィールドのリスト。

使用上の注意

[入力データセット] パラメーターを使用して、重複レコードを含むデータセットを特定します。

[キー フィールド] パラメーターを使用して、レコードが一意であることを示す 1 つ以上のフィールドを指定します。 データセットに一意識別子フィールドが 1 つ含まれている場合、そのフィールドを使用して重複を削除できます。 また、フィールドの組み合わせを指定して、一意のレコードを識別することもできます。 たとえば、センサー測定値のデータが存在する場合、タイムスタンプ、ID、測定値を含むフィールドを指定して、同じ測定値の重複データを削除できます。

3 つのフィールドの値に基づいて重複を削除する例
この例では、キー フィールドに Reading_Value、SensorID、Timestamp を使用して、重複を削除しています。

削除される重複レコードが、入力データセット内で最初に出現するレコードであるとは限りません。 たとえば、入力データセットの最初の 3 つのレコードが重複している場合に、1 つ目と 3 つ目のレコードが削除され、2 つ目のレコードが維持されることもあります。

出力

ツールは、重複レコードが含まれないデータセットを出力します。

ライセンス要件

次のライセンスと構成が必要です。

  • Creator または Professional ユーザー タイプ
  • 公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール

Data Pipelines の要件の詳細については、「要件」をご参照ください。