Skip To Content

重複の削除

重複の削除ツールは、1 つまたは複数のキー フィールドに基づき、重複レコードを削除します。 重複レコードが含まれない新しいデータセットが出力されます。

重複の削除ツールは、次のようなシナリオで使用できます。

  • 時間、緯度、経度の値が同じレコードを含む位置データが存在する場合。 これらの値を含むフィールドを指定して、重複する位置を削除します。
  • トランザクション データに、同じトランザクションが誤って複数回格納されている場合。 トランザクション ID フィールドに基づいて重複レコードを削除することで、売上をより正確に把握できるようになります。

パラメーター

次の表に、重複の削除ツールで使用するパラメーターの概要を示します。

パラメーター説明

入力データセット

重複レコードを含むデータセット。

キー フィールド

一意のレコードを識別する 1 つ以上のフィールドのリスト。

使用上の注意

[入力データセット] パラメーターを使用して、重複レコードを含むデータセットを特定します。

[キー フィールド] パラメーターを使用して、レコードが一意であることを示す 1 つ以上のフィールドを指定します。 データセットに一意識別子フィールドが 1 つ含まれている場合、そのフィールドを使用して重複を削除できます。 また、フィールドの組み合わせを指定して、一意のレコードを識別することもできます。 たとえば、センサー測定値のデータが存在する場合、タイムスタンプ、ID、測定値を含むフィールドを指定して、同じ測定値の重複データを削除できます。

3 つのフィールドの値に基づいて重複を削除する例
この例では、キー フィールドに Reading_Value、SensorID、Timestamp を使用して、重複を削除しています。

重複レコードが削除されるときに、データの順序は考慮されません。 どの重複データが保持されるかについては保証できません。 たとえば、3 つの重複レコードがある場合、データセット内でのレコードの表示順序に関係なく、3 つのうちのどのレコードも維持される可能性があります。

出力

ツールは、重複レコードが含まれないデータセットを出力します。

ライセンス要件

次のライセンスと構成が必要です。

  • Creator または Professional ユーザー タイプ
  • 公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール

Data Pipelines の要件の詳細については、要件をご参照ください。