重複の削除ツールは、1 つまたは複数のキー フィールドに基づき、重複レコードを削除します。 重複レコードが含まれない新しいデータセットが出力されます。
例
重複の削除ツールは、次のようなシナリオで使用できます。
- 時間、緯度、経度の値が同じレコードを含む位置データが存在する場合。 これらの値を含むフィールドを指定して、重複する位置を削除します。
- トランザクション データに、同じトランザクションが誤って複数回格納されている場合。 トランザクション ID フィールドに基づいて重複レコードを削除することで、売上をより正確に把握できるようになります。
パラメーター
次の表に、重複の削除ツールで使用するパラメーターの概要を示します。
パラメーター | 説明 |
---|---|
入力データセット | 重複レコードを含むデータセット。 |
キー フィールド | 一意のレコードを識別する 1 つ以上のフィールドのリスト。 |
使用上の注意
[入力データセット] パラメーターを使用して、重複レコードを含むデータセットを特定します。
[キー フィールド] パラメーターを使用して、レコードが一意であることを示す 1 つ以上のフィールドを指定します。 データセットに一意識別子フィールドが 1 つ含まれている場合、そのフィールドを使用して重複を削除できます。 また、フィールドの組み合わせを指定して、一意のレコードを識別することもできます。 たとえば、センサー測定値のデータが存在する場合、タイムスタンプ、ID、測定値を含むフィールドを指定して、同じ測定値の重複データを削除できます。
削除される重複レコードが、入力データセット内で最初に出現するレコードであるとは限りません。 たとえば、入力データセットの最初の 3 つのレコードが重複している場合に、1 つ目と 3 つ目のレコードが削除され、2 つ目のレコードが維持されることもあります。
出力
ツールは、重複レコードが含まれないデータセットを出力します。
ライセンス要件
次のライセンスと構成が必要です。
- Creator または Professional ユーザー タイプ
- 公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール
Data Pipelines の要件の詳細については、要件をご参照ください。