Skip To Content

Сведение

Инструмент Сведение преобразует длинный набор данных в широкий набор данных, используя различающиеся значения из существующего поля для создания новых полей.

Примеры

Инструмент Сведение можно использовать в следующих сценариях:

  • У вас есть большой набор данных с большим количеством записей и небольшим количеством полей, и вы хотите отформатировать его так, чтобы в нем было меньше записей и много полей.
  • У вас есть набор данных, содержащий записи полевых наблюдений за несколько лет, и вы хотите суммировать значения по годам.

Параметры

В следующей таблице приведены параметры инструмента Сведение:

ПараметрОписание

Входной набор данных

Набор данных для сведения.

Входные поля

Одно или несколько полей используемые для определения уникальных записей в выходном наборе данных. Записи с совпадающими значениями будут объединены с помощью функций агрегирования.

Поле сведения

Поле, содержащее значения для трансформации в новые поля в выходном наборе данных.

Поле значений

Поле, используемое для определения значений новых записей.

Функции агрегирования

Функция или функции, используемые для расчета новых значений.

Примечания по использованию

Используйте параметр Входной набор данных, чтобы определить набор данных, который будет преобразован.

Используйте параметр Входные поля, чтобы определить одно или несколько полей, содержащих значения для группировки. Уникальные значения из указанного поля или полей станут записями в выходном наборе данных. Одно и то же поле нельзя указать и для Входного поля, и для Поля сведения или Поля значений.

Используйте параметр Поле сведения, чтобы определить поле, содержащее значения, которые будут использоваться для создания имен новых полей в выходном наборе данных.

Параметр Функции агрегирования используется для определения того, как будут рассчитываться значения из сгруппированных записей. Доступны следующие функции агрегирования:

  • Сумма – сумма числовых значений в поле. Сумма [null, 1, 3] равна 4.
  • Мин – минимальное значение числового поля или поля даты. Минимальное значение [0, 2, null] равно 0.
  • Макс – максимальное значение числового поля или поля даты. Максимум [0, 2, null] равно 2.
  • Среднее – среднее арифметическое числовых значений. Среднее [0, 2, null] равно 1.
  • Среднеквадратическое отклонение – среднеквадратическое отклонение числового поля. Среднеквадратическое отклонение [null, 1, 1, 1] равно 0.
  • Количество – количество не пустых значений. Его можно использовать на поле любого типа. Число [null, "hello", "world"] равняется 2.
  • Любой – выборочное значение из поля любого типа.

Выходные данные

Выходные данные инструмента представляют собой набор данных, содержащий следующие поля и значения:

  • Все поля указаны с помощью параметра Входные поля. Выходные данные будут содержать одну запись для каждого уникального значения, найденного в поле или комбинации полей.
  • Новые поля для каждого уникального значения в поле, указанном с помощью параметра Поле сведения. Эти поля будут содержать агрегированные значения из поля, указанного с помощью параметра Поле значения. Например, если поле сведения содержит два уникальных значения California и Washington, и вы вычисляете функции агрегирования Среднее и Любое, результат будет содержать четыре новых поля: MEAN_California, ANY_California, MEAN_Washington, и ANY_Washington.

Если Поле сведения содержит пустые значения, будет добавлено поле с именем null. Если Поле сведения содержит пустые строки, будет добавлено поле с именем _.

Пример использования инструмента Сведение

Ограничения

Ниже перечислены известные ограничения инструмента Сведение:

  • Имена полей не чувствительны к регистру.Если параметр Поле сведения содержит совпадающие текстовые значения с разным регистром, выходные поля будут переименованы, чтобы избежать дубликатов.
  • Имена полей, содержащие недопустимые символы или начинающиеся с цифры, переименовываются. Если параметр Поле сведения содержит несколько значений, которые могут конфликтовать при переименовании, они будут переименованы, чтобы избежать дублирования.
  • Параметр Поле сведения поддерживает максимальное количество различных значений, равное 1000. Если будет более 1000 различных значений, возникнет ошибка.
  • Для определения новых значений для сведения требуется сканирование всего входного набора данных. Если производительность последующих инструментов становится проблемой, рассмотрите возможность ограничения размера входного набора данных.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

  • Тип пользователя Creator или Professional
  • Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования