Skip To Content

Использование записей Databricks (бета-версия)

Примечание:
Эта функциональность сейчас доступна в бета-версии. Поделитесь своим опытом и обратитесь за поддержкой через форум отзывов о бета-функциях в Data Pipelines Community.

Используйте записи из таблицы Databricks (бета-версия) в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Databricks (бета-версия) нужно учитывать следующее:

  • Чтобы использовать набор данных из Databricks (бета-версия), необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Databricks (бета-версия) ниже.
  • Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
    • Добавить хранилище данных — создайте новый элемент хранилища данных.
    • Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
  • Используйте параметр Схема, чтобы указать схему, содержащую набор данных, который вы хотите использовать.
  • Используйте параметр Таблица, чтобы указать набор данных, который вы хотите использовать.
  • Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
    • Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
    • После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
      • Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
      • Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
      • Выбрать поля — Сохраняет только поля интереса.
      • Вырезание — Сохраняет подмножество записей, которые пересекаются с определенными геометриями.

Подключение к Databricks (бета-версия)

Чтобы использовать данные, хранящиеся в Databricks (бета-версия), выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines:

  1. На панели инструментов редактора Data Pipelines щелкните Входные данные и выберите Databricks (бета-версия).

    Появится диалоговое окно Выбрать подключение к хранилищу данных.

  2. Выберите Добавить новое хранилище данных и щелкните Далее.

    Появится диалоговое окно Добавить подключение к хранилищу данных.

  3. Введите URL сервера для учетной записи Databricks.
    Ниже приведен пример: my_account.azuredatabricks.net.

    Проверка может завершиться неудачей, если вы укажете https:// для URL-адреса сервера.

  4. Выберите один из следующих типов аутентификации:
    • OAuth между компьютерами — укажите ID клиента и секрет клиента для вашей учетной записи Databricks.
    • Персональный токен доступа — укажите токен от вашей учетной записи Databricks.
  5. В параметре Путь HTTP укажите HTTP-путь для вычислительного ресурса Databricks, который будет использоваться.

    Рекомендуется использовать бессерверное хранилище. Бессерверные хранилища могут подключаться быстрее, чем классические.

  6. В поле Каталог (дополнительно) введите название каталога, в котором находятся используемые наборы данных.
    Если вы не укажете каталог, элемент хранилища данных подключится к каталогу по умолчанию вашей учетной записи Databricks.
  7. Щелкните Далее.

    Откроется страница с информацией об элементе.

  8. Введите заголовок для нового элемента хранилища данных.

    Это заголовок, который появится в ваших ресурсах. Вы также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.

  9. Щелкните Создать подключение, чтобы создать элемент хранилища данных.

    Откроется диалоговое окно Выбрать наборы данных.

  10. В параметре Схема укажите имя схемы, содержащей таблицу, из которой нужно загрузить записи.
  11. В параметре Таблица укажите имя таблицы, содержащей записи, которые будут использоваться в качестве входных данных для конвейера данных.
  12. Щелкните Добавить.

    Элемент Databricks (бета-версия) добавляется на канву.

Ограничения

Известны следующие ограничения:

  • Если ваша организация заблокировала бета-приложения и возможности, вы не сможете получить доступ к опции Databricks (бета-версия):
  • Для работы с данными из таблицы Databricks необходимо сначала запустить хранилище Databricks. Data Pipelines запустит хранилище при запросе данных. Загрузка записей или полей из таблицы Databricks может занять несколько минут в зависимости от того, сколько времени потребуется для запуска хранилища. Для повышения производительности рекомендуется использовать бессерверное хранилище вместо классического.
  • Типы полей, которые нельзя запросить с помощью Databricks SQL, не могут использоваться в Data Pipelines.
  • Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

  • Тип пользователя Creator или Professional
  • Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования