Использование записей Databricks—ArcGIS Data Pipelines

Используйте записи из таблицы Databricks в качестве входных данных для ArcGIS Data Pipelines.

Примечания по использованию

При работе с Databricks нужно учитывать следующее:

Чтобы использовать набор данных из Databricks, необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Databricks.
Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
- Добавить хранилище данных — создайте новый элемент хранилища данных.
- Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
Используйте параметр Схема, чтобы указать схему, содержащую набор данных, который вы хотите использовать.
Используйте параметр Таблица, чтобы указать набор данных, который вы хотите использовать.
Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
  - Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
  - Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
  - Выбрать поля — Сохраняет только поля интереса.
  - Вырезание — Сохраняет поднабор записей, которые пересекаются с определенными геометриями.

Подключитесь к Databricks

Чтобы использовать данные, хранящиеся в Databricks, выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines.

На панели инструментов редактора Data Pipelines щелкните Входные данные и выберите Databricks.
Появится диалоговое окно Выбрать подключение к хранилищу данных.
Выберите Добавить новое хранилище данных и щелкните Далее.
Появится диалоговое окно Добавить подключение к хранилищу данных.
Введите URL сервера для учетной записи Databricks.
Ниже приведен пример: my_account.azuredatabricks.net.
Проверка может завершиться неудачей, если вы укажете https:// для URL-адреса сервера.
Выберите один из следующих типов аутентификации:
- OAuth между компьютерами — укажите ID клиента и секрет клиента для вашей учетной записи Databricks.
- Персональный токен доступа — укажите токен от вашей учетной записи Databricks.
В параметре Путь HTTP укажите HTTP-путь для вычислительного ресурса Databricks, который будет использоваться.
Рекомендуется использовать бессерверное хранилище. Бессерверные хранилища могут подключаться быстрее, чем классические.
В поле Каталог (дополнительно) введите название каталога, в котором находятся используемые наборы данных.
Если вы не укажете каталог, элемент хранилища данных подключится к каталогу по умолчанию вашей учетной записи Databricks.
Щелкните Далее.
Откроется страница с информацией об элементе.
Введите заголовок для нового элемента хранилища данных.
Это заголовок, который появится в ваших ресурсах. Вы также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.
Щелкните Создать подключение, чтобы создать элемент хранилища данных.
Откроется диалоговое окно Выбрать наборы данных.
В параметре Схема укажите имя схемы, содержащей таблицу, из которой нужно загрузить записи.
В параметре Таблица укажите имя таблицы, содержащей записи, которые будут использоваться в качестве входных данных для конвейера данных.
Щёлкните Добавить.
Элемент Databricks добавляется на канву.

Ограничения

Известны следующие ограничения:

Для работы с данными из таблицы Databricks хранилище Databricks должно быть запущено. Data Pipelines запустит хранилище при запросе данных. Загрузка записей или полей из таблицы Databricks может занять несколько минут в зависимости от того, сколько времени потребуется для запуска хранилища. Для повышения производительности рекомендуется использовать бессерверное хранилище вместо классического.
Типы полей, которые нельзя запросить с помощью Databricks SQL, не могут использоваться в Data Pipelines.
Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.

Лицензионные требования

Требуется следующее лицензии и конфигурации:

Тип пользователя Creator или Professional
Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль

Подробнее о системных требованиях Data Pipelines см. раздел Требования

Отзыв по этому разделу?

Примечания по использованию

Подключитесь к Databricks

Ограничения

Лицензионные требования

В этом разделе