Примечание:
Эта функциональность сейчас доступна в бета-версии. Поделитесь своим опытом и обратитесь за поддержкой через форум отзывов о бета-функциях в Data Pipelines Community.Используйте записи из таблицы Databricks (бета-версия) в качестве входных данных для ArcGIS Data Pipelines.
Примечания по использованию
При работе с Databricks (бета-версия) нужно учитывать следующее:
- Чтобы использовать набор данных из Databricks (бета-версия), необходимо сначала создать элемент хранилища данных. Элементы хранилища данных надежно хранят учетные данные и информацию о подключении, чтобы данные могли быть прочитаны Data Pipelines. Чтобы создать хранилище данных, выполните действия, описанные в разделе Подключение к Databricks (бета-версия) ниже.
- Чтобы изменить настроенный элемент хранилища данных, используйте параметр Элемент хранилища данных, чтобы удалить текущий выбранный элемент, и выберите одну из следующих опций:
- Добавить хранилище данных — создайте новый элемент хранилища данных.
- Выбрать элемент — просмотрите свои ресурсы, чтобы выбрать существующий элемент хранилища данных.
- Используйте параметр Схема, чтобы указать схему, содержащую набор данных, который вы хотите использовать.
- Используйте параметр Таблица, чтобы указать набор данных, который вы хотите использовать.
- Чтобы повысить производительность чтения входных наборов данных, рассмотрите следующие варианты:
- Используйте параметр Использовать кэширование для сохранения копии набора данных. Кэшированная копия сохраняется только пока в браузере открыта хотя бы одна вкладка редактора. Это может ускорить доступ к данным во время их обработки. Если исходные данные были обновлены с момента их кэширования, отключите этот параметр и выполните предварительный просмотр или запустите инструмент еще раз.
- После настройки входного набора данных настройте любой из следующих инструментов, которые ограничивают объем обрабатываемых данных:
- Фильтр по атрибуту — Сохраняет поднабор записей, содержащих определенные значения атрибутов.
- Фильтр по экстенту — Сохраняет поднабор записей в пределах определенного пространственного экстента.
- Выбрать поля — Сохраняет только поля интереса.
- Вырезание — Сохраняет подмножество записей, которые пересекаются с определенными геометриями.
Подключение к Databricks (бета-версия)
Чтобы использовать данные, хранящиеся в Databricks (бета-версия), выполните следующие действия для создания элемента хранилища данных в редакторе Data Pipelines:
- На панели инструментов редактора Data Pipelines щелкните Входные данные и выберите Databricks (бета-версия).
Появится диалоговое окно Выбрать подключение к хранилищу данных.
- Выберите Добавить новое хранилище данных и щелкните Далее.
Появится диалоговое окно Добавить подключение к хранилищу данных.
- Введите URL сервера для учетной записи Databricks.Ниже приведен пример: my_account.azuredatabricks.net.
Проверка может завершиться неудачей, если вы укажете https:// для URL-адреса сервера.
- Выберите один из следующих типов аутентификации:
- OAuth между компьютерами — укажите ID клиента и секрет клиента для вашей учетной записи Databricks.
- Персональный токен доступа — укажите токен от вашей учетной записи Databricks.
- В параметре Путь HTTP укажите HTTP-путь для вычислительного ресурса Databricks, который будет использоваться.
Рекомендуется использовать бессерверное хранилище. Бессерверные хранилища могут подключаться быстрее, чем классические.
- В поле Каталог (дополнительно) введите название каталога, в котором находятся используемые наборы данных.Если вы не укажете каталог, элемент хранилища данных подключится к каталогу по умолчанию вашей учетной записи Databricks.
- Щелкните Далее.
Откроется страница с информацией об элементе.
- Введите заголовок для нового элемента хранилища данных.
Это заголовок, который появится в ваших ресурсах. Вы также можете сохранить элемент в определенной папке и указать теги элемента или сводную информацию.
- Щелкните Создать подключение, чтобы создать элемент хранилища данных.
Откроется диалоговое окно Выбрать наборы данных.
- В параметре Схема укажите имя схемы, содержащей таблицу, из которой нужно загрузить записи.
- В параметре Таблица укажите имя таблицы, содержащей записи, которые будут использоваться в качестве входных данных для конвейера данных.
- Щелкните Добавить.
Элемент Databricks (бета-версия) добавляется на канву.
Ограничения
Известны следующие ограничения:
- Если ваша организация заблокировала бета-приложения и возможности, вы не сможете получить доступ к опции Databricks (бета-версия):
- Для работы с данными из таблицы Databricks необходимо сначала запустить хранилище Databricks. Data Pipelines запустит хранилище при запросе данных. Загрузка записей или полей из таблицы Databricks может занять несколько минут в зависимости от того, сколько времени потребуется для запуска хранилища. Для повышения производительности рекомендуется использовать бессерверное хранилище вместо классического.
- Типы полей, которые нельзя запросить с помощью Databricks SQL, не могут использоваться в Data Pipelines.
- Чтобы использовать элемент хранилища данных для подключения к внешним источникам данных, вы должны быть владельцем элемента хранилища данных. Элементы хранилища данных являются частными и не могут быть опубликованы.
Лицензионные требования
Требуется следующее лицензии и конфигурации:
- Тип пользователя Creator или Professional
- Роль Издатель, Посредник или Администратор, или эквивалентная пользовательская роль
Подробнее о системных требованиях Data Pipelines см. раздел Требования