获取工作区对象的标识符
本文将介绍如何在 Azure Databricks 中获取工作区、群集、目录、模型、笔记本、作业标识符和作业 URL。
工作区实例名称、URL 和 ID
唯一的实例名称(也称为每工作区 URL)已分配给每个 Azure Databricks 部署 。 它是完全限定的域名,用于登录到 Azure Databricks 部署和发出 API 请求。
Azure Databricks 工作区 是运行 Azure Databricks 平台的位置,可在其中创建 Spark 群集和计划工作负载。 工作区具有唯一的数字工作区 ID。
每工作区 URL
此唯一的每工作区 URL 采用以下格式:adb-<workspace-id>.<random-number>.databricks.azure.cn
。 工作区 ID 紧跟在 adb-
的后面,在“圆点”(.) 的前面。 对于每工作区 URL https://adb-5555555555555555.19.databricks.azure.cn/
:
- 实例名称为
adb-5555555555555555.19.databricks.azure.cn
。 - 工作区 ID 为
5555555555555555
。
确定每工作区 URL
可确定工作区的每工作区 URL:
登录时在浏览器中:
在 Azure 门户中,方式是选择资源,并记下 URL 字段中的值:
使用 Azure API。 请参阅使用 Azure API 获取每工作区 URL。
旧区域 URL
重要
不要使用旧的区域 URL。 它们可能不适用于新的工作区、可靠性更低,而且性能比每工作区 URL 的低。
旧区域 URL 由部署 Azure Databricks 工作区的区域和域 databricks.azure.cn
(例如 https://chinaeast2.databricks.azure.cn/
)组成。
- 如果登录到类似
https://chinaeast2.databricks.azure.cn/
的旧区域 URL,则实例名称为chinaeast2.databricks.azure.cn
。 - 仅在使用旧区域 URL 登录之后,此 URL 中才会显示工作区 ID。 它显示在
o=
的后面。 在 URLhttps://<databricks-instance>/?o=6280049833385130
中,工作区 ID 为6280049833385130
。
群集 URL 和 ID
Azure Databricks 群集为运行生产 ETL 管道、流分析、临时分析和机器学习等各种用例提供了统一平台。 每个群集都有一个被称作群集 ID 的唯一 ID。 这既适用于通用群集,也适用于作业群集。 若要使用 REST API 获取群集的详细信息,必须使用群集 ID。
若要获取群集 ID,请单击边栏中的“群集”选项卡,然后选择群集名称。 群集 ID 是此页面的 URL 中 /clusters/
组件后面的数字
https://<databricks-instance>/#/setting/clusters/<cluster-id>
在以下屏幕截图中,群集 ID 为:0831-211914-clean632
。
笔记本 URL 和 ID
笔记本是文档的基于 Web 的接口,其中包含可运行的代码、可视化效果和叙述性文本。 笔记本是用于与 Azure Databricks 进行交互的接口。 每个笔记本都具有唯一的 ID。 笔记本 URL 具有笔记本 ID,因此笔记本 URL 对于笔记本而言是唯一的。 可与 Azure Databricks 平台上有权查看和编辑笔记本的任何人共享笔记本 ID。 此外,每个笔记本命令(单元)都有不同的 URL。
若要查找笔记本 URL 或 ID,请打开笔记本。 若要查找单元 URL,请单击命令内容。
示例笔记本 URL:
https://adb-62800498333851.30.databricks.azure.cn/?o=6280049833385130#notebook/1940481404050342`
示例笔记本 ID:
1940481404050342
。示例命令(单元)URL:
https://adb-62800498333851.30.databricks.azure.cn/?o=6280049833385130#notebook/1940481404050342/command/2432220274659491
文件夹 ID
一个文件夹是一个目录,用于存储可在 Azure Databricks 工作区中使用的文件。 这些文件可以是笔记本、库或子文件夹。 有一个与每个文件夹和每个单独的子文件夹关联的特定 ID。 权限 API 将此 ID 称为 directory_id,用于设置和更新文件夹的权限。
如需检索 directory_id,可以使用工作区 API:
curl -n -X GET -H 'Content-Type: application/json' -d '{"path": "/Users/me@example.com/MyFolder"}' \
https://<databricks-instance>/api/2.0/workspace/get-status
这是 API 调用响应的示例:
{
"object_type": "DIRECTORY",
"path": "/Users/me@example.com/MyFolder",
"object_id": 123456789012345
}
模型 ID
模型指的是 MLflow 已注册的模型,你可使用它通过阶段转换和版本控制在生产中管理 MLflow 模型。 通过权限 API 以编程方式更改此模型的权限时,需要使用已注册模型的 ID。
若要获取已注册模型的 ID,可以使用工作区 API 终结点 mlflow/databricks/registered-models/get
。 例如,下面的代码会返回已注册模型的对象及其属性,包括其 ID:
curl -n -X GET -H 'Content-Type: application/json' -d '{"name": "model_name"}' \
https://<databricks-instance>/api/2.0/mlflow/databricks/registered-models/get
返回的值采用以下格式:
{
"registered_model_databricks": {
"name":"model_name",
"id":"ceb0477eba94418e973f170e626f4471"
}
}
作业 URL 和 ID
作业是立即运行或按计划运行笔记本或 JAR 的一种方法。
若要获取作业 URL,请单击边栏中的 “工作流”选项卡,然后单击作业名称。 在 URL 中,作业 ID 位于文本 #job/
之后。 需要作业 URL 来排查作业运行失败的根本原因。
在以下屏幕截图中,作业 URL 为:
https://chinaeast2.databricks.azure.cn/?o=6280049833385130#job/1
在本例中,作业 ID 为 1
。