获取工作区对象的标识符

本文将介绍如何在 Azure Databricks 中获取工作区、群集、目录、模型、笔记本、作业标识符和作业 URL。

工作区实例名称、URL 和 ID

唯一的实例名称(也称为每工作区 URL)已分配给每个 Azure Databricks 部署 。 它是完全限定的域名,用于登录到 Azure Databricks 部署和发出 API 请求。

Azure Databricks 工作区 是运行 Azure Databricks 平台的位置,可在其中创建 Spark 群集和计划工作负载。 工作区具有唯一的数字工作区 ID。

每工作区 URL

此唯一的每工作区 URL 采用以下格式:adb-<workspace-id>.<random-number>.databricks.azure.cn。 工作区 ID 紧跟在 adb- 的后面,在“圆点”(.) 的前面。 对于每工作区 URL https://adb-5555555555555555.19.databricks.azure.cn/

  • 实例名称为 adb-5555555555555555.19.databricks.azure.cn
  • 工作区 ID 为 5555555555555555

确定每工作区 URL

可确定工作区的每工作区 URL:

旧区域 URL

重要

不要使用旧的区域 URL。 它们可能不适用于新的工作区、可靠性更低,而且性能比每工作区 URL 的低。

旧区域 URL 由部署 Azure Databricks 工作区的区域和域 databricks.azure.cn(例如 https://chinaeast2.databricks.azure.cn/)组成。

  • 如果登录到类似 https://chinaeast2.databricks.azure.cn/ 的旧区域 URL,则实例名称为 chinaeast2.databricks.azure.cn
  • 仅在使用旧区域 URL 登录之后,此 URL 中才会显示工作区 ID。 它显示在 o= 的后面。 在 URL https://<databricks-instance>/?o=6280049833385130 中,工作区 ID 为 6280049833385130

群集 URL 和 ID

Azure Databricks 群集为运行生产 ETL 管道、流分析、临时分析和机器学习等各种用例提供了统一平台。 每个群集都有一个被称作群集 ID 的唯一 ID。 这既适用于通用群集,也适用于作业群集。 若要使用 REST API 获取群集的详细信息,必须使用群集 ID。

若要获取群集 ID,请单击边栏中的“群集”选项卡,然后选择群集名称。 群集 ID 是此页面的 URL 中 /clusters/ 组件后面的数字

https://<databricks-instance>/#/setting/clusters/<cluster-id>

在以下屏幕截图中,群集 ID 为:0831-211914-clean632

Cluster URL

笔记本 URL 和 ID

笔记本是文档的基于 Web 的接口,其中包含可运行的代码、可视化效果和叙述性文本。 笔记本是用于与 Azure Databricks 进行交互的接口。 每个笔记本都具有唯一的 ID。 笔记本 URL 具有笔记本 ID,因此笔记本 URL 对于笔记本而言是唯一的。 可与 Azure Databricks 平台上有权查看和编辑笔记本的任何人共享笔记本 ID。 此外,每个笔记本命令(单元)都有不同的 URL。

若要查找笔记本 URL 或 ID,请打开笔记本。 若要查找单元 URL,请单击命令内容。

  • 示例笔记本 URL:

    https://adb-62800498333851.30.databricks.azure.cn/?o=6280049833385130#notebook/1940481404050342`
    
  • 示例笔记本 ID:1940481404050342

  • 示例命令(单元)URL:

    https://adb-62800498333851.30.databricks.azure.cn/?o=6280049833385130#notebook/1940481404050342/command/2432220274659491
    

文件夹 ID

一个文件夹是一个目录,用于存储可在 Azure Databricks 工作区中使用的文件。 这些文件可以是笔记本、库或子文件夹。 有一个与每个文件夹和每个单独的子文件夹关联的特定 ID。 权限 API 将此 ID 称为 directory_id,用于设置和更新文件夹的权限。

如需检索 directory_id,可以使用工作区 API:

curl -n -X GET -H 'Content-Type: application/json' -d '{"path": "/Users/me@example.com/MyFolder"}' \
https://<databricks-instance>/api/2.0/workspace/get-status

这是 API 调用响应的示例:

{
  "object_type": "DIRECTORY",
  "path": "/Users/me@example.com/MyFolder",
  "object_id": 123456789012345
}

模型 ID

模型指的是 MLflow 已注册的模型,你可使用它通过阶段转换和版本控制在生产中管理 MLflow 模型。 通过权限 API 以编程方式更改此模型的权限时,需要使用已注册模型的 ID。

若要获取已注册模型的 ID,可以使用工作区 API 终结点 mlflow/databricks/registered-models/get。 例如,下面的代码会返回已注册模型的对象及其属性,包括其 ID:

curl -n -X GET -H 'Content-Type: application/json' -d '{"name": "model_name"}' \
https://<databricks-instance>/api/2.0/mlflow/databricks/registered-models/get

返回的值采用以下格式:

{
  "registered_model_databricks": {
    "name":"model_name",
    "id":"ceb0477eba94418e973f170e626f4471"
  }
}

作业 URL 和 ID

作业是立即运行或按计划运行笔记本或 JAR 的一种方法。

若要获取作业 URL,请单击边栏中的Jobs Icon“工作流”,然后单击作业名称。 在 URL 中,作业 ID 位于文本 #job/ 之后。 需要作业 URL 来排查作业运行失败的根本原因。

在以下屏幕截图中,作业 URL 为:

https://chinaeast2.databricks.azure.cn/?o=6280049833385130#job/1

在本例中,作业 ID 为 1

Job URL