什么是 Databricks CLI?

注意

此信息适用于 Databricks CLI 0.205 及更高版本,这些版本为公共预览版。 若要查找你的 Databricks CLI 的版本,请运行 databricks -v

Databricks 命令行界面(也称 Databricks CLI)提供了一个工具,让用户通过终端、命令提示符或自动化脚本实现 Azure Databricks 平台的自动化。

旧版 Databricks CLI 用户的信息

  • Databricks 计划不对旧版 Databricks CLI 提供支持或新功能。
  • 有关旧版 Databricks CLI 的详细信息,请参阅 Databricks CLI(旧版)
  • 若要从 Databricks CLI 版本 0.18 或更低版本迁移到 Databricks CLI 版本 0.205 或更高版本,请参阅 Databricks CLI 迁移

Databricks CLI 的工作原理是什么?

CLI 包装了 Databricks REST API,后者是一个应用程序编程界面 (API),它使用 REST 视角来自动执行 Azure Databricks 帐户以及工作区资源和数据的操作。 请参阅 Azure Databricks REST API 参考

例如,若要输出有关工作区中单个群集的信息,请按如下方式运行 CLI:

databricks clusters get 1234-567890-a12bcde3

使用 curl 时,等效操作的表达语句更长,并且更容易出现键入错误,如下所示:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

示例:创建 Azure Databricks 作业

以下示例使用 CLI 创建 Azure Databricks 作业。 该作业包含单个作业任务。 此任务运行指定的 Azure Databricks 笔记本。 此笔记本依赖于名为 wheel 的特定版本的 PyPI 包。 为了运行此任务,作业会临时创建一个会导出名为 PYSPARK_PYTHON 的环境变量的作业集群。 作业运行后,群集会终止。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

后续步骤