工作区对象简介

本文概括性介绍 Azure Databricks 工作区对象。 可以在工作区浏览器中跨角色创建、查看和组织工作区对象。

群集

“Azure Databricks 数据科学与工程”和“Databricks 机器学习”群集为各种用例(例如,运行生产 ETL 管道、流分析、临时分析和机器学习)提供了统一的平台。 群集是一种 Azure Databricks 计算资源。 其他计算资源类型包括 Azure Databricks SQL 仓库

有关如何管理和使用群集的详细信息,请参阅计算

笔记本

笔记本是一种基于 web 的文档界面,其中包含一系列可运行单元(命令),可对文件、表格可视化效果和叙述性文本进行操作。 命令可以按顺序运行,引用一个或多个以前运行的命令的输出。

笔记本是在 Azure Databricks 中运行代码的一种机制。 另一种机制是作业

若要详细了解如何管理和使用笔记本,请参阅 Databricks 笔记本简介

Jobs

作业是在 Azure Databricks 中运行代码的一种机制。 另一种机制是笔记本。

有关管理和使用作业的详细信息,请参阅创建和运行 Azure Databricks 作业

库使你群集上运行的笔记本和作业能够使用第三方或本地生成的代码。

有关如何管理和使用库的详细信息,请参阅

数据

可以将数据导入一个装载到 Azure Databricks 工作区中的分布式文件系统,并在 Azure Databricks 笔记本和群集中使用。 还可以使用各种 Apache Spark 数据源来访问数据。

有关加载数据的详细信息,请参阅将数据加载到 Databricks 湖屋中

文件

重要

此功能目前以公共预览版提供。

在 Databricks Runtime 11.2 及更高版本中,可以在 Databricks 工作区中创建和使用任意文件。 文件可以是任何文件类型。 常见示例包括:

  • 自定义模块中使用的 .py 文件。
  • .md 文件,例如 README.md
  • .csv 或其他小型数据文件。
  • .txt 文件。
  • 日志文件。

有关如何使用文件的详细信息,请参阅使用 Azure Databricks 上的文件。 有关在使用 Databricks 笔记本进行开发时如何使用文件将代码模块化的信息,请参阅在 Databricks 笔记本之间共享代码

Repos

存储库是 Azure Databricks 文件夹,其内容是通过同步到远程 Git 存储库进行共同版本控制的。 使用 Azure Databricks 存储库,你可以在 Azure Databricks 中开发笔记本,并使用远程 Git 存储库进行协作和版本控制。

模型

模型是指在 MLflow 模型注册表中注册的模型。 模型注册表是一种集中式模型存储,可用于管理 MLflow 模型的完整生命周期。 它提供按时间顺序的模型世系、模型版本控制、阶段转换以及模型和模型版本批注和说明。

若要详细了解如何管理和使用模型,请查看 Azure Databricks 上的工作区模型

试验

MLflow 试验是组织的基本构成单位和适用于 MLflow 机器学习模型训练运行的访问控制;所有 MLflow 运行都属于试验。 每个试验都允许可视化、搜索和比较运行,以及下载运行项目或元数据以便在其他工具中进行分析。

若要详细了解如何管理和使用试验,请参阅使用 MLflow 试验来组织训练运行

查询

查询是可用于与数据交互的 SQL 语句。 有关详细信息,请参阅访问和管理保存的查询

仪表板

仪表板是查询可视化效果和注释的表示形式。 有关详细信息,请参阅 Databricks SQL 仪表板

警报

警报是关于查询所返回的字段已达到阈值的通知。 有关详细信息,请参阅什么是 Databricks SQL 警报?

对工作区对象的引用

过去,用户需要为某些 Databricks API (%sh) 添加 /Workspace 路径前缀,但对于其他 API(%run、REST API 输入)则不需要。

用户可以任何位置提供带有 /Workspace 前缀的工作区路径。 对不带 /Workspace 前缀的路径的旧引用会被重定向,并且继续有效。 我们建议所有工作区路径使用 /Workspace 前缀,以区别于 Volume 和 DBFS 路径。

/Workspace 路径前缀行为一致的先决条件是:工作区根级别上不能有 /Workspace 文件夹。 如果根级别上有一个 /Workspace 文件夹,并且想要启用此 UX 改进,请删除或重命名所创建的 /Workspace 文件夹,并联系 Azure Databricks 帐户团队。