什么是 DBFS?

术语 DBFS 用于描述平台的两个部件:

  • DBFS 根
  • DBFS 装载

使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 有关使用文件的建议,请参阅处理 Azure Databricks 上的文件。

什么是 Databricks 文件系统?

术语 DBFS 来自 Databricks 文件系统,它描述了 Azure Databricks 用来与基于云的存储进行交互的分布式文件系统。

与 DBFS 关联的基础技术仍然是 Azure Databricks 平台的一部分。 例如,与 Unity Catalog 卷交互时,dbfs:/ 是一种可选方案。

过去和当前关于 DBFS 的警告和告诫仅适用于 DBFS 根或 DBFS 装载。

DBFS 如何与 Unity Catalog 配合使用?

Databricks 建议使用 Unity Catalog 来管理对所有数据的访问。

Unity Catalog 添加了外部位置、存储凭据和卷的概念,以帮助组织提供对云对象存储中数据的最低特权访问权限。

一些安全配置提供对 Unity Catalog 托管资源和 DBFS 的直接访问,主要用于已完成迁移或已部分迁移到 Unity Catalog 的组织。 请参阅 DBFS 和 Unity Catalog 的最佳做法

什么是 DBFS 根?

DBFS 根是在包含 Azure Databricks 工作区的云帐户中创建工作区期间预配的存储位置。 有关 DBFS 根配置和部署的详细信息,请参阅 Azure Databricks 快速入门

Databricks 不建议在 DBFS 根中存储生产数据、库或脚本。 请参阅有关使用 DBFS 根的建议

若要为包含 DBFS 根的存储帐户配置客户管理的密钥,请参阅 DBFS 根的客户管理的密钥

装载对象存储

注意

DBFS 装载已弃用。 Databricks 建议使用 Unity Catalog 卷。 请参阅什么是 Unity Catalog 卷?

通过将对象存储装载到 DBFS,可访问对象存储中的对象,就像它们在本地文件系统中一样。 装载会存储访问存储所需的 Hadoop 配置。 有关详细信息,请参阅在 Azure Databricks 上装载云对象存储