有关使用 DBFS 根的建议

Azure Databricks 使用 DBFS 根目录作为某些工作区操作的默认位置。 Databricks 不建议将任何生产数据或敏感信息存储在 DBFS 根中。 本文重点介绍避免意外泄露 DBFS 根上的敏感数据的建议做法。

注意

Azure Databricks 配置了一个单独的专用存储位置,用于在客户拥有的云存储(称为内部 DBFS)中保存数据和配置。 此位置不会向用户公开。

重要

从 2023 年 3 月 6 日开始,新的 Azure Databricks 工作区使用 Azure Data Lake Storage Gen2 存储帐户作为 DBFS 根。 以前预配的工作区使用 Blob 存储。

让用户不要在 DBFS 根上存储数据

由于工作区中的所有用户都可访问 DBFS 根,因此所有用户都可以访问此处存储的任何数据。 请务必指示用户避免使用此位置来存储敏感数据。 Azure Databricks 上的 Hive 元存储中托管表的默认位置是 DBFS 根;若要防止创建托管表的最终用户写入 DBFS 根,当在 Hive 元存储中创建数据库时,请在外部存储上声明位置。

默认情况下,Unity Catalog 托管表使用安全存储位置。 Databricks 建议对托管表使用 Unity Catalog。

使用审核日志记录监视活动

注意

有关 DBFS 审核事件的详细信息,请参阅 DBFS 事件

使用客户管理的密钥加密 DBFS 根数据

可使用客户管理的密钥加密 DBFS 根数据。 请参阅为 DBFS 根启用客户管理的密钥