安全性、合规性和隐私的最佳做法

Databricks 安全最佳做法 指南(包括可下载的 PDF)在 Databricks 安全与信任中心提供。 本文中的各节列出了本指南中遵循此支柱原则的最佳做法。

1. 使用最低特权管理标识和访问权限

帐户设置和标识配置

在部署期间,配置 Databricks 帐户管理、SSO 和用户预配,以建立安全的基础:

  • 仅将帐户管理员角色分配给 2-3 个受信任的个人
  • 使用 OIDC 或 SAML 配置 Azure Active Directory (Azure AD)的 SSO
  • 启用 SCIM 预配或 Azure 标识管理器(AIM)以自动执行用户和组同步
  • 设置身份联合以链接跨工作区的公司身份
  • 在 Azure AD 级别配置多重身份验证
  • 定义帐户恢复的紧急访问过程

有关分步帐户设置过程,请参阅 阶段 1:设计帐户和标识策略

标识和访问管理最佳做法

  • 利用多重身份验证

  • 限制管理员用户数

  • 强制实施管理帐户职责分离

  • 限制工作区管理员的权限

  • 根据最低特权原则管理访问权限

  • 使用 OAuth 或 Entra ID 令牌身份验证

  • 强制实施令牌管理

  • 限制群集创建权限

  • 使用计算策略

  • 使用服务主体执行管理任务和生产负载

  • 使用支持用户隔离的计算

  • 安全地存储和使用机密

有关详细信息,请参阅本文开头引用的 PDF。

2. 保护传输中数据和静态数据

  • 使用 Unity 目录集中数据治理
  • 使用 Azure 托管标识访问存储
  • 规划数据隔离模型
  • 避免在 DBFS 中存储生产数据
  • 配置 Azure 存储防火墙
  • 防止匿名读取访问并应用其他保护
  • 启用软删除和其他数据保护功能
  • 备份 Azure 存储数据
  • 为托管服务配置客户管理的密钥
  • 为存储配置客户管理的密钥
  • 使用Delta共享
  • 配置 Delta Sharing 收件人的令牌有效期
  • 此外,使用高级加密标准(AES)对静态敏感数据进行加密
  • 利用工作区中的数据外泄防护设置
  • 使用洁净室在隐私安全环境中协作

有关详细信息,请参阅本文开头引用的 PDF。

3.保护网络和保护终结点

Azure 的网络部署注意事项

在 Azure 上部署 Databricks 工作区的安全网络基础结构。 以下步骤建立安全连接:

  • 为工作区部署创建最小 /18 地址空间的 VNet
  • 预配已委托给Microsoft.Databricks/workspaces的公共和专用子网
  • 配置网络安全组(NSG)以控制流量(Databricks 管理默认 NSG 规则)
  • 部署 Azure 专用链接以与 Databricks 控制平面和 Web 应用程序建立专用连接
  • 启用安全群集连接(无公共 IP)以消除群集节点上的公共 IP 地址
  • 为本地连接配置 VPN 网关或 ExpressRoute(如果需要)
  • 实现网络分段以隔离生产和非生产环境

有关分步 Azure 网络配置,请参阅 Azure 网络体系结构

网络安全最佳实践

  • 使用安全群集连接(无公共 IP)
  • 将 Azure Databricks 部署到自己的 Azure 虚拟网络
  • 配置 IP 访问列表
  • 使用 Azure PrivateLink
  • 实现网络外泄保护
  • 将 Azure Databricks 工作区隔离到不同的网络中
  • 为无服务器计算访问配置防火墙
  • 将有价值的代码库的访问限制为仅受信任的网络
  • 使用虚拟网络加密

有关详细信息,请参阅本文开头引用的 PDF。

4. 满足合规性和数据隐私要求

  • 按常规计划重启计算
  • 将敏感工作负荷隔离到不同的工作区中
  • 将 Unity 目录安全对象分配给特定工作区
  • 实现精细访问控制
  • 添加标签
  • 使用世系
  • 使用增强的安全监视或合规性安全配置文件
  • 控制和监控 Azure Databricks 人员的工作区访问权限
  • 实现和测试灾难恢复策略
  • 考虑使用 Azure 机密计算

有关详细信息,请参阅本文开头引用的 PDF。

5. 监视系统安全性

  • 充分利用系统表
  • 通过 Azure 日志监视系统活动
  • 启用详细审核日志记录
  • 使用 Git 文件夹管理代码版本
  • 将使用情况限制为受信任的代码存储库
  • 通过基础设施即代码配置基础设施
  • 通过 CI/CD 管理代码
  • 控制库安装
  • 仅使用来自受信任或信誉源的模型和数据
  • 实现 DevSecOps 进程
  • 使用数据质量监控
  • 使用推理表和 AI 防护栏
  • 使用标记作为成本监视和退款策略的一部分
  • 使用预算监视帐户支出
  • 使用 Azure Policy 创建“上限”资源控制

有关详细信息,请参阅本文开头引用的 PDF。

其他资源

- 下载 并查看 Databricks AI 安全框架 (DASF),了解如何根据实际攻击方案缓解 AI 安全威胁