Microsoft Purview 域和集合体系结构和最佳做法

数据映射是 Microsoft Purview 统一治理解决方案的核心,是一项服务,用于在整个数据资产中保持资产及其元数据的最新映射。 若要生成数据映射,需要注册并扫描数据源。 在一个组织中,可能有数千个数据源由集中式或分散式业务部门、团队和环境管理和治理。 若要管理此功能,可以在 Microsoft Purview 中使用域和集合。

注意

本文中的最佳做法建议适用于使用租户级帐户 (https://purview.microsoft.com) 的 Microsoft Purview 帐户。

在 Microsoft Purview 中,是数据映射的基础元素,表示 Microsoft Purview 帐户中的顶级层次结构。 它们能够在组织内实现责任分离、有效组织和数据治理管理,特别是当有独立运营的子公司或业务部门,但它们共享一个共同的 Entra ID 租户时。 通过使用域,组织可以实现多种功能,包括:

  • 组织:域有助于对属于某个业务部门或地区的资源(如数据源、资产、扫描和安全相关资源)进行逻辑分组。
  • 委派:域是集合之上的层次结构,允许 Microsoft Purview 管理员将特定管理任务委派给 Microsoft Purview 数据治理中特定业务部门或子组织的组件子集。
  • 安全性:通过隔离域内的对象,管理员可以实施有针对性的安全措施,更有效地控制访问。 例如,对于某个域,连接、凭据和策略等资源可以是特定的和可见的。
  • 生命周期管理:域有助于在同一租户中分离开发、测试、QA、预生产资源以及生产资源。
  • 资源隔离:域有助于根据区域、法律或监管要求隔离资源。

集合

Microsoft Purview 中的集合支持元数据的组织或子组织映射。 通过使用集合,可以在层次结构而不是平面结构中管理和维护业务部门内的数据源、扫描和资产。 集合使你可以根据组织计划使用 Microsoft Purview 治理数据的方式,来生成数据环境的自定义分层模型。

集合还为数据映射中的元数据提供安全边界。 对集合、数据源和元数据的访问是遵循最低特权模型根据 Microsoft Purview 中的集合层次结构来设置和维护的:

  • 用户拥有完成其作业所需的最少量访问权限。
  • 用户无权访问他们不需要的敏感数据。

了解关系

  • 更具战略性和以策略为中心;而集合更具操作性和以访问为中心。 例如,在一个拥有医院、诊所、研究和管理等多个部门的大型医疗保健组织中,所有部门都在同一个 Microsoft Entra ID 租户、域和集合下,可以定义如下:
    • 域:组织为每个客户细分创建域。 这些域具战略性和以策略为中心,这意味着它们为每个客户细分定义高级治理策略、合规性要求和数据管理策略。 例如,医院域可能具有与患者数据隐私和医疗保健法规相关的策略;而研究域可能侧重于临床试验的数据共享协议和道德准则。 每个域都可以有自己的凭据集、扫描规则集、策略和连接,以及其他域中的用户和管理员不可见的集合、数据源、扫描和资产。
    • 集合:在医院域内,有几个操作任务需要管理。 组织为不同的运营单位(如急诊服务、住院护理和门诊服务)创建集合。 这些集合更具操作性和访问中心性,这意味着它们组织特定于每个操作单元的数据源、资产和扫描。 根据医院细分用户的角色和职责来控制对这些集合的访问。 例如,只有急诊科工作人员可以访问急诊服务集合,而住院护理经理可以访问住院护理集合。
  • 集合可以存在于域中,继承在域级别设置的治理策略。
  • 在 Microsoft Purview 数据治理中,域和集合具有不同的功能。 一个帐户可以有一个默认域和最多四个自定义域。 每个域都可以有自己的集合层次结构。
  • Purview 管理员角色的用户成员可以创建和管理域,并通过授予他们 Purview 域管理员角色的访问权限,将访问权限委派给每个业务部门来管理他们自己的域。

定义层次结构

设计建议

  • 根据组织的法律、安全需求(考虑数据管理和组织的治理结构)开始设计域和集合体系结构。 查看本文中推荐的原型

  • 在 Microsoft Purview 中构建域和集合时,请将安全和访问管理视为设计决策过程的一部分。

  • 从默认域开始,并在默认域中生成集合层次结构。 如果你有以下任何要求,请使用其他域:

    • 需要在同一租户下生成生产环境和非生产环境。

    • 你有多个区域,需要在逻辑上分离资源,并在这些区域之间划分责任。

    • 你的组织在同一租户下拥有多个公司或业务部门,需要分离资源,隔离管理和职责。

  • 每个域或集合都有一个名称属性和一个友好名称属性。 如果使用 Microsoft Purview 治理门户部署域或集合,系统会自动分配一个随机的 6 个字母的名称以避免重复。

  • 目前,一个域名或集合名最多可包含 36 个字符,一个集合友好名称最多可包含 100 个字符。

  • 如果可以的话,请避免将组织结构复制到深层嵌套的集合层次结构中。 如果无法避免这一点,请确保为层次结构中的每个集合使用不同的名称,使集合易于区分。

  • 如果你计划批量部署域和集合以及角色分配,请使用 API 自动部署域和集合。

  • 使用专用服务主体名称 (SPN) 在数据映射上运行操作,以便使用 API 管理域、集合和角色分配。 使用 SPN 可减少拥有提升的权限的用户数,有助于遵循最小特权准则。

设计注意事项

  • 域仅提供给使用租户级帐户 (https://purview.microsoft.com) 的 Microsoft Purview 帐户。

  • 考虑到目前 Microsoft Purview 帐户除了默认域外,最多可以有四个域。 作为整合当前 Microsoft Purview 帐户的一部分,现有数据映射的内容(包括集合、数据源、资产和扫描)将迁移到新域。

  • 如果你计划在租户中加入一个新的组织,并且他们有不同的法律要求,请创建新域。

  • 以下资源部署在租户级别,在所有域中都可见:

    • Typedef
    • 托管属性
    • 术语表术语
    • 分类和分类规则
    • 元模型
    • 集成运行时
    • 工作流
  • 域提供以下资源的分离:

    • 凭据
    • 安全连接
    • 自定义扫描规则集
    • 高级资源集和模式规则
    • 策略
    • ADF 连接
    • 集合和可以作用于集合的所有资源
  • 集合提供以下资源的分离:

    • 数据源
    • 扫描
    • 资产
  • 每个 Microsoft Purview 帐户都是使用默认域创建的。 默认域名与你的 Microsoft Purview 帐户名称相同。 无法删除默认域;但是,可以更改默认域的友好名称。

  • 一个集合可以有任意数量的子集合。 但每个集合只能有一个域和一个父集合。

  • Microsoft Purview 中的集合层次结构最多支持 256 个集合,集合深度最大为 8 级。 这不包括根集合。

  • 根据设计,不能在单个 Microsoft Purview 帐户中多次注册数据源。 这种体系结构有助于避免将不同级别的访问控制分配到单个数据源的风险。 如果多个团队使用单个数据源的元数据,则你可以在父集合中注册和管理数据源。 然后,可以在每个子集合下创建相应的扫描,使相关资产出现在每个子集合下。

  • 即使数据源在较低级别的集合中注册,世系连接和项目也会附加到默认域。

  • 运行新扫描时,扫描部署默认将部署在与数据源相同的集合中。 可以选择不同的子集合来运行扫描。 因此,这些资产属于子集合。

  • 如果域为空,则可以将其删除。

  • 如果集合没有任何资产、关联扫描、数据源或子集合,则可以将其删除。

  • 如果为用户授予了对源和目标集合的“数据源管理员”角色,则允许跨集合移动数据源。

  • 如果为用户授予了对源和目标集合的“数据管护者”角色,则允许跨集合移动资产。

  • 若要对集合执行移动和重命名操作,请查看以下建议和注意事项:

    1. 若要重命名集合,则必须是集合管理员角色的成员。

    2. 若要移动集合,则必须是源集合和目标集合的集合管理员角色的成员。

定义授权模型

Microsoft Purview 包含 Microsoft Defender for Office 365 中的角色,以及存在于 Microsoft Purview 数据平面中的角色。 部署 Microsoft Purview 帐户后,会自动创建默认域,Microsoft Purview 帐户的创建者将成为 Purview 管理员角色的一部分。 有关 Microsoft Purview 数据映射和数据目录的权限的详细信息,请参阅角色和权限文档

设计建议

  • 请考虑为租户实施紧急访问或应急策略,以便在需要时恢复对 Microsoft Purview 默认域的访问权限,以避免 Microsoft Purview 帐户级锁定。 记录紧急帐户的使用过程。

  • 尽量减少 Purview 管理员、域管理员和集合管理员的数量。 在默认域中最多分配三个域管理员用户,包括 SPN 和你的应急帐户。 改为将集合管理员角色分配到顶级集合或子集合。

  • 将角色分配到组而不是单个用户,以降低管理开销,减少管理个人角色时发生的错误。

  • 在根集合上分配服务主体以实现自动化。

为了提高安全性,请为 Purview 管理员、域管理员和集合管理员、数据源管理员和数据管护者启用具有多重身份验证的 Microsoft Entra 条件访问。 确保从条件访问策略中排除紧急帐户。

设计注意事项

  • Microsoft Purview 访问权限管理已移到数据平面。 不再使用 Azure 资源管理器角色,因此你应使用 Microsoft Purview 来分配角色。

  • 在 Microsoft Purview 中,可以从部署了 Microsoft Purview 帐户的同一 Microsoft Entra 租户上的 Microsoft Entra ID 向用户、安全组和服务主体(包括托管标识)分配角色。

  • 必须先将来宾帐户作为 B2B 用户添加到 Microsoft Entra 租户,然后才能将 Microsoft Purview 角色分配给外部用户。

  • 默认情况下,域管理员还获取数据源管理员、数据读取者和数据管护者角色,以便他们有权读取或修改资产。

  • 默认情况下,全局管理员被添加为默认域上的集合管理员。

  • 默认情况下,所有角色分配会自动由所有子集合继承。 但是,可以对除根集合以外的其他任何集合启用“限制继承权限”。 限制继承权限会从所有父集合中删除继承的角色(集合管理员角色除外)。

  • 对于 Azure 数据工厂连接:若要连接到 Azure 数据工厂,你必须是默认域的集合管理员。

  • 如果需要连接到 Azure 数据工厂以获取世系功能,请在 Microsoft Purview 根集合级别向数据工厂的托管标识授予数据管护者角色。 在创作 UI 中将数据工厂连接到 Microsoft Purview 时,数据工厂会尝试自动添加这些角色分配。 如果你在 Microsoft Purview 默认域上具有集合管理员角色,则此操作有效。

域和集合原型

你可以基于集中式、分散式或混合式数据管理和治理模型部署 Microsoft Purview 域和集合。 根据你的业务、法律和安全要求做出此决定。

此结构适用于具有以下特征的组织:

  • 位于同一地理位置,并在相同的法律要求下运营。
  • 有一个集中式数据管理和治理团队,其中的下一级数据管理由部门、团队或项目小组负责。

层次结构由以下垂直领域组成:

  • 默认域:Contoso

默认域下的集合

  • 部门(每个部门的委托集合)
  • 团队或项目(根据项目进一步分离)

不需要更多域,因为没有特定的业务或法律要求来添加更多域。

在 Hub 集合中注册和扫描组织级别的共享数据源。

部门级共享数据源在部门集合中进行注册和扫描。

每个数据源在其相应的集合中进行注册和扫描。 因此,资产也出现在同一个集合中。

显示第一个 Microsoft Purview 集合示例的屏幕截图。

示例 2:采用集中式管理的单个多区域组织

此方案适用于具有以下特征的组织:

  • 在多个区域都有业务。
  • 每个区域的数据治理团队是集中或分散式的。
  • 数据管理团队分布在每个地理位置,并且还有一个集中式联合管理。
  • 需要管理自己的数据源和资源的团队

域和集合层次结构由以下垂直领域组成:

  • 默认域:FourthCoffee

默认域下的集合

  • 地理位置(基于数据源和数据所有者所在地理位置的顶级集合)
  • 部门(每个部门的委托集合)
  • 团队或项目(根据项目进一步分离)

在此方案中,每个区域在 Microsoft Purview 帐户的默认域下都有自己的集合。 数据源在各自地理位置的相应集合中进行注册和扫描。 因此,资产也会显示在该区域的集合层次结构中。

如果你拥有集中式数据管理和治理团队,则可以从默认域授予他们访问权限。 这样,他们就可以监督数据映射中的整个数据资产。 集中式团队可以选择性地注册和扫描任何共享数据源。 集中式团队还可以管理安全资源,例如凭据和集成运行时。

基于区域的数据管理和治理团队可以从其相应的集合中获取访问权限。

部门级共享数据源在部门集合中进行注册和扫描。

显示第二个 Microsoft Purview 集合示例的屏幕截图。

示例 3:具有多个环境的单个组织

如果对所有类型的生产和非生产环境都有单租户,并且需要尽可能隔离资源,则此方案非常有用。 可转换数据以使其更有意义的数据科学家和数据工程师可以管理“原始”和“优化”区域。 然后,他们可以将数据移动到相应环境中的生成或策划区域中。

域和集合层次结构由以下垂直领域组成:

  • 默认域:Fabrikam 生产
  • 自定义域 1:开发和测试
  • 自定义域 2:QA

每个域下的集合可以遵循以下任一垂直领域:

  • 部门、团队或项目(根据项目进一步划分)
  • 数据转换阶段(原始、扩充、生成/策划、开发等)

数据科学家和数据工程师可以在其相应的区域上具有数据管护者角色,以便可以管护元数据。 可以向整个数据角色和业务用户授予对管护区域的数据读取者访问权限。

显示第三个 Microsoft Purview 集合示例的屏幕截图。

示例 4:多个组织或公司,使用相同的 Entra ID 租户进行分散管理

此选项可用于多个公司共享同一 Entra ID 租户且每个组织都需要组织元数据和管理其自己的资源的方案

注意

如果以前在租户中有多个 Microsoft Purview 帐户,则选择迁移的第一个帐户将成为默认域,可以将其他帐户升级到单独的域。

域和集合层次结构由以下垂直领域组成:

  • 默认域:父公司或组织,如 Contoso
  • 自定义域 1:FourthCoffee
  • 自定义域 2:Fabrikam

每个域下的集合可以遵循以下任一垂直领域:

  • 部门、团队或项目(根据项目进一步划分)
  • 数据转换阶段(原始、扩充、生成/策划、开发等)
  • 组织内的域

每个组织都有一个自己的域,在 Microsoft Purview 帐户中有自己的集合层次结构。 安全资源在每个域内进行管理,并在相应的域中注册和扫描数据源。 资产将添加到特定域的子集合层次结构中。

如果你有集中式数据管理和治理组织(可以是默认域),这样他们就可以管理共享资源,如集成运行时、托管属性等。

组织数据管理和治理团队可以在较低级别从相应的集合中获取访问权限,具体取决于每个域中的集中式或分散式管理。

显示第四个 Microsoft Purview 集合示例的屏幕截图。

注意

共享的非生产域可以由多个组织创建和使用,每个组织在非生产域中都有自己的顶级集合。

访问权限管理选项

如果要在整个组织中实现数据民主化,请使用一个域,并将默认域中的数据读取者角色分配给数据管理、治理和业务用户。 在子集合级别将数据源管理员和数据管护者角色分配给相应的数据管理和治理团队。

如果需要限制对组织中元数据搜索和发现的访问权限,请在特定的集合级别分配数据读取者和数据管护者角色。 例如,可以限制美国员工,使他们只能读取美国集合级别的数据,而不能读取 LATAM 集合中的数据。

仅在需要时创建其他域,例如在分离生产和非生产环境、将多个帐户升级为一个统一帐户或在同一租户内有多个具有不同安全要求的公司时。

可以使用域和集合在 Microsoft Purview 数据映射中应用这些方案的组合。

在默认集合中将域管理员角色分配给集中式数据安全和管理团队。 将其他域和低级集合的进一步域或集合管理委派给相应的团队。

后续步骤