Microsoft Purview 术语表
Artículo 12/26/2023
1 colaborador
Comentarios
En este artículo
此术语表简要描述了 Microsoft Purview 解决方案及其体验的重要术语和概念。
A
术语
说明
高级资源集
在 Microsoft Purview 实例级别激活的一组功能,启用后,这些功能通过计算元数据的其他聚合来扩充资源集资产,以提供分区计数、总大小和架构计数等信息。 还包括资源集模式规则。
批注
与 Microsoft Purview 数据映射中的数据资产关联的信息,例如,术语表术语和分类。 应用后,可以在“搜索”中使用批注来帮助发现数据资产。
已批准
由有权更改请求状态的个人或团体为任何请求提供的一种状态,表示该请求已经被接受,并且令人满意。
资产
存储在 Microsoft Purview 数据目录中的任何单个对象。 注意:目录中的一个对象可能表示存储中的很多对象,例如,资源集是一各资产,但它是由存储中的多个分区文件组成的。
B
术语
说明
业务术语表
专业术语及其定义的列表(可搜索),组织使用这些专业术语来描述关键的业务词汇。 使用业务术语表可在整个组织内提供一致的数据使用方式。
C
术语
说明
产能单位
数据映射使用量的度量。 所有 Microsoft Purview 数据映射默认包括一个容量单位,这一个容量单位提供高达 10 GB 的元数据存储,以及 25 次数据映射操作/秒的吞吐量。
分类报表
一份报告,显示有关扫描数据的关键分类详细信息。
分类规则
一组条件,用于决定当内容与指定的模式匹配时,如何对扫描的数据进行分类。
分类的资产
Microsoft Purview 在自动扫描期间提取架构并应用分类的资产。 扫描规则集确定对哪些资产进行分类。 如果某个资产被视为要分类的候选项,但在扫描期间未应用任何分类,该资产仍视为已分类的资产。
分类器
用来对数据进行标识、分类和标记的技术。 Microsoft Purview 提供了多个分类器,包括敏感信息类型、可训练分类器和精确数据匹配 (EDM) 分类器。
集合
组织定义的资产、术语、批注和源分组。 使用集合可以更轻松地对数据目录中的资产进行精细访问控制和发现。
集合管理员
一个可以在 Microsoft Purview 治理门户中分配角色的角色。 集合管理员可以将用户添加到他们作为管理员的集合上的角色。 他们还可以编辑集合及其详细信息,并可以添加子集合。
列模式
分类规则中包含的正则表达式,表示希望匹配的列名称。
Contact
与数据目录中的某个实体关联的个人。
控制平面操作
用于管理订阅中的资源(例如基于角色的访问控制和 Azure 策略)的操作,这些操作将被发送到 Azure 资源管理器终结点。 控制平面操作还可应用于跨本地、多云和 SaaS 源的 Azure 外部资源。
凭据
验证访问控制系统中使用的身份或工具。 凭据可用于对个人或团体进行身份验证,目的是授予对数据资产的访问权限。
D
术语
说明
数据目录
可搜索的资产清单及其相关元数据,允许用户在数据资产中查找和管理数据。 数据目录还包括一个业务术语表,行业专家可以在其中提供术语和定义,以向项目中添加业务上下文。
数据策展人
提供对数据目录的访问权限以管理资产、配置自定义分类、设置术语表术语和查看见解的角色。 数据管理者可以创建、读取、修改、移动和删除资产。 他们还可以将注释应用于资产。
数据字典
数据库列的规范名称及其相应数据类型的列表。 通常用来描述数据库的格式和结构,及其元素之间的关系。
数据产业见解
Microsoft Purview 治理门户的一个区域,提供有关数据资产的最新报告和可操作的见解。
数据映射
一个元数据存储库,它是 Microsoft Purview 治理门户的基础。 数据映射是描述整个数据产业中的资产的图形,它是通过扫描和其他数据引入过程填充的。 此图形通过提供丰富的资产描述、表示数据世系、分类资产、存储资产之间的关系以及在技术层和语义层容装信息,来帮助组织理解和治理其数据。 数据映射是一个开放平台,可以通过 Apache Atlas API 或 Microsoft Purview 治理门户来与它交互和访问它。
数据映射操作
对数据映射中的实体执行的创建、读取、更新或删除操作。 例如,在数据映射中创建资产被视为数据映射操作。
数据所有者
负责管理数据资产的个人或组。
数据模式
表示存储在数据字段中的数据的正则表达式。 例如,员工 ID 的数据模式可以是 Employee{GUID}。
数据平面操作
特定 Microsoft Purview 实例中的操作,例如编辑资产或创建术语表术语。 每个实例都有预定义的角色,如“数据读取者”和“数据策划者”,它们控制用户可以执行哪些数据平面操作。
数据读取者
提供对数据资产、分类、分类规则、集合、术语表术语和见解的只读访问权限的角色。
数据源管理员
可以管理数据源和扫描的角色。 充当数据源管理员角色的用户无权访问 Microsoft Purview 治理门户。 将此角色与任何集合范围的数据读取者或数据管护者角色相结合可提供 Microsoft Purview 治理门户访问权限。
数据专员
负责维护关联对象的命名法、数据质量标准、安全控制、合规性要求和规则的个人或组。
发现的资产
Microsoft Purview 数据映射在扫描过程中在数据源中识别的资产。 发现的资产数包括资源集分组之前的所有文件或表。
非重复匹配阈值
在扫描程序运行数据模式前,需要在列中找到的非重复数据值的总数。 例如,如果员工 ID 的非重复匹配阈值为 8,则与员工 ID 的数据模式集匹配的列中的采样值中需至少有 8 个唯一的数据值。
E
术语
说明
专家
组织中了解数据资产或术语表术语的完整背景的个人。
F
术语
说明
完全扫描
在选定的数据源范围内处理所有资产的扫描。
完全限定名称 (FQN)
一个路径,定义资产在其数据源中的位置。
G
术语
说明
术语表术语
业务术语表中的条目,用于定义特定于组织的概念。 术语表术语可以包含有关同义词、首字母缩写词和相关术语的信息。
I
术语
说明
增量扫描
用于检测并处理自上一次成功扫描后创建、修改或删除的资产的扫描。 要运行增量扫描,必须在源上至少完成一次完整扫描。
引入的资产
已扫描、分类(适用时)并添加到 Microsoft Purview 数据映射的资产。 通过自动扫描或外部连接(如 Azure 数据工厂和 Azure Synapse ),可以在数据目录中发现和使用已引入的资产。
见解读取者
提供对数据资产见解报表只读访问权限的角色。 见解读取者必须至少具有对集合的数据读取者角色访问权限,才能查看有关该特定集合的报表。
集成运行时
用于在数据源中进行扫描的计算基础结构。
项
存储在 Microsoft Purview 数据映射中的任何单个对象。
L
术语
说明
沿袭
数据在从其源到目标的移动时转换和流动的方式。 了解跨数据实体的这一流程可帮助组织查看其数据的历史记录,以及帮助进行故障排除或影响分析。
M
术语
说明
Management
Microsoft Purview 治理门户中的一个区域,可以在其中管理连接、用户、角色和凭据。 也称为“管理中心”。
Microsoft Fabric
Microsoft 的统一分析解决方案,在企业级数据基础上为所有分析工作负载和用户提供集成和简化的体验,以及普遍的数据治理。
Microsoft Purview 实例
单个 Microsoft Purview(以前称为 Azure Purview)帐户。
最小匹配阈值
扫描程序在某个列中的非重复数据值中找到的匹配所需达到的最小百分比,必须达到这个百分比才能应用分类。 例如,员工 ID 的最小匹配阈值为 60%,要求一个列中的采样数据中有 60% 的非重复值与雇员 ID 的数据模式集相匹配。 如果扫描程序在列中采样了 128 个值,并在该列中找到 60 个非重复值,则至少需有 36 个非重复值 (60%) 与员工 ID 数据模式匹配,才能应用分类。
O
术语
说明
本地数据
数据中心内由客户控制的数据,例如,云或服务型软件 (SaaS) 之外的数据。
所有者
负责管理数据资产的个人或团体。
P
术语
说明
模式规则
确定 Microsoft Purview 数据映射如何将资产分组为资源集并在目录中显示它们的配置。
物理资产
表示物理数据对象的资产。 物理资产与商业资产不同,因为它们代表真实数据。 例如,数据库是一种物理资产。
策略
控制如何授权访问数据和数据源的某个语句或语句集合。
R
术语
说明
已注册的源
已添加到 Microsoft Purview 实例并且现在作为数据目录的一部分进行管理的源。
相关术语
链接到组织内其他术语的词汇表术语。
资源集
单个资产,表示存储中多个已分区文件或对象。 例如,Microsoft Purview 数据映射将分区 Apache Spark 输出存储为单个资源集,而不是为每个单独文件存储唯一资产。
角色
为 Microsoft Purview 实例中的用户分配的权限。 Microsoft Purview 数据管护者或 Microsoft Purview 数据读取者等角色,确定可以在产品中执行哪些操作。
根集合
系统生成的集合,其易记名称与 Microsoft Purview 帐户相同。 所有资产默认都属于根集合。
S
术语
说明
Scan
一个 Microsoft Purview 数据映射进程,用于发现和检查某个源或一组源中用于填充数据映射的元数据。 扫描会自动连接到源,提取元数据,捕获世系,并应用分类。 可以手动运行或按计划运行扫描。
扫描规则集
一组规则,用于定义扫描要在目录中引入的数据类型和分类。
扫描触发器
一项计划,用于确定运行扫描时的重复执行。
架构分类
应用于资产架构中某个列的分类。
搜索
让用户可以通过输入一组关键字来查找数据目录中的项的功能。
搜索相关性
确定返回顺序搜索结果的数据资产的评分。 多个因素决定资产的相关性分数。
自承载 Integration Runtime
一种集成运行时,安装在专用网络内的本地计算机或虚拟机上,该网络用于连接到本地计算机或专用网络中的数据。
敏感信息类型 (SIT)
一个基于模式的分类器,可帮助检测项目中的敏感信息,例如信用卡号。
敏感度标签
Microsoft Purview 门户中管理的一个标签,用于定义项目的机密程度。 可以配置敏感度标签来应用关联的保护设置,帮助用户一直遵守组织信息保护策略。
敏感度标签报表
一项摘要,描述在数据实体中应用了哪些敏感度标签。
服务
提供独立功能并按订阅或许可证提供给客户的产品。
共享
作为单个实体共享的一组资产。
Source
存储数据的系统。 源可以在不同的位置(例如云或本地)托管。 注册并扫描源,以便可以在 Microsoft Purview 治理门户中对其进行管理。
源类型
Microsoft Purview 中使用的已注册源(例如 Azure SQL 数据库、Azure Blob 存储)的分类。
专员
为词汇表术语定义标准的个人。 它们负责为分配的实体维护质量标准、命名法和规则。
T
术语
说明
术语模板
术语表术语中包含的属性的定义。 用户既可以使用系统定义的术语模板,也可以创建自己的术语模板来包含自定义属性。
可训练的分类器
一种分类器,可用来帮助对无法通过手动方法或自动模式匹配方法轻松识别的内容进行识别和分类。 与敏感信息类型不同,这种分类方法根据项目本身(例如简历)来识别项目,而不仅仅根据项目中包含的元素(模式匹配)进行识别。 可训练分类器可包含在多个 Microsoft Purview 解决方案中,用于检测、保护和治理敏感数据。