将 Microsoft Purview 与 CluedIn 集成以实现主数据管理 (MDM)

此 CluedIn 体系结构为企业提供有关其引入的数据质量的指标、智能检测脏数据,并为数据工程师和数据专员清理数据做好准备。 专有的模糊逻辑机器学习算法可帮助业务用户和管理者标记数据,并教会系统识别、纠正和预防随时间推移出现的数据质量问题。

体系结构

该图显示了 CluedIn 体系结构和数据流。

数据流

CluedIn 解决方案包含各种功能层,这些层在 Azure Kubernetes 服务 (AKS) 的 Kubernetes 群集中运行。 .NET Core 微服务应用程序的组合可处理不同的功能,例如数据引入、流式数据处理、队列和用户界面。

  1. CluedIn 爬网层通过 Azure 数据工厂连接器从 Azure SQL 数据库、Azure Cosmos DB 等客户云源引入数据。

    CluedIn 还可以从 SAP 和 Hadoop 等本地可访问系统获取输入,或者可以使用本地代理来抓取非公开数据。

  2. 企业服务总线通过端口 5672 和 15672 连接到管理终结点。 爬网程序将数据发送到总线,处理层通过端口 5672 使用总线上的数据。

  3. 事务日志层从处理层获取结果。

  4. 在持久层中,数据库使用事务日志中的数据并持久保存,以在不同的数据存储中提供最终一致性。 所有存储都以高可用性 (HA) 模式运行。

    与数据虚拟化不同,CluedIn 持久层引入源数据的各个部分,并以最高保真度保留数据及其结构。 这种高保真度意味着 CluedIn Data Fabric 可以支持任何格式或模型的数据业务请求。

  5. 数据抽象层通过每个存储的端口连接到不同的数据存储。

  6. 数据访问是通过端口 443 上的 GraphQL、REST 和 WebSockets 调用进行的。 GraphQL 和 REST 使用拉取模型,而 WebSockets 使用推送模型。

    CluedIn 通过限制和跨网站请求伪造 (CSRF) 防护来保护数据访问。

  7. CluedIn ASP.NET Core Web 应用通过端口 443 上的 REST 和 GraphQL 调用的组合进行通信。

    从浏览器到应用程序的所有通信都使用一组入口定义,这只需要一个公共 IP 地址。 在生产环境中,所有通信都通过安全套接字层 (SSL) 进行。

  8. CluedIn 应用程序为 Power BI 和 Azure Synapse Analytics 等分析服务提供经过清理和处理的数据,以生成见解。 系统将所有数据备份并存储在 SQL 或 Redis 数据库中。

组件

CluedIn 在 Azure Kubernetes Service (AKS) 上运行,这是一种高度可用、安全且完全托管的 Kubernetes 服务,用于部署和管理容器化应用程序。 AKS 提供无服务器 Kubernetes、集成 CI/CD 以及企业级安全性和治理。

CluedIn 使用并支持多种数据库源和服务,包括:

  • Azure SQL 数据库,一种托管的关系云数据库服务,始终保持最新状态,可以按需自动缩放资源。
  • Azure SQL 托管实例,可实现与现有 SQL Server 应用程序的广泛 SQL Server 引擎兼容。 SQL 托管实例可为本地数据库基础结构提供 Azure 云优势,例如弹性缩放、统一管理和云计费模式。
  • Azure Cosmos DB,用于现代应用开发的完全托管式非关系 NoSQL 无服务器数据库。

CluedIn 为多种分析应用和服务提供经过处理、受治理的数据,包括:

  • Azure Databricks,一种基于 Apache Spark 的快速、简单、协作型分析服务。
  • Azure Synapse Analytics,一种无限制的分析服务,它将企业数据仓库和大数据分析结合在一起。
  • Log Analytics,一种 Azure 门户工具,用于编辑、运行和分析来自 Azure Monitor 日志数据的查询。
  • Azure 认知服务,一个全面的 AI 服务和认知 API 系列,用于生成智能应用。
  • Power BI,一种 Microsoft 业务分析服务,它将交互式可视化效果和商业智能与易于使用的报表创建界面相结合。

方案详细信息

现代企业公司的许多流程和项目都基于数据,但也必须准备好原始数据以供使用。 从高级分析到机器学习的数据用例都需要类似的数据准备过程和关注。

  1. 数据项目从数据发现开始,以确定数据的位置及其使用的系统。
  2. 然后,数据集成将多个数据源整合到一个统一或连接的数据集中。
  3. 下一步是对数据进行规范化、标准化、协调和清理,以便计算机能够以统一、一致和高保真的方式对其进行处理。
  4. 最后,数据必须易于且随时满足业务需求。

在这些过程中,治理必须确保数据控制和隐私保护,具有明确的所有权、完整的可追溯性,以及对数据来源、处理和使用的审核线索。

CluedIn 平台将这些数据管理流程和支柱封装成一个连贯、一致、端到端的主数据管理 (MDM) 解决方案中。 CluedIn 使用一种称为“最终连接”的数据集成技术,该技术可以比经典的提取、转换、加载 (ETL) 或提取、加载、转换 (ELT) 模型生成更好的结果。 最终连接使用 GraphQL 查询将来自多个孤立数据源的数据无缝混合。

通过最终的连接,数据不会在进入或加载到其他系统时进行联接或混合。 相反,CluedIn 会按原样加载数据,并使用元数据标记记录。 最终,具有相同标记的记录将合并或生成关系图。

这种复杂的数据合并技术为数据驱动的解决方案提供了基础。 CluedIn Data Fabric 将数据集成到一个管道中,该管道对数据进行清理、准备、建模、管理、扩充、重复数据删除和编目,使其易于供业务用途使用和访问。

CluedIn 为企业提供有关其引入的数据质量的指标、智能检测脏数据,并为数据工程师和数据专员清理数据做好准备。 专有的模糊逻辑机器学习算法可帮助业务用户和管理者标记数据,并教会系统识别、纠正和预防随时间推移出现的数据质量问题。

CluedIn 包含企业级治理,以确保你可以安全、自信地使用数据。 CluedIn 可以将经过清理、受治理的数据直接流式传输到 Power BI、Azure Databricks、Azure Synapse Analytics 或 Azure 认知服务等分析系统,使数据可轻松用于其他业务。 对自动缩放的本机支持使用 Azure 的强大功能,为最大的数据工作负载提供可缩放的环境。

可能的用例

生成数据的单一视图

  • CluedIn 采用语义建模方法,与传统方法相比,它能让用户更轻松地生成主数据的单一视图。 CluedIn 客户正在使用 CluedIn 生成其大多数业务关键数据的关联、历史和高质量视图。 CluedIn 不仅支持掌握经典主域(例如人员、公司、供应商和产品),还支持无数不同的域以及非结构化域(例如文件、邮件、事件等)。 如果你需要一个干净、扩充、受治理、质量可控且经过编目的集中化主数据存储库,则 CluedIn 非常适合你的用例。

数据结构

  • CluedIn 是 2020 年评选出的 Gartner Cool Vendor(最酷供应商)之一,因为它能将数十、数百和数千个不同且复杂的数据源的数据协调到统一的数据中心。 如果你想要轻松处理来自许多不同数据源的数据,可以使用 CluedIn 作为数据结构来实现此目的。 这可以为数据提供流式处理基础结构,当数据流向下游使用者时,它还可以主动清理和掌控数据。

主数据的复杂合并和链接

  • CluedIn 独特的数据建模方法利用图形数据库,可用于简单地合并和链接复杂数据。 与传统方法不同,为了解决这一挑战,CluedIn 增加了更多机器学习和图形分析来高精度地合并、匹配和链接记录。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负荷质量的指导原则。 有关详细信息,请参阅 Azure 架构良好的框架

可靠性

可靠性可确保应用程序符合你对客户的承诺。 有关详细信息,请参阅可靠性支柱概述

  • CluedIn 每天自动执行数据库备份,并默认将备份长期存储 30 天。 整个平台建立在冗余、容错堆栈之上,为所有子系统维护备份。 全天候监视系统确保服务尽可能不受损害。 CluedIn 遵循基础结构冗余的行业标准做法。

  • CluedIn 仅显示和存储数据的表示形式,而不是原始版本。 如果 CluedIn 检测到破坏性数据入侵,它可以暂时从服务器中擦除 CluedIn 数据。 入侵平息后,CluedIn 会重新收集数据以恢复其原始状态。

  • 所有数据存储都以高可用性模式运行。

可伸缩性

  • CluedIn 在 Docker 容器中运行,并使用 Kubernetes 来托管和协调应用程序的不同部分。 这种体系结构意味着 CluedIn 在弹性环境中运行良好,并且可以自动缩放到所需的大小和基础结构。

  • 对自动缩放的原生支持运用 Azure 的强大功能为最大数据工作负载提供可缩放的环境。

  • 无架构图形建模自动从源数据推断数据模型。 新数据源自动连接到所有其他数据源,而无需显式集成。 数据源的数量可以无限缩放,而不会增加集成复杂性。

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

  • CluedIn 安全性通过 Azure RBAC 授予权限和控制对不同服务的访问,并具有 Azure Key Vault 安全密钥控制和 Azure Monitor 访问跟踪和日志记录。

  • 除了经过身份验证的用户帐户,CluedIn 还支持单一登录 (SSO) 和标识框架。 对 CluedIn 应用程序的请求使用与用户标识无关的加密访问令牌。

  • CluedIn 在多个防火墙和代理层之后管理存储的数据表示形式,并使用一组唯一密钥对其进行身份验证。

  • CluedIn 使用 256 位 AES 加密存储所有源数据,该加密强度大于或等于支持的数据源的加密级别。

  • 限制和 CSRF 防护保护数据访问。

DevOps

  • CluedIn 使用 Azure Pipelines 持续集成和持续交付 (CI/CD) 管道来处理 AKS 环境的部署和滚动更新。

  • CluedIn 支持单元、集成和功能测试,以确保数据按预期进行转换。 虚拟化处理管道可以在内存中运行以进行沙盒测试。 生产级断言可以帮助调试和跟踪数据问题。

  • 对于测试和生产环境,CluedIn 提供了一个 Helm 包管理器图表,用于在 Kubernetes 群集中快速安装 CluedIn。 完全脚本化的数据部署流程支持设置、测试和推出。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

CluedIn 的定价是公开透明的。 可以在其网站上查看定价。

Azure 大小调整和开始试用

可以在其网站上开始为期 7 天的 CluedIn 试用,这还有助于根据针对不同规模环境预生成的 Azure 估算来确定 Azure 托管成本。

部署此方案

后续步骤