湖屋平台的范围
新式数据和 AI 平台框架
为了讨论 Databricks Data Intelligence Platform 的范围,首先要定义新式数据和 AI 平台的基本框架:
湖屋范围概述
Databricks Data Intelligence Platform 涵盖完整的新式数据平台框架。 它建立在湖屋体系结构之上,由数据智能引擎提供支持,该引擎可理解数据的独特之处。 它是 ETL、ML/AI 和 DWH/BI 工作负载的开放统一基础,并具有 Unity Catalog 作为中央数据和 AI 治理解决方案。
平台框架的角色
该框架涵盖在框架中处理应用程序的主要数据团队成员(角色):
- 数据工程师为数据科学家和业务分析师提供准确且可重现的数据,以便及时做出决策和提供实时见解。 他们实现高度统一且可靠的 ETL 过程,以增加用户对数据的信心和信任。 他们确保数据与业务的各个支柱很好地集成,并且通常遵循软件工程最佳做法。
- 数据科学家结合分析专长和业务理解,将数据转化为战略见解和预测模型。 他们善于将业务挑战转化为数据驱动的解决方案,即通过追溯分析见解或前瞻性预测建模。 利用数据建模和机器学习技术,他们设计、开发和部署模型,从数据中揭示模式、趋势和预测。 他们充当沟通的桥梁,将复杂的数据叙述转换为可理解的故事,确保业务利益干系人不仅理解,还可以处理数据驱动的建议采取行动,进而推动以数据为中心的方法来解决组织内部的问题。
- ML 工程师(机器学习工程师)通过构建、部署和维护机器学习模型,领导数据科学在产品和解决方案中的实际应用。 他们主要关注模型开发和部署的工程方面。 ML 工程师确保机器学习系统在实时环境中的稳健性、可靠性和可伸缩性,应对与数据质量、基础结构和性能相关的挑战。 通过将 AI 和 ML 模型集成到运营业务流程和面向用户的产品中,它们促进了利用数据科学来解决业务挑战,确保模型不仅仅是处于研究阶段,还能推动有形的业务价值。
- 业务分析师为利益干系人和业务团队提供可操作的数据。 他们通常使用标准 BI 工具为领导层解释数据并创建报表或其他文档。 对于非技术业务和运营部门的同事而言,他们通常是快速分析问题的首选联系人。
- 业务合作伙伴是日益网络化的商业世界中的重要利益干系人。 他们的定义是与企业建立了正式关系以实现共同目标的公司或个人,可以包括销售商、供应商、分销商和其他第三方合作伙伴。 数据共享是业务伙伴关系的一个重要方面,因为它通过数据传输和交换数据来增强协作和数据驱动的决策。
平台框架的域
平台由多个域组成:
- 存储: 在云中,数据主要存储在云提供商的可缩放、高效且可复原的对象存储中。
- 治理:有关数据治理的功能,例如访问控制、审核、元数据管理、世系跟踪、以及所有数据和 AI 资产的监视。
- AI 引擎:AI 引擎为整个平台提供生成式 AI 功能。
- 引入和转换:ETL 工作负载的功能。
- 高级分析、ML 和 AI:所有围绕机器学习、AI、生成式 AI 的功能以及流分析。
- 数据仓库:支持 DWH 和 BI 用例的域。
- 业务流程:数据处理、机器学习和分析管道的集中式工作流管理。
- ETL 和 DS 工具:数据工程师、数据科学家和 ML 工程师在工作中主要使用的前端工具。
- BI 工具:BI 分析师在工作中主要使用的前端工具。
- 协作:两个或多个参与方之间共享数据的功能。
Databricks 平台的范围
可通过以下方式将 Databricks Data Intelligence Platform 及其组件映射到框架:
Azure Databricks 上的数据工作负荷
最重要的是,Databricks Data Intelligence Platform 在一个平台中涵盖了数据域的所有相关工作负载,使用 Apache Spark/Photon 作为引擎:
引入和转换
对于数据引入,自动加载程序可在计划或连续作业中以增量方式自动处理云存储中的文件,而无需管理状态信息。 引入后,需要立即转换原始数据,以便为 BI 和 ML/AI 做好准备。 Databricks 为数据工程师、数据科学家和分析师提供强大的 ETL 功能。
增量实时表 (DLT) 允许以声明性方式编写 ETL 作业,从而简化了整个实现过程。 可以通过定义数据预期来提高数据质量。
高级分析、ML 和 AI
该平台包括 Databricks Mosaic AI,这是一组完全集成的机器学习和 AI 工具,用于经典机器学习和深度学习。 它涵盖了从准备数据到构建机器学习和深度学习模型的完整工作流。
Spark 结构化流式处理和 DLT 支持实时分析。
数据仓库
Databricks Data Intelligence 平台还具有完整的数据仓库解决方案,其中包含Databricks SQL,由Unity Catalog集中管理,具有精细的访问控制。
Azure Databricks 功能区域的概述
这是 Databricks Data Intelligence Platform 功能从下到上映射到框架的其他层:
云存储
湖屋的所有数据都存储在云提供商的对象存储中。 Databricks 支持三个云提供商:AWS、Azure 和 GCP。 采用各种结构化和半结构化格式(例如 Parquet、CSV、JSON 和 Avro)以及非结构化格式(例如,图像和文档)的文件是通过批处理或流式处理进程来引入和转换的。
Delta Lake 是湖屋(文件事务、可靠性、一致性、更新等)的建议数据格式,并且是完全开源的,以避免产生依赖。 而 Delta 通用格式 (UniForm) 允许使用 Iceberg 阅读器客户端读取 Delta 表。
Databricks Data Intelligence Platform 中不使用专有数据格式。
数据治理
在存储层的基础上,Unity Catalog 提供广泛的数据治理功能,包括元存储中的元数据管理、访问控制、审核、数据发现、和数据世系。
外部 SQL 源可以通过湖屋联合身份验证集成到湖屋和 Unity Catalog 中。
业务流程
Databricks 作业使你能够在任何云上为完整数据和 AI 生命周期运行各种工作负载。 它们可用于协调作业以及 SQL、Spark、笔记本、DBT、ML 模型等的增量实时表。
ETL 和 DS 工具
在消耗层,数据工程师和 ML 工程师通常使用 IDE 来使用平台。 数据科学家通常更喜欢笔记本,并使用 ML 和 AI 运行时,以及机器学习工作流系统 MLflow 来跟踪试验和管理模型生命周期。
BI 工具
业务分析师通常使用他们的首选 BI 工具来访问 Databricks 数据仓库。 可以通过不同的分析和 BI 工具查询 Databricks SQL,详情请参阅 BI 和可视化效果
此外,该平台提供现成的查询和分析工具:
- 仪表板,用于拖放数据可视化效果并共享见解。
- 提供 SQL 编辑器,供 SQL 分析师分析数据。
协作
Delta Sharing 是由 Databricks 开发的开放协议,用于与其他组织进行安全的数据共享,而不考虑他们使用的计算平台。