什么是 Azure Databricks?
Azure Databricks 是一个统一的开放分析平台,用于大规模构建、部署、共享和维护企业级数据、分析和 AI 解决方案。 Databricks Data Intelligence 平台与云帐户中的云存储和安全性集成,并代表你管理和部署云基础结构。
数据智能平台如何运作?
Azure Databricks 将生成式 AI 与数据湖配合使用,以了解数据的独特语义。 然后,它会自动优化性能并管理基础结构,以满足业务需求。
自然语言处理会学习业务的语言,因此可以通过用自己的语言提问来搜索和发现数据。 自然语言帮助可帮助你编写代码、排查错误,并在文档中查找答案。
最后,数据和 AI 应用程序可以依赖于强大的治理能力和安全性。 可以在不影响数据隐私和 IP 控制的情况下集成 OpenAI 等 API。
Azure Databricks 的用途是什么?
Azure Databricks 提供了的工具可帮助你将数据源连接到一个平台,以处理、存储、共享、分析、建模和通过从 BI 到生成式 AI 的解决方案利用数据集盈利。
Azure Databricks 工作区为大多数数据任务提供统一的界面和工具,其中包括:
- 数据处理的计划和管理,特别是 ETL
- 生成仪表板和可视化效果
- 管理安全性、治理、高可用性和灾难恢复
- 数据发现、注释和浏览
- 机器学习 (ML)建模、跟踪和模型服务
- 生成式 AI 解决方案
具有开放源代码的托管集成
Databricks 对开源社区做出了坚定承诺。 Databricks 管理 Databricks Runtime 版本中开源集成的更新。 以下技术是以前由 Databricks 员工创建的开源项目:
工具和编程访问
Azure Databricks 维护许多专有工具,这些工具对这些技术进行集成和扩展以优化性能和易用性,如下所示:
除了工作区 UI 之外,还可以通过以下工具以编程方式与 Azure Databricks 交互:
- REST API
- CLI
- Terraform
Azure Databricks 如何与 Azure 配合?
Azure Databricks 平台体系结构包括两个主要部分:
- 由 Azure Databricks 用于部署、配置和管理平台与服务的基础结构。
- 由 Azure Databricks 和你的公司协作管理的客户拥有的基础结构。
与许多企业数据公司不同,Azure Databricks 不强制规定要将数据迁移到专有存储系统才能使用该平台。 可以改为通过配置 Azure Databricks 平台和云帐户之间的安全集成来配置 Azure Databricks 工作区,然后由 Azure Databricks 使用你帐户中的云资源部署计算群集,以便在对象存储和你控制的其他集成服务中处理和存储数据。
Unity Catalog 进一步扩展了此关系,允许你使用熟悉的 SQL 语法管理从 Azure Databricks 内部访问数据的权限。
Azure Databricks 工作区满足某些全球最大且最注重安全的公司的安全和网络要求。 Azure Databricks 使新用户可以轻松地开始使用该平台。 它消除了使用云基础结构的许多负担和顾虑,同时又不限制经验丰富的数据、运营和安全团队所需的自定义和控制。
Azure Databricks 的常见用例有哪些?
Azure Databricks 上的用例如同平台上处理的数据以及工作核心部分为处理数据的许多员工角色一样多种多样。 以下用例重点介绍了组织中的用户如何利用 Azure Databricks 完成对处理、存储和分析驱动关键业务职能和决策的数据至关重要的任务。
构建企业数据湖屋
数据湖屋结合了企业数据仓库和数据湖的优势,可以加速、简化和统一企业数据解决方案。 数据工程师、数据科学家、分析师和生产系统都可以使用数据湖屋作为单一事实源,从而及时访问一致的数据并降低生成、维护和同步许多分布式数据系统的复杂性。 请参阅什么是数据湖屋?。
ETL 和数据工程
无论你是生成仪表板还是为人工智能应用程序提供支持,数据工程都能为以数据为中心的公司提供后盾,因为它可以确保数据可用、干净并存储在支持高效发现和使用的数据模型中。 Azure Databricks 将 Apache Spark 的强大功能与 Delta Lake 和自定义工具相结合,提供无与伦比的 ETL(提取、转换、加载)体验。 你可以使用 SQL、Python 和 Scala 来编写 ETL 逻辑,然后只需单击几下即可编排计划的作业部署。
增量实时表通过智能管理数据集之间的依赖关系以及自动部署和缩放生产基础结构,进一步简化了 ETL,以确保根据规范及时准确地交付数据。
Azure Databricks 提供了一些用于数据引入的自定义工具,其中包括自动加载程序,这是一种高效且可缩放的工具,用于以增量方式和幂等方式将数据从云对象存储和数据湖加载到数据湖屋。
机器学习、AI 和数据科学
Azure Databricks 机器学习通过一套针对数据科学家和 ML 工程师需求定制的工具(包括 MLflow 和用于机器学习的 Databricks Runtime)扩展了平台的核心功能。
大型语言模型和生成式 AI
用于机器学习的 Databricks Runtime 包括 Hugging Face Transformers 之类的库,这些库允许你将现有的预先训练的模型或其他开源库集成到工作流中。 借助 Databricks MLflow 集成,可以轻松地将 MLflow 跟踪服务与转换器管道、模型和处理组件配合使用。 此外,还可以在 Databricks 工作流中集成来自 John Snow Labs 等合作伙伴的 OpenAI 模型或解决方案。
使用 Azure Databricks,可以针对特定任务的数据自定义 LLM。 在开源代码工具(如 Hugging Face 和 DeepSpeed)的支持下,可以高效地获取基础 LLM 并使用自己的数据开始训练,以便更准确地处理域和工作负载。
此外,Azure Databricks 还提供了 AI 函数,SQL 数据分析师可以使用该函数从 OpenAI 或者直接在其数据管道和工作流中访问 LLM 模型。
数据仓库、分析和 BI
Azure Databricks 将用户友好的 UI、经济高效的计算资源以及无限可缩放、负担得起的存储相结合,提供了一个运行分析查询的强大平台。 管理员将可缩放的计算群集配置为 SQL 仓库,使最终用户能够执行查询,而无需担心在云中工作的任何复杂性。 SQL 用户可以使用 SQL 查询编辑器在湖屋中针对数据运行查询,或在笔记本中运行查询。 笔记本除了支持 SQL 外,还支持 Python、R 和 Scala,并使用户可以嵌入旧版仪表板中提供的相同可视化效果,以及用 Markdown 编写的链接、图像和注释。
数据治理和安全数据共享
Unity Catalog 为数据湖屋提供统一的数据治理模型。 云管理员为 Unity Catalog 配置和集成粗略的访问控制权限,然后 Azure Databricks 管理员可以管理团队和个人的权限。 通过用户友好的 UI 或 SQL 语法,与访问控制列表 (ACL) 相结合对特权进行管理,使数据库管理员无需在云原生标识访问管理 (IAM) 和网络上进行缩放就可以更轻松地保护对数据的访问。
Unity Catalog 使在云中运行安全分析变得简单,并提供了一个责任划分,这个划分有助于减少平台管理员和最终用户所必需的再培训或技能提升。 请参阅什么是 Unity Catalog?。
湖屋使组织中的数据共享变得就像授予对表或视图的查询访问权限一样简单。 为了可以在安全环境之外共享,Unity Catalog 提供了增量共享的托管版本。
DevOps、CI/CD 和任务编排
ETL 管道、ML 模型和分析仪表板的开发生命周期都呈现出各自的独特挑战。 Azure Databricks 允许所有用户利用单个数据源,这样可以减少重复工作和不同步报告。 通过另外为版本控制、自动化、计划、部署代码和生产资源提供一套通用工具,你可以简化监视、编排和操作的开销。 工作可以计划 Azure Databricks 笔记本、SQL 查询和其他任意代码。 Git 文件夹可用于将 Azure Databricks 项目与许多流行的 git 提供程序同步。 有关工具的完整概述,请参阅开发人员工具和指南。
实时分析和流式处理分析
Azure Databricks 利用 Apache Spark 结构化流式处理来处理流数据和增量数据更改。 结构化流式处理与 Delta Lake 紧密集成,这些技术为增量实时表和自动加载程序提供了基础。 请参阅 Azure Databricks 上的流式处理。