Azure Databricks 技术术语表

A

访问控制列表 (ACL)

附加到工作区、群集、作业、表或试验的权限的列表。 ACL 指定向哪些用户或系统进程授予对对象的访问权限,以及允许对资产执行哪些操作。 典型 ACL 中的每个条目都指定主题和操作。 请参阅访问控制列表

ACID 事务

可靠处理的数据库事务。 ACID 是原子性、一致性、隔离性和持久性的英文缩写。 请参阅可靠性最佳做法

人工智能 (AI)

计算机模拟人类智能行为的功能。 请参阅 Databricks 上的 AI 和机器学习

AI 代理

具有复杂推理功能的应用程序,允许其创建自己的计划,并根据所使用的工具执行任务。

AI 函数

内置的 SQL 函数,用于直接从 Azure Databricks 中的 SQL 对数据应用 AI。

AI 操场

一项 Azure Databricks 功能,通过此功能,用户可对 Azure Databricks 工作区中提供的生成式 AI 模型进行交互、测试和比较。

异常情况检测

用于识别不符合数据集中预期行为的异常模式的技术和工具。 Azure Databricks 通过其机器学习和数据处理功能实现异常情况检测。

Apache Spark

用于大数据工作负载的开源分布式计算系统。 请参阅 Azure Databricks 上的 Apache Spark

人工神经网络 (ANN)

一种模仿人脑神经元运作模式的计算系统。

资产

Azure Databricks 工作区中的实体(例如对象或文件)。

审核日志

Azure Databricks 环境中的用户活动和操作记录,对于安全性、合规性和操作监视至关重要。 请参阅诊断日志参考

自动加载程序

一种数据引入功能,在新数据文件到达云存储空间时以增量方式高效地对其进行处理,而无需进行任何其他设置。 请参阅什么是自动加载程序?

AutoML

一种 Azure Databricks 功能,通过自动查找最佳算法和超参数配置,简化将机器学习应用到数据集的过程。 请参阅什么是 Mosaic AutoML?

自动化数据世系

自动跟踪和可视化数据流的过程,从原始数据流经过各种转换到最终形式,这对于调试、合规性和理解数据依赖关系至关重要。 Azure Databricks 通过与数据世系工具集成以实现这一点。

水平自动缩放

根据等待计划的任务数量添加或删除执行程序。 这在单个更新期间动态发生。

垂直自动缩放

根据内存压力(或缺乏内存压力)增加或减少计算机(驱动程序或执行程序)的大小。 这仅在新更新开始时发生。

Azure Databricks

针对 Microsoft Azure 云平台进行优化的 Databricks 版本。

B

批处理

一种数据处理方式,允许定义显式指令,以将固定数量的静态非更改数据作为单个操作进行处理。 Azure Databricks 使用 Spark SQL 或 DataFrame。 请参阅流式处理和增量引入

商业智能 (BI)

企业用于业务信息的数据分析和管理的策略和技术。

C

目录资源管理器

一种 Azure Databricks 功能,其提供一个 UI,可用于浏览和管理数据、架构(数据库)、表、模型、函数和其他权限。 可以使用它来查找数据对象和所有者、了解表之间的数据关系,以及管理权限和共享。 请参阅什么是目录资源管理器?

CICD 或 CI/CD

结合持续集成 (CI) 和持续交付 (CD) 的做法。 请参阅 Azure Databricks 上的 CI/CD 是什么?

清理数据

数据清理过程是指从记录集、表或数据库中检测和更正(或删除)损坏或不准确的记录的过程,数据清理是指识别数据中不完整、不正确、不准确或不相关的部分,然后替换、修改或删除脏数据或粗数据。

清洁室

一种 Azure Databricks 功能,使用 Delta Sharing 和无服务器计算来提供安全且保护隐私的环境,让多方可以共享敏感的企业数据并进行协作,而无需直接访问彼此的数据。 借助清洁室,其他 Databricks 帐户的用户可以协作生成有关共享项目(例如广告活动、投资决策或研发)的见解,而无需共享对敏感底层数据的访问权限。

云平台提供商

提供云计算平台的公司。 例如,Azure、Amazon Web Services (AWS) 和 Google Cloud Platform (GCP)。

cluster

在笔记本、作业和增量实时表中使用的非无服务器计算资源。 在整个 Azure Databricks UI 中,已使用术语计算替换群集,但群集 API 和元数据中仍使用原术语。

复合 AI 系统

通过组合多个交互组件来处理 AI 任务的系统。 相比之下,AI 模型只是统计模型(例如,用于预测文本中下一个令牌的转换器)。

compute

指计算资源,这些资源是基础结构元素(无论是硬件还是软件),通过接收、分析和存储数据来解决问题和创建解决方案。 计算

连续管道

当新数据不间断地到达输入时,连续更新所有表的管道。 请参阅触发与连续管道模式

D

有向无环图 (DAG)

表示工作流或管道中任务之间依赖关系的方法。 DAG 处理模型中,任务表示为有向无环图中的节点,其中边缘表示任务之间的依赖关系。

数据目录

一种元数据管理工具,用于管理数据源,提供有关数据结构、位置和使用情况的信息。 Azure Databricks 与外部数据目录集成,以增强元数据管理。

数据治理

管理数据可用性、完整性和安全性的做法,涉及策略、过程和技术,以确保数据质量和合规性。

data ingestion

将数据从各种源导入、传输、加载到 Azure Databricks 并进行处理以进行存储、分析和处理的过程。

数据湖

一种大型存储库,在需要时按数据原生格式存储大量原始数据。

Data Lakehouse

一种数据管理系统,结合数据湖和数据仓库的优势。 数据湖屋为希望避免独立系统处理机器学习 (ML) 和商业智能 (BI) 等不同工作负载的现代组织提供可缩放的存储和处理功能。 数据湖屋可以帮助建立单一事实来源,消除冗余成本,并确保数据新鲜度。 请参阅什么是数据湖屋?

数据管道

生成、收集、处理数据并将其移动到目标的一系列阶段。 Databricks 有助于创建和管理复杂的数据管道,以进行批量和实时数据处理。

数据隐私

保护个人数据免受未经授权的访问、使用、披露或盗窃的做法。 Azure Databricks 强调可靠的数据隐私和安全功能,包括端到端加密、基于角色的访问控制以及遵守主要数据保护法规,以保护敏感信息和确保数据管理。

数据可视化

一种数据管理方法,允许应用程序检索和操作数据,无需有关数据的技术详细信息,例如数据的格式或物理位置。 Azure Databricks 可以作为数据虚拟化层的一部分,提供对不同来源的数据的无缝访问和分析。

数据仓库

指从多个来源收集和存储数据,以便可以快速访问这些数据以获取业务见解和报告。 湖屋架构和 Databricks SQL 为数据湖带来了云数据仓库功能。 请参阅什么是 Azure Databricks 上的数据仓库?

Databricks

统一的开放分析平台,用于大规模构建、部署、共享和维护企业级数据、分析和 AI 解决方案。 Databricks Data Intelligence 平台与云帐户中的云存储和安全性集成,并代表你管理和部署云基础结构。 请参阅什么是 Azure Databricks?

Databricks AI/BI

一种新型商业智能产品,提供对数据语义的理解,可启用自助式数据分析。 AI/BI 基于复合 AI 系统构建,可从 Databricks 平台(包括 ETL 管道、世系和其他查询)中获取数据整个生命周期的见解。 请参阅什么是 Databricks AI/BI?

Databricks 资产捆绑包 (DAB)

可方便采用数据和 AI 项目的软件工程最佳做法(包括源代码管理、代码评审、测试以及持续集成和交付 (CI/CD))的工具。 使用捆绑包,可以将作业、管道和笔记本等 Azure Databricks 资源描述为源文件。 请参阅什么是 Databricks 资产捆绑包?

Databricks 助手

基于 AI 的帮手,可充当与你搭档的程序员和支持专员,以方便你在创建笔记本、查询、仪表板和文件时提升效率。 它可以帮助你通过生成、优化、完成、解释和修复代码和查询来快速回答问题。

Databricks CLI

Azure Databricks 的命令行界面,确保用户能够管理和自动化 Databricks 工作区,并部署作业、笔记本和库。 请参阅什么是 Databricks CLI?

Databricks Connect

客户端库,允许开发人员使用 Azure Databricks 连接自己喜欢的 IDE、笔记本和其他工具,并远程计算和执行 Spark 代码。 请参阅什么是 Databricks Connect?

Databricks 容器服务

一种 Azure Databricks 功能,允许在创建计算时指定 Docker 映像。 请参阅使用 Databricks 容器服务自定义容器

Databricks 市场

用于交换数据产品的开放论坛。 提供商必须拥有 Azure Databricks 帐户,但接收者可以是任何人。 市场资产包括数据集、Azure Databricks 笔记本、Azure Databricks 解决方案加速器和机器学习 (AI) 模型。 数据集通常以表格数据目录的形式提供,但也支持 Azure Databricks 卷形式的非表格数据。 请参阅“什么是 Databricks 市场?” 。

Databricks Runtime

针对大数据分析进行优化的运行时。 Databricks 也可提供用于机器学习的 Databricks Runtime,其针对机器学习工作负载进行过优化。 请参阅 Databricks RuntimeDatabricks Runtime 发行说明版本和兼容性

Databricks SQL (DBSQL)

为现有数据湖带来数据仓库功能和性能的服务集合。 Azure Databricks SQL 支持开放格式和标准 ANSI SQL。 通过平台内的 SQL 编辑器和仪表板工具,团队成员可以直接在工作区中与其他 Azure Databricks 用户协作。 请参阅什么是 Azure Databricks 上的数据仓库?

DatabricksIQ

支持 Databricks 平台的数据智能引擎。 它是一个复合 AI 系统,其中结合了 AI 模型、检索、排名和个性化系统的使用,以帮助你了解组织数据的语义和使用模式。

DBU

Databricks 单位 (DBU) 是 Databricks Lakehouse 平台上用于度量和定价目的的处理能力标准化单位。 工作负载消耗的 DBU 数量由处理指标驱动,其中可能包括使用的计算资源和处理的数据量。 请参阅 Azure Databricks 概念

数据帧

将数据组织成由行和列组成的二维表格的数据结构,与电子表格非常类似。 数据帧是现代数据分析中最常用的数据结构之一,因为它们能以灵活直观的方式存储和处理数据。 请参阅教程:使用 Apache Spark 数据帧加载和转换数据

数据集 (dataset)

将数据组织和存储在一起的结构化集合,用于分析或处理。 数据集中的数据通常以某种方式相关,并且来自单个源或用于单个项目。

Delta Lake

可以提高数据湖可靠性的开源存储层。 Delta Lake 提供 ACID 事务和可缩放的元数据处理,并可以统一流处理和批数据处理。 请参阅什么是 Delta Lake?

增量实时表 (DLT)

声明性框架,用于生成可靠、可维护且可测试的数据处理管道。 你将定义要对数据执行的转换,而增量实时表管理任务业务流程、群集管理、监视、数据质量和错误处理。 请参阅什么是增量实时表?

增量实时表数据集

流式处理表、具体化视图和作为声明性查询结果维护的视图。

增量共享

允许与组织外部的用户共享 Azure Databricks 中的数据和 AI 资产,无论这些用户是否使用 Azure Databricks。 也可作为用于共享表格数据的开源项目,在 Azure Databricks 中使用以增加共享非表格、非结构化数据(卷)、AI 模型、视图、过滤的数据和笔记本的能力。 请参阅什么是 Delta Sharing?

Delta 表

Azure Databricks 中的默认数据表格式,并且是 Delta Lake 开源数据框架的一项功能。 Delta 表通常用于数据湖,其中的数据通过流式处理或大型批引入。 请参阅什么是表和视图?

E

ETL(提取、转换、加载)

一种现代数据集成方法,用于从源中提取数据、将数据加载到目标系统中,然后在目标系统中对其进行转换。 请参阅在 Azure Databricks 上运行第一个 ETL 工作负载

周五

功能存储

用于存储、管理和为机器学习模型提供功能的中央存储库。 请参阅特征工程和服务

流是 DLT 管道中的边缘,可读取数据、转换数据并将其写入目标。

基础模型

预先训练的大型 ML 模型,目的是对其进行微调,以适应更具体的语言理解和生成任务。

G

生成式 AI

一种人工智能,侧重于计算机使用模型创建图像、文本、代码和综合数据等内容的能力。 生成式 AI 应用程序基于生成式 AI 模型来构建:大型语言模型 (LLM) 和基础模型。 请参阅 Databricks 上的 AI 和机器学习

J

作业

用于在 Azure Databricks 上计划和编排生产工作负载的基本单位。 Azure Databricks 作业由一个或多个任务组成。 请参阅计划和协调工作流

L

LakeFlow Connect

提供内置连接器用于从企业应用程序和数据库引入数据。 最终的引入管道由 Unity Catalog 管理,并由无服务器计算和增量实时表提供支持。 请参阅 LakeFlow Connect。

Lakehouse Federation

Azure Databricks 的查询联合平台。 术语“查询联合”是指一系列功能,它们使用户和系统能够针对多个数据源运行查询,而无需将所有数据迁移到一个统一的系统。 Azure Databricks 使用 Unity Catalog 来管理查询联合。 请参阅“什么是 Lakehouse Federation?”。

Lakehouse Monitoring

监视帐户中所有表中数据的统计属性和质量。 还可以监视包含模型输出和预测的推理表,从而使用该服务跟踪机器学习模型和模型服务终结点的性能。

大型语言模型 (LLM)

一种自然语言处理 (NLP) 模型,设计用于回答开放式问题、聊天、内容摘要、执行近乎任意的指令、翻译以及内容和代码生成等任务。 LLM 使用高级机器学习算法,通过海量数据集进行训练,以学习人类语言的模式和结构。

可对群集上运行的笔记本或作业使用的代码包。 Databricks 运行时包含许多库,你也可以上传自己的库。 请参阅

M

具体化视图

一种已预先计算和存储的视图,以便能以较低的延迟或重复进行查询,而无需进行冗余计算。

奖牌体系结构

一种数据设计模式,用于在 Lakehouse 中以逻辑方式组织数据,其目标是在数据流经体系结构的每一层(铜牌层到银牌层再到金牌层)时,逐步改进数据的结构和质量。 什么是奖牌 Lakehouse 体系结构?

metastore

用于存储数据仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息、读取和写入数据所需的序列化器和去序列化器,以及用于存储数据的相应文件。 请参阅元存储

MLflow

用于管理端到端机器学习生命周期的开源平台,包括试验、可再现性和部署。 Azure Databricks 上的 MLflow 是一项完全托管的服务,可为企业客户提供附加功能,从而提供可扩展且安全的 MLflow 托管部署。 请参阅使用 MLflow 进行 ML 生命周期管理

模型训练

使用多个常用开源库在 Azure Databricks 中训练机器学习和深度学习模型的过程。 请参阅训练 AI 和 ML 模型

Mosaic AI

该功能提供统一工具,以构建、部署、评估和治理 AI 和 ML 解决方案,涵盖构建预测 ML 模型到最新的 GenAI 应用。 请参阅 Databricks 上的 AI 和机器学习

Mosaic AI 模型服务

用于部署、治理和查询 AI 模型的统一界面,以实现实时和批量推理。

Mosaic AI 模型训练

该功能允许使用自己的数据自定义基础模型,以优化其在特定应用程序中的性能。 通过执行全参数微调或继续训练基础模型,可以使用比从头开始训练模型少得多的数据、时间和计算资源来训练自己的模型。 请参阅基础模型的 Mosaic AI 模型训练。

Mosaic AI 矢量搜索

一个矢量数据库,内置于 Databricks Data Intelligence 平台中,并与其治理和生产力工具集成。

N

笔记本

数据科学家和工程师使用的交互式 Web 界面,可以在同一文档中使用多种语言(例如 Python、Scala、SQL)编写和执行代码。 请参阅 Databricks 笔记本简介

O

OAuth

OAuth 是访问授权的开放标准,通常用作互联网用户在不提供密码的情况下授权网站或应用程序访问其在其他网站上的信息的方式。 请参阅对 Azure Databricks 资源的访问进行身份验证

P

Partner Connect

一种 Databricks 计划,提供由独立软件供应商维护的集成,可以连接到大多数企业数据系统。 请参阅什么是 Databricks Partner Connect? 。

个人访问令牌 (PAT)

在访问计算机系统时用于验证用户身份的一串字符,不是密码。 请参阅对 Azure Databricks 资源的访问进行身份验证

Photon

一种高性能 Databricks 原生矢量化查询引擎,可更快地运行 SQL 工作负载和数据帧 API 调用,以减少每个工作负载的总成本。 Photon 与 Apache Spark API 兼容,因此它适用于现有代码。 请参阅什么是 Photon?

pipeline

由表、视图、具体化视图、流和接收器组成的 DAG,以系统确定的依赖顺序延迟更新。

R

检索增强生成 (RAG)

一种技术,确保大型语言模型 (LLM) 能够使用从外部信息源检索到的支持数据,以增强用户提示,从而生成经过扩充的响应。 通过合并检索到的这些信息,RAG 使 LLM 能够生成更准确、更高质量的响应,而不是使用额外的上下文来增强提示。 请参阅“检索增强生成 (RAG) 基础知识”。

S

schema (Unity Catalog)

Unity Catalog 中目录的子级,可以包含表、视图、卷、模型和函数。 架构是 Unity Catalog 的三级命名空间 (catalog.schema.table-etc) 的第二级。 请参阅什么是 Unity Catalog?

无服务器计算

由 Azure Databricks 管理的计算,可减少管理开销,并提供即时计算来提高用户工作效率。

服务主体

创建用于自动化工具、运行作业和应用程序的标识。 可以像对待 Azure Databricks 用户一样,使用权限以限制服务主体对资源的访问权限。 与 Azure Databricks 用户不同,服务主体是仅限 API 的标识;不得直接访问 Azure Databricks UI 或 Databricks CLI。 请参阅管理服务主体

接收器(管道)

接收器是写入外部系统的流的目标(例如 Kafka、Kinesis、Delta)。

SQL 仓库

一种计算资源,可用于查询和浏览 Azure Databricks 上的数据。 请参阅连接到 SQL 仓库

流处理

一种数据处理方式,可以针对未绑定且持续增长的数据集来定义查询,然后以小型增量批次来批处理数据。 Azure Databricks 流处理使用结构化流式处理。 请参阅流式处理和增量引入

流式处理

流式处理是指通过互联网传送到计算机和移动设备并实时播放的任何媒体内容(即实时或录制的数据流)。 请参阅“结构化流式处理概念”。

流式处理分析

分析由不同源持续生成的数据的过程。 Azure Databricks 支持通过结构化流式处理进行流式处理分析,从而处理和分析实时数据以获取实时见解。

结构化流

基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,支持流式处理查询的复杂计算。 请参阅“结构化流式处理概念”。

流式处理表

托管表,包含向其写入的流。

T

table

表驻留在架构中,包含数据行。 默认情况下,在 Databricks 中创建的所有表都使用 Delta Lake。 Delta Lake 支持的表也称为 Delta 表。 请参阅什么是表和视图?

触发管道

一种管道,用于引入每个表在更新开始时可用的所有数据,并按依赖项顺序运行,然后终止。 请参阅触发与连续管道模式

U

Unity Catalog

一种 Azure Databricks 功能,提供跨 Azure Databricks 工作区的集中访问控制、审核、世系和数据发现功能。 请参阅什么是 Unity Catalog?

V

矢量数据库

经过优化的数据库,可存储和检索嵌入。 嵌入是数据(通常是文本或图像数据)语义内容的数学表示。

view

由 SQL 查询定义的虚拟表。 本身并不存储数据,而是提供一种以特定格式或抽象形式呈现来自一个或多个表的数据的方法。 请参阅什么是视图?

卷 (Unity Catalog)

支持对非表格数据集进行治理的 Unity Catalog 对象。 卷表示云对象存储位置的存储逻辑卷。 卷提供用于访问、存储、管理和组织文件的功能。 请参阅什么是 Unity Catalog 卷?

周三

工作流

一组工具,允许在 Azure Databricks 上计划和编排数据处理任务。 使用 Azure Databricks 工作流配置 Azure Databricks 作业。 请参阅计划和协调工作流

工作负载

执行一项任务或一组任务所需的处理能力量。 Azure Databricks 识别两种类型的工作负载:数据工程(作业)和数据分析(通用)。 请参阅 Azure Databricks 概念

工作区

允许 Databricks 用户开发、浏览和共享对象(例如笔记本、试验、查询和仪表板)的组织环境。 请参阅浏览工作区