Azure Databricks技术术语术语表

一个

访问控制列表 (ACL)

附加到工作区、群集、作业、表或试验的权限的列表。 ACL 指定向哪些用户或系统进程授予对对象的访问权限,以及允许对资产执行哪些操作。 典型 ACL 中的每个条目都指定主题和操作。 请参阅访问控制列表

访问模式

一项安全功能,用于确定谁可以使用计算资源,以及他们在使用计算资源时可以访问的数据。 Azure Databricks中的每个计算资源都具有访问模式。 请参阅访问模式

ACID 事务

可靠处理的数据库事务。 ACID 是原子性、一致性、隔离性和持久性的英文缩写。 请参阅可靠性最佳做法

代理砖块

Azure Databricks功能,使你能够构建高质量的 AI 解决方案。

人工智能 (AI)

计算机模拟人类智能行为的功能。 请参阅 Databricks 上的 AI 和机器学习

AI 代理

具有复杂推理功能的应用程序,允许其创建自己的计划,并根据所使用的工具执行任务。

AI 函数

内置 SQL 函数,可用于直接从 Azure Databricks 中的 SQL 对数据应用 AI。

AI 网关

用于管理和监视 LLM 终结点、编码代理和模型服务终结点的Azure Databricks解决方案。 使用 AI 网关分析使用情况、配置权限和管理跨提供程序的容量。

AI 操场

Azure Databricks功能,用户可以与Azure Databricks工作区中提供的生成 AI 模型进行交互、测试和比较。

异常情况检测

用于识别不符合数据集中预期行为的异常模式的技术和工具。 Azure Databricks通过其机器学习和数据处理功能促进异常情况检测。

Apache Iceberg

一种开源表格式,用于支持架构演变、时间旅行和隐藏分区的分析工作负荷。 Azure Databricks 支持由 Unity Catalog 和外部目录管理的 Iceberg 表。 请参阅 Azure Databricks 中的 Apache Iceberg 是什么?

Apache Spark

用于大数据工作负载的开源分布式计算系统。 请参阅 Apache Spark 概述

人工神经网络 (ANN)

一种模仿人脑神经元运作模式的计算系统。

资产

Azure Databricks工作区中的实体(例如对象或文件)。

审核日志

Azure Databricks环境中用户活动和操作的记录,对于安全、合规性和操作监视至关重要。 请参阅诊断日志参考

自动加载程序

一种数据引入功能,在新数据文件到达云存储空间时以增量方式高效地对其进行处理,而无需进行任何其他设置。 请参阅什么是自动加载程序?

AutoML

Azure Databricks功能,通过自动查找最佳算法和超参数配置,简化了将机器学习应用到数据集的过程。 请参阅什么是 AutoML?

自动化数据世系

自动跟踪和可视化数据流的过程,从原始数据流经过各种转换到最终形式,这对于调试、合规性和理解数据依赖关系至关重要。 Azure Databricks通过与数据世系工具集成来促进这一点。

水平自动缩放

根据等待调度的任务数量来添加或删除执行器。 单次更新过程中,这一过程会动态发生。

垂直自动缩放

根据内存压力(或缺乏内存压力)增加或减少计算机(驱动程序或执行程序)的大小。 这仅在新更新开始时发生。

Azure Databricks

针对Microsoft Azure云平台优化的 Databricks 版本。

B

批处理

一种数据处理方式,允许定义显式指令,以将固定数量的静态非更改数据作为单个操作进行处理。 Azure Databricks使用 Spark SQL 或 DataFrame。 请参阅 Lakeflow Connect 中的标准连接器

偏差检测和缓解

识别和解决数据和机器学习模型中的偏差的过程,以确保公平性和准确性。 Databricks 提供工具和集成来帮助检测和缓解偏见。

商业智能 (BI)

企业用于业务信息的数据分析和管理的策略和技术。

C

目录 (Unity Catalog)

Unity 目录的三级命名空间(catalog.schema.table-etc)的第一级。 目录是架构的容器,而架构又包含表、视图、卷、模型和函数。 请参阅 Azure Databricks 中的目录是什么?

目录浏览器

Azure Databricks 的一项功能,提供一个用户界面用于浏览和管理数据、模式(数据库)、表、模型、函数以及其他 AI 资产。 可以使用它来查找数据对象和所有者、了解表之间的数据关系,以及管理权限和共享。 请参阅什么是目录资源管理器?

子实例

子实例是原始数据库实例的复制/写入克隆。 它可以从当前时间点或保留时段内的历史时间点创建。

CICD 或 CI/CD

结合持续集成 (CI) 和持续交付 (CD) 的做法。 请参阅Azure Databricks 上的 CI/CD

清理数据

数据清理过程是指从记录集、表或数据库中检测和更正(或删除)损坏或不准确的记录的过程,数据清理是指识别数据中不完整、不正确、不准确或不相关的部分,然后替换、修改或删除脏数据或粗数据。

清洁室

Azure Databricks 的一项功能,使用 Delta Sharing 和无服务器计算,提供一个安全且保护隐私的环境,让多个参与方可以共享敏感的企业数据并进行协作,而无需直接接触彼此的数据。 借助清洁室,其他 Databricks 帐户的用户可以协作生成有关共享项目(例如广告活动、投资决策或研发)的见解,而无需共享对敏感底层数据的访问权限。

云平台提供商

提供云计算平台的公司。 例如,Microsoft Azure。

群集

笔记本、作业和 Lakeflow Spark 声明式管道中使用的非无服务器计算资源。 术语 compute 已在整个 Azure Databricks UI 中替换了 cluster,但仍在群集 API 和元数据中使用。

计算

指计算资源,这些资源是基础结构元素(无论是硬件还是软件),通过接收、分析和存储数据来解决问题和创建解决方案。 计算

连续管道

当新数据不间断地到达输入时,连续更新所有表的管道。 请参阅触发与连续管道模式

D

有向无环图 (DAG)

表示工作流或管道中任务之间依赖关系的方法。 DAG 处理模型中,任务表示为有向无环图中的节点,其中边缘表示任务之间的依赖关系。

数据目录

一种元数据管理工具,用于管理数据源,提供有关数据结构、位置和使用情况的信息。 Azure Databricks与外部数据目录集成,以便进行增强的元数据管理。

数据治理

管理数据可用性、完整性和安全性的做法,涉及策略、过程和技术,以确保数据质量和合规性。

数据摄取

将数据从各种源导入、传输、加载和处理到Azure Databricks,以便存储、分析和处理。

数据湖

一种大型存储库,用其原生格式存放大量原始数据,直到需要时为止。

Data Lakehouse

一种数据管理系统,结合数据湖和数据仓库的优势。 数据湖屋为希望避免独立系统处理机器学习 (ML) 和商业智能 (BI) 等不同工作负载的现代组织提供可缩放的存储和处理功能。 数据湖屋可以帮助建立单一事实来源,消除冗余成本,并确保数据新鲜度。 请参阅什么是数据湖仓?

数据分析

监视帐户中所有表中数据的统计属性和质量。 还可以监视包含模型输出和预测的推理表,从而使用该服务跟踪机器学习模型和模型服务终结点的性能。

数据管道

生成、收集、处理数据并将其移动到目标的一系列阶段。 Databricks 有助于创建和管理复杂的数据管道,以进行批量和实时数据处理。

数据隐私

保护个人数据免受未经授权的访问、使用、披露或盗窃的做法。 Azure Databricks强调可靠的数据隐私和安全功能,包括端到端加密、基于角色的访问控制以及遵守主要数据保护法规,以保护敏感信息并确保数据管理。

数据可视化

一种数据管理方法,允许应用程序检索和操作数据,无需有关数据的技术详细信息,例如数据的格式或物理位置。 Azure Databricks可以通过跨不同源无缝访问和分析数据,充当数据虚拟化层的一部分。

数据仓库

指从多个来源收集和存储数据,以便可以快速访问这些数据以获取业务见解和报告。 湖屋架构和 Databricks SQL 为数据湖带来了云数据仓库功能。 请参阅 数据仓库体系结构

数据库目录

表示实例中一个 Postgres 数据库的 Unity Catalog 目录实体。 这在概念上类似于 Unity 目录中的 外国目录

数据库实例

数据库实例管理存储和计算资源,并提供用户连接到的终结点。

Databricks

统一的开放分析平台,用于大规模构建、部署、共享和维护企业级数据、分析和 AI 解决方案。 Databricks Data Intelligence 平台与云帐户中的云存储和安全性集成,并代表你管理和部署云基础结构。 请参阅 什么是 Azure Databricks?

Databricks AI/BI

一种新型商业智能产品,提供对数据语义的理解,可启用自助式数据分析。 AI/BI 基于复合 AI 系统构建,可从 Databricks 平台(包括 ETL 管道、世系和其他查询)中获取数据整个生命周期的见解。 请参阅 Databricks AI/BI

Databricks AI 功能

驱动 Databricks 平台的数据智能引擎。 它是一个复合 AI 系统,其中结合了 AI 模型、检索、排名和个性化系统的使用,以帮助你了解组织数据的语义和使用模式。

Databricks 应用

Azure Databricks功能,使开发人员能够使用Python或 Node.js 框架直接在Azure Databricks平台上生成和部署安全数据和 AI 应用程序。 应用在无服务器计算上运行,并与 Unity 目录、Databricks SQL 和 OAuth 集成。

声明式自动化包

可方便采用数据和 AI 项目的软件工程最佳做法(包括源代码管理、代码评审、测试以及持续集成和交付 (CI/CD))的工具。 捆绑包可将Azure Databricks资源(如作业、管道和笔记本)描述为源文件。 请参阅什么是声明性自动化捆绑包?

Genie Code

基于 AI 的搭档程序员和助手,帮助你在创建笔记本、查询、仪表板和文件时提高效率。 它可以帮助你通过生成、优化、完成、解释和修复代码和查询来快速回答问题。

Databricks CLI

Azure Databricks的命令行界面,使用户能够管理和自动化 Databricks 工作区并部署作业、笔记本和库。 请参阅什么是 Databricks CLI?

Databricks Connect

一个客户端库,允许开发人员将他们喜欢的 IDE、笔记本和其他工具与 Azure Databricks 计算连接,并远程执行 Spark 代码。 请参阅什么是 Databricks Connect?

Databricks 容器服务

Azure Databricks功能,可在创建计算时指定 Docker 映像。 请参阅使用 Databricks 容器服务自定义容器

Databricks 市场

用于交换数据产品的开放论坛。 提供程序必须具有Azure Databricks帐户,但收件人可以是任何人。 市场资产包括数据集、Azure Databricks笔记本、Azure Databricks解决方案加速器和机器学习(AI)模型。 数据集通常作为表格数据的目录提供,但支持以Azure Databricks卷的形式提供非表格数据。

Databricks Runtime

针对大数据分析进行优化的运行时。 Databricks 还提供 Databricks Runtime for Machine Learning,该运行时针对machine learning工作负荷进行优化。 请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks SQL (DBSQL)

为现有数据湖带来数据仓库功能和性能的服务集合。 Databricks SQL 支持开放格式和标准 ANSI SQL。 平台内 SQL 编辑器和仪表板工具允许团队成员直接与工作区中的其他Azure Databricks用户协作。 请参阅 Azure Databricks 上的数据仓库

DBUs

Databricks 单位 (DBU) 是 Databricks Lakehouse 平台上用于度量和定价目的的处理能力标准化单位。 工作负载消耗的 DBU 数量由处理指标驱动,其中可能包括使用的计算资源和处理的数据量。 请参阅 Azure Databricks 组件

Databricks 文件系统 (DBFS)

装载到Azure Databricks工作区并在Azure Databricks计算中可用的分布式文件系统。 Azure Databricks建议使用 Unity 目录卷而不是 DBFS 来管理对非表格数据的访问。 请参阅什么是 DBFS?

数据帧

将数据组织成由行和列组成的二维表格的数据结构,与电子表格非常类似。 数据帧是现代数据分析中最常用的数据结构之一,因为它们能以灵活直观的方式存储和处理数据。 请参阅教程:使用 Apache Spark 数据帧加载和转换数据

数据集 (dataset)

将数据组织和存储在一起的结构化集合,用于分析或处理。 数据集中的数据通常以某种方式相关,并且来自单个源或用于单个项目。

Delta Lake

可以提高数据湖可靠性的开源存储层。 Delta Lake 提供 ACID 事务和可缩放的元数据处理,并可以统一流处理和批数据处理。 请参阅 Azure Databricks 中的 Delta Lake 是什么?

管道

声明性框架,用于生成可靠、可维护且可测试的数据处理管道。 定义您要对数据执行的转换,Lakeflow Spark 声明性管道负责管理任务调度、集群管理、监控、数据质量和错误处理。 请参阅 Lakeflow Spark 声明式管道

管道数据集

流式处理表、具体化视图和作为声明性查询结果维护的视图。

Delta Sharing

使你能够与组织外部的用户共享Azure Databricks中的数据和 AI 资产,无论这些用户是否使用Azure Databricks。 还可以作为用于共享表格数据的开源项目,在Azure Databricks使用它,增加了共享非表格、非结构化数据(卷)、AI 模型、视图、筛选数据和笔记本的功能。 请参阅什么是 Delta Sharing?

Delta 表

Azure Databricks的默认数据表格式,是 Delta Lake open source 数据框架的一项功能。 Delta 表通常用于数据湖,数据通过流式处理或大批量引入。 请参阅 Azure Databricks 表

E

嵌入 (名词)

数据的语义内容的数学表示形式,如文本或图像,以数字向量表示。 嵌入在Azure Databricks中用于矢量搜索、检索扩充生成和其他 AI 应用程序。 与“嵌入”一词不同,例如在 UI 中嵌入仪表板。

ETL(提取、转换、加载)

一种现代数据集成方法,用于从源中提取数据、将数据加载到目标系统中,然后在目标系统中对其进行转换。 请参阅 教程:使用 Lakeflow Spark 声明性管道生成 ETL 管道

外部表

在 Unity 目录中注册的表,其中数据驻留在外部云存储位置。 Unity 目录管理元数据和访问控制,但数据生命周期在Azure Databricks之外进行管理。 请参阅处理外部表

F

功能存储

用于存储、管理和为机器学习模型提供功能的中央存储库。 请参阅 Databricks 特性库

微调

采用预先训练的机器学习模型并在较小的特定于域的数据集上对其进行进一步训练,以优化特定应用程序的性能的过程。 请参阅训练 AI 和 ML 模型

流程

流是在 Lakeflow Spark 声明性管道中读取数据、转换数据并将其写入目标的过程。

外部表

Unity 目录中的只读表,其数据由 Unity 目录外部的目录(例如 AWS Glue 或 Snowflake)管理。 Azure Databricks使用 Lakehouse Federation 检索元数据并从对象存储中读取表。 请参阅 处理外部表

基础模型

预先训练的大型 ML 模型,目的是对其进行微调,以适应更具体的语言理解和生成任务。

G

Genie 代码

专为 Azure Databricks 上的数据工作设计的自动化 AI 合作伙伴。 Genie Code 与 Unity 目录深度集成,提供表、列和世系的上下文感知,以加速复杂的多步骤数据任务。

Genie 空间

Azure Databricks AI/BI 功能,允许业务团队使用自然语言与其数据进行交互。 域专家使用数据集、示例查询和指南配置 Genie 空间,以便 Genie 可以将业务问题转换为 SQL 查询。

生成式 AI

一种人工智能,侧重于计算机使用模型创建图像、文本、代码和综合数据等内容的能力。 生成式 AI 应用程序基于生成式 AI 模型来构建:大型语言模型 (LLM) 和基础模型。 请参阅 Databricks 上的 AI 和机器学习

Git 文件夹

集成到Azure Databricks工作区中的视觉 Git 客户端,为笔记本和文件提供版本控制、协作和 CI/CD 功能。 以前称为Repos。 请参阅 Azure Databricks Git 文件夹

I

推理

使用经过训练的机器学习模型从新输入数据生成预测或输出的过程。 Azure Databricks通过马赛克 AI 模型服务支持实时和批量推理。

init 脚本

在启动Azure Databricks计算资源期间运行的 shell 脚本。 Init 脚本可以安装包、修改配置或设置环境变量。 请参阅什么是 init 脚本?

J

作业

用于在Azure Databricks上计划和协调生产工作负荷的主要单元。 一个作业由一个或多个任务组成。 请参阅 Lakeflow Jobs

L

Lakeflow Connect

提供内置连接器用于从企业应用程序和数据库引入数据。 生成的引入管道由 Unity 目录管理,由无服务器计算和 Lakeflow Spark 声明性管道提供支持。

数据湖屋联合

用于Azure Databricks的查询联合平台。 术语“查询联合”是指一系列功能,它们使用户和系统能够针对多个数据源运行查询,而无需将所有数据迁移到一个统一的系统。 Azure Databricks 使用 Unity Catalog 来管理查询联合。 请参阅“什么是 Lakehouse Federation?”。

Lakebase

Azure Databricks Lakebase 是与 Lakehouse 集成的 OLTP 数据库。 联机事务处理(OLTP)数据库是一种专用型数据库系统,旨在高效处理大量实时事务数据。 Lakebase 允许你在 Azure Databricks 上创建 OLTP 数据库,并将 OLTP 工作负载引入 Lakehouse。

Lakebase 端点

Lakebase 终结点是 Lakebase Postgres 数据库的主要数据库访问点。 每个终结点由唯一的终结点 ID 标识,并在单个云区域中运行。 终结点可以配置为单个计算实例,也可以配置为高可用性模式,在该模式下,主计算实例与一个或多个辅助计算实例配对以实现自动故障转移。 可以通过终结点的连接字符串连接到数据库。

大型语言模型 (LLM)

一种自然语言处理 (NLP) 模型,设计用于回答开放式问题、聊天、内容摘要、执行近乎任意的指令、翻译以及内容和代码生成等任务。 LLM 使用高级机器学习算法,通过海量数据集进行训练,以学习人类语言的模式和结构。

群集上运行的笔记本或作业可使用的代码包。 Databricks 运行时包含许多库,你也可以上传自己的库。 请参阅 “安装库”。

液体聚类分析

Azure Databricks 的 Delta 表和 Iceberg 表数据布局优化功能:基于指定列对数据进行增量聚类,以提高查询性能。 与传统分区不同,液体聚类分析适应不断变化的数据模式。 请参阅对表使用 liquid 聚类分析

M

托管表

一个表,其数据文件和元数据均由 Unity 目录完全管理。 托管表始终以 Delta 或 Iceberg 格式存储,并通过预测优化从自动维护中受益。 请参阅 Azure Databricks 中的 Delta Lake 和 Apache Iceberg 的 Unity Catalog 托管表

具体化视图

一种已预先计算和存储的视图,以便能以较低的延迟或重复进行查询,而无需进行冗余计算。 请参阅 具体化视图

奖牌体系结构

一种数据设计模式,用于在 Lakehouse 架构中以逻辑方式组织数据,其目标是在数据流经每一层(从铜层到银层再到金层)时,逐步和渐进地提升数据结构和质量。 什么是Medallion Lakehouse架构?

元数据存储

用于存储数据仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息、读取和写入数据所需的序列化器和去序列化器,以及用于存储数据的相应文件。 请参阅元存储

指标视图

Unity Catalog 对象,提供一种集中的方式来定义和管理可重用的业务指标。 指标视图将度量值定义与维度分组分开,使你可以定义一次指标,并在任何维度上灵活查询指标。 请参阅 Unity 目录指标视图

MLflow

最大的开源人工智能工程平台,适用于代理、LLM 和 ML 模型。 MLflow 使所有规模的团队都可以调试、评估、监视和优化其 AI 应用程序,同时控制成本和管理对模型和数据的访问权限。 Azure Databricks上的 MLflow 是一项完全托管的服务,它为企业客户提供附加功能,提供可缩放且安全的 MLflow 托管部署。 请参阅 Databricks 上的 MLflow

MLflow 跟踪

适用于 GenAI 的 MLflow 功能,通过记录 AI 代理或应用程序执行的每个步骤来提供端到端可观测性。 使用 MLflow 跟踪在开发和生产中调试、监视和审核代理行为。

模型上下文协议 (MCP)

一种开源标准,通过标准化接口将 AI 代理连接到工具、资源、提示和其他上下文信息。 Azure Databricks提供托管、外部和自定义 MCP 服务器。

模型训练

使用许多常用的开源库在Azure Databricks上训练机器学习和深度学习模型的过程。 请参阅训练 AI 和 ML 模型

Mosaic 人工智能

提供统一的工具,用于生成、部署、评估和治理 AI 和 ML 解决方案,从生成预测 ML 模型到最新的生成 AI 应用。 请参阅 Databricks 上的 AI 和机器学习

Mosaic AI 模型服务

用于部署、治理和查询 AI 模型的统一界面,以实现实时和批量推理。

Mosaic AI 模型训练

该功能允许使用自己的数据自定义基础模型,以优化其在特定应用程序中的性能。 通过执行全参数微调或继续训练基础模型,可以使用比从头开始训练模型少得多的数据、时间和计算资源来训练自己的模型。

Mosaic AI 矢量搜索

一个矢量搜索索引,内置于 Databricks 数据智能平台中,并与其治理和生产力工具集成。

N

笔记本

数据科学家和工程师用来在同一文档中编写和执行多种语言(例如,Python、Scala、SQL)的代码的交互式 Web 界面。 请参阅 Databricks 笔记本

O

OAuth

OAuth 是访问授权的开放标准,通常用作互联网用户在不提供密码的情况下授权网站或应用程序访问其在其他网站上的信息的方式。 请参阅 授权访问 Azure Databricks 资源

P

合作伙伴连接

一种 Databricks 计划,提供由独立软件供应商维护的集成,可以连接到大多数企业数据系统。

个人访问令牌 (PAT)

在访问计算机系统时用于验证用户身份的一串字符,不是密码。 请参阅 授权访问 Azure Databricks 资源

光子

一种高性能 Databricks 原生矢量化查询引擎,可更快地运行 SQL 工作负载和数据帧 API 调用,以减少每个工作负载的总成本。 Photon 与 Apache Spark API 兼容,因此它适用于现有代码。 请参阅什么是 Photon?

预测优化

Azure Databricks功能,可自动识别和运行 Unity 目录托管表上的维护操作,以提高查询性能和降低存储成本。

管道

由表、视图、具体化视图、流和接收器组成的 DAG 按照系统确定的依赖顺序懒惰地更新。

R

检索增强生成 (RAG)

一种技术,确保大型语言模型 (LLM) 能够使用从外部信息源检索到的支持数据,以增强用户提示,从而生成经过扩充的响应。 通过合并检索到的这些信息,RAG 使 LLM 能够生成更准确、更高质量的响应,而不是使用额外的上下文来增强提示。

S

schema (Unity Catalog)

Unity Catalog 中一个目录的子项,可以包含表、视图、卷、模型和函数。 架构是 Unity Catalog 的三级命名空间 (catalog.schema.table-etc) 的第二级。 请参阅什么是 Unity Catalog?

无服务器计算

Azure Databricks管理的计算可减少管理开销,并提供即时计算来提高用户工作效率。 请参阅连接到无服务器计算

服务主体

创建用于自动化工具、运行作业和应用程序的标识。 可以使用权限限制服务主体对资源的访问,就像Azure Databricks用户一样。 与Azure Databricks用户不同,服务主体是仅限 API 的标识;它无法直接访问 Azure Databricks UI 或 Databricks CLI。 请参阅 服务主体

汇聚(管道)

接收器是写入外部系统的流的目标(例如 Kafka、Kinesis、Delta)。

SQL 仓库

一种计算资源,可用于查询和浏览有关Azure Databricks的数据。 请参阅连接到 SQL 仓库

流处理

一种数据处理方式,可以针对未绑定且持续增长的数据集来定义查询,然后以小型增量批次来批处理数据。 Azure Databricks流处理使用结构化流式处理。 请参阅结构化流式处理概念

流媒体

流式处理是指通过互联网传送到计算机和移动设备并实时播放的任何媒体内容(即实时或录制的数据流)。 请参阅结构化流式处理概念

流式分析

分析由不同源持续生成的数据的过程。 Azure Databricks支持结构化流处理,允许处理和分析实时数据以获取实时见解。

结构化流

基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,支持流式处理查询的复杂计算。 请参阅结构化流式处理概念

流数据表

向其写入数据流的托管表。 请参阅流式处理表

系统表

由 Azure Databricks 托管的您的帐户操作数据的分析数据存储,例如审核日志、计费使用情况和数据血缘。 在 Unity Catalog 中的 system 目录中可以找到系统表。

同步表

同步表是一个 Unity 目录只读 Postgres 表,它自动将数据从 Unity 目录表同步到数据库实例。

T

桌子

表驻留在架构中,包含数据行。 默认情况下,在 Databricks 中创建的所有表都使用 Delta Lake。 由 Delta Lake 支持的表也称为 Delta 表。 请参阅 Azure Databricks 表

触发管道

一种管道,用于引入每个表在更新开始时可用的所有数据,并按依赖项顺序运行,然后终止。 请参阅触发与连续管道模式

U

用户定义的函数 (UDF)

由用户创建的自定义函数,用于扩展 SQL 或编程语言的内置功能。 在 Azure Databricks 中,可以在 Unity 目录中注册 UDF,以便在工作区之间进行治理和重复使用。 请参阅什么是用户定义函数 (UDF)?

Unity 目录

Azure Databricks功能,跨Azure Databricks工作区提供集中访问控制、审核、世系和数据发现功能。 请参阅什么是 Unity Catalog?

V

矢量数据库

经过优化的数据库,可存储和检索嵌入。 嵌入是数据(通常是文本或图像数据)语义内容的数学表示。 Databricks 提供了一个矢量搜索索引,可用于在 Delta 表上使用矢量数据库功能。

视图

由 SQL 查询定义的虚拟表。 本身并不存储数据,而是提供一种以特定格式或抽象形式呈现来自一个或多个表的数据的方法。 请参阅什么是视图?

卷 (Unity Catalog)

支持对非表格数据集进行治理的 Unity Catalog 对象。 卷表示云对象存储位置的存储逻辑卷。 卷提供用于访问、存储、治理和组织文件的功能。 请参阅什么是 Unity Catalog 卷?

W

Lakeflow 作业

一组工具,可用于在Azure Databricks上计划和安排数据处理任务。 请参阅 Lakeflow Jobs

工作负载

执行一项任务或一组任务所需的处理能力量。 Azure Databricks标识两种类型的工作负荷:数据工程(作业)和数据分析(全用途)。 请参阅 Azure Databricks 组件

工作区

允许 Databricks 用户开发、浏览和共享对象(例如笔记本、试验、查询和仪表板)的组织环境。 请参阅 工作区 UI