2024 年 7 月

这些功能和 Azure Databricks 平台的改进已于 2024 年 7 月发布。

注意

下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。

其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。

注意

发布分阶段进行。 Azure Databricks 帐户可能要等到初始发布日期后的一周或更长时间才会更新。

同时任务的限制增加

2024 年 7 月 31 日

同时运行的任务的工作区限制已提高到 2000。 请参阅资源限制

在笔记本中嵌入和拖放图像

2024 年 7 月 31 日

现在可以通过在 markdown 单元格中直接嵌入图像来在笔记本中显示图像。 将图像从桌面直接拖放到 markdown 单元格以自动上传和显示它们。 请参阅显示图像拖放图像

笔记本中提供的命令面板

2024 年 7 月 31 日

现在可以使用命令面板在笔记本中快速执行操作。 在笔记本中按 Cmd + Shift + P (MacOS) 或 Ctrl + Shift + P (Windows) 可访问常用操作。 请参阅命令面板

工作流系统架构已重命名为 lakeflow

2024 年 7 月 31 日

workflow 架构正在更新为 lakeflow。 建议切换到 lakeflow,因为它将包括所有当前表和将来的新表,如管道。 客户必须选择加入 lakeflow 架构才能使其在其元存储中可见。

LakeFlow Connect(封闭的公共预览版)

2024 年 7 月 31 日

LakeFlow Connect 提供本机连接器,使你能够从数据库和企业应用程序引入数据,并将其载入 Azure Databricks。 LakeFlow Connect 利用高效的增量读写来使数据引入变得更快、更具可伸缩性、更具经济效益,同时使数据保持新鲜以供下游使用。

目前支持 Salesforce Sales Cloud、Azure SQL 数据库、Amazon RDS for SQL Server 和 Workday。

对 Cloudflare R2 存储的支持已推出正式版

2024 年 7 月 30 日

将 Cloudflare R2 用作 Unity Catalog 中注册数据的云存储的功能现已推出正式版。 Cloudflare R2 主要用于下述 Delta Sharing 用例:当数据跨区域传输时,你希望避免云提供商收取数据流出量费用。 R2 存储支持 AWS S3、Azure Data Lake Storage Gen2 和 Google Cloud Storage 中支持的所有 Databricks 数据和 AI 资产。 对 R2 的支持需要 SQL 仓库或 Databricks Runtime 14.3 或更高版本。 请参阅使用 Cloudflare R2 副本或将存储迁移到 R2创建用于连接到 Cloudflare R2 的存储凭据

使用系统表监视 Databricks 助手活动(公共预览版)

2024 年 7 月 30 日

现在可以使用系统表在仪表板中监视 Databricks 助手活动。

使用 Delta Sharing 共享架构的功能现已推出正式版

2024 年 7 月 30 日

使用 Delta Sharing 共享架构的功能现已推出正式版。 共享整个架构可让接收者能够在你共享架构后立即访问该架构中的所有表和视图,以及将来添加到该架构的任何表和视图。 使用 SQL 命令将架构添加到共享需要 SQL 仓库,或者运行 Databricks Runtime 13.2 或更高版本的集群。 使用目录资源管理器执行相同操作没有计算要求。 请参阅向共享添加架构

Mosaic AI 代理框架在 northcentralchinaeast2 中可用

2024 年 7 月 29 日

Mosaic AI 代理框架现已在 northcentralchinaeast2 区域中提供。 请参阅区域可用性受限的功能

Databricks 助手可以诊断作业问题(公共预览版)

2024 年 7 月 29 日

Databricks 助手现在可以诊断失败作业的问题。

Databricks Git 文件夹身份验证和共享行为更新

2024 年 7 月 29 日

  • Git 文件夹基于对话框的身份验证处理:现在简化了用户体验,以帮助用户在打开 Git 文件夹对话框时从身份验证错误中恢复。 在对话框中,可以直接更新 Git 凭据,这会触发自动重试。 可以使用此方法来帮助解决身份验证错误。
    • 发生身份验证错误时,Git 文件夹对话框现在会在错误中显示 Git 文件夹的提供程序和 URL。 这在以前是隐藏的,因此很难知道应使用哪个 Git 凭据来解决错误。
  • Git 文件夹共享:用户现在可以与其他工作区用户共享 URL 链接。 在接收者的浏览器中打开 URL 后,Databricks 会打开并启动现有的“添加 Git 文件夹”对话框,其中已预填充值(例如 Git 提供程序和 Git 存储库 URL)。 这简化了工作区用户中常用 Git 存储库的 Git 文件夹克隆。 有关更多详细信息,请参阅最佳做法:在 Git 文件夹中协作
    • 现在,系统会提示用户在自己的工作区中创建自己的 Git 文件夹,而不是在其他用户的 Git 文件夹中进行协作。
    • Git 文件夹对话框状态现在会保留在你的 URL 中。 如果在打开 Git 文件夹对话框时从浏览器复制 URL,则它可以稍后打开或与其他用户共享,显示的信息将会是相同的。
  • Git 文件夹差异视图:在 Git 文件夹差异视图中,添加了用于替换文本和多行更改的深红色和绿色高亮,使确定未提交的更改中更改的内容变得更轻松。
    • 从笔记本或文件编辑器中打开 Git 文件夹对话框时,会选择 Git 文件夹对话框中的笔记本或文件,并默认显示更改(差异)。

群集库安装超时

2024 年 7 月 29 日

群集上的库安装现在有 2 小时的超时。 安装时间超过 2 小时的库会被标记为失败。 有关群集库的信息,请参阅群集库

必须将计算平面出站 IP 地址添加到工作区 IP 允许列表

2024 年 7 月 29 日

在新的工作区上配置安全群集连接和 IP 访问列表时,必须将计算平面用来访问控制平面的所有公共 IP 添加到允许列表,或者配置后端专用链接。 此更改将于 2024 年 7 月 29 日影响所有新的工作区,将于 2024 年 8 月 26 日影响现有工作区。 有关详细信息,请参阅此 Databricks Community 帖子

例如,如果你在使用 VNet 注入的工作区上启用安全群集连接,则 Databricks 会建议你为工作区使用一个稳定的出口公共 IP。 该公共 IP 和任何其他 IP 都必须包含在允许列表中。 请参阅使用安全群集连接时的出口 IP 地址。 或者,如果你使用 Azure Databricks 托管 VNet 并将托管 NAT 网关配置为访问公共 IP,则必须将这些 IP 加入允许列表。

请参阅配置工作区的 IP 访问列表

Databricks Runtime 9.1 系列支持期已延长

2024 年 7 月 26 日

Databricks Runtime 9.1 LTS 和用于机器学习的 Databricks Runtime 9.1 LTS 支持期已从 2024 年 9 月 23 日延长至 2024 年 12 月 19 日。

Lakehouse Federation for SQL Server 支持单一登录 (SSO)

2024 年 7 月 25 日

Unity Catalog 现在允许你创建使用 SSO 身份验证的 SQL Server 连接。 请参阅在 Microsoft SQL Server 上运行联合查询

使用 Delta Sharing 的模型共享现已正式发布

2024 年 7 月 26 日

对 AI 模型共享的增量共享支持现已正式发布。 必须为 Unity Catalog 启用提供商和收件人工作区才能,并且必须在 Unity Catalog 中注册模型。

请参阅将模型添加到共享

使用 Delta Sharing 共享注释和主键约束

2024 年 7 月 25 日

增量共享现在支持共享对象元数据,包括注释和主键约束:

  • 模型注释和模型版本注释包含在 Databricks 对 Databricks 共享中已有一段时间,但尚未公布。

  • 表注释、列注释、主键约束和卷注释现在已包含在 Databricks 对 Databricks 共享中,已在 2024 年 7 月 25 日或 2024 年 7 月 25 日之后与收件人共享了这些共享。

    如果要在该日期之前与收件人共享的共享中包含注释或约束,则必须撤销并重新授予收件人访问权限,以触发注释和约束共享。

请参阅创建和管理 Delta Sharing 的共享

新的 Databricks JDBC 驱动程序 (OSS)

2024 年 7 月 25 日

新的开源 Databricks JDBC 驱动程序已发布公共预览版。 此驱动程序已实现 JDBC API,并提供其他核心功能,包括 OAuth、Cloud Fetch 以及 Unity Catalog 卷引入等功能。 有关详细信息,请参阅 Databricks JDBC 驱动程序 (OSS)

Databricks Runtime 15.4 LTS(Beta 版本)

2024 年 7 月 23 日

Databricks Runtime 15.4 LTS 和 Databricks Runtime 15.4 LTS ML 现已作为 Beta 版本提供。

请参阅 Databricks Runtime 15.4 LTS适用于机器学习的 Databricks Runtime 15.4 LTS

Scala 在 Unity Catalog 共享计算上为正式发布版

2024 年 7 月 23 日

在 Databricks Runtime 15.4 LTS 和更高版本中,Scala 通常可在支持共享访问模式 Unity Catalog 的计算上使用,其中包括对标量用户定义函数 (UDF) 的支持。 不支持结构化流式处理、Hive UDF 和 Hive 用户定义聚合函数。 有关限制的完整列表,请参阅 Unity Catalog 的计算访问模式限制

单用户计算支持精细访问控制、具体化视图和流式处理表

2024 年 7 月 23 日

只要为工作区启用了无服务器计算,Databricks Runtime 15.4 LTS 就支持对单用户计算的精细访问控制。 当查询访问以下任何项时,Databricks Runtime 15.4 LTS 上的单用户计算资源会将查询传递给无服务器计算以运行数据筛选:

  • 基于用户不具有 SELECT 特权的表构建的视图
  • 动态视图
  • 应用了行筛选器或列掩码的表
  • 具体化视图和流式处理表

在 Databricks Runtime 15.3 及更低版本上运行的单用户计算不支持这些查询。

有关详细信息,请参阅单用户计算上的精细访问控制

现已推出节点时间线系统表(公共预览版)

2024 年 7 月 23 日

system.compute 架构现在包括一个 node_timeline 表。 此表记录了你的帐户中运行的通用和作业计算资源的每分钟利用率指标。

注意

若要访问此表,管理员必须启用 compute 架构(如果尚未启用)。

模型服务现已支持 Meta Llama 3.1

2024 年 7 月 23 日

Mosaic AI 模型服务已与 Meta 合作,支持 Meta Llama 3.1,这是由 Meta 构建和训练并由 Azure 机器学习使用 AzureML 模型目录分发的模型体系结构。 Llama 3.1 作为基础模型 API 的一部分受支持。 请参阅使用基础模型 API。

  • Meta-Llama-3.1-405B-Instruct 和 Meta-Llama-3.1-70B-Instruct 在按标记付费的服务终结点区域中可用。
  • 在美国,可以使用预配的吞吐量将 Llama 3.1 模型(8B、70B 和 405B)的完整套件用于生产。

从 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 支持取代对 Meta-Llama-3-70B-Instruct 的支持,这些终结点按令牌付费。

笔记本:切换更具可见性的单元格标题

2024 年 7 月 18 日

用户可以在开发人员设置中启用“显示提升的单元格标题”,以使笔记本单元格标题在 UI 中更具可见性。 请参阅提升的单元格标题

工作区资产名称中的 / 已弃用

2024 年 7 月 17 日

为了避免路径字符串中出现歧义,已在新工作区资产(例如笔记本、文件夹和查询)的名称中弃用“/”。 名称中带有“/”的现有资产不受影响,但现有资产的重命名将遵循与新资产相同的规则。

增量共享允许共享使用 liquid 聚类分析的表

2024 年 7 月 16 日

Delta Sharing 现在让你能够共享启用了 liquid 聚类分析的表,并且收件人可针对这些表运行批处理查询。 Liquid 聚类分析可简化数据布局决策并优化查询性能。 请参阅对 Delta 表使用 liquid 聚类分析Delta Lake 功能支持矩阵

现已推出查询历史记录系统表(公共预览版)

2024 年 7 月 16 日

Azure Databricks 系统表现在包括查询历史记录表。 此表记录了帐户中在 SQL 仓库上运行的每个查询的详细记录。 若要访问表,管理员必须启用新的 query 系统架构。

漏洞扫描报告现在会通过电子邮件发送给管理员

2024 年 7 月 16 日

漏洞扫描报告现在通过电子邮件发送给启用了增强的安全性监视的工作区中的工作区管理员。 以前,工作区管理员必须从 Azure Databricks 请求这些报告。

Unity 目录外部表的分区元数据记录

2024 年 7 月 15 日

在 Databricks Runtime 13.3 LTS 及更高版本中,你还可以选择为注册到 Unity Catalog 且使用 Parquet、ORC、CSV 或 JSON 的外部表启用分区元数据日志记录。 分区元数据日志记录是一种与 Hive 元存储一致的分区发现策略。 请参阅外部表的分区发现

适用于工作流的无服务器计算现已正式发布

2024 年 7 月 15 日

适用于工作流的无服务器计算现已正式发布。 工作流的无服务器计算允许在不配置和部署基础结构的情况下运行 Azure Databricks 作业。 使用适用于工作流的无服务器计算,Azure Databricks 可高效管理运行作业的计算资源,包括优化和缩放工作负载的计算。

适用于笔记本的无服务器计算现已正式发布

2024 年 7 月 15 日

适用于笔记本的无服务器计算现已正式发布。 适用于笔记本的无服务器计算使你能够按需访问笔记本中的可缩放计算,从而立即编写和运行 Python 或 SQL 代码。

Databricks Connect for Python 现在支持无服务器计算

2024 年 7 月 15 日

Databricks Connect for Python 现在支持连接到无服务器计算。 此功能目前以公共预览版提供。 请参阅配置与无服务器计算的连接

使用自然语言提示筛选数据输出

2024 年 7 月 11 日

现在可以使用 Databricks 助手通过自然语言提示筛选数据输出。 例如,若要筛选泰坦尼克号幸存者数据表,你可以键入“只显示 70 岁以上的男性”

对外部模型的纯文本机密支持

2024 年 7 月 11 日

现在可以将 API 密钥作为纯文本字符串直接输入,以便为托管外部模型的服务终结点建模。

使用 ai_forecast() 预测时序数据

2024 年 7 月 11 日

AI Functions 现在支持 ai_forecast()。后者是新的 Databricks SQL 函数,适合分析师和数据科学家使用,用于将时序数据推断到将来。

对包含多语句 SQL 查询的文件的 SQL 文件任务支持已正式发布

2024 年 7 月 10 日

对 SQL 文件任务使用包含多语句 SQL 查询的文件的支持现已正式发布。 通过此更改,可从单个文件运行多个 SQL 语句。 以前,需要为每个语句添加一个单独的文件。 要详细了解 SQL 文件任务,请参阅作业的 SQL 任务

Lakehouse Federation 支持 Salesforce Data Cloud(公共预览版)

2024 年 7 月 10 日

现在可以对 Salesforce Data Cloud 托管的数据运行联合查询。

Databricks 助手系统表现已推出(公共预览版)

2024 年 7 月 10 日

Databricks 助手事件现在记录在位于 system.access.assistant_events 的系统表中。

帐户 SCIM API v2.1(公共预览版)

2024 年 7 月 10 日

帐户 SCIM API 从 v2.0 更新到 v2.1,提升了速度和可靠性。 可以下载 PDF 版的帐户 SCIM v2.1 API 参考

每个 Unity 目录元存储都为表增加了资源配额

2024 年 7 月 3 日

Unity 目录元存储现在可以注册最多 100 万个表。 请参阅资源配额

Databricks 助手可以自动诊断笔记本错误

2024 年 7 月 2 日

Databricks 助手现在可以在检测到错误消息时自动在笔记本中运行 /fix。 助手使用生成式 AI 分析代码和错误消息,以直接在笔记本中建议修正。

对具有 SQL 文件任务的 :param 语法的支持已正式发布

2024 年 7 月 1 日

对 Azure Databricks 作业 SQL 文件任务中的参数化查询使用 :param 语法这一支持现已正式发布。 现在可以通过在查询参数名称前加上冒号 (:parameter_name) 来引用查询参数。 此语法是对现有双大括号 ({{parameter_name}}) 语法支持的补充。 要详细了解如何将参数化查询与 SQL 文件任务配合使用,请参阅配置任务参数