2020 年 7 月
这些功能和 Azure Databricks 平台的改进已于 2020 年 7 月发布。
注意
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
Web 终端(公共预览版)
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
Web 终端为具有群集上的“可附加到”权限的用户提供一种便捷且高度交互的方式来运行 shell 命令,包括 Vim 或 Emacs 等编辑器。 使用 Web 终端的示例包括监视资源使用情况和安装 Linux 包。
有关详细信息,请参阅在 Azure Databricks Web 终端中运行 Shell 命令。
新的更安全的全局初始化脚本框架(公共预览版)
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
新的全局 init 脚本框架相对于旧的全局 init 脚本进行了重大改进:
- Init 脚本更安全,需要管理员权限才能执行创建、查看和删除操作。
- 记录与脚本相关的启动失败。
- 可以设置多个 init 脚本的执行顺序。
- Init 脚本可以引用与群集相关的环境变量。
- 可以使用管理员设置页眉或新的全局 Init 脚本 REST API 创建和管理 init 脚本。
Databricks 建议将现有的旧版全局 init 脚本迁移到新框架,以利用这些改进。
有关详细信息,请参阅使用全局初始化脚本。
IP 访问列表现已正式发布
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
IP 访问列表 API 现以正式版提供。
正式版包含一项更改,即重命名 list_type
值:
WHITELIST
至ALLOW
BLACKLIST
至BLOCK
使用 IP 访问列表 API 配置 Azure Databricks 工作区,以便用户只通过具有安全外围的现有企业网络连接到服务。 Azure Databricks 管理员可以使用 IP 访问列表 API 来定义一组已获批准的 IP 地址,包括允许列表和阻止列表。 对 Web 应用程序和 REST API 的所有传入访问均要求用户从经授权的 IP 地址进行连接,从而确保用户只有使用 VPN 才能从咖啡店或机场等公共网络访问工作区。
此功能需要高级计划。
有关详细信息,请参阅配置工作区的 IP 访问列表。
新的“文件上传”对话框
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
现在,可以上传小型表格数据文件(例如 CSV),并通过笔记本访问它们,方法是从笔记本“文件”菜单选择“上传数据”。 生成的代码演示如何将数据加载到 Pandas 或 DataFrames 中。 管理员可以在管理控制台的“高级”选项卡上禁用此功能。
有关详细信息,请参阅浏览 DBFS 中的文件。
对 SCIM API 筛选器和排序的改进
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
SCIM API 现在包含以下筛选和排序改进:
- 管理员用户可根据
active
属性筛选用户。 - 所有用户均可使用
sortBy
和sortOrder
查询参数对结果进行排序。 默认选择“按 ID 排序”。
添加了 Azure 政府区域
2020 年 7 月 25 日
最近,我们在 US Gov 亚利桑那州和 US Gov 弗吉尼亚州地区为美国政府实体及其合作伙伴提供了 Azure Databricks。
Databricks Runtime 7.1 正式版
2020 年 7 月 21 日
在 Databricks Runtime 7.0 的基础上,Databricks Runtime 7.1 引入了许多额外的功能和改进,包括:
- Google BigQuery 连接器
%pip
命令用于管理在笔记本会话中安装的 Python 库- 已安装 Koalas
- 很多 Delta Lake 改进,包括:
- 设置用户定义的提交元数据
- 获取由当前
SparkSession
编写的最后一个提交的版本 - 使用
_spark_metadata
事务日志转换结构化流式处理创建的 Parquet 表 MERGE INTO
性能改进
有关详细信息,请参阅完整的 Databricks Runtime 7.1 (EoS) 发行说明。
Databricks Runtime 7.1 ML 正式版
2020 年 7 月 21 日
用于机器学习的 Databricks Runtime 7.1 基于 Databricks Runtime 7.1 构建,并引入了以下新功能和库更改:
- 默认启用 pip 和 conda magic 命令
- spark-tensorflow-distributor:0.1.0
- pillow 7.0.0 -> 7.1.0
- pytorch 1.5.0 -> 1.5.1
- torchvision 0.6.0 -> 0.6.1
- horovod 0.19.1 -> 0.19.5
- mlflow 1.8.0 -> 1.9.1
有关详细信息,请参阅完整的用于 ML 的 Databricks Runtime 7.1 (EoS) 发行说明。
Databricks Runtime 7.1 基因组学正式版
2020 年 7 月 21 日
用于基因组学的 Databricks Runtime 7.1 基于 Databricks Runtime 7.1 构建,并引入了以下新功能:
- LOCO 转换
- GloWGR 输出重塑函数
- RNASeq 输出不成对对齐
Databricks Connect 7.1(公共预览版)
2020 年 7 月 17 日
Databricks Connect 7.1 现以公共预览版提供。
IP 访问列表 API 更新
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
以下 IP 访问列表 API 属性已更改:
updator_user_id
至updated_by
creator_user_id
至created_by
Python 笔记本现在支持每个单元格多个输出
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
Python 笔记本现在支持每个单元格有多个输出。 这意味着一个单元格中可以有任意数量的 display、displayHTML 或 print 语句。 利用该功能,可以在同一单元格中查看原始数据和绘图,或查看在遇到错误之前成功打印的所有输出。
此功能需要 Databricks Runtime 7.1 或更高版本,并且在 Databricks Runtime 7.1 中默认处于禁用状态。 可以通过设置 spark.databricks.workspace.multipleResults.enabled true
来启用它。
并排查看笔记本代码和结果单元格
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
使用新的“并排”笔记本显示选项,可以查看彼此相邻的代码和结果。 此显示选项将“标准”选项(以前称为“代码”)和“仅结果”选项结合在一起。
暂停作业计划
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现在,作业计划具有“暂停”和“取消暂停”按钮,使用这些按钮可以轻松地暂停和恢复作业 。 现在,你可以对作业计划进行更改,进行更改时不会启动额外的作业运行。 当前运行及由“立即运行”触发的运行不受影响。 有关详细信息,请参阅暂停和恢复作业计划。
作业 API 终结点验证运行 ID
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
jobs/runs/cancel
和 jobs/runs/output
API 终结点现在会验证相应 run_id
参数是否有效。 对于无效参数,这些 API 终结点现在返回 HTTP 状态代码 400,而不是代码 500。
Microsoft Entra ID 令牌向 Databricks REST API GA 授权
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现已正式推出使用 Microsoft Entra ID 令牌向工作区 API 进行身份验证的功能。 使用 Microsoft Entra ID 令牌,可以对新工作区的创建和设置进行自动化。 服务主体是 Microsoft Entra ID 中的应用程序对象。 还可以使用 Azure Databricks 工作区中的服务主体自动执行工作流。 有关详细信息,请参阅 Azure Databricks 工具和 API 的身份验证。
自动设置笔记本中的 SQL 格式
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现在可以通过键盘快捷方式、命令上下文菜单和笔记本“编辑”菜单(选择“编辑”>“格式化 SQL 单元格”)来格式化 SQL 笔记本单元格。 通过 SQL 格式设置,可以轻松读取和维护代码。 它适用于 SQL 笔记本以及 %sql
单元格。
关于 Maven 和 CRAN 库安装的可重现顺序
2020 年 7 月 1 日 - 9 日:版本 3.23
Azure Databricks 按照在群集上安装 Maven 和 CRAN 库的顺序对其进行处理。
使用令牌管理 API(公共预览版)控制用户的个人访问令牌
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,Azure Databricks 管理员可以使用令牌管理 API 来管理其用户的 Azure Databricks 个人访问令牌:
- 监视和撤销用户的个人访问令牌。
- 控制工作区中未来令牌的生存期。
- 控制哪些用户可以创建和使用令牌。
还原剪切的笔记本单元
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,可以使用 (Z
) 键盘快捷方式或选择“编辑”>“撤消已剪切的单元格”来还原已剪切的笔记本单元格。 此功能类似于撤消已删除单元格的功能。
向非管理员用户分配作业“可管理”权限
2020 年 7 月 1 日 - 9 日:版本 3.23
现在可以向非管理员用户和组分配作业的“可管理”权限。 此权限级别允许用户管理作业上的所有设置,包括分配权限、更改所有者和更改群集配置(例如,添加库和修改群集规范)。 请参阅控制对作业的访问。
非管理员 Azure Databricks 用户可以使用 SCIM API 按用户名查看和筛选
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,非管理员用户可以使用 SCIM/用户终结点查看用户名并按用户名筛选用户。
用于在查看作业运行详细信息时查看群集规范的链接
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,查看作业运行的详细信息时,可以单击指向群集配置页面的链接,以查看群集规范。 以前,必须从 URL 复制作业 ID,然后转到群集列表中进行搜索。