2020 年 7 月
这些功能和 Azure Databricks 平台的改进已于 2020 年 7 月发布。
注意
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
Web 终端(公共预览版)
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
Web 终端为具有群集上的“可附加到”权限的用户提供一种便捷且高度交互的方式来运行 shell 命令,包括 Vim 或 Emacs 等编辑器。 使用 Web 终端的示例包括监视资源使用情况和安装 Linux 包。
有关详细信息,请参阅在 Azure Databricks Web 终端中运行 Shell 命令。
新的更安全的全局初始化脚本框架(公共预览版)
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
新的全局 init 脚本框架相对于旧的全局 init 脚本进行了重大改进:
- Init 脚本更安全,需要管理员权限才能执行创建、查看和删除操作。
- 记录与脚本相关的启动失败。
- 可以设置多个 init 脚本的执行顺序。
- Init 脚本可以引用与群集相关的环境变量。
- 可以使用管理员设置页眉或新的全局 Init 脚本 REST API 创建和管理 init 脚本。
Databricks 建议将现有的旧版全局 init 脚本迁移到新框架,以利用这些改进。
有关详细信息,请参阅使用全局初始化脚本。
IP 访问列表现已正式发布
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
IP 访问列表 API 现以正式版提供。
正式版包含一项更改,即重命名 list_type
值:
WHITELIST
至ALLOW
BLACKLIST
至BLOCK
使用 IP 访问列表 API 配置 Azure Databricks 工作区,以便用户只通过具有安全外围的现有企业网络连接到服务。 Azure Databricks 管理员可以使用 IP 访问列表 API 来定义一组已获批准的 IP 地址,包括允许列表和阻止列表。 对 Web 应用程序和 REST API 的所有传入访问均要求用户从经授权的 IP 地址进行连接,从而确保用户只有使用 VPN 才能从咖啡店或机场等公共网络访问工作区。
此功能需要高级计划。
有关详细信息,请参阅配置工作区的 IP 访问列表。
新的“文件上传”对话框
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
现在,可以上传小型表格数据文件(例如 CSV),并通过笔记本访问它们,方法是从笔记本“文件”菜单选择“上传数据”。 生成的代码演示如何将数据加载到 Pandas 或 DataFrames 中。 管理员可以在管理控制台的“高级”选项卡上禁用此功能。
有关详细信息,请参阅浏览 DBFS 中的文件。
对 SCIM API 筛选器和排序的改进
2020 年 7 月 29 日 - 8 月 4 日:版本 3.25
SCIM API 现在包含以下筛选和排序改进:
- 管理员用户可根据
active
属性筛选用户。 - 所有用户均可使用
sortBy
和sortOrder
查询参数对结果进行排序。 默认选择“按 ID 排序”。
添加了 Azure 政府区域
2020 年 7 月 25 日
最近,我们在 US Gov 亚利桑那州和 US Gov 弗吉尼亚州地区为美国政府实体及其合作伙伴提供了 Azure Databricks。
Databricks Runtime 7.1 正式版
2020 年 7 月 21 日
在 Databricks Runtime 7.0 的基础上,Databricks Runtime 7.1 引入了许多额外的功能和改进,包括:
- Google BigQuery 连接器
%pip
命令用于管理在笔记本会话中安装的 Python 库- 已安装 Koalas
- 很多 Delta Lake 改进,包括:
- 设置用户定义的提交元数据
- 获取由当前
SparkSession
编写的最后一个提交的版本 - 使用
_spark_metadata
事务日志转换结构化流式处理创建的 Parquet 表 MERGE INTO
性能改进
有关详细信息,请参阅完整的 Databricks Runtime 7.1 (EoS) 发行说明。
Databricks Runtime 7.1 ML 正式版
2020 年 7 月 21 日
用于机器学习的 Databricks Runtime 7.1 基于 Databricks Runtime 7.1 构建,并引入了以下新功能和库更改:
- 默认启用 pip 和 conda magic 命令
- spark-tensorflow-distributor:0.1.0
- pillow 7.0.0 -> 7.1.0
- pytorch 1.5.0 -> 1.5.1
- torchvision 0.6.0 -> 0.6.1
- horovod 0.19.1 -> 0.19.5
- mlflow 1.8.0 -> 1.9.1
有关详细信息,请参阅完整的用于 ML 的 Databricks Runtime 7.1 (EoS) 发行说明。
Databricks Runtime 7.1 基因组学正式版
2020 年 7 月 21 日
用于基因组学的 Databricks Runtime 7.1 基于 Databricks Runtime 7.1 构建,并引入了以下新功能:
- LOCO 转换
- GloWGR 输出重塑函数
- RNASeq 输出不成对对齐
Databricks Connect 7.1(公共预览版)
2020 年 7 月 17 日
Databricks Connect 7.1 现以公共预览版提供。
IP 访问列表 API 更新
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
以下 IP 访问列表 API 属性已更改:
updator_user_id
至updated_by
creator_user_id
至created_by
Python 笔记本现在支持每个单元格多个输出
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
Python 笔记本现在支持每个单元格有多个输出。 这意味着一个单元格中可以有任意数量的 display、displayHTML 或 print 语句。 利用该功能,可以在同一单元格中查看原始数据和绘图,或查看在遇到错误之前成功打印的所有输出。
此功能需要 Databricks Runtime 7.1 或更高版本,并且在 Databricks Runtime 7.1 中默认处于禁用状态。 可以通过设置 spark.databricks.workspace.multipleResults.enabled true
来启用它。
并排查看笔记本代码和结果单元格
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
使用新的“并排”笔记本显示选项,可以查看彼此相邻的代码和结果。 此显示选项将“标准”选项(以前称为“代码”)和“仅结果”选项结合在一起。
暂停作业计划
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现在,作业计划具有“暂停”和“取消暂停”按钮,使用这些按钮可以轻松地暂停和恢复作业 。 现在,你可以对作业计划进行更改,进行更改时不会启动额外的作业运行。 当前运行及由“立即运行”触发的运行不受影响。 有关详细信息,请参阅暂停和恢复作业触发器。
作业 API 终结点验证运行 ID
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
jobs/runs/cancel
和 jobs/runs/output
API 终结点现在会验证相应 run_id
参数是否有效。 对于无效参数,这些 API 终结点现在返回 HTTP 状态代码 400,而不是代码 500。
Microsoft Entra ID 令牌向 Databricks REST API GA 授权
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现已正式推出使用 Microsoft Entra ID 令牌向工作区 API 进行身份验证的功能。 使用 Microsoft Entra ID 令牌,可以对新工作区的创建和设置进行自动化。 服务主体是 Microsoft Entra ID 中的应用程序对象。 还可以使用 Azure Databricks 工作区中的服务主体自动执行工作流。 有关详细信息,请参阅对 Azure Databricks 资源的访问进行身份验证。
自动设置笔记本中的 SQL 格式
2020 年 7 月 15 日 - 7 月 21 日:版本 3.24
现在可以通过键盘快捷方式、命令上下文菜单和笔记本“编辑”菜单(选择“编辑”>“格式化 SQL 单元格”)来格式化 SQL 笔记本单元格。 通过 SQL 格式设置,可以轻松读取和维护代码。 它适用于 SQL 笔记本以及 %sql
单元格。
关于 Maven 和 CRAN 库安装的可重现顺序
2020 年 7 月 1 日 - 9 日:版本 3.23
Azure Databricks 按照在群集上安装 Maven 和 CRAN 库的顺序对其进行处理。
使用令牌管理 API(公共预览版)控制用户的个人访问令牌
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,Azure Databricks 管理员可以使用令牌管理 API 来管理其用户的 Azure Databricks 个人访问令牌:
- 监视和撤销用户的个人访问令牌。
- 控制工作区中未来令牌的生存期。
- 控制哪些用户可以创建和使用令牌。
还原剪切的笔记本单元
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,可以使用 (Z
) 键盘快捷方式或选择“编辑”>“撤消已剪切的单元格”来还原已剪切的笔记本单元格。 此功能类似于撤消已删除单元格的功能。
向非管理员用户分配作业“可管理”权限
2020 年 7 月 1 日 - 9 日:版本 3.23
现在可以向非管理员用户和组分配作业的“可管理”权限。 此权限级别允许用户管理作业上的所有设置,包括分配权限、更改所有者和更改群集配置(例如,添加库和修改群集规范)。 请参阅控制对作业的访问。
非管理员 Azure Databricks 用户可以使用 SCIM API 按用户名查看和筛选
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,非管理员用户可以使用 SCIM/用户终结点查看用户名并按用户名筛选用户。
用于在查看作业运行详细信息时查看群集规范的链接
2020 年 7 月 1 日 - 9 日:版本 3.23
现在,查看作业运行的详细信息时,可以单击指向群集配置页面的链接,以查看群集规范。 以前,必须从 URL 复制作业 ID,然后转到群集列表中进行搜索。