2020 年 6 月

这些功能和 Azure Databricks 平台改进已于 2020 年 6 月发布。

注意

下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。

它提供 Azure 公有云上 Azure Databricks 服务的演进历史供参考,这些内容可能不适合 Azure 中国云。

注意

发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。

Databricks Connect 现在支持 Databricks Runtime 6.6

2020 年 6 月 26 日

Databricks Connect 现在支持 Databricks Runtime 6.6。

Databricks Runtime 7.0 ML 正式版

2020 年 6 月 22 日

Databricks Runtime 7.0 ML 基于 Databricks Runtime 7.0 构建,包含以下新功能:

  • 笔记本范围内的 Python 库和自定义环境,通过 conda 和 pip 命令进行管理。
  • 主要 Python 包的更新,包括 tensorflow、tensorboard、pytorch、xgboost、sparkdl 和 hyperopt。
  • 新添加的 Python 包 lightgbm、nltk、petastorm 和 plotly。
  • RStudio Server 开源版 v1.2。

有关详细信息,请参阅完整的 Databricks Runtime 7.0 ML(不受支持)发行说明。

Databricks Runtime 7.0 正式版,由 Apache Spark 3.0 提供支持

2020 年 6 月18 日

Databricks Runtime 7.0 由 Apache Spark 3.0 提供支持,并且现在支持 Scala 2.12

Spark 3.0 引入了许多其他功能和改进,包括:

  • 自适应查询执行,它是一种灵活的框架,可在 Spark SQL 中进行自适应执行,并支持在运行时更改减速器的数目。
  • 重新设计的带类型提示的 pandas UDF。
  • 结构化流式处理 Web UI。
  • 与 ANSI SQL 标准更好的兼容性。
  • 联接提示。

Databricks Runtime 7.0 添加了以下内容:

  • 经过改进的自动加载程序,用于在 ETL 过程中新的数据文件到达云 Blob 存储时以增量方式处理这些文件。
  • 经过改进的 COPY INTO 命令,用于通过幂等重试将数据加载到 Delta Lake 中。
  • 许多改进、库添加件和升级以及 bug 修复。

有关详细信息,请参阅完整的 Databricks Runtime 7.0(不受支持)发行说明。

用于基因组学的 Databricks Runtime 7.0 正式版

2020 年 6 月18 日

用于基因组学的 Databricks Runtime 7.0 是在 Databricks Runtime 7.0 基础上构建的,包含以下库更改:

  • ADAM 库已从版本 0.30.0 更新到 0.32.0。
  • Hail 库未包含在用于基因组学 Databricks Runtime 7.0 中,原因是没有基于 Apache Spark 3.0 的版本。

用于 MLflow 模型的依赖于阶段的访问控制

2020 年6月 16日 - 23 日:版本 3.22

现在可以将与阶段相关的访问控制分配给用户或组,使他们能够在过渡或生产阶段管理注册到 MLflow 模型注册表中的 MLflow 模型。 我们引入了两个新的权限级别:“可管理过渡版本”和“可管理生产版本”。 具有这些权限的用户可以在该级别允许的阶段之间执行转换。

有关详细信息,请参阅 MLFlow 模型 ACL

Notebooks 现在支持禁用自动滚动

2020 年6月 16日 - 23 日:版本 3.22

使用 shift + enter 运行笔记本单元格时,默认的笔记本行为是在单元格不可见时自动滚动到下一个单元格。 现在,可以在 “用户设置”图标>“用户设置”>“编辑器设置”中禁用自动滚动。 如果禁用自动滚动,则在使用 shift + enter 时焦点将移到下一个单元格,但笔记本不滚动到该单元格。

将于 2020 年 6 月 30 日更改元存储 IP 地址

2020 年 6 月 11 日

Azure Databricks 的默认元存储使用 Azure Database for MySQL。 用于 Azure Databricks 元存储的所有 Azure Database for MySQL IP 地址都会在 2020 年 6 月 30 日更改。 如果在自己的虚拟网络中部署了 Azure Databricks 工作区,则该部署的路由表可能包括一个 Azure Databricks 元存储 IP 地址,或者包括一个通往防火墙或代理设备的路由,此防火墙或代理设备的访问列表包含该地址。 如果是这样,则必须在 2020 年 6 月 30 日之前使用新的 MySQL IP 更新 Azure Databricks 路由表或防火墙,以避免中断。

Internet Explorer 11 支持于 8 月 15 日结束

2020 年 6 月 9 日

为了跟上行业趋势,并确保客户拥有稳定且一致的用户体验,Azure Databricks 将在 2020 年 8 月 15 日结束对 Internet Explorer 11 的支持。

Databricks Runtime 6.2 系列支持结束

2020 年 6 月 3 日

对 Databricks Runtime 6.2、用于机器学习的 Databricks Runtime 6.2 以及用于基因组学的 Databricks Runtime 6.2 的支持已于 6 月 3 日结束。 请参阅 Databricks Runtime 支持生命周期

使用群集策略简化和控制群集创建(公共预览版)

2020 年 6 月 2 日 - 9 日:版本 3.21

群集策略是管理员定义的可重复使用的群集模板,用于强制实施群集属性的规则,从而确保用户创建符合这些规则的群集。 作为 Azure Databricks 管理员,你现在可以创建群集策略并向用户授予策略权限。 这样,你就可以更好地控制创建的资源,为用户提供完成工作所需的灵活性级别,并大大简化群集创建体验。

有关详细信息,请参阅创建和管理计算策略

SCIM Me 终结点现在返回符合 SCIM 的响应

2020 年 6 月 2 日 - 9 日:版本 3.21

SCIM Me 终结点现在返回与 /users/{id} 终结点相同的信息,包括组和权利等信息。

请参阅 CurrentUser API

使用 IP 访问列表限制对 Azure Databricks 的访问(公共预览版)

2020 年 6 月 1 日

现在可以配置 Azure Databricks 工作区,以使用户只能通过具有安全外围的现有企业网络连接到服务。 Azure Databricks 管理员可以使用 IP 访问列表 API 来定义一组已获批准的 IP 地址,包括允许列表和阻止列表。 对 Web 应用程序和 REST API 的所有传入访问均要求用户从经授权的 IP 地址进行连接,从而确保用户只有使用 VPN 才能从咖啡店或机场等公共网络访问工作区。

此功能需要高级计划

有关详细信息,请参阅配置工作区的 IP 访问列表