2018 年 11 月
这些功能和 Azure Databricks 平台的改进已于 2018 年 11 月发布。
注意
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
库 UI
重要
此更新已于 2018 年 12 月 7 日还原。
2018 年 11 月 27 日至 12 月 4 日:版本 2.85
在此版本中,库 UI 已经得到了显著改进。
Azure Databricks UI 现在支持工作区库和群集附加的库。 工作区库存在于工作区中,可附加到一个或多个群集。 群集附加库是只存在于其附加到的群集的上下文中的库。 此外:
- 现在可以从上传到对象存储的文件创建库。
- 现在可以从“库详细信息”页和群集的“库”选项卡中附加和分离库。
- 现在,使用 API 安装的库会在群集的“库”选项卡中显示。
已启用自定义 Spark 堆内存设置
2018 年 11 月 27 日至 12 月 4 日:版本 2.85
以下 Spark 内存设置现在生效:
spark.executor.memory
spark.driver.memory
重要
- Azure Databricks 具有在每个节点上运行的服务,因此 Spark 所允许的最大内存小于云服务提供商报告的 VM 的内存容量。 如果要为 Spark 提供执行程序或驱动程序的最大堆内存量,请勿分别指定
spark.executor.memory
或spark.driver.memory
。 - 某些以前无效但被忽略的群集配置可能导致群集故障。
作业和空闲执行上下文逐出
2018 年 11 月 27 日至 12 月 4 日:版本 2.85
作业现在自动逐出空闲执行上下文。 若要最大程度地减少自动逐出,Azure Databricks 建议为作业和交互式工作负载使用不同的群集。
现已发布用于机器学习的 Databricks Runtime 5.0 (Beta)
2018 年 11 月 19 日
Databricks Runtime 5.0 ML (Beta) 为机器学习和数据科学提供了随时可用的环境。 它包含多个热门库,其中包括 TensorFlow、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式 TensorFlow 训练。 Databricks Runtime 5.0 ML 是基于 Databricks Runtime 5.0 构建的。 Databricks Runtime 5.0 ML 包括以下新功能:
- HorovodRunner,运行使用 Horovod 的分布式深度学习训练作业。 请参阅分布式训练。
- 用于包管理的 Conda 支持。
- MLeap 集成。
- GraphFrames 集成。
请参阅完整的 Databricks Runtime 5.0 ML (EoS) 发行说明。
现已发布 Databricks Runtime 5.0
2018 年 11 月 8 日
Databricks Runtime 5.0 现已推出。 Databricks Runtime 5.0 包括 Apache Spark 2.4.0、新的 Delta Lake 和结构化流功能和升级以及已升级的 Python、R、Java 和 Scala 库。 有关详细信息,请参阅 Databricks Runtime 5.0 (EoS)。
在 Databricks Runtime 5.0 上,一旦群集达到最大上下文限制 (145),Azure Databricks 立即逐出空闲执行上下文。
支持第三方内容的无限制加载
2018 年 11 月 6 日至 13 日:版本 2.84
以前,displayHTML
iframe 沙盒缺失 allow-same-origin 属性。 这意味着 iframe 的源为 null,这并不适合跨源 XHR 请求、cookie 或访问嵌入式 iframe。 在此版本中,displayHTML
iframe 是从新域 databricksusercontent.com
提供的,iframe 沙盒现在包含 allow-same-origin
属性。
如果你已在使用 displayHTML,则无需改变对 displayHTML 的使用。
需要可在浏览器中访问 databricksusercontent.com
。 如果它当前被企业网络阻止,IT 人员需要将它加入允许列表。