2019 年 2 月

这些功能和 Azure Databricks 平台的改进已于 2019 年 2 月发布。

注意

下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。

它提供了 Azure 公有云上 Azure Databricks 服务的演变历史记录,供参考,这可能与世纪互联运营的 Azure 上的实际部署不一致。

注意

发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。

Databricks Light 已推出正式版

2019 年 2 月 26 日至 3 月 5 日:版本 2.92

Databricks Light(也称为数据工程轻量版)现已推出。 Databricks Light 是开放源代码 Apache Spark 运行时的 Databricks 包。 它为不需要 Databricks Runtime 所提供的高级性能、可靠性或自动缩放优势的作业提供运行时选项。 仅当创建运行 JAR、Python 或 spark-submit 作业的群集时,才可以选择 Databricks Light;对于要在其上运行交互式或笔记本作业工作负荷的群集,不能选择此运行时。 请参阅 Databricks Light

Azure Databricks 上的托管 MLflow 公共预览版

2019 年 2 月 26 日至 3 月 5 日:版本 2.92

MLflow 是用于管理端到端机器学习生命周期的开源平台。 它处理三个主要函数:

  • 跟踪试验,以记录和比较参数与结果。
  • 通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台。
  • 将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境。

Azure Databricks 现提供与企业安全性功能、高可用性和其他 Azure Databricks 工作区功能(例如试验和运行管理,以及笔记本修订版捕获)集成的完全托管式 MLflow 版本。 Azure Databricks 上的 MLflow 提供集成体验用于跟踪和保护机器学习模型训练运行,以及运行机器学习项目。 通过在 Azure Databricks 上使用托管 MLflow,可以获得两个平台的优势,包括:

  • 工作区:协同使用托管 MLflow 跟踪服务器和集成的试验 UI 跟踪和组织 Azure Databricks 工作区中的试验和结果。 在笔记本中使用 MLflow 时,Azure Databricks 会自动捕获笔记本修订,以便之后能够重现同样的代码和执行。
  • 安全性:利用 ACL 在整个机器学习生命周期中采用一种通用的安全模型。
  • 作业: 将 MLflow 项目作为 Azure Databricks 作业远程运行,并直接从 Azure Databricks 笔记本中运行。

以下演示了 Azure Databricks 工作区中的跟踪工作流:

跟踪运行并组织试验工作流

请参阅使用 MLflow 跟踪模型开发了解详情。

Azure Data Lake Storage 连接器已正式发布

2019 年 2 月 15 日