这些功能和 Azure Databricks 平台的改进已于 2019 年 2 月发布。
注意
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
它提供了 Azure 公有云上 Azure Databricks 服务的演变历史记录,供参考,这可能与世纪互联运营的 Azure 上的实际部署不一致。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
Databricks Light 已推出正式版
2019 年 2 月 26 日至 3 月 5 日:版本 2.92
Databricks Light(也称为数据工程轻量版)现已推出。 Databricks Light 是开放源代码 Apache Spark 运行时的 Databricks 包。 它为不需要 Databricks Runtime 所提供的高级性能、可靠性或自动缩放优势的作业提供运行时选项。 仅当创建运行 JAR、Python 或 spark-submit 作业的群集时,才可以选择 Databricks Light;对于要在其上运行交互式或笔记本作业工作负荷的群集,不能选择此运行时。 请参阅 Databricks Light。
Azure Databricks 上的托管 MLflow 公共预览版
2019 年 2 月 26 日至 3 月 5 日:版本 2.92
MLflow 是用于管理端到端机器学习生命周期的开源平台。 它处理三个主要函数:
- 跟踪试验,以记录和比较参数与结果。
- 通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台。
- 将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境。
Azure Databricks 现提供与企业安全性功能、高可用性和其他 Azure Databricks 工作区功能(例如试验和运行管理,以及笔记本修订版捕获)集成的完全托管式 MLflow 版本。 Azure Databricks 上的 MLflow 提供集成体验用于跟踪和保护机器学习模型训练运行,以及运行机器学习项目。 通过在 Azure Databricks 上使用托管 MLflow,可以获得两个平台的优势,包括:
- 工作区:协同使用托管 MLflow 跟踪服务器和集成的试验 UI 跟踪和组织 Azure Databricks 工作区中的试验和结果。 在笔记本中使用 MLflow 时,Azure Databricks 会自动捕获笔记本修订,以便之后能够重现同样的代码和执行。
- 安全性:利用 ACL 在整个机器学习生命周期中采用一种通用的安全模型。
- 作业: 将 MLflow 项目作为 Azure Databricks 作业远程运行,并直接从 Azure Databricks 笔记本中运行。
以下演示了 Azure Databricks 工作区中的跟踪工作流:
请参阅使用 MLflow 跟踪模型开发了解详情。
Azure Data Lake Storage 连接器已正式发布
2019 年 2 月 15 日