2019 年 6 月
这些功能和 Azure Databricks 平台改进已于 2019 年 6 月发布。
注意
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
Lsv2 实例支持已推出正式版
2019 年 6 月 24-26 日:版本 2.100
Azure Databricks 现在为 Lsv2 VM 系列提供全面支持,以实现高吞吐量和高 IOPS 工作负载。
RStudio 集成不再局限于高并发性群集
2019 年 6 月 6-11 日:版本 2.99
现在,你可以在 Azure Databricks 中的标准群集上启用 RStudio Server,以及已支持的高并发群集。 无论采用何种群集模式,RStudio Server 集成都将继续要求你为群集禁用自动终止选项。 请参阅 Azure Databricks 上的 RStudio。
MLflow 1.0
2019 年 6 月 3 日
MLflow 是用于管理完整的机器学习生命周期的开放源代码平台。 借助 MLflow,数据科学家可以在本地或在云中跟踪和共享试验、在各种框架上打包和共享模型,以及几乎可随处部署模型。
今天,我们很高兴地宣布 MLflow 1.0 版本的发布。 1.0 版本不仅能标记 API 的成熟度和稳定性,还增加了许多常见请求的功能和改进:
- CLI 已重新组织,并且现在具有用于项目、模型、db(跟踪数据库)和服务器(跟踪服务器)的专用命令。
- 跟踪服务器搜索支持
SQL WHERE
子句的简化版本。 除了支持运行指标和参数外,搜索功能还得到了增强,可支持某些运行属性以及用户和系统标记。 - 添加了对跟踪 API 中 x 坐标的支持。 MLflow UI 可视化组件现在还支持针对提供的 x 坐标值绘制指标。
- 添加了一个
runs/log-batch
REST API 终结点,以及用于通过单个 API 请求记录多个指标、参数和标记的 Python、R 和 Java 方法。 - 对于跟踪,Windows 上现在支持 MLflow 1.0 客户端。
- 添加了对 HDFS 作为项目存储后端的支持。
- 添加命令以生成 Docker 容器,该容器的默认入口点为容器内端口 8080 处的指定 MLflow Python 函数模型提供服务。
- 添加实验性 ONNX 模型风格。
可以在 MLflow 更改日志中查看更改的完整列表。
用于机器学习的 Databricks Runtime 5.4
2019 年 6 月 3 日
Databricks Runtime 5.4 ML 是基于 Databricks Runtime 5.4 (EoS) 构建的。 它包含许多常见的机器学习库,包括 TensorFlow、PyTorch、Keras 和 XGBoost,并使用 Horovod 提供分布式 TensorFlow 训练。
它包括以下新增功能:
- MLlib 与 MLflow 集成(公共预览版)。
- 预安装了新 SparkTrials 类的 Hyperopt(公共预览版)。
- 从 Horovod 发送到 Spark 驱动程序节点的 HorovodRunner 输出现在显示在笔记本单元中。
- 已预安装的 XGBoost Python 包。
有关详细信息,请参阅用于 ML 的 Databricks Runtime 5.4 (EoS)。
Databricks Runtime 5.4
2019 年 6 月 3 日
Databricks Runtime 5.4 现已推出。 Databricks Runtime 5.4 包括 Apache Spark 2.4.2、已升级的 Python、R、Java 和 Scala 库,以及以下新增功能:
- Databricks 上的 Delta Lake 增加了自动优化(公共预览版)
- 将最喜欢的 IDE 和笔记本服务器与 Databricks Connect 一起使用
- 库实用工具已公开发布
- 二进制文件数据源
有关详细信息,请参阅 Databricks Runtime 5.4 (EoS)。