2019 年 10 月
这些功能和 Azure Databricks 平台的改进已于 2019 年 10 月发布。
备注
下面列出的发行日期和内容在多数情况下只对应于 Azure 公有云的实际部署。
其中提供了 Azure 公有云上 Azure Databricks 服务的演进历史记录以供参考,这些内容可能不适用于由世纪互联运营的 Azure。
备注
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
2019 年 10 月 22-29 日
用于支持 Azure Databricks 监视群集运行状况的可支持性指标已从 Azure Blob 存储迁移到事件中心终结点。 这使 Azure Databricks 可以通过较低的延迟响应来解决客户事件。 对于 VNet 注入工作区,我们已将其他规则添加到 EventHub
服务终结点的网络安全组。 网络安全组规则表中提供了详细信息。 如果要继续使用服务,不需要执行任何操作。
有关按区域列出的 Azure Databricks 可支持性指标事件中心终结点的列表,请参阅元存储、项目 Blob 存储、系统表存储、日志 Blob 存储和事件中心终结点 IP 地址。
2019 年 10 月 22 - 29 日:版本 3.5
适用于运行 Databricks Runtime 5.5 及以上版本的标准群集上的 Python、SQL 和 Scala 的凭证直通身份验证,以及 SparkR on Databricks Runtime 6.0 及以上版本均已正式发布。 请参阅为标准群集启用 Azure Data Lake Storage 凭据直通身份验证。
2019 年 10 月 22 日
用于基因组学的 Databricks Runtime 6.1 已正式发布。
2019 年 10 月 22 日
Databricks Runtime 6.1 ML 已正式发布。 它包括对 GPU 群集的支持和以下机器学习库的升级:
- TensorFlow 到 1.14.0
- PyTorch 到 1.2.0
- Torchvision 到 0.4.0
- MLflow 到 1.3.0
有关详细信息,请参阅完整的用于 ML 的 Databricks Runtime 6.1 (EoS) 发行说明。
2019 年 10 月 22 - 29 日:版本 3.5
为了确保在负载较高的情况下也能提供高质量的服务,Azure Databricks 现在正针对所有 MLflow API 调用强制实施 API 速率限制。 限制是按帐户设置的,以确保共享工作区的所有组织具有公平的使用量和高可用性。
具有自动重试的 MLflow 客户端在 MLflow 1.3.0 和用于 ML 的 Databricks Runtime 6.1 (EoS) 中提供。 建议所有客户切换到最新的 MLflow 客户端版本。
有关详细信息,请参阅试验 API。
2019 年 10 月 22 - 29 日:版本 3.5
支持将群集附加到空闲实例的预定义池中的 Azure Databricks 功能现已正式发布。
当实例在池中处于空闲状态时,Azure Databricks 不会收取 DBU 费用, 这会产生实例提供程序费用。 请参阅定价。
有关详细信息,请参阅池配置参考。
2019 年 10 月 16 日
Databricks Runtime 6.1 为 Delta Lake 引入了几项增强功能:
- 轻松将表转换为 Delta Lake 格式
- 适用于 Delta 表的 Python API(公共预览版)
- 默认情况下启用动态文件修剪 (DFP)
Databricks Runtime 6.1 还消除了凭据直通身份验证中的几个限制。
备注
从6.1 版本开始,Databricks Runtime 仅支持 CPU 群集。 如果要使用 GPU 群集,必须使用 Databricks Runtime ML。
有关详细信息,请参阅完整的 Databricks Runtime 6.1 (EoS) 发行说明。
2019 年 10 月 16 日
用于基因组学的 Databricks Runtime(Databricks Runtime 基因组学)是为处理基因组和生物医学数据而优化的 Databricks Runtime 变体。 从版本 6.0 开始,用于基因组学的 Databricks Runtime 现已正式发布。
2019 年 10 月 9 日
我们很高兴地宣布正式推出将 Azure Databricks 工作区部署到你自己的虚拟网络的功能(也称为 VNet 注入)。 此选项适用于具有以下要求的用户:需要网络自定义,因此不希望使用以标准方式部署 Azure Databricks 工作区时创建的默认 VNet。 利用 VNet 注入,可以:
- 使用服务终结点以更安全的方式将 Azure Databricks 连接到其他 Azure 服务(如 Azure 存储)。
- 连接到本地数据源以与 Azure Databricks 配合使用,从而利于用户定义的路由。
- 将 Azure Databricks 连接到网络虚拟设备以检查所有出站流量并根据允许和拒绝规则执行操作。
- 将 Azure Databricks 配置为使用自定义 DNS。
- 配置网络安全组 (NSG) 规则以指定出口流量限制。
- 在现有虚拟网络中部署 Azure Databricks 群集。
通过将 Azure Databricks 部署到自己的虚拟网络中,还可以利用灵活的 CIDR 范围(虚拟网络的 CIDR 范围在 /16-/24 之间,子网最高可达 /26)。
使用 Azure 门户 UI 进行配置非常快捷:在创建工作区时,只需选择“在虚拟网络中部署 Azure Databricks 工作区”,然后选择虚拟网络,并提供两个子网的 CIDR 范围。 Azure Databricks 使用两个新的子网和网络安全组更新虚拟网络,将入站和出站子网流量列入允许列表,并将工作区部署到更新的虚拟网络。
如果希望自行配置用于 VNet 注入的虚拟网络(例如,你想要使用现有子网、使用现有网络安全组,或者创建自己的安全规则),则可以使用 Azure Databricks 提供的 ARM 模板(而不是门户 UI)。
备注
如果你使用过 VNet 注入预览版,则必须在 2020 年 1 月 31 日前将预览版工作区升级到正式版本,才能继续获取支持。
有关详细信息,请参阅在 Azure 虚拟网络中部署 Azure Databricks(VNet 注入)和将 Azure Databricks 工作区连接到本地网络。
2019 年 10 月 8 - 15 日:版本 3.4
非管理员用户现在可以调用组 API 的“获取用户”和“获取组”终结点,以仅读取用户和组的显示名称和 ID。 所有其他 SCIM API 操作仍需要管理员访问权限。
2019 年 10 月 8 - 15 日:版本 3.4
工作区 API 的 get-status
和 list
终结点现在返回笔记本和文件夹对象 ID,使你能够在其他 API 调用中引用这些对象。
2019 年 10 月 4 日
Databricks Runtime 6.0 ML 包括以下更新:
- MLflow
- 新的 MLflow 试验 Spark 数据源提供了一种用于加载 MLflow 试验运行数据的标准 API。
- 已添加 MLflow Java 客户端
- MLflow 现已提升为顶层库
- Hyperopt GA - 自公共预览以来的显著改进包括对 Spark 辅助角色上的 MLflow 日志记录支持、PySpark 广播变量的正确处理,以及使用 Hyperopt 选择模型的新指南。
- 已升级 Horovod 和 MLflow 库以及 Anaconda 发行版。
备注
此版本仅支持 CPU 群集。
有关详细信息,请参阅完整的用于 ML 的 Databricks Runtime 6.0 (EoS)发行说明。
2019 年 10 月 1 日
Azure Databricks 现已在巴西南部(圣保罗州)和法国中部(巴黎)推出。
2019 年 10 月 1 日
Databricks Runtime 6.0 引入了许多库升级和新功能,其中包括:
- 用于 Delta Lake DML 命令的新 Scala 和 Java API,以及清空和历史记录实用工具命令。
- 增强的 DBFS FUSE 客户端,支持在模型训练过程中更快、更可靠地进行读取和写入。
- 对每个笔记本单元的多个 matplotlib 绘图的支持。
- 更新到 Python 3.7,以及更新的 numpy、pandas、matplotlib 和其他库。
- 停用 Python 2 支持。
备注
此版本仅支持 CPU 群集。
有关详细信息,请参阅完整的 Databricks Runtime 6.0 (EoS) 发行说明。