用于基因组学的 Databricks Runtime 7.2(不受支持)

Databricks 于 2020 年 8 月发布了此映像。

用于基因组学的 Databricks Runtime 7.2 是经过优化的 Databricks Runtime 7.2(不受支持)版本,专门用于处理基因组学和生物医学数据。 它是用于基因组学的 Databricks 统一分析平台的组件。

有关详细信息,包括有关创建用于基因组学的 Databricks Runtime 群集的说明,请参阅基因组学指南。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

新增功能

用于基因组学的 Databricks Runtime 7.2 是基于 Databricks Runtime 7.2 构建的。 要了解 Databricks Runtime 7.2 中新增功能的信息,请参阅 Databricks Runtime 7.2(不受支持)发行说明。

改进

加速了 Numpy ndarray 文本的转换

文本 numpy 1D 和 2D 浮点类型化 ndarray 现在可以更快地转换为 Java 数组。 Glow 基因组范围的关联研究文档反映使用情况。

以下部分列出了用于基因组学的 Databricks Runtime 7.2 中包含的库,这些库不同于 Databricks Runtime 7.2 中包含的库。

已打包的库

版本
ADAM 0.32.0
GATK 4.1.4.1
Hadoop-bam 7.9.2
samtools 1.9
VEP 96