用于基因组学的 Databricks Runtime 7.0(不受支持)

Databricks 于 2020 年 6 月发布了此映像。

用于基因组学的 Databricks Runtime 7.0 是经过优化的 Databricks Runtime 7.0(不受支持)版本,专门用于处理基因组学和生物医学数据。 它是用于基因组学的 Databricks 统一分析平台的组件。

有关详细信息,包括有关创建用于基因组学的 Databricks Runtime 群集的说明,请参阅基因组学指南。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

新增功能

用于基因组学的 Databricks Runtime 7.0 是基于 Databricks Runtime 7.0 构建的。 若要了解 Databricks Runtime 7.0 中的新增功能,请参阅 Databricks Runtime 7.0(不受支持)发行说明。

GloWGR:整个基因组回归

现在,Glow 包含可缩放的全基因组回归方法 GloWGR。 GloWGR 是单节点工具 regenie 的分布式版本。 GloWGR 是一个企业级工具,它为全基因组回归提供了与其他方法相当的准确性,但在速度上有数量级的提高。 有关详细信息,请参阅开放源代码中的全基因组回归

转换器会接受非字符串类型参数

现在,所有 Glow 转换器(包括管道转换器和变体规范化程序)都接受其值不是字符串的参数。 管道转换器的 Glow 文档反映了此新用法。 为实现后向兼容性,所有参数仍接受字符串值。

Numpy ndarray 文本

现在,可以将文本 numpy 1D 和 2D float 类型 ndarray 传递给需要类型分别为 array<double>DenseMatrix 的数据帧列的函数。 Glow 基因组范围的关联研究文档演示了此新用法。

平均值替换函数

现在,Glow 提供了 mean_substitute 函数,用于将数组中缺少的值替换为非缺失值的平均值。

改进

联合基因分型性能

联合基因分型管道的性能已提高了 5-20%。 当使用每个节点有多个核心的群集节点类型时,这种改进尤其明显。

VCF 读取器会忽略 tabix 索引文件

在以前的版本中,如果 VCF 文件的目录包含 tabix 索引文件,则 VCF 读取器在读取该目录时可能会失败。 读取器会尝试将 tabix 文件解释为 VCF 文件,并报告错误。 现在,读取器仅使用索引文件来确定要读取的数据文件。

从 VCF 读取器中删除了 splitToBiallelic 选项

为了支持 split_multiallelics 转换器,此选项已被删除。 转换器比 VCF 读取器选项更快、更精确。

以下部分列出了用于基因组学的 Databricks Runtime 7.0 中包含的库,这些库不同于 Databricks Runtime 7.0 中包含的库。

已升级的库

  • ADAM:0.30.0 到 0.32.0

已删除的库

由于没有基于 Apache Spark 3.0 的发行版,因此,用于基因组学的 Databricks Runtime 7.0 中不包含 Hail。

已打包的库

版本
ADAM 0.32.0
GATK 4.1.4.1
Hadoop-bam 7.9.2
samtools 1.9
VEP 96