用于基因组学的 Databricks Runtime 6.2(不受支持)

Databricks 于 2019 年 12 月发布了此映像。

用于基因组学的 Databricks Runtime(Databricks Runtime 基因组学)是为处理基因组和生物医学数据而优化的 Databricks Runtime 6.2(不受支持)的变体。 它是用于基因组学的 Databricks 统一分析平台的组件。

有关详细信息,包括有关创建用于基因组学的 Databricks Runtime 群集的说明,请参阅基因组学指南。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

新增功能

用于基因组学的 Databricks Runtime 6.2 是基于 Databricks Runtime 6.2 构建的。 要了解 Databricks Runtime 6.2 中新增功能的信息,请参阅 Databricks Runtime 6.2(不受支持)发行说明。

Firth 逻辑回归

用于基因组学的 Databricks Runtime 6.2 中包含的Glow 版本提供了 Firth 逻辑回归测试

用户定义的样本质量控制指标

可以使用 aggregate_by_index 来聚合数据帧中每个样本的基因型。 使用此函数可计算每样本质量控制 (QC) 指标(包含在内置 QC 函数中)。

改进

管道转换器性能

管道转换器的开销大致降低了一半。 这种加速意味着,可以使用用于基因组学的 Databricks Runtime 并行执行命令行工具,而不会牺牲每个核心的效率。

联合基因分型稳健性

用于基因组学的 Databricks Runtime 6.2 中提供的联合基因分型可更高效地处理包含成千上万个条目的样本清单。 此外,管道现在通过插入显式的非调用项来适当地处理缺少的 gVCF 块。

简化了与 LOFTEE 的集成

用于基因组学的 Databricks Runtime 中包含的 VEP 注释管道提供了与 LOFTEE 的简化集成。

Hail 0.26.0

用于基因组学的 Databricks Runtime 6.2 包括 Hail 0.26.0。

Samtools 1.9

Samtools 1.9 现已安装。