用于基因组学的 Databricks Runtime 6.3(不受支持)

Databricks 于 2020 年 1 月发布了此映像。

用于基因组学的 Databricks Runtime(Databricks Runtime 基因组学)是为处理基因组和生物医学数据而优化的 Databricks Runtime 6.3(不受支持)的变体。 它是用于基因组学的 Databricks 统一分析平台的组件。

有关详细信息,包括有关创建用于基因组学的 Databricks Runtime 群集的说明,请参阅基因组学指南。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

新增功能

用于基因组学的 Databricks Runtime 6.3 是基于 Databricks Runtime 6.3 构建的。 有关 Databricks Runtime 6.3 中新增功能的信息,请参阅 Databricks Runtime 6.3(不受支持)发行说明。

Delta 的联合基因分型管道

用于基因组学的 Databricks Runtime 6.3 中的联合基因分型现在可以将 DNASeq 管道编写的 Delta 表作为输入。 通过此功能,可以将两个管道一起使用,而无需将结果导出到 gVCF。

读取 VCF 时自动进行批注分析

用于基因组学的 Databricks Runtime 6.3 中包含的 Glow 版本在读取 VCF 时自动分析 CSQANN INFO 字段。 现在,结果数据帧中的 INFO_CSQINFO_ANN 字段具有结构化的架构,用于简化查询。

改进

改进了多等位基因变体拆分器

Glow 和用于基因组学的 Databricks Runtime 中的 multiallelic 变体拆分器现在可处理更复杂的 multiallelic 站点类型。 新行为将镜像 vt 分解 命令行工具。 此外,现在可以通过调用 glow.transform('split_multiallelics'... 将拆分器用作独立的转换器。

提升了线性和逻辑回归函数的效率

用于基因组学的 Databricks Runtime 6.3 中的 logistic_regression_gwas 函数比 6.2 中的版本快 60%。 linear_regression_gwas 约快 50%。