“肿瘤/正常”管道

重要

本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。

Databricks 基因组学运行时已弃用。 若要获取开放源代码的等效服务,请查看基因组学管道Glow 的存储库。 属于运行时的生物信息学库已作为 Docker 容器发布,可从 ProjectGlow Dockerhub 页进行拉取。

有关 Databricks Runtime 弃用策略和计划的详细信息,请参阅所有支持的 Databricks Runtime 版本

Azure Databricks 肿瘤/正常管道是 GATK 最佳做法兼容管道,用于使用 MuTect2 基因突变鉴定软件进行短读比对和识别体细胞突变。

演练

管道包括以下步骤:

  1. 使用 BWA-MEM 进行正常样本比对。
  2. 使用 BWA-MEM 进行肿瘤样本比对。
  3. 使用 MuTect2 识别突变。

设置

管道将作为 Azure Databricks 作业运行。 可以设置群集策略以保存配置:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • 群集配置应使用用于基因组学的 Databricks Runtime。
  • 此任务应为此页面底部提供的肿瘤/正常笔记本。
  • 若要获得最佳性能,请使用至少具有 60GB 内存的经过计算优化的 VM。 我们建议使用 Standard_F32s_v2 VM。
  • 如果正在运行基本质量分数校准,请改用常规用途 (Standard_D32s_v3) 实例,因为此操作需要更多内存。

参考基因组

必须使用一个环境变量来配置参考基因组。 若要使用 GRCh37,请设置环境变量:

refGenomeId=grch37

若要使用 GRCh38,请将 grch37 更改为 grch38

若要使用自定义参考基因组,请参阅自定义参考基因组中的说明。

参数

管道接受控制其行为的参数。 此处记录了最重要且最常更改的参数。 若要查看所有可用参数及其使用信息,请运行管道笔记本的第一个单元。 定期添加新的参数。 导入笔记本并将它设置为作业任务后,可以为所有运行单个运行设置这些参数。

参数 默认 描述
manifest 不适用 描述输入的清单。
输出 不适用 应将管道输出写入到的路径。
replayMode skip * 如果 skip输出已存在,则跳过相关阶段。
* 如果 overwrite,将删除现有输出。
exportVCF false 如果为 true,则管道会将结果写入 VCF 文件以及 Delta 中。
perSampleTimeout 12h 每个样本所应用的超时。 达到此超时时间后,管道会继续执行下一个样本。 此参数的值必须包含超时单位:“s”(表示秒)、“m”(表示分钟)或“h”(表示小时)。 例如,“60m”表示超时时间为 60 分钟。

提示

若要优化运行时,请将 spark.sql.shuffle.partitionsSpark 配置设置为群集核心数的三倍。

清单格式

清单是一个 CSV 文件或 blob,用于描述在何处查找输入 FASTQ 或 BAM 文件。 例如:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

如果输入包含未比对的 BAM 文件,则应省略 paired_end 字段:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

给定个体的肿瘤样本和正常样本按 pair_id 字段分组。 一对肿瘤样本和正常样本名称读取组名称必须是不同的。

提示

如果提供的清单是一个文件,则每行中的 file_path 字段可以是绝对路径或相对于清单文件的路径。 如果提供的清单是 blob,则 file_path 字段必须是绝对路径。 可以包含 glob (*),以匹配许多文件。

其他使用信息和故障排除

肿瘤/正常管道与其他 Azure Databricks 管道有着许多相同的操作详细信息。 有关更详细的用法信息(例如输出格式结构、以编程方式运行的提示以及设置自定义参考基因组的步骤)和常见问题,请参阅 DNASeq 管道

注意

在用于基因组学的 Databricks Runtime 7.3 LTS 及更高版本中,管道从 TNSeq 更名为了 MutSeq。