“肿瘤/正常”管道
重要
本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。
Databricks 基因组学运行时已弃用。 若要获取开放源代码的等效服务,请查看基因组学管道和 Glow 的存储库。 属于运行时的生物信息学库已作为 Docker 容器发布,可从 ProjectGlow Dockerhub 页进行拉取。
有关 Databricks Runtime 弃用策略和计划的详细信息,请参阅所有支持的 Databricks Runtime 版本。
Azure Databricks 肿瘤/正常管道是 GATK 最佳做法兼容管道,用于使用 MuTect2 基因突变鉴定软件进行短读比对和识别体细胞突变。
演练
管道包括以下步骤:
- 使用 BWA-MEM 进行正常样本比对。
- 使用 BWA-MEM 进行肿瘤样本比对。
- 使用 MuTect2 识别突变。
设置
管道将作为 Azure Databricks 作业运行。 可以设置群集策略以保存配置:
{
"num_workers": {
"type": "unlimited",
"defaultValue": 13
},
"node_type_id": {
"type": "unlimited",
"defaultValue": "Standard_F32s_v2"
},
"spark_env_vars.refGenomeId": {
"type": "unlimited",
"defaultValue": "grch38"
},
"spark_version": {
"type": "regex",
"pattern": ".*-hls.*",
"defaultValue": "7.4.x-hls-scala2.12"
}
}
- 群集配置应使用用于基因组学的 Databricks Runtime。
- 此任务应为此页面底部提供的肿瘤/正常笔记本。
- 若要获得最佳性能,请使用至少具有 60GB 内存的经过计算优化的 VM。 我们建议使用 Standard_F32s_v2 VM。
- 如果正在运行基本质量分数校准,请改用常规用途 (Standard_D32s_v3) 实例,因为此操作需要更多内存。
参考基因组
必须使用一个环境变量来配置参考基因组。 若要使用 GRCh37,请设置环境变量:
refGenomeId=grch37
若要使用 GRCh38,请将 grch37
更改为 grch38
。
若要使用自定义参考基因组,请参阅自定义参考基因组中的说明。
参数
管道接受控制其行为的参数。 此处记录了最重要且最常更改的参数。 若要查看所有可用参数及其使用信息,请运行管道笔记本的第一个单元。 定期添加新的参数。 导入笔记本并将它设置为作业任务后,可以为所有运行或单个运行设置这些参数。
参数 | 默认 | 描述 |
---|---|---|
manifest | 不适用 | 描述输入的清单。 |
输出 | 不适用 | 应将管道输出写入到的路径。 |
replayMode | skip | * 如果 skip 输出已存在,则跳过相关阶段。* 如果 overwrite ,将删除现有输出。 |
exportVCF | false | 如果为 true,则管道会将结果写入 VCF 文件以及 Delta 中。 |
perSampleTimeout | 12h | 每个样本所应用的超时。 达到此超时时间后,管道会继续执行下一个样本。 此参数的值必须包含超时单位:“s”(表示秒)、“m”(表示分钟)或“h”(表示小时)。 例如,“60m”表示超时时间为 60 分钟。 |
提示
若要优化运行时,请将 spark.sql.shuffle.partitions
Spark 配置设置为群集核心数的三倍。
清单格式
清单是一个 CSV 文件或 blob,用于描述在何处查找输入 FASTQ 或 BAM 文件。 例如:
pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor
如果输入包含未比对的 BAM 文件,则应省略 paired_end
字段:
pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal
给定个体的肿瘤样本和正常样本按 pair_id
字段分组。 一对肿瘤样本和正常样本名称读取组名称必须是不同的。
提示
如果提供的清单是一个文件,则每行中的 file_path
字段可以是绝对路径或相对于清单文件的路径。 如果提供的清单是 blob,则 file_path
字段必须是绝对路径。 可以包含 glob (*)
,以匹配许多文件。
其他使用信息和故障排除
肿瘤/正常管道与其他 Azure Databricks 管道有着许多相同的操作详细信息。 有关更详细的用法信息(例如输出格式结构、以编程方式运行的提示以及设置自定义参考基因组的步骤)和常见问题,请参阅 DNASeq 管道。
注意
在用于基因组学的 Databricks Runtime 7.3 LTS 及更高版本中,管道从 TNSeq 更名为了 MutSeq。