GATK简介
GATK全称叫做: Genome Analysis Toolkit. 是Broad Institute开发的用于二代重测序数据分析的一款软件.
目前主要用于人类的WGS以及WES基因测试流程, 具体流程介绍可以看官网的最佳实践
GATK3版本之前, 一直都是单机版本, 性能一直是瓶颈点, 做完一个WGS的流程大约需要3天时间. 因此在GATK4以后的版本之中, 引入Spark做分布式性能优化, GATK4.0版本可以讲整个WGS测序流程的时间压缩在半天之内, 性能提高将近10倍有余.
但是, 目前所有标注有Spark加速的工具都是BETA Tool
, 虽然就我们测试来看敏感度和准确性都和单机版本没有太大区别, 但是由于整理功能开发阶段, 工具接口可能会调整, 因此如果想应用到生产系统上的话, 也请慎重选择.
WGS: Whole Genome Sequencing 全基因组测序
WES: Whole Exome Sequencing 全外显子测测序
WGS流程简介
在GATK的最佳实践里面, 有流程介绍, 也有样例程序供大家参考
但是如果大家之前没有接触过WGS的话, 看官网的介绍还是有点晕. 推荐看一下碱基矿工的GATK4.0和全基因组数据分析实践
好了, 言归正传, 我在这儿简单总结一下WGS的流程:
- 获取数据 — 脱机数据转化成FastQ格式
- 数据质控 — 使用
Fastqc
工具过滤掉低质量的数据
- 比对排序 — 使用
Bwa + samtools
工具对FastQ进行比对排序, 并将格式转化为Bam格式
- 碱基去重 — 使用GATK的
MarkDuplicates
工具完成该步骤
- 碱基矫正 — 使用GATK的
BQSR
工具完成该步骤
- 变异检测 — 使用GATK的
HaplotypeCaller
工具完成该步骤
- 变异控制 — 使用GATK的
VQSR
工具完成该步骤
最后我们实现的一个功能是将原始的FastQ个数的数据, 转化为VCF格式的数据, 完成整个WGS的流程.