当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。
常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。
fastqc的详细使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
我们在服务器上用命令行来运行fastqc:
fastqc [-o output dir] [–(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
-o用来指定输出文件的所在目录,注意是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,命令里加上–noextract则不解压缩。
-f用来强制指定输入文件格式,默认会自动检测。
-c用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个contaminant文件里搜索。contaminant文件的格式是”Name\tSequences”,
#开头的行是注释。加上 -q 会进入沉默模式,即不出现下面的提示:
Started analysis of target.fq
Approx 5% complete for target.fq
Approx 10% complete for target.fq
如果输入的fastq文件名是target.fq,fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后,查看html格式的结果报告。结果分为如下几项:
自己的命令: fastqc -o . -t 8 [filename] ### -o 表示输出到当前文件夹,-t 指定线程数。
用FastQC检查二代测序原始数据的质量 - 静渊 - 静渊的学习日志
其中结果分为绿色的”PASS”,黄色的”WARN”和红色的”FAIL”。
参考链接:
http://yanshouyu.blog.163.com/blog/static/214283182201302835744453/
http://blog.sina.com.cn/s/blog_8808cae20102uygl.html