使用Trimmomatic过滤低质量序列

测序得到的raw reads一般多少会有些质量低或者带有adapters的序列,而Trimmomatic是一个很好的用来处理Illumina公司raw reads的软件。
1. 下载安装
直接去官网下载二进制软件,解压后的trimmomatic-0.36.jar即为我们需要的软件

wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip unzip Trimmomatic

2. 运行软件
一般我们使用默认参数运行即可,具体使用方法可参见官网http://www.usadellab.org/cms/?page=trimmomatic
使用默认参数运行程序:
sudo java -jar trimmomatic-0.36.jar PE \ -phred33 ~/SRR733/SRR2854733_1.fastq ~/SRR733/SRR2854733_2.fastq \ ~/SRR733/clsseq/SRR2854733_1_paired.fq ~/SRR733/clsseq/SRR2854733_1_unpaired.fq \ ~/SRR733/clsseq/SRR2854733_2_paired.fq ~/SRR733/clsseq/SRR2854733_2_unpaired.fq \ ILLUMINACLIP:/usr/local/src/Trimmomatic/Trimmomatic-0.36/adapters/TruSeq3-PE.fa:2:30:10 \ LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:8 MINLEN:36

【使用Trimmomatic过滤低质量序列】*运行程序使需切换到程序安装路径运行(神TM知道为什么),adapters也需要使用绝对路径
运行结果:
Input Read Pairs: 23396043 Both Surviving: 20842668 (89.09%) Forward Only Surviving: 2537100 (10.84%) Reverse Only Surviving: 13969 (0.06%) Dropped: 2306 (0.01%) TrimmomaticPE: Completed successfully

3. 常用参数说明
PE/SE 设定对Paired-End或Single-End的reads进行处理,其输入和输出参数稍有不一样。 -threads 设置多线程运行数 -phred33 设置碱基的质量格式,可选pred64 ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 切除adapter序列。参数后面分别接adapter序列的fasta文件:允许的最大mismatch 数:palindrome模式下匹配碱基数阈值:simple模式下的匹配碱基数阈值。 LEADING:3 切除首端碱基质量小于3的碱基 TRAILING:3 切除尾端碱基质量小于3的碱基 SLIDINGWINDOW:4:15 从5'端开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。Windows的size是4个碱基,其平均碱基 质量小于15,则切除。 MINLEN:50 最小的reads长度 CROP: 保留reads到指定的长度 HEADCROP: 在reads的首端切除指定的长度 TOPHRED33 将碱基质量转换为pred33格式 TOPHRED64 将碱基质量转换为pred64格式

    推荐阅读