FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。     まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。     気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。                      From Evernote:                    シーケンスアダプタ配列除去ツールまとめ         TagDust    http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz   http://bioinformatics.oxfordjournals.org/content/25/21/2839.full     インストール:   curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar  zxvf tagdust.tgz   cd tagdust/   make   sudo make install   rehash     使いかた:   tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq     解説:   入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple ...
 
 
コメント
コメントを投稿