スキップしてメイン コンテンツに移動

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。

まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。

気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。

From Evernote:

シーケンスアダプタ配列除去ツールまとめ

TagDust

インストール:
cd tagdust/
make
sudo make install
rehash

使いかた:
tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq

解説:
入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple string search) を利用。FDRを指定できる。GPL3

FASTX_Toolkit (fastx_clipper)
http://hannonlab.cshl.edu/fastx_toolkit/
インストール:
http://hannonlab.cshl.edu/fastx_toolkit/download.html からpre-compiled binary 版を落して、/usr/local/bin とかに入れるだけ。libgtextutils-0.6, PerlIO::gzip, GD::Graph::bars, gnuplot version 4.2 or newer が必要になるので入れておくこと。


(追記: 2012/03/22) CASAVA 1.8 で作成された FASTQ file の場合は、-Q 33 を指定すること。それ以前で illumina 1.3 より後の場合は、-Q 64 を指定する。


使いかた:
fastx_clipper -Q 33 -C -v -i input.fastq -a ACACTCTTTCCCTACACGACGCTGTTCCATCT -o output.fastq > input.fastq.log


解説:
short-read な FASTQ/A をいろいろいぢるツールのなかのひとつのコマンド。リード全体ではなくトリムをするプログラム。トリムしたい位置が決まっている場合は fastx_trimmer を使う。Galaxy に組み込み済み。ちなみにそれぞれのコマンドの動作は Galaxy 内の解説を読むのが一番わかりやすい。図とかあるし。

cutadapt
インストール:
sudo easy_install cut adapt
rehash

使いかた:
cutadapt -a ACACTCTTTCCCTACACGACGCTGTTCCATCT -o output.fastq.gz input.fastq.gz

解説:
トリムができる。アウトプットとインプットファイルの順序を間違えると悲惨な目に>< input/output形式ともに fastq/a のいずれかが使える。gizzped でもよい。maq, bwa 形式での出力も可能。アダプタが3'末端へライゲーションすることを想定している。illumina, SOLiD の場合はそうなる。ただし、-b (--anywhere) を付けると、どの位置にあっても取り除く。アダプタ配列が部分的に存在する場合も取り除く。-e オプションでエラーレートを指定できる。Python で実装されている。Galaxy に組み込むときには、galaxy/ 以下に入れるだけ。MITライセンス。

Novaalign
なんかライセンスめんどいので試してない


ほかにもあったら教えてくださいな。


追記:
暇があったら動かしてみる。

コメント

  1. scythe https://github.com/vsbuffalo/scythe
    というのをたまたま見かけたのでメモ代わりに.

    返信削除
  2. ありがとう。試してみるよ。

    返信削除

コメントを投稿

このブログの人気の投稿

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen

大学の研究室でアカデミックプランが使えるICTツール

自分らでサーバ管理したくないので、SaaS系とローカルで動くソフトのみ。ローカルで動くソフトに関しては、Mac or Docker で動くもののみ。 無償 G Suite for Education  (ドキュメント共有、カレンダーなど) GitHub Education  (ソースコード管理) esa.io アカデミックプラン  (知識共有) Tableau  (データ可視化) Scrapbox  (知識共有) GROWI.cloud  (Wikiなど) 割引 Slack の教育支援プログラム  (ビジネスチャット) Dropbox Education  (ファイル共有、ドキュメント共有) Office 356  (オフィスソフト) Adobe Creative Cloud  (画像編集) AutoDesk for Education  (CADなど) これから申し込んでいくところなので、本当に使えるかはわかりせん。使えた使えないなどの情報やほかのツールでお勧めがあれば教えてもらえると嬉しいです。 アカデミアでなくても無料で使えるツールのうち、うちで使うであろうものは以下に列挙していく。 Google Colaboratory  (データ解析) Overleaf  (論文執筆) Rstudio  (開発, データ解析) VS code (開発)