2012/02/13

DNA motif 検索に関連するBioconductor のパッケージ

From Evernote:

DNA モチーフ検索に関連するR+Bioconductor のパッケージ

BSgenome
Infrastructure for Biostrings-based genome data packages
まずこれを知ってないとどうにもならない。Biostrings = 生命科学で利用する文字列、つまり DNA 配列を操作するためパッケージ。これが提供するデータ構造、クラスは理解しておきたい。PWM やDNA配列パターン(コンセンサス配列)を検索する関数やリピート配列をマスクする関数などがあり、モチーフ検索と深く関連する。

rGADEM
de novo motif discovery
そのまんま。結構早い。MEMEよりずっと速い。

MotIV
Motif Identification and Validation
DNA配列内になる既知のモチーフ配列を検索する。STAMP algorithm (http://www.benoslab.pitt.edu/stamp/) を利用。seqLogo のラッパー関数がありで sequence logo も描ける。motif distribution などの可視化に関する関数も備える。

cosmo
Supervised detection of conserved motifs in DNA sequences
MEMEっぽいアルゴリズムのモチーフ発見ツール。可視化も含む。GUIもあるらしい。

BCRANK
Predicting binding site consensus from ranked DNA sequences
これも de novo motif discovery のツール。heuristic search で探すアルゴリズム。要はランダムは短いコンセンサス配列からスタートして、スコア(コンセンサスの発見数とゲノム領域のランク)を計算して、それが改善するように繰り返す。

一部は 2/2 の講義@横浜で解説します。そのうち講義資料も公開予定。