DNA モチーフ検索に関連するR+Bioconductor のパッケージ

BSgenome

Infrastructure for Biostrings-based genome data packages

まずこれを知ってないとどうにもならない。Biostrings = 生命科学で利用する文字列、つまり DNA 配列を操作するためパッケージ。これが提供するデータ構造、クラスは理解しておきたい。PWM やDNA配列パターン(コンセンサス配列)を検索する関数やリピート配列をマスクする関数などがあり、モチーフ検索と深く関連する。

http://www.bioconductor.org/packages/release/bioc/html/BSgenome.html

rGADEM

de novo motif discovery

そのまんま。結構早い。MEMEよりずっと速い。

http://www.bioconductor.org/packages/release/bioc/html/rGADEM.html

MotIV

Motif Identification and Validation

DNA配列内になる既知のモチーフ配列を検索する。STAMP algorithm (http://www.benoslab.pitt.edu/stamp/) を利用。seqLogo のラッパー関数がありで sequence logo も描ける。motif distribution などの可視化に関する関数も備える。

http://www.bioconductor.org/packages/release/bioc/html/MotIV.html

cosmo

Supervised detection of conserved motifs in DNA sequences

MEMEっぽいアルゴリズムのモチーフ発見ツール。可視化も含む。GUIもあるらしい。

http://www.bioconductor.org/packages/release/bioc/html/cosmo.html

BCRANK

Predicting binding site consensus from ranked DNA sequences

これも de novo motif discovery のツール。heuristic search で探すアルゴリズム。要はランダムは短いコンセンサス配列からスタートして、スコア(コンセンサスの発見数とゲノム領域のランク)を計算して、それが改善するように繰り返す。

http://www.bioconductor.org/packages/release/bioc/html/BCRANK.html

一部は 2/2 の講義@横浜で解説します。そのうち講義資料も公開予定。

Hacking is believing

このブログを検索

DNA motif 検索に関連するBioconductor のパッケージ

From Evernote:

DNA モチーフ検索に関連するR+Bioconductor のパッケージ

ラベル

コメント

コメントを投稿

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

bioconductor.jp 作ったよ

ふりかえり