スキップしてメイン コンテンツに移動

投稿

2月, 2012の投稿を表示しています

ChIP-seq データ解析の講義をしたので資料公開するよ

JSBi共催「Rでつなぐ次世代オミックス情報統合解析研究会」で「R + Bioconductor を使った ChIP-seq データ解析の基礎」という講義を担当してきました。主に ChIP-seq 解析の流れを簡単に示し、パイプラインについて説明しました。Peak calling や mapping などの情報が比較的入手しやすいステップよりも、アノテーションや、モチーフ解析や異なる ChIP-seq データ比較などの高次解析の部分を多く取り上げています。

最初は20-30人程度のハンズオンセミナーというオファーでしたが、100人を越える参加者が集まりました。なのでハンズオンはできなかったのですが、概要を掴んでもらえるよう心がけました。ほかの演者の方の発表に関しても発見や気付きがあったので自分の研究にも役に立ちそうです。質疑や懇親会も非常に盛り上がりとても有意義な会でした。

ChIP-seq の経験者が参加者全体の1割程度と mRNA-seq にくらべるとまだまだ少ないようですが、相互作用を出力できる数少ないオミックス技術なので、日本でももっともっと普及すればよいなと思っています。

個人的には、たくさんのRで解析をされている方に会うことで、Rをプログラミング言語としてではなく、純粋に統計環境として利用している頃の気持ちを思い出しました。

講義に使用したプレゼンテーション、ソースコード、データはすべて以下のサイトに置いてあります。今後も微妙にアップデートするかもしれませんので、github をお使いのかたは、watch list に登録しておくと良いかもしれません。

講義資料: R + Bioconductor を使った ChIP-seq データ解析の基礎 (二階堂愛)

なにか質問があればご連絡ください。では。

リンク: Rでつなぐ次世代オミックス情報統合解析研究会

R + Bioconductor で遺伝子構造を描く

From Evernote: Rで遺伝子構造を描く 超並列DNAシーケンサーの登場で、遺伝子構造など、ゲノム上のイベントやオブジェクトのデータを大量に得ることができるようになってきました。データ解析にとって可視化は重要ですが、ゲノム上で起きているイベントなので、ゲノム上に配置して可視化したい場面がよくでてきます。しかし、さまざまなゲノム上のオブジェクトをゲノム座標から画像座標に変換して、絵を書くのは意外と面倒な作業です。
例えば遺伝子構造の絵を書こうとします。これは、遺伝子構造をどのように入手するか、遺伝子構造をどのように描くか、の2つの問題に分けることができます。ここでは、遺伝子構造のデータは、R + Bioconductor の biomaRt パッケージを使って、Ensembl Biomart からダウンロードすることで解決します。遺伝子構造をどのように描くかについては、GenomeGraphs パッケージを利用します。
まずはインストールします。
$ sudo R > source("http://www.bioconductor.org/biocLite.R") > biocLite("biomaRt") > biocLite("GenomeGraphs")
ここでは、Ensembl biomart からヒトの SMN1 という splicing 異常によって疾患になる例が知られている遺伝子名(Gene symbol)の遺伝子構造を描きます。
まず、SMN1 という名前から、Ensembl Gene ID と染色体位置などを入手します。
library(GenomeGraphs)
library(biomaRt)
gene.symbol <- "SMN1" png.file <- paste(gene.symbol, ".png", sep = "")
## construct an object of Human Ensembl Biomart human <- useMart(biomart = "ensembl", dataset = "hsapiens_gen…

TextMate で R プログラミング

From Evernote: TextMate で R プログラミング Rや Bioconductor のパッケージはある決まったディレクトリ構造にしたがって作成する必要があります。また、コードやドキュメントのファイルが複数に分かれています。普段は Emacs + ESS でコーディングしていますが、GUIのタブで、複数のファイルを行き来しながら、コードを書いたり、Sweave でドキュメント書いたりしたいことがあります。Emacs でバッファ間の移動が苦手ので、TextMate 環境に移行しつつあります。

TextMate には、R bundle だけでなく、Sweave bundle もあるので結構快適です。コード補完や Textmate からの R の実行などもできます。
セットアップは以下の通り。
$ cd Sources $ svn co http://svn.textmate.org/trunk/Bundles/R.tmbundle $ svn co http://svn.textmate.org/trunk/Bundles/SWeave.tmbundle
$ mkdir -p /Library/Application\ Support/TextMate/Bundles
$ cp -a R.tmbundleSWeave.tmbundle /Library/Application\ Support/TextMate/Bundles
完全に移行していないのは、関数を入力しているときに、tooltip を出そうとして重くなるためです。これが改善されたら、移行してもいいかな。データ解析は Linux なスパコンでやるので、あいかわらず Emacs + ESS です。
参考URL: http://worldofrcraft.blogspot.com/2008/11/setting-up-textmate-to-use-r.html

ゲノム可視化に関するR+Bioconductorのパッケージ

From Evernote: ゲノム可視化に関するR+Bioconductorのパッケージ 個々のツールにも可視化の機能があるが、ここではゲノムの可視化を専門とし、特定のアプリケーション(RNA-seq, ChIP-seq, microarray, CNV など) に依存せずに、汎用的に活用できるパッケージを紹介する。
GenomeGraphs
Plotting genomic information from Ensembl http://www.bioconductor.org/packages/release/bioc/html/GenomeGraphs.html
既知のゲノム・遺伝子構造などを Ensembl biomart から biomaRt を使って取ってきて、いろいろなプロットできる。もちろん自分の実験データ(シーケンスや microarray など)のプロットもできる。
genoPlot http://genoplotr.r-forge.r-project.org/ 自分で作成したデータや BLAST や DB の flat file から作図できる。比較ゲノム的な可視化に強い印象。 Bioconductor じゃなく、CRAN。まあ、BioCに通すのはいろいろ大変だからね...
ggbio Static visualization for genomic data Genome界の ggplot2 と言えばいいか。遺伝子構造から coverage, 染色体マップまで描ける。 http://www.bioconductor.org/packages/release/bioc/html/ggbio.html
biovizBase Basic graphic utilities for visualization of genomic data ggbio のコードを理解するには知っておいたほうがいい。 http://www.bioconductor.org/packages/release/bioc/html/biovizBase.html
ChromHeatMap
Heat map plotting by genome coordinate 染色体構造とヒートマップ(階層クラスタリング)が同時に描ける http://www.bioconductor.o…

DNA motif 検索に関連するBioconductor のパッケージ

From Evernote: DNA モチーフ検索に関連するR+Bioconductor のパッケージ BSgenome Infrastructure for Biostrings-based genome data packages まずこれを知ってないとどうにもならない。Biostrings = 生命科学で利用する文字列、つまり DNA 配列を操作するためパッケージ。これが提供するデータ構造、クラスは理解しておきたい。PWM やDNA配列パターン(コンセンサス配列)を検索する関数やリピート配列をマスクする関数などがあり、モチーフ検索と深く関連する。 http://www.bioconductor.org/packages/release/bioc/html/BSgenome.html
rGADEM de novo motif discovery そのまんま。結構早い。MEMEよりずっと速い。 http://www.bioconductor.org/packages/release/bioc/html/rGADEM.html
MotIV Motif Identification and Validation DNA配列内になる既知のモチーフ配列を検索する。STAMP algorithm (http://www.benoslab.pitt.edu/stamp/) を利用。seqLogo のラッパー関数がありで sequence logo も描ける。motif distribution などの可視化に関する関数も備える。 http://www.bioconductor.org/packages/release/bioc/html/MotIV.html
cosmo Supervised detection of conserved motifs in DNA sequences
MEMEっぽいアルゴリズムのモチーフ発見ツール。可視化も含む。GUIもあるらしい。 http://www.bioconductor.org/packages/release/bioc/html/cosmo.html
BCRANK Predicting binding site consensus from ranked DNA sequences
これも de novo motif disco…