スキップしてメイン コンテンツに移動

投稿

3月, 2011の投稿を表示しています

ChIP-seqの統計解析のレビュー読んだよ2

今回読む論文はこれ。

3. Pepke, S., & Wold, B. (2009). Computation for ChIP-seq and RNA-seq studies. Nature method

ChIP-seq について体系的に書かれているレビュー。現在出版されているレビューのなかでは一番良いと思う。

ChIP-seq の概要
ChIP-seq を成否は、
1. 十分に binding site が enrich されていること
2. enrich されたクロマチン分子を獲得できていること
の2点に依存する。

mapping は specificity (unique reads only) と increasing sensitivity (multireads used) のトレードオフがある。ChIP reactions は enrichments であって purifications ではない(`・ω・´)キリッ Background と真のシグナルを分ける必要がある。哺乳類ゲノムは大きいので background の coverage が低いことに注意する。単純な tag count が多いピークに生物学的な意味があるとは限らない。バックグラウンドやコントロールとの比較する。いろんなツールやパラメータを試して変化のないピークをつかうべき。

ChIP peak の分類
sequence specific tf だと特定の位置に鋭いピークが立つ。RNA polymerase はTSSに強く鋭いピークがでるが gene body にも broad なシグナルがでる。Histone などの場合は nucleosome level の broad なピークが続く。それぞれ別なアルゴリズムやパラメータで検出しなければならない。

Peak finding の用語整理と解析の流れ
まずは用語の説明。ホワイトボードにメモった手書きの図をアップしておく。read を reference genome に mapping すると1塩基ごとの tag count が計算できる。この tag count から binding site を得る問題を解く。この際に、tag count から分布に変換する処理を peak calling や peak finding と総称する。

tag…

ChIP-seqデータ解析のムービーを集めたよ

YouTube などにアップされているChIP-seq解析のムービーを集めてみました。あまりないですね。僕は以下のツールはひとつも使っていないですが、ムービーを見る限り、最近のGUIのツールはよくできている印象を受けました。NGS解析怖くない!

まあ、http://outloger.com/ を使ってみたかっただけというのが本当のところですw

DNASTAR- ChIP-Seq WorkflowDNASTAR's ChIP-Seq software allows users to quickly and easily identify transcription factor binding sites. The software enables users to ... GenomeQuest - ChIP-Seq WorkflowThis video is an overview of the GenomeQuest ChIP-Seq Workflow. This solution provides state-of-the-art tools across the entire workflow ... Simple ChIP-Seq Analysis with SeqMonkThis video shows the process of doing a simple analysis of a single ChIP-Seq dataset. It goes through the process of identifying and quantitating ... SeqMonk initial setupThis video shows the process of setting up a new installation of SeqMonk for the first time. ... SeqMonk configuration ... Visualizing and Analysing ChIP-Seq Data with Subio PlatformImporting ChIP-Seq data based on Illumina's next generation sequencing technology intoSubio Pl…

SIG-MBIとOpen-bioで発表してきました

以下のふたつの研究会に参加してきました。

第46回 人工知能学会 分子生物情報研究会
第14回 オープンバイオ研究会

前者では定量生物の会や分子生物学会年会で話した ChIP-seq 解析の続きを話をしました。細胞特異的な転写因子パートナーの予測が実験でも確かめられたことを話せたので、研究としては(論文が受理されれば)ひとまずこれで一周したかな、と思います。今後は「統計モデルから物理モデルへ」と「予測から設計へ」という2つのキーワードで先を目指したいと考えています。

オープンバイオのほうでは、2003年から始めて2008年から放置ぎみのバイオインフォマティクス向け Linux OS, Knoppix for Bio (KNOB) のこれまでと今後について話しました。Amazon Web Service の EC2 を使ってクラウド化を目指すのが良いのではないか、という内容です。僕のキャラはプロトタイピングとプロディース向きなので、きっちりとメンテをやってくれるキャラのパートナーを絶賛募集中です。

ともかく、オープンバイオ研究会の原点とも言える KGB (KNOB, G-language, BioRuby) がそろって「これまでと今後」について話せたのはある意味マイルストンとしては良いミーティングだったと思います。

名物の夜のディスカッションでは、オミックス解析が「定性的なパイプライン処理」から「定量的なモデルによるデータ統合」へ変化することを予測して、それに耐え得るツール、データベース、セマンティックWeb技術などのが次のオープンバイオの課題である、という話をしました。パイプライン処理の結果を単にID変換(表の結合やベン図)により結合するだけでなく、定量的なモデルにより統合するためには、数値データの扱い、オブジェクト(転写単位やプロモータ領域)の閾値による動的な変化などをうまく扱う必要があります。これらの問題を解決する方法が、今のセマンティックWebやパイプライン管理システムの先にあるのか。数年かけてじっくり考えるべきテーマだと思います。

一方で、現在のバイオ系のセマンティックWeb関連の研究開発の延長に、クイズチャンピオンに勝利できる Watson の愛称で知られている DeepQA に相当する、DeepLSQA (LS = life science) が実現できるのか、とい…

ChIP-seq の Peak calling tool を集めたよ

ChIP-seqの統計解析のレビュー読んだよ

超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。

ポリシー

自分が思い出すために必要な情報をメモるだけよ
知ってることはあまりメモしないよ
必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に)


つまり人に読ませるつもりで書いてません、ごめんね。

今回の論文
1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes.

サマリ
112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。

Mapping について
マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。

Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108

Mapping tool については以下の論文を読めばいよいらしい。
Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 473-483. doi:1…