今回読む論文はこれ。 3. Pepke, S., & Wold, B. (2009). Computation for ChIP-seq and RNA-seq studies. Nature method ChIP-seq について体系的に書かれているレビュー。現在出版されているレビューのなかでは一番良いと思う。 ChIP-seq の概要 ChIP-seq を成否は、 1. 十分に binding site が enrich されていること 2. enrich されたクロマチン分子を獲得できていること の2点に依存する。 mapping は specificity (unique reads only) と increasing sensitivity (multireads used) のトレードオフがある。ChIP reactions は enrichments であって purifications ではない(`・ω・´)キリッ Background と真のシグナルを分ける必要がある。哺乳類ゲノムは大きいので background の coverage が低いことに注意する。単純な tag count が多いピークに生物学的な意味があるとは限らない。バックグラウンドやコントロールとの比較する。いろんなツールやパラメータを試して変化のないピークをつかうべき。 ChIP peak の分類 sequence specific tf だと特定の位置に鋭いピークが立つ。RNA polymerase はTSSに強く鋭いピークがでるが gene body にも broad なシグナルがでる。Histone などの場合は nucleosome level の broad なピークが続く。それぞれ別なアルゴリズムやパラメータで検出しなければならない。 Peak finding の用語整理と解析の流れ まずは用語の説明。ホワイトボードにメモった手書きの図をアップしておく。read を reference genome に mapping すると1塩基ごとの tag count が計算できる。この tag count から binding site を得る問題を解く。この際に、tag count から分布に変換する処理を peak calling や peak findin...