スキップしてメイン コンテンツに移動

投稿

3月, 2011の投稿を表示しています

ChIP-seqの統計解析のレビュー読んだよ2

今回読む論文はこれ。 3. Pepke, S., & Wold, B. (2009). Computation for ChIP-seq and RNA-seq studies. Nature method ChIP-seq について体系的に書かれているレビュー。現在出版されているレビューのなかでは一番良いと思う。 ChIP-seq の概要 ChIP-seq を成否は、 1. 十分に binding site が enrich されていること 2. enrich されたクロマチン分子を獲得できていること の2点に依存する。 mapping は specificity (unique reads only) と increasing sensitivity (multireads used) のトレードオフがある。ChIP reactions は enrichments であって purifications ではない(`・ω・´)キリッ Background と真のシグナルを分ける必要がある。哺乳類ゲノムは大きいので background の coverage が低いことに注意する。単純な tag count が多いピークに生物学的な意味があるとは限らない。バックグラウンドやコントロールとの比較する。いろんなツールやパラメータを試して変化のないピークをつかうべき。 ChIP peak の分類 sequence specific tf だと特定の位置に鋭いピークが立つ。RNA polymerase はTSSに強く鋭いピークがでるが gene body にも broad なシグナルがでる。Histone などの場合は nucleosome level の broad なピークが続く。それぞれ別なアルゴリズムやパラメータで検出しなければならない。 Peak finding の用語整理と解析の流れ まずは用語の説明。ホワイトボードにメモった手書きの図をアップしておく。read を reference genome に mapping すると1塩基ごとの tag count が計算できる。この tag count から binding site を得る問題を解く。この際に、tag count から分布に変換する処理を peak calling や peak findin

ChIP-seqデータ解析のムービーを集めたよ

YouTube などにアップされているChIP-seq解析のムービーを集めてみました。あまりないですね。僕は以下のツールはひとつも使っていないですが、ムービーを見る限り、最近のGUIのツールはよくできている印象を受けました。NGS解析怖くない! まあ、http://outloger.com/ を使ってみたかっただけというのが本当のところですw DNASTAR- ChIP-Seq Workflow DNASTAR's ChIP-Seq software allows users to quickly and easily identify transcription factor binding sites. The software enables users to ... GenomeQuest - ChIP-Seq Workflow This video is an overview of the GenomeQuest ChIP-Seq Workflow. This solution provides state-of-the-art tools across the entire workflow ... Simple ChIP-Seq Analysis with SeqMonk This video shows the process of doing a simple analysis of a single ChIP-Seq dataset. It goes through the process of identifying and quantitating ... SeqMonk initial setup This video shows the process of setting up a new installation of SeqMonk for the first time. ... SeqMonk configuration ... Visualizing and Analysing ChIP-Seq Data with Subio Platform Importing ChIP-Seq data based on Illumina's next generation sequencing technology in

SIG-MBIとOpen-bioで発表してきました

以下のふたつの研究会に参加してきました。 第46回 人工知能学会 分子生物情報研究会 第14回 オープンバイオ研究会 前者では定量生物の会や分子生物学会年会で話した ChIP-seq 解析の続きを話をしました。細胞特異的な転写因子パートナーの予測が実験でも確かめられたことを話せたので、研究としては(論文が受理されれば)ひとまずこれで一周したかな、と思います。今後は「統計モデルから物理モデルへ」と「予測から設計へ」という2つのキーワードで先を目指したいと考えています。 オープンバイオのほうでは、2003年から始めて2008年から放置ぎみのバイオインフォマティクス向け Linux OS, Knoppix for Bio (KNOB) のこれまでと今後について話しました。Amazon Web Service の EC2 を使ってクラウド化を目指すのが良いのではないか、という内容です。僕のキャラはプロトタイピングとプロディース向きなので、きっちりとメンテをやってくれるキャラのパートナーを絶賛募集中です。 ともかく、オープンバイオ研究会の原点とも言える KGB (KNOB, G-language, BioRuby) がそろって「これまでと今後」について話せたのはある意味マイルストンとしては良いミーティングだったと思います。 名物の夜のディスカッションでは、オミックス解析が「定性的なパイプライン処理」から「定量的なモデルによるデータ統合」へ変化することを予測して、それに耐え得るツール、データベース、セマンティックWeb技術などのが次のオープンバイオの課題である、という話をしました。パイプライン処理の結果を単にID変換(表の結合やベン図)により結合するだけでなく、定量的なモデルにより統合するためには、数値データの扱い、オブジェクト(転写単位やプロモータ領域)の閾値による動的な変化などをうまく扱う必要があります。これらの問題を解決する方法が、今のセマンティックWebやパイプライン管理システムの先にあるのか。数年かけてじっくり考えるべきテーマだと思います。 一方で、現在のバイオ系のセマンティックWeb関連の研究開発の延長に、クイズチャンピオンに勝利できる Watson の愛称で知られている DeepQA に相当する、DeepLSQA (LS = life science) が実現でき

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen

ChIP-seqの統計解析のレビュー読んだよ

超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。 ポリシー 自分が思い出すために必要な情報をメモるだけよ 知ってることはあまりメモしないよ 必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に) つまり人に読ませるつもりで書いてません、ごめんね。 今回の論文 1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes. サマリ 112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。 Mapping について マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。 Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108 Mapping tool については以下の論文を読めばいよいらしい。 Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 4