スキップしてメイン コンテンツに移動

ChIP-seqの統計解析のレビュー読んだよ

超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。

ポリシー



  • 自分が思い出すために必要な情報をメモるだけよ
  • 知ってることはあまりメモしないよ
  • 必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に)


つまり人に読ませるつもりで書いてません、ごめんね。

今回の論文


1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes.

サマリ


112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。

Mapping について


マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。

Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108

Mapping tool については以下の論文を読めばいよいらしい。
Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 473-483. doi:10.1093/bib/bbq015

ChIP_seq peak calling


ChIP-seqの peak calling のアルゴリズム大別して3つ。タグカウントの移動平均をベースとした方法 (F-seq, QuEST)、確率モデルを使う方法 (CisGenome, BayesPeak)、より複雑な方法(HMMなど)。

F-seq アルゴリズムの説明が微妙なので元論文を読む。ようはタグカウントの分布をカーネル密度推定(Univariate kernel density estimation)する方法で、カーネルには Gaussian kernel を使っている。

2. Boyle, A. P., Guinney, J., Crawford, G. E., & Furey, T. S. (2008). F-Seq: a feature density estimator for high-throughput sequence tags Bioinformatics (Oxford, England), 24(21), 2537-2538. doi:10.1093/bioinformatics/btn480

確率モデルを使う方法では、確率分布には Gamma-Poisson distribution (いわゆる negative binomial distribution) を使う。MACSのなかのひとが poisson distribution のパラメータ λがデータと合わないと言いだして、peak ごとにローカルなλを仮定した。まあだったらλを非負の確率変数と考えて Gamma-Poisson distribution を使えばよいわけで、これを始めたのが CisGenome, BayesPeak の2つとか。Peak calling の今後の課題としては mappability score を考慮した peak calling, FDRの計算手法の改善などがある。

Peak calling アルゴリズムの比較
Laajala, T. D., Raghav, S., Tuomela, S., Lahesmaa, R., Aittokallio, T., & Elo, L. L. (2009). A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments BMC genomics, 10, 618. doi:10.1186/1471-2164-10-618

Wilbanks, E. G., & Facciotti, M. T. (2010). Evaluation of algorithm performance in ChIP-seq peak detection PloS one, 5(7), e11471. doi:10.1371/journal.pone.0011471

Peak calling 後の解析


その後の解析について。binding site と遺伝子アノテーションの統合、TFBS (Transcription Factor Binding Site) の予測、いわゆるDNAモチーフ解析がある。(もうひとつ重要なことがあると思うけど書いてないね)。

Annotation Tool


Shin, H., Liu, T., Manrai, A. K., & Liu, X. S. (2009). CEAS: cis-regulatory element annotation system Bioinformatics (Oxford, England), 25(19), 2605-2606. doi:10.1093/bioinformatics/btp479

Blahnik, K. R., Dou, L., O'Geen, H., McPhillips, T., Xu, X., Cao, A. R., Iyengar, S., et al. (2010). Sole-Search: an integrated analysis program for peak detection and functional annotation using ChIP-seq data Nucleic acids research, 38(3), e13. doi:10.1093/nar/gkp1012

Salmon-Divon, M., Dvinge, H., Tammoja, K., & Bertone, P. (2010). PeakAnalyzer: genome-wide annotation of chromatin binding and modification loci BMC bioinformatics, 11, 415. doi:10.1186/1471-2105-11-415

レビューには出てこないけどこれもある。
Zhu, L. J., Gazin, C., Lawson, N. D., Pages, H., Lin, S. M., Lapointe, D. S., & Green, M. R. (2010). ChIPpeakAnno: a Bioconductor package to annotate ChIP-seq and ChIP-chip data BMC bioinformatics, 11, 237. doi:10.1186/1471-2105-11-237

TFBSの解析は de novo motif 解析と既知の motif 配列の enrichment をみる解析の2通りがある。前者はこれを読んでおけばだいたいOK

Tompa, M., Li, N., Bailey, T. L., Church, G. M., De Moor, B., Eskin, E., Favorov, A. V., et al. (2005). Assessing computational tools for the discovery of transcription factor binding sites Nature biotechnology, 23(1), 137-144. doi:10.1038/nbt1053

ただ古いレビューなので、ChIP-seq のために高速化されたり新しい手法を実装したツールも紹介されている。

Hu, M., Yu, J., Taylor, J. M. G., Chinnaiyan, A. M., & Qin, Z. S. (2010). On the detection and refinement of transcription factor binding sites using ChIP-Seq data Nucleic acids research, 38(7), 2154-2167. doi:10.1093/nar/gkp1180

レビューには登場しないがこれもそうか。

Sharov, A. A., & Ko, M. S. H. (2009). Exhaustive search for over-represented DNA sequence motifs with CisFinder DNA research : an international journal for rapid publication of reports on genes and genomes, 16(5), 261-273. doi:10.1093/dnares/dsp014

残り98報。つづく。

コメント

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen

ふりかえり

2013年4月に独立して7年目が終わろうとしている。ざっくりこれまでの研究を振り返る。 2013年から2017年の4年はフルスタックのゲノム科学、ゲノムインフォのラボを立ち上げることに集中していた。しかも人様が作った技術のユーザとして研究するのではなく、新しい技術を開発できるラボを目指した。ウェットの開発については、ドライのPIであっても本物を創りたいと考えたので世界最強や唯一の技術を目指した。特に1細胞ゲノム科学に注力した。そのためにまずグラントを取り仲間を集め技術を作った。幸いウェットは元同僚を中心に、ドライはドクター新卒の優秀な人材に囲まれた。並行して開発した実験やデータ解析技術を応用するため、データ生産や共同研究を支えるチームも作った。 2015年ぐらいからドライの論文が少しずつ出始め、2018年にはウェットのフラッグシップとなる技術RamDA-seqとQuartz-Seq2の2つ出版された。2021年1月現在、これらはそれぞれ世界唯一と世界最高性能の2冠である。これが達成できた大きな理由のひとつは、反応原理を徹底的に理解し制御するというチームやそのメンバーの特性にある。ここは世界最高レベルだと確信している。 2017-2018年はラボの移転がありウェットの開発や実験が大きく停滞した。その間ドライのチームががんばってくれて2019-2020年にはドライ研究の収穫の時期がきた。またRamDA-seqの試薬キット化・装置化、Quartz-Seq2とそのデータ解析技術での起業、実験試薬や道具の上市など社会実装の年でもあった。実験が少なくなった分、ウェットのメンバーの解析技術がかなり向上した時期でもある。これはウェットとドライがうまくコミュニケーションできる証拠でもある。 2019-2020年はウェット技術のフラッグシップを駆使した共同研究がいくつか花咲いた。主に「再生医療分野」への応用と「細胞ゆらぎと転写制御の謎」に迫る基礎的なテーマが対象で、もともと1細胞ゲノム科学を始めたときに目標としたものだった。 並行してゲノムデータの科学計算環境のインフラ開発に注力してきた。beowulf型PCクラスタからクラウドの移行やハイブリッド化、DevOpsによる自動構築、ワークフロー言語の導入、動的レポート生成などの導入・開発を行いこれらを日常的に使うラボになった。これらはNI