超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。
つまり人に読ませるつもりで書いてません、ごめんね。
1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes.
112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。
マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。
Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108
Mapping tool については以下の論文を読めばいよいらしい。
Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 473-483. doi:10.1093/bib/bbq015
ChIP-seqの peak calling のアルゴリズム大別して3つ。タグカウントの移動平均をベースとした方法 (F-seq, QuEST)、確率モデルを使う方法 (CisGenome, BayesPeak)、より複雑な方法(HMMなど)。
F-seq アルゴリズムの説明が微妙なので元論文を読む。ようはタグカウントの分布をカーネル密度推定(Univariate kernel density estimation)する方法で、カーネルには Gaussian kernel を使っている。
2. Boyle, A. P., Guinney, J., Crawford, G. E., & Furey, T. S. (2008). F-Seq: a feature density estimator for high-throughput sequence tags Bioinformatics (Oxford, England), 24(21), 2537-2538. doi:10.1093/bioinformatics/btn480
確率モデルを使う方法では、確率分布には Gamma-Poisson distribution (いわゆる negative binomial distribution) を使う。MACSのなかのひとが poisson distribution のパラメータ λがデータと合わないと言いだして、peak ごとにローカルなλを仮定した。まあだったらλを非負の確率変数と考えて Gamma-Poisson distribution を使えばよいわけで、これを始めたのが CisGenome, BayesPeak の2つとか。Peak calling の今後の課題としては mappability score を考慮した peak calling, FDRの計算手法の改善などがある。
Peak calling アルゴリズムの比較
Laajala, T. D., Raghav, S., Tuomela, S., Lahesmaa, R., Aittokallio, T., & Elo, L. L. (2009). A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments BMC genomics, 10, 618. doi:10.1186/1471-2164-10-618
Wilbanks, E. G., & Facciotti, M. T. (2010). Evaluation of algorithm performance in ChIP-seq peak detection PloS one, 5(7), e11471. doi:10.1371/journal.pone.0011471
その後の解析について。binding site と遺伝子アノテーションの統合、TFBS (Transcription Factor Binding Site) の予測、いわゆるDNAモチーフ解析がある。(もうひとつ重要なことがあると思うけど書いてないね)。
Shin, H., Liu, T., Manrai, A. K., & Liu, X. S. (2009). CEAS: cis-regulatory element annotation system Bioinformatics (Oxford, England), 25(19), 2605-2606. doi:10.1093/bioinformatics/btp479
Blahnik, K. R., Dou, L., O'Geen, H., McPhillips, T., Xu, X., Cao, A. R., Iyengar, S., et al. (2010). Sole-Search: an integrated analysis program for peak detection and functional annotation using ChIP-seq data Nucleic acids research, 38(3), e13. doi:10.1093/nar/gkp1012
Salmon-Divon, M., Dvinge, H., Tammoja, K., & Bertone, P. (2010). PeakAnalyzer: genome-wide annotation of chromatin binding and modification loci BMC bioinformatics, 11, 415. doi:10.1186/1471-2105-11-415
レビューには出てこないけどこれもある。
Zhu, L. J., Gazin, C., Lawson, N. D., Pages, H., Lin, S. M., Lapointe, D. S., & Green, M. R. (2010). ChIPpeakAnno: a Bioconductor package to annotate ChIP-seq and ChIP-chip data BMC bioinformatics, 11, 237. doi:10.1186/1471-2105-11-237
TFBSの解析は de novo motif 解析と既知の motif 配列の enrichment をみる解析の2通りがある。前者はこれを読んでおけばだいたいOK
Tompa, M., Li, N., Bailey, T. L., Church, G. M., De Moor, B., Eskin, E., Favorov, A. V., et al. (2005). Assessing computational tools for the discovery of transcription factor binding sites Nature biotechnology, 23(1), 137-144. doi:10.1038/nbt1053
ただ古いレビューなので、ChIP-seq のために高速化されたり新しい手法を実装したツールも紹介されている。
Hu, M., Yu, J., Taylor, J. M. G., Chinnaiyan, A. M., & Qin, Z. S. (2010). On the detection and refinement of transcription factor binding sites using ChIP-Seq data Nucleic acids research, 38(7), 2154-2167. doi:10.1093/nar/gkp1180
レビューには登場しないがこれもそうか。
Sharov, A. A., & Ko, M. S. H. (2009). Exhaustive search for over-represented DNA sequence motifs with CisFinder DNA research : an international journal for rapid publication of reports on genes and genomes, 16(5), 261-273. doi:10.1093/dnares/dsp014
残り98報。つづく。
ポリシー
- 自分が思い出すために必要な情報をメモるだけよ
- 知ってることはあまりメモしないよ
- 必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に)
つまり人に読ませるつもりで書いてません、ごめんね。
今回の論文
1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes.
サマリ
112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。
Mapping について
マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。
Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108
Mapping tool については以下の論文を読めばいよいらしい。
Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 473-483. doi:10.1093/bib/bbq015
ChIP_seq peak calling
ChIP-seqの peak calling のアルゴリズム大別して3つ。タグカウントの移動平均をベースとした方法 (F-seq, QuEST)、確率モデルを使う方法 (CisGenome, BayesPeak)、より複雑な方法(HMMなど)。
F-seq アルゴリズムの説明が微妙なので元論文を読む。ようはタグカウントの分布をカーネル密度推定(Univariate kernel density estimation)する方法で、カーネルには Gaussian kernel を使っている。
2. Boyle, A. P., Guinney, J., Crawford, G. E., & Furey, T. S. (2008). F-Seq: a feature density estimator for high-throughput sequence tags Bioinformatics (Oxford, England), 24(21), 2537-2538. doi:10.1093/bioinformatics/btn480
確率モデルを使う方法では、確率分布には Gamma-Poisson distribution (いわゆる negative binomial distribution) を使う。MACSのなかのひとが poisson distribution のパラメータ λがデータと合わないと言いだして、peak ごとにローカルなλを仮定した。まあだったらλを非負の確率変数と考えて Gamma-Poisson distribution を使えばよいわけで、これを始めたのが CisGenome, BayesPeak の2つとか。Peak calling の今後の課題としては mappability score を考慮した peak calling, FDRの計算手法の改善などがある。
Peak calling アルゴリズムの比較
Laajala, T. D., Raghav, S., Tuomela, S., Lahesmaa, R., Aittokallio, T., & Elo, L. L. (2009). A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments BMC genomics, 10, 618. doi:10.1186/1471-2164-10-618
Wilbanks, E. G., & Facciotti, M. T. (2010). Evaluation of algorithm performance in ChIP-seq peak detection PloS one, 5(7), e11471. doi:10.1371/journal.pone.0011471
Peak calling 後の解析
その後の解析について。binding site と遺伝子アノテーションの統合、TFBS (Transcription Factor Binding Site) の予測、いわゆるDNAモチーフ解析がある。(もうひとつ重要なことがあると思うけど書いてないね)。
Annotation Tool
Shin, H., Liu, T., Manrai, A. K., & Liu, X. S. (2009). CEAS: cis-regulatory element annotation system Bioinformatics (Oxford, England), 25(19), 2605-2606. doi:10.1093/bioinformatics/btp479
Blahnik, K. R., Dou, L., O'Geen, H., McPhillips, T., Xu, X., Cao, A. R., Iyengar, S., et al. (2010). Sole-Search: an integrated analysis program for peak detection and functional annotation using ChIP-seq data Nucleic acids research, 38(3), e13. doi:10.1093/nar/gkp1012
Salmon-Divon, M., Dvinge, H., Tammoja, K., & Bertone, P. (2010). PeakAnalyzer: genome-wide annotation of chromatin binding and modification loci BMC bioinformatics, 11, 415. doi:10.1186/1471-2105-11-415
レビューには出てこないけどこれもある。
Zhu, L. J., Gazin, C., Lawson, N. D., Pages, H., Lin, S. M., Lapointe, D. S., & Green, M. R. (2010). ChIPpeakAnno: a Bioconductor package to annotate ChIP-seq and ChIP-chip data BMC bioinformatics, 11, 237. doi:10.1186/1471-2105-11-237
TFBSの解析は de novo motif 解析と既知の motif 配列の enrichment をみる解析の2通りがある。前者はこれを読んでおけばだいたいOK
Tompa, M., Li, N., Bailey, T. L., Church, G. M., De Moor, B., Eskin, E., Favorov, A. V., et al. (2005). Assessing computational tools for the discovery of transcription factor binding sites Nature biotechnology, 23(1), 137-144. doi:10.1038/nbt1053
ただ古いレビューなので、ChIP-seq のために高速化されたり新しい手法を実装したツールも紹介されている。
Hu, M., Yu, J., Taylor, J. M. G., Chinnaiyan, A. M., & Qin, Z. S. (2010). On the detection and refinement of transcription factor binding sites using ChIP-Seq data Nucleic acids research, 38(7), 2154-2167. doi:10.1093/nar/gkp1180
レビューには登場しないがこれもそうか。
Sharov, A. A., & Ko, M. S. H. (2009). Exhaustive search for over-represented DNA sequence motifs with CisFinder DNA research : an international journal for rapid publication of reports on genes and genomes, 16(5), 261-273. doi:10.1093/dnares/dsp014
残り98報。つづく。
コメント
コメントを投稿