超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。 ポリシー 自分が思い出すために必要な情報をメモるだけよ 知ってることはあまりメモしないよ 必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に) つまり人に読ませるつもりで書いてません、ごめんね。 今回の論文 1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes. サマリ 112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。 Mapping について マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。 Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108 Mapping tool については以下の論文を読めばいよいらしい。 Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 4...