スキップしてメイン コンテンツに移動

RNA-seq から発現量が変動した遺伝子をどのように得るか

RNA-seq のデータから、統計的に有意な変動を示す遺伝子をどのように得るか。Microarray ときにも散々議論されましたが、RNA-seq でも同じく議論になっています。現在提案されている手法についてまとめてみました。

まだ全部には目を通せてません。すべて読んだ後に解説を書くかもしれませんが、網羅している自信がないので、先にリンクを列挙しておきます。主に論文とツールのソースコード、マニュアルなどです。ほかに情報をお持ちの方は教えてくださいな。

1. cufflinks と cuffdiff


http://cufflinks.cbcb.umd.edu/howitworks.html の後半に cuffdiff の説明がある。

FPKM
Trapnell C, Williams BA, Pertea G, Mortazavi AM, Kwan G, van Baren MJ, Salzberg SL, Wold B, Pachter L. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology doi:10.1038/nbt.1621
http://dx.doi.org/10.1038/nbt.1621


Jensen–Shannon divergence
http://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence

以下の3つも知っておいたほうが理解しやすい良い。

RPKM
Ali Mortazavi, Brian A Williams, Kenneth McCue, Lorian Schaeffer and Barbara Wold Mapping and quantifying mammalian transcriptomes by RNA-Seq Nature Methods, volume 5, 621 - 628 (2008)
http://www.nature.com/nmeth/journal/v5/n7/abs/nmeth.1226.html

Hui Jiang and Wing Hung Wong, Statistical Inferences for isoform expression, Bioinformatics, 2009 25(8):1026-1032
http://bioinformatics.oxfordjournals.org/cgi/content/full/25/8/1026

2. baySeq


http://www.bioconductor.org/packages/release/bioc/html/baySeq.html
Hardcastle TJ, Kelly KA. baySeq: Empirical Bayesian Methods For Identifying Differential Expression In Sequence Count Data. BMC Bioinformatics. 2010 Aug 10;11(1):422. [Epub ahead of print] PubMed PMID: 20698981.
http://www.biomedcentral.com/1471-2105/11/422/abstract

マイクロアレイ時代に提案されていた元ネタ達
Smyth GK: Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology 2004
http://www.biomedcentral.com/pubmed/16646809

Lönnstedt IM, Rimini R, Nilsson P: Empirical Bayes Microarray ANOVA and Grouping Cell Lines by Equal Expression Levels. Statistical Applications in Genetics and Molecular Biology 2005
http://dx.doi.org/10.2202/1544-6115.1125


3. DEseq


Differential expression analysis for sequence count data
Simon Anders and Wolfgang Huber
http://precedings.nature.com/documents/4282/version/2

http://www-huber.embl.de/users/anders/DESeq/
http://www.bioconductor.org/packages//release/bioc/html/DESeq.html
http://www-huber.embl.de/users/anders/DESeq/

4. EdgeR


http://www.bioconductor.org/packages/release/bioc/html/edgeR.html

Robinson, MD and Smyth GK (2007)
Moderated Statistical Tests for Assessing Differences in Tag Abundance, Bioinformatics. 23(21):2881-7.
http://www.ncbi.nlm.nih.gov/pubmed/17881408

Robinson, MD and Smyth, GK (2008)
Small Sample Estimation of Negative Binomial Dispersion, with applications to SAGE data, Biostatistics. 9(2):321-32.
http://www.ncbi.nlm.nih.gov/pubmed/17728317

EdgeR は元々 msage というパッケージだった。

古典


SAGE時代の古典的論文。

Baggerly KA, Deng L, Morris JS, Aldaz CM: Overdispersed logistic regression for SAGE: modelling multiple groups and covariates. BMC Bioinformatics 2004 , 5:144
http://www.biomedcentral.com/pubmed/15469612

Lu J, Tomfohr JK, Kepler TB: Identifying differential expression in multiple SAGE libraries: an overdispersed log-linear model approach. BMC Bioinformatics 2005 , 6:165.
http://www.biomedcentral.com/pubmed/15987513

定量化と簡単な正規化法の比較


Bullard JH, Purdom E, Hansen KD, Dudoit S. Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments. BMC Bioinformatics. 2010 Feb 18;11:94. PubMed PMID: 20167110; PMCID: PMC2838869.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2838869/

正規化は
(1) total lane counts, as in RPKM
(2) per-lane counts for a "housekeeping" gene expected to be constantly expressed across biological conditions, e.g., POLR2A
(3) per-lane upper-quartile of gene counts for genes with reads in at least one lane.
の3つを比較

論文のなかに出てくる Hypergeometric model
Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Genome Res. 2008 Sep;18(9):1509-17. Epub 2008 Jun 11. PubMed PMID: 18550803; PMCID: PMC2527709.
http://www.ncbi.nlm.nih.gov/pubmed/18550803

Multiple DGE librairies comparison. (EdgeR baySeq DESeq)
http://seqanswers.com/forums/showthread.php?t=4349

コメント

  1. [...] Read the original here:  RNA-seq から発現量が変動した遺伝子をどのように得るか « Hacking is … MangaSpoiler.com | Top Gadget TrendsOoops!: 途中経過めんどくさい - Windows LiveLIFE IS LIKE POKER - Kim "i [...]

    返信削除

コメントを投稿

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。 モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。   うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。   欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。   購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。   ChaiBio https://www.chaibio.com/   OpenPCR https://www.chaibio.com/products/openpcr   なぜか http://openpcr.org/  で購入できなかったので、eBay にある ChaiBio で買いました。   OpenPCR - eBay http://www.ebay.com/itm/111096418574   本体価格は

大学の研究室でアカデミックプランが使えるICTツール

自分らでサーバ管理したくないので、SaaS系とローカルで動くソフトのみ。ローカルで動くソフトに関しては、Mac or Docker で動くもののみ。 無償 G Suite for Education  (ドキュメント共有、カレンダーなど) GitHub Education  (ソースコード管理) esa.io アカデミックプラン  (知識共有) Tableau  (データ可視化) Scrapbox  (知識共有) GROWI.cloud  (Wikiなど) 割引 Slack の教育支援プログラム  (ビジネスチャット) Dropbox Education  (ファイル共有、ドキュメント共有) Office 356  (オフィスソフト) Adobe Creative Cloud  (画像編集) AutoDesk for Education  (CADなど) これから申し込んでいくところなので、本当に使えるかはわかりせん。使えた使えないなどの情報やほかのツールでお勧めがあれば教えてもらえると嬉しいです。 アカデミアでなくても無料で使えるツールのうち、うちで使うであろうものは以下に列挙していく。 Google Colaboratory  (データ解析) Overleaf  (論文執筆) Rstudio  (開発, データ解析) VS code (開発)