スキップしてメイン コンテンツに移動

ゲノム可視化に関するR+Bioconductorのパッケージ

From Evernote:

ゲノム可視化に関するR+Bioconductorのパッケージ

個々のツールにも可視化の機能があるが、ここではゲノムの可視化を専門とし、特定のアプリケーション(RNA-seq, ChIP-seq, microarray, CNV など) に依存せずに、汎用的に活用できるパッケージを紹介する。

GenomeGraphs
Plotting genomic information from Ensembl
http://www.bioconductor.org/packages/release/bioc/html/GenomeGraphs.html
既知のゲノム・遺伝子構造などを Ensembl biomart から biomaRt を使って取ってきて、いろいろなプロットできる。もちろん自分の実験データ(シーケンスや microarray など)のプロットもできる。

genoPlot
自分で作成したデータや BLAST や DB の flat file から作図できる。比較ゲノム的な可視化に強い印象。
Bioconductor じゃなく、CRAN。まあ、BioCに通すのはいろいろ大変だからね...

ggbio
Static visualization for genomic data
Genome界の ggplot2 と言えばいいか。遺伝子構造から coverage, 染色体マップまで描ける。

biovizBase
Basic graphic utilities for visualization of genomic data
ggbio のコードを理解するには知っておいたほうがいい。

ChromHeatMap
Heat map plotting by genome coordinate
染色体構造とヒートマップ(階層クラスタリング)が同時に描ける

rtracklayer
R interface to genome browsers and their annotation tracks
UCSC Genome Browser の annotation tracks にデータを import したり、export したりできる。対応しているフォーマットは GFF, BED, bedGraph, BED15, WIG, BigWig など。

このブログの人気の投稿

Quartz-Seqで1細胞/微量RNA-Seqを始めたい方へ

はじめに 新しい高精度な1細胞RNA-Seq, Quartz-Seq論文を出してから、各方面から多く相談を受けています。
Sasagawa Y and Nikaido I, et. al. Quartz-Seq: a highly reproducible and sensitive single-cell RNA-Seq reveals non-genetic gene expression heterogeneity. Genome Biology. 14. 2013 
そこで、新しく1細胞RNA-Seqを始める方へ、僕達が理想だと考えている技術導入の手順を紹介したいと思います。また我々の方法は1細胞(6-14 pg Total RNA)だけでなく pg-ng オーダーの少量RNAからシーケンスが可能です。そのような方も以下の手順が参考になると思います。 0. 1細胞/微量RNA-Seqが本当に必要なのか検討する 1細胞/微量RNA-Seqでは、現時点でQuartz-Seqが世界最高の性能を持っている訳ですが、十分なサンプルを用意し、通常のRNA-Seqしたほうが、より精度の高いデータが得られます。なので、基本的には、サンプルをたくさん集める方法をしっかり検討すべきです。まずは、戦略面と技術面で1細胞/微量RNA-Seqが本当に必要かを検討する基準について書きます。 0.1. 戦略面での検討 あなたが抱えているプロジェクトが、1細胞/微量RNA-Seqでなければアプローチできないかどうかを問い直すことが重要です。
基本的には以下の2つの状況で、1細胞/微量RNA-Seqが役に立ちます。
a. 細胞状態が連続的に変化し、さまざまな細胞状態が、細胞集団に含まれている場合 (振動現象、ゆらぎなど) b. 細胞状態を特定するマーカーがほどんどわかっていない場合
最初から細胞状態が2状態しかないことが明らかで、しかも細胞状態を代表する遺伝子が分かっている、という状況では、FACSなどで cell sorting し、目的の細胞を採取することを考えるべきです。そして、微量RNA-Seqや通常のRNA-Seqで、しっかりと biological replication を取る方が良いでしょう。微量になると、テクニカルなノイズが増えるために、生物学的な差を知るためには、n を…

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。

まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。
気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。

From Evernote: シーケンスアダプタ配列除去ツールまとめTagDust
http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full
インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash
使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq
解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple string search) を利用。FDRを指定できる。GPL3