スキップしてメイン コンテンツに移動

投稿

R/Bioconductor のパッケージ作成に役立つリンク集

From Evernote: R/Bioconductor のパッケージ作成に役立つリンク集 R や Bioconductor のパッケージ作成について、参考になりそうなリンク集を集めました。 Creating R Packages: A Tutorial http://cran.r-project.org/doc/contrib/Leisch-CreatingPackages.pdf Rパッケージ作成に関するチュートリアルのテキスト。これを一通りやれば作れるようになる。S3, S4 classes についても書いてある。R5 classes については書いてない。 Building Packages http://www.bioconductor.org/help/course-materials/2010/AdvancedR/BuildPackage.pdf R packages 作成に必要な基礎知識をまとめた資料。プレゼン形式なので要点がまとまっていて読みやすい。BioC について一部書いてある。 Building Packages: Self-Study Exercises http://www.bioconductor.org/help/course-materials/2011/AdvancedRFeb2011Seattle/BuildPackage-lab.pdf 同じく Wong さんの資料。パッケージ作成の演習問題。 Seminar III: R/Bioconductor http://www.lcg.unam.mx/~lcollado/B/lectures/packages/packages.pdf これもBioCライブラリ作成のレクチャー資料。プレゼン形式。要点がまとまっていてよい。 Authoring R Packages http://www.bioconductor.org/help/course-materials/2008/advanced_R/packages.pdf Rパッケージの仕組みについてのレクチャーの資料。プレゼン形式。BioCについては書いてない。 Bioconductor...

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple ...

Evernote から blogger に投稿するテスト

From Evernote: Evernote から blogger に投稿するテスト ここの blog エントリはだいたい Evernote に書いてあるメモを修正して公開している。Evernote にはノートをメール送信する機能があるので、それを使って blogger に投稿できるか試してみる。 リンクが張れるか? http://blog.hackingisbelieving.org/ 画像が張れるか? フォント情報は維持されるか? サイズのテスト 色のテスト スタイルのテスト フォントの種類 hoge fuga piyo  チェックボックス Table テーブル ほげ ふが hr --- ここまで Evernote で書いた --- おお、できるね! これはラクチンかも。画像もちゃんと投稿される! そもそも Evernote にメモを取るようになってから blog を書く頻度が非常に下がったが、Evernote のメモを blogger に簡単に投稿できるようになると、少しは更新頻度が上がるかも。 blogger の設定画面から、メール投稿機能を ON にしておく必要あり。いきなり投稿することもできるし、下書きにいれることも可能。これで Evernote のほうを更新すると自動的に blogger も更新されると嬉しいのだが...

先取り! Bioconductor 2.9で追加される ChIP-seq 関連の Library

先取りして、BioC 2.9で追加される ChIP-seq 関連の Library を一行解説とともにリストしてみた。 BCRANK: Predicting binding site consensus from ranked DNA sequences http://www.bioconductor.org/packages/2.9/bioc/html/BCRANK.html DiffBind: differential binding analysis of ChIP-Seq peak data ChIP-seq データの比較に焦点を当てたツール。Overlap 計算、Boxplot, PCA biplot, heatmap による可視化、edgeR, DESeq をつかった binding affinity 解析 http://www.bioconductor.org/packages/2.9/bioc/html/DiffBind.html PMAPPER: R interface to the MAPPER database of transcription factor binding sites TFBS の database である MAPPER ( http://genome.ufl.edu/mapper/ ) の API http://www.bioconductor.org/packages/2.9/bioc/html/RMAPPER.html ChIPsim: Simulation of ChIP-seq experiments ChIP-seq のシミュレーションをする。現在のところ nucleosome ChIP-seq にフォーカス http://www.bioconductor.org/packages/2.9/bioc/html/ChIPsim.html iSeq: Bayesian Hierarchical Modeling of ChIP-seq Data Through Hidden Ising Models 隠れイジングモデルを使った binding site の同定。手法の元論文は、Q Mo, 2011.  A fully...

R + Bioconductor にある ChIP-seq 関連のライブラリ

1行感想付きで。 CSAR, Statistical tools for the analysis of ChIP-seq data いわゆる peak caller で正規化・サンプル間比較などもできる。有意差はFDRで。C++ http://www.bioconductor.org/packages/release/bioc/html/CSAR.html chipseq: A package for analyzing chipseq data 名前まんま。chipseq 解析のツールを作るときに使えそうなツール。複数行の操作や、coverage, depth 計算など。解析そのものの機能はない。もちろん peak calling や binding site 同定の機能はない。MAQなどのデータを ShartRead, IRanges などで操作するためのフロントエンドっぽいイメージ。 http://www.bioconductor.org/packages/release/bioc/html/chipseq.html ChIPseqR: Identifying Protein Binding Sites in High-Throughput Sequencing Data MNase digest した nucleosome の ChIP-seq 向けの binding site 同定。いつかの診断プロットも書ける。 http://www.bioconductor.org/packages/release/bioc/html/ChIPseqR.html ChIPpeakAnno: Batch annotation of the peaks identified from either ChIP-seq or ChIP-chip experiments. peak の操作ができる。遺伝子への assignment や GO enrichment, データ間比較などが計算できる。BED, GFF から IRanges にインポートする。 http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnn...

きれいなディレクトリ構成でRプログラミング

Rでコーディングするときに、データや単体テストのコード、ライブラリなどのディレクトリ構成を決めておくと、なにかと便利です。毎度、ディレクトリ構成が変わると設定をコードに書かないとならなくなり、保守が面倒になりますよね。Convention over configuration です。 Rで推奨されるような綺麗なディレクトリ構成を自動生成するライブラリを発見しました (自分で作ろうと思ったのですが)。その名も ProjectTemplate です。 では、インストールします。 $ sudo R install.packages('ProjectTemplate') 使ってみます。 $ R library('ProjectTemplate') create.project('myproject') setwd('myproject') load.project() 以下のようなディレクトリ構成でプロジェクトが作成されています。 $ tree myproject/ myproject/ ├── README ├── TODO ├── cache ├── config │   └── global.dcf ├── data ├── diagnostics │   └── 1.R ├── doc ├── graphs ├── lib │   └── helpers.R ├── logs ├── munge │   └── 01-A.R ├── profiling │   └── 1.R ├── reports ├── src └── tests └── 1.R 13 directories, 8 files ファイルやRDBMSからデータを自動ロードできるように設定したり、lib以下の関数の単体テストを生成するコマンドなどがあります。次回はなにか適当なツールを作ってみながら使い方を解説できればと思います。

公式サイトを新しいアドレスで再スタートします

個人のウェブサイトを以下のアドレスに変更しました。ブログも移動しているのでRSSの購読をされていたかたは変更して頂けると嬉しいです。 サイト:  http://hackingisbelieving.org/ ブログ: http:/blog.hackingisbelieving.org/ 以前は itoshi.tv というドメインを使っていましたが、tv ドメインは高いし、テレビを連想させるところがなんのもオールドファッションな感じになってきたので、もう使うことはないと思います。短くて気にいっていたのですが。また最近は僕自身を指すときのアカウントとして itoshi よりも dritoshi のほうが普及しているようですので。 新しいドメイン名は "Hacking is believing" です。これはもちろん "Seeing is believing" の改変で以前からブログ名として使っていたものです。みることではなくハックすることこそが信じることだと考えているため、昔から気にいって使っているフレーズです。hack については  http://cruel.org/freeware/hack.html を参考にどうぞ。 長くて入力はしにくくなったような気がしますが、どうせ検索や Twitter や RSS からしかこないので、ドメインの短さはもう関係ないかな、と思ってこれにしてしまいました。 ちなみに、ウェブサイトは Google Apps (sites), blog は blogger を利用しています。