スキップしてメイン コンテンツに移動

Rパッケージが Bioconductor に採択されるまでの顛末

R には CRAN というパッケージ集がありますが、ライフサエンス分野専門のパッケージ集に Bioconductor というものがあります。Core developer team のメンバーは、Rの core developer team と一部メンバーが被っています。

Bioconductor は CRAN と比較すると、詳細なコードレビュー/ドキュメンテーション(もちろん英語の)が必要など、わりと厳しめの採択基準があります。これまで、日本人でBioCに採択された人がいなく情報があまりませんでした。このたび、BrainStars for R というパッケージが Bioconductor 2.10 に採択され公開されました。その顛末を公開して、日本のすぐれたプログラムが Bioconductor に採択されることをエンカレッジできればと思います。

開発

このあたりは、BioCのパッケージガイドラインサブミットガイドラインを読むと一通り書いてあります。またパッケージングについては、以前のエントリを参照ください。

R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

R5 reference class 編: R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)


上のリンクで書かれていないことでBioCでポイントとなるのは、コーディングだけじゃなくて、すべての関数に対する Rd で書かれたマニュアルと、パッケージの使い方が書いた vignette というドキュメントが必要になることです。マニュアルには、動作するサンプルコードが必要になります。vignette には、パッケージの背景や、チュートリアル形式でその使い方を英語で書く必要があります。この文章は Sweave 形式で書く必要があり、TeX, Sweave の知識が必要になります。vignette のなかにも動作するサンプルコードが必要になります。

マニュアル、vignette のコードが動作しない場合、正常にパッケージングできないので、BioC のパッケージは必然的にドキュメントの質が高くなります。これは作り手にとっては大変ですが、ユーザにとっては助かりますよね。

NAMESPACE の書きかたが CRAN と少し違います。個人的にはNAMESPACEだとほかのパッケージとの依存する部分について少しはまりました。これが参考になります。 http://bioconductor.org/help/faq/#developer-faq

開発の様子は、github のログを見てください。
https://github.com/dritoshi/BrainStars-for-R/commits/master

サブミットの顛末

ラボノートから時系列にイベントを抜粋します。

2012/01/27

最初のsubmission。Marc Carlsonさんにメールすると issue tracking system のアカウントが発行される。ここに自分の開発したパッケージファイルをアップロードする。パッケージガイドラインに書いてないステップ。ここで、R-devel での動作チェックをしておくように言われた。これもパッケージガイドラインに書いてない。これが地味に面倒。R-devel + BioC-devel 環境を用意しておく必要がでてくる。Amazon EC2 にそれようの AMI を作って動作確認した。

2012/02/21

レビューが返ってくる。かなりコードもドキュメントも読まれている。ドキュメントはよく書けているとのことでほっとした。コードは大別して2点のつっこみ。

0. 低レベル関数をラップして、ひとつの関数にまとめ、オプションで動作を切り替えるようにしろ、という指示。Rails の動的ファインダメソッドのノリで、対象ごとに関数があったほうが好きなんだけど、GEOquery とか参考にして、直せということだったので、その通りに。でもユーザが両方を選べるよう低レベルな関数も export したままにする。この判断が採択を遅くすることになるとは。。。

1. 関数がJSON を返すのが気にいらないらしい。一般的な R のデータ型にするようにしろということらしい。JSON のほうがデータ取り出しやすいんじゃないの? とおもったけど、この時点で、変態なのは俺だと気付いた。BioCチームの徹底的にユーザ指向という姿勢が伝わってきたので、すべて指示に従うことに。

バージョンのつけかたが、0.99.x にしろという指示。これについてもパッケージガイドラインに書いていなかった。今は書いてある。あと、S4で書いてたんだけど、必然性なくない? と言われて、S4やめて書き直した。これでコードが 2/3 ぐらいになった。

2012/03/03

2nd submission

2012/03/06

3日で、2nd review が返ってくる。低レベルの関数を残しておいたのが気にいらないらしい。全部 export しなくした。

2012/03/07

採択通知がくる


2012/03/15

BioC 2.10 の SVN に取り込まれる。自分で SVN にコミットする必要はない。このときバージョンが 0.99.x のままだが、BioC 2.10 がリリースされるときに自動的に1.0.0 になる。これもカイドラインに書いていない。
https://readonly:readonly@hedgehog.fhcrc.org/bioconductor/trunk/madman/Rpacks/BrainStars/


2012/03/19

devel のウェブサイトに掲載。リリースサイクル的にぎりぎりだと思ったが BioC 2.10 に取り込まれるのが確定した。
http://www.bioconductor.org/packages/devel/bioc/html/BrainStars.html


2012/04/03

BioC 2.10 リリース。もちろんBrainStars for R もリリース


まとめ

BioCのチーム感じるのはユーザ指向の姿勢ですね。S4 classes や reference class (R5) などで実装したとしても、そこは隠蔽して、一般的なユーザからは、普通の(ラッパー)関数をひとつ使えばその機能が使えるようにすることを推奨しています。実際に、ほかのパッケージのコードを読むとそのようになっていることが多いです。

英語がネイティブではない日本人にとってはドキュメンテーションの duty が重いのがつらいところだと思います。いまどきだと、github などでコードを自由に簡単に公開することができるのですから、わざわざ BioC のようなレビュー付きのパッケージレポジトリに採択される必要がないのかもしれません。でも、レビューによって得る経験はより良いコードを書けるようになるための糧になると感じました。みなさんも BioC の採択を目指しましょう!

最後に、BioCチームに感謝。

コメント

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。 モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。   うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。   欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。   購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。   ChaiBio https://www.chaibio.com/   OpenPCR https://www.chaibio.com/products/openpcr   なぜか http://openpcr.org/  で購入できなかったので、eBay にある ChaiBio で買いました。   OpenPCR - eBay http://www.ebay.com/itm/111096418574   本体価格は

R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

追記 (2012/04/21): 以下のコードは S4 classes で書いていますが、R5 reference classes で書き直してみました。こちらもどうぞ。 http://blog.hackingisbelieving.org/2012/04/r5-reference-class-r-devtools-testthat.html R のパッケージ開発の情報があまりないので、自分はこんな感じでやってます、というのを書いてみます。パッケージ開発支援の devtools と単体テスト支援の testthat, そしてドキュメント生成支援の roxygen を使うのがいまどきっぽいです。 そもそもパッケージを作製しているひとをあまりみたことがないので、もっとこうすべき、というのがあれば教えてほしいです。 今回はデモケースとして S4 OOP で、Idol クラスを定義し、とある身体的特徴の統計量を計算するパッケージを作ります。R のプロンプトは > で、シェルのプロンプトは $ で示しています。 0. 準備 必要になるパッケージをインストールします。 $ sudo R > install.packages(devtools) > install.packages(testthat) > q() devtools の設定をします。~/.Rpackages に設定を記述します。 $ emacs ~/.Rpackages list(   default = function(x) {     file.path("~/Project/dev/R/", x, x)   },   "idol" = "~/Projects/dev/R/idol/idol" ) 以下の行は今回パッケージを作製する作業ディレクトリになります。   "idol" = "~/Projects/dev/R/idol/idol" 1. ともあれ実装を始める 作業ディレクトリに移動します。 $mkdir -p ~/Project/dev/R/idol $ cd ~