Rパッケージが Bioconductor に採択されるまでの顛末

R には CRAN というパッケージ集がありますが、ライフサエンス分野専門のパッケージ集に Bioconductor というものがあります。Core developer team のメンバーは、Rの core developer team と一部メンバーが被っています。

Bioconductor は CRAN と比較すると、詳細なコードレビュー/ドキュメンテーション(もちろん英語の)が必要など、わりと厳しめの採択基準があります。これまで、日本人でBioCに採択された人がいなく情報があまりませんでした。このたび、BrainStars for R というパッケージが Bioconductor 2.10 に採択され公開されました。その顛末を公開して、日本のすぐれたプログラムが Bioconductor に採択されることをエンカレッジできればと思います。

開発

このあたりは、BioCのパッケージガイドラインとサブミットガイドラインを読むと一通り書いてあります。またパッケージングについては、以前のエントリを参照ください。

- R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

- R5 reference class 編: R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

上のリンクで書かれていないことでBioCでポイントとなるのは、コーディングだけじゃなくて、すべての関数に対する Rd で書かれたマニュアルと、パッケージの使い方が書いた vignette というドキュメントが必要になることです。マニュアルには、動作するサンプルコードが必要になります。vignette には、パッケージの背景や、チュートリアル形式でその使い方を英語で書く必要があります。この文章は Sweave 形式で書く必要があり、TeX, Sweave の知識が必要になります。vignette のなかにも動作するサンプルコードが必要になります。

マニュアル、vignette のコードが動作しない場合、正常にパッケージングできないので、BioC のパッケージは必然的にドキュメントの質が高くなります。これは作り手にとっては大変ですが、ユーザにとっては助かりますよね。

NAMESPACE の書きかたが CRAN と少し違います。個人的にはNAMESPACEだとほかのパッケージとの依存する部分について少しはまりました。これが参考になります。 http://bioconductor.org/help/faq/#developer-faq

開発の様子は、github のログを見てください。
https://github.com/dritoshi/BrainStars-for-R/commits/master

サブミットの顛末

ラボノートから時系列にイベントを抜粋します。

2012/01/27

最初のsubmission。Marc Carlsonさんにメールすると issue tracking system のアカウントが発行される。ここに自分の開発したパッケージファイルをアップロードする。パッケージガイドラインに書いてないステップ。ここで、R-devel での動作チェックをしておくように言われた。これもパッケージガイドラインに書いてない。これが地味に面倒。R-devel + BioC-devel 環境を用意しておく必要がでてくる。Amazon EC2 にそれようの AMI を作って動作確認した。

2012/02/21

レビューが返ってくる。かなりコードもドキュメントも読まれている。ドキュメントはよく書けているとのことでほっとした。コードは大別して2点のつっこみ。

0. 低レベル関数をラップして、ひとつの関数にまとめ、オプションで動作を切り替えるようにしろ、という指示。Rails の動的ファインダメソッドのノリで、対象ごとに関数があったほうが好きなんだけど、GEOquery とか参考にして、直せということだったので、その通りに。でもユーザが両方を選べるよう低レベルな関数も export したままにする。この判断が採択を遅くすることになるとは。。。

1. 関数がJSON を返すのが気にいらないらしい。一般的な R のデータ型にするようにしろということらしい。JSON のほうがデータ取り出しやすいんじゃないの? とおもったけど、この時点で、変態なのは俺だと気付いた。BioCチームの徹底的にユーザ指向という姿勢が伝わってきたので、すべて指示に従うことに。

バージョンのつけかたが、0.99.x にしろという指示。これについてもパッケージガイドラインに書いていなかった。今は書いてある。あと、S4で書いてたんだけど、必然性なくない? と言われて、S4やめて書き直した。これでコードが 2/3 ぐらいになった。

2012/03/03

2nd submission

2012/03/06

3日で、2nd review が返ってくる。低レベルの関数を残しておいたのが気にいらないらしい。全部 export しなくした。

2012/03/07

採択通知がくる

https://skitch.com/dritoshi/885rs/accepted

2012/03/15

BioC 2.10 の SVN に取り込まれる。自分で SVN にコミットする必要はない。このときバージョンが 0.99.x のままだが、BioC 2.10 がリリースされるときに自動的に1.0.0 になる。これもカイドラインに書いていない。
https://readonly:readonly@hedgehog.fhcrc.org/bioconductor/trunk/madman/Rpacks/BrainStars/

2012/03/19

devel のウェブサイトに掲載。リリースサイクル的にぎりぎりだと思ったが BioC 2.10 に取り込まれるのが確定した。
http://www.bioconductor.org/packages/devel/bioc/html/BrainStars.html

2012/04/03

BioC 2.10 リリース。もちろんBrainStars for R もリリース

まとめ

BioCのチーム感じるのはユーザ指向の姿勢ですね。S4 classes や reference class (R5) などで実装したとしても、そこは隠蔽して、一般的なユーザからは、普通の(ラッパー)関数をひとつ使えばその機能が使えるようにすることを推奨しています。実際に、ほかのパッケージのコードを読むとそのようになっていることが多いです。

英語がネイティブではない日本人にとってはドキュメンテーションの duty が重いのがつらいところだと思います。いまどきだと、github などでコードを自由に簡単に公開することができるのですから、わざわざ BioC のようなレビュー付きのパッケージレポジトリに採択される必要がないのかもしれません。でも、レビューによって得る経験はより良いコードを書けるようになるための糧になると感じました。みなさんも BioC の採択を目指しましょう!

最後に、BioCチームに感謝。

Hacking is believing

このブログを検索