スキップしてメイン コンテンツに移動

Rパッケージが Bioconductor に採択されるまでの顛末

R には CRAN というパッケージ集がありますが、ライフサエンス分野専門のパッケージ集に Bioconductor というものがあります。Core developer team のメンバーは、Rの core developer team と一部メンバーが被っています。

Bioconductor は CRAN と比較すると、詳細なコードレビュー/ドキュメンテーション(もちろん英語の)が必要など、わりと厳しめの採択基準があります。これまで、日本人でBioCに採択された人がいなく情報があまりませんでした。このたび、BrainStars for R というパッケージが Bioconductor 2.10 に採択され公開されました。その顛末を公開して、日本のすぐれたプログラムが Bioconductor に採択されることをエンカレッジできればと思います。

開発

このあたりは、BioCのパッケージガイドラインサブミットガイドラインを読むと一通り書いてあります。またパッケージングについては、以前のエントリを参照ください。

R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

R5 reference class 編: R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)


上のリンクで書かれていないことでBioCでポイントとなるのは、コーディングだけじゃなくて、すべての関数に対する Rd で書かれたマニュアルと、パッケージの使い方が書いた vignette というドキュメントが必要になることです。マニュアルには、動作するサンプルコードが必要になります。vignette には、パッケージの背景や、チュートリアル形式でその使い方を英語で書く必要があります。この文章は Sweave 形式で書く必要があり、TeX, Sweave の知識が必要になります。vignette のなかにも動作するサンプルコードが必要になります。

マニュアル、vignette のコードが動作しない場合、正常にパッケージングできないので、BioC のパッケージは必然的にドキュメントの質が高くなります。これは作り手にとっては大変ですが、ユーザにとっては助かりますよね。

NAMESPACE の書きかたが CRAN と少し違います。個人的にはNAMESPACEだとほかのパッケージとの依存する部分について少しはまりました。これが参考になります。 http://bioconductor.org/help/faq/#developer-faq

開発の様子は、github のログを見てください。
https://github.com/dritoshi/BrainStars-for-R/commits/master

サブミットの顛末

ラボノートから時系列にイベントを抜粋します。

2012/01/27

最初のsubmission。Marc Carlsonさんにメールすると issue tracking system のアカウントが発行される。ここに自分の開発したパッケージファイルをアップロードする。パッケージガイドラインに書いてないステップ。ここで、R-devel での動作チェックをしておくように言われた。これもパッケージガイドラインに書いてない。これが地味に面倒。R-devel + BioC-devel 環境を用意しておく必要がでてくる。Amazon EC2 にそれようの AMI を作って動作確認した。

2012/02/21

レビューが返ってくる。かなりコードもドキュメントも読まれている。ドキュメントはよく書けているとのことでほっとした。コードは大別して2点のつっこみ。

0. 低レベル関数をラップして、ひとつの関数にまとめ、オプションで動作を切り替えるようにしろ、という指示。Rails の動的ファインダメソッドのノリで、対象ごとに関数があったほうが好きなんだけど、GEOquery とか参考にして、直せということだったので、その通りに。でもユーザが両方を選べるよう低レベルな関数も export したままにする。この判断が採択を遅くすることになるとは。。。

1. 関数がJSON を返すのが気にいらないらしい。一般的な R のデータ型にするようにしろということらしい。JSON のほうがデータ取り出しやすいんじゃないの? とおもったけど、この時点で、変態なのは俺だと気付いた。BioCチームの徹底的にユーザ指向という姿勢が伝わってきたので、すべて指示に従うことに。

バージョンのつけかたが、0.99.x にしろという指示。これについてもパッケージガイドラインに書いていなかった。今は書いてある。あと、S4で書いてたんだけど、必然性なくない? と言われて、S4やめて書き直した。これでコードが 2/3 ぐらいになった。

2012/03/03

2nd submission

2012/03/06

3日で、2nd review が返ってくる。低レベルの関数を残しておいたのが気にいらないらしい。全部 export しなくした。

2012/03/07

採択通知がくる


2012/03/15

BioC 2.10 の SVN に取り込まれる。自分で SVN にコミットする必要はない。このときバージョンが 0.99.x のままだが、BioC 2.10 がリリースされるときに自動的に1.0.0 になる。これもカイドラインに書いていない。
https://readonly:readonly@hedgehog.fhcrc.org/bioconductor/trunk/madman/Rpacks/BrainStars/


2012/03/19

devel のウェブサイトに掲載。リリースサイクル的にぎりぎりだと思ったが BioC 2.10 に取り込まれるのが確定した。
http://www.bioconductor.org/packages/devel/bioc/html/BrainStars.html


2012/04/03

BioC 2.10 リリース。もちろんBrainStars for R もリリース


まとめ

BioCのチーム感じるのはユーザ指向の姿勢ですね。S4 classes や reference class (R5) などで実装したとしても、そこは隠蔽して、一般的なユーザからは、普通の(ラッパー)関数をひとつ使えばその機能が使えるようにすることを推奨しています。実際に、ほかのパッケージのコードを読むとそのようになっていることが多いです。

英語がネイティブではない日本人にとってはドキュメンテーションの duty が重いのがつらいところだと思います。いまどきだと、github などでコードを自由に簡単に公開することができるのですから、わざわざ BioC のようなレビュー付きのパッケージレポジトリに採択される必要がないのかもしれません。でも、レビューによって得る経験はより良いコードを書けるようになるための糧になると感じました。みなさんも BioC の採択を目指しましょう!

最後に、BioCチームに感謝。

コメント

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。 モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。   うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。   欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。   購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。   ChaiBio https://www.chaibio.com/   OpenPCR https://www.chaibio.com/products/openpcr   なぜか http://openpcr.org/  で購入できなかったので、eBay にある ChaiBio で買いました。   OpenPCR - eBay http://www.ebay.com/itm/111096418574   本体価格は

大学の研究室でアカデミックプランが使えるICTツール

自分らでサーバ管理したくないので、SaaS系とローカルで動くソフトのみ。ローカルで動くソフトに関しては、Mac or Docker で動くもののみ。 無償 G Suite for Education  (ドキュメント共有、カレンダーなど) GitHub Education  (ソースコード管理) esa.io アカデミックプラン  (知識共有) Tableau  (データ可視化) Scrapbox  (知識共有) GROWI.cloud  (Wikiなど) 割引 Slack の教育支援プログラム  (ビジネスチャット) Dropbox Education  (ファイル共有、ドキュメント共有) Office 356  (オフィスソフト) Adobe Creative Cloud  (画像編集) AutoDesk for Education  (CADなど) これから申し込んでいくところなので、本当に使えるかはわかりせん。使えた使えないなどの情報やほかのツールでお勧めがあれば教えてもらえると嬉しいです。 アカデミアでなくても無料で使えるツールのうち、うちで使うであろうものは以下に列挙していく。 Google Colaboratory  (データ解析) Overleaf  (論文執筆) Rstudio  (開発, データ解析) VS code (開発)