スキップしてメイン コンテンツに移動

Rパッケージが Bioconductor に採択されるまでの顛末

R には CRAN というパッケージ集がありますが、ライフサエンス分野専門のパッケージ集に Bioconductor というものがあります。Core developer team のメンバーは、Rの core developer team と一部メンバーが被っています。

Bioconductor は CRAN と比較すると、詳細なコードレビュー/ドキュメンテーション(もちろん英語の)が必要など、わりと厳しめの採択基準があります。これまで、日本人でBioCに採択された人がいなく情報があまりませんでした。このたび、BrainStars for R というパッケージが Bioconductor 2.10 に採択され公開されました。その顛末を公開して、日本のすぐれたプログラムが Bioconductor に採択されることをエンカレッジできればと思います。

開発

このあたりは、BioCのパッケージガイドラインサブミットガイドラインを読むと一通り書いてあります。またパッケージングについては、以前のエントリを参照ください。

R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

R5 reference class 編: R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)


上のリンクで書かれていないことでBioCでポイントとなるのは、コーディングだけじゃなくて、すべての関数に対する Rd で書かれたマニュアルと、パッケージの使い方が書いた vignette というドキュメントが必要になることです。マニュアルには、動作するサンプルコードが必要になります。vignette には、パッケージの背景や、チュートリアル形式でその使い方を英語で書く必要があります。この文章は Sweave 形式で書く必要があり、TeX, Sweave の知識が必要になります。vignette のなかにも動作するサンプルコードが必要になります。

マニュアル、vignette のコードが動作しない場合、正常にパッケージングできないので、BioC のパッケージは必然的にドキュメントの質が高くなります。これは作り手にとっては大変ですが、ユーザにとっては助かりますよね。

NAMESPACE の書きかたが CRAN と少し違います。個人的にはNAMESPACEだとほかのパッケージとの依存する部分について少しはまりました。これが参考になります。 http://bioconductor.org/help/faq/#developer-faq

開発の様子は、github のログを見てください。
https://github.com/dritoshi/BrainStars-for-R/commits/master

サブミットの顛末

ラボノートから時系列にイベントを抜粋します。

2012/01/27

最初のsubmission。Marc Carlsonさんにメールすると issue tracking system のアカウントが発行される。ここに自分の開発したパッケージファイルをアップロードする。パッケージガイドラインに書いてないステップ。ここで、R-devel での動作チェックをしておくように言われた。これもパッケージガイドラインに書いてない。これが地味に面倒。R-devel + BioC-devel 環境を用意しておく必要がでてくる。Amazon EC2 にそれようの AMI を作って動作確認した。

2012/02/21

レビューが返ってくる。かなりコードもドキュメントも読まれている。ドキュメントはよく書けているとのことでほっとした。コードは大別して2点のつっこみ。

0. 低レベル関数をラップして、ひとつの関数にまとめ、オプションで動作を切り替えるようにしろ、という指示。Rails の動的ファインダメソッドのノリで、対象ごとに関数があったほうが好きなんだけど、GEOquery とか参考にして、直せということだったので、その通りに。でもユーザが両方を選べるよう低レベルな関数も export したままにする。この判断が採択を遅くすることになるとは。。。

1. 関数がJSON を返すのが気にいらないらしい。一般的な R のデータ型にするようにしろということらしい。JSON のほうがデータ取り出しやすいんじゃないの? とおもったけど、この時点で、変態なのは俺だと気付いた。BioCチームの徹底的にユーザ指向という姿勢が伝わってきたので、すべて指示に従うことに。

バージョンのつけかたが、0.99.x にしろという指示。これについてもパッケージガイドラインに書いていなかった。今は書いてある。あと、S4で書いてたんだけど、必然性なくない? と言われて、S4やめて書き直した。これでコードが 2/3 ぐらいになった。

2012/03/03

2nd submission

2012/03/06

3日で、2nd review が返ってくる。低レベルの関数を残しておいたのが気にいらないらしい。全部 export しなくした。

2012/03/07

採択通知がくる


2012/03/15

BioC 2.10 の SVN に取り込まれる。自分で SVN にコミットする必要はない。このときバージョンが 0.99.x のままだが、BioC 2.10 がリリースされるときに自動的に1.0.0 になる。これもカイドラインに書いていない。
https://readonly:readonly@hedgehog.fhcrc.org/bioconductor/trunk/madman/Rpacks/BrainStars/


2012/03/19

devel のウェブサイトに掲載。リリースサイクル的にぎりぎりだと思ったが BioC 2.10 に取り込まれるのが確定した。
http://www.bioconductor.org/packages/devel/bioc/html/BrainStars.html


2012/04/03

BioC 2.10 リリース。もちろんBrainStars for R もリリース


まとめ

BioCのチーム感じるのはユーザ指向の姿勢ですね。S4 classes や reference class (R5) などで実装したとしても、そこは隠蔽して、一般的なユーザからは、普通の(ラッパー)関数をひとつ使えばその機能が使えるようにすることを推奨しています。実際に、ほかのパッケージのコードを読むとそのようになっていることが多いです。

英語がネイティブではない日本人にとってはドキュメンテーションの duty が重いのがつらいところだと思います。いまどきだと、github などでコードを自由に簡単に公開することができるのですから、わざわざ BioC のようなレビュー付きのパッケージレポジトリに採択される必要がないのかもしれません。でも、レビューによって得る経験はより良いコードを書けるようになるための糧になると感じました。みなさんも BioC の採択を目指しましょう!

最後に、BioCチームに感謝。

コメント

このブログの人気の投稿

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。 うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。 欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。 購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。 ChaiBio https://www.chaibio.com/ OpenPCR https://www.chaibio.com/products/openpcr なぜか http://openpcr.org/ で購入できなかったので、eBay にある ChaiBio で買いました。 OpenPCR - eBay http://www.ebay.com/itm/111096418574 本体価格は $599 で、送料が $76.05 で、輸入費用が $41.55 でした。合計 $716.6 だったので、日…

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。

まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。
気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。

From Evernote: シーケンスアダプタ配列除去ツールまとめTagDust
http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full
インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash
使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq
解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple string search) を利用。FDRを指定できる。GPL3

もうひとつの Nikaido Lab. が始動します

ろくに更新していないこのブログで公表するものどうかと思いましたが、SNS以外で個人の立場として近況を書けるところはここだけなので、ここに書きます。

2020年4月1日より、国立大学法人 東京医科歯科大学難治疾患研究所 ゲノム応用医学部門 ゲノム機能情報分野の教授職を拝命致しました。東京医科歯科大学 大学院医歯学総合研究科 修士課程 医歯理工保健学専攻/博士課程 生命理工医療科学専攻 ゲノム機能情報の教授も兼務し、教育にも従事します。理研のラボも残しつつ2組織3拠点体制で研究、それに教育に励んでいきます。

両方で研究をすることを許して頂いた理研と大学の関係各位に深く御礼を申し上げます。またPI不在が多くなるにも関わらず、いろいろと工夫してラボ運営や研究に参加してくれている理研のメンバーにも大変感謝しています。また事前にお知らせしたかった方々も大勢おりましたが、ばたばたしており直接お話できずに申し訳ありません。

ゲノム分野の新しいバイオインフォマティクス技術は、ゲノム科学の新しい計測技術の側に現れます。その理由は新しいデータには新しいデータ科学の課題があるからです。そのデータの側にいればまっさきにアクセスできオリジナリティを発揮しやすくなります。しかし、それだけではありません。そもそも、データをどのように出すべきなのか、あるいは、データ解析技術を前提すれば新しい計測技術が作れないか(計算と計測の融合)、という1歩、2歩と踏み込んだバイオインフォマティクスとゲノム科学の関係が最先端の研究現場にはあります。このようにして生み出された技術は、新しい生命現象を観測し解き明かし、やがては疾患の理解や制御、診断に役に立つでしょう。

理研ではこのような立場から新しい1細胞RNA-seq法とそのデータ解析技術を開発し、社会実装もしてきました。これは異なるタレントの研究者が揃って共同し生み出せたものです。しかし、アイディアの量に対して人材は常に少ない状況です。また大きなプロジェクト(と家庭と任期)を抱えている研究員では、なかなか気軽にいろいろなことを試すのが難しい状況もあります。このような背景から、研究速度や規模が圧倒的に速くなっているゲノム科学やそのバイオインフォマティクス研究で、国際的な存在感を出すことが難しくなっています。

ここ数年は、このような研究に興味を持ち参加してくれる人を…