スキップしてメイン コンテンツに移動

!3. オープンアクセス

20080128追記: タイトルをちょっと変更した。ITというかプログラムが書けたりデータ解析ができる人向けという感じで書いたつもりだったのですがITとどっちがオープン化的な捉え方をされた方もいたようなので。タイトルがそうだから誤解させてしまったようです。

[[研究とかをオープンにすること|http://d.hatena.ne.jp/syou6162/20080124/1201106105]]で引用されたの詳細を書いてみた.
<<<
こんなこと考えてたらバイオはオープンな感じだよ、って教えてもらったのを思いだす
* そしたら「オープンアクセス」っていうのを教えてもらった
o Open Access Japan | オープンアクセスジャパン
o 急増する「オープンアクセス」方式の学術誌 | WIRED VISION
>>>

バイオ研究のどのへんがオープン化を紹介しますよ.バイオ研究がオープンな理由を3つに分けて説明します.

ただし,そもそもオープンバイオ研究会などを主催しているだけあってバイアスがあったり,異分野のひとにわかるようにover simplifyしていたり,良い面だけ書いているところがあることも注意してください(倫理面や実験の難しさなどの問題).

バイオ,特にゲノミクスと呼ばれている分野で使われているプログラムは多くがオープンソースです.今はどうかわかりませんが,PerlモジュールのレポジトリCPANでもっとも巨大なモジュールであるBioPerlなどはその例のひとつです.GD.pmやCGI.pmなんかもゲノムデータを表示するために作られたものです.また統計解析パッケージのRの中のひと[[http://gentleman.fhcrc.org/|http://gentleman.fhcrc.org/]]もバイオの人が中心です.

いわゆるヒトゲノム計画の成果であるヒトゲノム配列を公開するサイトである[[Ensembl|http://www.ensembl.org/]]はこのサイトのデータとソースコードがすべて公開されています.ちなみにPerl + JavaScriptが中心ですね.

バイオでは遺伝子などのDNA配列(いわゆるATGC)は基本的に公開しなければ論文を通すことができません.国際塩基配列データベースというところにデータを公開しなければならない義務があります.これは誰もが再利用できます.このようなデータ公開のアクティビティは塩基配列データだけでなく,ある遺伝子が体のどこでどのぐらい存在しているかを調べた発現情報,ヒトゲノムそのものなどがオープンデータになっています.

さらにこれらのデータのデータベースを作ることが研究として認められています.データの標準化なども進んでおり,多くのデータがFTPやWebサイトなどからだけでなく,SOAP, RESTなどwebサービスを介してやりとりすることができます.

お酒を分解する酵素の遺伝子配列をウェブサービスを使ってゲットするには
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&rettype=xml&retmode=text&id=Adh1
とします.

ヒトゲノムプロジェクトで決定されたY性染色体の全配列を以下のURLから誰でも得ることができます.
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_Y/hs_ref_chrX.fa.gz

先に紹介したensemblのMySQLサーバに直接アクセスして提供しているデータベースの一覧を得るには以下のようにすればよいでしょう.
$ echo 'show databases' | mysql -u anonymous -h ensembldb.ensembl.org

バイオを中心に論文そのものを誰もが無料で見れるようにしようという活動があります.膨大なデータや知識を必要とする生物学では他分野の論文を広く読む必要があったりします.論文がオープンでないとなかなかデータの解釈に困ることがありますが,オープンアクセスはそれを解決し科学を促進させる方法のひとつです.オープンアクセスについてはググれば日本語のリソースがたくさんあるのでそちらに解説は譲ります.http://www.openaccessjapan.com/

極端な例では論文をブログのようにTrackbackやコメント(tDiaryでいうところのつっこみ)で評価しようという試みも真面目に取りくんでいます.http://www.plosone.org/

また実験技術や論文などを動画で共有するサービスも始まっています.http://www.jove.com/

もちろん,実際の研究経過や真似されやすい研究は慎重に隠しますよ.それにバイオといっても化学寄りなどクローズドな感じの分野もあります.製薬会社なんかもハンパなくクローズドです.ただ出せるものは積極的に公開していこうという空気がバイオにはあります.ウェブのコンテンツなどは簡単に手にはいるオープンデータですが,バイオもかなり大量の未解析(あるいは解析が足りない)データが公開されているわけです.統計やプログラミングを武器とするひとが参入するには面白い分野ではないでしょうか.

気が向いたらどのような統計やIT技術が期待されているか,どのようにして学ぶのかなどを書くかも.
----
蛇足だが,アニメをみてAR・VR,ロボット研究を始めたっていう聞くけど,エヴァとか綾波レイとかピカチューとかキラヤマト(コーディネーター),攻殻機動隊の少佐(脳科学的な意味で)を作りたいからバイオやります,というという猛者がいてもいいと思う.本当にやったら倫理的にまずいけどね(ジーンダイバーはVR+AR+バイオだったよな,アレ大好き).アマチュア天文学者がいるようにアマチュアのコンピュータ系のバイオロジストがいてもいい.

コメント

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。 モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。   うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。   欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。   購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。   ChaiBio https://www.chaibio.com/   OpenPCR https://www.chaibio.com/products/openpcr   なぜか http://openpcr.org/  で購入できなかったので、eBay にある ChaiBio で買いました。   OpenPCR - eBay http://www.ebay.com/itm/111096418574   本体価格は

R でいまどきなパッケージ開発 (devtools, testthat, roxygen2)

追記 (2012/04/21): 以下のコードは S4 classes で書いていますが、R5 reference classes で書き直してみました。こちらもどうぞ。 http://blog.hackingisbelieving.org/2012/04/r5-reference-class-r-devtools-testthat.html R のパッケージ開発の情報があまりないので、自分はこんな感じでやってます、というのを書いてみます。パッケージ開発支援の devtools と単体テスト支援の testthat, そしてドキュメント生成支援の roxygen を使うのがいまどきっぽいです。 そもそもパッケージを作製しているひとをあまりみたことがないので、もっとこうすべき、というのがあれば教えてほしいです。 今回はデモケースとして S4 OOP で、Idol クラスを定義し、とある身体的特徴の統計量を計算するパッケージを作ります。R のプロンプトは > で、シェルのプロンプトは $ で示しています。 0. 準備 必要になるパッケージをインストールします。 $ sudo R > install.packages(devtools) > install.packages(testthat) > q() devtools の設定をします。~/.Rpackages に設定を記述します。 $ emacs ~/.Rpackages list(   default = function(x) {     file.path("~/Project/dev/R/", x, x)   },   "idol" = "~/Projects/dev/R/idol/idol" ) 以下の行は今回パッケージを作製する作業ディレクトリになります。   "idol" = "~/Projects/dev/R/idol/idol" 1. ともあれ実装を始める 作業ディレクトリに移動します。 $mkdir -p ~/Project/dev/R/idol $ cd ~