スキップしてメイン コンテンツに移動

!3. オープンアクセス

20080128追記: タイトルをちょっと変更した。ITというかプログラムが書けたりデータ解析ができる人向けという感じで書いたつもりだったのですがITとどっちがオープン化的な捉え方をされた方もいたようなので。タイトルがそうだから誤解させてしまったようです。

[[研究とかをオープンにすること|http://d.hatena.ne.jp/syou6162/20080124/1201106105]]で引用されたの詳細を書いてみた.
<<<
こんなこと考えてたらバイオはオープンな感じだよ、って教えてもらったのを思いだす
* そしたら「オープンアクセス」っていうのを教えてもらった
o Open Access Japan | オープンアクセスジャパン
o 急増する「オープンアクセス」方式の学術誌 | WIRED VISION
>>>

バイオ研究のどのへんがオープン化を紹介しますよ.バイオ研究がオープンな理由を3つに分けて説明します.

ただし,そもそもオープンバイオ研究会などを主催しているだけあってバイアスがあったり,異分野のひとにわかるようにover simplifyしていたり,良い面だけ書いているところがあることも注意してください(倫理面や実験の難しさなどの問題).

バイオ,特にゲノミクスと呼ばれている分野で使われているプログラムは多くがオープンソースです.今はどうかわかりませんが,PerlモジュールのレポジトリCPANでもっとも巨大なモジュールであるBioPerlなどはその例のひとつです.GD.pmやCGI.pmなんかもゲノムデータを表示するために作られたものです.また統計解析パッケージのRの中のひと[[http://gentleman.fhcrc.org/|http://gentleman.fhcrc.org/]]もバイオの人が中心です.

いわゆるヒトゲノム計画の成果であるヒトゲノム配列を公開するサイトである[[Ensembl|http://www.ensembl.org/]]はこのサイトのデータとソースコードがすべて公開されています.ちなみにPerl + JavaScriptが中心ですね.

バイオでは遺伝子などのDNA配列(いわゆるATGC)は基本的に公開しなければ論文を通すことができません.国際塩基配列データベースというところにデータを公開しなければならない義務があります.これは誰もが再利用できます.このようなデータ公開のアクティビティは塩基配列データだけでなく,ある遺伝子が体のどこでどのぐらい存在しているかを調べた発現情報,ヒトゲノムそのものなどがオープンデータになっています.

さらにこれらのデータのデータベースを作ることが研究として認められています.データの標準化なども進んでおり,多くのデータがFTPやWebサイトなどからだけでなく,SOAP, RESTなどwebサービスを介してやりとりすることができます.

お酒を分解する酵素の遺伝子配列をウェブサービスを使ってゲットするには
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&rettype=xml&retmode=text&id=Adh1
とします.

ヒトゲノムプロジェクトで決定されたY性染色体の全配列を以下のURLから誰でも得ることができます.
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_Y/hs_ref_chrX.fa.gz

先に紹介したensemblのMySQLサーバに直接アクセスして提供しているデータベースの一覧を得るには以下のようにすればよいでしょう.
$ echo 'show databases' | mysql -u anonymous -h ensembldb.ensembl.org

バイオを中心に論文そのものを誰もが無料で見れるようにしようという活動があります.膨大なデータや知識を必要とする生物学では他分野の論文を広く読む必要があったりします.論文がオープンでないとなかなかデータの解釈に困ることがありますが,オープンアクセスはそれを解決し科学を促進させる方法のひとつです.オープンアクセスについてはググれば日本語のリソースがたくさんあるのでそちらに解説は譲ります.http://www.openaccessjapan.com/

極端な例では論文をブログのようにTrackbackやコメント(tDiaryでいうところのつっこみ)で評価しようという試みも真面目に取りくんでいます.http://www.plosone.org/

また実験技術や論文などを動画で共有するサービスも始まっています.http://www.jove.com/

もちろん,実際の研究経過や真似されやすい研究は慎重に隠しますよ.それにバイオといっても化学寄りなどクローズドな感じの分野もあります.製薬会社なんかもハンパなくクローズドです.ただ出せるものは積極的に公開していこうという空気がバイオにはあります.ウェブのコンテンツなどは簡単に手にはいるオープンデータですが,バイオもかなり大量の未解析(あるいは解析が足りない)データが公開されているわけです.統計やプログラミングを武器とするひとが参入するには面白い分野ではないでしょうか.

気が向いたらどのような統計やIT技術が期待されているか,どのようにして学ぶのかなどを書くかも.
----
蛇足だが,アニメをみてAR・VR,ロボット研究を始めたっていう聞くけど,エヴァとか綾波レイとかピカチューとかキラヤマト(コーディネーター),攻殻機動隊の少佐(脳科学的な意味で)を作りたいからバイオやります,というという猛者がいてもいいと思う.本当にやったら倫理的にまずいけどね(ジーンダイバーはVR+AR+バイオだったよな,アレ大好き).アマチュア天文学者がいるようにアマチュアのコンピュータ系のバイオロジストがいてもいい.

コメント

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen

大学の研究室でアカデミックプランが使えるICTツール

自分らでサーバ管理したくないので、SaaS系とローカルで動くソフトのみ。ローカルで動くソフトに関しては、Mac or Docker で動くもののみ。 無償 G Suite for Education  (ドキュメント共有、カレンダーなど) GitHub Education  (ソースコード管理) esa.io アカデミックプラン  (知識共有) Tableau  (データ可視化) Scrapbox  (知識共有) GROWI.cloud  (Wikiなど) 割引 Slack の教育支援プログラム  (ビジネスチャット) Dropbox Education  (ファイル共有、ドキュメント共有) Office 356  (オフィスソフト) Adobe Creative Cloud  (画像編集) AutoDesk for Education  (CADなど) これから申し込んでいくところなので、本当に使えるかはわかりせん。使えた使えないなどの情報やほかのツールでお勧めがあれば教えてもらえると嬉しいです。 アカデミアでなくても無料で使えるツールのうち、うちで使うであろうものは以下に列挙していく。 Google Colaboratory  (データ解析) Overleaf  (論文執筆) Rstudio  (開発, データ解析) VS code (開発)