スキップしてメイン コンテンツに移動

投稿

ラベル(NGS)が付いた投稿を表示しています

次世代シークエンサー現場の会 第三回研究会が無事終了しました

今年度の代表を務めた「次世代シークエンサー現場の会」が無事終了しまし た。 有能なスタッフや、素晴しい講演をして頂いた演者のみなさま、会を支えてくれた50に迫るスポンサー企業、そ して参加者のみなさまのおかげで非常に盛り上がりました。最終的 に、研究者・技術者、医療従事者、企業の方など700人が一同に 介し、活発な議論をして頂けました。ありがとうございました。 これから様々な事後処理がありますが、がんばっていきましょう > スタッフ 来年は新しい運営体制で東京で実施する予定です。では来年! NGS現場の会:  http://ngs-field.org/

DNAを増幅するサーマルサイクラーを自作してみたよ

DNAをPCR法で増幅するために必要なサーマルサイクラーを自作してみました。自作と言っても、いわゆる、PCの自作と同じでパーツを組み立てていく感じです。購入から組み立ての様子を簡単に紹介します。 モチベーション ラボには様々なレクリエーションがあります。例えば、単にどこかに遊びに行ったり、スポーツ大会したり、ひたすら合宿形式でプログレスのプレゼンをするミーティングするなどがあります。それもよいのですが、せっかくなので、普段の研究時間ではトライできないが、研究に関わる hack を行う、というイベントを企画してみました。夏休みの自由研究や社会科見学的なノリです。   うちのラボでは、PCRを使ったウェットの実験技術の開発をしてきました。しかし、サーマルサイクラーのハードウェアの仕組みを体験的に理解している訳ではありません。そこで、サーマルサイクラーを作ってみました。   欧米で始まっている、自宅のガレージやキッチンでバイオロジーを行うムーブメント、バイオパンク、DIYbio を体験しておきたいというのもありますし、Arduino などオープンハードウェア、Maker のムーブメントを体験するのも目的の一つです。ハードウェア開発が思っているほどハードルが下っていることを体験できて、かつ、将来、ウェットの開発だけでなく、装置開発などもできたら、ラッキー、ぐらいの気持ちでやってみました。   購入 今回作ったのは、組み立て式で、かつ、仕様などや設計図が公開されているOpenPCRというサーマルサイクラーです。ハードウェアの仕様・設計図、制御ソフトウェアなどの情報がすべて公開されており、部品からも自作することが可能です。今回は、「設計図から部品や回路のパーツを作り、それらを組み立てる直前のもの」を購入しました。   ChaiBio https://www.chaibio.com/   OpenPCR https://www.chaibio.com/products/openpcr   なぜか http://openpcr.org/  で購入できなかったので、eBay にある ChaiBio で買いました。   OpenPCR - eBay http://www.ebay.com/itm/111096418574   本体価格は ...

ラボを立ち上げます

ひさびさのブログ更新です。明日は年度の始めで忙しそうなので、今日書いておきます。 2013/03/31をもちまして理研CDBを退職しました。4/1からは埼玉県和光市にある、理研本所の情報基盤センターにて、バイオインフォマティクス研究開発ユニットという研究室をユニットリーダーとして主宰することになりました。 DNAシーケンスのデータ解析の手法、ソフトウェア、そして実験技術の開発を中心に研究を進めつつ、理研内外の実験生物学者と共同で生命科学の問題を解いていきます。また理研のバイオインフォマティクスをどのように支え、発展させていくかを考えることも求められています。みなさまのお力をお借りすることもあるかと思いますので、これからもどうぞよろしくお願い致します。 ラボの公式ウェブサイトは以下にあります。 独立行政法人 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット

ChIP-seq データ解析の講義をしたので資料公開するよ

JSBi共催「Rでつなぐ次世代オミックス情報統合解析研究会」で「R + Bioconductor を使った ChIP-seq データ解析の基礎」という講義を担当してきました。主に ChIP-seq 解析の流れを簡単に示し、パイプラインについて説明しました。Peak calling や mapping などの情報が比較的入手しやすいステップよりも、アノテーションや、モチーフ解析や異なる ChIP-seq データ比較などの高次解析の部分を多く取り上げています。 最初は20-30人程度のハンズオンセミナーというオファーでしたが、100人を越える参加者が集まりました。なのでハンズオンはできなかったのですが、概要を掴んでもらえるよう心がけました。ほかの演者の方の発表に関しても発見や気付きがあったので自分の研究にも役に立ちそうです。質疑や懇親会も非常に盛り上がりとても有意義な会でした。 ChIP-seq の経験者が参加者全体の1割程度と mRNA-seq にくらべるとまだまだ少ないようですが、相互作用を出力できる数少ないオミックス技術なので、日本でももっともっと普及すればよいなと思っています。 個人的には、たくさんのRで解析をされている方に会うことで、Rをプログラミング言語としてではなく、純粋に統計環境として利用している頃の気持ちを思い出しました。 講義に使用したプレゼンテーション、ソースコード、データはすべて以下のサイトに置いてあります。今後も微妙にアップデートするかもしれませんので、github をお使いのかたは、watch list に登録しておくと良いかもしれません。 講義資料: R + Bioconductor を使った ChIP-seq データ解析の基礎 (二階堂愛) なにか質問があればご連絡ください。では。 リンク:  Rでつなぐ次世代オミックス情報統合解析研究会

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple ...

先取り! Bioconductor 2.9で追加される ChIP-seq 関連の Library

先取りして、BioC 2.9で追加される ChIP-seq 関連の Library を一行解説とともにリストしてみた。 BCRANK: Predicting binding site consensus from ranked DNA sequences http://www.bioconductor.org/packages/2.9/bioc/html/BCRANK.html DiffBind: differential binding analysis of ChIP-Seq peak data ChIP-seq データの比較に焦点を当てたツール。Overlap 計算、Boxplot, PCA biplot, heatmap による可視化、edgeR, DESeq をつかった binding affinity 解析 http://www.bioconductor.org/packages/2.9/bioc/html/DiffBind.html PMAPPER: R interface to the MAPPER database of transcription factor binding sites TFBS の database である MAPPER ( http://genome.ufl.edu/mapper/ ) の API http://www.bioconductor.org/packages/2.9/bioc/html/RMAPPER.html ChIPsim: Simulation of ChIP-seq experiments ChIP-seq のシミュレーションをする。現在のところ nucleosome ChIP-seq にフォーカス http://www.bioconductor.org/packages/2.9/bioc/html/ChIPsim.html iSeq: Bayesian Hierarchical Modeling of ChIP-seq Data Through Hidden Ising Models 隠れイジングモデルを使った binding site の同定。手法の元論文は、Q Mo, 2011.  A fully...

ChIP-seqの統計解析のレビュー読んだよ2

今回読む論文はこれ。 3. Pepke, S., & Wold, B. (2009). Computation for ChIP-seq and RNA-seq studies. Nature method ChIP-seq について体系的に書かれているレビュー。現在出版されているレビューのなかでは一番良いと思う。 ChIP-seq の概要 ChIP-seq を成否は、 1. 十分に binding site が enrich されていること 2. enrich されたクロマチン分子を獲得できていること の2点に依存する。 mapping は specificity (unique reads only) と increasing sensitivity (multireads used) のトレードオフがある。ChIP reactions は enrichments であって purifications ではない(`・ω・´)キリッ Background と真のシグナルを分ける必要がある。哺乳類ゲノムは大きいので background の coverage が低いことに注意する。単純な tag count が多いピークに生物学的な意味があるとは限らない。バックグラウンドやコントロールとの比較する。いろんなツールやパラメータを試して変化のないピークをつかうべき。 ChIP peak の分類 sequence specific tf だと特定の位置に鋭いピークが立つ。RNA polymerase はTSSに強く鋭いピークがでるが gene body にも broad なシグナルがでる。Histone などの場合は nucleosome level の broad なピークが続く。それぞれ別なアルゴリズムやパラメータで検出しなければならない。 Peak finding の用語整理と解析の流れ まずは用語の説明。ホワイトボードにメモった手書きの図をアップしておく。read を reference genome に mapping すると1塩基ごとの tag count が計算できる。この tag count から binding site を得る問題を解く。この際に、tag count から分布に変換する処理を peak calling や peak findin...

ChIP-seqデータ解析のムービーを集めたよ

YouTube などにアップされているChIP-seq解析のムービーを集めてみました。あまりないですね。僕は以下のツールはひとつも使っていないですが、ムービーを見る限り、最近のGUIのツールはよくできている印象を受けました。NGS解析怖くない! まあ、http://outloger.com/ を使ってみたかっただけというのが本当のところですw DNASTAR- ChIP-Seq Workflow DNASTAR's ChIP-Seq software allows users to quickly and easily identify transcription factor binding sites. The software enables users to ... GenomeQuest - ChIP-Seq Workflow This video is an overview of the GenomeQuest ChIP-Seq Workflow. This solution provides state-of-the-art tools across the entire workflow ... Simple ChIP-Seq Analysis with SeqMonk This video shows the process of doing a simple analysis of a single ChIP-Seq dataset. It goes through the process of identifying and quantitating ... SeqMonk initial setup This video shows the process of setting up a new installation of SeqMonk for the first time. ... SeqMonk configuration ... Visualizing and Analysing ChIP-Seq Data with Subio Platform Importing ChIP-Seq data based on Illumina's next generation sequencing technology in...

SIG-MBIとOpen-bioで発表してきました

以下のふたつの研究会に参加してきました。 第46回 人工知能学会 分子生物情報研究会 第14回 オープンバイオ研究会 前者では定量生物の会や分子生物学会年会で話した ChIP-seq 解析の続きを話をしました。細胞特異的な転写因子パートナーの予測が実験でも確かめられたことを話せたので、研究としては(論文が受理されれば)ひとまずこれで一周したかな、と思います。今後は「統計モデルから物理モデルへ」と「予測から設計へ」という2つのキーワードで先を目指したいと考えています。 オープンバイオのほうでは、2003年から始めて2008年から放置ぎみのバイオインフォマティクス向け Linux OS, Knoppix for Bio (KNOB) のこれまでと今後について話しました。Amazon Web Service の EC2 を使ってクラウド化を目指すのが良いのではないか、という内容です。僕のキャラはプロトタイピングとプロディース向きなので、きっちりとメンテをやってくれるキャラのパートナーを絶賛募集中です。 ともかく、オープンバイオ研究会の原点とも言える KGB (KNOB, G-language, BioRuby) がそろって「これまでと今後」について話せたのはある意味マイルストンとしては良いミーティングだったと思います。 名物の夜のディスカッションでは、オミックス解析が「定性的なパイプライン処理」から「定量的なモデルによるデータ統合」へ変化することを予測して、それに耐え得るツール、データベース、セマンティックWeb技術などのが次のオープンバイオの課題である、という話をしました。パイプライン処理の結果を単にID変換(表の結合やベン図)により結合するだけでなく、定量的なモデルにより統合するためには、数値データの扱い、オブジェクト(転写単位やプロモータ領域)の閾値による動的な変化などをうまく扱う必要があります。これらの問題を解決する方法が、今のセマンティックWebやパイプライン管理システムの先にあるのか。数年かけてじっくり考えるべきテーマだと思います。 一方で、現在のバイオ系のセマンティックWeb関連の研究開発の延長に、クイズチャンピオンに勝利できる Watson の愛称で知られている DeepQA に相当する、DeepLSQA (LS = life science) が実現でき...

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen...

ChIP-seqの統計解析のレビュー読んだよ

超並列型短鎖DNAシーケンサーのデータ解析に関する論文を淡々と読んでます。その名もNGS論文100本ノック。普段はEvernote にメモしているのですが、少しずつ公開していきます。 ポリシー 自分が思い出すために必要な情報をメモるだけよ 知ってることはあまりメモしないよ 必要な論文だけ読むよ (ChIP-seq, RNA-seq を中心に) つまり人に読ませるつもりで書いてません、ごめんね。 今回の論文 1. Ghosh, D. (2010). Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Genes. サマリ 112報の論文を参考にシーケンスプラットフォーム概要から mapping, ChIP-seq, RNA-seq の統計処理までをレビューした総説。シーケンスの実験クオリティの評価方法については議論されていない。話もざっくりなのでさらっと読める。RNA-seq の部分は流し読み。 Mapping について マッピングには大別すると hash table と BWT ベースの方法の2つ。前者の hash table と検索速度のトレードオフがある。後者の suffix array を BWT で作ってインデックスをはる。mapping の良さは mappability score で評価する。Mappability score については以下の論文を参照。 Li, H., Ruan, J., & Durbin, R. (2008). Mapping short DNA sequencing reads and calling variants using mapping quality scores Genome research, 18(11), 1851-1858. doi:10.1101/gr.078212.108 Mapping tool については以下の論文を読めばいよいらしい。 Li, H., & Homer, N. (2010). A survey of sequence alignment algorithms for next-generation sequencing Briefings in bioinformatics, 11(5), 4...

RNA-seq から発現量が変動した遺伝子をどのように得るか

RNA-seq のデータから、統計的に有意な変動を示す遺伝子をどのように得るか。Microarray ときにも散々議論されましたが、RNA-seq でも同じく議論になっています。現在提案されている手法についてまとめてみました。 まだ全部には目を通せてません。すべて読んだ後に解説を書くかもしれませんが、網羅している自信がないので、先にリンクを列挙しておきます。主に論文とツールのソースコード、マニュアルなどです。ほかに情報をお持ちの方は教えてくださいな。 1. cufflinks と cuffdiff http://cufflinks.cbcb.umd.edu/howitworks.html の後半に cuffdiff の説明がある。 FPKM Trapnell C, Williams BA, Pertea G, Mortazavi AM, Kwan G, van Baren MJ, Salzberg SL, Wold B, Pachter L. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology doi:10.1038/nbt.1621 http://dx.doi.org/10.1038/nbt.1621 Jensen–Shannon divergence http://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence 以下の3つも知っておいたほうが理解しやすい良い。 RPKM Ali Mortazavi, Brian A Williams, Kenneth McCue, Lorian Schaeffer and Barbara Wold Mapping and quantifying mammalian transcriptomes by RNA-Seq Nature Methods, volume 5, 621 - 628 (2008) http://www.nature.com/nmeth/journal/v5/n7/abs/nmeth.1226....