2010/08/06

ゲノム座標を異なるゲノムバージョンの間で変換するよ

マイクロアレイのアノテーションが古い、などの理由でゲノムのバージョンが古い座標を使ったファイルを使わなければならないときってありますよね? でも新しいゲノムのバージョンで解析しているほかのデータと一緒に見たい!! そんなときに座標を変換する方法を調べてみました。

(注: もちろん元のDNA配列が得られるなら自分でマップしたほうがいいですよ)

ここでは、マウスゲノムの mm8 から mm9 へ座標変換します。Linux が前提ですが、ほかでもかわりないです。変換されるファイルの形式は bed が基本ですが、オプションでほかのファイルにも対応できそうです。bed ファイルでも browse 行や track 行があるとエラーになるので除いておきましょう。

まず変換テーブルをダウンロードします。

curl -O http://hgdownload.cse.ucsc.edu/goldenpath/mm8/liftOver/mm8ToMm9.over.chain.gz
gzip -d mm8ToMm9.over.chain.gz


ほかのゲノム間を比較したい場合は、golden path のダウンロードサイトの下に liftOver というディレクトリがあって、そこに変換テーブル (*.chain) があります。

変換プログラムをダウンロードしてインストールします。

curl -O http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz
chmod +x ./liftOver
sudo cp ./liftOver /usr/local/bin/


では変換してみましょう。mm8.bed が変換したい mm8 なゲノム座標のファイルで、mm9 な座標に変換後 mm9.bed に保存されます。unmapped.txt は座標変換が失敗したエントリが保存されます。

liftOver mm8.bed mm8ToMm9.over.chain mm9.bed unmapped.txt


とても簡単、とても高速!!! ありがとう Dr. Jim Kent! あと liftover を教えてくれた @32nm ありがとう

Liftover Web版もありますよ。