スキップしてメイン コンテンツに移動

Rのコードを multicore を使って、テスト駆動開発でマルチコア化するよ

multicore パッケージを利用してマルチコア化してみます。とは言っても、sapply, lapply を mclapply にするだけの簡単なお仕事ですが、せっかくなので testthat を使ってマルチコア化する際にテスト駆動開発で実装していきます。

まずは、そのへんのアップルストアで購入可能な MacBook Air を購入しましょう。今回はこれでやります。Rも Mac 版の dmg を普通にインストールしましょう。次にパッケージをインストールします。

sudo R
install.packages(multicore)
install.packages(testthat)
q()

インストールが簡単なのがよいですね。MPIとかそういうものをごちゃごちゃ設定する必要なないです。

今回は非有界区間のモンテカルロ積分によって、標準正規分布の累積分布関数を計算します。まずは for で書きます。

とりあえず、マルチコア化は置いておいて、みんな大好き apply 系関数に書きかえてみましょう。もちろん、まずテストを書きます。set.seed で乱数をシードを固定して、testthat で単体テストします。

  R
  library("testthat")
  test_file("test_mci.r")
もちろん失敗します。 sapply 版を実装します。 テストが通りました。 リストで返ってくるので、unlist するバージョンも作ります。またテストを書きます。 失敗を確認してから、実装を開始します。 テストが通ります。

前置きが長いですが、いよいよ、multicore 化です。でも先にテスト書きます。 テストが通らないことを確認し、実装します。 テストが通ることを確認してください。では速度比較をしてみます。 4 cores なのですが2倍程度は速くなりました。おもったより unlist のコストがかかってないですね。ちなみにコア数は、
> library(multicore)
> multicore:::detectCores()
でわかります。
ちなみに 16 CPU cores のマシンで実行したら 6 倍程度の高速化でした。
             for sapply sapply.unlist mclappy
user.self  9.633  8.722         8.692   0.004
sys.self   0.111  0.300         0.223   0.014
elapsed    9.744  9.021         8.915   1.521
user.child 0.000  0.000         0.000  16.199
sys.child  0.000  0.000         0.000   0.949

foreach もありますが、multicore パッケージは、新しい文法を覚える必要がないので便利ですね。常に mclapply 使っておこうか、という気になります。

コードは以下にすべて置いてあります。

https://github.com/dritoshi/learning_multicore_pkg

参考:
CRAN: multicore
Rによる計算機統計学

コメント

  1. foreachは並列計算のバックエンドを選べるのでマルチコア以外の状況(クラスタ化とか)が出てくるときには、バックエンドを変えるだけで対応できるので便利ですね。
    plyr::llply(.parallel=TRUE)とかはforeachをラップしてるので、lapplyと同じ文法で、いろんな並列バックエンドに対応しようと思ったらplyr::llplyも選択肢に入ってきそうです。

    返信削除
  2. ありがとうございます。foreach もいじってみようと思っています。今は core の数だけ R を起動して、GridEngine ようなジョブスケジューラに投げる、という力技をやっているので。

    返信削除

コメントを投稿

このブログの人気の投稿

シーケンスアダプタ配列除去ツールまとめ

FASTQ/A file からシーケンスアダプター配列やプライマー配列を除くためのプログラムをまとめてみる。 まず、配列の除去には大別して2つの方向性がある。ひとつは、アダプター配列を含む「リード」を除いてしまう方法。もうひとつは除きたい配列をリードからトリムする方法である。後者のほうが有効リードが増えるメリットが、綺麗に除ききれない場合は、ゲノムへのマップ率が下がる。 気をつける点としては、アダプター/プライマーの reverse complement を検索するかどうか。paired end の際には大事になる。クオリティでトリムできるものや、Paired-end を考慮するものなどもある。アダプター/プライマー配列の文字列を引数として直接入力するものと、multi fasta 形式で指定できるももある。 From Evernote: シーケンスアダプタ配列除去ツールまとめ TagDust http://genome.gsc.riken.jp/osc/english/software/src/nexalign-1.3.5.tgz http://bioinformatics.oxfordjournals.org/content/25/21/2839.full インストール: curl -O http://genome.gsc.riken.jp/osc/english/software/src/tagdust.tgztar zxvf tagdust.tgz cd tagdust/ make sudo make install rehash 使いかた: tagdust adapter.fasta input.fastq -fdr 0.05 -o output.clean.fastq -a output.artifactual.fastq 解説: 入出力形式は fastq/a が使える。リード全体を除く。速い。アダプター配列を fasta 形式で入力できるのが地味に便利で、これに対応しているものがなかなかない。Muth–Manber algorithm (Approximate multiple

ChIP-seq の Peak calling tool を集めたよ

ほかにもあったら教えてください。プログラム/プロジェクト名がツールのプロジェクトサイトへのリンク。その論文タイトルは論文へのリンクになっています。 ツール名の50音順です。 CCCT -  A signal–noise model for significance analysis of ChIP-seq with negative control , chipdiff と同じグループ CisGenome -  CisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data . ChromSig -  ChromaSig: a probabilistic approach to finding common chromatin signatures in the human genome. ChIPDiff -  An HMM approach to genome-wide identification of differential histone modification sites from ChIP-seq data ChIP-Seq Analysis Server FindPeaks -  FindPeaks 3.1: a tool for identifying areas of enrichment from massively parallel short-read sequencing technology. Version 4.0 is out. GLITR -  Extracting transcription factor targets from ChIP-Seq data HPeak -  HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data MACS -  Model-based Analysis of ChIP-Seq (MACS). PeakSeq -  PeakSeq enables systematic scoring of ChIP-seq experimen

大学の研究室でアカデミックプランが使えるICTツール

自分らでサーバ管理したくないので、SaaS系とローカルで動くソフトのみ。ローカルで動くソフトに関しては、Mac or Docker で動くもののみ。 無償 G Suite for Education  (ドキュメント共有、カレンダーなど) GitHub Education  (ソースコード管理) esa.io アカデミックプラン  (知識共有) Tableau  (データ可視化) Scrapbox  (知識共有) GROWI.cloud  (Wikiなど) 割引 Slack の教育支援プログラム  (ビジネスチャット) Dropbox Education  (ファイル共有、ドキュメント共有) Office 356  (オフィスソフト) Adobe Creative Cloud  (画像編集) AutoDesk for Education  (CADなど) これから申し込んでいくところなので、本当に使えるかはわかりせん。使えた使えないなどの情報やほかのツールでお勧めがあれば教えてもらえると嬉しいです。 アカデミアでなくても無料で使えるツールのうち、うちで使うであろうものは以下に列挙していく。 Google Colaboratory  (データ解析) Overleaf  (論文執筆) Rstudio  (開発, データ解析) VS code (開発)