Rのapplyとforの計算時間比較~forだって遅いわけじゃない~

Rユーザーの間でよく言われる話として

「forを使うのは初心者。こなれたRユーザーはapplyを活用する」

なんて話があります。

理由は「forを使うと計算が遅くなるから」「applyの方がコードが見やすいから」

ということで、基本的にはその通りなんですけど
ここでR初心者の人は次のような勘違いしてしまうんです。

「そうか～！applyの方が計算が速くてforだと遅いのか！」

なーんて誤解が発生します。

別にforだって、うまく使いこなせれば何ならapplyより早いし、forやapplyを使うより、別の関数を使った方が早いときもあるんですね。

というわけで、今回は計算時間の比較を通してそれを実感してみます。

Rの計算時間の測定方法

まず、計算時間についてですが、proc.time関数を使用します。

> t=proc.time()
> sqrt(5)
[1] 2.236068
> proc.time()-t
   ユーザ   システム       経過  
      0.03       0.00       0.03

こんな感じで経過時間がわかります。

行列の列や行の平均を求める

まず、今回いじる100×10000の行列を適当に作っておきましょう。

X=matrix(rpois(100*10000,lambda=5),100,10000)

各列について平均を取るという処理をしてみます。この処理を行うド定番の関数としてcolMeans関数があるので、この関数とapplyで処理した場合と、for関数を使った場合について比較してみました。

>#apply関数のケース
> t=proc.time()
> d1=apply(X,MARGIN=2,FUN=mean)
> proc.time()-t
   ユーザ   システム       経過  
      0.11       0.00       0.11 
> 
>#colMeansのケース
> t=proc.time()
> d2=colMeans(X)
> proc.time()-t
   ユーザ   システム       経過  
      0.02       0.00       0.01 
> 
> 
> #forのケース
> t=proc.time()
> d3=vector()
> for(i in 1:10000){
+ d3[i]=mean(X[,i])
+ }
> proc.time()-t
   ユーザ   システム       経過  
      0.10       0.04       0.16 
>

今回だと

colMeans<apply<for

ということで
colMeans関数の圧勝でした。まあそれ用の関数だから当たり前と言えば当たり前ですね。

>#一応値が一致しているか確認
> sum(d1==d3)
[1] 10000
> sum(d1==d2)
[1] 10000

次は各行について平均を取ってみます。
今度はrowMeans関数を使ってみます。

> t=proc.time()
> d1=apply(X,MARGIN=1,FUN=mean)
> proc.time()-t
   ユーザ   システム       経過  
      0.05       0.01       0.06 
> 
> t=proc.time()
> d2=rowMeans(X)
> proc.time()-t
   ユーザ   システム       経過  
      0.00       0.02       0.01 
> 
> 
> 
> t=proc.time()
> d3=vector()
> for(i in 1:100){
+ d3[i]=mean(X[i,])
+ }
> proc.time()-t
   ユーザ   システム       経過  
      0.07       0.02       0.08 
> sum(d1==d2)
[1] 100
> sum(d1==d3)
[1] 100

またもや
rowMeans<apply<for

という結果になりました。
やはり専用の関数がある場合はそれを使った方が早いですね。

3次元配列に対して平均を取る

3次元配列のデータXXを下のように用意してみました。

> XX=array(rpois(2*3*1000000,lambda=5),c(2,3,1000000))

先ほどの要領でやってみます。

> t=proc.time()
> dd1=apply(XX,MARGIN=3,FUN=mean)
> proc.time()-t
   ユーザ   システム       経過  
     10.50       0.06      10.63 
> 
> 
> t=proc.time()
> dd2=vector()
> for(i in 1:1000000){
+ dd2[i]=mean(XX[,,i])
+ }
> proc.time()-t
   ユーザ   システム       経過  
      7.26       0.04       7.33 
> 
> sum(dd1==dd2)
[1] 1000000

んん。
for<apply
になりましたね。

今度は次元を変えてみます。

> XX=array(rpois(100*100*100,lambda=5),c(100,100,100))
> t=proc.time()
> dd1=apply(XX,MARGIN=3,FUN=mean)
> proc.time()-t
   ユーザ   システム       経過  
      0.04       0.01       0.06 
> 
> 
> t=proc.time()
> dd2=vector()
> for(i in 1:100){
+ dd2[i]=mean(XX[,,i])
+ }
> proc.time()-t
   ユーザ   システム       経過  
      0.05       0.07       0.11 
> 
> sum(dd1==dd2)
[1] 100