バナナでもわかる話

開設当初は計量経済学・統計学が専門の大学院生でした。今はデータを扱うお仕事をしています。統計学・経済学・投資理論・マーケティング等々に関する勉強・解説ブログ。ときどき趣味も。極力数式は使わずイメージで説明出来るよう心掛けていますが、時々暴走します。

【初心者向け】株取引のための時系列データ分析事始め

前回は今まで記事にした内容のみを使って、簡単な株価分析が出来ちゃうぞという話をしました。
bananarian.hatenablog.com


しかし、次のように感じた方も多いのではないでしょうか。

せっかく時間によって変動するデータなのに時間に関する情報全然使ってないじゃん。


そうです。使ってません。時系列データの扱い方は少々高度なので、今までは初心者向けということで記事にしていなかったのです。

しかし、当然株価予測を行いたいなんて考えた時には時系列分析に関する知識が最低限必要になってきます。


そこで今回から何回かの記事では、株価予測に焦点を当てた時系列分析の方法を、難しい話は大胆カットして、使える部分だけを切り貼りし、記事にしていきたいと思います。

今回は使用するモデルの概要について記事にしました。
f:id:bananarian:20180905131119j:plain



基本となる時系列モデルの紹介

時系列分析のキホンのキであるモデルが主に三種類あるので紹介します。

AR過程

次のような形で、以前の状態が今の状態に影響(相関)している時系列データをAR(p)過程と言います。

 y_{t}=c+\phi_1 y_{t-1}+\phi_2 y_{t-2}+…+\phi_p y_{t-p}+\epsilon_t

 cは定数
 \epsilon_tはホワイトノイズ。


ここでホワイトノイズとは次のような条件を満たす確率過程を指します。

全てのtにおいて次の条件が成り立つ
 E[\epsilon_t]=0
 Var[\epsilon_t]=\sigma^2
 cov[\epsilon_t,\epsilon_s]=0,t≠s


p=1、つまりAR(1)は次のようになります。

 y_{t}=c+\phi_1 y_{t-1}+\epsilon_t


MA過程

次のような形で、以前の状態が今の状態に影響(相関)している時系列データをMA(q)過程と言います。

 y_{t}=c+\epsilon_{t}+\psi_1 \epsilon_{t-1}+\psi_2 \epsilon_{t-2}+…+\psi_q \epsilon_{t-q}

 cは定数
 \epsilon_tはホワイトノイズ。


q=1、つまりMA(1)は次のようになります。

 y_{t}=c+\epsilon_{t}+\psi_1 \epsilon_{t-1}



ARMA過程

AR過程とMA過程を合体させたモデルをARMA(p,q)過程と呼びます。

 y_{t}=c+\phi_1 y_{t-1}+\phi_2 y_{t-2}+…+\phi_p y_{t-p}+\epsilon_{t}+\psi_1 \epsilon_{t-1}+\psi_2 \epsilon_{t-2}+…+\psi_q \epsilon_{t-q}



これらのモデルでのパラメータ \phi \psiは主に最尤法で推定されます。


自己相関の検定

上のようなモデルをうまく使うためには、時系列データが自己相関しているかどうかが重要になる。
そこで用いられるのがportmanteau testです。


ARIMA過程

AR過程やMA過程、ARMA過程は定常性という特殊な条件が成り立っていないとうまく扱うことが出来ません。
しかし、株価データは普通定常性が成り立っておらず、非定常データと言われます。

非定常データではあるが、d階差分をとることで定常なARMA(p,q)モデルになるような場合はARIMA(p,d,q)モデルというモデルで表現することが出来ます。

普通株価のデータに対してはこのARIMAモデルを当てはめます。

モデル選択

ARIMAを使えばよいというのはわかったけど、p,d,qの値をどうやって決めればよいでしょうか。
これについてはAIC(赤池情報量基準)と呼ばれる基準に従って、モデル選択を行うのが一般的です。



以上説明した内容については、簡単に実装するパッケージがたくさんあるので、次の記事ではそれについて説明します。