【初心者向け】株取引のための時系列データ分析事始め

前回は今まで記事にした内容のみを使って、簡単な株価分析が出来ちゃうぞという話をしました。
bananarian.hatenablog.com

しかし、次のように感じた方も多いのではないでしょうか。

せっかく時間によって変動するデータなのに時間に関する情報全然使ってないじゃん。

そうです。使ってません。時系列データの扱い方は少々高度なので、今までは初心者向けということで記事にしていなかったのです。

しかし、当然株価予測を行いたいなんて考えた時には時系列分析に関する知識が最低限必要になってきます。

そこで今回から何回かの記事では、株価予測に焦点を当てた時系列分析の方法を、難しい話は大胆カットして、使える部分だけを切り貼りし、記事にしていきたいと思います。

今回は使用するモデルの概要について記事にしました。
f:id:bananarian:20180905131119j:plain

時系列分析のキホンのキであるモデルが主に三種類あるので紹介します。

次のような形で、以前の状態が今の状態に影響(相関)している時系列データをAR(p)過程と言います。

$y_{t}=c+\phi_1 y_{t-1}+\phi_2 y_{t-2}+…+\phi_p y_{t-p}+\epsilon_t$

$c$ は定数
$\epsilon_t$ はホワイトノイズ。

ここでホワイトノイズとは次のような条件を満たす確率過程を指します。

全てのtにおいて次の条件が成り立つ
$E[\epsilon_t]=0$
$Var[\epsilon_t]=\sigma^2$
$cov[\epsilon_t,\epsilon_s]=0,t≠s$

p=1、つまりAR(1)は次のようになります。

$y_{t}=c+\phi_1 y_{t-1}+\epsilon_t$

次のような形で、以前の状態が今の状態に影響(相関)している時系列データをMA(q)過程と言います。

$y_{t}=c+\epsilon_{t}+\psi_1 \epsilon_{t-1}+\psi_2 \epsilon_{t-2}+…+\psi_q \epsilon_{t-q}$

$c$ は定数
$\epsilon_t$ はホワイトノイズ。

q=1、つまりMA(1)は次のようになります。

$y_{t}=c+\epsilon_{t}+\psi_1 \epsilon_{t-1}$

AR過程とMA過程を合体させたモデルをARMA(p,q)過程と呼びます。

$y_{t}=c+\phi_1 y_{t-1}+\phi_2 y_{t-2}+…+\phi_p y_{t-p}+\epsilon_{t}+\psi_1 \epsilon_{t-1}+\psi_2 \epsilon_{t-2}+…+\psi_q \epsilon_{t-q}$

これらのモデルでのパラメータ $\phi$ や $\psi$ は主に最尤法で推定されます。

上のようなモデルをうまく使うためには、時系列データが自己相関しているかどうかが重要になる。
そこで用いられるのがportmanteau testです。

AR過程やMA過程、ARMA過程は定常性という特殊な条件が成り立っていないとうまく扱うことが出来ません。
しかし、株価データは普通定常性が成り立っておらず、非定常データと言われます。

非定常データではあるが、d階差分をとることで定常なARMA(p,q)モデルになるような場合はARIMA(p,d,q)モデルというモデルで表現することが出来ます。

普通株価のデータに対してはこのARIMAモデルを当てはめます。

ARIMAを使えばよいというのはわかったけど、p,d,qの値をどうやって決めればよいでしょうか。
これについてはAIC(赤池情報量基準)と呼ばれる基準に従って、モデル選択を行うのが一般的です。

以上説明した内容については、簡単に実装するパッケージがたくさんあるので、次の記事ではそれについて説明します。