数量化Ⅰ類という方法を使えば、数値以外の情報でも回帰分析が可能になるそうです。
例えば天気の情報。
日付 | 天気 |
09/12 | 晴 |
09/13 | 晴時々曇り |
09/14 | 雨 |
となっていたら、
日付 | 晴 | 曇り | 雨 |
09/12 | 1 | 0 | 0 |
09/13 | 1 | 1 | 0 |
09/14 | 0 | 0 | 1 |
と数値化することで計算可能になるわけです。
本当に思いついた人は凄いですよね。
今回はコレを使いつつ回帰分析を行います。
0.使用するデータ
「神戸ルミナリエ」を含むツイート(2011年~2014年イベント開催日)
神戸ルミナリエの入場者数 2010年~2014年
http://www.kobe-luminarie.jp/cont-13.htm
日別で公開しているイベントってなかなか無いので助かります。
しかも天気情報まで入っています。至れり尽くせりです。
1.入場者数の回帰分析
入場者数と外部要因(年度・天気・曜日)の関係を調べていきます。
P-値が高い要因は排除していくと、最終的にこのような式になりました。
入場者数=198,345+ 60,745*水曜日+ 38,527*金曜日+ 319,400*土曜日 + 200,455*日曜日 -54,727*雨
天気情報は晴・曇・雨の3種類ありましたが、入場者数に響くのは雨だけのようです。
イルミネーションですし、曇っていても問題はないのでしょう。
「水曜日に人が増える」「日曜日より土曜日のほうが人が多い」、この現象は・・・なんなのでしょうか?
回帰分析で予想した入場者数と実際の入場者数を比べてみます。
誤差=(予想入場者数/実際の入場者数)/実際の入場者数
として計算してみた結果がコチラ。ピッタリなら0%になります。
絶対値で10%以上のものは赤マスにしています。
そこそこ予想出来ていますが・・・かなり外れているものもありますね。
問題がありそうな1・2・12日目の実際・予想の入場者数を見てみます。
まずは1日目(初日)。
初日は別の要因もありそうです。
雨が降っても変化は少ないようですし・・・2012年と2013年を境に入場者数がかなり増加してます。
2010年 | 2011年 | 2012年 | 2013年 | 2014年 | |
1日目(実際) | 129,000(雨) | 124,000 | 126,000 | 183,000 | 154,000(雨) |
1日目(予想) | 143,618(雨) | 198,345 | 198,345 | 198,345 | 143,618(雨) |
2日目。
2011年と2012年を境に入場者数が激増。
2010年 | 2011年 | 2012年 | 2013年 | 2014年 | |
2日目(実際) | 152,000 | 169,000 | 239,000 | 243,000 | 216,000 |
2日目(予想) | 236,873 | 236,873 | 236,873 | 236,873 | 236,873 |
12日目(最終日)。
2011年と2012年を境に入場者数が増加。
初日と違って雨が降った際の入場数の現象が激しいようです。
2010年 | 2011年 | 2012年 | 2013年 | 2014年 | |
12日目(実際) | 102000(雨) | 189000 | 202000 | 214000 | 207000 |
12日目(予想) | 143618(雨) | 236,873 | 236,873 | 236,873 | 236,873 |
2.ツイート数と入場者数の関係性
「神戸ルミナリエ」を含むツイート数と実際の入場者数の関係性を見てみます。
縦軸をツイート数、横軸を入場者数としてグラフを作成してみます。
どの年度でも初日はツイートが多く(600程度)、外れ値になっています。
エクセルの機能で近似曲線を引くと、「金・土・日」曜日はその周囲に点在している様子。
やや外れた場所に、それ以外の曜日があるようです。
とりあえず、回帰分析をしてみましょう。
ツイート数を「実際の入場者数・初日か否か・曜日・天気」で計算してみます。
ツイート数= 255 – 入場者数*0.00046 + 金曜日*98 + 土曜日*197 + 日曜日*134 – 雨*61
なぜか入場者が増えるとツイート数が減る結果に。
入場者が20万人なら92個、50万人なら230個ツイート数が減ります。
実際のツイート数と予想ツイート数の誤差計算した結果がコチラ。
精度が悪いです。
3.まとめ
■神戸ルミナリエの入場者数は、休日付近の曜日と天気(雨)に左右されることが分かりました。
■初日付近と最終日では、別の要因が働いている様子。例えば
・初日だから雨が降っても絶対行く。
・最終日は混みそうだし別にいいか。
といった感じでしょうか。
■ある年度を境に入場者数が大きく変化している部分がありました。
何かのイベントか、広告費を上げたか・・・横浜付近のイベントなら詳しいのですが。
■ツイート数を予想するのは難しいです。平均200回/日と数も少ないですからね。
何かのきっかけ(有名なユーザーのツイート、綺麗な画像付きのツイート)で一気に増えたりします。
■入場者数が増えるとツイート数が減る現象は謎です。
「神戸ルミナリエの入場者が多い」→「行楽日和」→「Twitterに投稿しない」という考察も出来ます。
■「神戸ルミナリエ」を含むツイートをしたユーザー全員が、入場となんらかの関係を持っているとは考えられません。
そうなるとそもそも回帰分析ができない・・・。
要因を上手く設定しないと、ちゃんとした結果が出にくいです。
とりあえず数量化Ⅰ類を試せたので良しとしましょう。