イベントの入場者数とツイート数は連動するのか?

数量化Ⅰ類という方法を使えば、数値以外の情報でも回帰分析が可能になるそうです。
例えば天気の情報。

日付 天気
09/12
09/13 晴時々曇り
09/14

となっていたら、

日付 曇り
09/12 1 0 0
09/13 1 1 0
09/14 0 0 1

と数値化することで計算可能になるわけです。
本当に思いついた人は凄いですよね。
今回はコレを使いつつ回帰分析を行います。

0.使用するデータ

「神戸ルミナリエ」を含むツイート(2011年~2014年イベント開催日)
神戸ルミナリエの入場者数 2010年~2014年
http://www.kobe-luminarie.jp/cont-13.htm
日別で公開しているイベントってなかなか無いので助かります。
しかも天気情報まで入っています。至れり尽くせりです。

1.入場者数の回帰分析

入場者数と外部要因(年度・天気・曜日)の関係を調べていきます。
P-値が高い要因は排除していくと、最終的にこのような式になりました。

入場者数=198,345+ 60,745*水曜日+ 38,527*金曜日+ 319,400*土曜日 + 200,455*日曜日 -54,727*雨

天気情報は晴・曇・雨の3種類ありましたが、入場者数に響くのは雨だけのようです。
イルミネーションですし、曇っていても問題はないのでしょう。
「水曜日に人が増える」「日曜日より土曜日のほうが人が多い」、この現象は・・・なんなのでしょうか?

回帰分析で予想した入場者数と実際の入場者数を比べてみます。
誤差=(予想入場者数/実際の入場者数)/実際の入場者数
として計算してみた結果がコチラ。ピッタリなら0%になります。
絶対値で10%以上のものは赤マスにしています。
そこそこ予想出来ていますが・・・かなり外れているものもありますね。

問題がありそうな1・2・12日目の実際・予想の入場者数を見てみます。
まずは1日目(初日)。
初日は別の要因もありそうです。
雨が降っても変化は少ないようですし・・・2012年と2013年を境に入場者数がかなり増加してます。

  2010年 2011年 2012年 2013年 2014年
1日目(実際) 129,000(雨) 124,000 126,000 183,000 154,000(雨)
1日目(予想) 143,618(雨) 198,345 198,345 198,345 143,618(雨)

2日目。
2011年と2012年を境に入場者数が激増。

  2010年 2011年 2012年 2013年 2014年
2日目(実際) 152,000 169,000 239,000 243,000 216,000
2日目(予想) 236,873 236,873 236,873 236,873 236,873

12日目(最終日)。
2011年と2012年を境に入場者数が増加。
初日と違って雨が降った際の入場数の現象が激しいようです。

  2010年 2011年 2012年 2013年 2014年
12日目(実際) 102000(雨) 189000 202000 214000 207000
12日目(予想) 143618(雨) 236,873 236,873 236,873 236,873

2.ツイート数と入場者数の関係性

「神戸ルミナリエ」を含むツイート数と実際の入場者数の関係性を見てみます。
縦軸をツイート数、横軸を入場者数としてグラフを作成してみます。
どの年度でも初日はツイートが多く(600程度)、外れ値になっています。
エクセルの機能で近似曲線を引くと、「金・土・日」曜日はその周囲に点在している様子。
やや外れた場所に、それ以外の曜日があるようです。



とりあえず、回帰分析をしてみましょう。
ツイート数を「実際の入場者数・初日か否か・曜日・天気」で計算してみます。

ツイート数= 255 – 入場者数*0.00046 + 金曜日*98 + 土曜日*197 + 日曜日*134 – 雨*61

なぜか入場者が増えるとツイート数が減る結果に。
入場者が20万人なら92個、50万人なら230個ツイート数が減ります。

実際のツイート数と予想ツイート数の誤差計算した結果がコチラ。
精度が悪いです。

3.まとめ

■神戸ルミナリエの入場者数は、休日付近の曜日と天気(雨)に左右されることが分かりました。
■初日付近と最終日では、別の要因が働いている様子。例えば
・初日だから雨が降っても絶対行く。
・最終日は混みそうだし別にいいか。
といった感じでしょうか。
■ある年度を境に入場者数が大きく変化している部分がありました。
何かのイベントか、広告費を上げたか・・・横浜付近のイベントなら詳しいのですが。

■ツイート数を予想するのは難しいです。平均200回/日と数も少ないですからね。
何かのきっかけ(有名なユーザーのツイート、綺麗な画像付きのツイート)で一気に増えたりします。
■入場者数が増えるとツイート数が減る現象は謎です。
「神戸ルミナリエの入場者が多い」→「行楽日和」→「Twitterに投稿しない」という考察も出来ます。
■「神戸ルミナリエ」を含むツイートをしたユーザー全員が、入場となんらかの関係を持っているとは考えられません。
そうなるとそもそも回帰分析ができない・・・。

要因を上手く設定しないと、ちゃんとした結果が出にくいです。
とりあえず数量化Ⅰ類を試せたので良しとしましょう。