Twitterの過去発言を拾う

ついにtwitterの過去発言を検索できるようになりました。
今までは2~3日前のものしか見れなかったので凄い変化です。
Apiの制限もついでに無くしてくれれば尚嬉しいところですが…

やりかたも簡単で、検索窓に
#キーワード since:年月日 until:年月日
と入力するだけ。
例えば「セブンイレブン」についての発言を
「2013年4月1日」から「2014年10月1日」まで見たいと思えば、
#セブンイレブン  since:2013-04-01 until:2014-10-01
でOKです。
あとは「トップ/すべて」を選択して見ていくだけ。

もう1つ嬉しいニュースが…
http://toyokeizai.net/articles/-/53538
テレ東HDの売上が好調とのこと。
『男のリトマス試験紙』『拳のマニフェスト』『全身の毛穴で受け止めろ』など、
数々の名言を作り出した木曜洋画劇場は終わってしまいましたが、
午後のロードショーは名作(迷作)を毎週放送するので楽しみにしています。

そんなわけで、2014年4月~2014年9月の映画放送枠のツイートを集めてみました。

1.収集方法
Apiがまだ未対応らしいので、ほぼ人力。
#番組名 since:2014-04-01 until:2014-10-01
で検索を行い、htmlコードを抜き出し保存します。

ハッシュタグで検索する番組名は正式名称、またはそれに準ずるもの。
今回は「日曜洋画劇場」「金曜ロードSHOW!」「午後のロードショー」を検索しました。
視聴率はビデオリサーチから関東地区のものを参考にさせて頂きました。

2.グラフ化
まずは定番の折れ線グラフ。
・日曜洋画劇場(テレビ朝日)

なぜ細い線と太い線が出てくるのか・・・。
青の折れ線グラフが#日曜洋画劇場のツイート数
オレンジの棒グラフが変化のあった日の視聴率を表します。

目を引くのが、06/29。
723件のツイートがありました。視聴率は11.4%。
その前後の週も、他と比べてやや高い傾向にあります。

06/22:パイレーツ・オブ・カリビアン/呪われた海賊たち(124件)
06/29:ワイルド・スピードMEGA MAX(723件)
07/06:ソルト(206件)
全部、洋画!

他のツイート数が凸になっている放送作品を見てみると

04/13:相棒-劇場版-絶体絶命!42.195km(34件)
04/20:相棒-劇場版2-警視庁占拠!特命係の一番長い夜(35件)
04/27:相棒シリーズX DAY(27件)
05/11:探偵はBARにいる2ススキノ大交差点(117件)
08/17:少年H(29件)
09/21:HOME愛しの座敷わらし(80件)
09/28:あなたへ(84件)

水谷豊だらけ・・・なのは置いといて。邦画ではあまりツイート数は伸びないようですね。
地上波初だと伸びている様子ですが。
視聴率とツイート数はあまり関係はないようです。

・金曜ロードショー(日本テレビ)

明らかに異常値がありますけど、ミスではありません。
200件以上ツイートのあった映画の視聴率、ツイート数を書き上げると

04/18:名探偵コナン絶海の探偵・プライベート・アイ (604件)13.6%
04/25:アメイジング・スパイダーマン (549件)14.0%
05/16:ナルニア国物語/第3章:アスラン王と魔法の島(274件)12.0%
05/23:X-MEN:ファースト・ジェネレーション (646件)11.8%
05/30:藁の楯 (236件)13.0%
06/20:ガリバー旅行記 (249件)11.0%
07/04:もののけ姫 (299件)21.9%
07/11:となりのトトロ (467件)19.4%
07/18:借りぐらしのアリエッティ (342件)17.2%
08/08:トランスフォーマー (253件)11.0%
08/22:ヱヴァンゲリヲン新劇場版:序TV版 (806件)9.5%
08/29:ヱヴァンゲリヲン新劇場版:破TV版 (644件)11.8%
09/05:ヱヴァンゲリヲン新劇場版:Q+巨神兵東京に現わる (1253件)10.0%
09/19:猿の惑星:創世記・ジェネシス (241件)10.2%

異常値はヱヴァンゲリヲンでした。
邦画でも地上波初の藁の楯は良い数字。
アニメと洋画の伸びが良いです。

ちなみに伸びが悪かった放送枠をまとめると
04/11:GANTZ PERFECT ANSWER (77件)13.2%
05/02:悪夢ちゃんスペシャル (37件)不明
06/13:特別ドラマ企画磁石男 (7件)12.0%
06/27:カイジ2・人生奪回ゲーム (99件)11.3%
08/15:硫黄島からの手紙 (89件)9.2%

漫画原作のGANTZとカイジはある程度の投稿数があります。
しかし・・・Twitter内で邦画は人気無いですね。

・午後のロードショー(テレビ東京)

ツイートが100件を超えるものを列挙すると、

07/03:フライング・ジョーズ  (166件) 4.0%
07/10:ドライブ・アングリー (160件) 4.7%
07/31:シャークネードサメ台風 (335件) 4.7%
08/05:ゴジラVSモスラ (145件)
08/06:ゴジラVSスペースゴジラ (131件)
09/04:エグジット・スピード (165件) 4.9%

ゴジラ作品は視聴率が不明でした。
ちなみにその週(8/4~8/10)の午後のロードショーで最も好視聴率(4.7%)だった
「ベスト・キッド」はツイート数が9件でした。

基本的に、午後のロードショーは『パニック』『モンスター』『冒険』といった
twitterで感想を投稿しやすい作品が揃っているのですが、作品により波があるようです。
335件のシャークトルネードサメ台風は間違っても名作ではないです。
(ラストは一見の価値はありますけど)

3つの放送枠をグラフ化してみると、
・視聴率とツイート数はあまり関連していない。
・Twitterを使っている年齢(10~30歳代?)の好む作品のツイート数が高い傾向がある。
・動きのある作品(アクション系)はツイート数が伸びやすい。
以上のことがボンヤリと見えてきます。
偏差値・分散などを出せばもう少し詳しく分析できそうですけど、
裏番組の視聴率、曜日との関連とかも考えると条件が複雑過ぎますね。

3.ベクトル化をしてみる
『word2vec』という自然言語解析方法があることをしりました。
文章を単語毎に分けて、前後の関係性をベクトル・次元化するものとのこと。
マジカルバナナ的なプログラムだと思えばいいらしいです。
「~」といったら「~」を自動的に分析してくれます。

window(何個の単語を文脈とするか)、
min_count(低い値の結果の処理)、
size(何次元のベクトルにするか)、
など色々設定できるようですが、
今回はwindow=5,size=200,min_count=10にして実行します。
200次元のベクトルとかもうなんだか分かりませんけど。

文章が多ければ結果も良くなるとのことなので、
サンプルの多い『金曜ロードショー』のツイートを解析します。

・コナン
蘭 0.7979367971420288
葉 0.7622595429420471
イージス艦 0.7464412450790405
おっちゃん 0.7453001737594604
ピーター 0.7231925129890442
名刺 0.7197737693786621
スパイディ 0.7187179923057556
和 0.7076669335365295
平次 0.6868075728416443
な 0.6608955264091492

名探偵コナンの『コナン』と関係度の高い単語はどれか?を調べてみました。
1に近いほど関連度が高く、-1に近いほど関連度は低くなります。
ヒロインの『蘭』、キャラクターの『平次』、『和葉(辞書登録してないので分割)』が出現。
物語の鍵になる『イージス艦』『名刺』もしっかり出てきます。
『スパイディ』『ピーター』は次週に放送されたスパイダーマンの関連語。
次回予告への感想などで混ざってしまったようです。

・シンジ
カヲル 0.7573738694190979
みゆきち 0.7260743975639343
外し 0.6728987097740173
サードインパクト 0.6609212756156921
カオル 0.657907247543335
アスカ 0.6572248339653015
本 0.6504138112068176
謎 0.6483267545700073
フ 0.648204505443573
綾波 0.6459027528762817

ヱヴァンゲリヲンの『シンジ』で調べてみると、
キャラクターの『カヲル』『アスカ』『綾波』、
物語の鍵になる『サードインパクト』、
声優の『みゆきち(沢城みゆき)』が出現。

文章は選びそうな技術ですが、頼もしい感じです。

作業が終わってから、日曜洋画劇場が日曜エンタに改名しているのに気が付きました。
許してください。