Twitterのフォロー・フォロワー数の関係性

花見に雪が降ったかと思ったら、一気に最高気温26度と容赦が無いですね。
冬物と夏物しか準備しなくて良いので助かってますけど。

さて今までもTwitterAPIで情報を収集してきたのですが、
思い出してみると使用していない数値がありました。
・ツイート数
・フォロワー数
・フォロー数
この3つです。

・ツイート数
ユーザーの投稿平均を算出して、スパムアカウントを判別。
・フォロワー数
支持されている・注目されているアカウントなのかの判別。
・フォロー数
フォロワー数と比較する。

色々とできそうな感じがします。
データベースを漁ったところ、適当なユーザー情報があったので簡単な解析をしてみます。

1.使用するデータ

「プレミアムサンド」を含む語句をツイートしたユーザー情報。
収集期間は不明。1295件。

2.フォロー数とフォロワー数の関係

とりあえず散布図にしてみます。
数値が異常なアカウントが多数あるため見辛くなっていますね。

範囲を5,000以下に抑えて作図します。
それっぽい散布図が作成されました。
基本的に、『フォロワー数:フォロー数=1:1』になる関係のユーザーがほとんどですね。
フォロワー数>フォロー数になるアカウントは有名なアカウントであることが多いようです。
フォロワー数<フォロー数になるアカウントはスパムアカウントやBOTアカウントである可能性があります。
上手く判別できれば形態素解析の結果にも反映できそうです。

3.アカウントの作成時期

総ツイート数÷(最新の投稿時刻-作成時期)
これで平均の投稿数が算出できると思ったのですが・・・。
3年前の投稿ペースと今年の投稿ペースが同様であるとは言い切れないですよね。
ツイート数での比較は別の機会に行いたいと思います。

APIでユーザー情報収集するとTwitterアカウントを作成した時期が取得できます。
これを年別(20xx年1月~20xx年12月)に振り分けると以下のようになりました。
作成して1年以内の新しいアカウントが多いようです。
2010年に作成されたアカウントがやや多いですね。
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc123220.html
によると国内のTwitter利用は2009年頃から増加し始め、2011年春までの期間で急増したとのこと。
1300件程度の情報でも、全体の動きに沿った結果になり満足です。

アカウントを作成した月で作図を行うと以下の様な結果になりました。
環境が変わる春先にアカウントが作成される傾向があるようです。

最後に年月で振り分けた細かい図を作成します。
1月~5月付近を凸とした波打ったグラフになりました。
しかし・・・2014年5月に作成されたアカウント数が異常ですね。92件ありました。
Twitter関連のニュースも見当たりませんので、なぜここだけ数値が高いのかは不明です。

新しい環境でのストレスが4月で貯まる。
恨みつらみを書き込むための第2のアカウントの誕生。
という流れではないと願いたいです。