「音楽を聴かなくなった」
「どの曲も同じに聞こえる」
「アイドルの判別ができない」
定期的に新聞のコラムなどで見かける話題ですよね。
「アイドルの判別」は・・・本当に難しいですよね。
48人って歴代徳川将軍の約3倍ですから。
顔と名前を覚えるのが苦手な自分には辛いです。
0.
さて
統計ではJaccard係数という類似度を測る値があります。
p1、p2という集まりがあるとして
J=J(p1,p2)=|p1∧p2| / |p1∨p2|
と計算できます。
例えば
①今日の夕食はカレーライスでした。美味しい。
②今日の弁当は美味しかった。
という文は単語(助詞・助動詞を除く)にすると
①今日・夕食・カレーライス・美味しい
②今日・弁当・美味しい
になります。
J=|p1かつp2| / |p1またはp2|
なので
J=[今日・美味しい] / [今日・夕食・カレーライス・美味しい・弁当]
となり
J=2 / 5
J=0.4
ともとめることができます。
かなり簡易的なものになります。
今回は曲の歌詞に含まれる単語の集まりを解析して
2つの曲の類似度を比較します。
あくまで『単語単位』で見た際の歌詞の類似度です。
特定のアーティスト・曲を批判しようといった趣旨は含んでいません。
1.使用するデータ
1975、1985、1995、2005、2015年のオリコンランキング10位以内の曲の歌詞データ。
2015年は6月22日までのランキングになります。
2.計算方法
歌詞をMecabの分かち書きによって単語単位に分解します。
その後、同年の1位から10位までの歌詞のJaccard係数を算出します。
10個の中から2個ずつ組み合わせていくので
各年で45個の計算結果が得られることになります。
3.結果
分布といえばヒストグラム。
Jaccard係数が低い結果の頻度が高ければ、(単語の組み合わせ的には)似ていない歌詞が多い。
Jaccard係数が高い結果の頻度が高ければ、(単語の組み合わせ的には)似ている歌詞が多いということになります。
1975年だけスケールが違います。申し訳ないです。
あまり綺麗な結果にはなりませんね。
しかし年が進む毎に頻度が右に動いています(≒似た歌詞の組合せの頻度が増えている)。
2005年になると徐々にJaccard係数が高い組合せが増え始め、
2015年になるとかなり分布が寄ってきているのが分かります。
2015年は今日までのデータなので歌のテーマ(入学・桜・夏?)が偏っている影響かもしれませんが・・・。
4.具体的にどの曲が似ているのか
Jaccard係数だけではピンとこないので、Jaccardが高かった組合せを列挙してみます。
Jaccard係数が0.105より大きいもの、ヒストグラムでいうと0.12、0.135、0.15になります。
2015年のJaccard係数が高くなったのはAKBグループが多かったのが原因のようです。
作詞が秋元康さんなので似てくるのは仕方ないということでしょうか。
2005年、アスタリスク(オレンジレンジ)とOCEAN(B’z)の歌詞の単語が似ている・・・というのはしっくりしませんね。
アスタリスク∧OCEANの単語を調べてみると、
{‘今’, ‘僕ら’, ‘心’, ‘果てる’, ‘越える’, ‘いく’, ‘想い’, ‘胸’, ‘深い’, ‘続ける’, ‘中’, ‘静か’, ‘くる’, ‘ただ’, ‘白い’, ‘君’, ‘その’, ‘光る’, ‘響く’, ‘どこ’, ‘風’, ‘ある’, ‘てる’, ‘ひとつ’, ‘この’}
アスタリスク:皆で進んでいこうという歌詞
OCEAN:一緒に進んでいこうという歌詞
(単語の固まりとしては)確かにそうでした・・・簡単な解析でも読み取れるんですね。
1995年、Tomorrow never knowsとHELLO,AGAIN~昔からある場所~。
どちらも失恋ソングの代表ですね。
1985年、あの娘とスキャンダルと俺たちのロカビリーナイト。
歌手はどちらもチェッカーズ。
内容は・・・駆け落ちと失恋なので少し違いますね。
しかし作詞は両方とも売野雅勇さんになります。
5.まとめ
本来なら単語数との関係も考えて多次元の計算を行うらしいですが・・・。
実力不足なため、今回は簡易な計算のみで解析を行いました。
しかし、そこそこの結果は出すことは出来ました。
『単語の組合せから考えた』という面では『似ている歌詞が増えている』と言うことができそうです。
勿論、
・最も重要な曲調を無視している
・10年おきのデータで1位から10位までしか調べていない
・言い回し(サクラ、桜、さくら)の処理
・単にジャンルが狭まってきている可能性
といった色々な改善点もあるのですが・・・。