K特性値で歴代首相の所信演説を分析する

気がついたら2ヶ月もブログを書いていませんでした。
心機一転頑張ります。これ何回書いたっけ?
頑張りますよ!

0.はじめに

ユールのK特性値をいう指標があることを知りました。
ユールが『キリストに倣いて』の執筆者を調べるために使用したものです。

作品中にxi回現れた単語がki個あるとき、

になるそうです。
104に意味はあまり無いようです。
大きめの数値のほうが感覚掴みやすいよね!ってコトらしい。
1000語からなる文章で、1000語が全て違う語句ならKは0になります。
逆に、1000語が全て同じ語句ならKは9900になります。
つまりKが低いほど語彙力のある文章といえます。
ここで『語彙力がある』というのは『より多くの種類の単語を使用している』ということです。

簡単な例を出します。
『ゴリラが好きです。強い動物はゴリラ。ゴリラ好き。』
という狂った文章を語句毎に分けると
ゴリラ が 好き です 強い 動物 は ゴリラ ゴリラ 好き
になり

語句 使用回数
ゴリラ 3
1
好き 2
です 1
強い 1
動物 1
1

となります。
『xi回現れた単語がki個』という形に変化させると

xi ki
1 5(が です 強い 動物 は)
2 1(好き)
3 1(ゴリラ)

なので
S1=3*1+2*1+1*5=10
S2=32*1+22*1+12*5=18
K=104*(18-10)/102=800
K特性値は800になります。

これを使って歴代首相の所信演説を分析してみます。

1.使用するデータ

・第130回国会における内閣総理大臣所信表明演説(平成6年7月18日)
http://www.kantei.go.jp/jp/murayamasouri/speech/murayama.html
・第百三十九回国会における橋本内閣総理大臣所信表明演説(平成8年11月29日)
http://www.kantei.go.jp/jp/hasimotosouri/speech/1996/shoshin-1129.html
・第百四十三回国会における小渕内閣総理大臣所信表明演説(平成10年8月7日)
http://www.kantei.go.jp/jp/obutisouri/speech/1998/0807syosin.html
・第百四十七回国会における森内閣総理大臣所信表明演説(平成12年4月7日)
http://www.kantei.go.jp/jp/morisouri/mori_speech/2000/0407syosin.html
・第155回国会における小泉内閣総理大臣所信表明演説(H14.10.18)
http://www.kantei.go.jp/jp/koizumispeech/2002/10/18syosin.html
・第168回国会における安倍内閣総理大臣所信表明演説(H19.9.10)
http://www.kantei.go.jp/jp/abespeech/2007/09/10syosin.html
・ 第168回国会における福田内閣総理大臣所信表明演説(H19.10.1)
http://www.kantei.go.jp/jp/hukudaspeech/2007/10/01syosin.html
・第170回国会における麻生内閣総理大臣所信表明演説(H20.9.29)
http://www.kantei.go.jp/jp/asospeech/2008/09/29housin.html
・ 第173回国会における鳩山内閣総理大臣所信表明演説(H21.10.26)
http://www.kantei.go.jp/jp/hatoyama/statement/200910/26syosin.html
・第174回国会における菅内閣総理大臣所信表明演説(H22.6.11)
http://www.kantei.go.jp/jp/kan/statement/201006//11syosin.html
・第百七十八回国会における野田内閣総理大臣所信表明演説
http://www.kantei.go.jp/jp/noda/statement2/20110913syosin.html
・第百八十九回国会における安倍内閣総理大臣施政方針演説
http://www.kantei.go.jp/jp/97_abe/statement2/20150212siseihousin.html

数字が半角だったり全角だったり漢字だったり・・・統一感皆無です。
表示の仕方もバラバラですし、どうにかして欲しいと切に願っています。

Mecabで分かち書き、終止形に戻していきます。()内の文字の除外などはしませんでした。
K特性値等での結果は、あくまで『計算での結果』です。
特定の政党・人物を批判する目的の記事ではありませんので御容赦下さい。

2.結果

『xi回現れた(使用された)単語がki個』という表にすると以下のようになりました。
10回以上使用した語句は、スペースの都合上まとめています。
例えば村山総理なら
演説中に1回使用した語句は676種類、2回使用した語句は180種類・・・となり
演説中に合計で1,115種類の語句を用いて、文章の長さは4,303文字となります。

まずはS1を棒グラフにしています。単純な文章の長さの比較ですね。
小泉首相の付近が短く、その前後は長くなっていますね。
任期が長く所信演説が複数あった場合は年度の古いものを選択しましたので、
その辺りの誤差があるのかもしれません・・・。

トークン比は語彙の指標の1つです。
K1の合計(用いた語句の種類)÷S1(文章の長さ)で表されます。
数値が高いほど語彙が豊富なことを指します。
文章の長さのグラフとは逆の形になりました。
文が長くなるとどうしても繰り返し出てくる言葉が増えますから仕方ない気はします。
0.27を平均に綺麗にバラけているので、そこまでの差はないのでしょう。

K特性値を比較します。
これは値が低いほうが語彙力があるとされます。
このグラフだと小泉首相が凄い語彙力のある人に見えます。

K特性値のグラフの下限を0にしたグラフです。
こうするとあまり差は感じません。
実際、Mecabに使用する辞書を変えると、同文章でもK特性値は3~4程上下しました。

参考までに、所信演説以外の文章のトークン比・K特性値を調べてみます。
■英文
オバマ大統領就任演説
トークン比:0.48 K特性値:70.42
賢者の贈り物
トークン比:0.45 K特性値:67.70
・裸の王様(出典不明)
トークン比:0.40 K特性値:108.89
誰が殺したクックロビン
トークン比:0.50 K特性値:208.30
■日本語
走れメロス
トークン比:0.24 K特性値:166.24
ごん狐
トークン比:0.20 K特性値:187.33
さるかに合戦
トークン比:0.21 K特性値:216.20

結構それっぽい数字が出ました。
K特性値はラテン語の文章を分析する際に使われていたので、
体系が近い英語のほうが結果が出やすい印象を持ちました。

3.分析

首相の所信演説のトークン比・K特性値を分析したが、
そこまでの大差は見られませんでした。
原稿チェック等も入るでしょうし、考えてみれば当たり前ですよね。
文章の長さが首相によって大きく違っているのは面白いです。
最近は長めの演説がトレンドのようです。

4.全然関係のない話

『さるかに合戦』を調べていると、青空文庫では仕事人として
石臼・ハチ・栗・昆布が登場します。

昆布・・・?舞台は山だぞ?

自分の中では馬糞だったで驚きました。
地域によって登場人物がやや異なる様子。
最近の絵本だとよりマイルドに
・足を滑らせる役割の馬糞
→登場しない
・青ガキを投げつけられて母カニが死ぬ
→母カニが怪我をする
・敵討ちとして子ガニが猿の首を切り取る
→仲直りする
となっているそうです。
時代の変化ですね。