KH coderを用いた形態素解析 その2

すごい便利なKH coder。
utf-8に対応していれば最高だったけど…mecabはshift-jisが基本なので仕方がないです。
文字コードの処理にビビりながら処理しています。半角スペースと旧漢字体が怖いです。
チュートリアルを進めながら、結果を見て一喜一憂しています。
1.使用するデータ

東海大学新聞web版(ニュース)
・整った日本語
・カテゴリー分けされている
ことを条件に大学新聞を解析していきます。

2.結果

①記事数
まずは月別の記事数から

ひと月に7~11個の記事を載せている様子。どこの月が特に多いということはないですね。

年度別に表すと

やはり季節ごとの特徴はない様子。

②カテゴリー
ニュースのカテゴリーは
お知らせ・スポーツ・ひと・学園・学生・教育・研究・総合・付属諸学校
の9つあります。これの年度ごとの記事数の割合を見てみます。

四捨五入しているので0.5%未満の『おしらせ』が0%になっています。
バランスを変えること無く記事が連載されていることが分かります。

③抽出語リスト
記事全体でどの様な言葉が多く使われていたのかを調べます。

組織名『どん』とは…と調べてみると応急建築物の『どんぐりハウス』を分割してしまっていたようです。
固有名詞もバラバラにしてしまった単語があるようです。

固有名詞・組織名を見ると、記事を読まなくても
東海大学と関係のある地域・組織がそれとなく分かるのが面白いですね。

④特徴語
それぞれのカテゴリーの特徴語を抜き出します。

数値が大きいほど特徴的な語句になるそうです。

⑤対応分析
カテゴリーの特徴をグラフィカルに探索します。

原点(0,0)に近いほど特徴の無い言葉に
原点(0,0)から遠いほど特徴的な言葉になるそうです。
そして赤い枠に近い言葉は、そのカテゴリーに特徴的な言葉になっています。
『教育』・『お知らせ』・『学生』・『総合』は、同じような系統の記事が多くあるようです。

⑥コーティングによるコンセプトの抽出
単語ではなくコンセプトを調べたい時に使います。
例えば、『人の死』と一言にいっても
死ぬ・殺す・亡くなるetcと色々な言い方があります。

*人の死
死ぬor 殺すor 亡くなる

という条件を作ることで
文章中に「死ぬ」「殺す」「亡くなる」のどれかが出た場合、
「*人の死」について言及していたと見なして処理を行います。

今回は、
*学校関連
学生 or 高校 or 校舎 or 大学 or 教授 or 学部 or 生徒 or 学園 or 学校 or 学科 or 学長 or 教職員 or 講師 or キャンパス or 教諭
*体育関連
選手 or 大会 or チーム or 体育 or スポーツ or 選手権 or 柔道 or 全日本 or メンバー or 団体 or 主将 or 駅伝 or 陸上 or 決勝
*工学系関連
工学部 or プロジェクト or 科学 or 技術 or 海洋 or 日食
*性別
男子 or 女子

学校関連・体育関連・工学系関連・性別のコンセプトで解析をします。

カテゴリー別にクロス集計をします。結果は想像できると思いますが…

体育関連は、カテゴリーの『スポーツ』に多く
工学関連は、『研究』に多く
性別は『スポーツ』に多い結果になりました。

年度別に折れ線グラフで示すとこんな感じになります。

チュートリアルだと夏目漱石の「こころ」の上中下で『人の死』の表現数が
どのぐらい変化するのかを調べていました。
東海大学新聞はバランス良く記事が書かれているので平坦なグラフになりました。