前回に引き続きPythonでWebから情報収集をしています。
今回は口コミを見ていこうということで、「じゃらん」さんから頂いてきます。
–注意–
スクレイピング・クローリングの際は、規約をチェックしましょう。
amazonさんみたいに禁止しているサイトもあります。
それと連続アクセスはしないように、1ページ読み込み→1秒停止ぐらいの余裕は持つべきです。
口コミをデーターベースに一旦入れてから、単語の種類・個数を調べてみました。
対象は、「湘南・鎌倉」のホテルと「沖縄本部・名護・国頭」のホテルです。
前者は、中高時代遊んだ場所。後者は、修学旅行先ってだけで特に深い意味は無いです。
以下、結果。単語の中から名詞のみを選んで15番目まで表示しました。
「湘南・鎌倉」
全体の単語数(スペースを含む)312202
部屋:2962:名詞-一般
利用:2375:名詞-サ変接続
ホテル:1658:名詞-一般
朝食:1036:名詞-サ変接続
鎌倉:964:名詞-固有名詞-地域-一般
駅:930:名詞-接尾-地域
感じ:746:名詞-一般
満足:743:名詞-サ変接続
宿泊:740:名詞-サ変接続
対応:728:名詞-サ変接続
風呂:664:名詞-一般
フロント:658:名詞-一般
清潔:651:名詞-一般
旅行:619:名詞-サ変接続
感:533:名詞-接尾-一般
み・・・見辛い。
「鎌倉」があるのは当然ですね。
面白いのは「駅」かと思います。
湘南・鎌倉観光には鉄道が便利ですから、
駅が近いホテルは人気なのかもしれません。
(比較する沖縄に鉄道が1線しかないってこともありますけど)
「沖縄本部・名護・国頭」
全体の単語数(スペースを含む)157829
部屋:1316:名詞-一般
利用:825:名詞-サ変接続
ホテル:823:名詞-一般
海:547:名詞-一般
沖縄:500:名詞-固有名詞-地域-一般
朝食:474:名詞-サ変接続
宿泊:396:名詞-サ変接続
満足:343:名詞-サ変接続
旅行:319:名詞-サ変接続
感じ:314:名詞-一般
風呂:266:名詞-一般
子供:261:名詞-一般
宿:253:名詞-一般
前:250:名詞-副詞可能
感:245:名詞-接尾-一般
「朝食」が入っているのは鎌倉と同じですね。
昼・夜は外で食べて、朝はホテルって人が大半だと思いますので、
やっぱりホテル側も朝食に力を入れている感じですかね。
「風呂」も地味にランクイン。
どんだけ風呂好きな民族なんでしょうか…。
あとは「沖縄」「海」と定番の名詞。
24番目には「ビーチ」、27番目には「水族館」もあります。
「子供」が入っているのが鎌倉との違いですね。
普通の子供なら沖縄>鎌倉でしょうから。
ざっと見てみるだけで、結構な違いが見えてくるものです。
まだ問題もあって、単語のパーツでしか区別していないので
温泉/が/すごく/良かった
温泉/が/すごく/悪かった
という文なら、名詞だけみると同じ「温泉」になってしまいます。
ココらへんはもっと勉強するしか・・・。