客はホテルに何を求めているのか

前回に引き続きPythonでWebから情報収集をしています。

今回は口コミを見ていこうということで、「じゃらん」さんから頂いてきます。

 

 

–注意–

スクレイピング・クローリングの際は、規約をチェックしましょう。

amazonさんみたいに禁止しているサイトもあります。

それと連続アクセスはしないように、1ページ読み込み→1秒停止ぐらいの余裕は持つべきです。

 

 

口コミをデーターベースに一旦入れてから、単語の種類・個数を調べてみました。

対象は、「湘南・鎌倉」のホテルと「沖縄本部・名護・国頭」のホテルです。

前者は、中高時代遊んだ場所。後者は、修学旅行先ってだけで特に深い意味は無いです。

 

以下、結果。単語の中から名詞のみを選んで15番目まで表示しました。

「湘南・鎌倉」

全体の単語数(スペースを含む)312202
部屋:2962:名詞-一般
利用:2375:名詞-サ変接続
ホテル:1658:名詞-一般
朝食:1036:名詞-サ変接続
鎌倉:964:名詞-固有名詞-地域-一般
駅:930:名詞-接尾-地域
感じ:746:名詞-一般
満足:743:名詞-サ変接続
宿泊:740:名詞-サ変接続
対応:728:名詞-サ変接続
風呂:664:名詞-一般
フロント:658:名詞-一般
清潔:651:名詞-一般
旅行:619:名詞-サ変接続
感:533:名詞-接尾-一般

み・・・見辛い。

「鎌倉」があるのは当然ですね。

面白いのは「駅」かと思います。

湘南・鎌倉観光には鉄道が便利ですから、

駅が近いホテルは人気なのかもしれません。

(比較する沖縄に鉄道が1線しかないってこともありますけど)

 

 

「沖縄本部・名護・国頭」

全体の単語数(スペースを含む)157829
部屋:1316:名詞-一般
利用:825:名詞-サ変接続
ホテル:823:名詞-一般
海:547:名詞-一般
沖縄:500:名詞-固有名詞-地域-一般
朝食:474:名詞-サ変接続
宿泊:396:名詞-サ変接続
満足:343:名詞-サ変接続
旅行:319:名詞-サ変接続
感じ:314:名詞-一般
風呂:266:名詞-一般
子供:261:名詞-一般
宿:253:名詞-一般
前:250:名詞-副詞可能
感:245:名詞-接尾-一般

「朝食」が入っているのは鎌倉と同じですね。

昼・夜は外で食べて、朝はホテルって人が大半だと思いますので、

やっぱりホテル側も朝食に力を入れている感じですかね。

「風呂」も地味にランクイン。

どんだけ風呂好きな民族なんでしょうか…。

あとは「沖縄」「海」と定番の名詞。

24番目には「ビーチ」、27番目には「水族館」もあります。

「子供」が入っているのが鎌倉との違いですね。

普通の子供なら沖縄>鎌倉でしょうから。

 

ざっと見てみるだけで、結構な違いが見えてくるものです。

まだ問題もあって、単語のパーツでしか区別していないので

温泉/が/すごく/良かった

温泉/が/すごく/悪かった

という文なら、名詞だけみると同じ「温泉」になってしまいます。

ココらへんはもっと勉強するしか・・・。