テキストマイニングをやってみる2日目

2日間できていなかったので取り戻すべくテキストマイニングに挑戦。

今回は、前回出来上がったクリーニング済みのデータを解析する作業にとりかかる。人科の授業で「言語情報科学」という授業を履修していたときに出てきた「形態素解析」とか「n-gram」とかその辺の技術を用いて文章を単語ごとに区切ったり、数文字ごとに区切ったりして分析するようだ。「ようだ」というのもツールにかけてしまえば勝手に分類してくれるのでこちらでごにょごにょと何かをしなくてはいけないわけではない。フリーで使えるツールは2種類あって、どちらも今回学習に使っている本の著者が開発者である。
・TTM
・MLTP
本を読んでどちらのツールも試そうと思ったのだが、どうやらMLTPは文章ファイルを分析するツールらしいので今回は利用できなかった。TTMは、csvファイルの分析ができるツールなので今回はこちらを採用。

TTMの使い方

まず使ってみよう!ということで出来上がったファイルをそのままツールにかけてみることにした。元のファイルはA列に[yymmdd hhmmss](年月日 時分秒)B列にツイート内容が記録されていた。TTMはA列をタグ、B列を文章データとして認識するらしく、このまま解析にかけても何も意味無いことがわかった。分析をしてみたいのは各回ごとの特徴であったりするため、時間情報の代わりに第○回というものに置き換えた。これでA列が第○回(=タグ情報)、B列が実況ツイートとなりうまくいった。
TTMでは6通りの分析ができる。
TTM1:語のタグ別集計(出現頻度)
TTM2:語のタグ別集計(出現件数)
TTM3:語×タグのクロス集計(出現頻度)
TTM4:語×タグのクロス集計(出現件数)
TTM5:語×語のクロス集計(出現件数)
TTM6:テキスト×語のクロス集計(出現頻度)
以下に各分析の説明を兼ねて今回抽出できたデータに触れたいと思う。

分析にかけてみた

使い方はすごく簡単で、どのファイルを分析するかを選択して実行ボタンをポチるだけ。「うっひょー!これで俺もテキストマイナーだぜぇぇぇ!!!」って気分が味わえます(オススメ)。ちょっと待つと結果が表示されるので確認してみたところ、6通りの分析のうちやはり「1と2」「3と4」の違いがわかりづらかったのでその辺を重点的にメモしておく。
TTM1とTTM2
語のタグ別集計というところは一緒。タグは第○回を基準につけたので授業回ごとに語の集計結果が出た。
1が出現頻度、2が出現件数である。出現頻度は、全データ中に何回その語が登場したかというもの。出現件数はその語を含むデータが何件あるのかというもの。
例えば第1回の授業でいうと「椅子」という単語がTTM1では7回、TTM2では4回カウントされていた。「椅子」が出てきたツイートはこんな感じ。





おわかりいただけただろうか。
「椅子」という単語の登場回数が7回、「椅子を含むツイート」の数が4件である。

TTM3とTTM4
語×タグのクロス集計。A列に単語が並び、1行目にタグが並ぶ形のクロス集計である。
すべてのタグを含めたデータ中の出現頻度の高いもの、すべてのタグを含めたデータ中の出現件数の高いものを順に並べている。TTM1とTTM2の表示形式とソート基準を変更したものである。

TTM5
語×語のクロス集計を出現件数順にソートしたものである。ある単語とある単語が同時に出現しているテキストの件数を集計したものだ。例えば、「暗黙知」が18の文章に登場していてそのうち「出来る」と同時に出現しているのが3回、「形式知」と同時に出現しているのが10回である、とか。これを共起という。

TTM6
テキスト×語のクロス集計(出現頻度)。ひとつのツイートにどの単語が何回含まれるかというもの。

ここまでやってみたが

で、このあとなにをすればいいんだろう。似たような意味を持つ単語を同義語登録したり、不用語があればNGワード登録をしたり、新語登録をしたりすればいいのだろうか。例えば「授業」と「講義」は一緒にしちゃっていいよね、と判断できれば同じ単語扱いにしてしまうこともできるようだ。また、「学習」と「環境」と「デザイン」に分割されるところを「学習環境デザイン」と単語登録することもできるようだ。だが見たところ勝手に分類されているようなので今後不都合がなければこのままでもよい気がする。

どうしよう、なにしようと思って本を読んでみたところ、ここからが統計を活用するところみたいですね。ここまでは誰でも出来るとこなんですね。いろんな手法が載ってたので片っ端からやってみたいと思います。ひと通りやれば何かしら楽しいものが見られるでしょう。ここからはあんまりサクサク行かないと思いますが、今月中になんらかの結果は出したいなと思いますのでよろしくお願いします。(と、急に丁寧語になる)

でわでわ。