KHcoder 4. 語の取捨選択

KHcoder 4. 語の取捨選択

テキストマイニングで最も重要なステップです。このステップの如何によってマイニング結果が大きくかわります。時間を要しますがじっくりと取り組みます。

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

強制抽出語

語を強制抽出します
KHcoder 語の取捨選択 強制抽出

 「強制抽出」とは辞書機能では抽出不可能な「語」を、まさに強制的に「語」として登録する機能です。

・「前処理」→「語の取捨選択」をクリックします。

「分析する語の取捨選択」
・左側「強制抽出する語の指定」へ語を入力します。
・右側「使用しない語の指定」は分析に使用しない「語」を入力します。

 両方にある「—cell—」は、エクセルファイル、CSVファイルを読み込んだ場合に自動的に作成されています。

・意味は割愛しますが「—cell—」はそのまま残しておいてください。
・「語」が複数ある場合はエンターで区切って下へ追加します。

検出された複合語リストから強制抽出する
複合語出現数
たまご1
フライドポテト1
ツナサラダ1
サラダ巻1
つぶ貝1
青魚1

 このリストにある「語」を強制抽出するのですが、そのまえに今一度内容を確認します。

 例えば「サラダ巻」の「巻」は巻物を意味しています。「サラダ巻」のほかに「納豆巻」「かっぱ巻」等の語があるかもしれません。
 「巻物」の嗜好を分析したい場合は「〇〇巻」のように強制抽出せずそのまま「巻」だけを残します。これで全分析対象テキストの「巻」が何回出現するかといった分析が可能になります。

KHcoder 語の取捨選択 強制抽出

 今回はそのまま使います。
・先ほどのエクセルファイルを開いて「たまご」~「青魚」をコピーします。
・左側「強制抽出する語の指定」へ貼り付けます。
・右下の「OK」をクリックします。

 左下に書かれているとおり、
・「前処理」→「前処理の実行」を再実行します。 

 前処理の実行がなされると強制抽出語を抽出できます。強制抽出語は何度でも変更でき、前処理を実行するたびに反映されます。

KHcoder 語の取捨選択 強制抽出
KHcoder 抽出語リスト

 前回から「語」数が減っていることがわかります。

・「ツール」→「抽出語」「抽出語リスト」をクリックします。
 「たまご」「つぶ貝」など、強制抽出した語が抽出されています。

検出できない複合語

手作業で強制抽出する前に

 「KHcoder」では「辞書機能」「複合語の検出機能」でおおよその「語」を抽出することができます。

 それでも抽出できない「語」を手作業で強制抽出するのですが、分析対象テキストが膨大な場合、これには手間時間を要します。従って、どうしても抽出したい「語」だけを手作業で抽出します。

 どうしても抽出したい「語」というのは出現回数が多い「語」です。「KHcoder」では出現回数上位1位から150~200語くらいまでを分析すれば十分な場合が多いようです。出現回数が少ない下位の「語」は手間時間をかけてまで強制抽出する必要はありません。

手作業で強制抽出する
KHcoder KWICコンコーダンス

 「まぐろ」という語が抽出できていません。

 これは辞書機能、複合語検出機能でも抽出できない「語」だからです。現段階で「KHcoder」は「ぐ」「ま」をそれぞれ一つの「語」として認識しているということです。こうなれば、手作業で強制抽出語をつくります。

KHcoder KWICコンコーダンス

 上の画像で「ぐ」「ま」というのが、本来は「まぐろ」だということがわかっています。

 何しろ分析対象テキストが少なく短文、自分で書いたからです。ところが、大量、他人が書いたものである場合、「ぐ」「ま」が何なのかわかりません。そこで「ぐ」「ま」が何なのかを確認する必要があります。ちなみに「ろ」がリストに出てこないのは、分析対象にしない品詞と判断されているからです。

・上画像の抽出語「ぐ」へマウスのポインタを当ててクリックします。
・「KWICコンコーダンス」が開きます。

 ここで「ぐ」が分析対象テキストのなかで、どのような使われ方をしているのかを確認できます。「ぐ」は「まぐろ」の「ぐ」です。

 もう少し前後を見たい場合は
・前後24語の部分に数値を入力して右上の「検索」をクリックします。

今回は「ま」「ぐ」→「まぐろ」
「え」「び」→「えび」
この2語を手作業で強制抽出します。

手入力した強制抽出語はメモを残す

 「複合語の検出」ではエクセルファイルが自動保存されますが、手入力した「語」のリストはファイルとして残りません。

 「語の取捨選択」を開いて見れば当然見えるわけですが
・プロジェクト自体を間違えて削除してしまう
・ファイルが壊れる
 こんなときに復元にあたり、「強制抽出語」のリストがあれば助かります。必ずメモかファイルで残しましょう。

分析をする語の取捨選択へ記載
KHcoder 語の取捨選択 強制抽出

・前回と同様に「分析をする語の取捨選択」左側へ記載します。
・「OK」→「前処理」→「前処理の実行」をクリックします。

確認します
KHcoder 抽出語リスト

・「ツール」→「抽出語」→「抽出語リスト」

 「まぐろ」「えび」を「語」として抽出できました。強制抽出機能をつかうと品詞がすべて「タグ」に分類されます。分析上とくに問題はありません。

【今回の分析対象テキストはこちらからコピーできます】