KHcoder 4. 語の取捨選択

KHcoder 4. 語の取捨選択

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

強制抽出語

語を強制抽出します

 「強制抽出」とは辞書機能では抽出不可能な「語」をまさに強制的に「語」として登録する機能です。
「前処理」→「語の取捨選択」をクリックします。
KHcoder 語の取捨選択 強制抽出
「分析する語の取捨選択」
 左側「強制抽出する語の指定」へ語を入力します。右側「使用しない語の指定」は分析に使用しない「語」を入力します。両方にある「—cell—」は、エクセルファイル、CSVファイルを読み込んだ場合に自動的に作成されています。意味は割愛しますが「—cell—」はそのまま残しておいてください。「語」が複数ある場合はエンターで区切って下へ追加します。

検出された複合語リストから強制抽出する
複合語 出現数
たまご 1
フライドポテト 1
ツナサラダ 1
サラダ巻 1
つぶ貝 1
青魚 1

 このリストにある「語」を強制抽出するのですが、そのまえに今一度内容を確認します。例えば「サラダ巻」の「巻」は巻物を意味しています。「サラダ巻」のほかに「納豆巻」「かっぱ巻」等の語があるかもしれません。「巻物」の嗜好を分析したい場合は「巻」を強制抽出せずそのまま残します。これで全分析対象テキストの「巻」が何回出現するかといった分析が可能になります。

 今回はそのまま使います。先ほどのエクセルファイルを開いて「たまご」~「青魚」をコピーします。左側「強制抽出する語の指定」へ貼り付けます。
KHcoder 語の取捨選択 強制抽出 右下の「OK」をクリックします。左下に書かれているとおり、「前処理」→「前処理の実行」を再実行します。前処理の実行がなされると強制抽出語が抽出されます。強制抽出語は何度でも変更でき、前処理を実行するたびに反映されます。
KHcoder 語の取捨選択 強制抽出 前回から「語」数が減っていることがわかります。「ツール」→「抽出語」「抽出語リスト」をクリックします。
KHcoder 抽出語リスト 「たまご」「つぶ貝」など、強制抽出した語が抽出されています。

検出できない複合語

手作業で強制抽出する前に

 「KHcoder」では「辞書機能」「複合語の検出機能」でおおよその「語」を抽出することができます。それでも抽出できない「語」を手作業で強制抽出するのですが、分析対象テキストが膨大な場合、これには手間時間を要します。従って、どうしても抽出したい「語」だけを手作業で抽出します。

 どうしても抽出したい「語」というのは出現回数が多い「語」です。「KHcoder」では出現回数上位1位から150~200語くらいまでを分析すれば十分な場合が多いようです。出現回数が少ない下位の「語」は手間時間をかけてまで強制抽出する必要はありません。

手作業で強制抽出する

 「まぐろ」という語が抽出できていません。これは辞書機能、複合語検出機能でも抽出できない「語」だからです。現段階で「KHcoder」は「ぐ」「ま」をそれぞれ一つの「語」として認識しているということです。こうなれば、手作業で強制抽出語をつくります。

 上の画像で「ぐ」「ま」というのが、本来は「まぐろ」だということがわかっています。何しろ分析対象テキストが少なく短文、自分で書いたからです。ところが、大量、他人が書いたものである場合、「ぐ」「ま」が何なのかわかりません。そこで「ぐ」「ま」が何なのかを確認する必要があります。ちなみに「ろ」がリストに出てこないのは、分析対象にしない品詞と判断されているからです。

 上画像の抽出語「ぐ」へマウスのポインタを当ててクリックします。
KHcoder KWICコンコーダンス 「KWICコンコーダンス」が開きます。
KHcoder KWICコンコーダンス ここで「ぐ」が分析対象テキストのなかで、どのような使われ方をしているのかを確認できます。「ぐ」は「まぐろ」の「ぐ」です。もう少し前後を見たい場合は前後24語の部分に数値を入力して右上の「検索」をクリックします。

今回は「ま」「ぐ」→「まぐろ」
「え」「び」→「えび」
この2語を手作業で強制抽出します。

手入力した強制抽出語はメモを残す

 「複合語の検出」ではエクセルファイルが自動保存されますが、手入力した「語」はファイルとして残りません。「語の取捨選択」を開いて見れば当然見えるわけですが、もしもプロジェクト自体を削除してしまったり、ファイルが壊れたりすると復元にあたり、「強制抽出語」のリストがあれば助かります。必ずメモかファイルで残しましょう。

分析をする語の取捨選択へ記載

前回と同様に「分析をする語の取捨選択」左側へ記載します。
KHcoder 語の取捨選択 強制抽出 「OK」→「前処理」→「前処理の実行」をクリックします。

確認します

「ツール」→「抽出語」→「抽出語リスト」
KHcoder 抽出語リスト
 「まぐろ」「えび」を「語」として抽出できました。強制抽出機能をつかうと品詞がすべて「タグ」に分類されます。分析上とくに問題はありません。

【今回の分析対象テキストはこちらからコピーできます】