KHcoder 7. 表記揺れの吸収(注意)

KHcoder 7. 表記揺れの吸収(注意)

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

妙なパタン

H5数、段数、文数

KHcoder 抽出語リスト(Excel出力) 「表記揺れの吸収」で複数の「語」1「語」にまとめます。そして、「抽出語リスト(Excel出力)」機能または「関連語検索」機能を使ってその「語」が出現する「H5」「段」「文」数をカウントすると実際の数とは違う結果が算出されます。今回の「分析対象テキスト」では具体的に「イクラ」と「海老」です。

語1 出現回数 語2 出現回数 表記揺れの吸収 合計出現回数
イクラ 4 いくら 1 イクラ 5
エビ 2 えび 1 海老 3

 このように「表記揺れの吸収」を実行しました。抽出語リストと一致しています。

抽出語(Excel出力)

KHcoder 抽出語リスト 「ツール」→「抽出語」→「抽出語(Excel出力)」で「語」が出現する「段」数をカウントします。「語」の右側に出力されている数値が「語」が出現する「段」数です。

 「イクラ」は4段、「海老」は1段になります。実際に「語」数と「段」数が一致しないことがしばしばあります。例えば1「段」のなかに「イクラ」が複数回出現するときです。しばしばどころか通常のことです。しかし、今回は1「段」のなかに「イクラ」が複数回出現することも、「イクラ」と「いくら」が同時に出現することもありません。「海老」についても同様です。
 実際には「イクラ」は5「段」に、「海老」は3「段」に出現するのですが・・・

関連語検索

KHcoder 関連語検索 「ツール」→「抽出語」→「関連語検索」
 「関連語検索」でも全く同じ数値になります。全体の列の表示されている整数が「段」数です。従って、「まぐろ」と「イクラ」とのJaccard、0.5も正確ではありません。
KHcoder 共起ネットワーク 「関連語検索」→「共起ネット」、もちろんこの場合も、Jaccardは0.5になります。

 「ツール」→「外部変数と見出し」→「特徴語」も「関連語検索」へ進むので同じ結果になります。

問題がないパタン

文書×抽出語

KHcoder 文書×抽出語 「ツール」→「文書」→「文書×抽出語」の出力
 「段」で設定しているので出力されている数値は「段」数です。内容をみると「イクラ」列の合計は5、「海老」列の合計は3だから正解です。

共起ネットワーク

KHcoder 文書×抽出語 「ツール」→「抽出語」→「共起ネットワーク」
 「まぐろ」と「イクラ」とのJaccard、0.44、こちらは正解です。

 その他の分析も確認しましたが、「段」数で妙な現象が発生するのは「抽出語リスト」「関連語検索」機能系だけのようです。「段」数をカウントするロジックが違うのか、「語」を検索するロジックが違うのか・・・ひょっとして意図的にこのようになっているのか・・・

強制抽出でどうか

 強制抽出語へ「イクラ」と「海老」を設定して前処理を実行、もう一度「表記揺れの吸収」を実行すればいけるのかも!と考えてやってみましたが、結果は同じでした。「共起揺れの吸収」を実行した「語」が活用形として認識されることが原因かとも考えましたが、活用形である「食べる」はきちんとカウントされています。
 コーディングした方がよいのか、などと思いつつ、それは後々投稿するととにして、とにかくこのまま話を進めることにします。

【今回の分析対象テキストはこちらからコピーできます】