KHcoder 7. 表記揺れの吸収(注意)

KHcoder 7. 表記揺れの吸収(注意)

表記揺れの吸収を実行すると・・・ちょっと妙なことになる・・・

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

妙なパタン

H5数、段数、文数
KHcoder 抽出語リスト(Excel出力)

 「表記揺れの吸収」で複数の「語」1「語」にまとめます。
 そして、「抽出語リスト (Excel出力)」機能または「関連語検索」機能を使ってその「語」が出現する「H5」「段」「文」数をカウントすると実際の数とは違う結果が算出されます。

 今回の「分析対象テキスト」では具体的に「イクラ」と「海老」です。

語1出現回数語2出現回数表記揺れの吸収合計出現回数
イクラ4いくら1イクラ5
エビ2えび1海老3

 「表記揺れの吸収」を実行しました。抽出語リストと一致しています。

抽出語(Excel出力)
KHcoder 抽出語リスト

 「ツール」→「抽出語」→「抽出語(Excel出力)」で「語」が出現する「段」数をカウントします。「語」の右側に出力されている数値が「語」が出現する「段」数です。

・「イクラ」は4段
・「海老」は1段になります。

 実際に「語」数と「段」数が一致しないことがしばしばあります。例えば1「段」のなかに「イクラ」が複数回出現するときです。しばしばどころか通常のことです。しかし、今回は1「段」のなかに「イクラ」が複数回出現することも、「イクラ」と「いくら」が同時に出現することもありません。「海老」についても同様です。

 実際には「イクラ」は5「段」に、「海老」は3「段」に出現するのですが・・・

関連語検索
KHcoder 関連語検索

・「ツール」→「抽出語」→「関連語検索」

 「関連語検索」でも全く同じ数値になります。
 全体の列に表示されている整数が「段」数です。従って、「まぐろ」と「イクラ」とのJaccard、0.5も正確ではありません。

KHcoder 共起ネットワーク

・「関連語検索」→「共起ネット」
 もちろんこの場合も、Jaccardは0.5になります。

・「ツール」→「外部変数と見出し」→「特徴語」
 これも「関連語検索」へ進むので同じ結果になります。

問題がないパタン

文書×抽出語
KHcoder 文書×抽出語

・「ツール」→「文書」→「文書×抽出語」の出力
 「段」で設定しているので出力されている数値は「段」数です。内容をみると「イクラ」列の合計は5、「海老」列の合計は3だから正解です。

共起ネットワーク
KHcoder 文書×抽出語

 ・「ツール」→「抽出語」→「共起ネットワーク」
 ・「まぐろ」と「イクラ」とのJaccard、0.44
 こちらは正解です。

 その他の分析も確認しましたが、「段」数で妙な現象が発生するのは「抽出語リスト」「関連語検索」機能系だけのようです。
 「段」数をカウントするロジックが違うのか、「語」を検索するロジックが違うのか・・・ひょっとして意図的にこのようになっているのか・・・

強制抽出でどうか

・強制抽出語へ「イクラ」と「海老」を設定して前処理を実行
・もう一度「表記揺れの吸収」を実行すればいけるのかも!
 このように考えてやってみましたが、結果は同じでした。

 「共起揺れの吸収」を実行した「語」が活用形として認識されることが原因かとも考えましたが、活用形である「食べる」はきちんとカウントされています。
 コーディングした方がよいのか、などと思いつつ、それは後々投稿するととにして、とにかくこのまま話を進めることにします。

【今回の分析対象テキストはこちらからコピーできます】