KHcoder 7. 表記揺れの吸収(注意)
表記揺れの吸収を実行すると・・・ちょっと妙なことになる・・・
テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】
妙なパタン
H5数、段数、文数
「表記揺れの吸収」で複数の「語」1「語」にまとめます。
そして、「抽出語リスト (Excel出力)」機能または「関連語検索」機能を使ってその「語」が出現する「H5」「段」「文」数をカウントすると実際の数とは違う結果が算出されます。
今回の「分析対象テキスト」では具体的に「イクラ」と「海老」です。
語1 | 出現回数 | 語2 | 出現回数 | 表記揺れの吸収 | 合計出現回数 |
イクラ | 4 | いくら | 1 | イクラ | 5 |
エビ | 2 | えび | 1 | 海老 | 3 |
「表記揺れの吸収」を実行しました。抽出語リストと一致しています。
抽出語(Excel出力)
「ツール」→「抽出語」→「抽出語(Excel出力)」で「語」が出現する「段」数をカウントします。「語」の右側に出力されている数値が「語」が出現する「段」数です。
・「イクラ」は4段
・「海老」は1段になります。
実際に「語」数と「段」数が一致しないことがしばしばあります。例えば1「段」のなかに「イクラ」が複数回出現するときです。しばしばどころか通常のことです。しかし、今回は1「段」のなかに「イクラ」が複数回出現することも、「イクラ」と「いくら」が同時に出現することもありません。「海老」についても同様です。
実際には「イクラ」は5「段」に、「海老」は3「段」に出現するのですが・・・
関連語検索
・「ツール」→「抽出語」→「関連語検索」
「関連語検索」でも全く同じ数値になります。
全体の列に表示されている整数が「段」数です。従って、「まぐろ」と「イクラ」とのJaccard、0.5も正確ではありません。
・「関連語検索」→「共起ネット」
もちろんこの場合も、Jaccardは0.5になります。
・「ツール」→「外部変数と見出し」→「特徴語」
これも「関連語検索」へ進むので同じ結果になります。
問題がないパタン
文書×抽出語
・「ツール」→「文書」→「文書×抽出語」の出力
「段」で設定しているので出力されている数値は「段」数です。内容をみると「イクラ」列の合計は5、「海老」列の合計は3だから正解です。
共起ネットワーク
・「ツール」→「抽出語」→「共起ネットワーク」
・「まぐろ」と「イクラ」とのJaccard、0.44
こちらは正解です。
その他の分析も確認しましたが、「段」数で妙な現象が発生するのは「抽出語リスト」「関連語検索」機能系だけのようです。
「段」数をカウントするロジックが違うのか、「語」を検索するロジックが違うのか・・・ひょっとして意図的にこのようになっているのか・・・
強制抽出でどうか
・強制抽出語へ「イクラ」と「海老」を設定して前処理を実行
・もう一度「表記揺れの吸収」を実行すればいけるのかも!
このように考えてやってみましたが、結果は同じでした。
「共起揺れの吸収」を実行した「語」が活用形として認識されることが原因かとも考えましたが、活用形である「食べる」はきちんとカウントされています。
コーディングした方がよいのか、などと思いつつ、それは後々投稿するととにして、とにかくこのまま話を進めることにします。
【今回の分析対象テキストはこちらからコピーできます】