KHcoder 13. 関連語検索(第2回)

KHcoderの分析軸、関連語検索の「段」と「文」の分析結果の違いについて解説しています。

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝！
【今回の分析対象テキストはこちらからコピーできます】

　簡単な図を用いて「段」と「文」の共起の関係を説明します。

　図は今回使用している分析対象テキストとは無関係に、説明のために作成した仮想図です。

　関連語検索機能は集計単位を「段」に設定すると結果数値は「段」数とそれに基づいて出現率・共起率・Jaccard係数を算出します。
　「文」に設定すると結果数値は「文」数と「文」数の出現率・共起率・Jaccard係数を算出します。

　従って、完全に「段」イコール「文」でないかぎり「段」「文」それぞれの分析結果は異なったものになります。

　左は「段」、右は「文」で関連語検索結果を表示しています。（条件付き確率が低下する語も表示しています）

・左側「段」で集計すると「まぐろ」と「嫌い」が共起します。
　そのまま読むと、回答者のなかには「まぐろ」が「嫌い」な人がいるのだろうと一旦は結論することが可能です。

テキスト

ｲｸﾗ、えび、まぐろ。貝は嫌い。

好きなのはイクラとまぐろ。サバが嫌い。

　ところが実際のテキストをみると、「嫌い」なのは「まぐろ」ではなく、「貝」「サバ」です。

・集計単位を「文」にすると「まぐろ」と「嫌い」は共起しません。

・「段」で集計する場合
　「段」イコール回答者の関係を保持したままだから、「段」イコール「回答者」で集合の１要素です。
　共起というのは集合の各要素の類似性をみつけることができるものですから、よく似た回答をした回答者をみつけることが可能になります。

　一方で、回答の内容をより実態に近いかたちで理解しようとするなら、「文」の集計を確認する必要があるということです。「文」で集計することで「嫌い」なのは「まぐろ」ではなく、「貝」「サバ」だということを発見できるのです。

＊ポジティブ
好き or 限る or いい or あっさり or 好物

＊ネガティブ
苦手 or 嫌い or ダメ or 固い or 脂っこい or ない or ん

　このようなコーディングファイルを読み込みました。（KHcoder8.　コーディングを参照）

　ポジティブで説明します。
　もともとの「語」である「好き」「限る」「あっさり」「好物」の４「語」が「ポジティブ」という１「語」に置き換わったと考えてください。

　コーディングの共起は
・「コーディング」した「好き」「限る」「あっさり」「好物」の４「語」のどれかと
・共起する「語」が出現する「段」数が結果として表示されます。

　もともと４「語」あるから、多くの「語」と「段」数が示されます。
　通常は、「文」よりも「段」、「語」よりも「コード」のほうが多くの「語」から構成されています。

・集計単位が「文」よりも「段」のほうが共起する「語」は多い。
・集計単位が「語」よりも「コード」のほうが共起する「語」は多い。

　「段」で集計しても、結局「まぐろ」に対して回答者はポジティブなのかネガティブなのか？あるいは回答者１２人のうちポジティブな回答者が何人いるのか？いすれにしても明確にできません。

　コーディングの場合は「文」で集計した方がみやすいように思います。「イカ」は３分の２がネガティブで、苦手とか食べないと答えていることが見えてきます。やはり「文」のほうが「分析対象テキスト」に沿った結果が出やすい感じです。

＞KHcoder 12.　関連語検索(第1回)