KHcoder 13. 関連語検索(第2回)

KHcoder 13. 関連語検索(第2回)

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

「段」と「文」の違い

共起の関係

KHcoder 分析対象テキスト 簡単な図を用いて「段」と「文」の共起の関係を説明します。図は今回使用している分析対象テキストとは無関係で、説明のために作成した仮想図です。
 関連語検索機能は集計単位を「段」に設定すると結果数値は「段」数とそれに基づいて出現率・共起率・Jaccard係数を算出します。「文」に設定すると結果数値は「文」数と「文」数の出現率・共起率・Jaccard係数を算出します。従って、完全に「段」イコール「文」でないかぎり「段」「文」それぞれの分析結果は異なったものになります。

 通常「分析対象テキスト」の構造は図のようになっています。(今回は「H5]は無いものとします)
 「まぐろ」と「好き」の共起を考えます。「段」で分析する場合は、「まぐろ」と「好き」という2「語」が段①と段②の両方にあれば段①と段②が共起します。この場合、関連語検索で表示される共起している「段」数は2です。

集計A 集計B 集計C 集計D
まぐろ 好き まぐろ 好き まぐろ 好き まぐろ 好き
段① 文A 1 1 0 0 1 0 0 1
文B 0 0 1 1 0 1 1 0
集計E 集計F 集計G 集計H
まぐろ 好き まぐろ 好き まぐろ 好き まぐろ 好き
段② 文C 1 1 0 0 1 0 0 1
文D 0 0 1 1 0 1 1 0

 「段」は複数の「文」で構成されているので、段①を構成する「文」のどれか、段②にを構成する「文」のどれかに「まぐろ」と「好き」が含まれている必要があります。集計Aと集計Bは「文」のどちらか一方に(集計E、Fも同じ)「まぐろ」と「好き」が同時に存含まれる、集計Cと集計Dは(集計G、Hも同じ)どちらかの「文」に「まぐろ」か「好き」が含まれます。このように「段」は「文」に出現する「語」を集計します。ですから、「段」の方が「文」よりも「語」数が多くなり「段」で集計した方が共起しやすくなります。一般的に集計単位を「段」に設定するとJaccard係数が大きくなります。

「段」で共起するが、「文」で共起しない

KHcoder 関連語検索 左は「段」、右は「文」で関連語検索結果を表示しています。(条件付き確率が低下する語も表示しています)
 左側「段」で集計すると「まぐろ」と「嫌い」が共起します。そのまま読むと、回答者のなかには「まぐろ」が「嫌い」な人がいるのだろうと一旦は結論することが可能です。

テキスト
イクラ、えび、まぐろ。貝は嫌い
好きなのはイクラとまぐろ。サバが嫌い

 ところが実際のテキストをみると、「嫌い」なのは「まぐろ」ではなく、「貝」「サバ」です。集計単位を「文」にすると「まぐろ」と「嫌い」は共起しないことがわかります。
 「段」で集計する場合、「段」イコール回答者の関係を保持したままだから、「段」イコール「回答者」で集合の1要素です。共起というのは集合の各要素の類似性をみつけることができるものですから、よく似た回答をした回答者をみつけることが可能になります。一方で、回答の内容をより実態に近いかたちで理解しようとするなら、「文」の集計を確認する必要があるということです。「文」で集計することで「嫌い」なのは「まぐろ」ではなく、「貝」「サバ」だということを発見できるのです。

コーディングしたときの関連語検索

「段」で集計

KHcoder 関連語検索 このようなコーディングファイルを読み込みました。(KHcoder8. コーディングを参照)

*ポジティブ
好き or 限る or いい or あっさり or 好物

*ネガティブ
苦手 or 嫌い or ダメ or 固い or 脂っこい or ない or ん



 ポジティブで説明します。もともとの「語」である「好き」「限る」「あっさり」「好物」の4「語」が「ポジティブ」という1「語」に置き換わったと考えてください。コーディングの共起は「コーディング」した「好き」「限る」「あっさり」「好物」の4「語」と共起する「語」が出現する「段」数が結果として表示されます。もともと4「語」あるから、多くの「語」と「段」数が示されます。ここまで説明してきた通り、「文」よりも「段」で集計すること自体が多くの「語」と共起するので、ポジティブでもネガティブでも似たような結果になります。
 「段」で集計しても、結局「まぐろ」に対して回答者はポジティブなのかネガティブなのか?あるいは回答者12人のうちポジティブな回答者が何人いるのか?いすれにしても明確にできません。

「文」で集計

KHcoder 関連語検索 コーディングの場合は「文」で集計した方がみやすいように思います。「イカ」は3分の2がネガティブで、苦手とか食べないと答えていることが見えてきます。やはり「文」のほうが「分析対象テキスト」に沿った結果が出やすい感じです。

>KHcoder 12. 関連語検索(第1回)