Coding(KHcoder) 2 関連語検索

Coding(KHcoder) 2 関連語検索

各分析結果について、コーディング分析と抽出語分析の違いについて解説しています。

コーディング編のデータはこちら

抽出語分析

コーディングファイルの読み込み
KHcoder 抽出語検索

・「ツール」→「抽出語」→「関連語検索」の順でクリックします。
 ウインドウが開いたら「参照」からコーディングファイルを保存しているディレクトリを開いてコーディングファイルをロードします。

 そのほか「ツール」→「コーディング」→各種の集計機能や分析機能の画面からもコーディングファイルをロードすることができます。

抽出語検索

 抽出語分析でコードを取り扱うことはできない、と、書いておきながら抽出語分析の関連語検索機能からコーディングの説明を開始します。

・画像のように「Search Entry」から「魚卵」をクリックして
・「集計単位」を段落
・「集計」をクリックします。

・Resultの窓に分析結果があらわれます。

 分析結果のみかたはこちらをご参照ください。(KHcoder 12. 関連語検索(第1回)

Jaccard係数計算式
Coding Jaccard計算

 「魚卵」と「マグロ」のJaccard係数計算を確認します。

・コード「魚卵」に含まれる「語」の「イクラ」が出現する段数=5
・「魚卵」に含まれる「語」のなかの「明太子」が出現する段数=1
・合計段数は6です

・赤い丸と赤い丸の重なり部分はゼロです。
 今回は「イクラ」と「明太子」の両方が出現する「段」はありません。

・「マグロ」が出現する段数=4です。
 赤い丸と青い丸が重なっている部分は、共起の数ですから。Resultの窓に記載されている3です。


・分母=5(イクラ段数)+1(明太子段数)-0(赤と赤の重なり部分)+4(マグロ」段数)-3(赤と青の重なり部分)=7
・分子=3(重なり部分)
・Jaccard係数=3÷7=0.4286

 計算式からわかるようにJaccar係数は「コード」と「語」の関係を計算しているのではなく、「語」と「語」の関係を計算しています。

コーディングファイルの接続詞の意味
*魚卵
イクラ or 明太子

 コーディングファイルはこのように「or」を接続詞で使用しています。

・「or」の意味はAの部分とA’の和集合(AUA’)が分母の対象になるということです。
・接続詞が「and」であればAの部分とA’の共通部分(積集合)(A∩A’)が分母の対象になります。
・接続詞「not」というのもあります。これはJaccard計算式を説明している図の空白の部分ですね。

共起ネットワーク

フィルタ設定
関連語検索 フィルタ設定

・関連語検索結果の画面を大きくします。
・すると左下に「フィルタ設定」ボタンがあらわれますのでクリックします。
・画像のようにウィンドウが開いたら「条件付き確率が低下する語も表示」にチェックを入れます。
・「OK」をクリックすると語数が増えます。

関連語検索 条件付き確率が低下する語も表示

 6語だったものが10語になりました。「条件付き確率が低下する語も表示」についてはこちらをご参照ください。(KHcoder 12. 関連語検索(第1回)

共起ネットワーク図
関連語検索 共起ネットワーク

・語数が増加した状態(条件付き確率が低下する語も表示)で左下「共起ネット」ボタンを押します。

 「魚卵」というコードが四角でプロットされるのだろうと思いましたが、「魚卵」にコーディングした「イクラ」と「明太子」がバラバラになって四角で表示されます。

 共起ネットワークはあくまで「語」と「語」の関係を示します。「コード」を「語」の共起図へ入れこむことはできません。

プロットの違い
共起ネットワーク比較

 左図はここまでみてきたように関連語検索機能から描画した共起ネットワーク図です。右図は単純に抽出語から描画したものです。

・右図にあって左図にない「語」は「イクラ」「明太子」(コード魚卵に含まれる「語」)と共起していない「語」です。

・左図は「イクラ」「明太子」と共起している「語」だけに絞られているわけです。

 つまりResultの窓に記載されている「語」だけの共起図が左図です。「コード」を含まない「段」が除外されます。コーディングのソート機能がはらたいています。

 左右を見比べてわかることがあります。左図に出現しない「語」、「あじ」「サンマ」のような青魚と魚卵の両方を好む顧客は少ないだろうということです。