KHcoder 11. KWICコンコーダンス

KHcoder 11.　KWICコンコーダンス

KWICコンコーダンスは、よく使用する機能です。謎のロケーション統計スコアも解説しています。

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝！
【今回の分析対象テキストはこちらからコピーできます】

KWICコンコーダンス

KWICコンコーダンスの活用場面

・「ファイル」→「抽出語」→「KWICコンコーダンス」から開くことができます。

直接的に「KWICコンコーダンス」へアクセスするよりも
・「抽出語」
・「対応分析」
・「多次元尺度構成法」
・「階層クラスター分析」
・「共起ネットワーク」
・「自己組織化マップ」

　さまざまな分析結果からアクセスする場合のほうがおおくなります。
　各種分析結果を検証するために「語」の使われ方を確認する必要があるからです。

　例えば「好き」が「好き」なのか「好きではない」のかを前後の文脈から確認することができます。とても便利な機能です。

KWICコンコーダンス機能

・「抽出語」へ「好き」と入力して「検索」をクリックします。
・「好き」の前後を構成する２４「語」がデフォルトで表示されます。
　２４「語」というのはKHcoderでいう「語」ではなく基本的には２４「文字」です。しかし「文字」数を数えてみると２４「字」にはなりません。

　なぜこのようになるのかというと、
・「語」の途中で表示を切らないルールがあるからのようです。
・２４「文字」目が「語」の途中になるときは四捨五入して２４「文字」前後の「語」で区切るような設定です。

　この２４「文字」にはなんらかの意味があるのだろうとは思いますが、この分析で用いている「分析対象テキスト」は短文構成なので、前後１０「文字」でも十分の「語」の使われ方を理解することができます。

　「分析対象テキスト」の内容により、見やすい数値を設定すればよいと思います。◇（ひし形）の位置はＨ５の区切り目に表示されます。

文書表示

・行を選択し、下の「文書表示」をクリックするとウインドウが開きます。
・右横の「段落」「文」「Ｈ５」を設定変更することができます。画像は「段」に設定しているので表示は「段」です。
・選択した「語」が黄色でハイライトされます。

・「現在表示中の検索結果： 2 / 5」は５「語」のうちの２番目
・「No.5」は全１２「段」のなかの５番目の段であることを
・「年代 = ４０代, 性別 = 男, サイト = A, ID = 5」はすべて外部変数を示します。

　「分析対象テキスト」がエクセルまたはＣＳＶときに上に＜—cell—＞こんなのが表示されますが気にすることはありません。

　文書表示機能を使用するとき分析結果の検証など、例えば「好き」と「まぐろ」が共起しているのが本当に４回なのか確かめることができます。
　私的にはプレゼンで文書表示機能をよく使います。特にアンケート・クチコミのなかでも少数意見をパッパと見せるときに外部変数がくっついてるのでとても見やすいです。

・ウインドウの下の「ファイル内：＜＜前　後＞＞」はファイル内の前・後の「段」（表示単位を「段」に設定している場合）へ移動します。
・検索「語」の「好き」を含むか含まないかは無関係に単純に前・後の「段」へ移動します。
・「検索結果：＜＜前　後＞＞」は検索「語」の「好き」を含む前・後の「段」へ移動します。

・「強調」をクリックすると、新しいウインドウがさらに開きます。
・「言葉」の窓へ「語」を入力して「追加」をクリックします。
・強調したい「語」をブルーでハイライトします。
・「種類」は「抽出語」か「文字列」を選択できます。
・窓へ入植する値が「語」であれば「抽出語」「文字列」どちらを選択しても同じ結果になります。
　例えば「マグロが好き」のように「語」を超える場合、または「マグ」のように「語」未満の場合は「文字列」を選択してください。

ソート

・「ソート１」のデフォルトは「出現順」です。
　単純に「好き」が出現する文書順に表示されます。「右５」等があります。文の先頭から「まぐろ」までの「文字」数が５になっている「文」があればその「文」がいちばん上に表示されます。「ソート２」「ソート３」まであります。

ロケーション統計

「集計」をクリック

・「ロケーション統計」が開きます。
　「まぐろ」という「語」の左５から右５までの間にだけ出現する「語」が表示されます。
　左５から右５までの間ですから、その途中が「文」「段」「Ｈ５］で切れていても抽出されます。

・「いくら」が「まぐろ」の左側（前方）４語目に２回
・「いくら」が「まぐろ」左側（前方）２語目の２回出現している

　このように結果を読みます。デフォルトで「スコア」順になっています。つまり「スコア」が高いほど近くに出現する「語」と理解できます。

　スコア係数は
・左右５が0.2
・左右４が0.25
・左右３が0.33
・左右２が0.5
・左右１が1.0

　スコア係数×出現回数でスコア合計を算出しています。

　　スコアのほかにJccard係数の表示できます。
　ただし前後５「字」をはさむ範囲のJccard係数です。通常のJccard係数は「Ｈ５」「段」「文」が基本ですから相当に狭い範囲内のJccard係数になります。

　また、通常は「Ｈ５」「段」「文」を超えるJccard係数は算出できませんが、前後５「字」以内で「Ｈ５」「段」「文］で切れていても計算されます。

　検証してみると、左右の次の数値は「語」数ではなく「文字」数です。句読点も１「文字」でカウントしています。

【今回の分析対象テキストはこちらからコピーできます】

morita

119