KHcoder 14. 対応分析(第1回)

KHcoder 14. 対応分析(第1回)

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

対応分析設定

初期設定画面解説

KHcoder 対応分析 初期設定<最小/最大出現数による語の取捨選択>
 この「分析対象テキスト」ではデフォルトで2が設定されます。「分析対象テキスト」の総語数等からKHcoderが分析に適切な語数をデフォルトで示してくれます。基本的にはKHcoderに従います。まずは変更せずそのまま分析してみます。結果をみてから変更することはよくありますが、程々の数値にとどめておくべきです。小さい数値に設定するということは、多くの「語」を分析対象にすることになります。全部みたい!というのが本音としても、あまりにも多い「語」数にすると結果が見にくくなる、あるいは、分析処理に時間を要する、または、固まって動かなくなることもあります。今回は、以下の説明を解りやすくするために3に設定しました。

<最小/最大文書数による語の取捨選択>
 すぐ下にある「文書とみなす単位」ボタンとセットで使います。この機能は文書数を設定するものではありません。設定するのは「語」の取捨選択ですから1文書以上に出現する「語」、とか、2文書以上に出現する「語」などのように分析対象にする「語」数を設定する機能です。「文書とみなす単位」ボタンを分析単位だと勘違しがちですが、例えば2文書以上に出現する「語」の場合、「段」なら2「段」以上に出現する「語」、「文」なら2「文」以上に出現する「語」になります。そもそも対応分析は「段」数、「文」数とは無関係です。

<品詞による語の取捨選択>
 デフォルトでいくつかの品詞が除外されています。除外されている品詞の中に重要な「語」が含まれている場合は分析対象にしてください。

<分析に使用するデータ表の種類>
 対応分析の活用シーンで最も多いのが「外部変数」と「語」の分析です。「抽出語×外部変数」をチェック、窓のなかの「外部変数」を選択します。「外部変数」の複数選択が可能ですが、分析手法としてはオススメしません。

<差異が顕著な語を分析に使用>
 デフォルトのままでOKです。

<原点から離れた語のみラベル表示>
 デフォルトのままでOKです。出力結果が見えにくい場合はチェックしてやり直してください。

<バブルプロット>
 デフォルトではチェックされていませんが、チェックしてください。出力結果が見えにくい場合はチェックを外してやり直してください。

<原点付近を拡大>
 デフォルトのままでOKです。中央付近に「語」が集中しすぎて出力結果が見えにくい場合はチェックしてやり直してください。ただし出力結果は見えやすさを優先するものですから、純粋な解析結果とは違うものになります。

<プロットする成分>
 デフォルトのままでOKです。外部変数が2項目のみの場合は、自動でX軸1・Y軸1になります。

<実行時にこの画面を閉じない>
 チェックすることをオススメします。チェックしておくと、分析をやり直すたびに「ツール」→「抽出語」→「対応分析」をクリックする必要がなくなります。

出力画面解説

KHcoder 対応分析 左下の「調整」をクリックするとウインドウが開きます。結果が見にくいとき、バブルプロットにチェックをわすれたとき等、この画面で調整します。
 右下の出力をクリックすると分析結果を画像やデータでほぞんすることができます。主にPNG、CSV、Rsorceを使います。
 プロットされている「語」をクリックすると「KWICコンコーダンス」が開きます。

分析結果の見方

位置関係

KHcoder 対応分析 青い丸は「語」を赤い四角は「外部変数」です。対応分析結果は、青い丸と青い丸、青い丸と赤い四角、赤い四角と赤い四角の位置関係をみます。

<青い丸と青い丸>
「苦手」と「イカ」は完全に一致しています。

テキスト 年代
好物はたまご、いくら、まぐろ、サーモン。イカ苦手 10代
イカとかエビのようなあっさりしたネタが好き。サバが苦手。 40代
まぐろ、サラダ巻とかも好きです。イカは固いので食べない。 60代
サバ、あじ、サンマのような青魚が体にいい。脂っこいサーモンとかは苦手です。 60代

 「イカ」が出現している場所は、10代で1回、40代で1回、60代で1回です。「苦手」が出現している場所は、10代で1回、40代で1回、60代で1回と「イカ」と全く同じです。「語」の出現回数も3回で同じですから、ぴったりと重なります。青い丸の位置は外部変数ごとに出現する回数で決まります。従って、「イカ」「苦手」の近くにある「まぐろ」も各外部変数に平均的に出現する「語」だといえます。

<青い丸と赤い四角>
 青い丸の位置は外部変数ごとに出現する回数で決まるわけですから、赤い四角の近くにある青い丸はその外部変数のなかで多く出現しているといえます。

テキスト 年代
イクラ、サーモン、まぐろが好き。 10代
好きなのはイクラとまぐろ。サバが嫌い。 40代
鯛とまぐろが好き。エビはアレルギーがあるからダメ。 40代
イカとかエビのようなあっさりしたネタが好き。サバが苦手。 40代
まぐろ、サラダ巻とかも好きです。イカは固いので食べない。 60代

 実際に「好き」は10代で1回、40代で3回、60代で1回、それぞれ出現しています。

<赤い四角と赤い四角>
 赤い四角は各外部変数に出現する「語」の種類と出現回数で決まります。従って、赤い四角どうしが近くにある場合、出現する「語」の種類と回数が似ているといえます。仮に10代と40代の赤い四角が四角にあれば、10代の嗜好と40代の嗜好は似ていると考えることができます。
ただし対応分析はできるだけ違いを強調する傾向にあるため、外部変数が3のとき正三角形を描こうとします。画面を目いっぱい使おうと努力します。
KHcoder 対応分析 ちなみに「外部変数」が12あるIDで分析するとこのような結果になります。

テキスト 年代 性別 サイト ID
ハマチ、ブリ、まぐろ、ツナサラダです。 40代 B 8

 もともとのテキストはこのようになっています。「まぐろ」を含むから、もっと左下にプロットしてもよいと思いますが「ツナサラダ」「ブリ」「ハマチ」を含んでいるためぽつんとプロットされました。

>KHcoder 15. 対応分析(第2回)