Coding(KHcoder) 4 ヒートとバブル
コーディング分析にある「ヒート」と「バブル」機能。これ、かなりおもしろいですね。
コーディング・クロス集計
ヒートマップ
・「ツール」→「コーディング」→「クロス集計」→外部変数を選択して→「集計」の順に進みます。
・コーディング・クロス集計表の下部にある「ヒート」をクリックします。
ヒートマップが開きます。
・下部の「調整」をクリックすると画像右側のウインドウが開きます。
コード選択:分析するコードを選択します。仮に価格でコーディングしたコードが同一ファイル内にあるようなときはこのステップで除外することができます。
外部変数・見出しのクラスター化と並び替え:左側画像はチェックしていない状態です。チェックしていない状態ではコードがクラスタリングされます。チェックすると外部変数(今回は年代)がクラスタリングされます。
ヒートマップの見方
ヒートマップのもとになっている数値はクロス集計表のパーセントです。
100は100%のことです。ヒートマップは数値の大小を色の濃淡で表現します。
数値が高いプロットほど色が濃くなります。濃い部分がアツイわけです。
クロス集計表と比較すると、縦軸と横軸が逆転しています。
これは「コード」をクラスタリングして並び替えたときに見やすくなるような工夫です。
ヒートマップの左側に樹形図が描画されます。
これがクラスタリングを示します。まず「エビ・イカ」と「マグロ」がクラスタリングされるのは10代・40代・60代にそれらの「コード」が出現しているからです。
「魚卵」と「惣菜」は特に10代がアツく、「青魚」と「貝類」は60代がアツいという理由でクラスタリングされます。
視覚的に「コード」が出現する場所とコードがクラスタリングされる理由を確認することができます。
ちなみに「外部変数・見出しのクラスター化と並び替え」にチェックをいれるとヒートマップの上部に「年代」をクラスタリングした樹形図があらわれます。
バブル
・ヒートマップの左下「ヒート」ボタンから「バブル」に変更します。
・「調整」ボタンをクリックすると右側画像のようにウインドウが開きます。
・ここでバブルの形状を正方形か円かを選択できます。
バブルのサイズや色はお好みで調整してください。バブルにはクラスタリングの機能はありません。
・バブルはヒートマップにバブルサイズを追加したものです。
バブルサイズはクロス集計のパーセントに比例します。
色はどうでしょうか。ヒートは緑色の濃淡でしたがバブルでは青色と赤色の分化で表現しています。
・凡例から色の分化は「Pearson rsd」に従っていることがわかります。
色の分化はPearson rsd
Pearson
・「Pearson」はピアソンの積率相関のことです。
「コード」と「年代」のあいだに、どの程度の直線的な相関関係があるのかを示す数値です。
・「-1<=相関係数<=1」、相関係数は-1と1の間に収まります。
・相関係数の絶対値が1に近いほど高い相関関係を示します。
バブルのなかで最も赤色が濃いコード「貝類」と外部変数「60代」とは高い相関関係があるということです。コード「貝類」は外部変数「60代」にのみに出現するからその通りです。
しかし、相関係数が「-1<=相関係数<=1」の範囲を超えています。ということは「rsd」が色に関係しているようです。
rsd
・国語のテストは50点満点で40点でした。
・英語のテストは100点満点で80点でした。
この結果をヒートマップであらわすと、
・国語も英語も同じ色になります。
各教科ごとの得点率というパーセント、絶対評価で色分けをするからです。
・コーディングクロス集計表のケース数が満点
・パーセントが得点率です。
国語のテストは平均点が40点、英語の平均点は60点だとするとどうでしょうか。国語はもう少しがんばろう、英語はやりました!という評価にかわります。このように相対評価を取り入れると同じ得点率であっても色に変化があらわれます。
・「rsd」は標準偏差÷算術平均です。
算術平均が違う母集団どうしの相対的なばらつきを評価に加えます。従って、100点満点のテストで全教科100点満点を得点しても色が違うわけです。
アツさの順は、「60代・貝類」、「10代・惣菜」「10代・魚卵」のようです。
>Coding(KHcoder) 3 集計機能
>Coding(KHcoder) 5 Pearson rsd