Coding(KHcoder) 6 カイ2乗値

カイ2乗値とは何か？解るようで解りにくいような解説と、カイ2乗値の計算ロジックについて

　コーディング・クロス集計表の最下段に算出される「カイ２乗値」とは？

　カイ２乗検定という独立性検定のことです。

・好きなすしネタデータのコード「魚卵」は合計６回出現しています。

　もしもコード「魚卵」の出現が年代から独立しているという仮説が成立するなら、
・出現回数6回÷年代3階級＝2

　確率的に「コード」魚卵は各年代3階級（１０代・４０代・６０代）に各２回ずつ出現するはずです。

　ところが実際には１０代に偏って出現しています。
　このように、どこかの年代に偏って出現しているということを独立ではないといいます。

　つまりコード「魚卵」と、それが出現する年代とのあいだには、何かの関係があるのだろうということです。

　各コードと各年代との関係が独立なのか、そうではないのかを検定することがカイ２乗検定です。検定にはカイ２乗値から算出するｐ値を使用します。

　１個のサイコロを合計６００回ふります。
　１つの目がでる確率は６分の１ですから合計６００回ふれば目は各１００回になるのだろうと思います。これが「期待度」です。

　ところが、上表のように１の目が全く出現しなかったらどうでしょうか。
　上表をカイ２乗検定すると「出目が独立ではありません」ということをｐ値が教えてくれるわけです。

① サイコロが正六面体ではない。
② サイコロの転がる面が水平ではない。
③ 思いのままに目を出すことができるサイコロ名人がふっている。

　このように、サイコロの場合は独立ではない理由をいくつか考えることができます。

　テキストマイニングでは、アンケート自体の問題で回答者の声を反映していないとか、マグロ祭りの真っ最中にアンケートを実施したなど、独立ではない理由を考えることができます。

　しかし、コンピューターはアンケートがどのような状況で行われたのかなどを計算には全く考慮しません。

　ただ「コード」と「外部変数」のと関係を粛々と計算するだけです。
　独立ではない理由が「コード」と「外部変数」のと関係にあるのか、もしかするとアンケート自体の問題なのか？結果をみながら考えてみることをオススメします。

　方程式：カイ２乗値＝（実績値－期待度）^2÷期待度

方程式に従い計算をします。
① 各セルへ平均値を入れます。各セルの数値を縦合計値で割ります。この平均値が期待度です。

② 実績値と期待度との差分を計算します。

③ 実績値と期待度との差分を２乗します。

④ 実績値と期待度との差分の２乗を期待度で割ります。縦合計を算出します。

　計算結果がコーディング・クロス集計表の値と一致しません。更に計算をすすめます。

⑤ ケース数合計をケース数合計と縦合計との差分で割ります。

⑥ ④で算出したカイ２乗（１）と⑤係数をかけ合わせます。この数値がコーディング・クロス集計に記載されているカイ２乗値です。

ここからp値の計算
⑦ ④で算出したカイ２乗（１）からｐ値を算出します。

⑧ ｐ値にたいして「＊」を付与します。
・ｐ値＞＝0.1のとき「＊」はなし。0.01＜＝ｐ値＜0.1のとき「＊」
・ｐ値＜0.01のとき「＊＊」です。
・「＊」の数が多いほど独立ではないことを示します。

・「ツール」→「コーディング」→「類似度行列」の順にクリックして
・「集計」ボタンを押します。

　「コード」×「コード」のマトリクスが表示されます。これは対応分析やクラスター分析につかう「コード」と「コード」の距離を示すものだろうとピンときます。

method_dist <- "binary"
method_clst <- "ward"
library(amap)
dj <- Dist(d,method=method_dist)

Ｒから出力される距離計算の結果はこのようになります。

　クラスターは「コード」とコード」の距離が短い順にしたがいつくられていきます。

　「エビ・イカ」と「マグロ」がまっ先に群をつくり「魚卵」が次にくっつきます。計算結果の通りです。

　類似度行列結果が「コード」と「コード」の距離計算結果と違います。

　表をよーく見ていると違いに気付きました。
・類似度行列＝１－距離

　つまり距離が近いほど類似度行列数値は大きくなる仕組みです。具体的な使用方法は不明です。