Coding(KHcoder) 3 集計機能

Coding(KHcoder) 3 集計機能

コーディング分析のとき、各種集計結果はどのようになるのかについて解説しています。

コーディング編のデータはこちら

各種集計機能

単純集計
KHcoder Coding 単純集計

・「ツール」→「コーディング」→「単純集計」の順でクリックします。
・集計ボタンをクリックすると結果があらわれます。

・「頻度」は「コード」が出現する「段」数です。
・パーセントは「コード」が出現する「段」数÷文書数合計です。
・最下段の(文書数)は「段」で集計しているので「段」数です。

 コーディング単位を「文」や「H5」に設定することも可能です。ちなみに今回の分析対象テキストは「H5」「段」「文」すべてが一致します。

・コーディングファイルへ記載されている「語」を含まない「段」は「コード無し」でカウントされます。

 結果を単純集計だからといって侮ってはいけません。今回の「分析対象テキスト」はわずか12段・19語ですからすっきりとした集計結果になります。数千段・数百語をあつかうテキストマイニングであればこのようなすっきりしてた結果にはなりません。

 実践的には単純集計結果を確認しながら、「コード無し」が大多数ならコーディングファイルを修正するような作業をおこないます。

コーディングファイルの使い分け

 「参照」のボタンからコーディングファイルを読み込むわけですが、ほかにも様々なコーディングファイルを読み込むことができます。ただし分析は1ファイルにつき1分析の関係です。同時に複数のファイルを読み込むことは不可能です。

 今回はすしネタをかカテゴリーでコーディングしました。
 すしネタを価格で分類して分析してみたいという場合もあると思います。そうなるとすしネタを価格でコーディングしたファイルを作成して読み込む方法があります。

 別の方法として1ファイルでカテゴリーも価格も同時にコーディングします。これは「語」対「コード」が ”複数” 対 ”複数” の関係を許しているから可能になります。ただし上記「単純集計」など一部の集計では「コード」を選択する機能がないので注意が必要です。

・コーディングファイルを切り替えた場合は、再度「集計」ボタンをクリックしてください。

・コーディングファイルを書き換えた場合は、「参照」から上書き保存したコーディングファイルを選択して「集計」ボタンをクリックしてください。

クロス集計

クロス集計手順
KHcoder Coding クロス集計

・「ツール」→「コーディング」→クロス集計」の順でクリックします。
・「参照」のコーディングファイル名を確認します。
 複数のコーディングファイルを使用しているときに間違えていることがあるので注意が必要です。

 セル内容:デフォルトで「度数とパーセント」になっています。その他の選択肢として「度数のみ」「パーセント」のみがあります。

 コーディング単位:「段」「文」「H5」のいずれかを選択できます。コーディング単位とは、「段」数をカウントするのか「文」数なのか「H5」数なのか、カウントする単位のことです。

 クロス集計:読み込んだ「外部変数」のいずれかを選択できます。「見出し5」という選択肢もあります。これは「H5」のことです。


・「集計」をクリックすると下の窓に結果があらわれます。
 今回は「度数とパーセント」「段落」「年代」で集計しました。

結果の見方
KHcoder Coding クロス集計結果

 クロス集計は
・行が外部変数
・列がコードのマトリクスになります。

・各セルに表示されている整数は「段」数です。
 コード「魚卵」が出現するのは外部変数10代のなかの4「段」です。外部変数10代は4「段」で構成されているから4÷4=100%の「段」に「魚卵」が出現しています。この計算結果がカッコ内のパーセントです。

・注意が必要なのは右端の「ケース数」です。
・「ケース数」の単位は「段」です。

 この数字には「コード」を含まない「段」数は含まれません。コーディングファイルのコードに対応している「語」のいずれかかが出現する「段」数です。

 単純集計の結果、「コード無し」に分類された「段」はあらかじめ除外されているということです。ですから「ケース数」の合計と「分析対象テキスト」の合計「段」数とは一致しないことがあります。

結果から何がわかるのか

 分析結果から、各「コード」と各「外部変数」の分布密度がわかります。

 結果は横軸(列:コード)と縦軸(行:外部変数)のマトリクスです。(列の「ケース数」と行の「合計」以下を除きます)

・列でみるとコード「魚卵」は外部変数「10代」の密度が「40代」「60代」と比較して高いことがわかります。
・行でみると外部変数「10代」はコード「魚卵」とコード「エビ・イカ」が他のコードと比較して最も密度が高いことがわかります。

 この密度の高低を比較することで「魚卵を好む年代は?」「10代が好むすしネタは?」という2つの問いにたいする答えを見つけることができるのです。

 ただし記載内容が数値だからパッとみてもピンときません。そこでマトリクスを描画する機能があります。
 続きは次回