KHcoder 10. 記述統計

KHcoder 10.　記述統計

抽出語の記述統計機能について、解説しています。TFとDFの違いは、「語」の出現回数と、「語」が出現する段数の違いです。

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝！
【今回の分析対象テキストはこちらからコピーできます】

記述統計

出現回数(TF)の分布

・「ツール」→「抽出語」→「記述統計」→「出現回数(TF)の分布」

＊ＴＦは「分析対象テキスト」のなかで「語」が出現する頻度（回数）
＊ＤＦは「分析対象テキスト」のなかで、ある「語」が含まれている「Ｈ５」数、「段」数、「文」数を示します。　

　出現回数(TF)の分布は、「語」が出現する回数をカウントした結果を表示するものです。出力結果の下の部分「■度数分布表」から説明します。

・「出現回数」と「度数」の列
　「分析対象テキスト」のなかで、１回出現する「語」が２５種類ある、２回出現する「語」が３種類ある、このように読みます。表の縦軸 (行) は計算メジャーです。
　８回出現する「語」が１種類あります。それが「まぐろ」です。単純にいえば抽出語リストを「出現回数」と「語数」でクロス集計した表です。

・「パーセント」＝「度数」÷「異なり語数」
　１行目の67.57は「25÷37」の解です。「累積度数」「累計パーセント」はヒストグラムでおなじみの累計と同じです。

・上の部分「■記述統計」はサマリーです。
　「異なり語数(n)」が37語あるということです。

・「出現回数の平均」
　下の表の出現回数×度数、つまり（１×２５＋２×３＋３×４＋４×２＋５×２＋８×１）÷３７（異なり語数）で算出されます。
　加重平均しているということは、１「文」の平均「語」数ではなく（それならば計算式は３７「語」÷２０「文」になる）、１「語」が１「文」に出現する平均回数ということになります。

・「出現回数の標準偏差」
　下の表の標準偏差です。１「語」が１「文」に出現する標準偏差です。

出現回数(TF)の分布のプロット

・「プロット」をクリックすると折線グラフが出現します。

　これはエルボー曲線によく似ています。エルボー曲線はおもにクラスター分析のときにクラスター数設定の目安につかいます。他に似たものでＡＢＣ分析結果もこのような折れ線グラフになります。

　ただ、クラスター分析でもＡＢＣ分析でも重要なのはグラフの左側で、このグラフの左側は出現回数が少ない「語」だからどちらかという分析では右側が重要であるように思います。
　そうすると、グラフが大きく折れ曲がる出現回数２回以上の「語」を分析せよ！というふうに読めばよいのだろうと思います。

出現回数(TF)の分布のプロットの構造

	分析対象テキスト１		分析対象テキスト２
文Ａ	まぐろ、サーモン、ハマチ	文Ｃ	まぐろ、サーモン、ハマチ
文Ｂ	まぐろ、サーモン、イクラ	文Ｄ	まぐろ、いか、さば

　出現回数(TF)の分布のプロット（折線ぐラグ）の構造がどのようになっているのか例で説明します。

・「分析対象テキスト１」は文Ａと文Ｂで構成されています。
　「分析対象テキスト１」の場合、１回出現する「語」は２種類（ハマチ・イクラ）、２回出現するる「語」は２種類（まぐろ・サーモン）ですから、折れ線グラフはＸ軸と平行になります。出現回数の平均は（１回×２語＋２回×２語）÷４語＝1.5です。

・「分析対象テキスト２」は文Ｃと文Ｄで構成されています。
　この場合、１回出現する「語」は４（サーモン・ハマチ・いか・さば）、２回出現するる「語」は１語（まぐろ）ですから、折れ線グラフは右肩下がりなります。出現回数の平均は（１回×４語＋２回×１語）÷５語＝1.25です。

　「分析対象テキスト１」の文Ａと文Ｂの差異と、「分析対象テキスト２」の文Ｃと文Ｄの差異を考えたとき、文Ａと文Ｂは「まぐろ」「サーモン」の２「語」が共通であらわれ、３語めが「ハマチ」か「イクラ」かの違いです。文Ａと文Ｂは似ているといえます。

・文Ｃと文Ｄに共通するのは「まぐろ」だけです。
　「分析対象テキスト１」の文Ａと文Ｂの差異よりも「分析対象テキスト２」の文Ｃと文Ｄの差異のほうが大きいことに気付きます。

　つまり、折線グラフの左肩が下がるということは
・「分析対象テキスト」を構成する文と文との差異が大きいほど右肩が下がる。
・文と文が似ていると右肩の下がり方がゆるやかになる。
　このように考えることができそうです。出現回数の平均値が小さいと同様に文と文の差異が大きく、平均値が大きいと文と文が似ているといえます。

　従って、出現回数(TF)の分布のプロット（折線ぐラグ）は線の傾き具合を見るものであろうと思います。

　それぞれの文に共通して出現する「語」数が多いほど傾きが緩やかになります。

出現回数(TF)の分布のプロットの下のボタン

　プロットの下に「出現回数（Ｘ）」ボタンがあります。
　デフォルトで「出現回数（Ｘ）」、図の左側、出現回数（Ｘ軸）のスケールがデフォルメされています。「

　出現回数（Ｘ）と度数（Ｙ）」をクリックすると度数（Ｙ軸）がデフォルメされ、プロットを結ぶ線が消えます。

　「なし」をクリックするとＸ軸、Ｙ軸ともにスケールのデフォルメが解消されます。

その他の記述統計機能

出現文書数(ＤＦ)の分布

　今度は、ＤＦです。カウントするのは「Ｈ５」「段」「文」のどれかの数です。

・画像での設定は「段」です。

表の見方は上から
・２６種類の「語」は、どこかの１「段」に出現する
・３種類の「語」は、どこかの２「段」に出現する

　このように読みます。「段落」のボタンでその他の「Ｈ５］「文」を選択することができます。

　プロットをクリックするとＴＦと同様のプロット折線グラフが開きます。プロットの操作はＴＦと同じです。

出現回数×文書数のプロット

・横軸（Ｘ軸）が「語」の出現回数
・縦軸（Ｙ軸）が文書（Ｈ５、段、文）数をプロットしています

　「段落」のボタンと「出現回数（Ｘ）」ボタンの使い方はＴＦのときと同じです。

　記述統計とは、テキストマイニングの基本になる「語」が出現する回数（ＴＦの分布）、「語」が出現する場所の数（ＤＦの分布）を統計記述したものです。
　ＴＦの分布もＤＦの分布も単独でみるとき数値自体にそれほどの注意をはらう必要はありません。

【今回の分析対象テキストはこちらからコピーできます】

morita

119