KHcoder 3 分析対象テキストの前処理

KHcoder 3 分析対象テキストの前処理

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

前処理の実行

分析対象ファイルのチェック

KHcoder 分析対象のチェック
 分析対象テキストをそのま読込できるのかどうかををチェックしてくれます。
KHcoder 分析対象のチェック 結果 分析対象テキストをチェックした結果が表示されます。「半角文字」がありますよ!と注意してくれます。「画面に表示」をクリックすると詳細がわかります。
KHcoder 分析対象のチェック 結果 「イクラ」がいけないようです。「ファイルに保存」はこの画面に描かれている内容を.txtファイルで保存する機能です。分析の履歴として必要であれば名前をつけて保存しておきます。
 「対象ファイルの自動修正」をクリックします。自動修正機能は「イクラ」を「イクラ」で読み込みます。対象ファイルそのものを書き換える機能ではありません。KHcoderへ「イクラ」で読み込みます!ということです。従って分析対象ファイルには「イクラ」と「イクラ」の語がありますが、KHcoder内には「イクラ」だけになります。

前処理の実行

KHcoder 前処理の実行 「前処理の実行」をクリックします。「この処理には時間がかかる場合があります。続行してよろしいですか?」メッセージが表示されます。気にせず「OK」を押します。経験的には長くても数十秒で処理は完了します。処理が終了すると、数字があらわれます。数値の意味を解説します。

「総抽出語数(使用)」
 分析対象テキストから抽出された「語」の数です。(使用)というのは分析に使用する「語」の数です。語数と(使用)数の差は一部の品詞を分析しないからです。「助詞」「助動詞」などは分析対象にしません。KHcoderが自動で判断してくれます。

「異なり語数(使用)」
 抽出語数は語の出現トータル数です。異なり語数は語のカウント(distinct)数です。分析の対象になる「語」は(使用)の43語だということです。読み込んだ分析対象テキストは短文でした。その割に抽出語数が妙に多いようです。あとでチェックします。

「文」
 20の文がありますということです。文は句点「。」で区切られます。

「段落」
 12の段落があります。読み込んだ分析対象テキストと一致しています。エクセルまたはCSV形式で読み込んだばあい、1セル=1段落が基本ですが、セル内に改行(↩)がある場合は改行(↩)ごとに段落としてカウントします。

「H5」
 セル内に改行(↩)がないので「段落」と同義です。この場合はH5で分析しても段落で分析しても同じ分析結果になります。

抽出語

抽出語を確認する

KHcoder 抽出語リスト「ツール」→「抽出語」→「抽出語リスト」
 画像のような窓が開きます。頻度降順の語のリストです。短文の割に語数が妙に多い?と思っていたら、語がバラバラに抽出されているようです。
 「まぐろ」が「ま」「ぐ」「ろ」に分解されています。平仮名の「まぐろ」が辞書に記載されていないので「まぐろ」という「語」が抽出できません。

複合語の抽出

KHcoder 複合語の検出「前処理」→「複合語の抽出」
 「KHcoder」には複合語を抽出する機能があります。「TermExtractを利用」「茶筌を利用」のどちらかを選択します。「茶筌」とは辞書の選択場面に登場した「ChaSen」のことです。先に「TermExtractを利用」にします。
KHcoder TermExtractを利用 「TermExtractを利用」すると結果が表示されます。「サラダ巻」「ツナサラダ」「つぶ貝」「青魚」が抽出できました。残念ながら「まぐろ」は抽出できません。
KHcoder 茶筌を利用 「茶筌を利用」でやってみました。こちらの方がいい感じです。茶筌の4語にくわえて「たまご」「フライドポテト」を抽出できました。それでも「まぐろ」は抽出できません。

結果を保存します

 茶筌のほうがいい感じなので茶筌の抽出語を保存します。画像のように内容をドラッグして、右下の「コピー」をクリックする方法、そのままの状態で左下の「全複合語のリスト」をクリックする方法があります。保存は「全複合語のリスト」の方が簡単です。「全複合語のリスト」をクリックするとエクセルが起動し、このようなエクセル表ができます。
KHcoder 全複合語のリスト エクセルの上部に表記されているファイル名をちょっと覚えておきます。内容を確認したらエクセルを閉じます。

自動保存されたファイルを確認する

 「KHcoder」インストール時にCドライブへ「khcoder3」というフォルダーが作成されています。「KHcoder」のショートカットアイコンをクリックすると開くフォルダーです。
KHcoder 自動保存 「config」フォルダーを開きます。
KHcoder 自動保存 エクセルのファイル名と同じ「khc155」というフォルダーがあります。これを開きます。
KHcoder 自動保存 「khc155_hl.xlsx」さきほどのエクセルファイルが自動保存されています。ですから保存は「全複合語のリスト」の方が簡単というわけです。
「khc155_hl.xlsx」→「茶筌を利用」で作成した複合語リスト
「khc155_hlte.xlsx」→「TermExtractを利用」で作成した複合語リスト

【今回の分析対象テキストはこちらからコピーできます】