KHcoder 3 分析対象テキストの前処理

KHcoder 3 分析対象テキストの前処理

分析対象テキストをチェックして週出される「語」を確認します。KHcoderの前処理について解説しています。

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

前処理の実行

分析対象ファイルのチェック
KHcoder 分析対象のチェック

・「前処理」→「分析対象ファイルのチェック」を選択します。
 分析対象テキストをそのま読込できるのかどうかををチェックしてくれます。

KHcoder 分析対象のチェック 結果

 分析対象テキストをチェックした結果が表示されます。
 「半角文字」がありますよ!と注意してくれます。
・「画面に表示」をクリックすると詳細がわかります。

KHcoder 分析対象のチェック 結果

 半角カタカナの「イクラ」がいけないようです。
・「ファイルに保存」とは、はこの画面に描かれている内容を.txtファイルで保存する機能です。
・分析の履歴として必要であれば名前をつけて保存しておきます。

・「対象ファイルの自動修正」をクリックします。
 自動修正機能は「イクラ」を「イクラ」で読み込みます。対象ファイルそのものを書き換える機能ではありません。KHcoderへ「イクラ」で読み込みます!ということです。分析対象ファイルには「イクラ」と「イクラ」の語がはそのまま残ります。
 「イクラ」は「イクラ」の活用形になり、KHcoderで分析される語が「イクラ」に統一されます。

前処理の実行
KHcoder 前処理の実行

・「前処理の実行」をクリックします。
「この処理には時間がかかる場合があります。続行してよろしいですか?」メッセージが表示されます。

・気にせず「OK」を押します。
 経験的には長くても数十秒で処理は完了します。処理が終了すると、数字があらわれます。数値の意味を解説します。

「総抽出語数(使用)」
 分析対象テキストから抽出された「語」の数です。(使用)というのは分析に使用する「語」の数です。
 語数と(使用)数の差は一部の品詞を分析しないからです。「助詞」「助動詞」などは分析対象にしません。KHcoderが自動で判断してくれます。

 注意が必要なのは、抽出したい「語」が抽出されていない可能性があることです。
 このあたりはKHcoder 4. 語の取捨選択KHcoder 6. 表記揺れの吸収ファイル書き換え、で解説しています。

「異なり語数(使用)」
 抽出語数は分析対象テキストに出現する「語」のトータル数です。
 異なり語数は語のカウント (distinct) 数です。分析の対象になる「語」は(使用)の43語だということです。
 読み込んだ分析対象テキストは短文でした。その割に抽出語数が妙に多いようです。あとでチェックします。

「文」
 20の文がありますということです。文は句点「。」で区切られます。

「段落」
 12の段落があります。読み込んだ分析対象テキストと一致しています。エクセルまたはCSV形式で読み込んだばあい、1セル=1段落が基本ですが、セル内に改行(↩エンター)がある場合は改行(↩エンター)ごとに段落としてカウントします。

「H5」
 セル内に改行(↩エンター)がないので「段落」と同義です。この場合はH5で分析しても段落で分析しても同じ分析結果になります。

抽出語

抽出語を確認する
KHcoder 抽出語リスト

・「ツール」→「抽出語」→「抽出語リスト」
 画像のような窓が開きます。頻度降順の語のリストです。短文の割に語数が妙に多い?と思っていたら、語がバラバラに抽出されているようです。

 「まぐろ」が「ま」「ぐ」「ろ」に分解されています。平仮名の「まぐろ」が辞書に記載されていないので「まぐろ」という「語」が抽出できません。

 このようなときには便利な機能があります。

複合語の検出
KHcoder 複合語の検出

・「前処理」→「複合語の抽出」を選択します。

 「KHcoder」には複合語を抽出する機能が2種類あります。
・「TermExtractを利用」
・「茶筌を利用」のどちらかを選択します。
 「茶筌」とは辞書の選択場面に登場した「ChaSen」のことです。

・「TermExtractを利用」でやってみます。

KHcoder TermExtractを利用

 「TermExtractを利用」すると結果が表示されます。

 「サラダ巻」「ツナサラダ」「つぶ貝」「青魚」が抽出できました。残念ながら「まぐろ」は抽出できません。

KHcoder 茶筌を利用

 「茶筌を利用」でやってみました。

 こちらの方がいい感じです。「TermExtract」で検出できたの4語にくわえて「たまご」「フライドポテト」を検出できました。

 それでも「まぐろ」は抽出できません。

 「TermExtractを利用」「茶筌を利用」のどちらがよいのか?というと、はっきりとした結論はありません。両方を試してみることをオススメします。

結果を保存します
KHcoder 全複合語のリスト

 茶筌のほうがいい感じなので茶筌の抽出語を保存します。

・画像のように内容をドラッグして、右下の「コピー」をクリックする方法
・そのままの状態で左下の「全複合語のリスト」をクリックする方法があります。

 保存は「全複合語のリスト」の方が簡単です。
・「全複合語のリスト」をクリックするとエクセルが起動し、このようなエクセル表ができます。

 エクセルの上部に表記されているファイル名をちょっと覚えておきます。
・内容を確認したらエクセルを閉じます。

自動保存されたファイルを確認する
KHcoder 自動保存

 「KHcoder」インストール時にCドライブへ「khcoder3」というフォルダーが作成されています。
 「KHcoder」のショートカットアイコンをクリックすると開くフォルダーです。

・「config」フォルダーを開きます。

KHcoder 自動保存

 エクセルのファイル名と同じ「khc155」というフォルダーがあります。これを開きます。

KHcoder 自動保存

 フォルダー内へ「khc155_hl.xlsx」さきほどのエクセルファイルが自動保存されています。
 ですから保存はコピーして貼り付けて保存するよりも「全複合語のリスト」の方が簡単というわけです。

<エクセルファイル名の違い>
・「khc155_hl.xlsx」→「茶筌を利用」で作成した複合語リスト
・「khc155_hlte.xlsx」→「TermExtractを利用」で作成した複合語リスト

【今回の分析対象テキストはこちらからコピーできます】