KHcoder 8. コーディング

KHcoder 8. コーディング

テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】

コーディング(coding)とは

分類してまとめる

 コーディングとは分析対象テキストに含まれる「語」の意味に従い同じような意味の「語」をまとめることです。表記揺れの吸収は字面が違う同じ意味の語を1「語」に統一します。コーディングは「語」を分類してまとめます。
「サーモン」「まぐろ」「サバ」「アジ」→「魚類」
「サーモン」「イクラ」→「鮭の仲間」
「たまご」「つぶ貝」→コーディングしない
 このように分析者の都合にあわせて分類してまとめます。「サーモン」を「魚類」にするのか「鮭の仲間」にするのかは、分析者が何を分析したいのかにより変わってきます。

マインド分析

 テキストマイニングで最も多用される分析にマインド分析があります。「ポジティブ」「ネガティブ」「ニュートラル」という分類分析です。現在もっともテキストマイニングの分析対象になっているのがネット上での書き込みです。製品のレビューやレストランのクチコミのようなテキストを分析して自社の製品がマーケットからどのような評価を得ているのかを皆さんが調査しています。そこでの調査結果としてポジティブなレビューが何%、ネガティブが何%とか、ネガティブレビューを分析して商品の改善に役立てるとかですね。
 しかし、あくまで個人的な見解ですが、このマインド分析には?疑問符です。というのは、「語」を分析者の都合にあわせて分類してまとめるものですから、どの「語」が「ポジティブ」「ネガティブ」「ニュートラル」なのかの線引きがあいまいになるからです。ネットのレビューのほとんどに星の数がついているので、星の数を外部変数にして分析することをオススメします。

コーディングファイル

マインドを示す「語」

  今回はサンプルテキストに含まれる「語」を「ポジティブ」「ネガティブ」にコーディングします。「ポジティブ」「ネガティブ」のマインドを示す「語」を探します。
「ツール」→「抽出語リスト(Excle出力)」→「抽出語リストの形式」→「品詞別」
抽出語リスト 品詞別
 マインドを示す「語」は、形容詞系、動詞系、副詞系、否定助動詞の「語」に属していることが多いので、そのあたりを重点的にチェックします。
今回は
*「ポジティブ」
「好き」「限る」「いい」「あっさり」「好物」
*「ネガティブ」
「苦手」「嫌い」「ダメ」「固い」「脂っこい」「ない」「ん」
このようにコーディングします。

 ここでマインド分析最大のピンチに陥ります。一般的な分析対象テキスト(ネットのレビューなど)の抽出語の上位に「よい」または「良い」がかならずあらわれます。「よい」「良い」はポジティブであるのか?じつは経験的に約70%は「Good」ではありません。主には「~したほうがよい」「良いわけではない」「よいとは思わない」「よいのだろうか」など、どちらかというとニュートラルからネガティブ寄りに使われている意見がおおいように感じます。日本人の奥ゆかしさなのでしょうか。一方で「ヤバイ」の使われ方ははっきりしてきました。ほぼ「Very Good」ですね。

「語」の確認

KHcoder KWICコンコーダンス
 コーディングするときは「語」の使われ方を確認します。例えば「限る」は「ポジティブ」「ネガティブ」のどちらか?「KWICコンコーダンス」で確認します。

コーディングファイル

テキストで作成します

KHcoder コーディングファイル
テキストエディタを開いて画像のように記載します。

*ポジティブ
好き or 限る or いい or あっさり or 好物

*ネガティブ
苦手 or 嫌い or ダメ or 固い or 脂っこい or ない or ん

はじめの「*」は全角
「or」は半角
スペースも半角です。

「or」:記載した「語」のいずれかを含む
「and」:記載した「語」のすべてを含む
「not」:記載した「語」のいずれかを含まない
このファイルへ名前をつけてフォルダー(どこでもOK)へ保存します。

コーディング確認

「ツール」→「文書」→「文書検索」
「参照」で作成したコーディングファイルを選択します。
「Search Entry」のところへコードが表示されます。
「ポジティブ」か「ネガティブ」を選択して「検索」をクリックします。
KHcoder コーディング確認
 コーディングした「語」を含む「文」が表示されます。内容を確認できればOKです。

失敗する場合
 コーディングファイルに間違いがある可能性が高いです。半角スペースが全角になっていたり、スペースが無かったりすることが原因として多いようです。

【今回の分析対象テキストはこちらからコピーできます】