KHcoder 8. コーディング
コーディングファイルのつくりかた、使用方法について解説しています。コーディングと表記揺れの吸収は別物ですよ!
テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】
コーディング(coding)とは
分類してまとめる
コーディングとは分析対象テキストに含まれる「語」の意味を吟味して、同じような意味の「語」を1つのコードにまとめることです。
表記揺れの吸収は字面が違う複数の語を1「語」へ置き換えます。コーディングは「語」を意味で分類し、まとめるのであって置き換えではありません。
<コーディング>
「サーモン」「まぐろ」「サバ」「アジ」→「魚類」
「サーモン」「イクラ」→「鮭の仲間」
「たまご」「つぶ貝」→コーディングしない
このように「語」を分析者の都合にあわせて分類してまとめます。「サーモン」を「魚類」にするのか「鮭の仲間」にするのかは、分析者が何を分析したいのかにより変わってきます。
マインド分析
テキストマイニングで最も多用される分析にマインド分析があります。
「ポジティブ」「ネガティブ」「ニュートラル」という分類分析です。
現在もっともテキストマイニングの分析対象になっているのがネット上での書き込みです。
製品のレビューやレストランのクチコミのようなテキストを分析して自社の製品がマーケットからどのような評価を得ているのかを皆さんが知りたいと考えて調査しています。
そこでの調査結果としてポジティブなレビューが何%、ネガティブが何%とか、ネガティブレビューを分析して商品の改善に役立てるとかですね。
しかし、あくまで個人的な見解ですが、このマインド分析には?疑問符です。
というのは、「語」を分析者の都合にあわせて分類してまとめるものですから、どの「語」が「ポジティブ」「ネガティブ」「ニュートラル」なのかの線引きがしもそもあいまいになるからです。
ネットのレビューのほとんどに星の数がついているので、星の数を外部変数にして分析することをオススメします。
コーディングファイル
マインドを示す「語」
今回はサンプルテキストに含まれる「語」を「ポジティブ」「ネガティブ」にコーディングします。「ポジティブ」「ネガティブ」のマインドを示す「語」を探します。
・「ツール」→「抽出語リスト(Excle出力)」→「抽出語リストの形式」→「品詞別」
マインドを示す「語」は、形容詞系、動詞系、副詞系、否定助動詞の「語」に属していることが多いので、そのあたりを重点的にチェックします。
今回は
*「ポジティブ」
「好き」「限る」「いい」「あっさり」「好物」
*「ネガティブ」
「苦手」「嫌い」「ダメ」「固い」「脂っこい」「ない」「ん」
このようにコーディングします。もちろん「あっさり」がポジティブに属するのか、ネガティブなのかの判断には私見が入らざるを得ません。
ここでマインド分析最大のピンチに陥ります。
一般的な分析対象テキスト(ネットのレビューなど)の抽出語の上位に「よい」または「良い」がかならずあらわれます。
「よい」「良い」はポジティブであるのか?じつは経験的に約70%は「Good」ではありません。
主には「~したほうがよい」「良いわけではない」「よいとは思わない」「よいのだろうか」など、どちらかというとニュートラルからネガティブ寄りに使われている意見がおおいように感じます。日本人の奥ゆかしさなのでしょうか。
一方で「ヤバイ」の使われ方ははっきりしてきました。ほぼ「Very Good」ですね。
とりあえず「良い」は素直にポジティブとして話をすすめます。
「語」の確認
できるだけ客観的に判断するためにコーディングするときは「語」の使われ方を確認します。
例えば「限る」は「ポジティブ」「ネガティブ」のどちらか?「KWICコンコーダンス」で確認するのがよい方法です。
コーディングファイル
テキストで作成します
テキストエディタを開いて画像のように記載します。
*ポジティブ
好き or 限る or いい or あっさり or 好物
*ネガティブ
苦手 or 嫌い or ダメ or 固い or 脂っこい or ない or ん
はじめの「*」は全角
「or」は半角
スペースも半角です。
・「or」:記載した「語」のいずれかを含む
・「and」:記載した「語」のすべてを含む
・「not」:記載した「語」のいずれかを含まない
このファイルへ名前をつけてフォルダー(どこでもOK)へ保存します。
コーディング確認
・「ツール」→「文書」→「文書検索」
・「参照」で作成したコーディングファイルを選択します。
・「Search Entry」のところへコードが表示されます。
・「ポジティブ」か「ネガティブ」を選択して「検索」をクリックします。
・コーディングした「語」を含む「文」が表示されます。
内容を確認できればOKです。
<失敗する場合>
コーディングファイルに間違いがある可能性が高いです。
・半角スペースが全角になってる
・スペースが無かったりすることが原因として多いようです。
【今回の分析対象テキストはこちらからコピーできます】