KHcoder 1. テキストデータ
KHcoderへ読み込む分析対象テキストのファイル形式、KHcoderの仕組みなどのついて解説しています。
テキストマイニングツール「KHcoder」の活用メモ
開発者である樋口先生に感謝!
【今回の分析対象テキストはこちらからコピーできます】
分析対象ファイル形式
分析対象テキストデータファイルの形式
「KHcoder」で分析できるファイル形式
・テキストファイル(.txt)
・CSVファイル(.csv)
・エクセルファイル(.xlsx)(.xls)
×ワードファイル(.docx)は不可
Windowsの「メモ帳」は利用できますが、ファイルの書き換え・新規作成等の作業のときにはテキストエディタが必要になります。
まえもって何かテキストエディタをインストールしておくことをオススメします。
テキストエディタはシンプルで使いやすいもの、OSにマッチしたものを選ぶといいと思います。「秀丸エディタ」「サクラエディタ」(どちらもフリーソフト)といったところが一般的です。
各種ファイル形式のメリット・デメリット
ファイル形式 | メリット | デメリット |
テキストファイル | 分析途中で分析対象テキストの内容を変更できる。 ロード後の外部変数は変更できない。 | 外部変数を設定するのがややこしい。 |
CSVファイル | 外部変数の入力が簡単。 「段落」「文」の整理・管理が容易。 | 分析途中で分析対象テキストの内容は変更できない。 文字化けなど、取り扱いが少し難しい。 アウトプットデータに「—cell—」が残る |
エクセルファイル | 外部変数の入力が簡単。 「段落」「文」の整理・管理が容易。 文字化け等がなく、扱いやすい。 扱いに慣れている人が多い。 複数のシートを活用できる。 | 分析途中で分析対象テキストの内容は変更できない。 アウトプットデータに「—cell—」が残る |
外部変数とは
アンケート、クチコミ、記事等では「段落」または「文」へ外部変数を付与します。
・「男性・女性」のような性別
・「年代」「店舗名」「星の数」等
各「段落」や「文」の属性のことが「外部変数」です。小説や論文等では「章」「段落」などを外部変数として付与します。外部変数を活用して様々な分析が可能になります。
ポイント!:「段落」や「文」へユニークになる通し番号を付与しておくと、あとで役立つことが多くあります。
<アンケートデータサンプル>
好きな食べ物(分析対象テキスト) | 年代(外部変数) |
イチゴ | 10代 |
このようにエクセルやcsvファイルでは列で外部変数を挿入します。
「段落」「文」の整理・管理が容易とは?
「KHcoder」へ分析対象テキストを読み込みした後で、その読み込んだ分析対象テキストを再確認しなければならない場面に遭遇することがよくあります。
・分析結果の検証
・誤字や意味不明「語」の確認
・テキストの並び替え
・外部変数ごとでの抽出 など
これらの作業を行ううえで最も強力な機能がエクセルの「並び替え」と「フィルター」です。
従って「段落」「文」の整理・管理のことを考慮すると「エクセル」がベストなファイル形式です。
・外部変数の付与が容易
・ほとんどのPCにインストールされているので関係者間でデータの交換が容易
・プレゼン資料のデータとして活用できる
エクセルにはこのようなメリットもあります。
分析対象テキストデータは1シートにまとめる
「KHcoder」では複数ファイルを読み込む機能があるものの、ややこしくなるだけなので
・基本的にはすべての分析対象テキストを1ファイル・1シートにまとめます。
KHcoderから分析対象テキストへアクセスしたとき、
・エクセルの場合、読み込むことができるのは1枚目のシートだけです。
2枚目以降のシートをメモや「強制抽出語リスト」等に活用できます。この点で単数シートのCSVファイルよりもエクセルの方が便利だといえます。
ポイント!:アウトプットされるデータもエクセルでまとめると便利です。
「段落」「文」「語」
ファイル形式 | 段落 | 文 | 語 | H5 |
テキストファイル | ↩(エンター)で区切られる | 「。」(句点)で区切られる | 辞書、抽出語等で区切られる | ↩(エンター)で区切られる |
CSVファイル | セルで区切られる セル内↩(エンター)で区切られる | 「。」(句点)で区切られる | 辞書、抽出語等で区切られる | セルで区切られる |
エクセルファイル | セルで区切られる セル内↩(エンター)で区切られる | 「。」(句点)で区切られる | 辞書、抽出語等で区切られる | セルで区切られる |
「KHcoder」分析対象の基本は
・「段落」
・「文」
・「語」
・「外部変数」です。
とくに、アンケートやクチコミは「段」を単位に分析します。テキスト形式はエンターごとに「段」としてカウントされるので注意が必要です。
CSVとエクセルでセル内にエンター↩があるときはどのようになるのか?
エンター↩ごとに「段」としてカウントされます。この場合、H5が1セルに対応します。テキスト形式の場合は常に「段」と「H5」が一致します。
分析対象テキストサンプル
アンケートサンプル
テキスト | 年代 | 性別 | サイト | ID |
イクラ、サーモン、まぐろが好き。 | 10代 | 男 | A | 1 |
好物はたまご、いくら、まぐろ、サーモン。イカは苦手。 | 10代 | 女 | A | 2 |
イクラ、えび、まぐろ。貝は嫌い。 | 10代 | 男 | A | 3 |
イクラ、ウニ、サーモン、フライドポテト | 10代 | 女 | A | 4 |
好きなのはイクラとまぐろ。サバが嫌い。 | 40代 | 男 | A | 5 |
鯛とまぐろが好き。エビはアレルギーがあるからダメ。 | 40代 | 女 | A | 6 |
イカとかエビのようなあっさりしたネタが好き。サバが苦手。 | 40代 | 男 | B | 7 |
ハマチ、ブリ、まぐろ、ツナサラダです。 | 40代 | 女 | B | 8 |
まぐろに限ります。貝類は食べません。 | 60代 | 男 | B | 9 |
まぐろ、サラダ巻とかも好きです。イカは固いので食べない。 | 60代 | 女 | B | 10 |
サンマ、あじ、つぶ貝、サバです。 | 60代 | 男 | B | 11 |
サバ、あじ、サンマのような青魚が体にいい。脂っこいサーモンとかは苦手です。 | 60代 | 女 | B | 12 |
分析対象テキストデータ説明
「テキスト」
分析対象テキストです。左の列(エクセルではA列)へ記載します。「KHcoder」へ読み込む際にはどこの列でも構いませんが、いちばん左へ記載するのがよい方法です。
「年代」「性別」「サイト」「ID」
これらが「外部変数」になります。「外部変数」に数的制限はありません。ただし分析で不要な属性は無い方が賢明です。
「外部変数」が無い場合でも「ID」で通し番号だけは付与しておくと便利です。
「段落」「文」
このサンプルでは1セル(A列の1行ごと)が「段落」です。段落のなかに句点「。」で区切られた「文」が入っています。
分析対象テキスト保管
後戻りができない
「KHcoder」へ分析対象テキストを読み込ませたあとでテキストそのものを修正してもファイル形式がエクセル・CSV形式の場合は再読み込による修正が反映されません。
テキスト形式の場合は可能ですが、「KHcoder」での修正再読み込みというのは、初めからやり直すことと同義でなのす。
テキスト形式であっても、それまでの分析や抽出語などが混ざり合うので基本的に修正再読み込みはしない方がよいです。
後戻りができない理由
「sushi.xlsx」を「KHcoder」へ読み込ませました。
ディレクトリ内へ読み込んだデータがへ2つのファイル形式で自動で作成されます。
「KHcoder」で既存プロジェクトを開くときに、これらのファイル(「sushi_txt0.txt」「sushi_var0.txt」)を読み込む仕組みになっています。
・「sushi_txt0.txt」
「KHcoder」へ読み込んだエクセルテキストデータのテキスト部分
・「sushi_var0.txt」
「KHcoder」へ読み込んだエクセルテキストデータの「外部変数」部分
修正した分析対象テキスト(エクセル形式)データを再読込しても、これらファイルが修正あるいは上書きされることはありません。
もちろんこれらファイルを移動したり、削除すると既存プロジェクトとして開くことが不可能になります。
分析対象テキストデータは上書保存しない
従って、分析対象テキストやその外部変数などを修正したときは
・「新規プロジェクト」を作成します。
実際にこのような修正は必ず発生します。分析対象テキストを修正した場合には、分析対象テキストを上書保存せず別名で保存します。そして「新規プロジェクト」で分析を開始します。
そうすると、新しく「sushi_txt1.txt」「sushi_var1.txt」のファイルが作成されます。古いファイルと新しいものとを混同しないように分析対象テキストデータの保管フォルダーを別にするか、古いファイルを削除することをオススメします。