むかしの海岸線を想像する

むかしの海岸線を想像する

地名 字(あざ) 地図データ  地図をみることが大好きです。航空写真をネットで一般的にみることができるようになってからは、ますます楽しくなりました。自宅はもちろん沖ノ鳥島とか何回もみてしまいます。  地図データもかなり整… むかしの海岸線を想像する の続きを読む

年次経済財政報告(経済財政白書)第4回

年次経済財政報告(経済財政白書)第4回

抽出語が登場した時期 甲子園初出場  高校野球甲子園大会で「今回が初出場」、「3年連続5回目の出場」、「10年ぶり2回目の出場」、このような出場校紹介がよくなされます。過去から現在までの甲子園出場校のデータがあって、高校… 年次経済財政報告(経済財政白書)第4回 の続きを読む

年次経済財政報告(経済財政白書)第3回

年次経済財政報告(経済財政白書)第3回

年度と出現回数のクラスタリング 年度と出現回数  前回の投稿では、段落の出現順位(昇順)をidをつかって変数にして、また、抽出語の出現回数をもう一つの変数に設定してPearson(ピアソン)相関係数を算出しました。そして… 年次経済財政報告(経済財政白書)第3回 の続きを読む

年次経済財政報告(経済財政白書)第2回

年次経済財政報告(経済財政白書)第2回

全体的に俯瞰する 前回のVIZ  前回の投稿で、画像のように抽出語をフィルターすることで抽出語の出現回数が時間の経過とともにどのように変化するのかを確認することができました。しかし、このような棒グラフで同時に抽出語の出現… 年次経済財政報告(経済財政白書)第2回 の続きを読む

年次経済財政報告(経済財政白書)第1回

年次経済財政報告(経済財政白書)第1回

時間軸テキストマイニング 分析の軸  ビジネス分析において最も重要で重宝されるの分析軸は時間なのだろうと思います。例えば売上高が増加しているとか、減少しているとかの軸は前年対比、前月対比のような時間軸を使用しています。今… 年次経済財政報告(経済財政白書)第1回 の続きを読む

タブローでデンドログラム(樹形図)を描く

タブローでデンドログラム(樹形図)を描く

クラスター分析 デンドログラムとは  KHcoderで階層的クラスター分析(抽出語)を実行します。最小出現回数=20(語数225)、方法=Word、距離=Jaccard、このように設定しました。クラスター数15の分析結果… タブローでデンドログラム(樹形図)を描く の続きを読む

多次元尺度法を六角形ビンで描画する

多次元尺度法を六角形ビンで描画する

自己組織化マップ風 「語」のクラスター  KHcoderの自己組織化マップと階層的クラスターがよく似ているという記事を前回書きました(KHcoder 25. 自己組織化マップ(第2回))。KHcoderでは多次元尺度法で… 多次元尺度法を六角形ビンで描画する の続きを読む

KHcoder 25. 自己組織化マップ(第2回)

KHcoder 25. 自己組織化マップ(第2回)

自己組織化マップが示すこと 関数「som」  自己組織化マップを作成するためのR関数は「som」です。関数「som」を使用して「語」と「語」の距離を計算します。この距離をもとに「語」をXY座標へプロットし、それぞれの座標… KHcoder 25. 自己組織化マップ(第2回) の続きを読む

KHcoder 24. 自己組織化マップ(第1回)

KHcoder 24. 自己組織化マップ(第1回)

【今回の分析対象テキストはこちらからコピーできます】 自己組織化マップについて チャレンジしてみた  分析対象テキストはこれまで通り「好きなすしネタ」です。集計単位=「段落」(12段あります)、最小出現数=1(32「語」… KHcoder 24. 自己組織化マップ(第1回) の続きを読む

対応分析を六角形ビンで描画する

対応分析を六角形ビンで描画する

KHcoder対応分析 バブルが重なる  KHcoderで抽出語の対応分析をおこないます。今回のデータはKHcoderをインストールしたときにダウンロードされる「kokoro.txt」を使います。最小出現数=45、文書と… 対応分析を六角形ビンで描画する の続きを読む