年次経済財政報告（経済財政白書）第3回

テキストマイニングした「語」を出現回数と時間軸でクラスタリング。タブローとRの連携方法も解説しています。

年度と出現回数のクラスタリング

年度と出現回数

　前回の投稿では、段落の出現順位（昇順）をidをつかって変数にして、また、抽出語の出現回数をもう一つの変数に設定してPearson(ピアソン)相関係数を算出しました。
　そしてPearson相関係数から年度と抽出語のあらわれかたをビジュアル化しました。（年次経済財政報告（経済財政白書）第2回）

　今回は、年度と出現回数を変数に設定し、そこからクラスターを形成してVIZを作成してみます。

タブローでクラスター形成

　私の記憶ではVer10くらいからでしょうか、タブローにクラスター分析機能が追加されました。この機能をつかえば２軸散布図(変数になるメジャーが２種類)を描きアナリクスペインからクラスターをドロップすることでいとも簡単にクラスター分析をおこなうことができます。ただし変数になるメジャーが２種類のときに限られます。

　しかし諦めることはありません。タブローのR連動機能をつかえば３種類以上のメジャーからクラスターを形成することができるのです。仕組みは画像のように抽出語ごとに2001年度から2019年度までの出現回数を横方向に計算してクラスタリングします。

　まず、マトリクス表をつくります。
・「文書×抽出語」データソースから抽出語を行シェルフへ投入します。
・「年次経済財政報告書」データソースから年度(YYYY)を列シェルフへドロップします。

　今回も名詞系(「名詞」「サ変名詞」「固有名詞」「地名」「未知語」「タグ」)を分析対象するため、
・「抽出語」データソースの品詞でフィルタリングします。
　これで各抽出語がどの年度の何回出現したのかをあらわすマトリクスの完成です。

　ところが、いまのところ横軸が年度ですからディメンションであり変数になりうるメジャーではありません。年度をクラスター分析用の変数としてつかうためには、各年度それぞれを別々のメジャーへ変換する必要があります。

データソースをつくる

　表からエクセルデータソースをつくります。
・「ワークシート」→「エクスポート」→「Excelへのクロス集計」を選択します。

　エクセルが自動で立ち上がります。
・ディレクトリへ名前をつけて保存します。
・名前は「クラスター作成」にしました。

　タブローから「クラスター作成」データソースへ接続します。
　データソースの１行目のセルが結合されているので、
・データインタープリターをチェックして接続します。
・各年度列のデータ形式は数値のままでOKです。

タブローとRの連動

Rへ計算式を送る

　Rを起動します。

#Rのコマンド
library(Rserve)
Rserve()

　パッケージRserveがないときはインストールしてください。パッケージをインストールするときは、Rを管理者モードで起動します。

　タブローでパラメーターを作成します。
・データ型＝整数
・許容値＝範囲、最小値＝１、最大値＝３０、ステップサイズ＝１です。

　このパラメーターでクラスター数を指定して調整します。つまり今回の分析はスラスター数をあらかじめ指定する非階層的クラスター分析です。

　データソースはクラスター作成です。
　Rへ送る計算式をつくります。Rで処理する関数は非階層的クラスター分析「kmeans」です。

#計算式
SCRIPT_INT('set.seed(42);
result &amp;amp;lt;- kmeans(data.frame(.arg1,.arg2,.arg3,.arg4,.arg5,.arg6,.arg7,.arg8,.arg9,.arg10,.arg11,.arg12,.arg13,.arg14,.arg15,.arg16,.arg17,.arg18,.arg19),.arg20[1]);result$cluster;',
SUM([2001]), SUM([2002]),SUM([2003]),SUM([2004]),SUM([2005]),SUM([2006]),SUM([2007]),SUM([2008]),SUM([2009]),SUM([2010]),SUM([2011]),SUM([2012]),SUM([2013]),SUM([2014]),SUM([2015]),SUM([2016]),SUM([2017]),SUM([2018]),SUM([2019]),[cluster_num])