対応分析を六角形ビンで描画する

対応分析を六角形ビンで描画する

KHcoder対応分析

バブルが重なる

KHcoder 対応分析(バブル) KHcoderで抽出語の対応分析をおこないます。今回のデータはKHcoderをインストールしたときにダウンロードされる「kokoro.txt」を使います。最小出現数=45、文書とみなす単位=H5、抽出語×外部変数=「部」、このように設定してバブルで対応分析結果を描画します。
 結果はご覧のように原点付近に「語」が集中するのでバブルプロットが何重にも重なります。原点付近を拡大する機能がありますが、原点付近を拡大すると端の方が重なるし、プロットされる座標のデフォルメ度が増して本来の姿からかけ離れてしまいます。

バブルをやめる

KHcoder 対応分析(ポイント) バブルの設定を外します。プロットの形状が点になります。プロットの重なりは回避できたものの「語」の出現回数であるバブルのサイズを失います。従って視覚的に「語」の出現回数を確認することができなくなります。

 プロットの重なりを回避しつつ、「語」が出現する回数を視覚的に表現したい。プロットの形状を工夫して「語」の出現回数を色で表現すればよさそうです。そこで、タブローの六角形ビンをつかいます。

六角形ビン

六角形ビンとは

 六角形ビンはプロットの密度を色で表現します。六角形の範囲(X軸とY軸に囲まれた六角形の範囲)のなかにプロットポイント(X軸とY軸の交点)が何個あるのかが密度です。プロットポイントが5個ある六角形よりもそれが10個ある六角形のほうが密度が高く、密度が高い六角形をより濃色で描きます。KHcoderにも六角形ビンで描画する機能があります。自己組織化マップです。

 本来、六角形ビンは図形ではありません。ビン=入れ物です。六角形のマス目といったイメージです。
 今回はプロットの密度ではなく「語」の出現回数を色の濃淡に設定します。ですから正確には六角形ビンではなく六角形ビンの機能を使ったビジュアルといったほうがよいのだろうと思います。

データ

 データは対応分析図から抽出できます。右下の「保存」をクリック、CSV形式を選択してディレクトリへ保存します。
KHcoder 対応分析CSV CSVを開きます。A列名が空白になっているので「語」にします。typeは「col」と「row」があります。「col」は抽出語、「row」は外部変数です。「frquency」=「語」の出現回数、「size」=「frquency」をもとに計算されたプロットの大きさ、「X1」=X座標、「X2」=Y座標です。こちらで解説しています。(KHcoder 15. 対応分析(第2回)

タブロー六角形ビン

六角形を登録する

六角形 六角形の画像を登録します。
 保存場所は、「ドキュメント\マイ Tableau リポジトリ\形状」です。

パラメーター

Tableau パラメーター パラメーターをつくります。データ型=整数、現在の値=10、表示形式=自動、許容値=範囲、最小値=5、最大値=50、ステップサイズ=5、このように設定します。最小値、最大値、ステップサイズはプロットするデータによって様々です。決まった値はないので職人芸的感覚と試行錯誤して決定します。

計算式

Tableau HEXBINX 六角形ビンの計算式をつくります。

X軸の計算式
HEXBINX([X1]*[PM1],[X2]*[PM1])/[PM1]
Y軸の計算式
HEXBINY([X1]*[PM1],[X2]*[PM1])/[PM1]
関数の末尾がちょっとだけ(XかY)違います。

 つくっておいたパラメーターを計算式へ埋め込みます。パラメーターでビンをプロットする座標を微調整して六角形が重ならないようにするための工夫です。パラメータなしでも描画できますが、ピッタリとフィットしないことがあります。

描画する

Tableau 散布図 Xを列シェルフへ、Yを行シェルフへドロップします。「語」をラベルへ、typeを形状、sizeを色へ設定します。
Tableau 形状変更 colの形状を登録しておいた六角形へ変更します。
Tableau 六角形ビン パラメータと形状のサイズを調整して、六角形が重ならないように配置します。
Tableau 六角形ビン 色を変えてみたりします。これで完成です。

六角形がよい理由

形状あれこれ 中心からの距離を常に一定にするためには円形がベストです。しかし、プロットどうしが重ならないように配置すると隙間ができます。隙間のポイントが円形のビンに入らない可能性があります。
 四角形は隙間なしで並べることが可能です。ただし、中心から四角形の角にある座標までの距離と、辺にある座標までの距離に大きな差が生じます。
 そこで六角形にすると隙間なしに並べることができて、かつ、四角形よりも中心から角・辺までの距離の差が短くなります。四角形のカドを落としているのため1つのビンの面積が四角形よりも小さくなって、より精密に描画できるメリットがあります。
>KHCODER & TABLEAU