令和元年通信利用動向調査 Tableau Prepでやってみる

タブロープレップでデータを整えます。1表を2表へ分割、そしてユニオンで1表まとめるテクニックを紹介しています。

データについて

令和元年通信利用動向調査

＜データ出典＞
政府統計の総合窓口「e-Stat」（https://www.e-stat.go.jp/）
情報通信・科学技術＞通信利用動向調査＞令和元年通信利用動向調査＞世帯全体編＞統計表セット（全22表＋アンケート）を加工して作成

　もとデータです。今回はエクセルシートの「世７表」を使用します。表のD列とE列は使用しません。
　表は、C列の属性、たとえば”世帯主が２０～２９歳の世帯のうちの5.1%に固定電話がある”というデータになっています。表のD列とE列を除いて数値はすべて割合(%)です。

　13行～25行が「世帯主年齢」、27行と28行が「世帯主性別」のように複数行でひとつの束になっていることがわかります。つまり表はひとつのように見えますが、実際には複数のデータ表をタテにくっつけている（ユニオンしている）ものだといえます。

数値の単位が２種類ある

　表の下部には別の数値があります。これは実数（世帯数）です。この表には割合（％）と実数（世帯数）の両方の数値があるわけです。

　表の数値はアンケート調査結果を集計したものです。もちろんアンケートの対象は無作為抽出だと思います。したがって、この表を分析するときに有効な数値は「割合」です。118行以下はいったん削除してもよさそうです。

表を分析できる形式へ整形する

　タブローのデータインタープリター機能をつかって表へ接続します。

＜ディメンション＞
　エクセルのC列のすべての行名がディメンションの内訳になります。同じ行名が複数あるときは集約されてユニーク（Distinct）で表示されます。

＜メジャー＞
　D列～U列のすべての列名がメジャーネームになり（同じ列名があっても集約されません）、列の数値がメジャーになります。
　メジャーはディメンションごとに集計（合計）されるので、「割合」も「世帯数」も数値はすべて合計されます。

　この状態で分析を開始するのは難しそうです。

３ステップで整形できる

① 必要な行だけをとりだす
　必要な数値は「割合」だけです。行間の小見出し的な行も不要です。

② 粗い粒度のディメンションをつくる
　13行～25行が「世帯主年齢」のように複数行でひとつのかたまりになっています。
　「２０～２９歳」、「３０～３９歳」・・・のように複数ある属性をまとめるための新規ディメンションを作成します。現在の属性よりも粗い粒度のディメンションの下に現在のディメンションをぶら下げます。