データ表の形式 (列指向形式発展型)

投稿日: 2020年1月7日 2020年6月25日
投稿者: morita
カテゴリー: エクセル
タグ: データ編集

データ分析しやすい列指向形式ですが、弱点もあります。データ編集方法と分析のときのポイントを解説しています。

列指向形式の弱点

2種類以上の値があるとき

　データをグラフ化するときに列指向形式の方がクロス集計形式よりも圧倒的に勝っていることがわかりました。しかし、列指向形式にも弱点があるのです。

　前回のクロス集計形式へ画像のように「世帯数」と「国政の別-日本人・外国人」を追加しました。クロス集計形式では各値がきっちりとおさまっています。
さて、このクロス集計形式のデータ表を列指向形式へと変換してみます。

どこのセルへ値を入れるのか

　人口の単位は「人」です。世帯数の単位は「世帯」ですからから人口の列へ世帯数を入れこむことはできません。
　従って「世帯数」の列を新規で追加することになります。

　では？どこの行へ値を入れるのでしょうか。性別ごと、あるいは、年齢ごとの世帯数データ値はありません。わかっているのは都道府県の別だけです。
E列の入れ方もF列の入れ方も不正解です。

　E列のように追加すると都道府県で世帯数を集計したときに実際の６倍の世帯数になります。
　F列のように追加すると北海道の男性の15歳未満の世帯数が1,000世帯あるような集計が可能になってしまいます。

列指向Mix形式

　画像のように都道府県の行を追加します。世帯数に性別・年齢の別はいずれにもないので、性別列・年齢列のセルは空白(null)です。
　人口列は違う値ですから空白(null)です。追加した「世帯数」の列と都道府県の行がクロスするセルへ値を入れます。「世帯数」列と性別＆年齢行がクロスするセルは空白(null)です。

　列指向形式にクロス集計形式をくっつけたような形式になるので、個人的に列指向Mix形式と名付けています。見た目がさえない・・・確かにこの表の弱点です。