食中毒統計調査 Tableau Prepでデータを整える

タブロープレップのデータインタープリター機能で複雑な構造になっているデータ表を分析しやすいように整えます。

食中毒統計調査表4

データ出典

政府統計の総合窓口 e-Stat
https://www.e-stat.go.jp/
食中毒統計調査 / 令和元年食中毒統計調査
表4
(こちらから詳細確認・ダウンロードできます)

もとデータの列名の構造に課題があります

　データはエクセルで画像のようになっています。
　A列とB列が分析の項目(ディメンション)です。「魚介類」の「貝類」、「魚介類」の「ふぐ」、粒度にしたがった階層になっています。

　列名が３行にわたって付与されています。
「サルモネラ属菌」のところで説明すると、
・2行目
「サルモネラ属菌」が「細菌」であることを示します。「細菌」のほかに「ウイルス」「寄生虫」「科学物質」などの列名があります。
・3行目
「サルモネラ属菌」「ぶどう球菌」にように具体的な病因物質名です。2行目よりも細かい「粒度」になっているわけです。
・4行目
「事件」「患者」「死者」にわかれています。これはメジャー(Σ)です。

　表から「魚介類」の「貝類」の「細菌」の「サルモネラ属菌」の食中毒事件はゼロです。このようにデータ読むことができます。表の数値を目で追いながら「読む」ことは可能です。小計・総計も記載があるのでよく読めます。
　ところが、この表からグラフのようなビジュアルを作成しようとするとどうでしょうか？

ディメンションとメジャーを明確化する

　もとデータからグラフを作成しようとするときの最大の課題はC列以降の列にディメンションになる「原因物質」が2行にわかれて記載されていること。それに、メジャーになる数値項目がくっついてクロス集計されていることです。
一言でいうと、列名が３行にわたって付与されているところを直す必要があります。

最終的にはこのようなデータ表へ編集します

　画像のように、
・原因食品(2列)に対して原因物質を2列、列指向形式でくっつける。
・「事件」「患者」「死者」がそれぞれメジャーになるように列をつくりクロス集計する。
これでOKです。

タブロープレップの手順

エクセルを少し加工する

　タブロープレップのデータインタープリター機能を使用してデータへ接続するのですが、さすがに、はじめの画像のような状態ではうまく接続できません。すこしだけエクセルを加工します。

＜① 空白行を挿入する＞
　データインタープリターはエクセル・CSVファイルの1枚のシートのなかに複数存在する表へそれぞれ個別に接続する機能です。
　データインタープリターは、それぞれの表の間にある程度の空白セルを認識して「個別の表」だとみなします。経験的に空白セルの数は行・列ともに3個くらいあったほうが良いような感じです。

・もとデータの3行に分かれた項目名の下に空白行を挿入して、8行以下の表がひとつのデータ表でることをタブロープレップへ認識させます。

＜② 空白セルをうめる＞
・もとデータのJ2、J3は空欄でした。ここの空欄を埋めます。
　この作業はあたらしい列名をつくるための準備です。

＜③ あたらしい列名をつくる＞
・2列目、3列目、4列目の列名をすべてくっつけます。
・エクセルの演算子は「&」です。
・半角スペース「” “」を入れます。「”-“」のような記号でもかまいません。

＜④ NULLを０(ゼロ)に置き換える＞
　もとデータには「-」が入っています。このままタブロープレップで接続すると「-」はNULLに置換されます。これは便利な機能なのですが、ちょっと困ることも発生します。

　タブロープレップは列に対する行データがすべてNULLのとき、その列自体を自動的に削除してしまうことがあります。

・エクセルの「検索と置換」機能を使い「-」を０(ゼロ)に置換します。