毎月勤労統計調査

毎月勤労統計調査

毎月勤労統計調査 再集計値

影響があったデータ

 2019年1月23日、政府統計の総合窓口(e-Stat)(https://www.e-stat.go.jp/)に、いま話題になっている毎月勤労統計調査の再集計値が掲載されました。これまでの公表値と再集計値の違いについて分析してみました。
 その前に、 同年1月11日付、厚生労働省のプレスリリース「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」(https://www.mhlw.go.jp/content/10700000/000467631.pdf)が発表されていますので、今回の騒動の概略について確認します。

平成16年から平成29年までの調査分の「きまって支給する給与」等の金額が、低めになっているという影響がありました。(2ページから抜粋)

 このように記載されています。「きまって支給する給与」の額が従来の公表値と今回の再集計値との差異で最も大きい部分であることがわかります。それでは、「きまって支給する給与」等の金額が、なぜ低めになっていたのか?なぜ判ったのか?どれくらいの額が低めになっていたのか?低めになっていた額の算出方法は?これらの疑問がわいてきます。

なぜ低めになっていたのか

同プレスリリースに「調査の実態」と題して次のような記載があります。

全数調査するとしていたところを一部抽出調査で行っていた

統計的処理として復元すべきところを復元しなかった

 全数調査をすべきところを平成16年(2004年)以降、東京都の500人以上規模の事業所に関して抽出調査をしていたということで、これは報道で大きく取り上げられている箇所です。

 統計的処理をしていなかったというのは平成29年(2017年)までは抽出データであるにもかかわらず、全数データとして取り扱っていたというものです。

 そもそも全数調査ですから統計的処理は不要なのではないでしょうか?このように思いますが・・・
 もともと「復元すべきところ」が無いはずのデータですからこのような表現に違和感をおぼえます。

 平成30年(2018年)は、抽出データであることを認識しそれを前提にした統計処理(復元)を行っていたのでしょうか。平成30年よりも前から統計的処理を行っていれば良かったと主張しているように受け取られても仕方がない表現だと思います。

 結局、平成16年(2004年)以降の全数データは存在しないわけですから、つまり、今回発表されている再集計値はあくまでも計算値であるということです。
 これから東京都の全数調査が再開されれば再集計値の正確性を検証できるのだろうとは思います。

なぜ判ったのか

総務省の指摘

総務省から平成30年12月に全数調査の「500人以上規模の事業所」において平成29年と平成30年に数値の不連続がある旨の指摘があり

プレスリリースにはこのように記載されています。

データで確認

 出典
政府統計名:毎月勤労統計調査
提供統計名:毎月勤労統計調査 全国調査
提供分類1:長期時系列表
提供周期:月次
データ名:実数・指数累積データ(従来の公表値)
<抽出内容>
識別符号:E1M(月次)
年月:2000年~2019年
集計産業:TL(トータル)
事業所規模:4(500人以上)
就業形態:00(就業形態)
データ数値:一人平均月間所定内給与額

 数値は統計的処理を開始した2018年に突然大きく上昇します。総務省が指摘したのはこの部分、2018年1月以降のとそれ以前の連続性のことだろうと想像できます。あくまでも想像ですが・・・

 そもそも抽出データに切り替えた2004年に大きく低下しています。もしも2004年の変動が抽出データに切り替えたことによるものであるなら、ここで気付けばよかったのですが、残念ですね。
 2009年にも大きく低下しています。2008年9月にリーマンショックがあったからでしょうか。2015年も大な低下ですが、2014年4月から消費税率が変更になったからでしょうか。さらにあたらしい「調査の実態」が明らかになるのはゴメンですね。

 毎月勤労統計は2~3年のスパンで標本サンプルを入れ替えています。調査対象企業または統計対象にするデータを定期的に入れ替えます。

 標本サンプルを入れ替えるタイミングで「きまって支給する給与の入替え前後の集計結果の差」が発生します。厚生労働省が作成した「毎月勤労統計:賃金データの見方」(https://www.mhlw.go.jp/toukei/list/dl/maikin-20180927-01.pdf)によると標本サンプルを入れ替えたのは、2007年、2010年、2012年、2015年、2018年のそれぞれ1月です。しかし、500人以上規模の事業所は「全数調査」ですから標本サンプルの入れ替えによる影響はゼロです。従って500人以上規模の事業所の数値が12月から1月のあいだに大きく変動しているところには何かがあるのだろうと想像できます。

どれくらいの額が低めになっていたのか

再集計値との比較

  出典
政府統計名:毎月勤労統計調査
提供統計名:毎月勤労統計調査 全国調査
提供分類1:長期時系列表
提供周期:月次(https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00450071&tstat=000001011791&cycle=1&tclass1=000001035519&second=1&second2=1
データ名:共通事業所データ 実数(5人以上)
就業形態:計
産業分類:TL調査産業計

 再集計値はあくまでも計算値であって、全数データにもとづいて再計算したものではないことは前提ですが、プレスリリースにある通り再集計値が従来の公表値を上回る推移になっています。

 再集計値と従来公表数値との差をグラフにします。平成29年までは差が広がり続けます。この状態を踏襲し続ければ差が将来に向けて加速度的に広がることがわかります。平成30年(2018年)1月以降は、これまで約1400円位の差が約700円位まで縮小しました。これが平成30年(2018年)からはじめた統計処理(復元)の効果です。

低めになっていた額の算出方法は

統計的処理の方法(復元の有無)の差により生じていると考えられるかい離幅を、かい離が生じた平成16年の公表値に機械的に加えるという考え方に基づき、遡り試算が可能な平成24年から平成29年までの「再集計値」と公表値のかい離幅の平均(0.6%)を平成16年の公表値に加え、それ以降の平成17年から平成25年3月までの期間は公表値の伸び率に合わせて推計しました。

 私的にはパッと理解できないのですが、まず、遡って統計的処理をしたのだろうと思います。
 なぜ平成24年まで遡ることができるのかはさておいて、平成24年から平成29年までの「再集計値」(統計的処理によるもの)と公表値との差分(0.6%)を平成16年の公表値に加えた(平成16年公表値×1.006)

 平成17年から平成25年3月までの期間は、平成16年を基軸にして算出した毎年の伸び率なのか各年の前年対比なのかは理解できないが、何か伸び率を加えたのだろうと想像できます。

 最後の「推計しました」の主語が何なのか?、公表値×1.006に何か(伸び率)を加えたのか加えなかったのか、とにかく推計したのでしょう。
 平成30年をどうしたのか書いていないのでわかりません。統計的処理をしたものが平成30年の公表値ですから、再集計値と公表値との差異は統計的処理以外に何かを加えたのでしょう。

 推計方法の疑問点は、平成16年以降の全数データではない抽出データから係数を導き出して、全数データではない抽出データに加えていることです。平成16年以前のデータは全数データのはずです。それを参考にしなっかたのかどうか。
  データは「再集計値との比較」と同じ「共通事業所データ 実数(5人以上)」です。再集計値と公表値との両方に近似曲線(線形)を加えました。結局のところ計算方法を理解できませんが、正比例の関係を保つように再集計されています。

その他

 前述の「伸び率」が何なのか気になっています。データには当年と前年があります。2016年1月当年の数値が2017年1月の前年と一致しません。

 公表データには「共通事業所データ 前年比(5人以上)」があり、前年比をどのように算出しているのか?「共通事業所データ 前年比(5人以上)」の前年対比は「共通事業所データ 実数(5人以上)」の(当年-前年)÷当年で算出しているみたいです。そうなると、「共通事業所データ 実数(5人以上)」の前年はどこから来たのか?