年次経済財政報告(経済財政白書)第1回
時間軸テキストマイニング!歴代総理大臣が好んで使っていた言葉が見えるのか?
時間軸テキストマイニング
分析の軸
ビジネス分析において最も重要で重宝されるの分析軸は時間なのだろうと思います。
例えば売上高が増加しているとか、減少しているとかの軸は前年対比、前月対比のような時間軸を使用しています。今期の見通し、来季の計画も軸は時間です。
顧客の性別、年代、居住地のような属性も重要な軸なのですが、それらによる嗜好の違いが永遠に固定化されていることはありません。
約30年前、小学生男子が好きなスポーツといえば圧倒的に野球でした。ここのところ野球人気はサッカーに逆転されてしまい、バスケットボールにも迫られている状況にあるようです。結局、属性から導き出される嗜好の違いという結果も時間軸を無視するわけにはいかないわけです。
野球とサッカー
野球とサッカーの人気が逆転したのはいつ頃のことなのでしょうか。
毎年継続的に実施している好きなスポーツを問うアンケートを分析すればわかるのだろうと思います。また、テレビの視聴率、観客動員数、競技人口のような統計を分析することで明らかになるかもしれません。
つまり時間軸で統計数値を分析するということです。
野球人気、サッカー人気をテキストマイニングで明らかにすることができるのだろうか、考えていると・・・思いつきました。
新聞の第1面(スポーツ面ではないほうがよいと思う)30年分が分析対象テキストです。
・野球・サッカーという「語」が出現する回数を日別にカウントします。
・「語」の出現回数を1年単位で集計します。
・年を横軸に設定して「語」の出現回数を棒か折線でプロットすると傾向が見えるはずです。
今回は定期発行されている文書をテキストマイニングするとどんな感じの分析結果を得ることができるのか、その手法を含めてチャレンジしてみます。
分析対象テキスト
出典:「年次経済財政報告(経済財政白書)」(内閣府) (当該ページURL:https://www5.cao.go.jp/keizai3/keizaiwp/index.html)
平成13年度~令和元年度まで19年度分
分析対象テキストにしたのは白書のまとめにあたる「おわりに」の部分のみ
すべて前文と見出しを除きました。
A列が分析対象テキスト、年度、年度を西暦にした数値、昇順のidを外部変数として追記しました。
抽出語分析
抽出語データ
KHcoderで抽出語リストをつくります。
・ツール→抽出語→抽出語リスト(Excel出力)から1列で「語」をエクセル出力します。
抽出語リストから分析対象にする抽出語数を検討します。
タブローからデータソースへ接続します。
・品詞をフィルターします。
KHcoderでは「名詞B」「動詞B」「形容詞B」「副詞B」「否定助動詞」「形容詞(非自立)」を分析対象から除くので、同様にそれらを除くようにフィルターします。
パレート図を作成します。
・抽出語を列シェルフへ
・出現回数を2回行シェルフへドロップして
・出現回数は二重軸にします。
・一方の出現回数へ表計算を追加します。
・プライマリ計算タイプが累計
セカンダリ計算タイプは合計に対する割合です。
・出現回数の形状を棒
・表計算を追加した出現回数の形状は線に設定します。
・ツールバーの「幅を合わせる」を選択してグラフをビュー内に収めます。
・表計算を追加した軸を右クリック、リファレンスラインの追加を選択します。
・0.6、0.7、0.8の3本のリファレンスラインを設定します。
パレート図が完成しました。かなりのロングテールになっています。
2:8の法則で考えてみます。
・出現回数全体の80%を占めるのは2回以上出現する抽出語、1877語になるので多すぎます。
ちなみに
・KHcoderが初期に設定する語数は78語、最小出現回数35回以上です。
これは少なすぎて結果を見てのお楽しみが期待できません。
・70%なら5回771語
・60%なら8回496語です。
いたん8回496語に決めました。
出現場所データ
KHcoderへ戻り
・文書→「文書×抽出語」表の出力→CSVファイルを選択します。
・最小出現回数を8に設定して出力します。
タブローからデータソースへ接続します。
・使用するのは列idと抽出語の各列です。
・すべての抽出語の列をピボットします。
・ピボットのフィールド名を「抽出語」
・ピボットのフィールド値を「出現回数」へ書き換えます。
・idの数値(#)を文字列(ABC)へ変更します。
・タブローから分析対象テキストへ接続します。
・YYYYを年、idを文字列へデータ型変更します。
分析します
年次経済財政報告データ(テキストマイニングの分析対象データ)から
・YYYYを列シェルフへ入れます。
・文書×抽出語データから出現回数を行シェルフへ入れます。
・抽出語をフィルターします。
・「労働生産性」を選択しました。
抽出語の年度ごとの出現回数をみることができます。
データを追加します。年次経済財政報告が発表された日付の総理大臣です。
・総理大臣を色とラベルへプロットします。
・「構造改革」を選択します。
小泉総理の時代を感じます。
>年次経済財政報告(経済財政白書)第2回
>年次経済財政報告(経済財政白書)第3回
>年次経済財政報告(経済財政白書)第4回