増大する日本の医療費をデータサイエンスで予測する!

増大する日本の医療費をデータサイエンスで予測する!

現在の日本政府の課題の1つに、増大する医療保険料をどう抑えるか?といったテーマがあります。

 

それらの課題に対して、政府としてビッグデータを活用した医療保険料抑制の動きを加速しています。

具体的には、厚生労働省は2015年度から、すべての健康保険組合に対してデータヘルス計画の作成と実施を求めています。

この動きの背景にあるのは、高齢化や生活習慣病の増加に伴う医療費の高騰が社会問題となっていること。

特定健診やレセプトの情報を活用することで、保険事業をより費用対効果の高いものにしていこうとするのがデータヘルスの狙いだと言われています。

 

では、実際に日本の医療保険料はどのように推移しているのか、厚生労働省のサイトより、過去30年以上にわたる月次の医療保険料の統計情報が

掲載されているので、そちらを確認してみました。

 

■図1:厚生労働省公開データより 医療保険料の月次推移

http://www.mhlw.go.jp/bunya/iryouhoken/iryouhoken14/index.html

図1

このように、日本の物価、少子高齢化などの要因はありつつも、医療保険料は着実に増大の一歩を辿っています。

では、医療保険料は今後どのような推移を辿るのか?予測してみたいと思うのがデータサイエンティストだと思います。

 

今回、あくまでトライアルですが、2013年度迄のデータを元に予測モデルを作成し、2014年度以降を予測するとどうなるか?

いくつかの予測モデルを用いて予測精度の比較を行って見ました。

 

使った手法及びデータとしては以下の通り。

※①、②についてはRのパッケージ、library(forecast)を用いる

①Arimaモデル

  →auto.arima関数によりpred.arimaという名前で予測結果を出力

②Arimaxモデル

  →年度及び月を説明変数としてpred.arimaxaという名前で予測結果を出力

③重回帰モデル

  →年度及び月を説明変数としてpred.regという名前で予測結果を出力

 

上記3つのモデルを元に、モデル構築用のデータ期間も30年間、10年間、5年間、3年間の4パターンで予測を行う。

 

 

■図2:実績と各種予測結果の比較グラフ

医療費予測

全体的に大きく外していることは無いにせよ、例えば2014年11月などは実績金額に対して、より高い医療費予測値を出してしまっています。

このあたり、まだまだ説明変数となるデータが足りないなど、モデル自体の改善は必要なポイントになります。

 

■図3:各種手法、学習期間別のモデル精度(R2係数)

図3

まだまだトライアルなので、全体的な精度はイマイチなところはありますが、一つ言えるのは

30年分のデータがあれば、Arimaxや重回帰モデルのように説明変数が無くても、ある程度の予測精度が出るという事。

また、説明変数を用いた予測モデルの方が、より少ないデータでもある程度の予測精度は維持できる・・という事もあります。

 

データサイエンスを用いて、企業経営、マーケティングだけではなく、国や社会の課題も解決できるように、データサイエンティストの皆さんには是非ご活躍頂きたいと思います。