厚生労働省の公開データと電子カルテのデータ解析を組み合わせることによる可能性

この記事を書いた人
北爪 聖也

株式会社pipon代表取締役。 キャリアはADK(広告代理店)でテレビ広告運用をして残業120時間するが、ネット広告では自分の業務がAIで自動化されていることに驚愕する。そこで、機械学習受託会社に転職し、技術力を身につけた後、piponを創業。現在、製薬業界、大手監査法人、EC業界、様々な業界でAI受託開発事業を運営。

はじめに

われわれが医療機関で診察を受けると、医療機関ではさまざまなデータが作られて保存されます。
日本全体の医療機関と患者の数を考えると、保存・蓄積されたデータは膨大な量となります。
以前は、この膨大な医療データをうまく使いこなせていませんでしたが、近年、デジタル技術の発展に伴い公開医療データを活用して、新しい治療計画や医薬品の開発などにつなげる事例がよく見受けられるようになりました。
公開医療データと一言でまとめましたが、実際はさまざまな医療データベースが作られており、それらを組み合わせてソリューションの開発につなげることが多いようです。
今回は、厚生労働省およびその関係機関で収集するデータベースと、各医療機関に蓄積される電子カルテデータを用いたデータ解析に着目して、その可能性を見ていきます。

公開医療データの内訳

医薬品やウェアラブルデバイスの開発などの際、医療現場で起こっている現実の把握や市場に投入した従来品の治療成績など、データに基づいて検討することはとても大切なことです。
医療データは非常に高度な個人情報であるため、その生データを入手して解析することは困難ですが、法的に問題にならない範囲でその貴重な医療データを活用したいというニーズは盛んです。
そこで、厚生労働省が医療機関からデータを集め、個人情報が分からないように匿名加工してデータベース化し、製薬会社や研究機関などが研究開発に利用できるようにしています。
公開医療データにはさまざまな種類があり、大規模なデータベースが構築されていますので、主な6つのデータベースを紹介します。

1) レセプト情報・特定健診等情報データベース(NDB)

NDBとは、匿名化処理したレセプト(診療報酬明細書)データと特定検診データを格納したデータベースで、100億件以上ものデータが収集されています。
匿名化処理がされているもののNDBの利用は公的機関に限られており、民間企業には解放されていません。
NDBのデータを汎用性の高い集計表にまとめた「NDBオープンデータ」が厚生労働省から公開されており、だれでも閲覧できるのでわれわれはこのオープンデータを使うことになります。

2) 診療群分類包括評価(DPC)データベース

DPCデータとは診療情報の全国統一データのことで、診療録情報、出来高レセプト情報、包括レセプト情報、看護情報で構成されています。
DPCデータは疾病の統計情報や重症度、医療看護の必要度など事務部門の実務だけでなく、疾病ごとの医療資源投入量の標準化や効率化、平均入院日数の管理といった経営管理にも生かすことができます。
ただし、各医療機関のDPCデータを集約したDPCデータベースの利用は公的機関に限られており、われわれは厚生労働省が公表している集計データを使って解析することしかできません。

3) 介護関連データベース

近年、介護に対するニーズは非常に高まっており、科学的な裏付けに基づく介護を実現すべく、介護関連の各種データベースが整備されています。

・介護保険総合データベース
介護保険総合データベースとは、利用者の市区町村や、介護保険レセプト情報、要介護認定データなどを統合して、匿名化した上で格納されたデータベースです。
介護保険データの提出は義務化されており、全保険者から収集されています。

・通所・訪問リハビリテーションデータ収集システム(VISIT)
VISITとは、通所・訪問リハビリテーション事業所から、リハビリテーション計画書などのリハビリテーションに関する情報を収集してデータベース化したものです。
介護保険データベースとは異なり、任意で収集されている情報ですが今後は積極的に収集を拡大していく予定とのことです。
VISITでデータを提出している事業所には、「リハビリテーションマネジメント加算(IV)」が適用されます。

・科学的介護​データベース(CHASE)
CHASEは介護のサービス、利用者の状態、利用者の情報を集めて蓄積しデータベース化したものです。
CHASEでは、介護保険総合データベースやVISITではカバーできなかった細かな情報も収集しています。
当初、200以上もの項目を入力する予定でしたが、現場での入力負荷の増大などが懸念されたため、基本的な30項目に絞って収集されています。

4) 人口動態調査データベース

人口動態調査とは、人口動態を把握して各種政策の基礎資料を作ることを目的とした調査で、統計法に基づく基幹統計調査に位置づけられています。
人口動態調査では、一人の女性が一生の間に生む子どもの数を表す合計特殊出生率や死因別の死亡数、年齢別の婚姻・離婚件数などの情報を、都道府県や保健所などの単位で毎月提供しています。
このデータベースは、総務省がまとめる人口推計や厚生労働省がまとめる生命表など他の統計や政策に生かされたり、研究機関や民間企業で幅広く利用されたりしています。

5) 医薬品副作用データベース

医薬品副作用データベースとは、医療機関や製薬会社から厚生労働省に報告された医薬品や医薬部外品などが原因と推定される重い有害事象報を、医薬品医療機器総合機構がデータベース化したものです。
しかし、保管されているデータは自発的に報告されたもののみであり、副作用が発現してい
ない症例が含まれていないため、副作用の発現率が算出できないという弱点があります。
そのため、公開されている情報にもかかわらずその活用事例はあまりありません。

6) 全国がん登録データベース

全国がん登録データベースとは、病院でがんと診断されたすべての人の診療データを、国で1つに取りまとめて集計・分析・管理しているデータベースです。
全国どこの病院で診断を受けても、がんの診断を受けた人のデータは都道府県に設置されたがん登録室経由で集められて、国のデータベースで一元管理されています。
集められた情報は日本のがんの実態を示すもので、わが国のがん対策や都道府県の地域医療計画に活用されています。

電子カルテデータとの組み合わせの可能性について

各医療機関では電子カルテシステムの導入が進んでおり、電子カルテデータを使ってさまざまなソリューションが開発されています。
ただし、電子カルテデータは基本的にその医療機関のみの情報のため、ある程度規模の大きい医療機関のデータでないと、バリエーションが少ないという問題があります。
しかし、公開医療データと組み合わせて解析することで、他の医療機関の事象も取り入れることができ、汎用性と精度の高いアウトプットを出せることが期待できます。
例えば、電子カルテにフリーテキストで記載されている退院サマリには、病名、手術・処置名称、入院期間、入院時経過、退院時処方など、多くの情報が記載されているので、テキストマイニングが可能です。
退院サマリのテキストマイニングで疾患別の重要語を抽出し、退院サマリの文章から疾患名を特定できるか、DPCに登録される病名と比較検討する研究などが行われています。
さて、電子カルテデータは公開データとして利用するのは難しかったのですが、最近は医療情報データベース「MID-NET」が整備されています。
MID-NETは全国10拠点の協力医療機関と連携し、530万人を超える規模の医療情報(電子カルテ、レセプト、DPCデータ)を収集・解析することが可能で、副作用の解析といった医薬品の安全対策などに活用できます。
データの信頼性を確保するために品質管理計画を立て、データの品質を維持するための活動を継続的に実施しているので、非常に質の高いデータベースと言えます。
MID-NETを使えば、電子カルテ情報とDPCデータを組み合わせて、リアルワールドの集団で有害事象リスクを既承認医薬品と比較して定量的に評価するなど、これまでのしくみでは実現が難しかったアウトプットを生み出すことができ、医療データ解析の可能性が広がることが期待されます。

おわりに

今回は、厚生労働省が公開するデータベースと、電子カルテデータを組み合わせて解析することの可能性を見てきました。
民間企業がアクセスするにはハードルの高いデータベースもあり、リアルワールドデータを自由自在に使えるわけではありませんが、公的機関との共同研究などを通して、有効活用できることが期待できます。
また、電子カルテデータもMID-NETで公開が進められており、医療ビッグデータ活用の基盤が整備されつつあります。
医療情報は個人情報の保護を厳しく求められるため、一定の制約が課されることはやむを得ないですが、デジタル技術の進化で個人情報の保護と医療ビッグデータの有効活用が両立できるようになることを期待しましょう。

参考サイト

医療ビッグデータの研究利用その現状と課題

【徹底解説】CHASE(チェイス)って一体何?科学的介護ってどういうこと?データ化で介護の未来が変わる!

電子カルテデータ二次利用の現状と課題