内閣府が進める「AIホスピタル」での医療用語辞書の整備とその活用を解説

この記事を書いた人
北爪 聖也

株式会社pipon代表取締役。 キャリアはADK(広告代理店)でテレビ広告運用をして残業120時間するが、ネット広告では自分の業務がAIで自動化されていることに驚愕する。そこで、機械学習受託会社に転職し、技術力を身につけた後、piponを創業。現在、製薬業界、大手監査法人、EC業界、様々な業界でAI受託開発事業を運営。

はじめに

近年、さまざまな業界で人工知能(AI)を使ったソリューションが開発されており、医療業界でも当たり前のように、AIを採用したソリューションの開発・運用が進んでいます。
例えば、内閣府が中心に進めている「AIホスピタル」プロジェクトが挙げられます。
AIホスピタルは、医療の効率化や医療従事者の負担軽減を目指し、AIやIoTの技術を使ってさまざまな技術やサービスを開発するプロジェクトです。

AIホスピタルの中に、医師や看護師が作成に多くの時間を割いている各種記録について、書類や会話の内容をAIが記録することで、患者と向き合う時間を増やそう、という取り組みがあります。
その取り組みではAIが医療用語を正しく認識できるよう、医療に関する専門用語の辞書の整備を進めていますが、非常に大変なのが実情です。
医療業界におけるAIの活用においては、この専門用語が壁になっている一面もあるので、今回は医療用語に関する辞書の整備状況とその活用について見ていきます。

医療用語の標準化の難しさ

政府はAIをデジタル社会の「読み・書き・そろばん」と位置づけ、デジタル人材の育成を含めて、あらゆる分野でAIの実装を進めようとしています。
医療分野も例外ではなく、ヘルスデータの活用や電子カルテの自然言語処理などでAIの活用が図られているのはご存じでしょう。

しかし、文字情報を扱う自然言語処理に関しては、医療用語は医師によって表現方法が異なり、その標準化が難しいという医療分野に特有の問題があります。

医療分野で自然言語処理に有効なAIを開発するには、まず医療用語のばらつきを排除して医療用語の辞書作りを進めることが必要です。
例えば、指定難病の一つに「バージャー病」という疾患がありますが、「閉塞性血栓性血管炎」や「ビュルガー病」とも呼ばれています。
話し言葉をAIでテキスト変換しようとしても、辞書にない言葉を正確に変換することは困難なので、この場合はいずれかに統一して標準化するか、すべてを同じものと関連付ける必要があります。

同義語を関連付けるために、ディープラーニングにより医療用語の関連性を判断できるようにするなどの取り組みもありますが、多岐に渡ることから簡単にはいかないようです。
また、一つの単語が複数の意味を持つこともあり、これらの言葉をどう統一するかが医療用語の辞書化の難しさです。
仮に医療用語辞書がうまくできたとしても、別の問題が生じます。
医療用語辞書ができると医療現場では辞書に登録された医療用語のみを使う必要があり、医師によっては今まで使い慣れた用語が使えなくなることが想定されます。

医療用語の辞書化が医師にとって負担やストレスになると、医師は医療用語辞書に対して大きな抵抗感を感じることになり、現場への浸透が進まないこともありえるでしょう。
このように、医療用語辞書を作ることだけでなく、現場に医療用語の標準化の重要性を理解してもらう必要があることも、医療用語の辞書化の難しさと言えます。

医療用語辞書を生かした取り組み事例

医療用語の辞書化は難題があるものの、この問題を克服できれば業務の効率化や患者サービスの向上につなげられます。
医療用語をデジタル技術で生かす取り組み例を紹介します。

AIホスピタルの取り組み

冒頭でも触れましたAIホスピタルの取り組みを、詳しく紹介します。

AIホスピタルの概要

AIホスピタルは内閣府が進める、「戦略的イノベーション創造プログラム」の中のプログラムとして取り組まれています。
AIホスピタルでは5つのテーマに分かれて研究が進められており、取り組みテーマの一つである「データ連携基盤の構築」の中で、医療用語辞書の作成とその応用を推進しています。

各医療機関から入手したデータを保管するために、セキュリティレベルの高い医療情報データベースを構築し、そのデータを医療機関やAIベンダーが有効活用することを狙っています。

医療用語辞書の整備

特に言語データのデータベースを有効利用するためには、複雑な医療用語を標準化することが効果的であることから、医療用語辞書の整備を進めています。
このデータベースは医療の現場で使われるさまざまな医療用語をカバーするだけでなく、病気とその原因など複数の要素の関係性を示す情報も含んでいます。
データベースに登録される医療用語は病名、症状、薬剤、患部表現、検査表現、患者表現やその英訳、類義語などです。
そして、辞書に登録された医療用語を、病院での診療情報や各種研究報告などに基づいて関連付けます。
そうすることで、病名や患者の症状から検索すると診断のサポートを行うといったことができるようになります。
また、登録した医療用語を適正に評価できるよう、医療用語集評価委員会を作り、辞書に登録した医療用語の妥当性を確保しています。

医療用語辞書の活用方法

さて、AIホスピタルでは、医療用語辞書を生かした医療の効率化や医療従事者の負担軽減のシステムも研究しています。
現在の医療現場では、医師が診察や処置の記録に膨大な時間を取られることで、書類業務で疲弊したり、診察室で患者ではなくパソコンの画面と向き合う時間が長くなり、患者に不満を抱かせたりといった問題があります。
AIホスピタルにより、このような問題を解決できることが期待されています。
例えば、診察時の医師、看護師、患者の発言を収集し、医療用語辞書と連携させてテキストマイニングで機械学習モデルを作ります。
そして、作成したモデルを使い、病院情報システムや電子カルテの情報も絡めることで診療時の記録を自動で文書化できるシステムを開発しています。
このシステムが実現すれば、医師はカルテを自分で入力する必要がないため、患者としっかり向き合いながら診療できるようになります。
また、このような音声技術を使った診療記録の自動化は、工数をかけずに正確な記録を残せるため、一刻を争う救急の現場でも非常に有効なツールとなり得ます。

認知症診断支援AIプログラム

日本においては、2025年には認知症の患者数が730万に達する見込みであり、超高齢化時代を迎える中、認知症の対策は早急に手を打つべき問題です。
FRONTEO社は認知症の患者をターゲットに、「会話型 認知症診断支援システム」を開発しました。
本システムは言語系AIの技術を活用して、自然な日常会話から認知症をスクリーニングできるシステムです。
認知症と確定診断するまでには、医師と患者の双方に大きな負担がかかりますが、本システムを適用することで、認知症を早期に発見できることが期待されます。

本システムに搭載された「Concept Encoder」というクラウドAIが、医療従事者と患者との会話をテキストデータとして読み込み、会話の内容や用いる言葉の傾向などを解析して認知症のスクリーニングを行います。
本システムは専門医が診察で使うのみに限らず、専門外の医師による使用やオンライン診療などでも使用可能です。

本システムの肝となるAIエンジン「Concept Encoder」は、2018年にFRONTEO社がライフサイエンス分野に焦点を絞って開発した自然言語解析AIです。
自由記述のテキストデータを含む医療データを、エビデンスに基づいて有効に解析したり活用したりすることを目的に開発したもので、特許も取得済みです。
Concept Encoderは収集した言語をベクトルとして扱うので、さまざまな統計的手法を自然言語解析に適用することを可能とします。
また、Concept Encoderは通常の数値データも解析可能で、言語データと数値データを絡めた解析もできるので、非常に使い勝手がよいAIエンジンと言えます。
Concept Encoderで採用している医療用語辞書の詳細は公開されていませんが、Concept Encoderの多彩な機能を考慮すると、かなり精度の高い医療用語辞書を整備したと推測されます。

医療分野向け自然言語処理ツールMedCAT

英文の電子健康記録(EHR)を対象に開発された、オープンソースの自然言語処理ツールがMedicalConcept Annotation Tool(MedCAT)です。
EHRには疾患名、投薬指示内容、検査結果、患者からのフィードバックなど、膨大な医療情報が含まれており、EHRの情報を活用することで新たな価値を生み出すことが期待できます。

EHRの情報は、フリーテキストなど非構造化データであることが一般的です。
データを統計解析や機械学習で使うには、非構造化データのままでは処理できないので、構造化する必要があります。
ここでの構造化とは、表形式に整形されたデータベースに変換することと考えていただいて構いません。
MedCATを使うことでEHR内の情報を整理し、非構造化データを構造化データに変換できるようになります。

具体的には、EHRのフリーテキストをMedCATで処理することで、医療用語のみを検出してくれます。
そして、検出した医療用語をデータベース内の医療用語とリンクさせることで、その他の関連する情報を抽出するなどができるようになります。
データベース内のデータとリンクさせる際に、データベース内の医療用語が標準化されている必要となるため、MedCATが使う生物医学データベースには420万を越える標準化された医療用語が保管されています。

おわりに

今回は、医療用語辞書に着目して、その活用方法まで含めてまとめました。
AIを使ったソリューションの開発はさまざまな業界で進められており、医療業界でも医療従事者の負担軽減や患者の満足度向上のための切り札として、さかんに研究されています。
特に、自然言語処理は医療業界で注目を集めている技術であり、その基本である医療用語の標準化は難しい問題ですが、解決しなければならない課題でもあります。
今後、医療用語辞書がどのように整備されていくか、その活用方法を含めて注視しましょう。

参考サイト

内閣府が掲げる「AIホスピタル」プロジェクトとは?

SIP第2期 AIホスピタル事業の紹介

AIホスピタルによる高度診断・治療システム

AI活用求められるが…医療分野に立ちはだかる特有の壁

医療AIの最新活用事例とは?医師が解説【2021年版】

AIホスピタルシンポジウム発表資料

会話型 認知症診断支援AIプログラム

MedCAT | はじめに—電子健康記録の分析