概要
コンペの背景
子宮頸がんは、前がんの段階でわかれば簡単に防ぐことができるので、女性なら誰でもどこに住んでいても効果的な救命治療を受けることができるはずだ。今日では、リソースの少ない環境にいる女性たちが、1回の訪問でがんを発見し治療するプログラムの恩恵を受けている。しかし、このような子宮がん検診・治療プログラムの最大の課題の1つは、専門知識が不足していることもあり、患者の生理的な違いによって異なる適切な治療方法を決定することだ。
特に地方では、子宮頸がんのリスクが高い女性の多くが、子宮頸部の位置の関係でうまくいかない治療を受けている。これは悲劇である。医療従事者は子宮頸がんのリスクが高い患者を特定することができるが、そういった女性のがんを予防する治療法を確実に見極めるスキルを持っていない可能性がある。さらに悪いことに、間違った治療を施すと高額な費用がかかる。ある女性にとって効果的な治療は、別の女性の健康リスクを大幅に増加させ、将来のがんの成長を不明瞭にするかもしれない。
現在、MobileODTは遠隔管理をサポートする品質保証ワークフローを提供しており、医療従事者が地方の環境でより良い治療の判断ができるよう支援している。しかし、子宮頸部のタイプに基づいて患者の治療適格性をリアルタイムで判断できるようになれば、ワークフローは大幅に改善されるだろう。
このコンペでは、インテルはMobleODTと提携し、Kaggleの参加者に画像から女性の子宮頸部のタイプを正確に特定するアルゴリズムの開発を要求している。そうすることで、無駄な治療を防ぐことができ、より高度な治療が必要な場合に医療従事者が適切な照会を行うことができる。
コンペを協賛しているMobileODTについて
MobileODTは、FDA認証されて情報処理能力を持ち、かつ医療機器をベースとした携帯電話にポイント・オブ・ケア法で定着している、あらゆるレベルの医療従事者が患者に専門的なサービスを提供するためのデジタルツールキットであるEnhanced Visual Assesment(EVA)システムを開発し、販売している。生物医学光学のアルゴリズムの力と、携帯電話の計算能力と接続性を組み合わせることで、MobileODTの、接続された、情報処理能力を持つシステムはほとんど全ての環境下でどこでも使うことができる。MobileODTの最初の製品である、膣頸管検査に用いるFAD承認のDVAシステムは、子宮頸がんの女性のための検査と治療、法医学的膣頸管検査の実施のために、アメリカの31の病院と22の国の病院で医療従事者によって使用されている。
評価指標
評価指標にはLog Lossを用いる。
周辺技術・知識
FDA
FDAとは「Food and Drug Administration」の略称で「アメリカ食品医薬品局」のことを指す。1906年に設立された、日本でいう厚生労働省に似た役割を持つ公的機関であり、食品、医薬品や医療機器、化粧品などの販売・流通において、許可や違反品の取り締まりといった行政を専門的に行っている。
ポイント・オブ・ケア法
ポイント・オブ・ケア法とは、一般的に、開業医、専門医の診察室、病棟および外来患者向け診療所などの「患者の近いところ」で行われる検査の総称である。ポイント・オブ・ケア法は、患者が検査を受けに行くあるいは検体を検査に送出するのではなく、患者の近くで検査が行われるので、検査結果を即座に医師が判断し、迅速な処置を施し、治療の過程や予後のモニタリングまで行うという診療の質の向上に大きく役立つ方法として注目されている。
Log Loss
完璧なモデルではLog Lossは0になり、予測値が正解ラベルから離れるほどLog Lossは1に近く。例えば、2値分類で予測の確率値(0~1の間の値をとる)が、0.5付近の値が多いとLog Lossの値は1に近づき、0と1に綺麗に分かれるとLog Lossは0に近く。
バリデーション
トレーニングセットを使って分類器を訓練した後で、その分類器のハイパーパラメータをチューニングすること。
k平均法(k-means clustering)
k-means法はクラスター数Kを事前に決めておき、データポイント全体をK個のクラスターに分割する手法の一つである。
t-SNE
t-SNEは機械学習の教師なし学習の中のひとつで、次元削減を行うアルゴリズムである。確率分布の差異を最小化するように学習を進める。可視化に特化しており、PCAなどと比較してより複雑なデータでも有効に働きやすいという利点がある。
OVR(One-vs-Rest)
あるクラスと残りのクラスに分割して分類するやり方である。 例としてリンゴ、ミカン、バナナの3クラスを分類するために、(リンゴ-その他)、(ミカン-その他)、(バナナ-その他)という3つの分類器を作る。
Confusion Matrix(混同行列)
2 値分類問題で出力されたクラス分類の結果をまとめたマトリックス(行列≒表)のことで、2 値分類機械学習モデルの性能を測る指標として使わる。要素はTP、FN、FP、TNである。
優勝チームの解法・見解
追加データをいかに活用するか、バリデーションのフレームワークをいかにしっかりと持つかというのが主な課題だった。
はじめに気づいたのは、追加データが訓練画像と強い相関関係を持っていることである。各画像を丹念に見ていくと、訓練データセットには1人の患者の最高品質の画像が含まれており、他のすべてのものは追加のデータファイルに入れられていることがわかった。
そのため、バリデーションのデータセットにおける類似画像の漏れを避けるために、以下のようにしました。
1)画像の色のヒストグラムを作成した
2)k = 100のk平均法を使った
3)20個のクラスタを選択してそれをバリデーションに用いた
これは非常に簡単な解決策だが、同種の画像をクラスターに統合することができ、バリデーションのデータセットが訓練用データセットの同種の画像に汚染されるのを防ぐことができた。
参考url
Intel & MobileODT Cervical Cancer Screening
FDAの基礎知識 | FDA認証が必要な商品・取得方法・罰則とは?
次元削減による可視化手法t-SNE(tsne)とは?要点と基本を解説
混同行列(Confusion Matrix) とは 〜 2 値分類の機械学習のクラス分類について
validation strategy that worked (1位チームのDiscussion)