【医療Kaggleの紹介】前立腺がんを組織のサンプル画像から判別するコンペティション

この記事を書いた人
北爪 聖也

株式会社pipon代表取締役。 キャリアはADK(広告代理店)でテレビ広告運用をして残業120時間するが、ネット広告では自分の業務がAIで自動化されていることに驚愕する。そこで、機械学習受託会社に転職し、技術力を身につけた後、piponを創業。現在、製薬業界、大手監査法人、EC業界、様々な業界でAI受託開発事業を運営。

概要

 前立腺がん(PCa)は世界中の男性がかかるがんのうち2番目にメジャーで年間350,000人以上の死者を出す。死者を減らす鍵はより正確な診断である。PCaの診断は前立腺組織の生検のグレードに基づいて行われる。これらの組織は病理学者によって試験され、グレソングレードシステムによって評価される。今回のコンペでは、前立腺組織のサンプル画像からPCaを検知するモデルを構築し、グレソングレードによる最も広範ながんデータを用いてがんの重症度を推定する。

 腫瘍をランクづけするプロセスは、がんを発見し、その成長パターンによってグレソンパターンと呼ばれるパターンに分類することによって行われる。生検にグレソンスコアが割り振られた後、1から5のISUPグレードに変換される。グレソングレードはPCaに対する最も重要な予後の指標であり、ISUPグレードは患者をどう扱うか決める際に重要である。大きなリスクのあるがんを見逃すリスクと、がんのリスクを過大評価する療法のリスクが存在する。このシステムは病理学者の間で評価が揺れるため、個人の患者への適用には限界がある。不要な治療を行なうことにつながったり、もっと悪い時には、厳しい診断を逃してしまうことになりうる。

 自動化された深層学習のシステムは、PCaの正確なグレーディングを約束している。この課題を主催しているグループが行った独立した2つの研究を含む最近の研究では、このシステムで病理医のレベルのパフォーマンスを得られることがわかっている。しかし、まだシステム・結果を広範にテストしていない。

 訓練データセットは、2つの施設から得た、H&E染色された生検のおよそ11,000枚のスライドから成り立つ。これは入手できる中で最も大きな画像のデータセットで、最も大きな病理学のデータセットの1つであり、業界で最も知られた研究であるCAMELYON 17のデータのおよそ8倍である。さらに、これまでの研究と対照的に、診断用生検画像をフルに使うことができる。泌尿器科医がグレーディングした大きなテストデータを用いることで、コンペの提出結果を、診断の重要な機能を向上させるために役に立つかどうかという視点から評価する。

 なお、評価指標には重み付きカッパ係数(quadratic weighted kappa)を用いる。

周辺知識・技術

・TIFF(Fagged Image File Format)

 今回与えられた画像ファイルはこの形式である。ビットマップ画像を保存するための画像ファイル形式であり、タグという情報を追加することでさまざまな形式のビットマップ画像を扱うことができる。拡張子は”.tif”または”.tiff”である。

・画像処理の工夫

 今回の画像ファイルは解像度が高く空白部分が大きいため、判定に関係ある部分を抽出し拡大して見ることがとても大事である。そのため、必要な部位だけを切り出してタイル状にして使う。

・データ拡張(Data Augmentation)

 元のトレーニングデータセットの変種を作り出していくことでデータ量を拡張させて過学習を抑制する手法である。特に画像処理分野におけるConvolutional Neural Network のトレーニングにうまく作用する。以下のような手法がある。

水平・垂直に画像をシフトする
水平方向・垂直方向に画像を反転させる
回転させる (回転角度はランダムのケースもある)
明度を変える
ズームインする・ズームアウトする
画像の一部をくり抜く、削除する
背景色を変える
背景を置き換える
Mixup・CutMix

・Efficient Net

 CNN (Convolution Neural Network)の1つで、ResNetから複合スケーリング(パーセプトロンの数、レイヤーの数、入力画像の大きさの3つのパラメータを調整すること)により派生したモデルである。パラメータが従来のモデルに対してかなり少なく、それでいて精度が高い。転移学習モデルとして適している。

優勝チームの解法

 まず、データのノイズ除去が重要だった。具体的にはEfficinent Net b1を用いてk分割交差検証を行った。訓練されたモデルを用い、テストデータのうち訓練データからテストデータの結果を予測する。本当の値と予測値が大きく乖離しているものを取り除き、それを『きれいなデータ』とした。その『きれいなデータ』をもとに、Effcinent Net-B0とEfficinent Net-B1を用いて再学習を行った。

参考url

Prostate cANcer graDe Assessment (PANDA) Challenge

PANDA – EDA + Better Visualization+Simple Baseline

Prostate Cancer: In Depth Understanding,EDA ,Model

PANDA concat tile pooling starter [0.79 LB]

[Kaggle]PANDAコンペ参加記

コトバンク TIFF

データサイエンティストの必須スキルをも拡張させる「データ拡張(Data Augmentation)」 を数式なしで概観

2019年最強の画像認識モデルEfficientNet解説