Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年9月にNature Cancer誌に発表された「An MRI–pathology foundation model for noninvasive diagnosis and grading of prostate cancer」(MRI-病理統合AIモデルによる前立腺がんの非侵襲的な診断と悪性度分類) という論文をご紹介します。泌尿器科学、特に前立腺がんの分子生物学や個別化医療を専門としているShancheng Ren博士と、中国国内の多数の大学・研究機関・病院が連携して行った大規模な共同研究による論文です。
忙しい方向けのSummary
この研究は、MRI画像とAIを用いて、侵襲的な生検(組織を採取する検査)を行うことなく、非侵襲的に前立腺がんの診断と悪性度分類を行うための新しい基盤モデル「MRI-PTPCa」を開発したという内容です。
現在、前立腺がんの確定診断や悪性度の評価は、針生検に大きく依存していますが、サンプリングの限界から手術後の病理診断と結果が異なる(悪性度が上がったり下がったりする)ことがあり、過剰診断や過小診断が課題となっています。
研究チームは、5,500人以上の患者から得られた約130万ペアのMRI画像と病理データをAIに学習させることで、MRI-PTPCaを構築しました 。このモデルを実際の臨床データでテストしたところ、従来の臨床指標(PI-RADSスコアなど)や他のAIモデルと比較して非常に高い精度(AUC > 0.978、悪性度分類の正解率 89.1%)でがんを診断し、その悪性度を予測できることが示されました。
この技術により、不要な生検を減らし、患者の身体的負担を軽減するとともに、より正確な診断に基づいて治療方針を決定できるようになることが期待されます。
コードはこちらにあります。
これまでの研究とその課題の概要
現在、前立腺がんの悪性度を評価する標準的な方法は、針を刺して組織を採取する侵襲的な生検に依存しています 。しかしこの方法には、いくつかの大きな課題がありました。
最大の課題は、生検による診断の不正確さです 。生検は前立腺全体のごく一部を採取するに過ぎないため、手術で前立腺全体を摘出して調べた最終的な病理診断と比べると、21%〜53%もの患者さんで悪性度の評価が変わってしまう(アップグレードまたはダウングレード)という問題が報告されています。これにより、本来は治療の必要がないがんに過剰な治療が行われたり、逆に悪性度の高いがんが見過ごされたりするリスクが生じていました。
一方で、MRIのような非侵襲的な検査も広く使われていますが、これも万能ではありません。MRI画像の読影を標準化したPI-RADSシステムを用いても、医師による評価のばらつきや、偽陽性(がんでないのにがんと疑われる)、見逃しといった課題が残っています 。特に、臨床的に重要な前立腺がんに対する感度は43%と、非侵襲的な診断法としてはまだ不十分なレベルです (Nature Review Urol. 2021)。
このように、生検は侵襲的で不正確さがあり、MRIは非侵襲的ですが精度に限界があるため、患者さんの負担が少なく、かつ悪性度を正確に予測できる、新しい非侵襲的な診断ツールの開発が強く求められていました。
Figureの読み解きポイント
- Figure 1: MRI-PTPCaのコンセプトと研究の全体像
AIモデル「MRI-PTPCa」が、MRI画像から非侵襲的に前立腺がんの診断と悪性度分類を行うという本研究のコンセプトを示しています。MRI検査を受けると、AIがその画像を解析し、がんの確率や悪性度(GGG)を予測したレポートを出力するという一連のワークフローが描かれています。また、このモデルの開発と検証のために、複数の医療機関から大規模な患者データ(学習用1,636人、検証用4,111人)が用いられたことが示されています。 - Figure 2: 研究に使用されたデータセットの構築フロー モデルの学習と検証に使用した患者データセットが、どのように構築されたかを詳細に示したフローチャートです。学習データセット(Training set)のほか、モデルの汎用性を評価するために、異なる期間(a, Time external validation)、異なる施設(a, b, Space external validation)、異なる人種(c, Population external validation)、そして未来の患者(d, Prospective validation)を想定した、複数の独立したテストセットが準備されたことがわかります 。これにより、研究の信頼性と透明性を担保しています。
- Figure 3: MRI-PTPCaの診断・悪性度分類における高い性能 開発されたAIモデルの基本的な性能を、複数の統計指標を用いて多角的に評価した結果です。ROC曲線(a, c, e)では、モデルが前立腺がん(PCa)および臨床的に重要ながん(CSPCa)を極めて高い精度(AUC > 0.97)で診断できることが示されています 。また、混同行列(g)では、手術後の病理診断(True GGG)とAIの予測(Predicted GGG)が高い一致率を示し、悪性度分類の能力も非常に高いことが証明されています。
- Figure 4: 従来の臨床手法に対するMRI-PTPCaの優位性 MRI-PTPCaの性能を、現在の標準的な診断方法であるPI-RADS(MRI読影分類)や生検(Biopsy)と比較した結果です。CSPCa診断において、MRI-PTPCaはPI-RADSよりも有意に高い精度を示しました(AUC 0.957 vs 0.812) 。さらに重要な点として、手術後の病理診断を正解とした場合、生検の悪性度分類の一致率が59.8%であるのに対し、MRI-PTPCaは89.0%という非常に高い一致率を達成しました(h) 。これにより、生検で課題となっている悪性度の過小評価(アップグレード)や過大評価(ダウングレード)を大幅に削減できる可能性が示されています(i)。
- Figure 5: 診断困難な症例におけるMRI-PTPCaの有用性 臨床現場で特に判断に迷うような難しいケースにおいて、MRI-PTPCaが診断精度を向上させることを示した図です。がんの可能性が五分五分とされ判断が難しい「PI-RADSスコア3」の症例において、MRI-PTPCaはPI-RADS単独よりもはるかに高い診断性能を示しました(c)。また、PI-RADSスコアが低い(がんの可能性が低い)ために見逃されるリスクや、スコアが高い(がんの可能性が高い)ために過剰診断されるリスクを、MRI-PTPCaが効果的に低減できることも示唆されています(d, e)。
- Figure 6: AIの判断根拠の解明(解釈可能性)MRI-PTPCaが単なるブラックボックスではなく、医学的に妥当な根拠に基づいて予測を行っていることを示しています。AIがMRI画像のどこに注目しているかを可視化したヒートマップ(c)は、病理医ががんと診断する領域とよく一致しています 。さらに、AIがMRIから抽出した画像特徴量は、実際の病理組織における細胞核の強度(f)、テクスチャ(g)、形態(h)といったミクロレベルの特徴と強い相関があることが示され、AIが画像から病理学的な情報を読み取っていることが裏付けられました 。
- Figure 7: 前向き試験による実臨床での有効性の証明 過去のデータではなく、モデル開発後に新たに来院した100人の患者を対象とした前向き試験の結果です。この試験でもMRI-PTPCaは非常に高い診断精度を維持し、実臨床における有効性が確認されました。特に、生検による悪性度診断でアップグレードやダウングレードが起こった症例のうち、MRI-PTPCaはその52.2%を正しく修正できたことが示されており(f)、診断の精度向上に大きく貢献することが期待されます。
- Figure 8: AIを臨床導入する際の様々なシナリオ分析 MRI-PTPCaを実際の臨床現場でどのように活用できるかを、放射線科医の診断支援ツールとして導入したシナリオで検証した結果です。AIを並行して使用する「パラレルシステム」(a, c)や、読影前のスクリーニングとして使う「レッドフラッグシステム」(b, d)のいずれにおいても、医師の経験年数にかかわらず診断精度と効率(時間短縮)が向上することが示されました 。特に経験の浅い医師ほどその恩恵が大きく、診断能力の均てん化に貢献する可能性も示唆されています。
手法の概説
データセットと前処理
中国の7つの病院から収集された4,699人の過去の患者データ、および世界的な公開データセット(PI-CAI)986人分を統合し、AIモデルの学習と検証に使用しました。さらに、モデルの実用性を評価するため、新たに100人の患者データを前向きに収集しています。
異なる病院やMRI装置によって生じる画像の質のばらつきを吸収するため、前立腺領域を基準とした画像のトリミング、ヒストグラムの標準化、z-score正規化といった前処理を全てのデータに適用しました。
学習データの量を擬似的に増やしモデルの汎用性を高める (データオーグメンテーション) ために、画像のランダムな反転、回転、ノイズ付加などの処理を行いました。
AIモデルのアーキテクチャ (MRI-PTPCa)
まず、BYOL (Bootstrap Your Own Latent, NeurIPS 2020) という自己教師あり学習の手法を用いて、大量のMRI画像からその特徴を効率的に抽出するための「基盤モデル」を事前学習させます。これは、ラベル(正解)なしのデータから画像の本質的な表現を学習する技術で、これにより装置の違いやノイズに強い特徴抽出器を構築できます。
事前学習で得られた特徴抽出器をベースに、最終的な予測を行うためのメインモデルを構築します。このモデルは、T2WI、DWI、ADCといった複数のMRI画像をそれぞれ異なるCNNで処理し、それらの情報をVision Transformer (ViT) というメカニズムで統合して、最終的ながんの悪性度(良性〜GGG5の6クラス)を予測する、という階層的な構造を持っています。
モデルの学習効率と精度を高めるため、JLms (Joint loss under multilevel supervision) という複数の要素を組み合わせた独自の損失関数を設計しました。これは、最終的な予測の正しさ(多クラス交差エントロピー)だけでなく、モデル内部の複数経路から得られる予測の一貫性も同時に評価することで、複雑なネットワークの学習を安定させる工夫です。具体的には、T2WIという基本的なMRI画像だけを見て学習するモデルと、T2WI・DWI・ADCなど全てのMRI画像を駆使し、時間をかけて多角的に判断するモデルがあります。もちろんいろいろな画像を使う複雑なネットワークの方が優秀ですが、情報が多すぎるあまり、訓練の初期段階では間違った方向に考えを深めてしまう「迷走」を起こしがちです。そこで、T2WIしか使わないシンプルなモデルを一種のガイドとして使いそれと大きな矛盾のないように (特に初期では) 学習をすることで、AIモデル全体が間違った方向に進むことなく、安定して賢くなっていくと仕組みになっています。
学習の最適化にはAdamアルゴリズムが用いられ、過学習を抑制するためにドロップアウトや早期終了といった一般的なテクニックが併用されました。
バイオインフォマティクス / 計算病理学
AIの予測根拠を生物学的に解釈するため、デジタル化された病理組織画像(WSI)を用いた計算論的解析が行われました。CellProfilerという画像解析ソフトウェアを用いて、病理画像から細胞核の強度、形状、テクスチャ(模様)といった1000種類以上の定量的特徴量を抽出しました 。さらに、ResNet-100というCNNアーキテクチャを用いて、病理画像からAIベースの特徴量も抽出しました。これらの病理組織の定量的特徴と、AIがMRI画像から抽出した特徴との相関を統計的に解析することで、AIがMRIのどのパターンを、どのような病理学的特徴と結びつけているのかを明らかにしました。
研究のLimitationとPerspective (私見)
本研究の課題は、多施設から大規模なデータを安全かつ効率的に収集・管理することの難しさです。複数の病院間で患者のMRI画像のような機密性の高いデータを転送・保管するには、プライバシー保護や法的な課題が伴います。また、論文で言及されているように、このような高度な基盤モデルの学習には膨大な計算コストがかかる点も、実用化に向けたハードルの一つです。
それを踏まえたうえで、今後の研究ではデータのプライバシー問題を解決する「連合学習(Federated Learning)」の活用が期待されます 。これは、各病院が元のデータを外部に出すことなく、AIモデルだけを共有して共同で学習させる技術であり、今後の大規模な多施設共同研究を加速させると考えられます 。また将来的には、現在のがんのリスク評価だけでなく、MRI画像上で病巣の正確な位置や範囲をピクセル単位で特定する、より高度な機能の開発を目指していけるでしょう。前立腺がんはホルモン応答性が重要になることから、免疫染色の結果とMRIの紐づけも原理的にはできそうです。
これがさらに進展すれば、生検による悪性度の過小評価・過大評価のリスクを低減できるため、手術や放射線治療、経過観察といった治療方針の選択を、より正確な情報に基づいて行えるようになります。これにより、悪性度の低いがんへの過剰な治療や、逆に見逃しによる治療の遅れを防ぎ、一人ひとりに最適な個別化医療の実現に貢献します。
