【論文解説】オープンワールド医療画像セグメンテーションのための汎用基盤モデルとデータベース – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年9月にNature Biomedical Engineering誌に発表された「A generalist foundation model and database for open-world medical image segmentation」(オープンワールド医療画像セグメンテーションのための汎用基盤モデルとデータベース) という論文をご紹介します。Guangyu Wang博士のチームが主導し、中国の主要大学・病院と、米国のトップ大学が連携した国際共同研究です。

忙しい方向けのSummary

この研究は、様々な種類の医療画像（CT、MRIなど）から、臓器や病変といった特定の領域を正確に抜き出す「セグメンテーション」という作業を、AIを使って高精度に行うための新しい手法を提案するものです。従来のAIモデルは、特定のタスク（例：肺のCT画像から肺がんを見つける）には強いものの、学習していない未知の画像やタスクに対応するのが苦手でした。また、多くの異なるデータを無理に学習させると、かえって性能が落ちてしまう「負の転移」という問題がありました。この研究の主な貢献は以下の2点です。

MedSegDBの構築: 134のデータセットから収集した167万以上の画像とマスク（正解領域）のペアを含む、大規模で高品質な医療画像セグメンテーション用データベースを構築しました。このデータベースは「MedSegHierarchy」という解剖学的な階層構造（人体→部位→臓器など）で整理されており、データの管理や拡張が容易になっています。
MedSegXモデルの提案: 上記のデータベースの階層構造を「文脈知識」として活用する、新しい基盤モデル「MedSegX」を開発しました。このモデルは「ConMoAE (Contextual Mixture of Adapter Experts)」という仕組みを持ち、タスクに応じて最適な専門家（Experts）の知識を組み合わせることで、「負の転移」を防ぎ、高い精度を実現します。

性能評価では、学習データと似た条件（ID）、学習した施設やタスクとは異なる未知の条件（OOD）、そして実際の臨床データ（Real-world）を用いて徹底的な検証が行われました。その結果、MedSegXは既存の主要なモデルと比較して、あらゆる条件下で優れた性能を示し、特に未知のデータに対する汎用性や、少量のデータで効率よく学習する能力が高いことが実証されました。さらに、この手法を3D画像にも拡張し、その有効性を確認しています。

コードはこちらにあります。

これまでの研究とその課題の概要

医療画像から臓器や病変を正確に抜き出す「セグメンテーション」は、診断や治療方針の決定に不可欠な技術です。U-Netに代表される従来のAIモデルは、特定のタスク（例：特定の臓器のCT画像だけをセグメンテーションする）においては、人間の専門家と同等かそれ以上の非常に高い性能を発揮し、大きな成功を収めました。

近年、一つのモデルで様々な臓器や画像の種類に対応できる「万能（ジェネラリスト）モデル」の開発が進んでいます。特に、自然言語処理などで成功した「基盤モデル（Foundation Model）」の考え方を応用し、膨大なデータで学習させた大規模なモデル（SAMなど）が登場し、その可能性が注目されていました。しかし、これらの既存研究には、実用化に向けた大きな壁がありました。従来の「専門家」モデルは、学習したタスク以外には全く対応できないという根本的な課題がありました。新しい種類の画像や病変を扱うには、その都度新しいモデルを一から開発する必要があったのです。「万能」を目指すモデルでは、様々なデータを無秩序に学習させると、かえって個別のタスクの性能が落ちてしまう「負の転移」という現象が問題でした。無関係なデータの知識が、特定のタスクを解く際に”ノイズ”となってしまったのです。一つのモデルに多種多様なタスクを無理に学習させようとすると、内部でパラメータの奪い合いのような「タスクの競合」が起こり、モデル全体の能力が低下してしまうことも課題でした。さらに、従来のモデルの性能評価は、ほとんどが学習データと似た環境（In-Distribution）で行われていました。そのため、学習した医療施設や機器とは異なる、未知の環境（Out-of-Distribution）のデータに対して、どの程度の性能を維持できるかは十分に検証されていませんでした。

本研究は、これらの課題、特に「負の転移」と「タスクの競合」を抑制し、未知のデータに対する高い汎用性を持つ新しい基盤モデル（MedSegX）を開発することを目指しています。

Figureの読み解きポイント

Figure 1: MedSegDBの構築とMedSegXの全体像 この研究の中核をなす大規模データベース「MedSegDB」とAIモデル「MedSegX」のコンセプトを示した図です。MedSegDBは、放射線医学の専門用語集（RadLex）と専門家の知見に基づき、解剖学的に階層化された（MedSegHierarchy）167万以上の膨大なデータで構成されています。MedSegXは、この階層構造を「文脈知識」として活用する独自のアーキテクチャ「ConMoAE」を搭載しており、タスクに応じて最適な専門家（Adapter Experts）を動的に組み合わせることで高精度を実現します。また、学習データと類似した状況（ID）、未知の状況（OOD）、実臨床（Real-world）という3つのシナリオでモデルを包括的に評価する計画が示されています。
Figure 2: MedSegXの基礎性能評価（In-Distribution）
MedSegXの基本的なセグメンテーション性能を、学習データと類似した環境（ID）で既存モデルと比較した結果が示されています。平均性能、タスクの種類（解剖学的構造 vs 病変）、体の部位、画像の種類（CT、MRIなど）といった、あらゆる条件下でMedSegXが一貫して既存の主要モデルを上回る最高性能を達成しました。特に、複数の領域が重なり合うような曖昧なタスクにおいても他モデルより優れた性能を示し、モデルの頑健性が証明されています。
Figure 3: 未知データへの汎用性評価①（クロスサイトシフト）学習に含まれていない未知の施設で取得されたデータ（クロスサイトOOD）に対する、MedSegXの汎用性を検証した結果です。追加学習なしの状態（Zero-shot）で既存モデルを大幅に上回る性能を示し、非常に高い汎用性を持つことが証明されました。さらに、未知のデータをわずか5%だけ使って追加学習するだけで、他のモデルが全データ（100%）で学習した性能に匹敵、あるいはそれを超える性能に素早く到達しており、極めて高いデータ効率を持つことが示されています。
Figure 4: 未知データへの汎用性評価②（クロスタスクシフト）学習で扱っていない未知の種類の腫瘍をセグメンテーションするタスク（クロスタスクOOD）において、MedSegXの適応能力を検証した結果が示されています。このより挑戦的な課題においても、追加学習なしのZero-shot性能、および少量のデータでのファインチューニング性能の両方で、MedSegXが他モデルを凌駕しました。これにより、MedSegXが未知の病変やタスクに対しても柔軟に対応できる、優れた汎化能力を持つモデルであることが実証されています。
Figure 5: 実臨床データにおける有効性の検証 研究用に整備されたデータセットではなく、実際の病院で収集された5つの異なるデータセットに対するMedSegXの性能を示し、臨床応用への可能性を評価した図です。追加学習なし（Zero-shot）の段階でも他モデルより優れていましたが、ファインチューニングを行うことでさらに性能が向上し、全ての実臨床データセットで最高性能を達成しました。この結果は、MedSegXが研究環境だけでなく、実際の臨床現場の多様なデータに対しても高いパフォーマンスを発揮できる可能性を強く示唆しています。
Figure 6: 3Dセグメンテーションへの拡張と性能評価 MedSegXのアーキテクチャを3Dのボリュームデータに対応させた「MedSegX3D」の性能を検証した結果が示されています。3Dタスクの平均性能、体の部位別、画像モダリティ別（3D CT、MRIなど）のいずれの比較においても、MedSegX3Dが既存の主要な3Dセグメンテーションモデルを一貫して上回りました。これにより、本研究で提案された「文脈知識を活用する専門家混合モデル」というアプローチが、2Dだけでなく3Dの医療画像セグメンテーションにも有効であることが証明されています。

手法の概説

データセットの収集と標準化 (MedSegDBの構築)

まず、The Cancer Imaging Archive (TCIA)やGrand-Challengeなど、様々な公開リポジトリから129の医療画像セグメンテーション用データセットを大規模に収集しました。これに5つの院内データセットを加え、最終的に1,672,275の画像とマスクのペアからなる巨大なデータベース「MedSegDB」を構築しています。収集したデータは、施設や撮影機器によって品質がバラバラです。そこで、AIの学習に使えるよう、統一されたプロトコルで全データを標準化しました。

例をあげますと、全画像のピクセル値を0から255の範囲に揃え、明るさのばらつきをなくしました。複数の臓器が1つのマスクに含まれている場合は個別のバイナリマスクに分割したり、データセット間で同じ臓器の名称が異なっている場合は統一したりして、アノテーションの矛盾を解消しました。画像が欠損しているデータや、アノテーション領域が極端に小さい（100ピクセル未満）データは除外しました。全ての画像とマスクを $256 \times 256$ のサイズにリサイズし、モデルへの入力形式を統一しました。

階層的データベースの設計 (MedSegHierarchy)

単にデータを集めるだけでなく、それらを意味のある形で整理するため「MedSegHierarchy」という木構造の階層を設計しました。これは、米国放射線学会が開発した専門用語辞書「RadLex」を基盤とし、「人体」を頂点に「体の部位 (Body parts)」→「体の亜領域 (Body subregions)」→「臓器・組織 (Organs & tissues)」へと枝分かれする構造になっています。前処理済みの各データセットを、この階層構造における適切な「葉」（末端のノード）に割り当てることで、意味的に関連するタスク（例えば、肝臓関連のタスク群）が自然にグループ化されるようにしました。この階層構造そのものが、後のAIモデルが参照する「知識」となります。

少し詳しい方向けに書くと、これはツリー構造のナレッジグラフとして設計されています。北米放射線学会（RSNA）が開発した標準化された語彙体系であるRadLex (Radiology Lexicon)が採用されており、RadLexから抽出された56の主要な解剖学的用語が、階層構造の基本となるエンティティノードとして定義されています。全ての用語ノードには、一意のRadLex Identifier (RID)がマッピングされており、機械可読性と参照の非曖昧性が確保されています。階層は「人体 (Human body)」をルートノードとし、「体の部位 (Body parts)」「体の亜領域 (Body subregions)」「臓器・組織 (Organs & tissues)」という明確なレベルで構成されています。個別のセグメンテーションタスクは、これらの末端（葉ノード）に配置されます。ノード間の関係性は、主にHas_Part（部分を持つ）とContains（内包する）という2つのセマンティック述語によって定義されています。

AIモデルの設計と学習 (MedSegX)

モデルの土台には、汎用画像セグメンテーションモデルであるSAM (Segment Anything Model) を採用しています。本研究の最大の独創性は、Contextual Mixture of Adapter Experts (ConMoAE) という新しい仕組みをSAMに統合した点です。これは2つの要素から構成されます。1つはHSCEP (階層構造に基づく文脈埋め込み)です。MedSegHierarchyの階層情報（例：人体→胴体→腹部→肝臓→肝腫瘍）を、モデルが理解できる数値ベクトル（文脈エンベディング）に変換します。これにより、タスクの「文脈」がAIに与えられます。もう1つはCMoAN (文脈誘導型アダプター混合ネットワーク)で、複数の小さな専門家ネットワーク（アダプター）を持ち、HSCEPから受け取った文脈に応じて、どの専門家をどのくらいの割合で使うかを動的に決定します。これにより、タスクごとに最適化された「サブモデル」が仮想的に生成され、無関係なタスクの知識が悪影響を及ぼす「負の転移」を防ぎます。

MedSegHierarchyに登録されていない未知のタスクが来た場合でも、解剖学的に最も近い臓器までの階層パスをたどり、タスク層をゼロベクトルにすることで文脈を生成し、推論を可能にする柔軟な設計になっています。モデルはNVIDIA A100 GPUを8基使用して約120時間かけて学習されました。AdamWオプティマイザやコサインアニーリング学習率スケジューラといった標準的な深層学習技術が用いられています。

少し詳しい方向けに書くと、HSCEPがやっているのはMedSegXモデルへの知識注入で、特定のタスク（葉ノード）からルートノードまでのパス情報を文脈エンベディング（contextual embedding）という数値ベクトルに変換し、モデルにインプットします。具体的には、あるタスクが階層構造のどの位置にあるか（例：人体→胴体→肝臓）というパス情報を、学習可能なパラメータベクトルとして表現します。これにより、シンボリックな知識がモデルへの入力として直接供給されます。

CMoANは、Mixture of Experts (MoE) の思想を発展させたもので、複数の軽量な「専門家」ネットワーク（アダプター）と、それらを制御する「ゲートネットワーク」から構成されます。その最大の特徴は、ゲートネットワークが専門家を選択する際に、画像情報だけでなく、HSCEPから受け取った「文脈エンベディング」を条件として利用する点です。ゲートは各アダプターへの重み（貢献度）を計算し、その重みに基づいて全アダプターの出力を線形結合します。この結果が、TransformerのFFN（Feed Forward Network）層に加算されることで、タスクに特化した処理が実現されます。

評価手法

データベースのデータは、In-Distribution (ID) セットと、より挑戦的なOut-of-Distribution (OOD) セット（クロスサイト、クロスタスク）に分割され、モデルの汎化性能が厳密に評価されました。患者IDに基づいて分割し、同一患者のデータが学習用とテスト用に混在しないよう徹底されています。セグメンテーション精度は、主にDice係数（予測領域と正解領域の一致度、1が最大）と95%ハウスドルフ距離 (HD95)（予測領域と正解領域の境界のズレ）という2つの標準的な指標で定量的に評価されました。

この研究のキモはどこ? (私見)

「これまでの研究とその課題」に書いた内容を踏まえ、それを乗り越えトップジャーナルに掲載される大きな研究成果になったのは何かポイントがあるはずです。私見ですが先行研究にはないこのような工夫が挙げられると思います。

この研究の成功のミソは、放射線科医のような人間の専門家が知識を整理し、活用する方法をAIで模倣した点にあります。従来のAIは、ただ大量の画像を”丸暗記”するような学習方法に近く、なぜそのように判断するのか、人間が持つ体系的な知識との関連性が希薄でした。人間の医師は、解剖学の教科書のように体系立てて知識を学びます。この研究におけるMedSegHierarchyの構築は、まさにその「教科書の目次」を作る作業に対応します。まず、医療知識（RadLex）を用いて、全データを「人体→部位→臓器→タスク」という意味のある階層構造（MedSegHierarchy）で整理しました。これは、データに人間が持つ「事前知識」を与えることに相当します。これにより、AIは各臓器や病変が人体の中でどのような関係性にあるのかを体系的に理解します。
AIモデル（MedSegX）の中に、様々なタスクに対応できる小さな「専門家（Adapter Experts）」を多数用意しました。そして最も重要なのが、タスクが与えられると、そのタスクが階層構造のどこに位置するかに基づく「文脈」をAIが読み取り、その文脈に最も適した専門家だけを動的に組み合わせて問題を解く仕組み（ConMoAE）を構築したことです。MedSegXがタスクの「文脈」に応じて適切な専門家（Adapter Experts）を使い分けるのは、専門医の思考プロセスそのものです。つまり、成功の鍵は、AIにただ画像を見せるのではなく、まず医療専門家が持つ「知識の地図」を与え、その地図を頼りに最適な知識（専門家）を引き出す能力をAIに持たせたことにあります。これにより、AIは単なる画像認識ツールから、医療の文脈を理解して判断を下す、より専門医に近い存在へと進化したのです。

研究のLimitationとPerspective (私見)

本研究の課題は、AIの知識が放射線画像に限定されており、診断に必要な多角的な情報を統合できていない点です。現在のMedSegXはCTやMRIから臓器や病変の形状を正確に捉えられますが、がんの悪性度評価や予後予測に不可欠な病理組織（細胞レベル）の情報はまだ扱えません。また、非常に小さな病変の見落としにつながりかねないクラス不均衡の問題も、さらなる改善の余地が残されています。より包括的な診断支援を実現するためには、これらの異なる種類の医療情報を統合し、少数データの問題に対してさらに頑健なアルゴリズムを開発する必要があります。

それを踏まえたうえで、今後の研究では放射線画像と病理情報といった複数のモダリティをAIが統合する「マルチモーダル学習」の導入が期待されます。具体的には、本研究で構築した階層的知識ベース「MedSegHierarchy」に、OncoTreeのような病理学の知識体系を組み込むことが提案されています。これにより、画像からわかる「マクロな形状」と、病理からわかる「ミクロな細胞の性質」をAIが関連付けて学習できるようになります。将来的には、単なる高精度な領域分割ツールを超え、診断、治療方針の決定、さらには予後予測までを支援する、より統合的な臨床判断支援システムへと進化する可能性があります。