【論文解説】因果関係に着想を得たニューラルネットワークによる、治療的摂動の組み合わせ予測 – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年9月にNature Biomedical Engineering誌に発表された「Combinatorial prediction of therapeutic perturbations using causally inspired neural networks」(因果関係に着想を得たニューラルネットワークによる、治療的摂動の組み合わせ予測) という論文をご紹介します。米国Harvard Medical School大学のMarinka Zitnik (マリンカ・ジトニック)博士が率いるアメリカ、イギリス、スイス、オーストリアの国際チームによる研究です。

忙しい方向けのSummary

創薬において、表現型駆動型アプローチ（Phenotype-driven drug discovery）は、ターゲットが未知の疾患に対して有効な治療薬を見出す上で重要な戦略です。しかし、従来のディープラーニングを用いた手法は、特定の摂動（薬剤や遺伝子操作）に対する細胞の遺伝子発現変化を予測する「順方向」のモデル（Perturbation response prediction）に留まっていました。これらはライブラリ内の摂動を網羅的にシミュレーションして探索する必要があるため、計算コストが膨大であり、かつ未知の組み合わせ（Combinatorial perturbations）を効率的に探索することが困難でした。

本研究で提示された PDGrapher (Perturbagen Discovery Grapher) は、これらの課題に対処するために開発された新しい手法です。PDGrapherは、構造的因果モデル（Structural Causal Model）の枠組みを表現学習に取り入れ、疾患状態から治療（健康）状態への遷移を引き起こすために必要な「最適な治療標的の組み合わせ（Perturbagens）」を直接予測する「逆問題」を解くモデルです。PDGrapherの核となる技術は、タンパク質間相互作用（PPI）ネットワークや遺伝子制御ネットワーク（GRN）を「プロキシ因果グラフ」として利用し、グラフニューラルネットワーク（GNN）を用いて遺伝子間の因果関係（構造方程式）を近似する点にあります。具体的には、疾患状態と目標とする治療状態を入力とし、介入すべき遺伝子セットを予測する「Perturbagen discovery module」と、その介入による応答を予測する「Response prediction module」の2つを、サイクル一貫性損失（Cycle loss）を用いて同時に学習させることで、生物学的に妥当な標的予測を実現しています。

PDGrapherは、scGenやCellOTといった主要な既存手法と比較して、化学的および遺伝的介入を含む19のデータセット（11種類のがん種）において評価されました。その結果、特に未知の細胞株（新しい疾患）に対する予測において、既存手法よりも高い再現率（Recall）とランキング精度（nDCG）を示しました。また、PDGrapherは「順方向」のシミュレーションを繰り返す必要がないため、既存手法と比較して最大25倍高速に学習・推論が可能であることが示されました。

さらに、本手法は非小細胞肺がん（NSCLC）の治療標的探索に応用され、その予測能力が実証されました。PDGrapherは、肺がん細胞株A549において、KDR (VEGFR2) や TOP2A といった遺伝子を有望な治療標的として特定しました。これらの予測は、Open Targets Platformにおけるエビデンススコアや、臨床試験中の薬剤（Pralsetinibなど）のターゲット情報と強く整合しており、PDGrapherが既知の生物学的知見と一致する、あるいは新規の有効な治療標的を提示できることが確認されました。

結論として、PDGrapherは因果推論と幾何学的ディープラーニングを融合させることで、複雑な細胞状態の遷移を制御する治療標的の組み合わせを高速かつ高精度に予測する強力なツールであり、表現型駆動型創薬のスケーラビリティを大きく向上させることが示されました。

コードはこちらで公開されています。

Figureの読み解きポイント

Fig. 1: PDGrapherのモデル概要と学習プロセス. a (Perturbagen discovery) 疾患状態と目標の治療状態を入力とし、状態遷移に必要な治療標的セットを直接予測する「逆問題」モジュールです。b (Response prediction) 予測された標的に介入した際の細胞応答を予測する「順方向」モジュールです。c (Cycle Consistency) サイクルが成立するように学習（Cycle loss）することで、因果的な整合性を担保しています。d 遺伝子ネットワーク上のメッセージパッシングにより、介入（エッジ切断）の影響を伝播させるGNNアーキテクチャを示しています
Fig. 2: 評価設定と既存手法とのアプローチ比較. a (Direct vs Indirect) 既存手法（下段）はライブラリ内の摂動を一つずつシミュレーションして探索する「間接的」手法ですが、PDGrapher（上段）は最適な摂動を「直接」予測するため効率的であることを示しています。b, c (Evaluation Splits) 同一細胞株内で評価する「Random split」（b）と、未知の細胞株で汎化性能を評価する「Leave-cell-out」（c）の2つの設定で検証を行っています。
Fig. 3: 化学的摂動データセットにおける予測性能 (Random split). a, b 9つの細胞株において、PDGrapherは既存手法（scGen, CellOT, ChemCPAなど）と比較し、正解の治療標的を含むサンプルの割合（Accurately predicted samples）およびランキング精度（nDCG）で上回っています。c Recall@1, @10, @100においても一貫して高い再現率を示しており、上位に真の標的をランク付けできています。e 予測された標的遺伝子は、ネットワーク上で真の標的遺伝子と有意に近い距離（Shortest-path distance）にあり、生物学的な妥当性が高いことを示しています。
Fig. 4: 未知の細胞株に対する汎化性能（Leave-cell-out）a, b: 学習時に使用していない細胞株に対しても、PDGrapherはベースライン手法より高い精度で治療標的を予測できており、モデルが細胞株固有のパターンではなく、疾患メカニズムを学習していることを示唆しています。c, d 未知の細胞株に対するRecallやモデル全体のランキング評価でも、PDGrapherが最も優れたパフォーマンスを示しています。
Fig. 5: モデルの堅牢性とアブレーション研究. a学習データに含まれていないFDA承認薬のターゲット（未知の薬剤）についても、PDGrapherは上位に予測可能であることを示しています。b PPIネットワークのエッジを信頼度スコアに基づいて間引き（Sparsityを上げる）、ネットワークが不完全な場合でもPDGrapherの性能が安定していることを示しています。c 損失関数の検証。教師あり損失（Super）とサイクル損失（Cycle）を組み合わせる（SuperCycle）ことで、標的予測と状態再構成のバランスが最適化されることを示しています。d 健康な対照群（Healthy control）データが存在しない場合でも、PDGrapherは治療データのみから学習可能であり、性能が維持されることを示しています。
Fig. 6: 肺がん（NSCLC）におけるケーススタディと生物学的検証. a 肺がん細胞株（A549）などに対し、PDGrapherが予測したトップ10の標的遺伝子をOpen Targetsのエビデンスと照合した結果です。TOP2AやKDRなど、肺がん治療と関連の深い遺伝子が多数特定されています。b 予測された標的のランキング順位と、Open Targetsのエビデンスの強さが相関しており、上位にランクされた遺伝子ほど臨床的・生物学的な裏付けが強いことが確認されました。

手法の概説

データセット

遺伝子発現データとして、LINCS (薬剤および遺伝的（CRISPR/shRNA）摂動による遺伝子発現プロファイル)を使っています。細胞株ごとに、疾患状態（コントロール）と治療状態（摂動後）のペアデータを作成しました。プロキシ因果グラフ (Proxy Causal Graphs)としてはBioGRID および STRINGから取得し信頼度スコアに基づくフィルタリングを実施したPPI (タンパク質間相互作用)と、遺伝子発現データから GENIE3 アルゴリズムを用いて細胞株ごとに推論・構築したGRN (遺伝子制御ネットワーク)を使いました。薬についてはDrugBank から取得し、薬剤と標的遺伝子を対応付けています。

因果推論の枠組み

遺伝子をノード、因果関係を構造方程式（Structural Equations）で表す因果グラフGを想定します。疾患状態から治療状態へ遷移させるために、介入すべき変数セット（遺伝子群）U’を見つけることを目的とします。実際の因果グラフは完全には未知でノイズを含むため、「プロキシ因果グラフ（PPIやGRN）」を用い、GNN（Graph Neural Networks）による表現学習で条件付き確率を近似するアプローチをとっています。

AIモデル構築 (PDGrapher Architecture)

PDGrapherは、GNNベースの2つのモジュールで構成されています。Perturbagen Discovery Module ( $f_p$ )は疾患状態（ $x^d$ ）と治療状態（ $x^t$ ）を入力とし、介入すべき遺伝子セット（ $u'$ ）を予測します。GNNを用いて各ノード（遺伝子）のエンベディングを学習し、多層フィードフォワードネットワークを通じて各遺伝子の「治療標的としてのスコア」を算出・ランク付けします。疾患状態と治療状態の遺伝子発現値を、分位点（Quantile）に基づいてビン（Bin）に分割し、学習可能なエンベディングベクトルに変換して使用します。

これに対しResponse Prediction Module ( $f_r$ ) は疾患状態（ $x^d$ ）と予測された介入（ $u'$ ）を入力とし、介入後の遺伝子発現状態を予測します。GNNを用いて摂動の影響をグラフ上で伝播させていて、その遺伝子に介入するかどうかのバイナリ情報をエンベディング化した摂動フラグと、遺伝子発現値をビン分割してエンベディング化したものを使っています。

モデルの最適化には、 $f_p$ が予測した標的遺伝子が既知の正解データ（実際に投与された薬剤の標的やノックアウト遺伝子）と一致するかを評価するクロスエントロピー損失と、因果的な整合性を保つためのサイクル損失を組み合わせる SuperCycle 戦略が採用されています。

研究のLimitationとPerspective (私見)

本研究の課題は、モデルが依存する「プロキシ因果グラフ（PPIやGRN）」の不完全さと、因果推論のために置かれた強い仮定です。実際の生物学的ネットワークはノイズが多く不完全ですが、本手法はこれらを因果構造の近似として利用しているため、グラフの品質が予測精度に直接影響する可能性があります。また、「未観測の交絡因子が存在しない」という仮定は、複雑な生体システムにおいて検証が難しく、現実の生物学的状況と乖離するリスクがあります。加えて、データセットの性質上、化学的介入（低分子化合物）と比較して、遺伝的介入（CRISPRによるノックアウト）に対する予測精度が相対的に低くなる傾向も確認されており、単一遺伝子の操作では捉えきれない補償メカニズムへの対応も課題と言えます。

それを踏まえたうえで、今後の研究では、遺伝子発現データ（トランスクリプトーム）だけでなく、細胞形態画像（Cell Paintingアッセイなど）を含むマルチモーダルデータの統合が期待されます。画像データを取り入れることで、遺伝子発現だけでは捉えきれない表現型の変化を包括的に解析できるようになり、予測の解像度と信頼性が向上すると考えられます。また数理的な側面からは、未観測の交絡因子を許容するより柔軟な因果表現学習の理論的枠組みが構築されることで、個々の患者データに基づいた個別化医療や、複数の標的を同時に制御する必要がある複雑な疾患の治療戦略立案において、より強力なプラットフォームへと進化すると考えられます。