Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にNature Medicine誌に発表された「Influenza vaccine strain selection with an AI-based evolutionary and antigenicity model」(AIによる進化・抗原性予測モデルを用いたインフルエンザワクチン株の選定) という論文をご紹介します。マサチューセッツ工科大学(MIT)コンピューター科学・人工知能研究所(CSAIL)Regina Barzilay教授が率いるチームによる論文で、機械学習や深層学習を医療分野に応用すること、特にがんの早期診断や創薬に関する研究で知られているチームです。

忙しい方向けのSummary

この論文は、AIを用いてより効果的なインフルエンザワクチン株を予測する新しい手法「VaxSeer」について報告しています。

インフルエンザウイルスは急速に変異するため、現行のワクチンは平均して40%程度の有効性にとどまっています。年に2回、WHO(世界保健機関)の専門家会議が次のシーズンに流行するウイルスを予測し、ワクチン株を推奨していますが、予測は非常に困難です。

そこで研究者たちは、VaxSeerというAIモデルを開発しました。このモデルは、

  • 優勢度 (Dominance): 次のシーズンに、どのウイルス株が最も流行するか(優勢になるか)
  • 抗原性 (Antigenicity): ワクチン候補株が、流行しているウイルス株に対してどれだけ効果があるか

の2つの要素を予測し、「カバレッジスコア」という総合的な指標を算出することでワクチン候補株を評価します。このスコアが高いほど、そのワクチン株は次のシーズンにおいて高い有効性が期待できるということになります。過去10年間のデータを用いてVaxSeerの性能を検証したところ、VaxSeerが選んだワクチン株は、WHOが実際に推奨した株よりも、多くの年で優れた結果を示しました。また、VaxSeerが算出したカバレッジスコアは、現実世界におけるワクチンの有効性や、ワクチン接種によって防ぐことができた病気や医療機関の受診数とも強い相関があることが確認されました。

この研究は、AIがワクチン株の選定プロセスを支援し、将来的により効果の高いワクチン開発に貢献できる可能性を示しています。

コードはこちらにあります。

これまでの研究とその課題の概要

インフルエンザワクチンは、年に2回、WHO(世界保健機関)の専門家たちが会議を開き、次のシーズンに流行しそうなウイルス株を予測して、ワクチンの中身を決定しています。しかし、この方法にはいくつかの大きな課題がありました。ワクチンの製造には6ヶ月から9ヶ月という長い時間がかかります 。そのため、専門家たちはかなり早い段階で流行するウイルスを予測し、ワクチン株を選定しなければなりません。しかし、インフルエンザウイルスは非常に速いスピードで変異していくため、予測の時点と実際の流行シーズンとでは、ウイルスの種類が変化してしまっていることが多く、結果としてワクチンと流行株のミスマッチ(「抗原適合性の不一致」)が起きてしまいます。また、候補となるワクチン株が、将来流行しうる全てのウイルスに有効かどうかを事前に実験室で検証するのは、費用と時間の面から事実上不可能です。そのため、従来の方法では、ごく限られた数の候補株しか詳細にテストすることができませんでした。

Figureの読み解きポイント

  • Figure 1: VaxSeerの動作原理 AIモデル「VaxSeer」が、どのようにして最適なワクチン株を予測するかの全体像が示されています 。このモデルは「優勢度予測器」「抗原性予測器」という2つの柱で構成されています 。まず、流行しているウイルス株の遺伝子配列から、次のシーズンにどの株が流行するか(優勢度)を予測します 。同時に、ワクチン候補株と流行ウイルス株の配列ペアから、ワクチンがウイルスに対してどれだけ効果があるか(抗原性)を予測します 。最終的に、これら2つの予測結果を統合し、ワクチンの総合的な有効性を示す「予測カバレッジスコア」を算出する仕組みが描かれています。
  • Figure 2: VaxSeerの性能評価とWHO推奨株との比較 VaxSeerが選定したワクチン株の優位性を示す性能評価の結果がまとめられています。まず、VaxSeerの評価指標である「カバレッジスコア」が、実際のワクチンの有効性と強い正の相関を持つことが示され、この指標の妥当性が証明されています(a) 。過去10年間のA/H3N2インフルエンザを対象とした後ろ向きの比較では、VaxSeerが選んだ株(VaxSeer)は、WHOが推奨した株(WHO)よりも多くの年で優れたカバレッジスコアを達成しました(b) 。2019年の事例では、WHO推奨株が単一の新しいウイルス群(クレード)のみをカバーしていたのに対し(c) 、VaxSeerが選んだ株はより広範囲の流行ウイルス群をカバーしており(d) 、将来の流行を見据えた的確な選択であったことが示唆されています(e)
  • Figure 3: 予測カバレッジスコアと臨床的インパクトとの関連性 VaxSeerの予測スコアが、実際のワクチンの有効性や臨床的な効果と強く関連していることを示しています。優勢度と抗原性を統合したVaxSeerの予測カバレッジスコアは、どちらか一方だけを考慮した単純な指標よりも、実際のワクチン有効性と最も高い相関を示しました(a) 。また、有効性が高かったワクチン(>40%)は、低かったワクチン(≤40%)に比べて、予測カバレッジスコアが有意に高いことが示され、事前に効果を判別できる可能性が示唆されています(b) 。さらに、このスコアが高いほど、ワクチン接種によって回避できた医療機関の受診数が多くなるという正の相関も確認されており(c) 、この予測が社会的な医療負荷の軽減にも繋がることを示しています。

手法の概説

データセット

VaxSeerモデルの学習には、2種類の公開データが使用されています。

  • 優勢度データ: ウイルスがどれだけ流行しているかを示すデータです。インフルエンザウイルスの遺伝子配列や収集日などの情報を持つ世界最大のデータベース「GISAID」から、39万件以上のインフルエンザウイルスA/H1N1およびA/H3N2のヘマグルチニン(HA)タンパク質配列データをダウンロードして使用しています。
  • 抗原性データ: ワクチンがウイルスにどれだけ効くかを示すデータです。WHOの協力センターであるフランシス・クリック研究所が公開している赤血球凝集抑制(HI)試験の結果をデータソースとしています。このデータは、特定のワクチン(から作られた抗体)がウイルスの働きをどれだけ阻害できるかを示します。

AIモデルの構築

VaxSeerは、「優勢度予測器」と「抗原性予測器」という2つのAIモデルから成り立っています。

  • 優勢度予測器 (Dominance Predictor)の目的は、あるHAタンパク質配列が、将来のある時点でどれくらいの確率(優勢度)で存在するかを予測します 感染症の流行をモデル化するSIRモデルに着想を得た常微分方程式(ODE)を用いて、ウイルスの頻度の時間的変化を表現します数理モデルにおける変化率 と初期条件 という重要なパラメータを、自然言語処理で有名なGPT-2(12層モデル)を2つ用いて予測します 。これにより、タンパク質配列の複雑な特徴から進化の速度を学習します。
  • 抗原性予測器 (Antigenicity Predictor) はワクチンとウイルスのHAタンパク質配列のペアを入力として、HI試験の結果(抗原性)を予測します。タンパク質の多重配列アライメントから特徴を抽出することに長けたMSA Transformer(12層モデル)を用いています 。これにより、2つのタンパク質配列間の微妙な違いが抗原性にどう影響するかを精密に学習します。

VaxSeerが最終的に算出するカバレッジスコア (Coverage Score) は、ワクチン株の有効性を測るための総合指標です予測される各流行ウイルス株の優勢度 () と、そのウイルスに対するワクチンの抗原性 () を掛け合わせ、すべてのウイルス株について合計したものです 。重み付き平均値で、このスコアが高いほど、来シーズン全体に対して効果的なワクチンであると予測されます。

研究のLimitationとPerspective (私見)

この研究はウイルスの遺伝子配列に基づく抗原適合性に焦点を当てていますが、実際のワクチンの有効性には、製造過程や、接種される側の要因も複雑に関わってきます 。また、抗原性の評価は、単一機関が実施したHI試験のデータに依存していますが、この試験法自体がヒトの免疫応答を完全に再現するものではないという限界も指摘されています。

今後の展望として、モデルの適用範囲の拡大が期待されます。 現在のVaxSeerはインフルエンザウイルスのHAタンパク質のみを考慮していますが、今後はノイラミニダーゼ(NA)など他のウイルスタンパク質の情報も組み込むことで、より予測精度を高められる可能性があります 。また、このAIフレームワークは、十分なデータが利用可能であれば、インフルエンザ以外の他のウイルス(例:SARS-CoV-2)にも応用可能です 。さらに、優勢度予測器を応用して、まだ観測されていない「未来に出現しうる新規ウイルス配列」を生成し、それらに対するワクチンの有効性を事前に評価することも考えられます 。これにより、ウイルスの進化の一歩先を行く、より予防的なワクチン選定戦略が実現するかもしれません。