【論文解説】深層生成モデルによるmRNA配列設計：翻訳能力と安定性の強化 – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にScience誌に発表された「Deep generative models design mRNA sequences with enhanced translational capacity and stability」(深層生成モデルによるmRNA配列設計：翻訳能力と安定性の強化) という論文をご紹介します。主にバイオテクノロジー企業であるRaina Biosciencesが主導し、マサチューセッツ工科大学（MIT）とハーバード大学が協力した、米国と中国の国際共同研究です。最終著者のTimothy K. Lu博士は合成生物学の第一人者であり、細胞をプログラムして病気を治療したり、新しい化学物質を生産したりする研究で世界的に知られています。

忙しい方向けのSummary

この研究は、mRNAワクチンや治療薬の効果を大幅に向上させるため、GEMORNAと名付けられた新しい深層生成AIモデルを開発したという内容です。

mRNA医薬品の成功には、より多くのタンパク質を、より長く安定して作らせることが不可欠です。しかし、mRNAの配列（特にタンパク質をコードするCDS領域と、その前後にあるUTR領域）の組み合わせは天文学的な数になり、最適な配列を見つけ出すことは非常に困難でした。

研究チームは、この課題を解決するために、文章を生成するAIと同様の「Transformer」という技術を応用し、GEMORNAを開発しました。このAIは、自然界に存在する多数の遺伝子配列を学習することで、タンパク質の翻訳効率やmRNAの安定性に関わる複雑な法則性を自律的に習得します。

その結果、GEMORNAが設計したmRNAは、既存の最適化された配列と比較して、以下のような優れた性能を示しました。

in vitro（細胞実験）では、レポータータンパク質（ルシフェラーゼ）の発現量が最大41倍に増加しました。
in vivo（マウス実験）では、治療用タンパク質（エリスロポエチン、EPO）の発現量が最大15倍に向上し、COVID-19ワクチンでは抗体価が大幅に上昇しました。
さらに、次世代の医薬品として期待される環状RNA（circRNA）の設計にも応用可能で、CAR-T細胞の抗腫瘍効果を劇的に高めることにも成功しました。

本研究は、生成AIがmRNA医薬品の開発を加速させ、その可能性を大きく広げる強力なツールであることを示しています。

コードはこちらにあります。

これまでの研究とその課題の概要

mRNAワクチンはCOVID-19で大きな成功を収めましたが、他の多くの病気に応用するためには、タンパク質の発現量をさらに強く、そして長く持続させる必要があります。そのための最大の課題は、タンパク質の設計図となるCDS（コード領域）と、その発現を制御するUTR（非翻訳領域）からなるmRNAの配列を、天文学的な数の組み合わせの中から最適化することです。

従来は、GC含量やコドンアダプテーションインデックス（CAI）といった、個々の塩基やコドンのみに着目した単純な最適化手法が主流でした。しかし、これらは配列全体の文脈や構造といった重要な要素を無視してしまうため、効果が限定的でした。初期の深層学習モデル（LSTM）も応用されましたが、長い遺伝子配列の学習が苦手で、学習効率も悪いため、十分な性能を発揮できませんでした。

最近、mRNAの二次構造を考慮した優れた設計アルゴリズムも開発されましたが、現代のmRNA医薬品に必須である化学修飾（ $m 1 ψ$ など）されたmRNAには適応できず、治療用mRNAの設計には効果が低いという大きな欠点がありました。UTRの設計においても、二次構造を最小化する、あるいは遺伝的アルゴリズムで進化させるといったアプローチが試みられましたが、考慮する要素が限られていたり、最適解を見つけられずに性能が頭打ちになったりする問題がありました。

Figureの読み解きポイント

Figure 1: GEMORNAによるmRNA設計の全体像とデザインスペース 膨大なmRNA配列の組み合わせ（デザインスペース）の中から、AIモデルであるGEMORNAがどのようにして高性能な配列を設計するかのパイプラインを示しています。パネルAでは、UTRとCDSの組み合わせが天文学的な数に上り、最適な配列を見つけることがいかに困難であるかが視覚化されています。パネルBでは、GEMORNAが自然界の遺伝子配列から学習した特徴を基に、この広大な空間から性能の高い配列が存在する「高ポテンシー空間」へと絞り込み、新しいmRNAを生成する設計ワークフローが描かれています。
Figure 2: CDS設計モデル「GEMORNA-CDS」の構造と性能評価 タンパク質のコード領域（CDS）を設計するAIモデルの構造と、生成されたCDS配列が持つ優れた特性をコンピュータ解析と細胞実験の両面から示しています。パネルA、Bは、アミノ酸配列を機械翻訳のように最適なコドン配列へと変換するモデルの仕組みを図解したものです。パネルC、Dの解析では、GEMORNAが生成した配列はコドン最適化指数（CAI）やGC含量、配列の「自然らしさ」といった複数の指標で既存手法より優れていることが示されました。さらに、この「自然らしさ」のスコアが実際のタンパク質発現量や安定性と強く相関することも証明されています（パネルE）。最終的に細胞実験において、GEMORNA設計のCDSが既存のCDSに比べ、タンパク質発現量と安定性の両方を大幅に向上させることが実証されました（パネルF、G）。
Figure 3: UTR設計モデル「GEMORNA-UTR」の性能とUTRペアの重要性 mRNAの翻訳効率を制御する非翻訳領域（UTR）を設計するAIモデルの性能と、5′ UTRと3′ UTRの組み合わせがタンパク質発現に与える影響を検証しています。パネルA、Bは、新しいUTR配列を自律的に生成するモデルの構造を示しています。このモデルが生成した5′ UTRは、自然界には存在しない新規配列でありながら、市販のCOVID-19ワクチンで使われているUTRと同等かそれ以上の高いタンパク質発現を誘導することが示されました（パネルD、F）。また、5′ UTRと3′ UTRの様々な組み合わせを試した結果、タンパク質発現の主役は5′ UTRであるものの、最適なUTRのペアは標的タンパク質ごとに異なることが明らかになり、多様な配列を生成できるGEMORNAの有用性が強調されました（パネルH-M）。
Figure 4: GEMORNA設計の全長mRNAのin vivoにおける有効性実証 GEMORNAが設計したCDSとUTRを組み合わせた「全長mRNA」が、マウス個体内で従来のmRNAよりも格段に優れた治療効果を発揮することを複数の標的で証明しています。レポータータンパク質を用いた実験では、ベンチマーク（既存の最適化配列）と比較してタンパク質発現が最大41倍に増加しました（パネルB 。特に重要なのは動物実験の結果で、COVID-19ワクチン抗原をコードするmRNAをマウスに接種したところ、BNT162b2ワクチンよりも有意に高く持続的な抗体価を誘導することに成功しました（パネルG、H）。同様に、治療用タンパク質EPOでも、マウス体内でのタンパク質レベルが最大15倍高く、効果が長く持続することが確認され、GEMORNAの優れた性能がin vivoで実証されました（パネルL) 。
Figure 5: GEMORNAの環状RNA（circRNA）への応用と治療効果 GEMORNAの設計技術を安定性の高い環状RNA（circRNA）に応用し、タンパク質発現の持続性向上と、CAR-T療法における治療効果の劇的な改善を示しています。EPOをコードするcircRNAをマウスに投与した実験では、最先端のベンチマークcircRNAと比較して、タンパク質発現量が最大121倍に達し、効果が長期間持続しました（パネルH）。さらに、この技術をがん免疫療法（CAR-T療法）に応用したところ、GEMORNA設計のcircRNAで作成したCAR-T細胞は、標的タンパク質（CAR）の発現が著しく高く、長時間維持されました（パネルJ、K) 。その結果、がん細胞を殺傷する能力が既存のcircRNAに比べて劇的に向上し、本技術が治療効果そのものを高める可能性が示されました（パネルM）。

手法の概説

研究チームは、主に2つの深層学習生成モデルGEMORNA-CDSとGEMORNA-UTRを構築し、それらを補助する予測モデルも開発しました。

GEMORNA-CDS（コード領域の生成モデル）

公共データベースEnsemblから、115種の哺乳類に由来する約100万セットのタンパク質配列とそれに対応するCDS（コード領域）配列を収集しました。配列長が一致しないものや、コドンテーブルと異なるものは除外され、データの質が担保されています。機械翻訳で実績のあるTransformerアーキテクチャを採用しており、タンパク質配列を読み込む「エンコーダー」とCDS配列を生成する「デコーダー」がそれぞれ12層ずつ重ねられています。

生成されたCDS配列の品質を評価するために、Naturalness Scoreという独自の指標が定義されました。これは、AIモデルが学習した自然な哺乳類ゲノムのパターンに、生成された配列がどれだけ適合しているかを対数尤度スコアに基づいて数値化したものです。このスコアが高いほど、高品質な配列であると判断されます。

GEMORNA-UTR（非翻訳領域の生成モデル）

RefseqとUTRdbというデータベースから哺乳類のUTR配列を収集し、フィルタリングを経て、事前学習用に約800万の5′ UTRと約200万の3′ UTRからなる巨大なデータセットを構築しました。

こちらもTransformerベースですが、入力なしで新しい配列を生成するため「デコーダーのみ」の構造をしています。一般的に3′ UTRの方が長く複雑なため、3′ UTRモデルは5′ UTRモデルの約4倍のパラメータを持つように設計されています。

事前学習後、さらに性能を高めるため、後述の予測モデルを用いて「翻訳効率が高い」または「安定性が高い」と予測されたUTR配列を選び出し、より質の高いデータセット（5′ UTRは約80万、3′ UTRは約20万）で追加学習（ファインチューニング）を行いました。

補助的予測モデル

GEMORNA-UTRのファインチューニング用データを選別するために、2つの補助的な予測AIモデルが開発されました。PRED-5UTR:は5′ UTR配列が与えられたときに、その翻訳効率の指標である平均リボソーム搭載量（MRL)を予測するモデルです。構造は単方向ゲート付き再帰型ユニット（GRU）に基づいています。PRED-3UTR:は3′ UTR配列の安定性（分解速度）を予測するモデルです。TextCNNというモデル構造が採用されています。

生成されたUTRが訓練データと似ていない「新規」の配列であることを確認するため、BLASTというツールを用いて最大一致スコア（MIS）を計算し、類似性が低いことを評価しています。

研究のLimitationとPerspective (私見)

この研究の大きな課題は、GEMORNAがブラックボックスである点です。Transformerモデルが学習した配列の文法やパターンは非常に複雑で、なぜ特定の配列がこれほど高い性能を発揮するのか、その決定論的なルールを人間が完全に解釈することは困難です。これは生物学・医療の観点から見れば、新しい生物学的法則の発見機会を逃している可能性を意味します。今後の展望として、AIが生成した高性能な配列を解析することで、これまで知られていなかった翻訳や安定性を制御する新しい配列モチーフを発見し、生命科学の理解を深めるための研究ツールとして活用することが期待されます。

また、AIモデルの性能は学習データに依存するという課題もあります。現在のモデルは主に内在性の遺伝子データで学習されていますが、これは医薬品として外部から投与されるmRNAの挙動を完全に反映しているとは限りません。この限界を克服する今後の展望として、ハイスループット実験で得られる膨大なデータをAIにフィードバックし、再学習させることでモデルの予測精度を継続的に向上させる、強力な設計サイクルを構築することが考えられます。さらに将来的には、このAIフレームワークを応用し、例えば「肝臓での発現は最大化しつつ、他の組織での発現は抑制する」といった、複数の制約を同時に最適化する多目的最適化モデルへと進化させることが期待されます。これにより、特定の組織や疾患に特化した、より有効かつ安全な次世代mRNA医薬品の迅速な開発が可能になると考えられます。