Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年7月にNature Biotechnology誌に発表された「Predicting the translation efficiency of messenger RNA in mammalian cells」(哺乳類細胞におけるメッセンジャーRNAの翻訳効率予測) という論文をご紹介します。
忙しい方向けのSummary
この研究は、哺乳類細胞におけるmRNA(メッセンジャーRNA)の配列が、どのくらいの効率でタンパク質に翻訳されるか(翻訳効率:TE)を予測するための新しいディープラーニングモデル「RiboNN」を開発したという内容です。研究チームは、ヒトとマウスの140種類以上の細胞から得られた3,819もの膨大なリボソームプロファイリングデータ(どのmRNAがどのくらい翻訳されているかを示すデータ)を統合し、大規模な翻訳効率のデータベースを構築しました 。
従来の予測モデルの多くは、mRNAの中でも翻訳の開始に関わる「5’非翻訳領域(5’UTR)」という一部の領域にしか注目していませんでした 。しかし、今回開発されたRiboNNは、mRNAの全長(5’UTR、タンパク質をコードする領域(CDS)、3’非翻訳領域(3’UTR))の配列情報を統合的に解析することで、従来モデルを大幅に上回る高い精度で翻訳効率を予測することに成功しました 。
5’UTRとCDSの配列が翻訳効率を決定する上で非常に重要であり、特にCDSの開始点に近い領域の影響が大きいこと。特定のコドン翻訳効率だけでなく、mRNA自体の安定性(壊れにくさ)にも関連していること。そしてmRNAの翻訳、安定性、局在という3つの要素が、共通の仕組みで制御されている可能性を示しています。
さらに、RiboNNは疾患に関連する遺伝子変異が翻訳効率にどのような影響を与えるかを予測することも可能で 、将来的に遺伝子診断や、mRNAワクチン・遺伝子治療といった医薬品の設計・最適化に応用できると期待されています 。
コードはこちらにあります。
これまでの研究とその課題の概要
これまでの研究では、ゲノム配列からmRNAの量を予測するAIモデルは数多く開発されてきました。しかし、そのmRNAがタンパク質へと翻訳される際の「翻訳効率」を予測する研究、特に哺乳類細胞を対象としたものにはいくつかの課題がありました。従来のモデルの多くは、翻訳の開始に重要とされる5’非翻訳領域(5’UTR)というmRNAの一部分の配列にのみ注目していました (Nat. Biotechnol. 2019; Nat. Commun. 2021)。実際にはタンパク質をコードする領域(CDS)などを含めたmRNA全体の配列が翻訳効率に影響を与えるにもかかわらずです。また、mRNA全長を考慮した数少ないモデルも、ごく限られた種類の細胞でしか評価されておらず、予測精度も十分とは言えませんでした。さらに、世界中に膨大な関連データが存在するにもかかわらず、それらが統一された形式で整理されていなかったため、大規模で精密なモデル開発が妨げられていたのが現状でした 。
Figureの読み解きポイント
- Figure 1: 翻訳効率(TE)データセットの構築と品質評価 膨大な公開データから、網羅的な翻訳効率(TE)データセットを構築する流れ(a)と、その品質を示しています 。78種類のヒト細胞間でTEパターンを比較したところ、多くは互いによく似ており(b)、翻訳を制御する共通の仕組みがあることが示唆されました。また、この研究で算出したTEは、過去の他の手法による測定値ともよく相関しており(c)、データセットの信頼性の高さが証明されています。
- Figure 2: 古典的機械学習モデルによるTEの予測 mRNAの配列情報(長さ、塩基の割合、コドンなど)を用いて、古典的な機械学習モデルがどの程度TEを予測できるかを示した図です。様々な特徴量を組み合わせることで、モデルが高い予測精度を達成できることがわかりました(a)。特に、CDS(タンパク質コード領域)の長さや、特定のコドンの頻度が、TEを予測する上で重要な要素であることが明らかにされています(d, e)。
- Figure 3: ディープラーニングモデル「RiboNN」の性能と学習内容の解釈 本研究で開発されたディープラーニングモデル「RiboNN」の概要(a)と、その高い予測性能(b, c)を示しています 。このモデルが何を学習したかを解析したところ、mRNAの中でも特に5’UTRとCDSの開始点付近の配列がTEの決定に極めて重要であること(e)、そして同じ塩基配列でも存在する「場所」によってTEへの影響が大きく変わること(f, g)を捉えていることがわかりました。
- Figure 4: RiboNNによる遺伝子変異と治療用RNAへの応用 RiboNNモデルの応用可能性を示した図です 。まず、修飾塩基を含む治療用mRNAの翻訳効率を予測でき、追加学習によってその精度を大幅に向上させられることが示されています(a-d)。また、疾患の原因となりうる遺伝子変異がTEに与える影響を正確に予測できることも実証されました(e)。実際に、シャルコー・マリー・トゥース病やがんに関連する遺伝子(MORC2, CDKN2A)の既知の変異が、TEを低下させることを正しく予測しています(f, g)。
- Figure 5: 翻訳、mRNA分解、細胞内局在の間に存在する「共通言語」 mRNAの運命を左右する3つの要素、すなわち「翻訳効率」「安定性」「細胞内での局在」が、互いに密接に関連していることを示した図です。RiboNNによるTEの予測値は、mRNAの安定性と強い正の相関を示しました(a-c)。また、細胞外へ分泌されるタンパク質を作るmRNAは、小胞体(ER)に集まり、モデルの予測をさらに上回る高い効率で翻訳されていることがわかりました(d, e)。これらの結果は、3つのプロセスが「共通の言語」によって統合的に制御されている可能性を示唆しています 。
手法の概説
データセットの準備
AIモデルを学習させるための元データとして、まず質の高い大規模な翻訳効率(TE)データセットを準備しました。具体的には公開データベースから、ヒト1,282ペア、マウス995ペアのリボソームプロファイリングデータと、それに対応するRNA-seqデータを収集しています。RiboFlowというオープンソースのバイオインフォマティクスパイプラインを使用して、膨大なリボソームプロファイリングデータとRNA-seqデータが統一的な手順で処理しています。データ品質を担保するため、実験のばらつきが大きいサンプルや測定値が少ないサンプルは除外しています。最終的にヒトとマウスのおよそ2000ペアのデータを得ました。各ペアのデータから、Compositional linear regression(組成線形回帰) という統計手法を用いて、mRNAごとの翻訳効率(TE)が精密に計算されました。この方法は全体に対する「割合」や「比率」で表されるデータを分析するための特殊な統計手法です。割合のデータはある部分が増えれば必ず他の部分が減るという互いに影響し合う関係があるため、通常の分析手法をそのまま適用すると、誤った結論を導いてしまう可能性があります。そのため、すべてのデータをお互いの相対的な関係に変換(対数比変換)を行うことで、各データが独立しているかのように扱うことができるようになり、通常の回帰手法ができるようになるという方法です。細胞の種類ごとにTEの値を平均化し、ヒトでは「遺伝子数10,348 × 78細胞種」、マウスでは「遺伝子数10,870 × 68細胞種」の巨大なデータ行列が作成されました。これがAIモデルの学習における「正解データ」となります。
古典的機械学習モデル
mRNA配列から、モデルが学習するための「特徴量」を手動で計算しました。これには5’UTRやCDSなどの各領域の長さ 、塩基(A/U/G/C)の割合 、コドンの出現頻度、二次構造 (seqfoldというツールを使い、mRNAが折りたたまれて作るヘアピンループなどの立体構造に関する特徴量が計算されています) などが含まれます。機械学習モデルとしてはLightGBMが使われました。
深層学習モデル「RiboNN」
mRNA配列は開始コドンで位置を揃え、最大13,318塩基の長さに統一しました。配列はワンホットエンコーディングという手法で数値ベクトルに変換されます(例: A→[1,0,0,0], C→[0,1,0,0])。これに加えて、CDS領域内の各コドンの1番目の塩基の位置を示す情報が、5番目のチャネルとして追加されました 。これがモデルの性能向上に貢献しました。モデルは畳み込みニューラルネットワーク(CNN) をベースにしています。これは画像認識などでよく使われる技術で、配列の中から局所的なパターン(短い塩基配列モチーフなど)を自動で抽出するのに優れています。10層の畳み込みブロックと2層の全結合層から構成されています 。畳み込みブロックを何層も重ねることで、配列のより大域的で複雑な特徴を捉えることができます。出力層は、78種類(ヒトの場合)の細胞のTEを一度にすべて予測する「マルチタスク学習」 の形式をとっています。最終的な予測値は、性能の良い複数のモデルの予測結果を平均するアンサンブル学習の手法を用いて、より頑健なものにしています。モデルが予測を行う際に、配列のどの塩基を特に重要視したかを可視化するために、Saliency法(顕著性マップ) という技術が用いられました 。これにより、RiboNNが学習した生物学的なルールを人間が解釈できるようになります。
研究のLimitationとPerspective (私見)
本研究の課題は、予測モデルがmRNAの一次配列情報に大きく依存しており、翻訳を制御する他の重要な生物学的情報を完全には捉えきれていない点です 。モデルはmRNAの塩基配列から高い精度で翻訳効率を予測しますが、例えばmRNAが作る複雑な立体構造(二次構造)の影響は、現在の特徴量では十分に組み込めていません 。また、アミノ酸配列にコードされたシグナルペプチドを持つタンパク質の予測で系統的な誤差が見られるなど、タンパク質レベルの情報が翻訳効率に与える影響も十分にモデル化できていないのが現状です 。
それを踏まえたうえで、今後の研究ではAIモデルに複数の情報源を統合させるマルチモーダルなアプローチの導入が期待されます 。これにより、現在の塩基配列情報に加えて、より精度の高い二次構造の情報やアミノ酸配列そのものをモデルに直接入力し、学習させることが可能になります 。最終的には、mRNAの「翻訳効率」「安定性」「細胞内局在」という3つの異なる側面を、単一の配列情報から同時に予測する統合モデルを構築することで、遺伝子発現の全体像をより深く理解し、医薬品設計などの応用分野でさらに強力なツールになると考えられます。
なお、治療への応用例もdiscussionされていますが、個人的にはこれが企業研究者による研究でコードも完全に公開されている以上、論文には展望として書かれていますが少なくともその企業さんはこれを治療へ活用していくつもりはないのでは、と思っています。
