【論文解説】ProtRNA: タンパク質から学ぶRNA言語モデル〜異種間転移学習によるアプローチ〜 – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にオンライン先行公開、9月にCell Systems誌に発表される「ProtRNA: A protein-derived RNA language model by cross-modality transfer learning」(ProtRNA: タンパク質の知識を転移させる異種モダリティ学習によるRNA言語モデル) という論文をご紹介します。

忙しい方向けのSummary

この論文は、「ProtRNA」という新しいRNA言語モデルを提案するものです。このモデルの最大の特徴は、データが豊富に存在するタンパク質の言語モデル（ESM-2）から知識を転移させる「異種モダリティ転移学習」というアプローチを採用している点にあります。

RNAはタンパク質に比べて配列データの量が少なく、保存性も低いため、高性能な言語モデルの構築が難しいという課題がありました。そこで研究者たちは、大量のタンパク質配列データで事前学習されたESM-2モデルのパラメータの大部分を再利用し、最後の4層分だけを少量のRNAデータで再学習させました。

その結果、ProtRNAは、他の主要なRNA言語モデルと比較して、訓練に必要なパラメータを約1/8、訓練データを約1/6に抑えながら、RNAの二次構造予測やRNAとタンパク質の相互作用予測といった様々なタスク（下流タスク）で、同等かそれ以上の性能を達成しました。これは、異なる種類の生体分子間で知識を転移させることの有効性を示した画期的な研究です。

コードはこちらにあります。

これまでの研究とその課題の概要

Transformer技術を生物の配列情報に応用する研究が盛んになる中、特にタンパク質言語モデル（PLM）は大きな成功を収めてきました。しかしその一方で、RNAを対象とした言語モデルの研究は多くの課題に直面し、タンパク質ほどの頑健な性能を示すモデルはほとんどありませんでした。

RNA言語モデルの構築が本質的に難しいのには理由があります。タンパク質が20種類のアミノ酸から構成されるのに対し、RNAはわずか4種類の塩基という限られたアルファベットしか持ちません。さらに、RNAの配列はタンパク質に比べて進化の過程で保存されにくい（保存性が低い）という性質があります。これらの要因が、RNAの配列データを情報が乏しくノイズが多いものにしてしまい、AIが効果的に学習するのを困難にしています。

そこで本研究では、この「リソースの差」を埋めるため、異種モダリティ転移学習という新しい戦略に取り組みました。これは、リソースの乏しいRNAのためにAIモデルを一から構築するのではなく、リソースリッチなタンパク質言語で既に学習済みのESM-2モデルが持つ進化情報や物理化学的知識を活用するアプローチです。タンパク質とRNAを異なる「言語」とみなし、一方から他方へ知識を転移させることで、RNAが抱えるデータ不足の問題を克服し、高性能なモデルを効率的に構築することを目指しました

Figureの読み解きポイント

Figure 1: ProtRNAの全体像 この図は、本研究で提案されたProtRNAモデルの全体構成を示しています。メインアイデアは、データが豊富なタンパク質言語モデル（ESM-2）から知識を転移させる戦略です (A) 。具体的には、ESM-2の大部分（33層中29層）のパラメータは固定したまま、最後の4層のみをRNA配列データで再学習させるという効率的な手法が描かれています。このようにして事前学習されたProtRNAモデルが、RNA二次構造予測 (B) 、RNA-タンパク質相互作用予測 (C) 、そしてリボソームローディング予測 (D) という3つの主要な応用タスクにどのように利用されるかが示されています。
Figure 2: ProtRNAが学習した特徴空間の可視化 ProtRNAがRNAとタンパク質の配列から生成した特徴量を、t-SNEという手法を用いて2次元空間に可視化したものです。異なる色の点は異なるRNAファミリーを表しており、これらがファミリーごとに明確なクラスター（塊）を形成していることから、モデルが各ファミリーの特徴を効果的に識別できていることがわかります。特に重要なのは、左上の水色のクラスターで示されるタンパク質が、RNAファミリー群とはっきりと分離している点です。これは、ProtRNAがRNAとタンパク質という異なる種類の生体分子を的確に区別する能力を持っていることを示しています。
Figure 3: モデル内部の働き この図は、モデルが配列を解析する際にどの部分に注目するかを示す「Attention（注意機構）」を分析し、ProtRNAと他の主要なRNA言語モデルとを比較した結果です。RNAの立体構造に直接関わる「接触マップ」(A, B) と「二次構造」(C, D) の2つの特性について評価されています。ProtRNA（左列）は、「ヘッド 33-6」という1つの部位がRNAの構造情報を捉えるために高度に特化しているという、非常にユニークなパターンを示しています。対照的に、他のモデルではその機能が複数のヘッドに分散しています。これは、ProtRNAが限られたパラメータの中で効率的に学習した結果、RNA構造を専門的に解析する機能部位を進化させたことを示唆しています。
Figure 4: 二次構造予測性能の多角的分析 ProtRNAによるRNA二次構造予測の性能が、RNAファミリーの種類や配列の長さといった様々な観点から詳細に評価されています。(A)のレーダーチャートと(B)の折れ線グラフは、事前学習データに多く含まれるRNAファミリー（rRNAやtRNAなど）ほど予測精度が高くなるという明確な相関を示しています。逆にデータ量が少ないtelomeraseファミリーでは精度が著しく低下します。また、(C-E)の棒グラフからは、配列が長くなるにつれて予測精度が一貫して低下する傾向が読み取れ、長い配列の構造予測におけるモデルの限界を明らかにしています。
Figure 5: RNA-タンパク質相互作用予測という応用タスクでの性能比較 17種類のRNA結合タンパク質（RBP）について、RNA上の結合部位を予測するタスクにおけるProtRNAの性能を、他の手法と比較した結果です。グラフの横軸は、配列情報のみを用いた場合を基準（0）とした性能の向上度（AUROCスコア）を示しています。ProtRNA（青いバー）は、ほぼ全てのRBPで安定して高い性能を示しており、(A)では実際の実験データ（RealSS）を用いた手法と遜色ない性能を達成しています。さらに(B, C, D)では、他の主要なRNA言語モデル（RiNALMo, RNA-FM, RNAErnie）を一貫して上回っており、ProtRNAが学習した特徴量が、より複雑な分子間相互作用の予測においても非常に有効であることを示しています。

手法の概説

AIモデルの構築 (ProtRNA)

基盤となっているのは、6億5000万のパラメータを持つ大規模なタンパク質言語モデル「ESM-2」です。ESM-2が持つ33層のTransformerブロックのうち、最初の29層（約88%）のパラメータは変更せずに固定（凍結）します。そして、最後の4層と、RNAの塩基に対応する埋め込み層（embedding）のみを再学習させます。これにより、タンパク質の進化の過程で学習されたであろう普遍的な生物学的情報を保持しつつ、少ない計算コストで効率的にモデルをRNAに特化させています。

モデルがRNA配列を理解できるように、既存のESM-2の語彙（アミノ酸）に、RNAの塩基である”a”, “c”, “u”, “g”などを新たに追加しています。これらはアミノ酸（大文字）と区別するために小文字で扱われています。

学習は、RNAcentralというデータベースから収集された3800万のRNA配列が元になっています。このデータセットには類似した配列が多く含まれるため、MMSeqs2 (Nat. Biotechnol. 2017) というアルゴリズムを用いて冗長性を除去し、最終的に600万の代表的な配列に絞り込んで学習させています。

NVIDIA V100 GPUを4基使用し、文章の一部を隠して予測させるマスク化言語モデリング (Masked Language Modeling, MLM) が6エポック行われています。

下流タスク

モデルの性能評価には、タスクごとに特化したベンチマークデータが用いられました。2次構造予測に関してはbpRNA-1m (Nucleic Acids Res. 2018) やRnaBench (bioRxiv 2024) などの標準的なデータセットを使用し、RNA-タンパク質相互作用についてはPrismNet (Cell Res. 2021) 論文で得られたHeLa細胞のデータが使われています。平均リボソームローディング (MRL) 予測については、合成されたヒト5’UTRライブラリのデータ (Nat. Biotechnol. 2019) を使用しています。

公平性を期すためにベースとなる言語モデル自体は再学習（ファインチューニング）せず、パラメータを固定しています。学習されるのは、各タスク専用に追加された小さな予測部分（予測ヘッド）のみです。これにより、ベースモデルが持つ特徴表現そのものを直接比較しています。

研究のLimitationとPerspective (私見)

本研究の課題は、事前学習に用いたデータの偏りがモデルの性能に直接影響している点です。AIモデルの能力は学習するデータに大きく依存するため、特定のRNAファミリー（rRNAやtRNAなど）が大多数を占めるデータセットで学習したProtRNAは、それらの予測は得意な一方で、データ中にごく僅かしか存在しないファミリー（テロメラーゼなど）の構造予測では性能が著しく低下します (Figure 4で出しているデータ)。また、より挑戦的なタスクであるファミリー間での構造予測において他のモデルに劣る場合があるのも、学習データの多様性が一因と考えられます。この問題を克服するには、希少なRNAファミリーも網羅した、よりバイアスの少ない多様なデータセットを構築することが不可欠です。

それを踏まえたうえで、今後の研究ではより高度な転移学習戦略やAIアーキテクチャの導入が期待されます。現状のモデルはRNAタスクに特化する代わりにタンパク質の知識を失ってしまう「破局的忘却」という課題を抱えていますが、これを継続学習やマルチモーダル学習といった手法で克服し、両方の知識を維持するモデルの開発が進められるでしょう。さらに、タンパク質とRNAの関係性をより深く学習させるため、自然言語処理分野で用いられる表現アライメントや共同訓練といったアプローチを導入することも考えられます。

表現アライメント (Representation Alignment) とは「意味」が似ているものをAIモデルの内部表現空間において互いに近い位置に来るように調整する手法で、英語の「cat」とスペイン語の「gato」は同じものを指すので、モデル内部の地図上でこの二つの単語が近くに配置されるように学習させるようなものですが、タンパク質とncRNA（非コードRNA）には、自然言語のように直接的な翻訳関係はありません。そのため、例えば構造的または機能的に類似したモチーフ（特徴的な部分構造）を持つタンパク質とncRNAのペアを見つけ、それらの表現がモデル内で近くなるように学習させる、といったアプローチが考えられます。

共同訓練 (Joint Training) は名前の通りで、2つの異なる言語やモダリティのデータを別々に学習させるのではなく最初から同時に（共同で）学習させる手法です。今回のProtRNAは、まずタンパク質データで学習済みのモデル（ESM-2）を用意し、その後にRNAデータで追加学習（転移学習）させました。しかし共同訓練の場合は最初からタンパク質の配列データとRNAの配列データを混ぜたデータセットを用意し、単一のモデルを両方のデータで同時に訓練します。

これらにより、複数の生体分子の「言語」を同時に理解・活用できる、より汎用性の高いAIモデルの実現に繋がると考えられます。