Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年10月にNature Methods誌に発表された「All-at-once RNA folding with 3D motif prediction framed by evolutionary information」(進化的情報を手がかりとした、RNA構造と3Dモチーフの統合予測) という論文をご紹介します。米国ハーバード大学のElena Rivas博士が率いるチームによる研究です。

忙しい方向けのSummary

この論文は、RNAの二次構造(ヘリックスなど)と、その立体構造の形成に重要な「3Dモチーフ」と呼ばれる短い構造要素を、一度にまとめて(all-at-once)予測する新しい計算手法「CaCoFold-R3D」を提案するものです。

RNAの機能はその立体構造によって決まりますが、構造予測は非常に困難です。特に、ヘアピンループやジャンクション(分岐点)などに存在する3Dモチーフは、非標準的な塩基対を含み、予測が難しいとされてきました

CaCoFold-R3Dの主な特徴としては

  1. 進化的情報の活用: 複数の生物種に由来するRNA配列のアラインメント(整列データ)から、塩基がペアで変化する「共変動」の情報を抽出します。この共変動は、安定したヘリックス構造の強い証拠となり、これを手がかりにすることで、共変動が見られにくい3Dモチーフが存在しうる領域を絞り込み、予測精度を劇的に向上させます

  2. 統合的な予測モデル: 確率的文法(SCFG)というモデルを拡張し、二次構造と50種類以上もの多様な3Dモチーフを、一つの統一された枠組みで同時に予測します。これにより、従来の手法のように二次構造とモチーフを別々に予測する必要がなく、より整合性の取れた構造が得られます。

  3. 高速性と拡張性: 計算効率が非常に高く、巨大なリボソームRNAのような長いRNAにも適用可能です 。また、新しいモチーフを簡単に追加できる柔軟な設計になっています

この手法をRNAのデータベース(Rfam)に適用した結果、多くの既知モチーフを正確に検出できただけでなく、これまで知られていなかった新しい3Dモチーフの発見にも繋がりました 。CaCoFold-R3Dは、RNAの構造理解を深めるだけでなく、ディープラーニングによる精密な立体構造予測のインプットや、RNAを標的とした創薬開発への貢献が期待されます

これまでの研究とその課題の概要

RNAが正しく機能するためには、その立体構造が極めて重要です。この立体構造は、まずワトソン・クリック塩基対によって形成される二次構造(ヘリックスなど)と、そのヘリックス同士を繋ぐループ領域に存在する「3Dモチーフ」と呼ばれる短い構造要素によって成り立っています

3Dモチーフは、非標準的な塩基対を含む複雑な構造で、RNA全体の形を決定づける重要な部品です。これまでに、実験的に決定されたRNA構造から3Dモチーフを抽出し、分類・データベース化する研究が進められてきました。また、その知見を基に、RNA配列から3Dモチーフの存在を予測する計算ツール(RMDetectやJAR3Dなど)も開発されてきました

既存の予測手法には、主に以下のような課題がありました。

  • 統合性の欠如: 最大の課題は、二次構造の予測と3Dモチーフの予測が完全に分離していた点です。多くの場合、まず熱力学モデルで二次構造を予測し、その後に別のツールでループ領域にモチーフがないかを探すという段階的なアプローチを取っていました 。このため、両者を同時に考慮した最適な構造を予測することはできませんでした

  • 計算コストの高さと範囲の狭さ: 従来の手法は計算コストが高く、一度に一つのモチーフしか探索できないものがほとんどでした。このため、網羅的な探索が難しく、予測できるモチーフの種類もヘアピンや内部ループなどに限定されがちでした

  • 強い制約: いくつかの手法では、あらかじめモチーフが存在しそうなループ領域をユーザーが指定する必要があるなど、強い事前情報が求められました

  • 統計的信頼性の欠如: いくつかの手法は進化的な情報(アラインメント)を利用していましたが、その予測が統計的にどれほど信頼できるか(進化的に保存されているか)を評価する仕組みがありませんでした

これらの課題を解決するため、本研究では二次構造と多様な3Dモチーフを、進化情報を活用して一つの枠組みで同時に予測する「CaCoFold-R3D」が開発されました。

Figureの読み解きポイント

  • Figure 1: CaCoFold-R3Dアルゴリズムの全体像 新しく開発されたRNA構造予測手法「CaCoFold-R3D」のワークフローが示されています。入力されたRNAアラインメントに対し、まずR-scapeが共変動する塩基対(Positive pairs)を特定します。次に、これらの塩基対を階層(レイヤー)に分け、第1レイヤーで二次構造と3Dモチーフを、後続のレイヤーでシュードノットなどの三次構造を予測し、最終的に一つの統合された構造として出力する流れが描かれています。共変動情報を手がかりに、二次構造、3Dモチーフ、三次構造を段階的かつ統合的に予測する本手法の基本原理が示されています。

  • Figure 2: 二次構造と3Dモチーフを統合するRBGJ3J4-R3D文法 本手法の核となる確率的文法「RBGJ3J4-R3D」の設計思想が示されています。図の左側(a)は、3分岐・4分岐ジャンクションを区別できる基本的な二次構造文法「RBGJ3J4」です。図の右側(b)では、この基本文法のループを生成するルールに、GNRAテトラループやKターンループといった特定の3Dモチーフを生成するルールを追加しています。これにより、二次構造の文脈の中に3Dモチーフを自然に組み込み、両者を一つのモデルで同時に予測することが可能になる仕組みが解説されています

  • Figure 3: 3Dモチーフを記述する6つの基本アーキテクチャ「R3D文法」 多様な3Dモチーフを、それらが存在するループのトポロジーに基づいて6つの基本タイプ(ヘアピンループ、バルジループ、内部ループ、3分岐、4分岐、ブランチセグメント)に分類し、それぞれをモデル化するための一般化された「R3D文法」が示されています。各アーキテクチャは、構造的な相関を捉える確率的文法(SCFG)と、配列パターンを捉えるプロファイルHMMを組み合わせており、これにより個別のモチーフを詳細に記述するのではなく、一般化された枠組みで効率的に多くのモチーフを扱えるようになっています。

  • Figure 4: CaCoFold-R3Dによる代表的な3Dモチーフの検出事例 CaCoFold-R3Dが実際にどのようなモチーフを検出できるか、代表的な20種類の実例が示されています。ヘアピンループ(HL)に属するGNRAテトラループやUターン、内部ループ(IL)に属するKターンやCループ、ジャンクション(J3, J4)に属するハンマーヘッドリボザイムやHCV IRESなど、機能的に重要な既知モチーフが網羅されています。それぞれの例で、そのモチーフを持つことが知られているRfamファミリーのアラインメントから、CaCoFold-R3Dが共変動の裏付け(covariation support)のもと正しく構造を予測していることが示されており 、本手法の高い実用性と網羅性を証明しています。

  • Figure 5: 既知の複雑なRNAにおける二次構造と3Dモチーフの統合的予測 立体構造が実験的に決定されている複数の複雑なRNA分子について、CaCoFold-R3Dが行った構造予測の全体像が示されています。snoRNA U3、5S rRNA、SAMリボスイッチ、メタゾアンSRP RNAなど、複数の異なる3Dモチーフが混在するRNAにおいて、それらのモチーフが二次構造全体の正しい文脈の中に正確に配置されて予測されています。これにより、本手法が単に個々のモチーフを見つけるだけでなく、分子全体の構造を整合性を保ちながら統合的に予測できる高い性能を持つことが実証されています。

手法の概説

SCFG(Stochastic Context-Free Grammar、確率的文脈自由文法)

SCFG(Stochastic Context-Free Grammar、確率的文脈自由文法)は、特定のルールに従って、構造を持つ文字列(文章やRNA配列など)を確率的に生成するためのモデルです。言語学やバイオインフォマティクスで広く利用されています。

SCFGは、主に3つの要素で構成されています。

  1. 終端記号 (Terminals): これ以上分解できない最小単位の記号です。自然言語なら「単語」、RNAなら塩基の「A, U, G, C」にあたります

  2. 非終端記号 (Non-terminals): 構造的なまとまりを表す変数のようなものです。自然言語なら「文」や「名詞句」、RNAなら「ヘリックス」や「ループ」といった構造要素に対応します

  3. 成ルール (Production Rules) とその確率: 非終端記号を、他の記号(終端記号や別の非終端記号)に置き換えるためのルールです。SCFGの最大の特徴は、各ルールに確率が付随していることです 。どのルールが選ばれやすいか(どの構造が出現しやすいか)が確率で決まります。

例えば、以下のような簡単なルールセットがあったとします。

  • 文 → 名詞句 動詞句 (確率: 1.0)
  • 名詞句 → “ネコが” (確率: 0.6)
  • 名詞句 → “イヌが” (確率: 0.4)
  • 動詞句 → “走る” (確率: 0.7)
  • 動詞句 → “寝る” (確率: 0.3)

このモデルから文章を生成する場合、「ネコが 走る」という文が生成される確率は と計算できます。このように、SCFGは無数の構造の中から、より「ありえそうな」構造を確率的に見つけ出すことができます。

この論文のCaCoFold-R3Dでは、このSCFGの考え方が巧みに応用されています

  • 終端記号はRNAの塩基(A, U, G, C)です。

  • 非終端記号は「ヘリックスを開始する(H)」「ヘリックスが続く(F)」「ループを形成する(P)」といったRNAの構造要素に対応します

  • 生成ルールは、「ヘリックスの終わり(P)は、ヘアピンループになるか、内部ループになるか、マルチプルループになる」といった構造の分岐を表します

このモデルを使うことで、一本のRNA配列が取りうる無数の折りたたみ構造の中から、学習データに基づいて最も確率の高い(最も確からしい)二次構造や3Dモチーフを予測することができます。さらに、共変動のような外部の情報を組み込むことで、その予測精度を飛躍的に高めています

AIモデルの構築

まず、RNAの基本的な二次構造(ヘリックス、ループ等)を生成するためのルールセットとして「RBGJ3J4文法」を定義しました 。この文法は、特に3分岐(J3)や4分岐(J4)といった複雑なジャンクションを明確に区別して扱えるように設計されています

モデルの心臓部であるRBGJ3J4文法の確率パラメータ(どの構造がどれくらいの確率で出現するか)は、「TORNADO」と名付けられた大規模データセットを用いて学習されました 。これには100種類以上のRNAファミリーから集められた4,000以上の既知のRNA配列・構造ペアが含まれており、モデルが特定のRNAに過剰に適合(オーバーフィット)するのを防いでいます

次に、多種多様な3Dモチーフをモデル化するために「R3D文法」を開発しました。これは、モチーフをトポロジー(構造上の位置関係)に基づき6つの基本タイプ(ヘアピン、バルジ、内部ループなど)に分類し、それぞれのタイプに共通する構造的相関をSCFGで、配列の保存性をプロファイルHMMでモデル化するものです

モチーフ定義用データセット (Rfam & 文献情報) については、予測対象となる3DモチーフはRNAファミリーのデータベースであるRfam v15.0や既存の学術文献から網羅的に収集されました。この研究では、最終的に51種類の異なるモチーフがカタログ化され、それらの構造的な異性体(バリアント)を含めると合計96種類のモチーフがモデルに組み込まれています。

最終的に、基本文法(RBGJ3J4)のループ生成ルールの中に、特定の3Dモチーフを生成するR3D文法を組み込むことで、二次構造と3Dモチーフを一つの統一された確率モデルで扱えるようにしました。これにより、両者を同時に、かつ整合性を保ちながら予測することが可能になります。

バイオインフォマティクスと数理アルゴリズム

構築したモデルを用いて実際のRNA配列から最適な構造を予測するために、以下の計算手法が用いられています。

  • 共変動解析 (Covariation Analysis): 予測の前処理として、R-scapeというツールを用いて、入力されたRNAアラインメント(多種の生物で同じRNAを並べたもの)から、進化の過程で対になって変化した塩基ペア(共変動ペア)を統計的に検出します。この共変動は安定したヘリックス構造の強力な証拠であり、これを「制約情報」として利用することで、予測の探索空間を劇的に絞り込み、精度を向上させています

  • CYKアルゴリズム: 統合モデル(RBGJ3J4-R3D)から最も確率の高い構造(つまり最も確からしい構造)を探索するために、動的計画法の一種であるCYKアルゴリズムが採用されています。このアルゴリズムは、単一の配列だけでなく、アラインメントデータ(各位置での塩基の出現確率ベクトル)に対しても同じ計算量で適用できるように一般化されています

  • 多層予測アプローチ: シュードノットのような複雑な三次構造を扱うため、予測は多層的に行われます 。まず第1層で、共変動情報に基づいて主要な二次構造と3DモチーフをCYKアルゴリズムで予測します 。その後、残りの共変動ペアを後続の層で、より単純な文法を用いてシュードノットなどとして割り当てていきます

研究のLimitationとPerspective (私見)

本研究の課題は、予測精度が入力アラインメントデータの質と量に大きく依存する点です。CaCoFold-R3Dは、進化の過程で保存された共変動シグナルを強力な手がかりとしますが、解析対象のRNAファミリーに十分な数の多様な配列がなければ、このシグナルは弱まり、性能が低下します。実際に論文では、共変動の裏付けがないモチーフの偽陽性率(誤検出率)は、裏付けがある場合に比べて約3倍に増加することが示されています 。また、アラインメントに偽遺伝子や無関係な配列が混入していると、シグナルが弱まることも指摘されています 。したがって、進化的情報が乏しいRNAファミリーに対して高精度な構造を予測するためには、共変動に代わる新たな情報源の活用や、弱いシグナルを増幅させる計算手法の向上が必要と思われます。

それを踏まえたうえで、今後の研究では本手法の確率文法モデルとディープラーニング手法の融合が期待されます。共変動に強く依存するだけでなく、CaCoFold-R3Dが持つRNA構造の文法的な知識や3Dモチーフの情報を、配列情報から直接パターンを学習するディープラーニングモデル(AlphaFold3など)に組み込むことで、相補的な予測が可能になります 。このハイブリッドアプローチにより、進化的情報が豊富なRNAファミリーでは共変動を、情報が乏しいファミリーではディープラーニングの予測を重視するなど、状況に応じて最適な手法を組み合わせることで、あらゆるRNAに対してより頑健で高精度な構造予測が実現できると考えられます。