【論文解説】タンパク質工学のための生物物理学ベースのタンパク質言語モデル – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回はオンライン先行公開として2025年9月にNature Methods誌に発表された「Biophysics-based protein language models for protein engineering」(タンパク質工学のための生物物理学ベースのタンパク質言語モデル) という論文をご紹介します。米国ウィスコンシン大学マディソン校の生物統計学・医用情報学科のAnthony Gitter博士と、米国デューク大学の生物医工学科のPhilip A. Romero博士のチームによる共同研究です。

忙しい方向けのSummary

この研究は、METL (Mutational Effect Transfer Learning) という新しいAIフレームワークを提案するものです。METLは、タンパク質の設計や改良（タンパク質工学）を効率化することを目的としています。従来の多くのAIモデルが、生物の進化の過程で蓄積された大量のタンパク質配列データ（進化情報）を学習に利用していたのに対し、METLはコンピュータによるシミュレーションで得られる「生物物理学的なデータ」を事前学習に利用する点が大きな特徴です。これにより、METLは以下のような強みを発揮します。

タンパク質の構造やエネルギー状態といった物理的な原理を学習するため、非常に少ない実験データからでも高い予測性能を示します。
学習データにない未知のアミノ酸変異や、変異が起きたことのない位置での影響を予測する「外挿性能」に優れています。

実際に、わずか64個の緑色蛍光タンパク質（GFP）のデータだけを学習させたMETLが、新たに機能するGFP変異体を設計できることを実験で証明しており、タンパク質工学における本フレームワークの有用性を示しています。

コードはこちらにあります。

これまでの研究とその課題の概要

近年、AI、特に「タンパク質言語モデル（Protein Language Models, PLMs）」がタンパク質の研究に革命をもたらしています。これは、人間の言語をAIが学ぶのと同じように、アミノ酸の配列を「タンパク質の言語」と見なし、その文法や意味を学習させるアプローチです。これらのAIモデル（例えばUniRepやESM）は、生物の進化の過程で蓄積された何億もの天然タンパク質の配列データを学習します。大量の配列データを学習することで、AIはタンパク質の構造や機能に関する複雑なパターンを暗黙的に学び取ります。その結果、少ない実験データからでも、酵素の活性や安定性といったタンパク質の特性を予測する強力なツールとして使われるようになりました。しかし、この進化情報に基づくアプローチには大きな課題がありました。それは、「タンパク質の機能を支配する『物理的な原理』を無視している」という点です。これまでのモデルは、タンパク質研究で100年近くにわたって蓄積されてきた、構造の安定性やエネルギー状態といった生物物理学的な知見を直接活用していません。この「物理原理の欠如」は、タンパク質の機能を改良する「タンパク質工学」において、AIが未知の変異に対して正確な予測を行う上での大きな壁となっていました。

Figureの読み解きポイント

Figure 1: METLのコンセプトと全体像 新しく提案されたMETLフレームワークの全体像が示されています。METLは、コストのかかる実験データを、コンピュータシミュレーションで生成した大量の生物物理学的データで補うというコンセプトに基づいています。学習プロセスは、まずシミュレーションデータでタンパク質の物理的な基本原理を「事前学習」し、その後、実際の実験データで特定の機能予測のために「ファインチューニング」するという2段階で行われます。また、単一のタンパク質に特化したMETL-Localモデルと、多様なタンパク質に適用可能なMETL-Globalモデルの2種類があることも示されています。
Figure 2: 学習データ量と予測精度の関係 11種類のタンパク質データセットを用いて、学習に使う実験データの量と各AIモデルの予測精度を比較した結果が示されています。グラフから、学習データが少ない状況において、生物物理シミュレーションで事前学習したMETL-Local（紫色の線）が、進化情報に基づくESM-2（オレンジ色の線）などの既存モデルよりも高い性能を発揮することがわかります。これは、METLが少データ環境でのタンパク質機能予測に特に優れていることを証明しています。
Figure 3: 様々な外挿タスクにおける性能比較 タンパク質工学で実際に求められる4種類の未知予測（外挿）タスクについて、各モデルの性能を比較しています。特に、学習データでは変異がなかった位置での影響を予測するという非常に困難な「位置の外挿」タスクにおいて、METL-Local（紫色の点）が高い性能を示しました。この結果は、METLが学習データにない全く新しい変異体の機能を予測する上で、強力な能力を持つことを示唆しています。
Figure 4: シミュレーションデータと実験データの価値の関係性 METLの性能が、事前学習に使うシミュレーションデータと、ファインチューニングに使う実験データの量にどう依存するかを可視化したものです。このヒートマップから、シミュレーションデータを増やすことで、コストのかかる実験データが少量でも高い性能を達成できることがわかります。この分析により、例えば「シミュレーションデータ約29件の追加が実験データ1件分の価値に相当する」といった費用対効果の評価が可能になり、効率的な実験計画の立案に貢献できることが示唆されています。
Figure 5: 機能特異的なシミュレーションによるMETLの性能向上 事前学習の内容を工夫することで、METLの性能をさらに高められることを示した図です。ここでは、タンパク質の一般的な構造情報に加えて、特定の機能（GB1とIgGの結合）に関するシミュレーションデータを事前学習に追加したモデル「METL-Bind」を開発しました。その結果、特に少ない実験データで学習させた場合に、タンパク質の結合界面における予測精度が大幅に向上し、通常のMETL-Localを上回る性能を達成しました。
Figure 6: 少データからのGFP設計と実験的検証METLが実世界のタンパク質工学に応用可能であることを実験的に証明した結果です。わずか64個という非常に少ない実験データで学習させたMETL-Localモデルを用いて、新しいGFP（緑色蛍光タンパク質）変異体を20種類設計しました。実際にこれらのタンパク質を合成して機能を評価したところ、設計した20種類のうち16種類が蛍光を発し、比較対象としてランダムに作った変異体の成功率を大幅に上回りました。これは、METLが少データからでも機能的なタンパク質を創出できることを実証した強力な証拠です。

手法の概説

データセットの構築

AIを学習させるための教師データとして、タンパク質の配列とその物理化学的特性を関連付けた大規模なデータセットをコンピュータ上で生成しました。METLの事前学習には、Rosettaという著名なタンパク質モデリングソフトウェアが用いられました。Rosettaは、タンパク質の3次元構造から安定性やエネルギー状態など、様々な生物物理学的な特性値（論文中では55種類のスコア）を計算できます。例として、(1) ref2015というスコア関数を用いて計算される、ファンデルワールス力、溶媒和エネルギー、水素結合といった、原子レベルでの詳細なエネルギー評価が含まれた全原子エネルギー項 (Full-atom energy terms)、(2) score3というスコア関数を用いて計算される、より単純化（粗視化）されたエネルギー評価であるセントロイド原子エネルギー項 (Centroid-atom energy terms)などです (完全なリストと詳細な説明は、論文の補足情報であるSupplementary Table 1およびSupplementary Table 5に記載あり)。

METL-Local用には、特定のタンパク質（GFPなど）の野生型配列に対し、最大5アミノ酸置換の変異をランダムに導入し、約2,000万種類の変異体配列データを生成しました。これにより、一つのタンパク質の周辺に特化した詳細な「地図」を作成します。

METL-Global用には、汎用的なモデルを構築するため、多様な構造を持つ148種類のタンパク質をベースに、それぞれ約20万種類、合計で約3,000万種類の変異体配列データを生成しました。

生成された膨大な生データは、欠損値の除去、外れ値の削除（修正z-scoreを使用）、各スコアの標準化（平均0、標準偏差1に変換）といった統計的な処理を経て、AIが学習しやすい形に整えられました。

METLのアーキテクチャ

METLのAIモデルの心臓部はTransformerエンコーダーで構成されています。モデルのサイズは異なり、METL-Localは約250万パラメータ、METL-Globalは約2,000万パラメータとなっています。アミノ酸配列を単なる1次元の文字列として扱うのではなく、タンパク質の3次元構造（PDBファイル）を事前に入力として利用します。具体的には、アミノ酸同士が3次元空間でどれだけ近いかに基づいて「距離」を定義し、その情報をモデルに組み込んでいます。これにより、AIはタンパク質の立体構造を考慮した学習が可能になり、特に「位置の外挿」タスクで高い性能を発揮する要因となっています。

AIをやっている方向けに少し補足すると、3D相対位置埋め込みはTransformerのSelf-Attention機構に対しタンパク質の3次元構造に基づく強力な帰納的バイアスを導入するための技術です。これにより、モデルはアミノ酸の一次配列上の距離だけでなく、3次元空間における物理的な近接性を直接的に考慮した情報処理が可能になります。その実装は、以下のステップで行われます。

構造のグラフ表現化: まず、入力されたタンパク質の3次元構造（PDBファイル）を、残基をノードとする無向グラフとして表現します。任意の2つの残基間にエッジを張るかどうかの判定は、各残基のベータ炭素（Cβ）原子間のユークリッド距離に基づいて行われます。この研究では、Cβ間距離が8Å以内の場合にエッジが設定されます。これにより、タンパク質の3次元的な接触マップ（コンタクトマップ）がグラフとして表現されます。
グラフ距離の算出: 次に、残基ペア（i,j）間の「相対距離」を、上記で構築したグラフ上の最短経路長（Minimum Path Length）として定義します。これは、Å単位の物理的な距離そのものではなく、グラフ上で何ホップ分離れているかを示す離散的な指標です。
距離のクリッピング（離散化）: 算出された最短経路長は、計算効率と汎化性能の観点から、最大値3でクリッピングされます。これにより、無限の可能性を持つ空間的関係が、以下の4つのカテゴリーに離散化されます。距離 0 (自分自身)、距離 1 (8Åコンタクトグラフにおける直接の隣接ノード)、距離 2 (2ホップ離れたノード、つまり隣の隣）、距離 3 (それ以上離れた全てのノード)
学習可能な埋め込みベクトルへの変換とAttentionへの統合: 離散化された各距離（0, 1, 2, 3）に対して、それぞれ学習可能な埋め込みベクトル（Learnable Embedding Vector）のペアが用意されます。一つはAttentionのKey用、もう一つはValue用です。Self-Attentionの計算時、各残基のKeyベクトルとValueベクトルを生成する際に、対応する距離の埋め込みベクトルが加算されます。これにより、Attentionスコアの算出に3次元空間上の近接性が直接影響を与え、モデルは学習の初期段階から物理的に相互作用する可能性が高い残基ペアに優先的に注意を向けるようになります。

これまでの1次元のアプローチによる標準的な相対位置埋め込みは、一次配列上のオフセット（例：j−i）のみを考慮するのに対し、この3Dアプローチはタンパク質のフォールディングによって形成される空間的な隣接関係を捉えます。この構造的バイアスの導入こそが、METLが特に位置の外挿タスクなどで高い性能を示す根源的な要因となっています。Extended Data Fig. 1に示されるように、本手法を用いたモデルのAttention Mapは、タンパク質の残基間距離行列と酷似したパターンを形成し、その有効性を視覚的に裏付けています。

AIモデルの学習と評価

上記で生成した数千万件のRosettaデータセットを使い、AIに「アミノ酸配列からその生物物理学的特性値を予測する」というタスクを解かせます。これにより、AIはタンパク質の物理化学的な原理を内在的に学習します。学習にはAdamWオプティマイザが使用され、複数のGPUを用いた分散並列学習で効率化されています。事前学習済みのモデルをベースに、今度は実際の（少量の）実験データを用いて学習を微調整します。ここでは、特定のタンパク質機能（蛍光の強さなど）を予測する専用の出力層を新たに追加し、そこだけを学習させるFeature Extractionと、モデル全体を再学習させるFine-tuningの2段階戦略が採用されています。モデルの真の性能を測るため、データセットの分割方法が工夫されています。10件から20,480件まで、様々なサイズの学習データセットを多数（最小サイズでは101回）ランダムにサンプリングし、少データ環境での性能を頑健に評価しています。また、外挿タスク分割として「位置」「アミノ酸変異の種類」「変異の組み合わせ」「スコア」の4つの観点で、学習データとテストデータが意図的に異なる分布になるように分割し、モデルの未知予測能力を厳しくテストしています。

性能を客観的に評価するため、線形回帰モデル、CNN、ESM-2（進化情報ベースの言語モデル）、RaSP、EVE、ProteinNPTなど、多数の既存手法と比較を行っています。

In Silicoでのタンパク質設計

わずか64件のデータで学習させたMETL-L-GFPモデルを用いて、予測される蛍光輝度が最大になるようなアミノ酸配列を探索するために、シミュレーティドアニーリングという最適化アルゴリズムが使用されました。これは、山登り法のように局所的な最適解に陥るのを避け、より大域的な最適配列を見つけるための計算手法です。最適化によって得られた10,000個の候補配列から、最終的に実験で試す20個の配列を選ぶために、階層的クラスタリングが用いられました。これにより、単に予測スコアが高いだけでなく、配列の多様性も担保した候補を選択しています。

情報系の方への詳細な説明としては、10,000件の候補配列から多様な5件の配列をダウンサンプリングするために以下のように行なっています。まず、配列間の「距離」を定義する必要があります。単純なハミング距離（一致しないアミノ酸の数）ではなく、アミノ酸の生物化学的類似性を考慮したBLOSUM62行列に基づく距離尺度が採用されました。これにより、例えば似た性質を持つロイシンとイソロイシンの置換は、性質が全く異なるリジンへの置換よりも「距離が近い」と評価され、より生物学的に意味のあるクラスタリングが可能になります。次に、scikit-learnの凝集型階層的クラスタリングを用いて、10,000件の配列をグループ分けします。ボトムアップ式に、最も距離の近い配列（またはクラスタ）から順に併合していく手法で、クラスタ間の距離計算には完全連結法（Complete Linkage）が用いられました。これは、2つのクラスタ間で最も遠い要素間の距離をクラスタ間距離とする方法で、コンパクトなクラスタを生成する傾向があります。クラスタリング後、どのクラスタから代表配列を選ぶかが多様性確保の鍵となります。本研究では、単にランダムに選ぶのではなく、以下の反復貪欲法（iterative, greedy approach）が実装されました。まず、各クラスタ内において、他の全ての配列とのBLOSUM62距離の平均が最も小さい配列を、そのクラスタの代表配列とします。これは、クラスタの「中心」に最も近い配列を選ぶことに相当します。次に、最もサイズの大きいクラスタを最初の選択対象とします。これは、多くの最適化試行が収束した領域は、堅牢な適応度ピークである可能性が高いという仮説に基づいています。そして2つ目以降のクラスタを以下の基準で選択します。まだ選択されていない各クラスタの代表配列と、既に選択済みの全ての代表配列との間の距離を計算します。その平均距離が最大となるクラスタを、次の選択対象とします。このプロセスを、目的の数（5件）に達するまで繰り返します。

この戦略により、最終的に選ばれた5つの代表配列は、配列空間上で互いに最大限離れたクラスタの中心であることが保証されます。これにより、モデルが予測した複数の有望な適応度ピークを効率的に探索し、実験的検証の成功確率を高めることができるのです。

この研究のキモはどこ? (私見)

「これまでの研究とその課題」に書いた内容を踏まえ、それを乗り越えトップジャーナルに掲載される大きな研究成果になったのは何かポイントがあるはずです。私見ですが先行研究にはないこのような工夫が挙げられると思います。

3D相対位置埋め込み: アミノ酸配列を単なる文字列ではなく、タンパク質の3次元構造として捉えるための「3D相対位置埋め込み」という技術的工夫が、物理的に意味のある情報をAIに学習させる上で極めて重要な役割を果たしています。これにより、空間的に近いアミノ酸同士の関係性をAIが理解できるようになりました。
生物物理シミュレーションデータ: AIに学習させる”教科書”として、Rosettaというタンパク質モデリングソフトウェアを用いて生成した、数千万件にも及ぶ生物物理シミュレーションデータを利用しました。これは、長年のタンパク質研究で蓄積されてきた物理化学的な知識（安定性、エネルギー状態など）を、AIが学習できる形式のデータとして大量に与えることに相当します。

研究のLimitationとPerspective (私見)

本研究の主な課題は、事前学習に用いる生物物理シミュレーションの精度に依存する点です。METLの性能はRosettaのようなシミュレーションツールに支えられていますが、これらのツールは現実の物理現象を不完全にしか近似できません。そのため、Rosettaが標準では考慮しないジスルフィド結合が関わる相互作用の予測を苦手とするなど、特定の現象をうまく捉えきれない限界があります。また、多様なタンパク質を学習させた汎用モデルMETL-Globalは、学習データセットに対して過学習する傾向が見られ、未知タンパク質への汎化性能に課題を残しています。さらに、数千万件規模の変異体シミュレーションには膨大な計算コストがかかる点も、実用化に向けたハードルと言えるでしょう。

それを踏まえた上で、今後の研究では生物物理情報と進化情報を統合し、両者の長所を兼ね備えた、より強力なモデルの構築が期待されます。AIに「安定性」と「結合力」といった複数の目標を同時に最適化させるマルチタスク学習を導入すれば、より優れたタンパク質の設計が可能になります。これにより、創薬の分野では特定の疾患標的に作用する高機能な抗体医薬品や、天然には存在しない全く新しい機能を持つ人工タンパク質の創出が加速すると考えられます。さらに、分子動力学や量子化学計算といった、より高度なシミュレーションとMETLを組み合わせることで、酵素の触媒反応などを精密に予測し、新薬開発やグリーンテクノロジーに貢献する次世代のバイオツールとなる可能性を秘めています。