Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年9月にNature Methods誌に発表された「DeepMVP: deep learning models trained on high-quality data accurately predict PTM sites and variant-induced alterations」(DeepMVP:高品質なデータで学習した深層学習モデルによる、翻訳後修飾(PTM)部位と遺伝子変異が誘発する変化の高精度予測) という論文をご紹介します。米国ベイラー医科大学のBing Zhang博士が率いるチームによる研究です。
忙しい方向けのSummary
この研究は、タンパク質の機能に重要な翻訳後修飾(PTM)と、遺伝子バリアント(変異)がPTMに与える影響を高精度で予測する新しい深層学習(ディープラーニング)フレームワーク「DeepMVP」を開発したものです。
研究の背景として、PTMを変化させる遺伝子バリアントは多くの疾患の原因となりますが、これを正確に予測するツールの開発は、高品質な大規模学習データが不足しているため困難でした。
この課題を解決するため、研究チームは2つの主要な貢献をしました。
PTMAtlasの構築: 241の公開されている質量分析(MS)データセットを系統的に再解析し、6種類(リン酸化、アセチル化、メチル化、SUMO化、ユビキチン化、N-グリコシル化)のPTMに関する、39万箇所以上の高品質なPTM部位を網羅したデータベース「PTMAtlas」を構築しました。
DeepMVPの開発: PTMAtlasの高品質なデータを学習させ、PTM部位とバリアントによるその変化(増加・減少)を高精度に予測する深層学習モデル「DeepMVP」を開発しました。
DeepMVPは、既存の予測ツールを全てのPTMタイプで大幅に上回る性能を示しました。さらに、疾患関連の遺伝子バリアント解析に応用したところ、文献やがんのプロテオームデータと高い一致を示し、いくつかの変異については、PTM変化を介した新たな疾患メカニズムの仮説を提唱し、その一部を実験的に証明することにも成功しました。
この研究成果は、遺伝子型と病気の表現型を結びつける重要な機能的知見を提供し、PTM研究を加速させる強力なリソースとなります。
コードはこちら。
これまでの研究とその課題の概要
タンパク質の機能は、翻訳後修飾(PTM)という化学的な修飾によって厳密に制御されています。遺伝子のミスセンス変異(アミノ酸配列を変える変異)がこのPTMを破壊することが、多くの疾患を引き起こす重要なメカニズムとして知られるようになってきました。
このような変異の影響を予測するため、これまでにも計算科学的なツールが開発されてきましたが、主に2つの大きな課題がありました。初期の予測ツールは、特定のPTM(主にリン酸化)や、特定の酵素(キナーゼ)に特化して設計されていました。そのため、よく研究されている酵素が関わるリン酸化以外の、多様なPTMや、まだあまり知られていない酵素が関わる現象には適用できないという限界がありました。深層学習(ディープラーニング)を用いた新しいモデルが登場し、適用範囲は広がりましたが、その予測精度は依然として限定的でした。その根本的な原因は、AIの学習に用いる「大規模で高品質な学習データセット」が不足していたことです。既存のモデルは、公開されているPTMデータベースを学習データとしていましたが、これらのデータベースにはデータベース全体として統一された品質管理が行われていないとか、 研究ごとに用いられるタンパク質のIDや品質基準が異なるためデータを標準化して統合するのが困難だとかの課題がありました。
Figureの読み解きポイント
- Figure 1: 研究デザインの概要 本研究全体のワークフローが図示されています。まず、公開されている質量分析(MS)データセットを大規模に収集・再解析し、品質管理を経て、高信頼な翻訳後修飾(PTM)部位のデータベース「PTMAtlas」を構築します。次に、このPTMAtlasを学習データとして用い、深層学習モデル「DeepMVP」を開発します。最終的に、DeepMVPを用いて正常配列と変異配列のPTM確率を比較し、遺伝子バリアントがPTMを増減させる影響を予測します。これらのツールとデータベースは、ウェブポータル等を通じて公開されます。
- Figure 2: PTMAtlasの構築と他データベースとの比較 新しく構築した高品質PTMデータベース「PTMAtlas」の網羅性と優位性が示されています。241の公開データセットを再解析することで、6種類のPTMタイプにわたり合計397,524箇所のPTM部位が同定されました。既存の主要データベース(PSP, UniProt等)と比較して、特にアセチル化、メチル化、SUMO化、ユビキチン化において最大のサイト数を収録しており、網羅性が高いことが示されています。また、多くの実験的証拠(PSMs)に支持される部位の割合が高く、データの品質が担保されていることも示唆されています。
- Figure 3: DeepMVPによるPTM部位予測の評価と応用 開発された深層学習モデル「DeepMVP」のPTM部位予測における高い性能が示されています。6種類のPTMすべてにおいて、既存の8つの予測ツールと比較した結果、DeepMVPが最も高い予測精度(AUROC)を達成しました。この高い性能は、学習データの質と量が重要であることを示唆しています。さらに、このモデルをSARS-CoV-2プロテオームに適用したところ、実験的に同定されたリン酸化部位の80%以上を再現することに成功し、モデルの汎用性と正確性が独立したデータセットで証明されました。
- Figure 4: バリアントのPTMへの影響予測の検証 DeepMVPが遺伝子バリアントによるPTMの変化を正確に予測できることを、実験データを用いて検証した結果が示されています。まず、文献から収集した実験的に証明済みの235のバリアント-PTMペアを評価したところ、DeepMVPはPTMの変化の方向性(増加または減少)を97%という高い正解率で予測しました。次に、がんのプロテオゲノムデータ(CPTAC)を用いたより網羅的な検証では、DeepMVPによる予測が質量分析で実際に観測されたデータと高い一致を示し、他のツールよりも優れた性能を持つことが確認されました。
- Figure 5: 病原性胚細胞系列バリアントへのDeepMVPの応用DeepMVPを用いて、疾患の原因となる遺伝子バリアントがどのようにタンパク質の機能に影響を与えるかを解析した事例が示されています。ClinVarに登録されている病原性バリアントの約32%がPTMを変化させると予測されました。具体例として、パーキンソン病関連のLRRK2遺伝子変異がリン酸化を減少させるという既知のメカニズムと一致する予測(c, d) や、マルファン症候群、リドル症候群、ALSといった疾患について、PTM変化を介した新たな病態発症メカニズムの仮説を提唱できることが示されています。
- Figure 6: がんにおける体細胞変異のPTMへの影響の網羅的解析と実験的証明 DeepMVPをがんの体細胞変異の大規模解析に応用し、その予測が実験的に正しいことを証明した結果が示されています。33種類のがんにおける約80万の体細胞変異のうち、31%がPTMを変化させると予測されました。特に、がん抑制遺伝子であるTP53のG266R変異とVHLのL169P変異が、それぞれS269とS168のリン酸化を増加させるという予測(c, e) について、実際に細胞株を用いた質量分析実験を行った結果、予測通りにリン酸化が増加していることが確認されました(g)。これは、DeepMVPの予測の信頼性の高さを強力に裏付けるものです。
手法の概説
データセットの構築 (PTMAtlas)
AIモデルの性能は学習データの質に大きく依存するため、研究チームはまず、信頼性の高い大規模な学習データセット「PTMAtlas」を構築しました。PRIDEなどの公共データベースから、6種類の翻訳後修飾(PTM)に関する241のヒト質量分析(MS/MS)データセットを収集しました。すべての生データを、標準的なプロテオミクス解析ソフトウェアであるMaxQuantを用いて統一された手順で再解析しました。これにより、異なる研究室で取得されたデータ間のばらつきを最小化しました。
誤検出率(FDR)を複数のレベル(PSM、サイト、データセット全体)で1%未満に厳しく制御し、さらに修飾部位の局在確率が0.5を超えるもののみを選別しました。このプロセスにより、ノイズが少なく信頼性の高いPTM部位データのみが抽出されます。
PTMAtlasに収録されたPTM部位をポジティブデータに、PTMが確認されていないタンパク質領域から既知のPTMデータベースに存在しない部位を慎重にサンプリングしてネガティブデータを作成しました。作成したデータセットは、学習用(81%)、検証用(9%)、そして性能評価のための独立したテスト用(10%)にランダムに分割されました 。
AIモデルの構築 (DeepMVP)
高品質なPTMAtlasを基に、PTM部位とバリアントの影響を予測する深層学習モデル「DeepMVP」が構築されました。局所的な配列パターンを効率的に抽出できるCNN (畳み込みニューラルネットワーク) と、アミノ酸配列のような系列データにおける長期的な依存関係を捉えるのが得意な双方向GRU (Gated Recurrent Units)を組み合わせた、ハイブリッドな構造を採用しています。
最適なネットワーク構造(層の数やパラメータなど)や、入力する最適な配列長を自動的に見つけるために、遺伝的アルゴリズム (Genetic Algorithm) を用いて探索・最適化を行いました。これにより、人手による試行錯誤よりも効率的に高性能なモデル構造を発見できます。
モデルの頑健性(ロバスト性)と予測精度をさらに向上させるため、遺伝的アルゴリズムで得られた上位10個のモデルの予測を統合するアンサンブル手法を取り入れています。
研究のLimitationとPerspective (私見)
本研究の限界は、主にAIモデルがタンパク質の局所的な一次配列情報のみに依存している点にあります。AIはアミノ酸配列(最大61残基)からPTMの有無を高い精度で予測しますが、タンパク質全体の立体構造(3D構造)や細胞内の環境といった、より高次の情報を考慮していません。そのため、予測された部位が実際にはタンパク質の内部に埋もれていて酵素がアクセスできない場合でも、偽陽性として予測してしまう可能性があります。また、学習データが質量分析の標準的な手法(トリプシン消化)に由来するため、検出されにくいペプチド上のPTMを見逃す「トリプシンバイアス」も存在し、偽陰性の原因となり得ます。
それを踏まえ、今後の展望として、タンパク質言語モデル(PLM)と立体構造情報の統合が期待されます。ESM-2のようなPLMが生成する埋め込み表現や、AlphaFoldによる高精度な立体構造予測を入力特徴量に加えることで、AIはアミノ酸の進化的・物理化学的な文脈を理解できるようになります。これにより、単にPTMの有無を予測するだけでなく、「どの酵素が担当するのか」を推測したり、「細胞内の特定の状況下で修飾が起こるか」といった、より生物学的に深い問いに答えることが可能になると考えられます。医療応用としては、個々の患者の遺伝子変異がどの酵素の働きを異常にさせているかを特定し、その酵素を標的とした精密医療(プレシジョン・メディシン)の実現につながると期待されます。
