【論文解説】AI支援パイプラインによる腸内細菌の胆汁酸代謝酵素の同定 – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年10月にCell誌に発表された「Identification of gut microbial bile acid metabolic enzymes via an AI-assisted pipeline」(AI支援パイプラインによる腸内細菌の胆汁酸代謝酵素の同定) という論文をご紹介します。北京大学基礎医学院のChangtao Jiang教授のチームが主導した中国国内の研究機関による大規模な共同研究です。

忙しい方向けのSummary

この研究は、AIを活用して、腸内細菌が作り出す未知の胆汁酸（BA）代謝酵素を発見するための新しい手法「BEAUT」を開発したという報告です。

胆汁酸は、宿主の健康に重要な役割を果たしますが、腸内細菌によってどのように多様な種類に作り変えられるのか、その詳細、特にどの酵素が関わっているのかは不明な点が多く、解明が困難でした。研究チームが開発したAIパイプライン「BEAUT」は、膨大なゲノムデータの中から胆汁酸の代謝に関わる可能性のある酵素を60万以上も予測することに成功しました。この中から、実際に機能を持つ酵素を実験的に検証し、特に2つの重要な発見をしました。

1つは、モノアシル化胆汁酸と呼ばれる特定の胆汁酸を分解する、これまで知られていなかった加水分解酵素「MABH」を同定しました。もう1つは、炭素の骨格が伸長した、全く新しい構造を持つ胆汁酸「3-acetoDCA」と、それを合成する酵素「ADS」を発見しました。さらに、この新規胆汁酸3-acetoDCAは、ヒトの腸内に広く存在し、プロバイオティクスとして知られる乳酸菌（Lactobacillus）の増殖を選択的に促進するという重要な生理機能を持つことも明らかにしました。

この研究は、AIを用いて未知の代謝物や酵素を効率的に発見する「トップダウン」型のアプローチの有効性を示し、腸内細菌と宿主の相互作用の理解を大きく前進させるものです。

コードはこちらにあります。

これまでの研究とその課題の概要

これまでの研究では、腸内細菌が私たちの健康に大きな影響を与える多様な活性代謝物を作り出すことが知られており、中でも胆汁酸（Bile Acids, BAs）は宿主と細菌の間の重要な情報伝達物質として認識されていました。肝臓で作られた胆汁酸は腸内で細菌の酵素によって多種多様な分子に作り変えられ、その数は数百種類にも及びます。この細菌による多様な修飾は、宿主の機能を調節するための「微生物の暗号」のようなものだと考えられていました。

しかし、そこにはいくつかの大きな課題がありました。数百種類もの胆汁酸が見つかっている一方で、それらを生成する酵素の特定は著しく遅れており、機能が解明されていたのは10種類にも満たない状況でした。この知識の欠如は、病気の治療を目的として腸内細菌を改変したり、標的を定めたりする上での大きな障壁となっていました。また、膨大なゲノムデータの中からこれらの酵素を効率的に探し出す有効な探索手法が存在しなかったことも問題でした。さらに、これまで知られていた修飾はすべて官能基で起こるもので、胆汁酸の炭素骨格自体を変化させるような未知の化学反応が起こりうるのかどうかは、全く調査されていませんでした。

Figureの読み解きポイント

Figure 1: AIモデル「BEAUT」の開発と予測性能 新しく開発されたAI支援パイプライン「BEAUT」のワークフローと、その予測結果の全体像が示されています。データベースから既知の胆汁酸代謝酵素の情報を収集し、AIモデルを開発します (A)。その際、既知の酵素が基質を結合する「ポケット」と呼ばれる部分構造の類似性に基づいて学習データを拡張し、モデルの予測能力を高める工夫がなされています (B, C)。このモデルを用いてヒトの腸内細菌ゲノムを探索した結果、60万を超える膨大な数の酵素候補が予測され、それらは多様な細菌分類群にわたって分布していることが明らかになりました (D, E, F)。
Figure 2: BEAUTモデルの予測精度の実験的検証 AIモデル「BEAUT」の予測が生物学的に正しいかを、実際の実験によって検証した結果が示されています。まず、108種類の腸内細菌株において、BEAUTが予測した酵素の数と、実験的に測定した菌株自身の胆汁酸代謝能力との間に、有意な正の相関関係があることが示されました (B, C)。次に、予測された酵素候補の中から102種類をランダムに選び、個別に活性を測定したところ、そのうち47種類が実際に胆汁酸を分解する能力を持つことが確認されました (D, E, F)。これらの結果は、BEAUTの予測が信頼性が高く、未知の機能を持つ酵素を効率的に発見する上で強力なツールであることを証明しています。
Figure 3: 新規加水分解酵素MABHの発見事例 BEAUTとオミクス解析を組み合わせ、特定の機能を持つ未知の酵素を発見する過程が示されています。まず、ヒト糞便の解析から、特定の胆汁酸（3-aceCAなど）の量とHungatella hathewayiという細菌の存在量との間に負の相関があることを見出しました (D)。これは、この細菌が胆汁酸を分解している可能性を示唆し、実際に培養実験で確認されました (E)。そこで、BEAUTを用いてこの細菌のゲノムから酵素候補を予測・絞り込み、最終的に3-aceCAを特異的に加水分解する新規酵素を発見、「MABH」と命名しました (F)。
Figure 4: 未知の胆汁酸3-acetoDCAと合成酵素ADSの発見 本研究の最も重要な発見である、全く新しい胆汁酸とその合成経路の同定プロセスが描かれています。 BEAUTの予測した酵素群の中に、基質である3-oxoDCAを消費するものの、生成物が不明なものが見つかりました (A, B)。この未知の生成物を大規模に精製し、化学構造を解析した結果、これまで報告のない新しい炭素骨格を持つ胆汁酸「3-acetoDCA」であることが判明しました (C-F)。この新規物質を合成する酵素群を「ADS」と名付け、特にBacteroides ovatusという細菌が主要な生産菌であることを特定しました (I)。実際にこの菌のADS遺伝子を欠損させると3-acetoDCAが産生されなくなることから、この酵素が合成に必須であることが証明されました (J, K)。
Figure 5: 合成酵素ADSの構造と反応メカニズム 新規酵素ADSが、どのようにして未知の胆汁酸3-acetoDCAを作り出すのか、その仕組みを原子レベルで解明した結果が示されています。 X線結晶構造解析により、B. ovatus由来のADSタンパク質の詳細な立体構造を決定しました (D)。この立体構造情報をもとに、基質が結合し化学反応が起こる「活性部位」を特定し、反応に不可欠なアミノ酸残基を突き止めました (E, F)。これらの知見に基づき、ADSがピルビン酸と3-oxoDCAという2つの分子から新しい炭素-炭素結合を形成し、3-acetoDCAを合成する具体的な化学反応のメカニズムが提唱されています (G)。
Figure 6: 新規胆汁酸3-acetoDCAの生理機能の解明 発見された新規胆汁酸3-acetoDCAが、私たちの腸内でどのような役割を果たしているのかを明らかにした結果がまとめられています。まず、世界中のヒトの腸内細菌データを解析した結果、3-acetoDCAの合成遺伝子は広く分布しており、実際にヒトの糞便中にも存在することが確認されました (A-F)。この分子の最も重要な機能として、プロバイオティクスとして知られる乳酸菌（Lactobacillus）属の増殖を選択的に促進することが、培養実験、糞便コミュニティ培養、さらにはマウス個体を用いた実験で一貫して示されました (G-J)。さらに、マウスに3-acetoDCAを投与すると、腸内の乳酸菌が増加し、健康に有益とされるトリプトファン代謝物の産生が亢進することも示され、3-acetoDCAが腸内環境を介して宿主の健康に貢献する可能性が示唆されました (M-P)

手法の概説

AIモデル学習用データセットの構築

質の高い学習データセットの準備が、AIモデルの性能を決定づける最も重要なステップです。この研究では、既知のデータが少ないという課題を克服するため、独創的なデータ拡張手法を用いています。

まず、ポジティブデータとしては胆汁酸を基質とすることが分かっている酵素の配列を集めました。公的データベース「RHEA」および「UniProt」から収集し、論文からの情報を追加後、重複を除いて151配列をプライマリーな正例としました。ネガティブデータとしては、胆汁酸とは反応しない他の酵素の配列として約10万配列を収集しました。

151配列という少ない正例データだけでは、AIは十分に学習できません。そこで、研究チームはタンパク質の立体構造に着目しました。まず、AlphaFold2やESMFoldといったツールで正例酵素の3D構造を予測します。次に、「Cavity」 (J. Mol. Biol. 2023)というプログラムで、酵素が基質を結合する「ポケット」と呼ばれるくぼみ部分を特定します。そして、「PocketMatch」(BMC Bioinformatics 2008)というアルゴリズムを用い、このポケットの形状が似ているタンパク質を、胆汁酸代謝能力が高いと報告されている7種の細菌ゲノムから探索しました。この「ポケットの形状が似ている＝同じような基質（胆汁酸）を結合する可能性が高い」という仮説に基づき、新たに約2,300配列を拡張されたポジティブデータとして追加しました。これにより、学習データの量が大幅に増え、AIの予測精度が向上しました。

AIモデル「BEAUT」の構築と学習

構築されたデータセットを用いて、タンパク質配列が胆汁酸代謝酵素である確率を予測するAIモデルを開発しました。タンパク質配列に「ESM-2」と呼ばれるタンパク質言語モデルを使用し、1280次元のベクトルに変換しています。

モデル本体は、dense neural networkからなっており比較的シンプルな構造です。ESM-2から得られたベクトルを入力とし、2つの隠れ層を経て、「胆汁酸代謝酵素であるか、そうでないか」の2択の確率を出力します。学習の際には、データセットを5つに分割して交差検証（5-fold cross-validation）を行うことで、モデルの汎化性能（未知のデータに対する予測能力）を高めています。

バイオインフォマティクスによる大規模スクリーニングと解析

学習済みのBEAUTモデルを用いて、実際の微生物ゲノムデータから未知の酵素を探索し、その機能を推定しています。ヒトマイクロバイオームプロジェクト（HMP）の参照ゲノムに含まれる約230万のタンパク質配列に対してBEAUTによる予測を実行し、最終的に614,616配列を胆汁酸代謝酵素の候補としてリストアップしました。

予測された膨大な候補配列に対し、複数のバイオインフォマティクスツールを組み合わせることで、さらに詳細な情報を付与し、有望な候補を絞り込みます。予測された配列がどのような機能を持つ可能性があるか、大まかな機能分類（アノテーション）を行うeggNOG-mapper、どのような化学反応を触媒する酵素か（EC番号）を予測するCLEAN、配列の類似性に基づいて候補をクラスタリングし同じ機能を持つ酵素ファミリーを特定するEFI (Enzyme Function Initiative) toolなどです。

特に興味深い候補（本研究ではADS酵素）については、AutoDock Vinaなどの分子ドッキングシミュレーションツールを用い、酵素の活性部位に基質がどのように結合するのかをコンピュータ上で予測し、反応メカニズムの解明に役立てています。

遺伝子・酵素レベルでの検証

BEAUTが予測した候補酵素の遺伝子を人工的に合成し、大腸菌に組み込んで強制的に発現させます（異種発現）。この大腸菌を培養し、目的の胆汁酸を分解する能力があるかどうかを測定することで、酵素の機能を直接的に検証しました。

また、CRISPR-Cas9遺伝子編集技術を用いて、B. ovatusが持つADS遺伝子を破壊（ノックアウト）した変異株を作成しました。この変異株が3-acetoDCAを全く作れなくなったことを確認することで、「ADS遺伝子が3-acetoDCAの合成に必須である」という因果関係を証明しました。

ADS遺伝子を組み込んだ大腸菌を6リットルという規模で大量培養し、3-acetoDCAをグラム単位で生産させました。培養液から溶媒抽出やシリカゲルカラムクロマトグラフィー、HPLCといった手法を段階的に用いて、目的の物質だけをミリグラム単位で高純度に分離・精製しました。精製した純粋なサンプルに対し、NMR（核磁気共鳴法）とX線結晶構造解析を行いました。これにより、分子を構成する原子の結合様式や立体的な配置を完全に決定し、世界で初めて3-acetoDCAの化学構造を明らかにしました。

動物実験と生理機能の解析

SPF（無菌に近い環境で飼育された）マウスに対し、精製した3-acetoDCAを直接経口投与（oral gavage）しました。投与後のマウスから糞便や組織を採取し、腸内細菌叢の変化（16S rRNA解析）や、腸内の代謝物（インドール化合物など）の濃度変化（LC-MS/MS解析）を測定しました。これにより、3-acetoDCAが腸内環境を介して生体に影響を及ぼすことを示しました。

培養細胞を用いた実験で、3-acetoDCAが既知の胆汁酸受容体（FXRやTGR5など）を活性化するかどうかを調べています。結果として、これらの受容体は活性化せず、3-acetoDCAが既存の胆汁酸とは異なる作用機序を持つ可能性が示されました。

この研究のキモはどこ? (私見)

「これまでの研究とその課題」に書いた内容を踏まえ、それを乗り越えトップジャーナルに掲載される大きな研究成果になったのは何かポイントがあるはずです。私見ですが先行研究にはないこのような工夫が挙げられると思います。

本研究が成功した最大の要因は、データセットの作り方にあります。AIに学習させるための「お手本」（既知の胆汁酸代謝酵素）のデータが少なすぎることに対して、研究チームは、タンパク質のアミノ酸配列（1次元情報）だけでなく、立体構造（3D情報）に着目しました。既知の酵素が胆汁酸を結合する「ポケット」と呼ばれる部分の3D形状をコンピュータで特定し、「ポケットの形が似ていれば、同じ機能を持つ可能性が高い」という仮説のもと、ゲノムデータの中からこのポケットと似た形状を持つ未知のタンパク質を大量に探し出しました。このようにして、AIが学習するための高品質な「お手本データ」を人工的に増やす（データ拡張）ことに成功したのです。これにより、少ない元データからでも酵素の持つ本質的な特徴をAIが深く学習できるようになり、極めて高い精度での予測が可能になりました。これが、この研究における最大の計算科学的な成功要因です。

研究のLimitationとPerspective (私見)

本研究の課題は、AIが予測した膨大な数の酵素候補のうち、その具体的な機能が解明されたのはごく一部に過ぎない点です。 BEAUTは60万以上の候補をリストアップし、その中から40種類以上の活性を持つ酵素を同定しましたが、それらがどのような化学反応を触媒し、何を生成するのかという詳細な機能は、今後の地道な実験による検証を待つ必要があります。また、AIモデル「BEAUT」自体の予測精度も、学習の元となった「機能が検証済みの胆汁酸代謝酵素」のデータが現状ではまだ少ないことに制約されています。つまり、AIの性能を向上させるために必要な実験データが不足しているという、一種のボトルネックが存在します。

それを踏まえたうえで、今後の研究ではまず、発見された新規胆汁酸3-acetoDCAの生理機能と疾患における役割をさらに深く解明することが期待されます。特に、乳酸菌の増殖を介した代謝保護作用は、糖尿病などの代謝性疾患に対する新たな治療戦略につながる可能性があります。情報科学の観点からは、BEAUTのフレームワークを胆汁酸以外の代謝物（短鎖脂肪酸など）の酵素探索へと拡張することや、新たな実験データが蓄積されるたびにAIを再学習させて予測精度を継続的に向上させるというフィードバックループを構築することが重要な展望となります。