Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にCell誌に発表された「Digital reconstruction of full embryos during early mouse organogenesis」(DeepMVP:高品質なデータで学習した深層学習モデルによる、翻訳後修飾(PTM)部位と遺伝子変異が誘発する変化の高精度予測) という論文をご紹介します。米国ベイラー医科大学のBing Zhang博士が率いるチームによる研究です。
忙しい方向けのSummary
この論文は、マウス胚の初期器官形成期(受精後7.5日〜8.0日)における発生過程を、単一細胞レベルの解像度で3次元的に解明した研究です 。
研究チームは、Stereo-seqという空間トランスクリプトーム解析技術を用いて、マウス胚の連続切片から遺伝子発現データを取得し、これらを統合して「デジタル胚」をコンピュータ上に再構築しました 。これにより、どの細胞が胚のどの場所に存在し、どのような遺伝子を発現しているかを、胚全体で詳細に可視化・解析することが可能になりました。
このデジタル胚を用いて、心臓や消化管などの臓器の元となる中胚葉と内胚葉の細胞が、どのように空間的に配置され、運命決定していくかの詳細な地図(アトラス)を作成しました 。
特に重要な発見として、胚の前方にある胚体部と胚体外部の境界領域に、器官形成の運命を決定づける特殊な領域が存在することを見出し、これを「原基決定ゾーン(Primordium Determination Zone: PDZ)」と名付けました 。このPDZでは、周囲の組織から送られる多様なシグナル(Wnt, BMP, FGFなど)が複雑に交差し、このユニークなシグナル環境が心臓や消化管といった最初の器官原基の形成を駆動していることを突き止めました。
この研究は、初期発生における器官形成の複雑なプロセスを解明するための画期的なリソースを提供し、将来的に先天性疾患の原因解明などにも貢献することが期待されます。
コードはこちらにあります。
これまでの研究とその課題の概要
タンパク質の機能は、翻訳後修飾(PTM)という化学的な修飾によって厳密に制御されています。遺伝子のミスセンス変異(アミノ酸配列を変える変異)がこのPTMを破壊することが、多くの疾患を引き起こす重要なメカニズムとして知られるようになってきました。
このような変異の影響を予測するため、これまでにも計算科学的なツールが開発されてきましたが、主に2つの大きな課題がありました。初期の予測ツールは、特定のPTM(主にリン酸化)や、特定の酵素(キナーゼ)に特化して設計されていました。そのため、よく研究されている酵素が関わるリン酸化以外の、多様なPTMや、まだあまり知られていない酵素が関わる現象には適用できないという限界がありました。深層学習(ディープラーニング)を用いた新しいモデルが登場し、適用範囲は広がりましたが、その予測精度は依然として限定的でした。その根本的な原因は、AIの学習に用いる「大規模で高品質な学習データセット」が不足していたことです。既存のモデルは、公開されているPTMデータベースを学習データとしていましたが、これらのデータベースにはデータベース全体として統一された品質管理が行われていないとか、 研究ごとに用いられるタンパク質のIDや品質基準が異なるためデータを標準化して統合するのが困難だとかの課題がありました。
Figureの読み解きポイント
- Figure 1: デジタル胚の空間的再構築 本研究の基盤技術である、単一細胞解像度の3次元「デジタル胚」の構築プロセスを示した図です。マウス初期胚から連続切片を作成し、空間トランスクリプトーム技術(Stereo-seq)を用いて各切片の遺伝子発現を計測後、これらを computationally に整列させることで、全細胞の位置と遺伝子情報を持つ3Dデジタル胚を再構築するワークフローが描かれています。開発した可視化プラットフォーム「SEU-3D」を用いれば、3Dモデルや任意の断面図として胚をインタラクティブに観察できることも示されています。
- Figure 2: 初期器官形成における遺伝子発現パターンの出現 デジタル胚を用いて、器官が作られ始める時期の遺伝子発現パターンを網羅的に解析した結果が示されています。発生が進むにつれて(E7.5→E8.0)、遺伝子発現のパターンが胚の前後軸などの大まかな空間特異的なものから、心臓や消化管といった器官原基に特異的なものへと劇的に変化していく様子が捉えられています。また、内胚葉・中胚葉・外胚葉という異なる組織層をまたいで、同じ空間領域で発現する「共パターン遺伝子(co-patterned genes)」という新しい概念も提唱されています。
- Figure 3: 原始消化管の発生ランドスケープ この図は、内胚葉から消化管の元(原始消化管)が形成される過程を詳細に追跡したものです。本研究で開発された空間的細胞クラスタリング「coFAST」を用いて、消化管を構成する細胞の多様な亜集団(サブタイプ)が同定されました。最初はカップ状の単純なシートであった内胚葉が、細胞の陥入と再配置を経て、腹側と背側の区別を持つ立体的な管腔構造へとダイナミックに変化していく過程が、マーカー遺伝子の発現と共に可視化されています。
- Figure 4: 中胚葉系譜の発生ランドスケープ 心臓、骨格筋、腎臓など、多様な組織を生み出す中胚葉の発生と分化の様子を解析しています。複雑な細胞の動きを可視化するため、胚の前後軸を仮想的に引き伸ばした「伸長モデル」を導入し、細胞の運命をマッピングしています。これにより、これまで一括りにされがちだった体節傍中胚葉(PAM)や胚体外中胚葉(EEM)にも空間的に不均一な細胞の亜集団が存在し、それぞれが異なる器官形成に関与することが明らかにされました。
- Figure 5: 心臓原基の空間的起源 生体で最初に機能し始める臓器である心臓が、胚のどこから、どのようにして生まれるのかを解明しています 。3D再構築により、心臓原基がJCF、FHF、SHFという3つの異なる細胞集団から構成される三日月様の立体構造を形成していることが示されました。特に、心臓の主要部分を形成するFHF細胞は、胚体外中胚葉(EEM)と咽頭中胚葉(PM)という異なる起源を持つ細胞群が出会う境界領域で新たに出現することが示唆され、心臓形成における重要な知見となっています。
- Figure 6: 原基決定ゾーン(PDZ)の同定 本研究の最も重要な発見の一つである「原基決定ゾーン(Primordium Determination Zone: PDZ)」を提唱した図です。胚葉間のシグナル伝達を網羅的に解析した結果、E7.75の胚の前方、胚体部と胚体外部の境界に、器官形成を促すシグナル分子(リガンド)と、それを抑える分子(阻害因子)の両方の発現が著しく低い、厚さ約70µmの特殊な領域が存在することを発見しました 。このPDZが、心臓や消化管といった器官原基がまさに形成される「現場」であることが示唆されています。
- Figure 7: 心臓原基形成におけるシグナル伝達マップ Figure 6で同定したPDZが、なぜ器官形成の引き金となるのかを、心臓原基形成を例にシグナル伝達の観点から解明しています。PDZに位置する細胞は、胚体外側からはBMPやWntといった分化促進シグナルを、胚体內側からはCer1やSfrp1といった抑制シグナルを非対称的に受け取っていることが示されました。この促進と抑制が拮抗するユニークなシグナル環境こそが、細胞の運命を心筋へと決定づける上で極めて重要であるというモデルが提唱されています。
手法の概説
Stereo-seqとは?
Stereo-seq(Spatial Enhanced Resolution Omics-sequencing)は、組織切片上の遺伝子発現を、その場所(空間座標)の情報とセットで読み取ることができる技術です。まず組織の薄い切片(この研究では10µm)を作成し、その切片を、表面にユニークな空間バーコード(位置情報タグ)が敷き詰められた特殊なチップに乗せます。組織を処理して細胞内のmRNAを放出させると、mRNAはその場に最も近いバーコードに結合します。mRNAをバーコードごと回収して配列を読む(シークエンシングする)ことで、「どの遺伝子が、組織のどの座標に存在したか」を網羅的にマッピングできます。
これにより、「組織構造の中での遺伝子発現」を、非常に高い解像度で可視化することが可能になります。
データ処理と細胞同定
まず、SAWというバイオインフォマティクスワークフローを用いて、シークエンシングされた膨大な生データを処理します。これには、遺伝子配列をマウスゲノムにマッピングするSTARというアライメントツールなどが含まれます。
Stereo-seqデータは元々「スポット」の集まりですが、これを生物学的な「細胞」単位に分ける必要があります。ここではCellposeというAI(深層学習)ベースの画像認識アルゴリズムが用いられ、細胞核の染色画像から個々の細胞の輪郭を自動で検出しています。
作成された切片や細胞データの中から、品質の低いものを統計的に除去するため、SpatialQCという専用ソフトウェアが使われています。
3Dデジタル胚の構築と可視化
各細胞がどの細胞種(心筋細胞、神経細胞など)なのかを決定するため、既存のscRNA-seq(単一細胞RNA解析)の公開データセットを「教師データ」として利用します。Seuratというツールキットに実装されているラベル転送(Label Transfer)という機械学習の手法により、遺伝子発現プロファイルの類似度に基づいて細胞タイプを自動で割り当てています。
注釈付けされた2次元の連続切片画像を、細胞タイプの一致性や形態的な目印を頼りに、計算によって3次元空間上に正しく積み重ねて整列させ、デジタル胚を完成させます。完成したデジタル胚を誰もが直感的に操作・閲覧できるように、SEU-3DというWebベースのインタラクティブなプラットフォームを独自に開発しています。
高度なデータ解析
遺伝子発現が空間的に偏っている(特定の場所で強く発現している)遺伝子を見つけるため、SPARK-Xというノンパラメトリックな統計手法が用いられています。SPARK-Xは、大規模な空間トランスクリプトームデータから空間的発現変動遺伝子(Spatially Variable Genes: SVGs)を同定するために開発されたものです。ある遺伝子がSVGであるとは、その遺伝子の発現レベルが組織上の空間的位置に統計的に依存している状態を指します。SPARK-Xは、遺伝子の発現ベクトルと、細胞間の物理的距離から計算される空間的な相関(カーネル)行列との間に有意な関連性があるかどうかを検定します。空間トランスクリプトームのデータは、UMI(Unique Molecular Identifier)ベースの手法では特に、ゼロが多く(zero-inflated)、特定の確率分布(正規分布やポアソン分布など)に従わないカウントデータです。ですのでノンパラメトリックな検定が必要です。
空間的細胞クラスタリング (coFAST)はこの研究の核となる独自開発のアルゴリズムです。「遺伝子発現が似ていて、かつ空間的にも近くに集まっている」細胞群をクラスターとして同定します。これには、EMアルゴリズムという統計的推定法などが用いられています。
ある時点の細胞が、過去のどの細胞に由来し、将来どの細胞になるのかという「運命」を追跡するため、最適輸送理論に基づいたWOTやSpateoといった数理モデルが利用されています。
細胞間のシグナル伝達強度を推定するために、「シグナル強度は距離に応じて指数関数的に減衰する」という物理法則に基づいた空間減衰モデルを構築しています。これにより、どの細胞からどの細胞へ、どれくらいの強さのシグナルが伝わっているかを定量的に評価しています。
ノイズの多い遺伝子発現データを視覚的に分かりやすくするため、Implicit Neural Representation (INR) という手法が使われています。これは、空間座標を入力すると遺伝子発現量を出力する小さなニューラルネットワークを遺伝子ごとに学習させることで、滑らかな発現パターンを描き出す技術です。
研究のLimitationとPerspective (私見)
本研究の課題は、提示された発生メカニズムや細胞系譜が計算による「推定」であり、まだ生物学的な機能実証が追いついていない点です。このデジタル胚は、あくまで異なる胚から得られた静的なスナップショットを繋ぎ合わせたものであり、一個の胚が発生する動的な過程を直接追跡したものではありません。例えば、Figure 7で提唱されている心臓原基形成の精巧なシグナル伝達モデルは非常に説得力がありますが、実際に特定のシグナル経路を阻害した際に予測通り心臓形成が異常をきたすか、といった因果関係の証明は今後の機能検証実験(遺伝子ノックアウトやライブイメージングなど)に委ねられています。また、データがRNA情報(トランスクリプトーム)のみに限定されており、タンパク質やエピゲノムといった他の重要な分子情報との統合も今後の大きな課題です。
それを踏まえたうえで、今後の研究ではこのデジタル胚アトラスを「正常な発生の設計図」として利用した疾患研究や再生医療への応用が期待されます。多くの先天性疾患(心疾患など)は、まさにこの研究が対象とした時期に異常が発生します。この正常アトラスを基準として、疾患モデルマウスのデジタル胚と比較することで、どの細胞で、どのタイミングで、どのような遺伝子発現の異常が起きるのかをピンポイントで特定できるようになると考えられます。さらに再生医療の分野では、PDZで発見されたユニークなシグナル環境を体外で模倣することにより、iPS細胞などから心筋や消化管といった特定の臓器細胞を、より効率的かつ生体内に近い形で分化誘導させるための新たな指針となる可能性があります。
