Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にNature Methods誌に発表された「High-throughput profiling of chemical-induced gene expression across 93,644 perturbations」(93,644通りの化学的刺激が遺伝子の働きに与える影響の大規模解析) という論文をご紹介します。
忙しい方向けのSummary
この論文は、(1) HiMAP-seq(highly multiplexed and parallel sequencing) と呼ばれる新しいハイスループットな遺伝子発現プロファイリング技術を開発したという話と、(2) それを用いて構築された大規模なデータベース CIGS(chemical-induced gene signatures) の2つについて報告しています。
著者らが開発したHiMAP-seqは、サンプルをプールする戦略を用いることで、数千のサンプルにおける数千個の遺伝子発現を一度の実験で解析することを可能にし、この問題を解決しています。この技術を用いて、13,221種類の化合物を2種類のヒト細胞株に作用させ、合計93,664の条件下で3,407遺伝子の発現パターンを網羅的に解析し、CIGSデータベースを構築しました。
さらに、このCIGSデータベースの有用性を2つの実例で示しています。1つ目は未知の化合物の作用機序(MOA)の解明です。具体的には、漢方由来の化合物であるリグストロフラボンが、がん関連タンパク質であるBRD4の新しい阻害剤であることを突き止めました。もう1つは、化合物が誘導する細胞状態の特定です。2,4-ジヒドロキシベンズアルデヒドという化合物が、フェロトーシス(鉄依存性の細胞死)を抑制する「フェロトーシス抵抗性」の細胞状態を誘導することを発見し、これがシスプラチンによる急性腎障害を軽減する治療効果を持つことを動物実験で示しています。
CIGSデータベースはこちらからアクセス可能です。
これまでの研究とその課題の概要
遺伝子発現signatureは、特定の条件下で細胞に何が起きているかを調べることができ、薬の作用機序(mechanism of action, MOA)の解明や遺伝子の機能などを理解するために極めて重要です 。
代表的な大規模データセットとしてLINCS L1000 (Cell, 2017)があり、約3万種類の化合物データを含む貴重なリソースとなっています。また、HTS²という技術 (Proc. Natl Acad. Sci. USA, 2012)は、一度に数千遺伝子の発現を測定でき、がん治療薬の候補発見などに利用されてきました 。
しかし、LINCS L1000は 一度の実験で測定できる遺伝子が最大1,000種類と少なく、情報が限定的であるという大きな制約があります。またHTS²はUMI(正確な定量のための技術)による補正機能がなく、シーケンスデータの利用効率(マッピング率)が低いという技術的な問題点がありました。
これらL1000とHTS²はどちらもサンプルを一つずつ個別に解析する必要があり、スループットが著しく制限され、大規模な解析には時間とコストがかかりすぎていました。
Figureの読み解きポイント
Figure 1: HiMAP-seqの原理と性能評価 新しく開発されたHiMAP-seq技術のワークフローと、その性能を検証した結果が示されています。細胞に薬剤を処理した後、特殊なプローブを用いてmRNAを標識・バーコード化し、全サンプルをプールして一度にシークエンシングする流れが描かれています。性能評価では、高いマッピング率(91%以上)、低いインデックス誤認率、そして高い再現性(相関係数0.97)が実証されました。また、既存の標準的な手法であるRNA-seqやqPCRと比較しても、同等の高い相関性(R=0.85〜0.95)を示し、信頼性の高い技術であることが証明されています。
Figure 2: CIGSデータセットの生成 この図は、HiMAP-seqとHTS²を用いて生成されたCIGSデータセットの全体像を示しています。a, bは、13,221化合物が2種類の細胞株(HEK293TとMDA-MB-231)の遺伝子発現に与える影響を視覚化したものです。c, dでは、各化合物の遺伝子発現プロファイルを2次元にマッピングしており、同じ作用機序(MOA)を持つ化合物群が自然にクラスターを形成することが示されています。これは、CIGSデータが生物学的に意味のある情報を捉えていることの強力な証拠です。
Figure 3: 未知化合物の作用機序(MOA)の発見事例(リグストロフラボン) CIGSデータベースを用いて、作用機序が不明だった漢方由来化合物「リグストロフラボン」の標的を探索した過程が示されています。t-SNEプロット上で、リグストロフラボンが既知のBRD4阻害剤であるJQ1のクラスター内に位置することから、同様の機能を持つと予測されました(a, b)。分子ドッキング(f)やSPR解析(h, i)などの追加実験により、リグストロフラボンが実際にBRD4タンパク質に直接結合し、その下流遺伝子の発現を抑制することが証明され、CIGSの予測能力の高さが実証されました。
Figure 4: 化合物が誘導する細胞状態の特定事例(2,4-DIH) この図は、CIGSが特定の細胞状態(ここではフェロトーシス抵抗性)を誘導する化合物を同定できることを示しています。フェロトーシスを抑制する遺伝子サインを基にデータベースを検索した結果、2,4-ジヒドロキシベンズアルデヒド(2,4-DIH)が強力な候補として同定されました(a)。その後の実験で、2,4-DIHがフェロトーシスの特徴である細胞死、活性酸素種(ROS)の蓄積、鉄イオンレベルの上昇などを効果的に抑制することが確認されました(c-h)。さらに、シスプラチン誘発性急性腎障害のマウスモデルにおいて、2,4-DIHが腎機能の悪化や組織損傷を顕著に改善することが示され(i-n)、治療薬としての可能性が示唆されました。
Figure 5: 2,4-DIHの作用機序の解明 Figure 4で同定された2,4-DIHが、どのようにしてフェロトーシスを抑制するのか、その作用機序を解明した結果が示されています。2,4-DIH処理後の遺伝子発現サインを用いて再度CIGSを検索し、類似のプロファイルを持つ化合物の共通標的を探索したところ、Keap1というタンパク質が最有力候補として浮かび上がりました(a-c)。分子ドッキング解析(d)、SPR解析(e, f)、MST解析(g)によって、2,4-DIHがKeap1タンパク質に直接かつ強力に結合することが確認されました。これにより、2,4-DIHはKeap1に結合してNrf2経路を活性化させ、抗酸化作用を高めることでフェロトーシスを抑制し、腎臓を保護するというメカニズムが提唱されています(h)。
手法の概説
この研究で用いられた主な手法は、新しい遺伝子発現解析技術であるHiMAP-seqの開発と、それと既存の技術HTS²を組み合わせて大規模な遺伝子発現データベースCIGSを構築することです。
HiMAP-seq:新しい高速遺伝子解析技術
HiMAP-seqは、一度に大量のサンプルの遺伝子発現を効率的かつ低コストで測定するために新しく開発された技術です 。その主な特徴と手順は以下の通りです。
- 準備: 384ウェルプレートで細胞を培養し、薬剤で24時間処理。
- ハイブリダイゼーションとバーコード化: 細胞を溶解させた後、各ウェルで遺伝子特異的なプローブと、ウェルを識別するためのバーコード(N-index)をmRNAに結合させます 。この際、PCRによる増幅エラーを後から補正するためのUMI(ユニーク分子識別子)も付加されます。
- プールサンプル戦略: HiMAP-seqの最大の特徴は、バーコード化の後に384ウェル全てのサンプルを混ぜ合わせて1つのチューブにまとめてしまう点です 。これにより、以降の工程をサンプルごとに行う必要がなくなり、劇的にスループットが向上します。
- ライゲーションとライブラリ作製: プールされたサンプル中で、プローブ同士を連結(ライゲーション)させ、PCR増幅によって次世代シーケンサーで解析可能なライブラリを作製します。
CIGSデータベースの構築
CIGS(Chemical-Induced Gene Signatures)は、2種類の技術を用いて構築された、化学物質が遺伝子発現に与える影響をまとめた巨大なデータベースです。
- HiMAP-seq: 主に伝統的な漢方薬に由来する1,865種類の化合物の解析に使用 。
- HTS²: 既存のハイスループット技術で、MCE生物活性化合物ライブラリ由来の11,356種類の化合物の解析に使用されました 。
細胞株としてはヒトのMDA-MB-231とHEK293Tの2種類が使用されました 。上記2つの両者の技術で、生物学的に重要な3,407個の遺伝子発現を測定しました (biological triplicate)。異なる2つの技術(HiMAP-seqとHTS²)で得られたデータですが、同じ薬剤で処理した際の遺伝子発現パターンが非常によく似ていることが確認されたため、両者を統合して1つのデータベースCIGSが構築されました。このCIGSデータベースには合計13,221化合物が2つの細胞株に与える影響、約3億1900万件もの遺伝子発現データが格納されています
研究のLimitationとPerspective (私見)
現状のHiMAP-seqはあらかじめ選ばれた3,407遺伝子のみを対象としており、トランスクリプトーム全体の網羅的な解析はできません。また、CIGSデータベースは2種類の細胞株と2つの濃度という限られた条件下で構築されています。
ただ、CIGSは大規模かつ実験条件が統一されているため、機械学習モデルの訓練や評価のための高品質なプラットフォームとして利用できます。これにより、薬剤の効果・毒性の予測といった新しい生物学的洞察が得られる可能性があります。CIGSの遺伝子発現データを、細胞の形態変化を捉える画像データ(Cell Paintingなど)と統合することで、化合物の影響をより多角的・包括的に理解することができるようになるかもしれません。
HiMAP-seqは、あらかじめ設計された3,407個の遺伝子に対するプローブを用いるターゲット解析ですが、トランスクリプトーム全体を解析できるように改良するためには、数万個の遺伝子に広げた超大規模なプローブセットを設計・合成するとか、mRNAに共通して存在するポリAテールなどを利用して、細胞内のほぼ全ての種類のmRNAを捕捉する手法に切り替えられないか挑戦するということになるでしょう。あるいは、CIGSの拡張については、現在は乳がん細胞と腎臓細胞の2種類のみですが様々な組織や疾患由来の細胞株で同様の実験を行うことで、薬剤の効果が細胞の種類によってどう違うか(臓器特異性やがん種特異性)を比較できるようになります。細胞を低酸素状態にする、放射線を当てる、ウイルスに感染させる、といった様々なストレス条件下での遺伝子発現を測定するというのも魅力的な方向性の1つです。