【論文解説】 1000万件以上のデータに基づき構築された心電図基盤モデルECGfounder – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年7月にNEJM AI誌に発表された「An Electrocardiogram Foundation Model Built on over 10 Million Recordings」(1000万件以上のデータに基づき構築された心電図基盤モデル) という論文をご紹介します。北京大学のShenda Hong博士が率いるチームによる論文で、米国のハーバード、マサチューセッツ総合病院、エモリー大学など、そしてイギリスのインペリアル・カレッジ・ロンドン (ICL) の医療者・研究者らが関わる中国・アメリカ・イギリスの国際共同研究です。

忙しい方向けのSummary

この論文は、ECGFounderと名付けられた、心電図（ECG）解析のための新しい大規模なAI「基盤モデル」の開発に関する研究です。

研究チームは、180万人以上から収集した1000万件を超える心電図データを用いて、このモデルを構築しました。これは、これまでにない規模のデータセットです。

ECGFounderは、従来のAIモデルが抱えていた「データ不足」「特定のタスクにしか使えない」「異なる患者グループへの応用が難しい」といった課題を克服することを目指しています。主な特徴と成果は以下の通りです。

高い診断能力: 150種類の心臓の異常を診断でき、多くの診断項目で専門医と同等、あるいはそれを上回る精度を達成しました。
汎用性: 標準的な12誘導心電図だけでなく、スマートウォッチなどで使用される単誘導心電図の解析にも高い性能を発揮します。
拡張性: 心臓の異常診断だけでなく、心電図データから年齢や性別、慢性腎臓病（CKD）や慢性心疾患（CHD）の存在などを予測する「応用タスク」にも適応（ファインチューニング）でき、既存のモデルを上回る性能を示しました。
技術的な新規性: 実際の臨床現場で起こりがちな「専門医による診断ラベルの付け忘れ（不完全な注釈）」に対応するため、新しい学習手法（Positive Unlabeled Learning）を導入し、モデルの堅牢性を高めました。

この研究は、ECGFounderが心電図解析の分野で非常に強力かつ汎用的なツールとなる可能性を示しており、将来的には多様な臨床現場で、より迅速かつ正確な心臓疾患の評価に貢献することが期待されます。

コードはこちらにあります。

これまでの研究とその課題の概要

深層学習技術の発展と、比較的大きな心電図データベースを構築する努力により、心電図解析の分野は大きく進歩しました。これにより、AIによる心電図解析は、従来の医療の枠を超えて応用されるようになってきています。しかし、汎用的な心電図AIモデルを開発するには、いくつかの大きな壁がありました。一般に公開されている心電図データベースは診断の多様性や規模が不十分ですし、既存のAIモデルの多くは、特定の診断タスクや特定のデータセットにしか対応できず、実際の臨床現場で求められる幅広い解析に対応できませんでした。また、スマートウォッチなどで使われる単誘導心電図を解析する際、従来の12誘導心電図と比べて著しく性能が低下するという大きな課題がありました。

Figureの読み解きポイント

Figure 1: ECGFounderの構築プロセスとデータセットの概要 ECGFounderモデルの全体像、すなわち学習プロセス、応用範囲、そして基盤となるデータセットの規模が示されています。モデルの学習過程では、1000万件超の心電図データが用いられ、実際の臨床現場で生じる不完全な診断ラベル（Missing annotations）に対応するため「Positive label Augmentation」という独自手法が導入されました。また、ウェアラブルデバイスで一般的な単誘導心電図の性能向上のため、心臓の電気軸情報を利用した「Leads augmentation」という技術が採用されています。モデルの応用範囲は心電図診断にとどまらず、年齢・性別といった個人属性の推定や、慢性腎臓病などの臨床イベント検出、さらには異なる生体信号（PPG）の解析にも及ぶことが示されています（B）。学習に用いたHEEDBデータセットは、他の主要な心電図データベースと比較して圧倒的な規模を誇り（C）、この大規模データがモデルの高性能を支えています。研究では、モデル開発、検証、応用タスクへの展開において、複数の内外データセットが体系的に使用されました（D）
Figure 2: 各種応用タスクにおけるECGFounderの性能評価 心電図から心疾患以外の情報を読み取る様々な応用タスクにおいて、ECGFounderの性能を既存のAIモデル（ECG-SimCLR, ECG-ResNet）と比較した結果が示されています。全てのタスクにおいて、ECGFounder（グラフ中の青線）が他のベースラインモデルを一貫して上回っており、その優れた汎用性と予測能力が実証されています。具体的には、心不全マーカー（NT-proBNP）や心機能（LVEF）、慢性腎臓病（CKD）、慢性心疾患（CHD）といった臨床イベントの検出（A）、年齢や性別の推定（B）、さらには光電式容積脈波（PPG）信号からの心房細動検出（C）といった多岐にわたるタスクで、最も高い精度を達成しました。これは、大規模データでの事前学習が、多様な臨床応用において極めて有効であることの強力な証拠です。

手法の概説

データセット

AIの学習には、ハーバード・エモリー心電図データベース（HEEDB）が使用されました。これは180万人以上から収集された1000万件を超える専門医の注釈付き12誘導心電図を含む、非常に大規模なデータセットです。医師によるテキスト形式の診断コメントを正規表現を用いて解析し、診断、リズム、波形情報などを含む150種類の意味のあるラベルを定義しました。モデルの汎用性を確かめるために、外部データとしてブラジルのCODE-test、ドイツのPTB-XL、ウェアラブルデバイス由来のPhysioNet Challenge 2017など、複数の外部データベースが使用されました。また、年齢・性別・慢性腎臓病（CKD）などの応用タスクへの適応には、電子カルテ情報と連携可能なMIMIC-IV-ECGデータベースが用いられました。

全ての心電図データは500Hzにリサンプリングされ、ベースラインの揺れやノイズを除去するための各種デジタルフィルタ（ハイパス、ローパス、ノッチフィルタ）が適用されました。その後、各信号は平均と標準偏差を用いて正規化されています。

モデルのアーキテクチャと学習手法

モデルのアーキテクチャは、RegNet (CVPR 2020) 呼ばれるネットワーク設計に基づいています。これはネットワークの深さに応じてチャネル数などを効率的にスケールさせる設計で、心電図の時間的・空間的特徴を捉えるのに適しています。

また、実際の臨床データでは存在する全ての異常がラベル付けされているわけではありません。この「陽性ラベルの欠落」問題に対応するため、研究チームはPositive Unlabeled (PU)学習という手法を導入しました。PU学習を効果的に行うため、損失関数を改良しました。これは、モデルが「陽性の可能性が高い」と予測した未ラベルのサンプルに対して、損失の重みを動的に小さくする仕組みです。これにより、モデルが未ラベルの陽性症例（見逃された陽性例）から学習しやすくなります。

平易な言葉で言い換えると、心電図で最も重要で目立つ異常にはラベルを付けるが、それ以外の軽微な異常や、診断上それほど重要でない所見が存在していても、時間的制約などからあえてラベルを付けないことが頻繁に起こります。もし、この「ラベルが付いていない心電図」を全て「異常なし（陰性）」としてAIに学習させてしまうと、「本当は軽微な異常があるのに、これは異常なしだよ」と嘘を教えてしまうことになります。PU学習は、「ラベルがない ≠ 陰性である」という前提に立ち、未ラベルのデータ群の中から隠れた陽性データを見つけ出すことを目指します。これは、AIが未ラベルのデータを解析した際に、「これは陽性データの特徴に極めて近い」と強く予測した場合、それを陰性とみなすことによるペナルティを軽くする仕組みです。つまり、「これはラベルが付いていないけど、どう見ても陽性っぽい。もしかしたら専門医がラベルを付け忘れただけかもしれないから、陽性と判断しても大目に見よう」とAIが自らを調整しながら学習を進めるようなイメージです。

スマートウォッチなどで用いられる単誘導心電図の性能を高めるため、「lead augmentation（誘導拡張）」という新しいデータ拡張法を開発しました。これは、12誘導心電図の物理的な関係性を用いて、心臓の電気軸に基づいた擬似的な誘導を複数生成し、単誘導のデータと共にランダムに学習させる手法です。

医療従事者でない方向けに簡単に説明すると、標準的な12誘導心電図は異なる場所におかれている12台のカメラで心臓を観察するようなものです。12台のカメラの配置は決まっているので、「正面（単誘導）の波形がこうなら、斜め45度から見たらこうなるはずだ」という仮想のデータを数学的に作り出すことができます (この論文では、6つの仮想誘導を追加で生成しています) 。AIには、スマートウォッチで得られる単誘導のデータ（正面カメラの映像）を常に見せます。そして、50%の確率で、先ほど作った仮想の誘導データ（他の角度からの仮想カメラ映像）を「ヒント」として追加で見せます。この訓練を繰り返すことで、AIは単誘導のデータ（正面カメラ映像）を見るだけで、他の角度からの映像を頭の中で推測・補完する能力を身につけます。その結果、スマートウォッチのような単誘導心電図だけで、本来は多角的な視点が必要な「心臓の電気軸の異常」を高い精度で診断できるようになったのです。これがリード拡張の仕組みと効果です。

性能検証の統計手法

モデルの性能を客観的に評価するため、3人の専門医からなる委員会が注釈を付けたテストセットを「正解」として設定しました。さらに4人の専門医が個別に診断を行い、その結果とモデルの性能が比較されました。性能指標（AUROC、感度、特異度など）の信頼性を担保するため、95%信頼区間を算出しています。AUROCにはDeLong法、感度・特異度にはWilsonスコア法、その他の指標にはブートストラップ法といった、各指標の特性に適した統計手法が用いられました。

研究のLimitationとPerspective (私見)

本研究の課題は、AIモデルの信頼性と実臨床への応用における透明性の確保です。ECGFounderは主に米国のデータセットで開発されたため、異なる人種や地域における診断精度が保証されていません。また、AIが高い精度で診断を下しても、その判断根拠が不明瞭である「ブラックボックス問題」は、医師が診断結果を信頼し、臨床判断に活用する上での大きな障壁となります。より多様な国際的データセットの構築と、AIの判断プロセスを可視化する説明可能なAI（XAI）技術の確立が不可欠です。

それを踏まえたうえで、今後の研究では、これらの課題を克服するための多角的なアプローチが期待されます。まず、アジア、ヨーロッパ、アフリカなどより多様な地域や人種の心電図データを収集・統合し、モデルの公平性と汎用性を向上させることが計画されています。同時に、医師がAIの診断根拠を理解し、納得して臨床応用できるよう、説明可能なAI（XAI）の開発が進められます。さらに、病歴や人口統計学的情報といった心電図以外の臨床データをモデルに組み込むことで、より患者一人ひとりの状態に即した、精度の高い統合的な診断支援システムの構築が可能になると考えられます。