【論文解説】AIによる睡眠とフィットネスのパーソナルコーチ：個人の健康に特化した大規模言語モデル – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Science Tokyo AIシステム医科学分野 (清水研) では医療や生命科学と数理情報科学の融合領域の研究を行っており、その領域における最新の科学技術動向を日本語で概説しています。今回は2025年8月にNature Medicine誌に発表された「A personal health large language model for sleep and fitness coaching」(AIによる睡眠とフィットネスのパーソナルコーチ：個人の健康に特化した大規模言語モデル) という論文をご紹介します。米国のGoogle Researchに所属する研究者チームによる報告です。

忙しい方向けのSummary

この論文は、ウェアラブルデバイス（スマートウォッチなど）から得られる個人の睡眠や活動量のデータを用いて、専門家のようにパーソナライズされた健康アドバイスを提供する大規模言語モデル（LLM）「PH-LLM」を開発し、その性能を評価した研究です。GoogleのGeminiモデルをベースに、睡眠とフィットネスに関する大量のデータで追加学習（ファインチューニング）されています。研究チームは、このモデルの能力を以下の3つの側面から検証しました。

専門知識: 睡眠医学とフィットネスの専門家資格試験レベルの多肢選択問題にどれだけ正しく答えられるか。
コーチング能力: 実際の個人のウェアラブルデータに基づき、どの程度的確でパーソナライズされた分析や推奨事項を生成できるか。
主観的評価の予測: センサーデータから、本人が感じている「睡眠の質」などをどれだけ正確に予測できるか。

結果として、PH-LLMは専門試験において人間の専門家を上回るスコアを記録し、コーチング能力においても人間と遜色ない、またはベースモデルを上回る高品質なアドバイスを生成できることが示されました。さらに、ウェアラブルデータから自己申告による睡眠の質を予測する能力も実証されました。この研究は、LLMが個人の健康データを活用し、一人ひとりに合わせた健康管理をサポートする強力なツールとなり得る可能性を示しています。

コードはこちらにあります。

これまでの研究とその課題の概要

これまでの研究で、大規模言語モデル（LLM）は非常に高い能力を持つことが示されてきました。特に、米国の司法試験や医学生の試験に合格するなど、専門分野での活躍が注目されています。医療分野においても、LLMは電子カルテの分析や、医療に関する質問への回答、さらには心理的な介入（カウンセリングなど）をサポートするツールとしての活用が期待されています。

一方で、Apple Watchのようなウェアラブルデバイスは、睡眠や身体活動といった健康に直結するデータを24時間休むことなく計測できます。これらのデータを活用すれば、よりパーソナライズされた健康管理が可能になると考えられていました。

しかし、これまでの研究にはいくつかの大きな課題がありました。ウェアラブルデバイスから得られる膨大なデータは、文脈が不明で解釈が難しく、分析にもコストがかかるため、実際の臨床現場やLLMの学習データにはほとんど活用されていませんでした。その結果、一般的なLLMや、医療用にチューニングされたLLMでさえも、個人のウェアラブルデータから意味のある分析を行い、一人ひとりに合わせた具体的なアドバイスをすることは苦手でした。センサーデータとLLMを連携させる初期の研究はありましたが、それらはデータの要約などにとどまり、専門家のように「深く、状況を理解した上で、実行可能なアドバイス」を長文で生成するという、健康コーチングに本当に必要な能力については検証されていませんでした。

つまり、「LLMの高度な言語能力」と「ウェアラブルデバイスが収集する個人の健康データ」という2つの強力な技術を本格的に結びつけ、専門家のようなパーソナルコーチを実現するという重要な領域が、これまで未開拓のまま残されていた、というのがこの研究が取り組むべき課題でした。

Figureの読み解きポイント

Figure 1: PH-LLMの概念図と性能評価 新しく開発されたPH-LLMがどのようなタスクを実行し、どの程度の性能を持つかを示した概要図です。専門知識を問う質問、個人のウェアラブルデータに基づくコーチング要求、センサーデータからの主観的評価の予測という3つのタスクの概念が描かれています。性能評価のグラフ(b)では、PH-LLMが専門試験において人間の専門家を上回る正答率を達成し（特にフィットネスで顕著）、コーチングの質も人間専門家と同等レベルであることが示されています。また、ウェアラブルデータから自己申告による睡眠の質を予測するタスクでも、ランダム予測を大幅に上回る性能を持つことが証明されています。
Figure 2: ケーススタディに基づくコーチング能力の詳細評価 この図は、実際の個人のデータを用いたケーススタディにおいて、PH-LLMが生成するコーチング内容の質を詳細に評価した結果を示しています。a, bでは、コーチングの元となる入力データ（睡眠やトレーニングの時系列グラフ）と、それに対する専門家の分析・推奨事項の例が示されています。c, dは、PH-LLM、ベースモデル（Gemini Ultra 1.0）、人間の専門家が生成した回答を、評価者が採点した結果を比較したグラフです。睡眠分野(c)では、PH-LLMは特に「インサイト（データからの気づき）」と「Etiology（考えられる原因）」の項目で、ベースモデルよりも有意に高い評価を獲得しており、ファインチューニングの効果が確認できます。
Figure 3: ウェアラブルデータからの主観的睡眠の質の予測性能 この図は、PH-LLMがウェアラブルセンサーのデータのみを用いて、ユーザーの主観的な睡眠の質（例：「日中の眠気」や「疲労感」など）をどの程度正確に予測できるかを示しています。aは、睡眠に関する様々な自己申告アンケートの回答項目間の相関関係を示し、bはどのセンサーデータがどの主観的評価の予測に重要であったかを示しています。この図の核心であるc, dの性能比較グラフでは、センサーデータを数値として直接モデルに組み込む「アダプター」技術を用いたPH-LLMが、テキスト情報のみに頼る他の手法を両指標で大幅に上回ることを示しています。これは、主観的評価の予測には、センサーデータを直接統合するマルチモーダルなアプローチが極めて有効であることを証明しています。

手法の概説

データセットの構築

PH-LLMのトレーニングと評価のために、主に3種類のデータセットが作成されました。専門試験データセットとして、睡眠医学とフィットネスの専門家資格試験を模倣した多肢選択問題（MCQ）が収集されました。睡眠医学からは629問、フィットネスからは99問が用意され、モデルの基礎知識レベルを測るために使用されました。コーチング推薦データセットとして、研究への同意が得られた個人の匿名化されたFitbitデータから、睡眠（507件）とフィットネス（350件）に関する合計857件のケーススタディが作成されました。これらのデータには、年齢や性別といった人口統計情報、最大30日分の日々のセンサー指標（睡眠時間、心拍数など）、およびそれらの集計統計が含まれます。専門家がこれらのデータに基づいて「ゴールドスタンダード」となる分析や推奨事項を作成し、モデルのトレーニングと評価に用いられました。PRO（患者報告アウトカム）データセットは、ウェアラブルデータと主観的な健康状態の関連を学習させるためGoogleのDigital Wellbeing (DWB) studyのデータが利用されました。このデータセットには、4,163人分の参加者から得られた、少なくとも15日間の20種類のセンサーデータと、睡眠に関する16項目のアンケート回答が含まれています。

AIモデルの構築とトレーニング

モデルの構築は、ベースモデルの選定から多段階のファインチューニングを経て行われました。複数のベースモデル候補の中から、専門試験データセットで最も高い性能を示したGemini Ultra 1.0がベースモデルとして選ばれました。まず、Gemini Ultra 1.0をコーチング推薦データセットでファインチューニングし、PH-LLMが作成されました。トレーニングは、センサーデータや人口統計情報を含むプロンプトと、専門家が作成した模範解答のペアを用いて行われました。ちなみに、パラメーター数は書いていませんが相当膨大なものになると思われます。

次に、センサーデータから主観的な睡眠の質を予測させるため、マルチモーダルアダプターと呼ばれる仕組みが導入されました。これは、日々のセンサーデータの統計値（平均と分散）を、LLMが直接解釈できる「ソフトトークン」と呼ばれるベクトル形式に変換する小さなニューラルネットワーク（MLP: 多層パーセプトロン）です。このアダプター部分のみを追加でトレーニングすることで、PH-LLM本体の性能を損なうことなく、数値データを効率的に統合する能力を獲得させました。

AIを扱っている方向けに書いておくと、この研究で採用されたマルチモーダルアダプターは、数値データ（センサー時系列）とテキストデータを扱うLLMを接続するための、パラメータ効率的なインターフェースとして機能します。その目的は、LLM本体の重みを変更することなく、外部の数値情報をモデルの潜在空間に直接写像（プロジェクション）し、テキストプロンプトと融合させることにあります。15日間にわたる20種類のウェアラブルセンサー測定値がありますが、各センサーデータを訓練データセットの平均と標準偏差を用いてZ-score（標準化）します。次に、標準化された個人の15日分のデータから、センサーごとに平均（mean）と分散（variance）の2つを計算します。これにより、各個人は 20センサー x 2統計量 = 40次元ベクトルで表現でき、これがアダプターへの最終的な入力となります。PH-LLMのトークン埋込は14,336次元で、アダプターは40次元の入力からLLMの単語トークン1つ分と同じ次元を持つベクトルを4つ生成します (つまり40次元を入力として、14,336×4 = 57,344次元ベクトルが出力される)。これらの生成されたベクトルは「ソフトトークン（soft tokens）」と呼ばれ、実際の語彙には存在しない純粋に数値データから生成された仮想的なトークンとして機能します。最終的に、この4つのソフトトークンが、通常のテキストプロンプトの接頭辞（prefix）としてLLMに与えられます。これにより、LLMはセンサーデータの情報をコンテキストの一部として直接解釈し、PROの予測タスクを実行します。

モデルの評価手法

構築されたモデルの性能は、自動評価と人間による評価を組み合わせて多角的に検証されました。モデルが生成したコーチング内容は、その出典を隠した状態（ブラインド）で人間の専門家によって採点されました。評価には、データの参照精度、専門知識の活用度、有害性のなさなど、15項目からなる独自の評価基準（ルーブリック）が用いられました。専門家による評価は時間とコストがかかるため、専門家の評価データを学習させた別のLLMを用いて、モデルの回答を自動で採点する「AutoEval」システムも構築されました。これにより、迅速な性能評価や、学習データ量を変更した場合の性能変化などの分析が可能になりました。

この研究のキモはどこ? (私見)

「これまでの研究とその課題」に書いた内容を踏まえ、それを乗り越えトップジャーナルに掲載される大きな研究成果になったのは何かポイントがあるはずです。私見ですが先行研究にはないこのような工夫が挙げられると思います。

高品質な「教師データ」の設計と構築: この研究の最大の工夫は、単なる生データをAIに与えるのではなく、専門家がウェアラブルデータを解釈して書き下ろした質の高い「ケーススタディ」を大量に作成し、それを教師データとして使った点です。これは、AIに「専門家のように思考し、文章を生成するパターンそのもの」を学習させる、非常に効果的な方法です。AIはデータから、どの数値を見て、どのように解釈し、どんな言葉でアドバイスすべきかを学びました。
マルチモーダルアダプターによる数値データの統合: 主観的な睡眠の質を予測するタスクでは、センサーデータを文章で説明してAIに渡すのではなく、「マルチモーダルアダプター」という仕組みを使って、数値データをAIが直接理解できるベクトル形式に変換しました。これにより、テキスト情報と数値データがより深く、効率的に統合され、テキストだけでは捉えきれない微妙な関連性をAIが学習できるようになり、予測精度が飛躍的に向上しました。
開発プロセスへの専門家の全面的な参加 (Expert-in-the-loop): この研究では、AI開発の構想段階から、睡眠医学の専門医やプロのアスレティックトレーナーが深く関与しました。彼らがケーススタディの模範解答を作成し、AIが生成した回答をレビュー・修正することで、AIの回答の質が医学的・科学的に担保されました。AIの性能は、その教師データの質に大きく依存するため、専門家によるこの地道な作業が、モデルの信頼性を決定づける最も重要な要素となりました。
既存の医学的フレームワークの活用: 専門家がアドバイスを作成する際には、「RU-SATED」といった睡眠医学で確立された評価フレームワークを用いるなど、科学的根拠に基づいた一貫性のあるアプローチが採用されました。これにより、AIが生成するアドバイスも、その場の思いつきではなく、医学的に理にかなった構造を持つようになりました。

研究のLimitationとPerspective (私見)

本研究の課題は、LLMが生成する情報の信頼性と、学習データの偏りです。PH-LLMは専門家のように振る舞いますが、LLM特有の「幻覚（Confabulation）」により、事実と異なる情報を生成したり、ユーザーデータを誤って参照したりするリスクが依然として存在します。これは、ユーザーの健康に関わるアプリケーションとしては重大な課題です。さらに、学習に使用したデータセットは特定の活動的な人々や性別に偏りがあり、あらゆるユーザーに対して公平で最適なアドバイスを提供できるとは限りません。安全で信頼性の高いパーソナルヘルスコーチとして機能するためには、モデルの事実に基づいた応答能力の強化と、より多様で代表的なデータセットの構築が不可欠です。

それを踏まえたうえで、今後の研究では、よりリッチな生データを活用したモデルの高度化が期待されます。現在のモデルは1日単位の集計データを用いていますが、将来的には心拍数や加速度などの高頻度な時系列生データ（波形データ）を直接扱うことで、より微細で早期の体調変化を捉えられる可能性があります。これにより、睡眠やフィットネスだけでなく、ストレス状態や特定の疾患の予兆検知など、より多様な健康領域への応用が拓かれると考えられます。さらに、AIに「アドバイスの的確さ」「応答の安全性」「個人の主観的な体感との一致」といった複数の目標を同時に最適化させるアプローチを導入することで、単にデータに基づくだけでなく、ユーザー一人ひとりの感覚に寄り添った、真にパーソナライズされた健康パートナーへと進化していくでしょう。