Clinical informaticsに関するお願い – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

Clinical Informaticsをやりたい方への諸注意

私のところでは「マイプロジェクト」としてラボから与えられるものの他に自身が立案するテーマもできます。Clinical Informatics (診療データや病院データを使った解析) をやりたいという学生さんからしばしば問い合わせがあります。もちろん、公開されているデータのみを使ったものであれば自由にできますし、実際に私の論文 (EBioMedicine 2019, Lancetの姉妹誌) や当研究室の学部生の論文 (PNAS Nexus 2023, PNASの姉妹誌) や他の人の論文 (Nature Commun. 2023, Natureの姉妹誌) などノーベル賞研究が何度も掲載されたLancet, Nature, PNASといったトップジャーナルの姉妹誌に公開データの再解析のみで掲載されたインパクトの大きいclinical informatics 研究はいくつも存在します。

ただ、当然とはいえ公開データの再解析だけでは (アイデアが優れていない限り) あまりインパクのある研究にはならず大きなジャーナルには掲載されにくいのも事実です。だからこそ公開されているデータだからこそ既存の手法(やその軽微な改変・組み合わせ) ではなく数理情報科学に裏付けられた高度な手法を開発し解析をする必要があるわけですね。もしそのような情報科学での勝負ができない場合には、データの新規性、つまりまだ見ぬ医療データの解析が不可欠です。しかしもし非公開の診療データを使いたいというのであればいろいろ手続きが必要なのは想像に難くないと思います。そこで、あらかじめこのページを読んだ上でお問い合わせをいただくことにしました。

なお、共同研究ベースではClinical Informaticsはいろいろやっています (筆頭著者にはならないでしょうが)。ここでは筆頭著者として論文を書きたい学生さん、もっというと他の診療科所属ではなく私たちのところでclinical informaticsにメインで取り組みたいという方に向けたチェック項目を並べています。

また、やりたいのはClinical Informaticsに資する情報解析手法の開発であり、研究の主座は数理情報科学にあって、患者データは実際の患者さんではなくシュミレーションか何かで作るおつもりなのであれば、このページの指摘事項は全部当てはまりません (情報系の研究にはよくあることです)。このページは、あくまで実際の医療データを使った解析研究をしたい方に向けたチェック項目になっています。

チェック項目1: 患者さんのプライバシーにどう対応するおつもりですか？

データはタダ、あるいは清水研に来れば何でも自由に医療データが使えると思っている学生さんが多いです。しかし言うまでもなく、患者データは患者さんのものです。マイナンバーですら知られたくないと思っている方が世間的には多いわけですが、ましてや医療データを勝手に使って研究なんかできるはずありません。誰がどのようにして患者さんに説明して同意を得るおつもりですか？プロジェクトAに関して仮に同意をいただいたとしても、そのデータをプロジェクトBにも、というわけには行きません。プロジェクトごとに同意をいただくわけです。ご自身で患者さん全員に説明をして同意をとるところからスタートしたいということでよろしいですか？もし誰かにとっていただくのなら、その方の人件費はどうなさる予定ですか？そういうのも含めて研究計画を立てる必要がございます。

他にも厚生労働省の「人を対象とする生命科学・医学系研究に関する倫理指針」には種々の取り決めがなされていますが、Clinical Informaticsをやりたいというからにはこういった国の倫理指針は全部熟知していただく必要があります。もちろん本学における倫理審査もご自分でこなしていただく必要があるわけです。

チェック項目2: データはどこから持ってくるのですか？

何かボタンを押せば全部の整形された医療データが出てくると勘違いしている方も多いですが、実際にアクセスできるのは電子カルテやそれに付随する検査等のデータです。患者さんのカルテを1人ずつ閲覧し、医師や看護師さんなどが書いた記録を1つ1つ順番に手作業でたどっていく必要があります。データを集めるだけで半年・1年かかるかもしれません。それも含めて自分でやりたいということでしょうか？もしそういう一見泥臭いデータ抽出は誰かにやってほしいということなら、どうやってその方を募集し謝礼をお支払いするおつもりでしょうか？

あるいはすでにパブリックになっている公開データを使うつもりなのでしょうか？私はかつて、それぞれの患者で「ゲノム・トランスクリプトーム・プロテオーム・メタボローム・腸内マイクロバイオーム・電子カルテ・ウェアラブル端末情報」が全て揃ったパブリックデータを使いたいという相談を聞いて卒倒しそうになったことがありますが、自分が使いたいデータが揃ったパブリックデータが本当にあるのか、あるとしたら何症例くらいあるのか、ご自身で確認してください。

あるいは、どこかの医療機関にお勤めの方で、そちらで医療データを全て用意していただけるということでしょうか？そうではなく、どこかの業者さんが提供しているデータを買って使いたいということでしょうか？データを買う場合にはまさか1000円でいうわけにはいかず、データの数や性質にもよって数十万・数百万くらいの資金が必要になりますがどう集めましょうか。

1つだけポジティブな話もすると、本学大学病院では2023年1月から歯科にて、3月から医科にて、初診患者さんを対象に広範同意の取得（医科ではコア問診とセットで）を開始し、5月からは再診患者さんからも丁寧に説明した上で同意を求めて参りました。

多くの患者さんが、「この大学には大変お世話になっているから」「世のためになるなら何でも使ってください」と、同意を下さいます。
そしてついに、広範同意に係る患者同意者数が10,000人を突破しました。私達は医療データの社会還元に向けて大きな取り組みをしています。

今後はこういった匿名化済みリアルワールド医療データへも、しかるべき手続きをすれば利用可能になってくるでしょう。ただ2023年より始まったばかりですので、研究への活用はまだ少し先の話かもしれません。

チェック項目3: データを提供する側へのインセンティブは何ですか？

例えば肺がんの抗がん剤治療に関するclinical informatics研究をしたいとしましょう。本学のデータを使いたいなら、該当する診療科である呼吸器内科の先生方に共同研究をお願いすることになります。呼吸器内科の先生から見て、私たちと共同研究するインセンティブはどこにあるのですか？昨今は臨床のチームも (さまざまなライブラリー等が整備され、またChatGPTなどがコードも書いてくれるため) 比較的簡単な解析なら自分たちで行える先生は増えています。臨床を知らない方にとっては感覚がつかめないかもしれませんが、臨床データというのは取得に大きな時間的コストもかかっています。当然ですが、(データは患者さんのものだとはいえ) 自分たちの時間もたくさん使ってとったデータをよそのチームに勝手に使われるのはよしとしない先生も多いです。ご自身のプロジェクト提案は、単にXXという既知の手法を医療データYYに当てはめたというのと違って、どんな点が素晴らしいのでしょうか？すでにPythonのライブラリーやRのパッケージに実装されている手法をただ使うだけの解析ならあまりメリットは感じてもらえないと思います。臨床の医局にはたくさんの大学院生がいて、そのほとんどは臨床業務をしながら筆頭著者として論文発表して博士号取得を目指している方です。言葉は適切でないかもしれませんが、本業は臨床で、その合間にできる解析で筆頭著者として論文を発表したいという方は多いので、自分たちでもできそうな解析だと思われたら私たちに論文のネタを提供してくれる可能性は低いでしょう。

どの診療科にお願いするにせよ、先方の教授には私からお願いのメールを送りますが、meetingの機会をいただいた後にプロジェクトを説明するのはご自身の仕事です。先方にとって私たちと組むメリットを感じなければ、共同研究の受諾をしていただくことは難しいと思います。

それで最後にもう一度お尋ねしますが、このプロジェクトを共同研究する先方にとってのインセンティブは何ですか？

Clinical Informaticsをやりたい方への諸注意

チェック項目1: 患者さんのプライバシーにどう対応するおつもりですか？

チェック項目2: データはどこから持ってくるのですか？

チェック項目3: データを提供する側へのインセンティブは何ですか？

こういった観点を踏まえた上で、それでもclinical informaticsをやりたいという覚悟がある方は全力で支援します