CBI学会2023参加レポート – AIシステム医科学@東京科学大学 (Science Tokyo, Shimizu Lab)

CBI (情報化学計算生物) 学会年会参加報告

2023年10月23日から26日まで船堀タワーホールにて開催された、CBI学会年会に参加してきた。私にとっては、9月のバイオインフォマティクス学会に続き、二度目の学会参加であった。本レポートでは聴講した数々のセッションの中で特に印象的だった内容や、CBI学会年会の全体的な感想についてバイオインフォマティクス学会との比較も交えながら述べる。

CBI学会年会初日は「ケモインフォマティクス入門」のチュートリアルセッションに参加した。4時間におよぶこのセッションでは、Jupyter Notebook上でケモインフォマティクスのOpen source softwareツールとして標準的に利用されているRDKitを使い、データベースより取得した実際の化合物データの前処理と可視化を行うためのノウハウを身に着けることができた。データの前処理と可視化を行った後は、化合物の構造から活性を予測する機械学習モデルを構築し、モデルの性能の評価や、SHAP値を導出し予測に重要な特徴量を調べるというより実践的な内容に取り組んだ。最後に、リガンドベースのオープンソースバーチャルスクリーニングツールであるVSFlowを用いて膨大な化合物データベースから特定の部分構造を含む化合物のみをスクリーニングしたり、特定のクエリー分子と分子形状が類似する化合物をスクリーニングする方法を学んだ。これまでRDKitやVSFlowなどのケモインフォマティクスツールはほとんど使用したことがなかったが、チューターの方々のわかりやすい説明のおかげでスムーズに受講することができた。また、与えられたコードをただ淡々と実行するだけでなく、実際に自分でコードを書いて解析を進める演習の時間も設けられており、充実したセッションであった。現段階では私はAI創薬に関するプロジェクトには携わっていないが、今後AI創薬研究を行う機会があった場合にはこのチュートリアルセッションで学んだスキルをベースに取り組むことができると感じた。

大会2日目の午前中は清水先生が最初に師事されていた先生である、山本雅之先生（東北大学　東北メディカル・メガバンク）の講演を聴講した。「東北メディカル・メガバンク計画と個別化ヘルスケアの推進」という題で東北メディカルメガバンク機構（TMM）の設立、大規模前向きゲノムコホート調査により得られた数々の結果、TMMのデータの利活用を促進するための取り組むなどについて講演いただいた。バイオバンクに基づく縦断的な健康調査は国民の健康を守るための重要な基盤であり、TMMでは戦略的に二つのコホートを活用しており、そのうちの一つである、三世代コホートでは産院などで妊婦さんを中心に、子世代、親世代、祖父母世代の三世代、7万3千人以上をリクルートしている。TMMの三世代コホートにより得られて研究結果の一つとして、1歳児のスクリーンタイム（テレビやタブレット等の液晶画面を見ている時間）が2歳・4歳時点の発達特性の一部と関連しているという結果について述べられた。出生から始まる三世代コホート調査は難しく、TMMの三世代コホートが世界最大規模のものである。個人的には、三世代コホートを実施する上でTMMが直面した大量のアナログデータのデジタル化の話が印象的であった。乳幼児健診や人間ドックなどの出生から死亡までに記録される種々の医療データである、ライフコースデータと三世代コホート調査により得られるデータのリンケージを行うことにより詳細な縦断的解析が可能になる。講演では、これらのライフコースデータはほぼすべてがアナログであり、TMMが自らデジタル化したと述べられていた。現在様々な業界でDX化が促進されているが、医療情報に関しても研究への利活用がより容易になるようなDX化が進めば人々の健康に繋がるような研究がより多くできると感じた。講演を通して、東北メディカル・メガバンクの取り組みについてより明確なイメージを持つことができた。

大会2日目の最後に参加した「ケモインフォマティクス・機械学習/AIによる創薬研究」の口頭発表セッションでは複数の若手研究者により情報科学技術を用いた創薬に関する研究成果が紹介された。煩雑なフラグメント分子軌道法のプロトコルの自動化から、新規化合物生成モデルの適切なベンチマーク手法の提案など、様々な研究内容が紹介されたが、その中でも印象的だった松清優樹さん（九州工業大学　博士前期課程一年）の発表について述べる。松清さんの研究では、AI創薬における手法の多くがchemistry-centricなアプローチを取っており、これらの手法はターゲットタンパク質の立体構造に関する情報がない場合やリガンドが未知の場合に対応できないという課題に着目し、トランスクリプトームベースの創薬手法を提唱した。具体的には、ヒト細胞株において特定のターゲットタンパク質をノックダウン、もしくは過剰発現させた際の遺伝子発現プロファイルを取得する。次に、ヒト細胞株のあらゆる化合物への応答遺伝子発現プロファイルを取得し、ターゲットタンパク質をノックダウン・過剰発現させた際の遺伝子発現プロファイルと最も相関するプロファイルの化合物をsource moleculeとして選定し、変分オートエンコーダーとベイズ最適化手法を用いて新規化合物を生成するという手法であった。こういったトランスクリプトームベースの創薬手法にはあまり馴染みがなかったので、大変勉強になった。発表を聞く中で最も驚いたのは、この研究内容がすでにJournal of Chemical Information and Modelingに掲載されていることと、first authorとしてこの研究を完成させた松清優樹さんが自分と同じ博士前期課程一年の学生であることだった。同年代の学生の方がすでに大きな成果をあげているのはとても刺激的であると同時に、少し焦りを覚えるようなセッションともなった。

大会3日目の午後は「核酸創薬に向けた構造・機能解析と計算によるアプローチ」という題のフォーカスドセッションに参加した。新型コロナウイルスワクチンの影響もあり、創薬モダリティとしての核酸への注目が高まっているなかで、核酸の構造・機能・相互作用解析などを専門とする研究者の方々を中心に、拡散創薬におけるウェットとドライのアプローチの両方の現状と、今後の展望が議論された。中でも特に印象的だったのは近藤次郎先生（上智大学）による創薬標的としてのRNAに関する発表であった。タンパク質と比較してRNAの立体構造は単純だと思われがちだが、実際はRNAも非常に複雑な立体構造をとることが知られている。一本鎖として転写されたmRNAやノンコーディングRNAは、G-CとA-U以外の非相補的な塩基対を含むループ構造やbulge構造など、さまざまな構造をとる。特定の遺伝子のmRNAを標的とする化合物を設計したい場合、そのmRNAの構造モチーフの特徴を捉える必要がある。しかしながら、RNA配列から二次構造を予測する既存のプログラムは、タンパク質構造予測のAlphaFold2などに比べると大きく精度が劣り、コンピューター手法を用いたRNAの構造予測は難しいのが現状である。近藤先生は、「どういったRNA構造モチーフが創薬標的になりうるか？」というリサーチクエスチョンに対し、オフターゲット効果を回避するために、rRNAやtRNAなどに頻繁にみられるモチーフは避けるべきだと考え、rRNAの構造モチーフを抽出した結果について発表された。rRNAの各部分構造に多く含まれる塩基対や、RNAに結合しやすい低分子化合物の条件などについて講義いただき、RNAに関する基礎的な内容も含めて非常に勉強になった。また、コンピューター手法を用いたRNAの構造予測に関して、RNAは条件に応じて構造を動的に変化させて「調節」するため構造予測によって一意の解を求めることに意味はそれほどないのではと述べられた。配列から構造を予測するよりも、創薬標的として適したRNAモチーフかどうかを見分けることができる手法のほうが価値があると述べられた。核酸創薬においてどのようなドライ手法が求められているのかを知ることができ、多くの学びを得たセッションとなった。

大会最終日の午後は「幹細胞とAIを用いた毒性予測の新アプローチ法の紹介」という題のフォーカスドセッションに参加した。幹細胞も化合物の毒性予測も今現在進めている研究プロジェクトとは関係なく全く馴染みのない分野であったが、できるだけ幅広い分野の内容を吸収したく、このセッションを選んだ。藤渕航先生（日本新薬株式会社/東京大学大学院医学系研究科）は自身が開発されたiPS細胞を用いて化合物の毒性を検出するシステムであるStemPanToxについてご説明された。ES細胞にさまざまな物質を添加した際の遺伝子発現の変動をネットワーク化し、学習させた機械学習モデルを用いてiPS細胞で物質を添加した際の毒性の有無を高精度で予測することができたとご報告された。高瀬俊郎先生（日本アイ・ビー・エム株式会社）は、このStemPanToxを新たなデータに対しても利用可能な実行パイプラインを構築し、毒性予測分類器を新たな機械学習モデルを用いて再実装した結果についてご説明された。セッション最後の発表となった加藤毅先生（群馬大学）は、StemPanToxの学習における大きな課題である、学習データの乏しさを克服するための、学習データの仮想的な増加手法についてご説明された。幹細胞の遺伝子発現の測定には時間的経済的コストがかかる他、計測方法が統一されていないためデータ統合が困難である。そのような状況のもとで加藤先生は学習データを仮想的に増加する手法を提案し、水増しデータに対するカーネル予測器の学習理論についてご説明された。加藤先生の発表は機械学習の数理に関する非常に難解な内容であったが、数学の抽象的な概念を図やアニメーションを使って説明してくださった。決して、完全に理解できたとは言えないが、証明の大まかなイメージを掴むことができた。

CBI学会年会は以前参加したバイオインフォマティクス学会と比較すると、企業からの参加者が高い割合を占めていた。オーラルセッションやポスター発表に関しても、創薬に関する内容のものが多く、分子シミュレーション、毒性予測、深層学習手法などの多方面から、より効率的な創薬を実現するための研究が行われていることを実感したと同時に、ドライ手法を主体とする創薬の実現には克服すべき課題がまだまだ多く残っているとも感じた。CBI学会年会ではポスターの展示と企業による展示が同じ会場で行われ、とても活気があった。バイオインフォマティクス学会と比較すると、ポスターの数が少ない上に発表の時間も長く設けられていたため、より多くの発表者の方と議論することができた。特に印象的だったのは、全体的な傾向として、機械学習を用いたAI創薬に関するポスター発表は、結果の解釈性を重視したものが多かったことだ。バイオロジストやメディシナルケミストなどの他分野の専門家とのコラボレーションが必須であるAI創薬においては、結果の信頼性のみならず得られた結果の根拠を示せることが重要であるためだと考えた。

企業ブースではさまざまなテクノロジーが展示されていた。個人的に印象的だったのは、複数の企業がVR技術を使った製品を開発していたことであった。その一例として、VR空間上で複数のユーザーがインタラクティブにリガンドと化合物のドッキングなどのシミュレーション結果を考察できるような製品が紹介されていた。実際にVRゴーグルを装着しての体験はしなかったが、こういったインタラクティブな技術は分子シミュレーションや設計などの技術を用いた創薬に対するハードルを下げることにつながるのではないかと感じた。

学会に参加することの最大のメリットは、セッションの聴講や発表者との議論を通して、普段の研究で触れることのない分野を含め、さまざまな分野において何が可能で、何ができなくて、今その分野でどういった研究が求められているのかを短期間で学ぶことができることだと私は考えている。これからも幅広い分野の知識を身につけ、多くのインスピレーションを得ながら、学んだことを自分の研究に活かしていけたらと思う。

2023年10月23日から26日の4日間CBI学会に参加したのでその記録をまとめたものを報告する。オンサイトの学会は9月のバイオインフォマティクス学会に続く2回目の学会になった。学会名 (CBI: Chem-Bio Informatics) から予測するにバイオインフォマティクスよりも狭い領域の参加者になると思っていた。確かに、バイオインフォマティクスの中でも特に創薬の話が中心であったが決定的に違ったのは企業からきている参加者の方々が多かった点である。講演発表している人のうち3/4ぐらいはアカデミアの先生であったが、参加者はおそらく半分以上が製薬会社の方であった (スーツ率が明らかに多い)。そのような背景から、企業とアカデミアとの違いについても知ることができた学会でもあった。

1日目は学会が主催するチュートリアルのうち「ケモインフォマティクス入門プログラム」に参加した。製薬会社でドライ解析による創薬に取り組んでいる方々がチュータとしてケモインフォマティクスのハンズオンセミナーで内容は化合物データの前処理やケミカルスペースの可視化から始まり、予測モデルの構築やVirtual Screeningなど実践的な内容になっていた。進行は事前に配られたノートブック形式のpythonをベースに実習を挟みながら進めていくという形式だった。その中で特に印象的であった内容を２点上げる。1点目は私よりもはるかにツールを上手に利用しているという点だ。現在、何か目的があった時に私は手前から一つずつ処理していき巡り巡って目的を達成している。しかし、今回のチュートリアルを通じてよく行う処理はすでにツールが開発されていることを改めて認識した。今回のケモインフォマティクスというコアな領域であってもパッケージ化された便利道具がたくさん準備されていた。今現在私はすでに誰かが開発した(しかも私が作るよりもはるかに高速で柔軟な)ツールが存在していることを十分に確認せずに自分で1から作っていることが多く時間も計算コストも無駄にしている。一度既に同じことを目的としたツールが無いかを確認する癖をつけるのが大事だと思った。

2点目がビジュアライズである。私が普段やっているような他の人に見せるためのビジュアライズではなくて、データを見える形にして確認を行ったり方針を考えるためのビジュアライズを見せていただいた。例えばちょっとした工夫で散布図の各プロットに情報を乗せることができることを知った。ちょうど、研究において私自身データの「何が」という部分に踏み込んでいかなければならないと考えていた。今回のチュートリアルであれば予測の難しい化合物がなんなのか、どんな構造が予測に重要であるかなどといった部分である。今回のチュートリアルでいうと薬としての指標が高くなるような部分構造はなんなのかといったところから、どんな構造が共通しているかといった点である。このような「何が」という部分に踏み込んでいくことがデータサイエンスに必要だと感じた。無意識のうちにデータの処理をしていくことがデータサイエンスだと考えてしまっていたが、得られたデータを解釈して次の戦略を立てていくというのが求められているデータサイエンスの能力であると意識させられたチュートリアルでもあった。

また、今回は製薬会社の方がチューターとしてチュートリアルを行ってくださった。その中でプロットの色分けを特許番号ごとに行ったり、新しく作る化合物が既存のものとは違うものになるように作成するなど製薬会社ならではの視点を知ることができた。特に印象深かったのは製薬会社の他の部署との関係であった。コンピュータによるスクリーニングをするチームはどうしても化合物を合成するグループに自分たちの見つけた化合物を作ってもらうようにプレゼンをしなければならない。その際「よく分かりませんが、これがいい感じです」というのは化学合成屋さんに作ってもらうには説得として不十分である。そこで、説明変数に解釈が持てるものを使ったり、様々な角度から検証して自分たちの予測のもっともらしさを説明したりする必要がある。この考えは私自身持っていたつもりであったが明らかに意識が低かったと感じた。他の研究者やグループを説得するためには自分が納得するレベルを遥かに超える説明力がデータに求められている。この視点は今後の研究にぜひ取り入れていきたい。

二日目はまず東北大学東北メディカル・メガバンク機構所長の山本雅之先生の講演から始まった。山本先生の講演の中で繰り返されていたのが個別化ヘルスケアと予防医療という言葉だった。3世代コホートという世界でも類を見ない追跡調査によって様々な検査数値からゲノム情報までの膨大なデータ（約30PB！！）によって個別化ヘルスケアと予防医学の研究が進められている。講演で挙げられていた例の一つが幼少時におけるスクリーンタイムと発達障害に関係があるということだ。この報告は日本ではあまり取り上げ得られなかったが欧米を中心に報道がされたそうだ。この研究は丁寧な追跡調査が必要であり東北メディカル・メガバンクならではの成果と言えるだろう。大規模なバイオデータベースと言えばUKバイオバンクがまず上がってくると思う。しかしUKバイオバンクと決定的に違うのはその目的であり、UKバイオバンクが市民の健康を底上げすることを目的にしているのに対して東北メディカル・メガバンクは上述の通り個別化ヘルスケアと予防医療を目的にした計画である。その結果、東北メディカル・メガバンクにしかできない研究というのが大量に生まれている。このような明確な目的設定 (加えて風呂敷を広げすぎていない) を設けた上でデータを集めるというのは、公共データベースや実験においても個人でデータを集める上で非常に重要なポイントだと思った。データを集めるところから研究は始まっていることを改めて認識した。また、個人的に予防医療という言葉は個別化ヘルスケアに比べて耳馴染みのない言葉であったが、本学会期間中の講演で何度も耳にした。学会に参加する一つの意義は領域の最先端をいく先生方が考えるその領域の行先を知ることができることだと考える。学会中に何人もの先生の話を聞いていると何となく共通項が見えてくるようになる。おそらくその共通項というのは間違いなく今後来る可能性が高い内容であり、今回の学会では「予防医療」というのがそのキーワードであったと感じた。

二日目でもう一つ取り上げたい講演があった。千葉大学の桜庭先生によるAlphaFold2 (以下AF2) に関する講演である。AF2というワードは何度も聞いたことがある言葉だと思うが、今回はAF2の学術的なブレイクスルーに関する講演であった。私自身、AF2の大きなブレイクスルーはアミノ酸の進化的情報を組み込むことによってアミノ酸配列のみからタンパク質の立体構造を高い精度での予測に成功して立体構造予測コンペティションCASPで飛び抜けた成績で優勝した。という程度の認識であった。この講演で紹介されたAF2のブレイクスルーは桜庭先生の言葉を借りれば「AF2は物理を忘れている」という観点であった。AF2以前もアミノ酸配列からタンパク質の立体構造を予測する研究は行われてきている (2018年に発表されたAF2の前の世代のAlphaFoldもその一つ)。それら先行研究の基本的なアプローチはアンフィンゼンのドグマ、つまり物理的観点からあるアミノ酸配列に関して最もエネルギーが低い状態が正しい立体構造であることを期待したものであった。門外漢であるのため詳しいことは理解していないが、全ての事象を計算して最適な状態を求めるのは簡単ではないことは想像に難くない。AF2以前の研究はこの複雑難解な物理エネルギー計算をいろんな方法でやってきている。このようなエネルギーの勾配の曲線を沿って最適な構造に辿り着こうとするAF2以前のモデルに対してAF2のモデルは全く物理エネルギーを考慮に入れずに今より良いものを作るということに注力している。AF2以前のモデルが手法重視のモデルとすればAF2は目的重視のモデルと言える。この講演のメッセージは「問題を置き換えることはできないだろうか」ということである。AF2もそれ以前のモデルもアミノ酸配列からタンパク質の立体構造を求めるという目的は同じであるが、AF2は上手にその問題を置き換えたことによってブレイクスルーを起こした。現在取り組んでいる研究やopen questionである難題も捉え方一つで大きく進歩するかもしれない。

二日目、三日目に関してはバイオインフォマティクス学会と同様に、CBI学会でも「データの扱い」に関する講演がある程度割合を占めていた (バイオインフォよりも多い印象)。先にも述べた東北メディカル・メガバンクであったりAMEDが進めるBINDS (データの利活用) は会期中幾度となく耳にした。私はまだデータを管理する側の立場になったことがないのであまり実感がないのだが、膨大なデータをどうやって保持するかではなく集めたデータをどうやってみんなに使ってもらうかという事の方が課題であるようだ。データを抱え込むのではなく広く様々な分野からアクセスしてもらえる方が運営側としてありがたいとのことだった。このような視点は研究室にこもっていてはまず知ることができない内容だろう。

このほかに特に気になるワードとして東京医科歯科大学名誉教授の田中博先生の講演の中で「モバイルオミクス」という話があった。現在、Apple Watchなどの端末が普及したことによって日常的に大量のデータができるようになっており、そのデータの種類も多様になってきている。これらの多種多様な大規模データを扱う研究領域というのが起こりつつあるようだ (検索をかけてもヒットしない)。私自身このようなデータを扱ったことがないが、Apple Watchに心筋梗塞のリスクがあるから病院に行け、と言われて行ったら本当に診断がついたというニュースを聞いて以来「予防医学」との親和性も高い他、侵襲性が低いなど今後一般により広がっていくだろうという印象を得た。

今回、ポスターを含めて中分子の発表を聞くことがほとんどなかったのが意外であった。やはり製薬の中心は未だ低分子であり今後もその傾向が続くのだろう。一方で低分子化合物については本当に色々な手法があって大きな資本が投じられていると肌で感じることができた。最後に個人的に勉強になった点は創薬研究の見せ方の部分である。薬がターゲットにくっついているシミュレーションなどの図があると (少なくとも自分には) impressiveなスライドやポスターになっていた。次の学会は分子生物学会であるので是非CBI学会で得た研究の見せ方をふんだんに盛り込んでいきたい。

今回､CBI学会に初めて参加しました｡最初に感じたことは､製薬企業からの参加が多いということでした｡セッションによっては､発表者がすべて製薬企業の方で､質疑応答で手を挙げるのもすべて製薬企業の方､ということもありました｡私がこれまで参加してきた医学･生物学系の学会では､企業がスポンサーになっているセッションやキャリアパスのセッション以外では原則として全ての発表者は医療関係者またはアカデミアの研究者や学生でした｡｢企業は研究内容を絶対に表に出さないものだ｣という個人的な先入観も相まって､｢学会はアカデミアのもので､企業はそのサポート役だ｣と思い込んでいたので､製薬企業の研究者も学会で情報交換するという事実は新鮮でした｡ポスター発表会場で製薬企業の方と思しき二人の男性の会話が耳に入ったのですが､一人の方が｢他の企業に先を越されないことが重要なので､色々な企業と片っ端からコラボしています｡｣と仰っていました｡アカデミアの研究において｢競争から共創へ｣と言われますが､科学に関する知識の量が膨大になり､研究に必要な技術が高度専門化している現代では､企業も自社内で完結出来ない研究については積極的に他社とコラボする必要があるのでしょう｡その方の発言に対して､もう一人の方が｢御社は大きな会社だから良いですね｡｣と仰っていました｡アカデミアと同様､企業での研究にも企業間の格差があるのでしょうか｡実際､テレビでCMをよく見るような製薬企業からのポスター発表には､｢自社のラボをロボットで自動化して､大量の実験データを作り､それを使ってAIを訓練しました｣といった､企業のパワーを見せつけられるようなものが散見されました｡我々アカデミアの人間は､そういった企業の力技に負けないアイディアを生み出す力を磨く必要があると感じました｡

学会初日に参加した参加型のセッション(チュートリアル03 リアルワールド医療データソン)では､｢我々が新型コロナウイルスのパンデミックの最中に医療データにアクセスできていたら､どのような知見を導き出すことができたか?｣というテーマで､実際の医療データを用いた解析を行いました｡データには､匿名化された患者ID､受診した医療機関名､病名､処方された薬剤名など､1万人分の実際の医療情報が含まれており､1時間強で解析を行い､グループ毎に成果を発表しました｡私個人は､日頃の解析でこれに似た健康診断データを扱っていたお陰で｢何をやって良いのか分からない｣ということは無かったのですが､残念ながら力及ばず､1時間という限られた時間でまともな結果を出すことは出来ませんでした｡最初は医療機関別に患者の重症化の頻度を比較しようとしたのですが､医療機関の数が多く､各医療機関あたりの患者数が非常に少なかったため比較を諦めました｡次の解析のネタを思いつかず､苦し紛れに処方された解熱剤の種類と重症化率の比較をしようとして薬剤名で検索をかけたところ､｢ロキソニン錠｣､｢ロキソニンテープ｣のように同じ成分の湿布薬といった解析から除外すべきものがあり､またジェネリック医薬品の存在により｢ロキソニン｣､｢ロキソプロフェン｣のように複数の薬剤名が存在するなど､欲しいデータの抽出に手間がかかりました｡どうにか見せられる結果を出そうと､変な汗をかきながら頑張ったのですが､残念ながら時間切れになってしまいました｡グループの他のメンバーの多くも､結果を出すのが難しかったようでした｡運良くベテランの先生がおられ､その先生の結果をグループの結果として提出させて頂きました｡他のグループの発表では､機械学習モデルを用いて100以上ある項目の何が重症化と関連するのかを解析したり､処方薬の内容から重症例を分類したりされていました｡自分の未熟さを痛感すると共に､｢解析をできる人たちがまず何をやるのか｣を間近で見ることができたことは大変勉強になりました｡思うような結果を出せなかったものの､実際の医療データを扱うことができたこと自体は貴重な経験でした｡日本語のデータを扱うのは想像以上に面倒で､そこにジェネリック医薬品の普及による似て非なる薬品名の混在があり､更に似た病名が複数存在するというように､数値のデータとは比較にならないほど処理が煩雑でした｡セッション最後の説明で知りましたが､そのような｢似て非なるもの｣たちの区別のために疾患や薬品にコードが割り振られているようで､そういったものを利用すると処理がより簡単になるようでした｡いつかは､ここで学んだことを生かせるような解析をやりたいと思います｡

2日目以降は､大規模データを利用した次世代ヘルスケアの方向性､薬剤の毒性予測､量子コンピュータ､生体模倣システム(Microphysiological system, MPS)といった内容を聴講しました｡

今回の大会のテーマは｢大規模データが切り拓く次世代ヘルスケア～ゲノム情報・診療情報が創り出す新しい創薬と医療～｣であり､このテーマに関連するセッションが多く設けられていました｡

医学研究に有用な大規模データとして､大規模コホートのデータがあり､日本でも複数のバイオバンクがあります｡その中の一つでは既に世界最大の3世代コホートのデータを取得し､コホートの中で生まれた｢メガバンク･キッズ｣と呼ばれる子どものデータが蓄積されつつあるとのことでした｡このような｢子どものデータ｣の取得は､世界でも有数のバイオバンクであるUKバイオバンクでも試みられたものの中止になったとのことであり､日本の強みになっているそうです｡このバイオバンクでは､住民の方々から頂く参加同意書の内容が､ゲノム情報の二次利用も可能という､研究への利用可能性が高い内容になっているとのことです｡ただ､最近は高齢になられた参加者の方から｢終活の一環としてゲノム情報の利用同意を取り消したい｣という申し出が相次いでおり困っておられるそうです｡今後の方向性として､法整備による参加の義務化もあり得るのではないかという意見や､さすがにそれは国民の理解が得られないだろうという意見があり､議論が行われました｡

バイオバンクへのデータ蓄積においては､経時的なデータの蓄積が重要です｡その意義として分かりやすいのは､ゲノム配列や医療データ上の特定の所見が将来的にどのような健康状態の変化に繋がるかを検証できることですが､それに加えて｢個人差｣の存在も関わっているようです｡例えばある疾患によって脳のMRI画像に生じる変化について研究する際に､簡単な手法は患者と健常者の比較ですが､そもそもMRI画像には個人差が大きく､患者と健常者の比較では疾患に特有の変化を抽出することが難しい場合があるそうです｡そのため､個人の発症前と発症後を変化することで､疾患に特有の変化を検出しやすくなるとのことでした｡ただし､個人の経時的なデータにおいては注意が必要な点もあります｡個人は自分の価値観に従い生活を変化させるので､例えば喫煙者が数年後には禁煙するといった現象が生じます｡喫煙と発がんリスクの関連を正確に調べる際には､そういった変化もデータに含める必要があるとのことでした｡経時的なデータを解析する際のもう一つの注意点として､｢時代の変化｣についても述べられていました｡例えば未婚男性の死亡リスクについて解析を行う場合に､｢未婚｣が意味する内容が時代によって異なることを考慮すべきということです｡｢未婚｣というのは単なるパターン現象であり､30年前の未婚男性が抱えていた健康リスクは､現代の未婚男性には必ずしも当てはまらない可能性があります｡他の例として､しばしば言及されるデジタルデバイスへの曝露と健康リスクの関連についても､現代の｢デジタルネイティブ｣の若者達と､成人してからデジタルデバイスに触れ始めた(私自身を含む)中年層とでは､リスクが異なる可能性が考えられます｡ただ､それらの変化についての検討も経時的なデータの蓄積によって初めて可能になりますし､必要な時に新たな視点で解析することが出来る点でも経時的データの蓄積は重要とのことでした｡

最初に｢企業のパワー｣について書きましたが､ゲノムデータベースについては､企業に利用が許可されるものが少ないそうです｡企業としては､新薬の開発コストが薬剤1つあたり3000億円(スカイツリー5本分の建設費用)かかるため､治療標的を見極めるためにゲノムを含めた様々なオミクスデータの利用が渇望されているとのことでした｡また､ゲノムを含む医療データの利用に関するモデルナジャパン社のアンケート調査の結果では､一般人だけでなく医師においても､製薬会社への情報提供に積極的だと答えたのは3割に過ぎず､アカデミアや病院への提供に比べて顕著に低い割合であったとのことでした｡治療標的を見いだす研究に関しては､まだアカデミアに利がありそうです｡

複数の講演で､｢ウェアラブルデバイスにより取得したデータの利用｣についての言及があったことも印象的でした｡私自身は殆どそういったデバイスを使ったことが無く､何が可能なのかあまり知らないのですが､臨床研究においてデバイスを貸し出して生体データを取得した事例の報告があり､基本的なツールとしての立ち位置を確立しつつあるように感じました｡多少は自分でも使用して勉強しておくべきなのかも知れません｡

個人的に驚いたのは､国内には14のバイオバンクが存在しており､その理由の一つが､財源(省庁)が違うプロジェクトの場合には別のバイオバンクを作る必要があり､そうでなければ研究不正とされるという現状だということです｡先日参加したバイオインフォマティクス学会では､データバンクの統合に関する講演があり､一つのトピックのようですが､国レベルでバンクの統合を阻むような制度が運用されているのなら､統合はまだ先になりそうだと感じました｡データの利活用を促進するには､ワンストップでの運用が効率的だと思いますので､統合の推進に期待したいと思います｡

このテーマに関連する講演を聴き､将来的には全国民のゲノムデータ､医療データ､デバイスから得られる日々の生体データが生まれた瞬間から記録され､疾病リスクや生活習慣の乱れなどについての通知が自分の持つ電子デバイスに送られてくるという世界になるのだろうかと空想しました｡個人的には､生活習慣の多少の乱れをいちいち指摘されるとストレスが大きくなり､血圧が上がりそうなので､通知はオフにすると思います｡

薬剤の毒性予測についてのセッションでは､様々な手法で､深層学習を含む機械学習モデルを用いた毒性予測の発表がありました｡多くが製薬会社による研究でした｡分子構造をグラフとして扱いグラフニューラルネットワークで解析する手法や､薬剤のball-and-stickモデルの画像を様々な角度から撮影して深層学習モデルで解析する手法､分子記述子を用いたランダムフォレストなどの機械学習モデルと画像を用いた深層学習モデルのアンサンブルなどの手法が検討されていました｡将来的にはin sillicoで毒性予測を完結させるのが目標のようでしたが､どの手法もまだ予測性能は十分ではなく､現状では実験による検証の役割が大きいようでした｡

量子コンピュータに関する講演では､量子コンピュータと古典的(現在の)コンピュータとの違い､現状では誤り耐性が無いことやビット(qbit)数が少なく大きな計算が難しいことなどの理由で実用レベルでは無いこと､しかしハードウェアやアルゴリズムが進歩して実用可能になったときには強力な計算ツールになるので今から準備しておくべきであることなどを伺いました｡自身の研究分野において何に使えるのかを､たまに考えておこうと思いました｡またQUANTINUUM社では､TKETという､量子コンピュータのプログラミングをシミュレーションできるツールがあるそうなので､遊んでみたいと思います｡

生体模倣システム(MPS)とは､オルガノイドや臓器チップのように臓器を模倣したデバイスのことです｡聴講したセッションでは､血液脳関門(Blood-brain barrier, BBB)､がんの血管網､肺胞の機能を模倣したMPSについて紹介されていました｡BBBのMPSは､臓器チップ様の構造で､ヒトiPS細胞から分化させた脳毛細血管内皮細胞を用いることで血管側から脳側への選択的な物質輸送を再現されていました｡BBBの他､脳に存在する他の関門である血液くも膜関門､血液脳脊髄液関門についてもモデルを作られているようでした｡脳へのデリバリーを促進する薬剤開発の研究への活用が期待されます｡次のがんの血管網のMPSも臓器チップで､血管を埋め込んだデバイスに腫瘍をセットすることで血管が腫瘍内に伸長して血管網が形成される構造でした｡現在はmm単位の腫瘍への適用に留まるようで､cm単位にするとチップの材質が耐えられず､一方で丈夫な材質にすると酸素透過性がなくなり血管組織が死んでしまうといった課題があるようでした｡ただ､腫瘍の部分を脳や腎臓などの組織に置き換えることで様々な組織に応用可能とのことで､将来的に有用な実験デバイスになることが期待できそうです｡最後の肺のMPSは､肺胞の構造を模倣するオルガノイドのモデルでした｡線維芽細胞などとの共培養により､複雑な肺胞の3次元構造の模倣に成功し､薬剤の肺毒性の検証や､ウイルス感染の実験に利用可能のようでした｡特に感染実験については､本来閉鎖構造であるオルガノイドに針を刺して空気を出し入れし､呼吸を模倣すると共に､内腔(生理的な肺胞内腔に相当)にウイルスを感染させるような実験が可能になるデバイスを開発中とのことでした｡将来的には一定のin vivoの実験を代替可能になるかも知れません｡

初めて参加したCBI学会は､普段触れることが少ない製薬企業での研究を垣間見たり､製薬企業の研究者同士の議論を聞いたりすることができる新鮮な場でした｡先日参加したバイオインフォマティクス学会と似た部分もありますが､CBI学会の方が現実の医療との関わりがより強いように感じました｡今回も､参加前は数式や難解な解析手法だらけの発表ばかりで理解できないのではと警戒していましたが､数式が登場することは殆ど無く､とても楽しめました｡

CBI (情報化学計算生物) 学会年会 参加報告

CBI (情報化学計算生物) 学会年会参加報告