医学や生命科学に特化した日本語で読める初めてのPythonコードつき機械学習本である「Pythonで実践 生命科学データの機械学習」を羊土社から上梓しました。この記事にはさまざまな学習リソースや、生命医科学研究における機械学習の活用例をまとめます。この業界は近年特に進展が早いので、折に触れて加筆・アップデートしますバイオメディカル研究のためのリソース集と合わせてこのページをブックマークなりしてトレンドのキャッチアップ等にお役立てください

機械学習の生命医科学 (バイオ・医療)への活用 / 学び方

焼きなまし法 (SA法) をご存知だろうか? 清水がはじめて機械学習を組み入れたソフトウェアを発表した2006年当時に使っていた機械学習の手法である。まだバルクのRNA-seqもない頃、次の生命医科学研究は間違いなく大規模データの取得とその情報科学的な活用・仮説形成が鍵になると考え、医学生ながら情報科学の先生の研究室に毎日通って取り組んだプロジェクトだった。当時は医学部に情報を学びたい学生はほとんどおらず、だからこそ逆にたくさんのことをご指南いただけた。

機械学習との初めての出会いからはやくも15年以上の月日がたち、東京医科歯科大学でAIシステム医科学分野という研究室をスタートしてわずか1ヶ月後の2022年3月、学部生時代から10年以上購読している羊土社から1通のメールが来た。スタッフも学生も事務補佐員さんもまだ誰もいない、日本で一番零細ラボの当研究室に新しい書籍を作るところから相談したいということで驚いたが、テクノロジーの民主化を通して日本からの生命科学・医学研究に少しでも貢献できればと思い重役をお引き受けすることにした。

羊土社の本社ビルと当研究室は徒歩圏内ということもあり、お互いに何度か行き来して企画の打ち合わせをするところからはじめ、それからおよそ1年弱もの時間をかけて執筆・校閲・加筆修正・編集・校正等を経て出来上がったのがPythonで実践 生命科学データの機械学習  (通称「羊土社の赤Python」) である。青Pythonである独習Pythonバイオ情報解析を読み終わったくらいの生命科学・医療系の方が自身の研究に機械学習を組み込むことができるよう、画像・ゲノム・シングルセル・オミクス・AI創薬・中分子といった主要なトピックスを網羅しつつ内容が難しすぎず易しすぎず自習できるよう調節している。バイオメディカル領域の機械学習書の決定版を目指したため、450ページもの大ボリュームになった。また、徹底的にこだわったのは自分のコンピューターで今日から解析ができるということであり、それは副題である「あなたのPCで最先端論文の解析レシピを体得できる!」にも表れている。

ご多忙の中、本書の設計思想を念頭に原稿を執筆してくださった先生方や、羊土社の本多様・早河様はじめ編集部の皆様の多大なるご尽力のおかげで、編者としては生命科学・医療系の多くの方にご満足いただける素晴らしい書籍になったと自負している。2006年当時は機械学習をやりたければC言語で難しいアルゴリズムを自ら実装する必要があったが、今日はPython製の便利なライブラリーを使えばごく短いコードで実行可能であり、しかもそれらは無料で使えるGoogle Colaboratoryにあらかじめインストールされている。今後ますますウェットとドライの垣根はなくなっていくだろう。ぜひ本書でテクノロジーを学び、そしてご自身の武器の1つに機械学習を加えていただきたい

1) 生命科学・医学領域の機械学習の応用例

赤Pythonの第1章で、いくつかのフィールドにおける応用例について論文を示している。その内容をここに書くのはできないが、1つ挙げないといけないのはアミノ酸配列から立体構造を予測するAIであるAlphaFoldの開発だろう。正確にはAlphaFoldは2つの全く異なるバージョンがあり、巷で話題になり各方面で使われているのはそのうちのversion 2である。単一の構造はほぼ完璧に予測でき、それをもとに、巨大な複合体の予測が近年の主要トピックスになっている。また、実験系の生命科学研究者の立場からすれば、例えばクライオ電顕で得られたデータをもとにAIの予測構造をヒントにして構造を決めていくことにも使われている。これは第10章の内容とも重なるが、アミノ酸配列から構造を予測するだけでなくその機能をも予測できるようになりつつあり、もしそれができるのであれば、がんや進化で見られるようなアミノ酸配列に変異が入った際にどんな機能変化が起こるのかを推定したり、あるいはタンパク質のエンジニアリング (人工タンパクの設計) にも有用な知見を与えてくれる。この方向性でNature等に毎年たくさんの論文を報告し卓越した業績を挙げているのはDavid BakerやGeorge Churchのグループがある。

赤Pythonの第2章で青Pythonのうち特に重要な事項を実際の生命科学データを使って駆け足で復習した後に続く第3~5章では、がんと正常部のトランスクリプトーム解析というシンプルな例を題材に、生命医科学の情報解析においておそらく最も多く行われているであろうトランスクリプトームレベルの遺伝子発現変動データに機械学習をどのように適用できるのかを示した (ちなみに2~5章は編者が主宰するオンラインの学生勉強会Biomedical Data Science Clubのメンバーである学部生に執筆してもらった。ほんの1~2年前に勉強し始めたばかりの学生さんが昔の自分を思い出しながら執筆することで、はじめての方でも分かりやすい内容になっている)。これをさらに発展させ、複数階層のオミクスデータを統合し機械学習を活用したがん研究を第9章で論じている。がんは究極的には遺伝子の病気であり、その変異によって本来の正常細胞は持っていない新たな抗原 (ネオ抗原) を生成する可能性がある。そのネオ抗原やHLAとの結合を機械学習で予測できれば、例えば新たながん免疫療法の開発につながるかもしれない。ゲノム領域の機械学習はとてもホットなトピックスではあるが、その基本的な解析手法を第7章で解説した。また、遺伝子解析においては近年ますますシングルセル解像度の解析が重要になっているのはご承知のとおりだ。シングルセル解析における機械学習もさまざまな報告があるが、その最も代表的な例を第8章で示した (この章も学部生の方が執筆している)。

AIがおそらく一番相性が良いのは画像解析である。幸いにして、医療においてはレントゲンからはじまりCT・MRI、病理・皮膚・眼底・塗抹などの画像が診断にきわめて重要な役割を果たす。生命科学領域においても、ルーチンで撮像する細胞の画像だけでなくさまざまな蛍光・免疫画像がある。そのような細胞のデータだけで、その後の細胞運命をAIで言い当てることができるという報告もある (Nature Machine Intelligence 2022)。さらに近年は組織透明化技術の進展によりこれまでは難しかった標本の画像も比較的容易に得られるようになった。バイオ画像解析におけるAIの重要性は今後もさらに高まるだろう。第6章を読めば、画像解析を2つの実例を通して学ぶことができる。さらに、画像解析に時系列を付加した動画解析が比較的容易にできるようになってきた。動画AI解析は、例えばバイオ領域では動物の行動解析の自動化など、バイオDXとも大いにつながっていくことだろう。実際、Google Colabで動かすことのできるAI行動解析ツールはCNS姉妹誌に2022年だけで少なくとも5本出ている。

病気の研究をすると、どうしても薬の少なさを痛感させられる。ハイスループットスクリーニングから始まる今の創薬技術を持ってしても、1つの薬を作るまでに、10年以上の歳月と100億円以上のお金がかかるのが現状だ。この現状を打破し、もっと迅速に患者さんに薬を届けるために注目されているのはAI創薬である。第11章においては、4つのプロジェクトを通してどのように限られた情報から薬をin silicoで見出すのか、さまざまなヒントを提供した。さらに、近年の創薬で注目を集めているのは低分子よりも少し大きな「中分子」と呼ばれるカテゴリーである。中分子医薬品は低分子医薬品と同様に経口摂取可能で細胞膜を通り、比較的安価に合成できるというメリットも持ちながら、同時に抗体医薬のような高いレベルの特異性と親和性を兼ね備えている、夢のモダリティである。中分子創薬におけるAIはまだチャレンジングなところも大きいが、本書においては「発展編」として第12章でコードとともに紹介する。また、発展編においてはもう1つマイクロバイオーム解析も組み込んだ。微生物由来の物質が医薬品として使われている例はペニシリンをはじめとして多数あることはご存知の通りだ。今はまだまだ彼方の技術ではあるが、第13章で示すマイクロバイオームの機能未知遺伝子の解析を通して、将来的に薬のヒントが得られるようになるのではないかと編者としては考えている。すでに機械学習に造詣が深い方にとっても、発展編の2つの章は学ぶところが大きいだろう。

具体的な学術論文は枚挙に暇がないので個別に紹介するのは差し控えるが、こちらのページにはオンラインの学生勉強会で取り上げた論文が列挙されている。それぞれの論文の概要と大元の論文へのリンクもついているので、参考になれば幸いである。他に、生命医科学領域の機械学習に関するいくつかの優れた総説を示す (随時更新)。

2) 発展的な機械学習の学び方

赤Pythonの第14章でさらにステップアップを目指す際のロードマップを提示しているが、そのいくつかをこちらにもお示しする。

まず、学生さんにとっては

  • Biomedical Data Science Club: 学部生〜修士課程学生を対象にした、バイオメディカル領域のデータサイエンス勉強会
  • オンライン研究チャレンジ: 学部生〜修士課程学生を対象にしたオンラインによるバイオメディカルデータサイエンスの研究指導。2年間で論文発表を目指す
  • ダブルメンター制度: 博士課程の大学院生を対象にしたよりadvancedなオンライン研究指導制度

先生方にとっては

  • データ解析はじめてコース:  共同研究ベースだが、特定の解析に特化して3ヶ月以内の短期間で伝授しマスターしていただくコース
  • SHIROKANE&SHIRAUMEサポート制度:  共同研究ベースだが、赤Pythonで使っているGoogle Colaboratory で物足りなくなったときにより大規模な計算機を非常に廉価に & サポート付きでご用意する制度
  • ネクストキャリア制度:  次世代の生命医科学研究を牽引するに違いない学位取得後まだ数年の若手研究者に特化したより手厚いサポートをする制度
  • Twitter: 機械学習を含む広範なバイオメディカルデータサイエンスの学術論文・リソースを紹介する清水のアカウント。
  • その他: これは間接的な「学び方」だが、共同研究や共同グラント申請等、機械学習や数理モデル・バイオインフォマティクスといったいわゆるドライ系でお手伝いさせていただけるかもしれず、それを通して何かの学びになるところがあれば。

最終章で紹介している有用なリソースとしては、Towards Data ScienceというブログやPapers with CodeというSoTA (最先端) モデルを一望できるサイトがある。他にも数十ものリソースを紹介しているので、赤Pythonの最終章をご一読いただきたい。

このように、今や機械学習は一部の研究者だけのものではなく、生命科学者や医療の専門家にとっても研究をブーストできる有望なツールとなっている。むしろ、ライフサイエンスの専門知識 (ドメイン知識) があるというのは純粋な情報系の研究者にはない大きな強みとなる。赤PythonことPythonで実践 生命科学データの機械学習ライフサイエンスのリアルなデータを使った機械学習を身につけ、ご自身の研究に役立てていただければ、編者として望外の喜びである。