生命科学・医療領域のデータサイエンス (DS)や人工知能 (AI) は多くの分野にまたがる知識やスキルが必要です。前半ではどのようなことを勉強する必要があるのかをお示しし、そしてそれらの関係をロードマップの形で提示します。後半ではその最初の第一歩として、これから勉強する学生さんに向けて今日から3ヶ月間、週6で1日3時間ずつ勉強するとしたらどのように進めればよいか、一例としてカリキュラム案をお示しし、最後にさらにその先の学習のための優れたリソースを共有しています。

生命科学・医療領域のDS/AIの学び方

分野融合領域なので複数の領域を学んでいくことが必要です。専門領域を大きく「ライフサイエンス系」と「数理科学系」に分けてご紹介します。

ライフサイエンス系

  • 教養としての生物学: 高校の生物学の延長にあたります。高校で生物を勉強していない方もここから学び始めて大丈夫です。
  • 分子細胞生物学: 生命科学はもちろん、疾患の研究でも、近年は細胞や分子や遺伝子といったミクロな世界の理解が不可欠です。それが分子生物学や細胞生物学と呼ばれる学問領域で、ライフサイエンス系の学部1-2年生に相当します。大学での生物学の入口と言えるでしょう。
  • 生化学: 体や細胞がどのように食物からエネルギーを得ているのか、当面不要なものを蓄えておくのか等々から始まり、タンパク質や脂質など生体の化学を学びます。ライフサイエンス系の学部2年生の科目です。
  • 代表的なバイオテクノロジーの理解: 研究論文を読むうえで日常的に使われている代表的なバイオテクノロジーの理解が必要です。例えば分子細胞生物学でも勉強するサンガーシーケンシングだけではなく、近年の次世代シークエンサー (NGS) 解析はマストです。また、DS/AI解析の結果から見出された仮説を検証するために、遺伝子編集・オプトジェネティクスといったバイオテクノロジーもよく使われています。
  • 解剖/生理学: 病気の研究をするのであれば、まず正常を知らなければなりません。人体の構造と機能を勉強するのが解剖学・生理学です。医療系専門職を目指すのでなければ全部を正しく理解する必要はありませんが、少なくともその概略は理解していないと、例えば医師や看護師と研究に討論する際に話が全く噛み合わなくなってしまいます。医療系学部だと1-2年生で習います。
  • 薬理学: 薬がどのように効くのかを学ぶ学問で、医療系学部だと2-3年生で習います。薬に関する研究をしたいという方にとっては必須の知識となります。
  • 病理学: 病気とは何か、肉眼的・顕微鏡的にはどう見えるのか、などに関する学問で、医療系学部だと2-3年生で習います。
  • 疫学 (えきがく) : 医学は大きく「基礎医学」「社会医学」「臨床医学」に分かれますが、その社会医学の代表が疫学です。さまざまな統計データをもとに疾患の有病率を推定したり、検査の感度・特異度を算出したり、臨床医学とも統計学とも強く関連します。
  • 内科学概論: 臨床医学の基本は内科学です。医師になるわけではないので細かいことを覚える必要はありませんが、医療領域の研究をするのであれば代表的な200疾患程度についてはその概要を知らないとアイデアがでてきませんし医療従事者とdiscussionすることもできません。必ずしも医療のプロである必要はありませんが、自分の研究について医療のプロと討論できるだけの知識は不可欠です。

数理科学系

  • 大学教養レベルの解析学 (微分積分) および線形代数: 理工系の学部1-2年生に相当します。AIの背景には多くの線形代数計算があり、また次に示す統計学を勉強する上では微分積分の知識が不可欠です
  • 統計学: 例えば化合物Aを服用したら血圧が下がるのかを調べるには、飲んでいる人と飲んでいない人のデータを統計学的に調べ、誤差ではなく本当に血圧を下げる効果があるのかを評価する必要があります。こうした時に統計学の知識が不可欠です。
  • 基礎的な微分方程式: 現象を数理モデリングする上で、一定の時間経過後にどう変化するかを調べる常微分方程式、および時間だけでなく空間 (xyz座標情報) もモデリングできる偏微分方程式を身につける必要があります。計算そのものは自動でやってもらえますが、自分で微分方程式を組めるだけの基礎的な理解は不可欠です
  • 基礎的なプログラミング: 自分でゼロから書く必要はありませんが、少なくともいろいろ調べながら実装できるだけのPythonの運用スキルは必須です。エラーメッセージにも自分で対応する必要がありますが、ChatGPT他さまざまなcodingを補助してくれるAIの発展で、一昔前よりだいぶ楽になりました。Python以外に習得する必要があるのはRです。医療や生命科学データだと「統計学」のところに書いたようにさまざまな比較をすることが多いのですが、統計の代表的な言語がRになります。何がすごいかというとPythonと同じくRもオープンソースのため世界中の人たちが新たに開発した手法を無料で使えるRパッケージとして提供してくれているという点です。
  • 基本的な大規模計算機の運用技術: ビッグデータというのはとても大きいため自分のコンピューターで解析することはほぼ不可能です。そのため、スーパーコンピューターなどの大規模計算機に例えばSSH接続して、計算依頼 (ジョブ) をクラウドベースで行うことになります。そのような計算機はLinux製なのでLinuxでのコマンドやパスなど運用に必要な基礎的な理解が求められます。
  • 基本的なバイオインフォマティクス解析技術: 例えば〇〇病ではどのような遺伝子が強く働いているのか、などの解析にバイオインフォマティクス (生物情報学) という分野の知見が必要です。例えばfastqファイルをもとにレファレンスゲノムにマッピングし、どの遺伝子がどれくらいの遺伝子発現をしているのかを調べるところがスタートです。LinuxおよびRが使えるようになることで、バイオインフォマティクス解析の勉強のスタート地点に到達します。

学部1年生からスタートして、どのように勉強を進めていけばよいのかロードマップを作成してみました。

カリキュラム案

とはいえ、いきなりこれら全部というのは難しいです。そこで、ゼロからスタートしてこれから3ヶ月で勉強するとしたらどうすればスムーズかを具体的な教材とともにご紹介します。すでに修得しているものは適宜スキップしてください。また1つの案なので参考程度にしてください。

1ヶ月目

最初の20時間

次の30時間

  • 独習 Pythonバイオ情報解析を読みコードを動かします。「Pythonで体感! ~」よりもしっかりPythonを修得でき、ここまででPython基礎固めが完成できます。また本の後半は生命科学のデータを使った統計学の特に重要な考え方やバイオインフォマティクス解析の初歩を学ぶことができます。この本で扱われているシングルセルRNA-seqは今日の生命科学や疾患研究で数多くの研究者が使っている方法です。ここで少し慣れておくのはとても大事なことです。

その次の30時間

  • 基礎から学ぶ統計学を一読します。この本は生命科学を題材にふんだんなイラストを使って、かつほとんど中学校までの数学の内容で統計学の考え方をわかりやすく説明した書籍で、生命科学や医療領域に必須の領域に焦点を絞った統計学の素晴らしい入門書です。

2ヶ月目

ライフサイエンス系学生さんの最初の30時間

  • ライブ講義 大学生のための応用数学入門を一読することで、数理科学系学生が1-2年生で学ぶ基本的な数学 (線形代数・解析学・微分方程式 etc) を学ぶことができます。もともと筑波大で生命科学系の学生さん向けに行われている数学の人気授業を書籍化したものです。

数理科学系学生さんの最初の30時間

  • 基礎から学ぶ生物学・細胞生物学を一読することで、ライフサイエンス系学生が最初に学ぶ大学の専門的な生物学を学ぶことができます。高校で生物を習っていない方も問題なく入っていけるように随所にイラストが多数あります。

次の50時間

  • 基礎から学ぶ遺伝子工学を一読します。書名は「遺伝子工学」と書かれていますが、広い意味のバイオテクノロジー全般をカバーしていますし、随所に理解を助けるイラストがあります。生命科学・医療とDS/AIの融合領域研究では論文中で検証目的のさまざまな実験が行われますが、その解釈にも基礎的なバイオテクノロジーの理解は必須です。
  • Rをはじめよう生命科学のためのRStudio入門を一読します。ライフサイエンスのデータを使ってRの使い方、パッケージの導入などを広く学べます。1ヶ月目に「基礎から学ぶ統計学」を勉強した後なら問題なく読めます。

3ヶ月目

最初の50時間

  • からだがみえる 人体の構造と機能を一読します。全ての医療系学部・学科の必修科目である解剖学・生理学の基礎が身につきます。数理科学系の方はもちろん、医療系ではない生命科学系の学部の方 (例えば農学部とか理学部生物学科とか) も解剖や生理を学ぶことがないので自習する必要があります。病気はあくまで正常の破綻なので、正常を知らずして病気の研究はできません。

その次の30時間

  • 拙書で恐縮ですがPythonで実践 生命科学データの機械学習を一読します。この本は生命科学領域における機械学習の応用についてコード付きで書かれた最初の本です。まずは5章までをこなし、その後は興味のある内容に絞って取り組むのがよいかと思います。

最後の5時間

  • この3ヶ月の総仕上げにBiomedical Data Science Club (BDSC) へゲスト参加することをオススメします。BDSCは学部生のためのオンライン論文輪読会で、博士課程以上の方や社会人の方はいませんので年が近いメンバーと気兼ねなくいろいろなdiscussionができます。参加メンバーのレベルが高いので3ヶ月学んだくらいではまだdiscussionについていくのは難しいかもしれませんが、実際の研究論文を題材にリアルなデータサイエンスにふれることができますし、同年代からのレベルの高い発表や質疑などから大いに刺激を受けることができるでしょう。誰しも最初は初心者ですが、継続は力なりというように、BDSCに継続的にかつ主体的に参加すればどんどん力がついてきます。

さらに学んでいくために

上記250時間コースを終えれば生命科学・医療とDS/AIの融合領域研究の最初のスタート地点には到達していると思われますが、さらに学んでいくためにいくつかのリソースをお示しします。

書籍で学ぶ

  • 本質を捉えたデータ分析のための分析モデル入門: 機械学習や深層学習について数式の「気持ち」を翻訳しながら言葉で分かりやすく説明している書籍です。
  • ゼロから作るシリーズ: 深層学習をゼロベースでPythonを使って実装していくシリーズです。自分で作り上げることで大いに勉強になります。5冊とも素晴らしいのですが、特に1作目と2作目 (自然言語処理入門)、そして5作目 (生成AI) に重点的に取り組むといいでしょう。
  • 深層学習 (機械学習プロフェッショナルシリーズ): 入門はもちろんやや発展的なトピックスまで深層学習に関するさまざまなことをまとめた書籍です。数式あり。
  • システム生物学入門: 教養課程で学ぶ微分積分と線形代数のみの前提知識から生命現象に通底する「法則」や「原理」を紐解く数理生物学の本です。

動画/webで学ぶ

  • AIcia Solid Project: データサイエンスにまつまるさまざまなトピックスを日本語で分かりやすく解説してくれるYouTubeチャンネルです。
  • TogoTV: バイオインフォマティクス解析のやり方やウェブツールの使い方などを初学者向けに日本語で解説してくれるYouTubeチャンネルです。
  • Biostars: バイオインフォマティクスに関するさまざまな知見やノウハウが集約されているオンラインコミュニティです。
  • AI-SCHOLAR: AIに関する話題の論文を日本語で解説してくれているブログです。
  • Papers with Code: 論文とその実装がセットになっているサイトです。論文の実装を探して動かすというのが第1ステージで、慣れてきたらぜひ自分で実装に挑戦してみましょう。
  • Deep Learning Monitor: Xで人気の深層学習論文を掲載したサイトです。

無料の勉強会で学ぶ

  • Biomedical Data Science Club (BDSC): 学部生のためのオンライン勉強会で、ライフサイエンス領域のDS/AI学術論文をみんなで輪読する隔週の集まりです。
  • バイオメディカルAI夏の学校: 当研究室が8月に開催するハイブリッド形式の勉強会で、講義と演習からなっています。

研究を通して学ぶ

  • オンライン研究: 学部生のためのオンラインでの研究機会の提供です。これまでに論文執筆をした学部生さんも複数名おります。
  • ダブルメンター制度: 大学院生向けのコースです。共同研究の一種で、所属は今のまま情報科学に関するところをオンラインで指導します。あくまで共同研究の一種ですので、指導教員の先生からのご依頼が大前提です。

大学院で専門的に学ぶ

やはり一番の学びはなんといっても大学院で数年間かけてその領域に取り組むことです。全国には素晴らしい研究室がたくさんあります。当研究室も微力ながらcomprehensiveな専門トレーニングコースとプロの研究者を本気で目指した研究環境を提供しておりますし、生命科学の実験環境も用意しておりますのでハイブリッドが可能です。また (医師ではない) 1年生には、1年間にわたって毎朝のように30分ずつ系統的にさまざまな疾患の原因や治療など基礎的な医学知識を最低限知らないといけない項目に絞って当研究室の医師がレクチャーする「朝活」を実施しております。数理科学はもちろん、医学も生命科学も学べるのは当研究室の他にないと自負しております。生命科学や医療領域のデータサイエンスを学びたい、そしてその領域の研究に本気で取り組みたいという方をお待ちしております。