学生時代にオンラインで研究して論文発表してみませんか?

数理情報科学を生命科学研究に取り込みたい (あるいはその逆) という需要は年々増すばかりであり、その1つの指南書として「Pythonで実践 生命科学データの機械学習」を上梓して基礎的な考え方を余すところなく公開しました。また、20年前ならPythonが使えるだけで差別化できましたが (逆にいえば先見の明があったわけですが)、昨今はただツールが使えるだけの人は山程います。専門家とは言わなくても、自分が使う手法くらいは背景の数理や統計科学をしっかり説明できなければいけません。例えばPCRの原理も知らずにただ試薬を混ぜて機械にセットしてDNAを増幅しているのは、研究者ではなくただの作業員ですよね。それと同じことです。幸いにしてバイオインフォマティクスや統計科学においてもテキストや認定制度が拡充され、私のときと違い今の学生さんたちにはさまざまな自習の機会が提供されています。しかし、「その先」の学びの機会があまりないというのは20年前とほぼ変わっていません。自分でいろいろ学び、さらに高みを目指すハイレベルな学生さんに向けて実践の機会をオンラインで提供するのがオンライン研究制度です。

今から2年後に論文を世界に発表したいという学生さん (+条件を満たす研修医の方) を募集しています。オンラインなので、全国どこにお住まいでも問題ありません。現在のところ6名の方がこの制度で研究に取り組んでおり、うち2名はそれぞれ筆頭著者として英語の学術論文を執筆、投稿中です。以下詳細です。

ポータブルスキルが身につく上、業績を出すのは就職にも学振DCにも圧倒的に有利

私が所属する東京医科医科歯科大学は2024年に東工大と統合し、国際卓越研究大学として世界に伍する研究成果を挙げ、ゆくゆくは社会に還元することを目指していますが、医科歯科大・東工大以外に所属している学部生・修士課程 (博士課程の方はダブルメンター制度をご利用ください) の学生さんにも早期から研究の機会を提供し、医療界にせよ学術界にせよ産業界にせよ、それぞれの分野で将来の日本を、ひいては世界を牽引する糧としていただきたい、そんな思いからこのページを作りました。

パンデミックは社会のあり方も大きく変えましたが、学生さんにとってポジティブの変化もあり、それはオンラインでできることが飛躍的に増えたことでしょう。今や物理的に遠く離れた場所であっても、オンラインで簡単につながることができますよね。それは授業だけでなく研究も同じであり、従来は所属大学の中で先生を探すというのがごく普通のことでしたが、今や所属大学の垣根は相当下がっており、必ずしも所属大学の先生に師事する必要はありません。

私が得意とする医学あるいは生命科学と、情報科学 (データサイエンス) の融合領域はまさにオンライン研究にうってつけの分野です。今や新しく取得したデータは必ず公開されており、無料で使える計算リソース・パッケージもかなり登場していますし、情報科学、特に機械学習領域は日夜新しい手法が考案されています。生命科学や医療のデータも爆発的に増えていることを鑑みれば、研究のネタには事欠かない領域と言えます。

そこで、オンラインによる生命科学・医学と情報科学の融合領域、特にドライ解析研究を清水とともにオンラインで取り組みたいという意欲的な学生を全国から募集しています。(オンラインではないですが) 清水自身も学部生のときに論文を筆頭著者として発表しており、博士号を取得後は学部生の研究指導をして筆頭演者として全国学会に発表する機会を用意したり、他大学の学部生をオンラインで指導して学部生が筆頭著者として英語学術論文を発表したこともあります。

今から2年後には世界に筆頭著者として論文発表することを目指しますし、これは全然不可能ではありません。早い方だと、私のもとに来てから半年で筆頭著者として論文デビューした学部生もいます (もちろんこんなに短期間でできたのは私の指導というよりも本人の努力の影響の方がずっと大きいですが)。

研究をして筆頭著者として英語の学術論文にまとめる中で、ライフサイエンスの知識や情報解析技術はもちろん、論理的思考や魅力的なプレゼンテーション、そして英語力といった多岐にわたるポータブルスキルを学生のうちに身につけることができ、それは将来のキャリアパスでも大きく役立つでしょう。また、論文を出版するという経験は「普通の学生生活」ではできませんが、だからこそ大きな差別化になり、例えば就職活動の際には企業の大きな注目を集め、博士課程に進学する際には筆頭論文が1つあるだけで学振DC (選抜された学生に月20万円を数年間支給する制度。返済不要) へ採択される可能性が非常に高まるので経済的に安定した大学院生活をおくることができます。

実験系の生命科学や医療系を目指しているが情報科学を今のうちに習得したい、あるいは逆に現在は情報科学や数理科学を専攻しているがライフサイエンス領域に参入したいという方も大歓迎です。

みなさんのようなキャリアの早期から研究に触れることの重要性を理解し、かつ学部生に実績を出させている先生は全国広しといえどそうそういないと自負しています。学生時代に自分に自己投資をして何かの実績を出し、それを武器にさらなる飛躍を目指したい、そしてゆくゆくはリーダーとして活躍したいという意欲的な学生さんは、遠慮せずに連絡をください (h_shimizu.dsc@tmd.ac.jp)。必ずお返事差し上げます

参考までに、みなさんの先輩方はすでにオンラインで素晴らしい実績を挙げはじめています。例えばオンライン指導はじめてわずか1年で筆頭著者として論文発表 (Hozumi et al., PNAS Nexus 2023) した学部生さんもいますし、学会発表は複数の方が経験しています。論文を発表した学生さんからのメッセージはこちら

オンラインで研究するには? (受け入れ条件)

オンライン研究は定期的にzoom等でdiscussionしながら研究の方向性を修正していきますが、清水の時間も有限ですので次の条件を満たす方を優先させていただきます。

大前提として 「Pythonで実践 生命科学データの機械学習」を自力で読了できるくらいの基礎的な機械学習・Pythonに関するプログラミングスキルを持ち、

  1. 「データサイエンスで未来の医療を創る」ことに興味関心があり、また筆頭著者として論文発表をして医療界ないし学術界に貢献する不退の覚悟がある方。
  2. 1に関連しますが、私たちと相談しつつ自分でテーマを設定できる程度には論文理解力と理論的思考力、そして主体性のある方 (テーマは何でもいいから決めてくださいという受け身姿勢の学生は受け入れません)。なお、テーマですが医療データを使ったオンライン研究は患者さんへの倫理的な問題から実施できません。純粋な数理情報科学のものか、あるいは生命科学と情報科学の融合領域 (バイオインフォマティクス)、化学と情報科学の融合領域 (ケモインフォマティクス) から選んでください。
  3. 自ら貪欲に学び続け、また学んだことを仲間同士でシェアしさらに高め合っていけるような向上心と協調性のある方
  4. 日本国内の大学または大学院に通う現役の学生の方  (特例として、2年以内に当研究室の大学院博士課程に出願したいという前期・後期研修医の方も受け入れます。その際は必ず事前に面談にお越し下さい。)
  5. 大学院生の場合には、指導教員の許可がある方 (指導者によっては、新たなテーマを始める時間があるなら今のプロジェクトをまとめろとお考えの先生もいらっしゃいます。指導者の先生がそのようにお考えであれば、オンライン研究はできません)
  6. 金曜日の夕方 (17:30~19:00頃) に都合がつけられる方。オンライン研究生合同のmeetingやBiomedical Data Science Clubの勉強会が入ります。 (特例研修医の方はまだ仕事中の時間帯です。この項は該当しません)
  7. ドライ系の研究を主体的に遂行する上で最低限必要となる、基礎的な数学(目安として数学検定1級以上)、統計学 (目安として統計検定準1級相当以上) またはバイオインフォマティクス (目安としてバイオインフォマティクス認定技術者試験合格以上) のいずれかの理解がある方。検定の例を出していますがその資格を持っていなければいけないという意味ではありません。数学オリンピックやKaggleのメダル、査読付き学術誌への筆頭著者としての論文発表経験などでも大丈夫です。
  8. 一定程度の英語読解力がある方 (目安としてTOEIC 600程度以上)
  9. 研究をして成果として発表するための一定程度のまとまった時間が確保できる方 (目安として1000時間程度以上。これは1日1~2時間換算で2年前後になります。卒業まで2年ない方は、時間の工面をどうするつもりなのかご説明ください。例えば卒業してからも行うなどです)
  10. 当分野のHP上でお名前等を掲載しても問題ない方

希望される方は、こちらのオンライン研究のやり方のページをご覧になった上で、メールでご連絡ください (h_shimizu.dsc@tmd.ac.jp)。必要事項は

  • なぜオンライン研究をしたいのか (志望理由)
  • 高校卒業以降の経歴、および研究実績 (なくても可だがその旨を明記)
  • 数学の理解の程度 (例として大学1年の教養で習った程度 etc)
  • ドライ解析の経験 (例として簡単なバルクRNA-seq解析をやったことがある etc)
  • 新たに確保できる時間量 (例 1日30分程度を今後4年 etc )
  • 大学院生の場合には、今の研究室の先生の承諾の有無

現在の所属や専攻等は一切不問ですが、我々の時間も限りがありますので希望者全員を受け入れることはできません。また、みなさんから見て私たちとの相性の問題もあるでしょう。不幸なミスマッチを避けるためにも、メールをいただいたら一度Biomedical Data Science Club (BDSC) へゲスト参加者としてご招待します。BDSCでオンライン研究と並行して同世代の学生たちとともに学んでいただくことになりますので、BDSCにゲスト参加して引き続き私たちと一緒に取り組みたいとみなさんが思うのかが第一段階です。もしさらに勉強したいということでしたらBDSCの正規メンバーとして登録します3回ほど正規メンバーとしてBDSCへご参加していただいたタイミングでこちらからオンライン研究の意思をお伺いします。BDSCもかなりハイレベルですので、BDSCだけでも十分勉強になるかと思います。その上でオンライン研究もしたければ、そこで初めてzoomで1度個別にお話ができればと思います。その際にはお手数ですが簡単で結構ですのでスライドを使った自己紹介 & 自己PRをお願いいたします。なお、この面談はあくまで顔合わせであり、それを受けてオンライン研究できる素質 (受け入れ条件に明示しています) があるかを判断します。

オンライン研究の進め方の一例

期間等はみなさん自身がどれくらいcommitできるのかを含めいろいろな事情で変わりうるので、下記は一例です。一般的な順番はこちらのページをご覧ください。

オンライン研究を始める場合には、最初の面談で興味の方向性 (興味が定まっていないでも可) をお伺いします。清水はプロジェクトにかかる時間とリスク、成功した場合のインパクトを研究開始前に概ね見積もることができますが、お伺いした内容になるべく近い領域で、さまざまなことを天秤にかけ、プロジェクトの大まかな方向性を1~2つほど提示し、参考文献をいくつか送付します。みなさんはその参考文献を読んで、提示されたプロジェクトのどちらをやるかを決めることもできますし、あるいはみなさんがプロジェクトを提案していただくこともできます

プロジェクトのざっくりとした方向性が決まったら、それに応じて当分野の教員や大学院生1~2名をプロジェクトメンバーに加える場合もあります。学生さんは学業やバイトや部活等の合間に研究をするわけですのでとても大変だと思いますが、清水も同様に他のさまざまなことの合間にみなさんのプロジェクトの助言をすることになりますので、申し訳ありませんが私自身のエフォートの数%しか個別のプロジェクトにさくことはできないのです。そこで私のところにいる常勤の研究者か大学院生にも助っ人として加ってもらうかもしれないということです。清水に相当の手助けをしてほしいと思っている方にはこの制度は不向きで、私たちはあくまで部活の顧問のようなものです。いろいろな環境の提供や助言は行いますが、実際の研究を主体的に進めるのは選手であるみなさん自身です

みなさんが自分の意思でプロジェクトの大枠を決めたら、ご自身でその領域の先行文献調査 (サーベイ) をしていただき、各文献をスライド1枚にまとめ、清水 (や数名のメンバーたち、以下同じ) にzoomで報告していただきます。その領域における課題は何かを自ら見つけ出す力はこの先どこにいっても必要だと考えておりますので、サーベイ段階では清水は何も口出ししません。この期間はおよそ3週間ごとにzoom面談を1回行い、その都度サーベイの方向性を助言します。全部で2回のzoom面談が終わる頃に、プロジェクトの詳細を清水と相談しながらご自身でつめていただきます

プロジェクトが確定したら、清水からはそのプロジェクトに必要になる必ず習得しておくべき情報解析技術を教材等のリソースとともに伝えます。また、スーパーコンピューターが必要になるプロジェクトであれば、清水が持つスパコンへのアクセス権を付与します。いわば「勉強期間」は2ヶ月を予定しており、この間は月に1回ほど勉強の様子を報告していただきます。

基盤となる解析技術が身についたら、次の1ヶ月は徹底的に先行文献調査をしていただき、Figure Plan、すなわちどのようなデータを使ってどのような解析をしたのがFigure 1で、… のようなものを作っていただきます。前回のサーベイはプロジェクトの詳細を詰める前のものでしたが、プロジェクトの詳細が決定し、さらに基盤解析技術を自分で動かせるようになってからもう一度文献調査をすることでより精度の高い研究計画を作ることができます。剣道の言葉に「守破離」というものがありますが、初心者がまず目指すのは「守」、つまり先人の教えを身につけ守ることです。研究で言えば、複数の先行研究で使われている絶対に必要な解析を組み込んだり、優れたアイデアを取り入れたり、先行研究で使われているデータセットがどこにあるのかを徹底的に調べあげるのです。優れた論文をシャワーのように浴びて、良い意味で「パクる」必要があります。このFigure Plan策定は非常に大事なステップです

さて、ここまで半年弱ほどかけて準備してきました。知識・技術武装は半年をかけるに値するものです。ここからは実際の研究で、ご自身で研究を進めていただき定期的に (2週間ないし3週間に1回ほど) zoomでデータについてdiscussionしつつ研究の方向性を助言します。またslackを併用してちょっとしたことは定例会を待たずにやりとりします。この研究パートは実質的には長くても1年でしょう (試験や長期休暇等で研究から離れる時期があるのであれば、その期間は含みません)。はじめての研究ですので、いきなりnatureクラスの大物を狙うのではなく、意欲的に取り組んでいれば1年で何かしらの成果が期待できそうなテーマを行います。

論文執筆フェーズは清水の役割が非常に大きいところですが、それでも論文の初稿はみなさんに作っていただきます。清水は学部生時代に先生に提出した論文原稿が真っ赤になって戻ってきたのですが、それは非常に勉強になりました。正直なところ、こちらで最初から論文を書いたほうがずっと早いとは思いますが、それでは学生教育になりません。みなさんには1つの論文原稿を苦労して仕上げる中で、英語ライティングはもちろん、魅力的なプレゼンテーションや論理構成など多くのことを学んでいただきたいと思っています。みなさんの初稿はおよそ2ヶ月で仕上げていただき、その後私が相当手を入れて修正したものを送ります。何往復かした後にネイティブに英語をチェックしてもらい、そして論文をまとめ始めてから4ヶ月目にプリプリントサーバー (arXiv, bioRxiv, medRxiv, ChemRxivのいずれか) に発表します。プリプリントサーバーへの掲載はまだ査読前ですが、それでも研究をしたことの証明としての効果は絶大で、冒頭に書きましたが企業への就職あるいは学振DCの選考などで実績としてPRできその波及効果は高いです。

いくつかの査読付き雑誌に挑戦する中で、どこかの雑誌のリバイスにかかった後は、査読者へのコメント対応をみなさんと一緒に考えます。改訂版の原稿をみなさんに作っていただき私がチェックし、そして晴れて論文受理になります。論文は掲載料として数十万円ほどかかりますが、それはこちらで負担します。

論文発表後には希望する国内学会で発表していただくことも可能ですし、その指導 (みなさんが作成したポスターやスライドへの助言、発表リハーサル等) も行います。また、最初は手取り足取り2年近くかけて行ったオンライン研究ですが次の研究はノウハウの蓄積もあるので類似研究ならより短い期間でできるようになっているでしょうし、より大型のプロジェクトに共に挑戦することも可能でしょう。論文1本だけではなく、さらに「その次」を目指してスキルアップしたいという方も喜んで支援させていただきます

このように、AIシステム医科学分野では多階層にわたる学びの機会を提供しています。オンライン研究で自分自身の将来へ投資をしたいという優秀で意欲的な学生さんを現在の所属を問わず広く募集しています。

学生時代にこそ自己投資をして大きく飛躍しよう!