人工知能学会2025 参加報告
2025年5月27日から30日までの日程で、大阪で行われた人工知能学会 (JSAI2025) に参加してきた。会場は大阪国際会議場で、3階から12階まで行ったり来たりと縦移動が非常に多かったのが印象的だった。3階の展示ブースにはポスターと企業ブースが設置されており、他のフロアでは同時に約15のセッションが行われていた。展示ブースは5分の2程度がポスターで残りが企業ブースであり、参加している企業が非常に多かった。実際、参加者および発表者もこれまで大谷が参加してきた学会よりも企業関係者の割合が多い印象であった。ポスターに限れば半分くらい企業が出展しているポスターによるものだった。ポスター数は1日あたり100枚弱で、バイオインフォマティクス学会よりもポスターの規模としては小さい印象である。
今回人工知能学会の抄録等を確認する前はAIそのものを対象とした研究が多いと予想していたのだが、実際には「AI/機械学習を使って色々なことをやりました。」という発表がほとんどであった (もちろんガチガチの理論のお話もあったが)。そういう意味では、題材は違うがバイオインフォマティクス学会や分子生物学会におけるAI/機械学習の研究発表とそう大きく変わらないだろう。また、生成AI、大規模言語モデル (Large Language Model: LLM) に関する発表が非常に多く、人工知能を専門としている研究者にとっても重要な話題であると再確認できた。まずは、その生成AI/LLMに関する研究について報告をする。
初日に参加したセッションが仕組学の研究についてどのようにLLMおよび生成AIを組み込んでいくかという話であった。ちなみに、仕組学というのはちょっとしたアイデアで問題の解決を目指す比較的新しい学問領域である。例えば、「ペットボトルのキャップとボトルを分別して捨てる人が少ない。」という問題があったとする。この問題に対して、「ペットボトルキャップを投票用紙としたアンケートをゴミ箱に設置する」という提案をすることで分別という当初の目的を達成することができる。といったものをどのように生み出すか。という学問である。この学問領域に対してLLMや生成AIをどのように取り入れることができるのかということを議論するセッションであった。色々な意見はあったが、主だった結論としてはありきたりだが、生成AIの結果の取捨選択が大事というところだろう。このセッションの中で特に印象に残っている講演をいくつか報告する。講演者の1人は京都大学の塩瀬先生であった。塩瀬先生は博物館の運営に関わっており、ちょうど大阪で開催されていた万博にも関与しておられる先生である。その塩瀬先生の授業では学生が作るグループの中にAIを博物館の企画展示を検討する委員会のメンバーの1人として加えて計画の立案を行うという課題に取り組むそうだ。たとえば、「安楽死に関する展示を企画してください」というテーマを考えた時に、安楽死というテーマに対して学生自身の意見はどちらかというと自分自身もしくは自分に極近い人で想像しがちだという。一方でLLMを使うと医療従事者の意見が生まれてくる。具体的には法的な立場から見た安楽死の情報を加えることができたという。これは学生だけでは得られなかった視点だろうと先生は考察していた。このようにLLMは人の認識の幅を広げることができるという点で非常に有効である一方で、情報が少ないもしくはテキスト化されていない情報は得られない。たとえば、実際に安楽死に関わった方々の情報は割合としては非常に限られている。普段主にcodingにLLMを使っている私からしたらあまり意識したことのない視点であった。このセッションからもう一つ報告をする。仕組学を専門とする関西大学の松下先生によるご講演である。松下先生は仕掛学の中で、特にアイデアの創出・ブレインストーミングにおいてLLMとどのように付き合っていけば良いのかというお話をされた。LLMの利用場面とそれによって生じる問題、問題の回避、という3点セットを繰り返し行っていく形式で考察を深めていくセッションであった。余談だが松下先生のお話含めてこのセッションは哲学のような議論になっていくものが多かった。我々にとって重要な結論の一つが「LLMと壁打ちしていると段々同じような結論に収斂していき、どっかで見たことある作品が出来上がる」ということである。確かに、私自身の経験でも後から振り返るとLLMによって思考を誘導されていたと思ったことがある。この段落の冒頭に述べた結論の繰り返しになるが、LLMは思考を加速させるが傾倒しすぎるとオリジナル性が薄まっていき、面白くないアイデアが残ってしまうのでその塩梅をうまく見つけ、良い付き合い方を見出すのが大事ということだ。このセッションに限らず、今回の人工知能学会はこのようなLLMに関するセッション、特にLLMの応用に関する発表が非常に多かった。
会話と推理により互いの正体を探り合う心理ゲームである人狼をLLM同士で行った大会の報告をするセッションが3日目にあった。「人狼知能コンテスト」という大会は約10年の歴史があり、初期はまともにゲームが成立しなかったらしい。しかし、今年の2025年大会 (2025年5月に開催) では昨年度までは参加者は5人であったが、13人まで増やすところまで到達している。大会参加のグループは企業の割合が多く、一部アカデミアのチームであった。大会のルールとしては、人間から指示を与えずに、自立した状態のモデルを用いて他のプレイヤーといかに自然なやりとりを行い、最終的に勝利できたかを評価することで順位づけを行う。実際にゲームの実演を拝見したが、予想を遥かに超えるやり取りが行われていた。論理が通っていなかったり、周りとほとんど同じ内容の発言をしたり、全く情報のない発言をしたりなど、多少不自然な部分も存在するが、ここまでできるのかと驚愕した。「人狼人工知能コンテスト2025春期国内大会自然言語部門」などと調べると過去の対戦に関する記録は会話ログなどの情報が出てくるので、興味のある方はぜひ覗いてほしい。今年の大会の報告を聞いてLLMで人狼を行う上で障害となるのが、情報の保持と嘘をつく能力、そして推論能力の3点だと感じた。その時点までの全ての会話が推論の原動となる人狼において、情報の保持は非常に重要な要素である。全てのログを都度入力とすることは入力長の制限などから困難であるため、多くのグループがこれまでのやり取りの要約作成を行っていた。この課題は最近ChatGPTに搭載された「Memory」機能などが大きく貢献するだろう。Memory機能の仕組みに関する詳細はわからないが、ChatGPTを使用していると大谷のプロフィールなどを記憶していたりするので、この辺りの技術を転用すれば大幅に記憶力が補強されるだろう。2つ目の嘘をつく能力については、意外にもLLM達は平然と嘘をつく (ハルシネーションとかではなく、意図的に嘘をついている)。人間同士による高度なロジックの中に含まれる嘘のレベルには達していないが、自分の役職などを偽る動きが観察された。私はこの嘘をつくということ自体ができないと考えていたのだが、その能力はすでに獲得しているようだ。そう思うとちょっと怖い。3つ目の推論の能力に関してだが、これはまだまだ改善の余地があるように思えた。一往復程度の論理の維持はできているのだが、だんだんと怪しくなっていく。極端な例を挙げれば、「Xに投票します。」と宣言していたのにも関わらず実際の投票はYにするなど、不自然な進行をしてしまうことがあるようだ。この点に関しては1つ目の情報の保持の課題とも関係していると思うので今後の性能の向上に期待される。このLLM人狼はただ遊んでいるだけではなく、現状のAIの限界を測るという目的も持っている。各グループ相当レベルの高いエージェントを作られていたので、実際私自身も高を知ることができ、予想を遥かに超えた有意義なセッションであった。
理論寄りのセッション (チュートリアル) の参加報告をする。ご講演いただいたのは東京大学大学院情報理工学系研究科の鈴木大慈先生である。知能とは何かという導入から、深層学習の理論的基盤から最新のTransformer・LLMの数理解析、さらにはIn-Context LearningやChain-of-Thoughtの理論的保証まで広範囲にわたる最先端研究を数理的な側面からご紹介いただいた。特に感銘を受けたのは深層学習とAttention機構がなぜ次元の呪いに対して有効であるのか、という数理的な解説は普段何気なく使用している深層学習の手法の解像度が高くなった。また、先生のグループは数理的な側面から推定される様々な情報学的な現象を実際に実験的に証明されている。現状私はツールとしてAIを利用することに止まっており、数理的な側面からの理論的なAIの構築には至っていない。このセッションに参加したことで数学の視点からAIを理解・開発できるようになりたいというモチベーションを得られたのは非常に良い経験であった。
最後にポスターや収まりきらなかった口頭発表などについて感想を報告する。各セッションの内容もそうであったが、とにかくジャンルが広い。もちろん人工知能に関する内容は含まれているが、その目的の設定は自由である。そのため、LLMを用いた疑似患者シミュレーターの作成からゲーム画面を認識して自動的にゲームを進める手法の開発 (ゲーム開発時のデバグ作業などの自動化を見据えた研究) までなんでもありであった。ポスターに関して情報学の基礎研究の発表はわずかであり、ほとんどが応用的な研究であった。テーマ自体もツイートからインプレゾンビを判定する分類器の作成などユニークな問題設定も散見されて1参加者としてポスター発表は楽しかった。口頭発表で興味深かったのは、「料理レシピの曖昧な表現をLLMで明確化する」という研究である。ネット上に存在している様々な料理レシピはその筆者や媒体によって求められる情報の粒度が変わってくる。そのため、読者によっては判然としないレシピがある (例えば、塩少々や一煮立ちなど)。この曖昧な表現をLLMで明文化することで、誰でも上手に料理を作れるようになることを目指した研究だ。具体的な手法については割愛するが、この研究の面白さは実際に料理を作って実験している点である。実験としては、まずレシピのLLMによる修正を行う前に作った料理と、修正後のレシピで作った料理を比較することで、レシピの差分が結果に与える影響を定量するという流れである。実際、料理非熟練者が作った青椒肉絲は味や香りには明確な違いはなかったが、見た目は向上したとのことだ。LLMによるレシピの明文化が与える影響に関しては追加の解析等が必要だとは思うが、研究計画自体は明確な目的がありつつも遊び心もある面白い研究だと思った。
人工知能学会は基礎理論から産業応用まで幅の広いテーマをカバーしており、様々なバックグラウンドを持つ研究者が参加しており自分の視野を広げる良い機会であった。直接的に私自身の研究に関わることはないかもしれないが、抽象度の高い知見を得られたと考えている。
2025年2月27日から30日までの4日間にわたり大阪で開催された人工知能学会(JSAI2025)に参加したため、その報告を行う。
今回、はじめて人工知能学会を聴講する機会を得た。本学会の発表テーマは、機械学習の数学的な計算理論や新手法の提案といった純粋な情報学の報告に留まらず、金融工学や地球科学など多様な分野への応用・実践的研究が多数を占めていた。医学・生命科学分野への応用研究についても、すべての開催日で複数のセッションが設けられており、こうした背景からか、分子生物学会などと比較して企業の研究者による発表・参加が多い傾向にあると感じた。また、AI倫理や関連法規制に関するセッションが複数設けられていたことも印象的であり、これは昨今のLLM(大規模言語モデル)の急速な普及を反映したものだろう。さらに、今年度のプログラムの特徴として万博関連企画が組まれ、Shane Gu氏の講演を含む幾つかのセッションが一般公開形式で開催された。総じて、本学会はAIが純粋な学問領域からプロダクトやサービスとしての社会実装へと急激に移行する過渡期にあることを強く印象づけるものであった。そして、その中で技術者・研究者だけでなく、多様な職種やステークホルダー間のコミュニケーションを促進することを重要な目的として掲げていると感じた。
学会一日目の報告を行う。現地到着後、はじめに「データセットとベンチマークの技術的・社会的な視点」と題したセッションを聴講した。本セッションでは、『生成AIは差別や偏見を強化するのか、それとも是正するのか?』や『「評価」の評価: 言語モデル評価における構成概念妥当性について』といった発表が行われた。前者の発表では、日本の社会状況に特化したベンチマークを構築し、生成AIの社会的リスク、特に人種や民族に関する差別的バイアスが評価された。在日コリアンやアイヌなどの専門家と協働し、各種言語モデルを評価した結果、モデルは概ね差別に対処するよう訓練されていたものの、差別の種類や問い方によっては問題を認識しきれない場合があることが判明し、AIがもたらす社会的課題が浮き彫りとなった。後者の発表では、心理測定学の理論を援用し、その妥当性を確認する実証的アプローチを提案することで、現在の自然言語処理(NLP)における評価手法のあり方が考察された。このセッションを通して、データセットやベンチマークの良し悪し自体をメタ的に評価する際、評価方法の設計に人間の判断が大きく介在するため、その過程で生じるバイアスへの批判に完全に応えることは極めて難しいと感じた。例えば、ある発表ではLLMが米国の黒人差別に関する表現には敏感な一方、日本国内の特定民族への差別表現には認識が弱いという結果が示された。これに対し、評価者である日本人研究者が日本国内の差別に鋭敏であるために生じたバイアスではないかという指摘がなされ、評価におけるバイアスの根深さを象徴する事例だと感じた。次に「機械学習」セッションを聴講した。同名のセッションは開催期間の4日間にわたり常設されており、主に機械学習手法の精度向上や計算効率化、少数データなどの制約条件に対する解決方法がテーマであった。演題『TELU: GELUやSwishの代替となる高速な活性化関数の提案』では、GELUなどの滑らかな活性化関数が超越関数の計算により低速であるという課題に対し、代数関数のみで計算可能な、より高速で滑らかな活性化関数「TELU」が提案された。この発表で特に印象的であったのは、計算の高速化を追求する上で、PyTorchのような既存のフレームワークが内部で実行する計算方法が必ずしも最適ではないため、新たに低レイヤーでの実装を行った点である。計算効率のチューニングに、いかに深い専門知識が要求されるかを学ぶことができた。医学・生命科学領域への応用を研究する限り、このような知識が直接求められることは多くないかもしれない。しかし、大規模なプロジェクトで実用的なパッケージを公開し、その分野での普及を図る上では、計算効率化が重要な課題となりうることを認識しておくべきだろう。また、演題『Task Analogiesにおけるモデル線形化の有効性の検証』では、「モデル編集」と呼ばれる、追加学習を必要としない手法の一つである「Task Analogies」の性能向上に関する発表があった。「モデル編集」という概念やその具体例である「Task Analogies」がICLR2023以降に注目されているという動向自体が初耳であり、技術動向を把握する上で大変貴重な機会となった。LLMはファインチューニングのコストと難易度が課題とされ、タスク適応の手法がIn-Context Learningなどへ移行しつつある背景を踏まえると、こうした新しい学習手法の動向には常に注視しておく必要があると感じた。
学会二日目の報告を行う。はじめに「世界モデルと知能」セッションを聴講した。このセッションは学会期間を通して開催され、その多くがAIの物理認識やロボットの学習に関連する課題であったが、その中で医療関連テーマとして『診断時の視認性強化に向けたUNetとエッジ損失を用いた医用画像の三次元再構築』といった発表もあった。次に、Google DeepmindでGeminiなどの開発に携わるシェイン・グウ氏の講演『AIの未来:研究室から実世界へ – 能動的学習が拓く次世代ブレイクスルー』を聴講した。本講演では、グウ氏自身の研究歴に沿ってAI研究の潮流の変遷と、研究で何が重要かについて語られた。冒頭、グウ氏が自身のキャリアを「僕は本当に運が良かった」と語った点が印象的であった。氏が学部生の時に所属した研究室が、後に「AIの父」と呼ばれ2024年にノーベル物理学賞を受賞したジェフリー・ヒントン氏の研究室であったことは、確かに幸運かもしれない。しかし、講演を通して強く強調されていたのは、そのような環境に身を置きつつ、将来どの研究が重要になるかを見通す「目利き」の力こそが研究者には求められる、ということであった。具体的に今後伸長が期待される分野として、言語モデルと比較し、動画と音声の分野がこれから飛躍すると明言した。その理由として、LLMのブレイクスルーにはインターネット上のテキストデータが鍵であったが、良質なテキストデータは枯渇しつつあるのに対し、動画や音声は、撮影や録音によって、個々人の能力に依存せず高品質かつ情報量の多いデータを継続的に収集できる点を挙げていた。LLM勃興期の2023年上旬には、動画生成モデルの発展は当面期待できないと主張する研究者も多かったことを思えば、これは意外な見解であった。しかし、実際に2025年5月時点で、Veoなどの実写風の優れた動画生成モデルが登場している事実は、氏の先見性を示唆している。学習手法に関しても、オフライン教師あり学習が到達できる能力は人間の80%であり、100%への到達にはオンライン教師あり学習が、そして人間を超えるにはオンライン強化学習が必要であると述べた。これらの技術の発展は、医学・生命科学のような特定領域の研究にも大きな影響を与えるため、技術の潮流には常にアンテナを張り続ける必要があると肝に銘じた。その後、セッション「基礎・理論」を聴講し、特に『2サンプル平均化データに基づく非線形回帰モデルの学習』の発表が印象に残った。ここでは、連合学習や秘密計算といったプライバシー保護の観点で注目される手法であっても、モデル学習中に生データを保持する必要がある点をセキュリティ上の問題として提起していた。そこで、生データを削除した上で複数のデータを平均化した匿名データからモデルを学習可能にするための理論構築が提案された。将来、AIを搭載したプログラム医療機器が普及するにつれて、こうしたプライバシー保護の問題はより一層重要になる可能性がある。
学会三日目の報告を行う。はじめに「機械学習」セッションにて、『大規模言語モデルにおける潜在表現の複雑性と階層性の分析』など、潜在空間の幾何学的解析に関する発表を聴講した。その後は、複数セッションにわたり開催されたプログラム「人工知能を駆使した疾患動態研究」を聴講した。『ノックダウン細胞株の遺伝子制御ネットワークを用いたグラフニューラルネットワークの転移学習と薬剤応答推定』では、GNN(グラフニューラルネットワーク)にグラフ対照学習を導入する際、既存の摂動付加方法を、生物学的背景を考慮した教師あり学習の手法へ改良することで精度向上を達成できることが示された。近年、”biologically-informed”なモデル設計が様々提案され、その有効性を慎重に評価すべきとの報告もあるが、既存のモデルや学習手法をそのまま適用するだけでなく、生物学特有の制約条件を考慮に入れることの重要性を再認識した。また、『スペクトラルクラスタリングに対する選択的推論:患者層別化への応用』では、まず医学・生命科学分野で頻繁に見られる誤った統計解析への警鐘が鳴らされた。具体的には、高次元データに対してクラスタリングを行った後、クラスター間で特徴量の有意差検定を行う際、多重検定と同様の理由からp値をそのまま解釈すべきではないという点である。その上で、理論的なp値補正法が確立されていないスペクトラルクラスタリングにおいても、モンテカルロシミュレーションを用いることで近似的に有意差を評価できることが示された。この発表は、自身の研究における統計解析の妥当性を再考する貴重な機会となるとともに、その具体的な対応方法も非常に有益であった。今後は、既に理論構築が進んでいるk-meansクラスタリングや階層的クラスタリングにおけるp値の補正方法についても学習を深めたい。
学会四日目の報告を行う。午前中は、万博関連企画『人狼知能コンテスト2025春季国内大会自然言語部門』を聴講した。このコンテストは、LLMをエージェントとして人狼ゲームを行い、勝敗だけでなく、プレイヤーとして自然な会話がなされたかという点も評価対象となる。コンテスト結果の解説とデモンストレーションが行われ、この一年でLLMの推論能力が飛躍的に向上したにもかかわらず、人間と比較して依然として性能が不十分な領域が存在することを明確に示した。Kaggleが予測モデル開発のプラットフォームとして機能しているように、本コンテストのような競技の普及は、今後のLLMの発展を力強く後押しするだろう。このコンテストの趣旨は医学と直接関係しないものの、ここで浮き彫りとなった推論能力の課題は、例えば言語情報に基づいて確定診断や除外診断を支援するモデルなど、医療分野のAGI(汎用人工知能)を将来的に検討する際にも当然問題となる。したがって、LLMの能力と限界を明らかにする優れたベンチマークやコンテストには、今後も注目していきたい。午後の演題で印象的だったのは、「AIと社会」セッションにおける『Dynamic Sparse Trainingの重み相互依存性観点からの分析』である。Dynamic Sparse Training(DST)とは、学習前や学習中にモデルの重みを刈り込む(プルーニングする)手法群の一つで、学習中に重みのマスクを動的に調整することでモデルをスパース化し、計算とデータの効率化を図る。この発表では、重み間の相関を考慮した新たな近似法を導入することで、既存手法を上回るモデルのスパース化を達成したと報告された。この種の学習手法は、希少疾患のように原理的に大規模なデータ収集が困難な領域への応用が期待される。近年、医学・生命科学分野でも基盤モデルの開発が進んでいるが、無数に存在する希少疾患へのデータ駆動型アプローチは、依然として機械学習が最も苦手とする課題の一つである。こうした課題に対し、生物学的知識をモデル構造に組み込む”biology-informed”なアプローチも提案されているが、その有効性は十分に検証されているとは言えない。ニューラルネットワークのスパース化に関する基礎研究が進展すれば、データサイズが乏しい医学・生命科学の多くの分野に大きな恩恵をもたらすだろう。以上のセッションのほか、『知能の統合と創発 – 自律化、汎用化・実世界化へ -』というセッションでは、現在主流のバックプロパゲーションとは原理の異なるヒト脳型アーキテクチャの展望が語られた。現行のニューラルネットワークに置き換わる学習パラダイムは未だ明確ではないが、LLM開発で学習データ量の限界が指摘される中、異なる構想に基づく深層学習モデルの設計は重要な研究分野である。『AIによる故人再現の可能性と課題』というセッションでは、個人の特徴を模倣するAIサービスの社会的影響と倫理・法規制について議論された。このセッションでは発表者・聴衆ともに人文社会学系の研究者が多く、本学会がAIに関連するあらゆる分野の研究者を集結させていることを象徴していた。
今回の人工知能学会への参加は、AI技術の基礎研究と応用研究の連携を考える重要な機会となった。活性化関数の改良やスパース化といった計算効率の追求、あるいはモデル編集のような新しい学習パラダイムは、一見すると医学応用とは距離があるように思える。しかし、これらは希少疾患研究における少数データ問題の解決や、大規模ゲノムデータを扱う基盤モデル開発の効率化に直結しうる重要な技術シーズである。技術開発の初期段階からこれらの視点を持つことの重要性を痛感した。急速に進展するAI技術の動向を継続的に把握し、それを医学・生命科学領域における未解決問題へといかに橋渡しできるか、深く探求していく所存である。
2025年5月27日から30日にかけて開催された第39回人工知能学会全国大会に参加した。本稿では、同学会得た学びや感想について報告する。私は学部4年生から、研究室の有志と共に約2年間にわたり「Machine learning勉強会」を開催・参加してきた。そこでは、機械学習の基礎理論から、画像認識、大規模言語モデル(LLM)、拡散モデルといった、自身の専門とは異なるものの主要な分野の技術について学習を続けてきた。今回の学会参加は、これらの基礎知識を土台として、人工知能研究の最前線に触れ、自らの知見を深めることを目的としたものであった。4日間の会期中、数多くの口頭発表やポスターセッション、チュートリアルに参加し、多岐にわたる研究テーマに触れることができた。本報告では、その中でも特に印象に残ったセッションの内容を抜粋して紹介し、私の所感を共有したい。
学会では、学術的な研究発表だけでなく、企業におけるAI技術の活用事例を紹介するインダストリアルセッションも活発に行われていた。ソフトバンクによる自律型AIエージェントや、LINEヤフーによるeコマース領域での言語処理技術の応用など、具体的な社会実装の事例や、社内活用目的のAIの開発の話は非常に興味深かった。特に印象的だったのは、株式会社ディー・エヌ・エー(DeNA)の発表である。同社にはKaggleコンペティションで高い実績を持つKaggle MasterやGrandmasterが多数在籍しており、彼らが中心となって事業課題の解決に取り組んでいる様子が紹介された。例えば、人気ゲーム『逆転オセロニア』において、複雑なデッキ編成を初心者のために支援するAI「Deck Transformer」を開発した事例が挙げられた。これは、単なる組み合わせ最適化問題として解くのではなく、熟練プレイヤーのデッキ構築パターンをTransformerモデルに学習させることで、より実践的で「強い」編成を推薦するものである。また、セッション後の企業ブースでは、バスケットボールの試合映像から選手やボールの動きをリアルタイムで2次元座標にトラッキングし、戦術分析などに活用するモデルが展示されていた。バスケットボールが好きな私個人としても非常に興味をそそられる技術であり、エンターテインメント領域におけるAI活用の可能性を強く感じた。これらの事例から、企業がAIを単なる効率化ツールとしてではなく、新たなユーザー体験を創出する「武器」として活用している実態を垣間見ることができた。
初日のオーラルセッションの中でも、LLMの応用研究として興味深かったのが、小論文の自動採点と、強化学習における世界モデルの2つの研究であった。1つ目の「大規模言語モデルを用いて生成したペアワイズ比較データに基づくゼロショット小論文自動採点手法」は、LLMを用いた小論文の自動採点に関するものである。従来のLLMによる採点手法は、LLMに直接点数を予測させるため、モデル固有の採点バイアス(例えば、冗長な文章を高評価する傾向など)の影響を受けやすいという課題があった。本研究では、この課題に対し、2つの小論文を提示して「どちらが優れているか」をLLMに判断させる「ペアワイズ比較」というアプローチを提案している。絶対的な点数を問うよりも、相対的な優劣を判断する方が人間との評価基準と一致しやすいためである。具体的には、LLMに多数の小論文ペアを比較させて比較データセットを生成し、そのデータから各小論文の潜在的なスコアを統計モデル(Bradley-Terryモデル)で推定する。実験では、この手法が従来手法を上回る精度を達成し、一部の課題では人間が採点したデータで学習したモデルに匹敵する性能を示したことが報告された。実際、私自身も文章についてLLMにコメントをもらうケースがあるが、採点させるとどのような文章も比較的高得点になるという現象に遭遇していた。ゆえに現状の問題設計の課題は非常に納得する部分であり、本研究における採点というタスクを、よりLLMが安定して実行可能な「比較」というタスクに分解する問題設計の巧みさが非常に印象的であった。2つ目の「物体中心表現を用いたモデルベース強化学習の頑健性評価」はいわゆる世界モデルについての研究である。近年、強化学習の分野では、環境のシミュレーター(世界モデル)を自ら学習し、そのモデル内で行動計画を行う「モデルベース強化学習」が注目されている。しかし、学習した環境と少しでも異なる状況(分布外データ)では性能が著しく低下するという課題がある。この研究では、その解決策として、画像の中から自律的にオブジェクト(物体)を認識し、それらを個別の表現(スロット)として扱う「物体中心学習」を世界モデルに組み込むことを提案している。物体ごとに表現を分離することで、例えば背景色が変わっても物体の認識には影響が少なくなり、頑健性が向上すると期待される。実験では、Atariのボクシングゲームを用いて、背景色を変化させた環境での性能を評価したが、現状では期待されたほどの性能向上は見られなかったという。しかし、世界モデルという概念自体に興味を持っており、わかりやすいプレゼンでその理解が深まった。
今回の学会参加で最も衝撃を受けたのが、東京大学の鈴木大慈教授による「深層基盤モデルの数理」というチュートリアルであった。深層学習の能力を理論的に解明しようとするこの講演は、「知能の起源」という壮大なテーマから始まった。生物が変化し続ける環境に適応するためには、単なる丸暗記ではなく、世界の情報を効率的に圧縮し、未知の状況に対応する「汎化能力」が不可欠である。この汎化の本質こそが「表現学習(特徴学習)」であり、深層学習の強さの根源であると説明されていた。近年のAIの発展を支えるスケーリング則(モデルやデータサイズを大きくすると性能が向上する法則)は、深層学習と、それ以前の浅い学習モデル(線形回帰やカーネル法など)とでは振る舞いが異なる。浅いモデルは、入力データに対して固定的な変換しか行えないため、データが持つ最も複雑な変動に性能が引きずられ、「次元の呪い」(データが高次元になるほど性能が指数関数的に低下する問題)の影響を強く受ける。一方、深層学習は、複数の層を重ねることでデータから本質的な特徴を自動で抽出し、重要でない変動を無視することができる。これにより、データの真の低次元構造を見出し、次元の呪いを回避することで、圧倒的な表現能力と汎化性能を獲得する。この特徴学習能力こそが、Transformerや拡散モデルといった現代的なモデルの成功の鍵であると説明された。また、ニューラルネットワークの学習は、無数の局所解を持つ非凸な最適化問題であり、理論的には大域的最適解にたどり着く保証はない。しかし実際には、確率的勾配降下法(SGD)でうまく学習が進む。これには、パラメータが過剰に多い(オーバーパラメトライゼーション)状態では、ほとんどの局所解が大域的最適解とほぼ同等の性能を持つことや、学習アルゴリズム自体が暗黙的に良い解へ導く「陰的正則化」といった性質が関わっていることが理論的に示されつつある。また、LLMの中核技術であるTransformerについては、そのAttention機構が、入力系列の中から重要なトークンを動的に選択する役割を果たすことで、タスクに関係のない情報を無視し次元の呪いを回避できることが、その強力な性能の源泉であるという説明がわかりやすかった。
普段何気なく採用しているAIのアーキテクチャについて、その根幹を支える理論的妥当性や数理的理論の研究は新鮮であり、大変面白かった。
3日目のSB Intuitions株式会社の研究者らによる「大規模視覚言語モデルの開発」と題されたチュートリアルも非常に有益であった。こちらは前述の数理的アプローチとは対照的に、実際に巨大モデルを開発する現場のノウハウや課題が共有される実践的な内容であった。大規模視覚言語モデル(VLM)は、画像と言語の両方を扱うことができるモデルであり、その開発は、強力な事前学習済みLLMと画像エンコーダを組み合わせるのが現在の主流である。講演では、VLM開発の具体的なフロー(学習データの構築、モデルの学習、評価)が、同社が開発した「Sarashina2-Vision」などの事例を交えて紹介された。特に印象的だったのは、モデルの性能を左右する「データ」と「事後学習」に関する議論である。1つ目のデータについて、VLMが画像にないものを「ある」と答えてしまうハルシネーション(幻覚)は大きな課題である。この原因の一つとして、学習データ自体の品質の問題(例:画像のキャプションが不正確)や、データセットのバイアス(例:「ない」と答えるべきネガティブな質問データが不足している)が挙げられた。これに対し、より詳細なキャプションを付け直したり、意図的にネガティブな質問応答データを生成して学習させたりといった対策が紹介された。そして、LLMの性能向上の鍵を握るのが、2つ目の事前学習後のチューニング(事後学習)である。特に、人間の好みに合うように出力を調整するDPO(Direct Preference Optimization)のような手法が重要となる。これは、同じプロンプトに対して「良い回答」と「悪い回答」のペアを用意し、モデルが良い回答を生成しやすくなるように学習させる手法である。ここでも、性能向上のためには質の高い「悪い回答」データ(モデルが生成しがちだが不適切な回答)を用意する工夫が必要であり、その生成手法についても解説があった。このチュートリアルから、事前学習のスケールアップ競争が限界に近づく中で、いかにして下流のタスク(ファインチューニングや推論)で性能を引き出すかという「工夫」の重要性が増していることを強く感じた。実際に開発に携わる研究者たちの生の声を聞くことができ、VLM開発のリアルな現場を知る貴重な機会となった。
本学会では、医療分野におけるAI応用研究も数多く発表されており、それらの発表は同年代の研究者たちによるものもあり、彼らの活躍に大きな刺激を受けた。
ファイザーR&D合同会社の「深層学習モデルを用いた精密医療への挑戦」では、潰瘍性大腸炎の治療において、従来の統計モデルでは予測が難しかった治療効果を、患者の遺伝子情報(SNP)などを加えて深層学習モデルで予測する試みが紹介された。結果として、治療が成功する患者を予測する精度(適合率)が21.1%から41.5%へと大きく向上したことが報告され、私も興味を持っているAIによる精密医療(プレシジョン・メディシン)の可能性が示されていた。「ノックダウン細胞株の遺伝子制御ネットワークを用いたグラフニューラルネットワークの転移学習と薬剤応答推定」というセッションでは、がん患者の遺伝子制御ネットワーク(GRN)をグラフニューラルネットワーク(GNN)でモデル化し、特定の遺伝子を抑制(ノックダウン)した際の治療効果を仮想的に予測するフレームワークを提案。実験データと計算機上の仮想的な操作を組み合わせることで、生物学的な妥当性を高めている点が特徴である。乳がんの原因遺伝子ERBB2を仮想的に抑制した際に、死亡リスクが有意に低下することを示し、手法の有効性を実証していた。数理的バックグラウンドがかなりしっかりとしている印象であった。
4日間にわたる学会参加を通じて、現在のAI研究の潮流を肌で感じることができた。全体として、LLMを応用した研究が非常に多く、一方で新しいアーキテクチャ自体の提案は少ないという印象を受けた。中には、LLMにゲーム「人狼」をプレイさせるというユニークな研究もあり、普段は非常に賢いLLMが、人狼のような複雑な社会的推論が求められるタスクでは、時に突拍子もないアクションを起こす様子が紹介されていた。これは、現在のAIが持つ知能の限界と、人間のような柔軟な思考の実現の難しさを改めて実感させられる面白いセッションであった。
今回聴講したセッションには、特に「深層基盤モデルの数理」のように一部難解な内容も含まれていたが、学部時代から続けてきた勉強会の甲斐もあり、多くの内容を理解することができたのは大きな自信となった。私の研究テーマに直接的に結びつく発表は多くはなかったものの、自身の専門外の分野における最先端の研究に触れ、AIという学問領域の広さと奥深さを再認識できたことは、今後の研究活動の糧となる非常に有意義な経験であった。この経験を活かし、より一層研究に邁進していきたい。