Target 2035は、2035年までに全てのヒトタンパク質を対象として、ケミカルプローブのような高活性かつ高選択性の薬理学的モジュレーターの開発を目指す国際的なイニシアチブです。ここでは2025年7月のNature Reviews Chemistry誌に掲載されたProtein–ligand data at scale to support machine learningから、本取り組みの概要を紹介します。詳細はリンク先の原文をご確認ください。

背景

ケミカルプローブ(特定のタンパク質を標的とし、強力かつ高選択性の細胞活性を持つ低分子化合物)は、生命科学研究における最も影響力の高いツールの一つです。2009年、Structural Genomics Consortium(SGC)は、細胞シグナル伝達、タンパク質恒常性、エピジェネティクス関連のヒトタンパク質を対象とするケミカルプローブの収集・開発プログラムを開始しました。その結果、200種類を超えるタンパク質に対する新規ケミカルプローブの開発・収集に成功しています。

新規タンパク質に対するケミカルプローブ開発において、まずは化学的に取り扱いやすいヒット化合物の同定をすることは最初の第一段階です。しかし、研究が十分に進んでいないタンパク質では、このヒット化合物探索がしばしば律速段階となりえます。

そこで計算に基づくアプローチ、具体的にはAIに基づく方法が大きな可能性を秘めています。しかし、適切なタンパク質-リガンドデータセットが公開データセットとしては不足しているという制約があります。そこでSGC/Target 2035ワーキンググループでは、(1)大規模な実験的タンパク質-低分子結合データセットを体系的に生成し、十分にアノテーションされたデータへのオープンアクセスを提供すること、および(2)コミュニティと協力してヒット化合物探索アルゴリズムの訓練、開発、改良、テスト、ベンチマークを行うプログラムを作っていくことになりました。

Target 2035プロジェクトの概要

2025-2030年の5年間にわたるプロジェクトでは、2,000種類以上の多様なタンパク質と、数百万から数十億の低分子化合物の間の、結合データを含む高品質なオープンデータセットを生成する予定です。

プロジェクト内・コミュニティ間でお互いに精製タンパク質を作ったり提供してもらったりしながら準備し、アフィニティーセレクション質量分析法(AS-MS)やDNAエンコード化ライブラリー(DEL)スクリーニングを用いて結合データを生成します。このスクリーニングは標準化された方法で実施され、さらなる二次スクリーニングがおこなわれます。

アノテーションされたスクリーニングデータはAIRCHECK(Artificial Intelligence-Ready CHEmiCal Knowledge base)というサイトを通じてオープンに利用可能にするとのことです。

優先順位が高いタンパク質に対する低分子結合化合物を見つけるということの他、AI計算手法を進歩させるための包括的で十分にアノテーションされた質の高いデータセットを作成することができます。

 

タンパク質-リガンドのオープンデータ生成

 

品質管理を通過したすべての精製タンパク質は、大規模な化合物ライブラリーを用いて結合物質のスクリーニングにかけられます。スクリーニングは、高品質なデータ生成で実績のある学術または産業ハブで実施されます。タンパク質のスクリーニングハブへの、またハブ間での配布は、作業の重複を避けるために中央で調整されます。

重要な戦略的決定は、データ生成モダリティの選択でした。以下の理由から、精製タンパク質へのリガンドの直接結合をスクリーニングするプラットフォームが導入されます。

  1. 直接結合アッセイは、既知の活性を持たない数千のヒトタンパク質を含む、各タンパク質に対して特注の機能的アッセイを開発するという非現実的な要件を排除します。既知の機能を持つタンパク質の場合、機能的アッセイはヒット検証プロセスや化学物質のさらなる進展に役立つ可能性があります。

  2. 精製タンパク質の一つの調製物は、ヒット同定に使用される一次結合スクリーニングと、ヒット検証に使用される二次的な直交生物物理アッセイ²⁴の両方に使用できます。

  3. SGC、産業界、およびより広範なタンパク質および構造生物学の学術コミュニティによって、既に精製されているか、高品質・高量で容易に精製できる数百のヒトタンパク質を使用して、スクリーニングキャンペーンを直ちに開始できます。

多くのスクリーニングプラットフォームを検討した結果、DEL²⁵⁻²⁸とAS-MS²⁹⁻³¹が選ばれました。これら2つの生物物理学的スクリーニング法は、多種多様なタンパク質に対して成功裏に使用されており、スクリーニングごとに数百万の高品質なデータポイントを生成する可能性があり、我々の手で多様なタンパク質に対して効率的なヒット化合物探索の結果を既に示しています。さらに、これらの方法によって生成されたデータは、共通の実験計画を持ち、機械可読形式で表現でき、ますます大規模なデータセットに集約することができます。これらのデータの大規模かつ高次元性は、ML/AIコミュニティによって広範囲に開発され³²˒³³、創薬応用におけるケモインフォマティクスで採用されてきたそれぞれの分析技術を活用します³⁴。

 

DELスクリーニング

 

DELスクリーニングは、タンパク質に結合する化合物を同定するためのツールとして20年以上にわたって使用されてきた、アフィニティーを介した技術です³⁵⁻³⁸。この技術では、各化合物がその合成履歴(したがって推定される化合物の同一性)をコードするオリゴヌクレオチドに共有結合した化合物のプールを、タンパク質と共にインキュベートします。その後、タンパク質はアフィニティータグを用いて捕捉され、結合したライブラリーメンバーは洗浄によって非結合物質から分離されます。保持されたライブラリーメンバーをコードするDNAは増幅・配列決定され、各化合物の合成履歴とそのバックグラウンドに対する濃縮度を決定することができます。歴史的には、濃縮されたライブラリー化合物はDNAから切り離して再合成され、直交アッセイで結合または活性がテストされていました。この技術は巨大な化学ライブラリー(>1兆メンバー)を探索することを可能にしますが、限界もあります。DNAの存在は多くの偽陽性を引き起こし、多くの潜在的結合物質をDNAから切り離して合成するのは時間とコストがかかり、ライブラリーメンバーの化学的多様性はDNAの存在と両立する反応を使用する必要があるため制限されます。

これらの限界のいくつかは、ML/AIとDELスクリーニングを統合することで克服できます。DELスクリーニングデータ分析のこの反復では、数十億のデータポイントを含み、ポジティブおよび(重要なことに)ネガティブな結合データの両方を含むデータセットが、MLアルゴリズムを訓練し、結合物質の分子特徴を予測するモデルを構築するために使用されます²⁶˒²⁸˒³⁹。これらのアルゴリズムは、その後、数十億の市販化合物または組織内部の化合物コレクションの中から活性分子を探索するために使用されます。次に、化合物は入手され、直交する結合および/または機能アッセイを用いて精製タンパク質への結合がテストされます。この戦略はいくつかの潜在的な利点を提供します。第一に、ほとんどの研究者にとって、濃縮されたライブラリー化合物のそれぞれを合成するよりも、分子を購入する方が速く、安価です⁴⁰。第二に、予測はDEL内の分子に限定されず、事前に列挙された、合成的にアクセス可能な商業ライブラリーに代表される、大規模で多様な、よりドラッグライクな化学空間に対して行うことができます。

この概念的なDEL MLワークフローは、McCloskeyらによって3つの既知の標的を用いて先駆的に行われ²⁶、そのアプローチのスケーラビリティと一般化可能性はその後確認されています²⁷˒²⁸˒⁴¹˒⁴²。これらの有望な結果は、数百から数千のタンパク質からのDELスクリーニングデータセット(詳細なプロトコルとメタデータを含む)を、標準化されたML対応形式で⁴³˒⁴⁴、制限なく学術界および産業界に提供するという、スケールアップされたプロセスを想像する勇気を与えてくれました。これらのデータにオープンアクセスを提供すること(aircheck.ai)により、ML/AIコミュニティは、実験的にテスト可能な予測を行い、ベンチマーク可能な手法を開発することが可能になります(図3)。AIRCHECKの最初のデータセットでは、データはネガティブ対ポジティブの訓練例を10:1の比率で含み、最大100万のデータポイントを含んでいます。ネガティブ訓練例は、ライブラリーごとにポジティブ訓練例に比例して分布されました。これらのデータは既に、WDR91タンパク質に対する新たなマイクロモル濃度の結合物質を成功裏に予測したモデルを構築するために使用されています⁴⁵。

図3:DELスクリーニングの出力データとML/AIワークフローの模式図 DNAエンコード化ライブラリー(DEL)メンバーのアフィニティーを介した選択により、潜在的な結合物質が濃縮される。ディープシーケンシングを用いて、濃縮されたDELメンバーと濃縮されなかったDELメンバーのDNAバーコードを特定する。出力データはその後、化学構造とそれに対応するケミカルフィンガープリントに変換される。ポジティブ(濃縮された)およびネガティブ(濃縮されなかった)DELメンバーの両方が、オープンな機械学習(ML)対応データセットに含まれる。このデータセットはMLモデルの訓練に使用され、そのモデルは超大規模な化学ライブラリーから潜在的な低分子結合物質を認識し、推薦するために使用される。これらの化合物は調達され、その結合は生物物理学的および/または生化学的アッセイで実験的にテストされる。生成されたすべてのデータ(化学構造および/またはそれに対応するフィンガープリントを含むML対応データセット、MLモデル、リガンド検証データ)は、専用のクラウドベースのストレージシステムであるArtificial Intelligence-Ready CHEmiCal Knowledge base (AIRCHECK) で公開される。AI, 人工知能。

当初、DELスクリーニングは、MLを自社のDELデータに適用して成功した実績のある選択された組織で実施されます⁴³˒⁴⁴。将来的には、堅牢なDEL合成・スクリーニング基盤を持ち、関連データをオープンに、標準化されたML対応形式で⁴³˒⁴⁴共有することに同意する他の企業や学術機関も、このイニシアチブへの参加を歓迎されます。

 

AS-MS

 

AS-MSは、製薬業界において堅牢なヒット化合物同定アプローチとして登場しました⁴⁶。この方法では、質量で区別された化合物のプール(通常最大2,000種)を、まずタンパク質と共にインキュベートします。その後、タンパク質と低分子はクロマトグラフィーで分離され、タンパク質と共溶出する化合物は液体クロマトグラフィー-質量分析にかけられ、その正確な質量によって明確に同定されます。化合物の結合は、その後、直交する機能的または結合アッセイを用いて検証されます。ほとんどのAS-MSプラットフォームにおける現在の化合物の検出上限は、親和性定数で1~15マイクロモルの範囲です⁴⁶。

いくつかの注目すべき例外⁴⁷⁻⁵⁰を除き、AS-MSは学術界において低分子スクリーニングプラットフォームとして広く採用されてきませんでした。これは、必要なインフラが大規模であることにも一部起因しますが、主な理由は、インフラを費用対効果高く使用するには、数ミリグラム量の精製タンパク質のパイプラインが必要だからです。このプロジェクトでは数千の精製タンパク質にこれらの量でアクセスできる能力を考えると、AS-MSはスクリーニングプラットフォームとして優先されました(図4)。スクリーニング能力とスループットを最適化するため、我々は、アフィニティータグ付きタンパク質(his, GFP, or biotin)を化合物のプールに対してスクリーニングし、その後、タグ付きタンパク質を対応する磁性アフィニティーマイクロビーズに結合させることで、タンパク質/化合物複合体を非結合化合物から分離するオフラインAS-MS法を導入することを選択しました⁵⁰。このパイプラインは、質量分析スクリーニングに明示的に最適化された小さな化合物ライブラリーに対して31種類の多様なタンパク質をスクリーニングすることで試験的に運用され、11種類のタンパク質に対して結合物質が発見されました⁵¹。

図4:AS-MSスクリーニングワークフロー 左から右へ:各アフィニティーセレクション質量分析(AS-MS)サンプルで500化合物をプールすることによるタンパク質アフィニティー精製;AS-MSサンプルの液体クロマトグラフィー-質量分析(LC-MS)分析;ヒット化合物を特定するための自動データ処理;直交する生物物理学的手法(例:表面プラズモン共鳴)を用いたヒット化合物の検証;およびAS-MSデータを、コミュニティ全体が自由にアクセスできるArtificial Intelligence-Ready CHEmiCal Knowledge base (AIRCHECK) データベースにアップロードする。

DELとAS-MSの両スクリーニングからの一次結合データとメタデータ、および二次生物物理アッセイの結果は、現在、使用制限なしでAIRCHECKに置かれています。生の質量分析データもMetabolomics Workbench (https://www.metabolomicsworkbench.org/) または同様の手段を介して利用可能になります。


 

スクリーニングデータのアノテーションと検証

 

ML/AIアプリケーション用のスクリーニングデータセットを生成することを優先するため、データ品質、データアノテーション、データ可用性には特に注意が払われます。これは、我々の産業界パートナーや他の公的イニシアチブの経験から得られた教訓を活用します⁵²。データ品質基準は公開され、3つの主要なレベルで実施されます:タンパク質サンプル、DELおよびAS-MSスクリーニングの出力、そしてヒットアノテーションです。

 

タンパク質

 

スクリーニングに入るタンパク質は、確立された実験的品質基準を満たす必要があり、また、データ解釈やモデル構築に影響を与える可能性のある重要なメタデータ、例えば精製条件や金属イオンの存在などを伴わなければなりません。

 

スクリーニングデータセット

 

一次AS-MSおよびDELスクリーニング由来のデータセットは、一連の関連パラメータに対して技術的な品質が評価されます(補足図3)。品質チェックを通過した公開DELおよびAS-MSスクリーニングについては、すべての生スクリーニングデータが公開ドメインに置かれます。

 

一次スクリーニングデータの二次アノテーション

 

どちらの実験的スクリーニングプラットフォームも偽陽性および偽陰性のヒットを生成するため、ML/AIアプリケーション用のデータセットの品質を維持するためには、真の陽性と偽の陽性を直交アッセイを用いて区別する必要があります⁵³。これは技術的に困難です。なぜなら、より弱い結合化合物は、多くの生物物理学的または機能的アッセイで使用される濃度ではしばしば不溶性であり⁵⁴˒⁵⁵、これが単一のアッセイで容易にアーティファクトを引き起こすからです。その結果、多くの候補結合物質は、その真実性について十分な確信を得るために、いくつかの異なるアッセイでテストする必要があるかもしれません。

弱く結合する化合物の分析における技術的な課題を考えると、スクリーニングヒットが真の結合物質であるかどうかを判断するためにプロジェクトがどれだけの労力を投資すべきかについて合意し、各アッセイの限界⁵⁴˒⁵⁵と結果として得られるデータをモデリングコミュニティに伝えることが重要になります。戦略的な決定は、データセット内で最大数の真の陽性をアノテーションすること(これはモデル構築に最適であり、タンパク質のリガンド結合性に関する実践的で価値のある洞察も提供する)と、弱く結合する化合物の特性評価に相当なリソースを投資すること(これはスクリーニングできるタンパク質の数を減らす)とのバランスをどう取るかです。CACHEコンペティションは、生物物理学的結合アッセイの解釈方法と潜在的なアーティファクトの特定方法を説明する文書を作成しました⁵⁶。プロジェクト内の実験家とデータサイエンティスト間の絶え間ない密接な議論により、スクリーニングおよびヒット特性評価データの誤解や過剰解釈が最小限に抑えられます。

このプロジェクトでは、初期スクリーニングからのヒットの指名において寛大な閾値が導入されます。直交アッセイに対して (値) の親和性閾値が設定され、潜在的にはターゲット固有のある程度の許容範囲が設けられます²⁰。理想的には、最初の直交アッセイから生じるすべての候補ヒットは、追加のアッセイでテストされます。その結果、 を持つ、十分にアノテーションされた陽性結合物質の堅牢で包括的なリストが得られます。

 

データの一貫性

 

データの一貫性を優先するため、二次スクリーニングとデータアノテーションは、標準作業手順書に従う、設備が整い経験豊富な学術または商業研究室に集約されます。サンプルは研究室間で定期的に交換・テストされ、研究室間のばらつきを監視・排除します。これらの研究室は、表面プラズモン共鳴⁵⁷やグレーティング結合干渉法⁵⁸のような何らかの表面結合アッセイ、およびスペクトルシフト、微量熱泳動法、NMR、またはサーマルシフト法⁵⁹⁻⁶¹のような、妥当なスループットを持つ他の生物物理学的手法を含む、さまざまな直交アッセイフォーマットにアクセスできます。プロジェクトの複雑さの一つは、スクリーニングされる多くの新規タンパク質に対して、ポジティブコントロールとなる結合物質の恩恵なしに直交アッセイを構築しなければならないことです。ターゲット調節を確認する機能的アッセイが容易に利用可能であれば、それらはヒット確認プロセスにさらなる検証層を加え、リガンドをケミカルプローブに発展させる方法について非常に貴重な洞察を提供するでしょう。

 

データ管理とアクセス

 

アノテーションされたタンパク質-リガンドデータセットの価値を完全に実現するために、データ管理アプローチは実験手法と同等の注意を払って扱われます。したがって、プロジェクトはEdfeldtらが最近記述したデータ管理ロードマップに従います²³。これには、実験データの統制語彙の確立、可能な限り自動化と電子実験ノートの使用、データ統合を容易にするためのデータベースアーキテクチャの集中化、および包括的な文書の提供が含まれます。生データは可能な限り提供され、最も関連性の高いデータ表現の選択、適切な訓練セットとテストセットの定義、および予測の不確実性の推定の提供を含む、透明で再現性のあるデータ処理が実行されます。包括的なデータ管理計画とその属性は表1に概説されています。

表1 データ管理の特徴 | 機能 | 説明 | | :— | :— | | 統制語彙 | 実験条件、アッセイパラメータ、タンパク質メタデータに対するFAIR原則に準拠した統制語彙を確立する | | 自動化 | ヒューマンエラーを減らし、データの一貫性を向上させるために、実験およびデータ処理のワークフローに自動化と電子実験ノートを導入する | | 集中化されたアーキテクチャ | 多様なソースからのデータ統合を容易にするために、単一の集中化されたデータベースアーキテクチャにコミットする | | 文書化 | 実験プロトコル、データ処理手順、モデル構築プロセスについて、透明で再現可能な詳細な文書を提供する | | 生データへのアクセス | モデル構築と検証のための代替アプローチを可能にするため、可能な限り生データを提供する | | 不確実性 | モデルの限界を理解し、その応用を導くために、予測の不確実性を推定する | | データプライバシーとセキュリティ | 機密データを保護し、責任あるデータ共有を確保するために、堅牢なデータガバナンスとセキュリティ対策を実装する | | オープンソースソフトウェア | コミュニティの関与と方法論の進歩を促進するために、オープンソースのデータ処理およびモデリングツールを開発・採用する |


 

実験的フィードバックによるベンチマーキング

 

大規模で一貫性のある高品質なデータセットをコミュニティに提供する目的は、計算的およびML/AIによるヒット化合物探索およびヒット化合物最適化手法の開発を可能にすることです。モデルは短期的にはスクリーニングセット内のタンパク質の結合物質予測と最適化戦略に焦点を当て、長期的にはヒット発見と最適化の基盤モデルを構築することを目指します。

これらの手法の開発を加速するために、プロジェクトはCASP、DREAM⁶²、CACHE¹⁵などの組織と提携し、コミュニティからの予測が実験的にテスト・比較されるベンチマーキングチャレンジを開始します。チャレンジへの入力として使用されるデータは、チャレンジの進行中は機密保持され、チャレンジとデータリリースの定期的なサイクルが確立されます。計算生物学におけるベンチマーキングイニシアチブの価値は、30年以上にわたり計算手法の進歩を推進・監視してきたCASPによって明確に確立されています⁶³˒⁶⁴。

提案されている初期のベンチマーキングチャレンジのいくつかが表2にリストされています。プロジェクトが進むにつれて、AS-MSやDELスクリーニングだけでなく、将来出現する可能性のある新しいヒット化合物探索スクリーニングプラットフォームからのデータを含む、複数のプラットフォームからのデータを組み合わせるものなど、他のタイプのベンチマーキングチャレンジが組み込まれる可能性があります。典型的な創薬スクリーニングパイプラインをよりよく表現するチャレンジの組み合わせ、例えば何らかの形の実験的または計算的なタンパク質構造情報を統合するものも、付加価値を持つかもしれません。しかし、比較的単純なチャレンジでさえ、かなりのロジスティクスを必要とし、関連する実験コストが高いため、プロジェクトの開始時にさらに複雑なパイプラインを実行することは、おそらく野心的すぎます。

表2 サンプルベンチマーキングチャレンジ | チャレンジのタイプ | 説明 | | :— | :— | | DELのみ | 参加者は、公開されたDNAエンコード化ライブラリー(DEL)データセットからモデルを構築し、商業的に入手可能な化合物のリストの中から新しい結合物質を予測する。 | | AS-MSのみ | 参加者は、公開されたアフィニティーセレクション質量分析(AS-MS)データからモデルを構築し、商業的に入手可能な化合物のリストの中から新しい結合物質を予測する。 | | DELとAS-MS | 参加者は、DELとAS-MSの両方のデータセットからモデルを構築し、予測を行う。 | | 構造からリガンドへ | 参加者は、タンパク質の構造(実験的または予測されたもの)を使用して、候補結合物質を予測する。 | | ヒットからリードへ | 参加者は、既知のヒット化合物の化学構造、生物物理学的データ、構造活性相関データ(利用可能な場合)を使用して、より強力な結合物質を予測する。 | | 基盤モデル | 参加者は、複数のタンパク質からのすべての公開データを使用して、スクリーニングデータセットに含まれていないタンパク質のヒット化合物を予測する。 |

参加者は、自分たちのモデルをオープンソースにし、誰でもAIRCHECKから直接使用できるように奨励されます。これを促進するため、ML/AIモデルを公開し、寛容なライセンスで提供する資格のある参加者に対しては、化合物の調達と実験的テストの費用が、一部または全部、理想的には免除されるべきです。


 

パイロットから実装へ

 

パイロットプロジェクトは、このプロジェクトの基礎的な要素を築きました。現在、以下の能力が整備されています。 (1) 2,000以上の高品質なヒトタンパク質(ほとんどが「これまでリガンドが結合したことのない」もの)を生産する能力、(2) これらのタンパク質をAS-MSとDELを用いて化合物ライブラリーに対してスクリーニングする能力、(3) 堅牢なデータ管理計画とデータベースアーキテクチャを用いてプロジェクトデータを保存・普及させる能力、(4) スクリーニングデータをアノテーションし予測をテストする能力、そして (5) コミュニティからの貢献と参加を募る能力。

プロジェクトの初年度には、個々の要素がスケールアップされ統合され、優先度の高いタンパク質のヒット化合物を特定するという短期的な目標と、計算的なヒット化合物探索を前進させるデータを生成するという長期的な目標とのバランスをとったデータ生成計画が作成されます。最も可能性の高いスクリーニングカスケードは、各タンパク質をまずAS-MSで、その構成が公開される探索的ライブラリー(約15,000化合物)に対してスクリーニングすることを含むでしょう。その根拠は、このスクリーニングがスケーラブルであり、直接的な結合の読み取り値をもたらし、最も費用対効果が高く、容易に「リガンド結合性がある」タンパク質を最も迅速に特定できるからです。探索的スクリーニングはまた、AS-MSやDELには不向きな物理化学的特性を持つタンパク質をフラグ付けし、それ以上はスクリーニングされません。例えば、探索的スクリーニングは、安定に見えるが実際には一時的にアンフォールドした領域を持ち、多数の化合物を非特異的に結合する可能性のあるタンパク質をフラグ付けします。

AS-MS探索的スクリーニングからヒット化合物が得られない安定で単分散なタンパク質、またはより大きな化学的多様性や大規模なデータセットが必要なタンパク質は、AS-MSとDELの両方を用いて、より大きな化合物ライブラリーでのスクリーニングに回されます。提案されたスクリーニングカスケードは定期的に見直され、プロセスを最適化したり、必要に応じて他のスクリーニングアプローチを組み込んだりするために調整されます。


 

コミュニティからの貢献を奨励する

 

プロジェクトの目標を達成するためには、より広範な科学コミュニティの積極的な参加が不可欠です。堅牢なコミュニティエンゲージメントは、プロジェクト内でオープンサイエンスの原則を採用することによってのみ実現可能になります。明確にするために、これはプロジェクトのリソースを使用して開発された化合物、データ、アルゴリズムが、使用に制限なく、知的財産権の制約なしに利用可能になることを意味します。このオープンサイエンスの立場は、目的の明確さを提供し、化合物の所有権やアルゴリズムを巡る長期間にわたる複雑な議論を回避します。この立場に沿って、プロジェクトのリソースを使用して生成されたデータ、化学構造、アルゴリズムのその後の研究または商業利用にも制限はありません。これを背景に、以下の分野でのコミュニティからの貢献が想定されています(表3)。

表3 コミュニティからの貢献 | 貢献分野 | 説明 | | :— | :— | | タンパク質科学者 | 自身の研究分野のタンパク質をスクリーニングプロセスに提供し、プロジェクトのターゲット多様性を拡大する | | データ生成 | 新しいスクリーニング技術や方法論を貢献し、データ生成プラットフォームの範囲と能力を拡大する | | 計算科学者 | 提供されたデータを使用して新しいML/AIモデルを開発・ベンチマークし、それらの予測を実験的にテストする | | 化学者 | ヒット化合物を改善し、構造活性相関を生成するための分子を設計・合成する | | 資金提供者 | プロジェクトに資金を提供し、その戦略的方向性とガバナンスを指導する | | 研修生と教育者 | 研修プログラムに参加し、学際的なスキルを開発し、知識の普及に貢献する |

 

タンパク質科学者

 

構造生物学者、そしてより広範なタンパク質科学者は、しばしば自身の科学的関心分野のタンパク質を精製する上で独自の専門知識を持っています。コミュニティメンバーは、精製したタンパク質をスクリーニングプロセスに提供することが奨励されます。プロジェクトにとって、これはタンパク質-リガンドデータセットの多様性を拡大します。貢献する科学者にとって、これは自分自身の研究室で制限なく追跡できるヒット化合物へのオープンアクセスを提供する可能性があります。既に30人以上のタンパク質科学者が、ブラジル、英国、カナダ、ドイツ、スウェーデン、米国などからトロントにタンパク質を送り、AS-MSスクリーニングを行っており、これらのコミュニティタンパク質のうち8つについては、既に結合物質が同定され、表面プラズモン共鳴によって検証され、貢献者と共有されています(例:Wangら⁵¹)。この多様なコミュニティをより大規模に活用することは、多大な科学的利益をもたらしますが、ロジスティクス上の負担も増えるため、プロジェクトはこのプロセスを慎重に実施する必要があります。

 

データ生成

 

プロジェクトのスクリーニングデータは、当初は選択されたハブのAS-MSおよびDELスクリーニングプラットフォームを使用して生成されます。しかし、参加するスクリーニング研究室の数を増やし、データ生成技術の範囲を広げることには明らかな利点があります。したがって、新しいスクリーニング方法論は継続的に探求されます。このプロセスを管理するために、すべての初期プラットフォームを通じて包括的にスクリーニングされた、約25の十分に特性評価された多様でリガンド結合性のあるタンパク質のセットが、新しいスクリーニングハブや技術のための技術テストセットとして機能します。プロジェクト理事会とその科学顧問は、すべてのデータを確認し、新しいセンターや技術の追加に関する勧告を提供します。

 

世界中の計算科学者を巻き込む

 

各スクリーニングは複数のGBスケールのデータセットを生成し、これらはダウンロードして操作する必要があるかもしれません。クラウドリソースの使用は、AIRCHECKプラットフォームのスケーラビリティを確保しつつ、ユーザーがデータとML/AIモデリングのための計算リソースに容易にアクセスできるようにします。また、ユーザーは大手クラウドプロバイダーからの教育または研究クレジットを活用して、より公平で、多様で、包括的なアクセスを支援できます(例:アフリカの高等教育のためのGoogle Cloudプログラム⁶⁵)。資源の乏しい環境の科学者も積極的に参加を奨励されます。また、プロジェクトに関連する計算科学者のグローバルネットワークであるMAINFRAME⁶⁶と緊密に協力することで、オープンソースアルゴリズムの開発を促進します。

 

化学者

 

合成化学および医薬品化学コミュニティは、(例えば、SGCのOpen Chemistry Networksを通じて)元の結合物質を改善するためにヒット化合物に関連する分子を設計および/または生成することが奨励されます。これらの化合物をプロジェクト内でテストすることで、予備的な構造活性相関が生成され、結合物質が前進できるという確信が提供される可能性があります。化学者はまた、自身の化学を通じて理論的にアクセス可能な化合物を、合成的にアクセス可能なすべての化合物の新たなバーチャルスクリーニングライブラリーに貢献することも奨励されます⁶⁷。

 

トレーニングとネットワーキング

 

このプロジェクトは、ML/AIアルゴリズムの開発を促進するために明示的にデータを生成するため、実験科学、データ科学、計算科学の交差点で運営されます。これは、さまざまな分野の実用的な運用知識を求める科学者にとって優れたトレーニング環境を提供し、研修生向けのプログラムが設立されます。さまざまなコミュニティ間の科学的交流を優先する定期的なプロジェクト会議が設立されます。


 

プロジェクトの構造とガバナンス

 

このプロジェクトは、競争前のオープンサイエンスパートナーシップとして構成され、プロジェクトのリソースで生成された化合物アッセイデータ(確認されたヒット化合物の化学構造やアルゴリズムを含む)は、帰属表示を要求するがその後の使用に制限を設けないライセンスの下で公開されます。前述の通り、その根拠は実用的かつ証拠に基づいています。実用的というのは、潜在的な知的財産の保護を可能にする合意の下で運営できる、セクター横断的、学際的、多国籍のシームレスな協力を想像することがほぼ不可能だからです。そして証拠に基づいているというのは、どの分野においても、ML/AIアルゴリズムの開発は、オープンデータと進捗を透明にベンチマークするメカニズムが提供されたときに最も迅速に進むからです⁶⁸。

このプロジェクトは、必要とされる幅広いスキルセットと専門知識にアクセスするために、公的セクターと民間セクターの両方からの科学者を巻き込む必要があります。また、必要な規模を達成するために、公的セクターと民間セクターの両方からの資金調達も伴います(図5)。公的および民間セクターの主要な資金提供者は、財務、科学、管理を含むすべてのプロジェクト活動を監督する統治委員会を形成します。統治委員会は、プロジェクトで開発されたデータとアルゴリズムに関連する潜在的なセキュリティリスクを含む、リスク管理も監督します。統治委員会は、民間セクターの資金提供者のニーズと公的セクターおよびその資金提供機関のニーズとのバランスをとり、また、プロジェクトまたはコミュニティの貢献者が選択された科学的課題を追求するための公正で期限付きのメカニズムを提供することが義務付けられます。現在SGCで用いられているガバナンス構造は、この複雑さと規模のミッション志向の官民パートナーシップを成功裏に統治するために使用されてきたため、適切です⁶⁹。

図5:プロジェクトのガバナンス このプロジェクトは官民パートナーシップとして設計されています。ガバナンス構造は、効率的な運営、戦略的整合性、研究の卓越性を確保するために設計されています。専門委員会で構成される多層的な管理システムを指揮するために、公的および民間セクターの資金提供者からの入力を統合します。


 

多様な成果

 

このプロジェクトの長期的な目的は、最初は数千のタンパク質、最終的にはすべての関連するヒトタンパク質に対して、自由に利用可能な低分子結合物質を生成するために使用できる、効率的な計算的ヒット化合物探索アルゴリズムを開発することです。しかし、プロジェクトの過程で、かなりの価値を持つ中間的な成果が生み出され、これらの成果はプロジェクトを追跡・管理するための指標として使用されるべきです。主要な指標のいくつかが表4にリストされています。

表4 指標 | 領域 | 指標 | | :— | :— | | データ生成 | スクリーニングされたタンパク質の数。生成されたデータのサイズと多様性。AIRCHECKでのデータダウンロード数。 | | ヒット発見 | 発見され、検証されたヒット化合物の数。リガンド結合性のあるタンパク質の数。 | | 計算的進歩 | 開発され、ベンチマークされたML/AIモデルの数。予測の成功率。オープンソースコードのダウンロード数。 | | コミュニティへの影響 | 論文発表数。ヒット化合物から開発されたケミカルプローブの数。 | | 人材育成 | プロジェクトを通じて育成された研修生の数。 |

 

すべての参加者への多様な利益

 

オープンアクセスの官民パートナーシップは、広範な学術・産業界の科学者に分散したスキルを必要とし、公的・私的利益の境界をまたぐ問題に取り組み、そうでなければ知的財産交渉によって機能不全に陥る可能性のあるプロジェクトを実行するための構造です。しかし、潜在的な知的財産権を公共の利益のために譲渡する見返りとして、資金提供者と参加者は、直接的または間接的に、失うものよりも得るものが多いと感じなければなりません。表5は、このプロジェクトが参加者にもたらす利益のいくつかをリストアップしています。

表5 参加者への利益 | 参加者 | 利益 | | :— | :— | | 学術界の研究者 | 最先端のスクリーニング技術へのアクセス。専門家との協力。自身の研究のためのヒット化合物。トレーニングの機会。 | | 産業界のパートナー | 競争前のデータへのアクセス。新しいML/AI手法の開発。人材の採用と育成。 | | 資金提供者 | 公共の利益と経済的利益の両方をもたらす可能性のある研究への影響。複数のパートナーにわたる投資のリスク分散。 | | 社会 | 新しい治療法につながる可能性のある、疾患の生物学へのより深い理解。科学の進歩。 |