本願は、2003年10月14日に出願された「METHOD AND DEVICE FOR PARTITIONING A MOLECULE」という名称の米国仮出願第60/511,189号からの優先権を主張し、その本出願である。その内容全体は、参照により本明細書に組み込まれる。
従来の創薬プロセスとその制限の説明は、本発明を理解するのに有用である。
何らかの生物学的状態を治療する、または治癒させるための新薬を発見することは、非常に長い、コストのかかるプロセスであり、典型的には、平均して1薬剤当たり12年と8億ドルかかり、場合によっては、完成するために最大で15年以上と10億ドルかかる可能性がある。そのプロセスは、それ自体薬剤として、または最終的な薬剤分子の前駆体として働く潜在的な化学化合物を同定し、評価し、最適化するために、ウェット・ラボ試験/実験、様々な生化学的アッセイや細胞ベースのアッセイ、動物モデル、また、コンピュータ・ツールの形態のコンピュータ・モデリングを含む可能性がある。
創薬プロセスの目標は、潜在的な分子の相互作用(molecular interaction)または組合せを介して、有機体内の1つまたは複数の他の生体分子(すなわち、薬剤「標的」)、通常はバイオポリマーの機能に影響を及ぼす化学化合物またはリガンド、すなわち、バインダー(binder)、生体分子を同定し、特徴付けることである。本明細書では、バイオポリマーという用語は、タンパク質、核酸(DNAまたはRNA)、ペプチド、またはヌクレオチド配列、あるいはそれらの任意の一部分または断片のうち1つまたは複数を含む高分子(macromolecule)を指す。本明細書では、生体分子という用語は、バイオポリマー、炭水化物、ホルモン、あるいは、それだけには限らないが、合成化合物、医薬化合物(medicinal compound)、薬剤様の化合物、もしくは天然の化合物、またはそれらの任意の一部分もしくは断片を含めて、無機または有機の他の分子または化学化合物の1つまたは複数を含む化学エンティティを指す。標的分子は、典型的には、患者の疾病または他の障害の治療において助けとなるように、機能、構造、および/または化学的活性の変化に影響を及ぼすことが望ましい疾病関連の標的タンパク質または核酸である。他の場合には、標的は、薬剤によって影響を受けたとき感染性有機体の生存または活性に影響を及ぼす、ウイルス、細菌、または寄生虫など疾病を引き起こす有機体内で見出される生体分子である。さらに他の場合には、標的は、癌細胞など、欠陥細胞または有害細胞の生体分子である。さらに他の場合には、標的は、抗原、あるいは、アレルギー反応または他の望ましくない免疫応答もしくは生体応答を誘発する可能性がある他の環境化学物質(environmental chemical agent)である。
標的分子は、典型的には、患者の疾病または他の障害の治療において助けとなるように、機能、構造、および/または化学的活性の変化に影響を及ぼすことが望ましい疾病関連の標的タンパク質または核酸である。他の場合には、標的は、薬剤によって影響を受けたとき感染性有機体の生存または活性に影響を及ぼす、ウイルス、細菌、または寄生虫など疾病を引き起こす有機体内で見出される生体分子である。さらに他の場合には、標的は、癌細胞など、欠陥細胞または有害細胞の生体分子である。さらに他の場合には、標的は、抗原、あるいは、アレルギー反応または他の望ましくない免疫応答もしくは生体応答を誘発する可能性がある他の環境化学物質(environmental chemical agent)である。
リガンドは、典型的には、小分子薬として知られるもの、または、効力、低毒性、膜透過性、溶解度、化学的/代謝安定性などの点で、望ましい、薬剤様の特性を有する化学化合物である。他の場合には、リガンドは、注入されたタンパク質ベースの、またはペプチド・ベースの薬剤、さらには別の本格的な(full−fledged)タンパク質など、生物学的なものとすることができる。さらに他の場合には、リガンドは、標的酵素の化学基質とすることができる。リガンドは、標的に共有結合することさえでき、あるいは、実際、タンパク質の一部分、たとえば、タンパク質2次構造構成要素、活性部位を含む、またはその近くのタンパク質ドメイン、適切なタンパク質4次構造のタンパク質サブユニットなどとすることができる。
背景考察の残りの部分全体を通して、別段特に区別がない限り、(潜在的な)分子の組合せは、1つのリガンドと1つの標的とを特色とすることになり、リガンドと標的は、別個の化学エンティティであり、リガンドは化学化合物であると仮定されることになる一方、標的は、典型的には、生体タンパク質(変異株または野生型)となる。標的としての核酸(DNA/RNA双方)の頻度は、遺伝子療法および病原微生物学(pathogenic microbiology)における進歩として、来るべき数年のうちに増大する可能性が高いことに留意されたい。また、「分子複合体」という用語は、好適な(しばしば水性)環境の中で互いに相互作用するとき、標的とリガンドの間の結合状態を指すことになる。「潜在的な」分子複合体は、確率は低いが発生する可能性があり、したがって正常な条件下で実際に形成することもしないこともある結合状態を指す。
創薬プロセス自体は、典型的には、4つの異なるサブプロセス、すなわち(1)標的の妥当性試験、(2)リードの生成/最適化、(3)前臨床試験、(4)臨床試験および承認を含む。
標的の妥当性試験は、疾病関連性を有する1つまたは複数の標的の決定を含み、通常、完了するのに2年半かかる。標的の妥当性試験フェーズの結果は、ある有機体内での標的分子の存在または作用が、何らかの効果、すなわち治癒または治療が求められる疾病を開始させる、悪化させる、またはその一因となる何らかの効果を引き起こす、またはそれに影響を及ぼすことを決定することを含む可能性がある。場合によっては、標的のための天然バインダーまたは基質をも、実験的方法を介して決定することができる。
リードの生成は、典型的には、標的分子に結合することができ、それによって、標的の機能の活性化、不活化、触媒作用、または阻害を介して標的の効果を変えるリード化合物の同定を必要とし、その場合には、リードは、薬剤適用プロセスで使用される好適な候補のリガンドとして見られることになる。リードの最適化は、所望の標的に対する結合親和力を改善する、選択性を高める、また、毒性、溶解度、代謝という基本問題に対処するために、リード候補を薬剤前駆体の形に化学的かつ構造的に洗練することを必要とする。リードの生成とリードの最適化は、一緒にして、典型的には完了するのに約3年かかり、さらに考察するために、化学的に異なるリードが1つまたは複数となる可能性がある。
前臨床試験では、生化学的アッセイや動物モデルを使用して、薬剤の吸収、分布、代謝、排泄、副作用、および必要とされる投与量に関係する様々な薬物動態学的要因について、選択されたリードを試験する。この前臨床試験は、約1年かかる。前臨床試験期間の後で、臨床試験および承認に、さらに6〜8年以上かかり、その間に、薬剤候補は、安全および効能について被験者で試験される。
合理的な薬剤設計は、一般に、効果的なリード候補の生成および最適化の設計のための基礎として、(構造ベースの)薬剤標的および/または(リガンド・ベースの)それらの天然リガンドについての構造情報を使用する。構造ベースの合理的な薬剤設計は、一般に、標的についての構造の3次元モデルを使用する。標的タンパク質または核酸については、そのような構造は、X線結晶構造解析/NMRまたは他の測定手順の結果とすることができ、あるいは、相同性モデリング、タンパク質モチーフおよび保存されたドメインの分析、ならびに/または、タンパク質の折り畳みもしくは核酸等価物のコンピュータ・モデリングから生じる可能性がある。多数の膜関連標的タンパク質、たとえばGPCRおよびイオン・チャネルについて考察するとき、モデルによって構築された構造がしばしば使用可能なすべてとなる。リガンドの構造は、同様の形で生成することもでき、その代わりに、リガンドがバイオポリマーでない限り、初めから、基本的な物理的原理や化学的原理を使用して、既知の2D化学表現から構築することもできる。
合理的な薬剤設計は、リードの最適化に対する標的リガンド分子相互作用および組合せのコンピュータ・モデリングから、所望の薬剤様の生体特性(biological properties)のコンピュータ予測に及ぶ、いくつかのコンピュータ構成要素のいずれかの使用を組み込むことができる。合理的な薬剤設計の状況におけるコンピュータ・モデリングの使用は、主に、生物学的な「ウェット」ラボ試験などにおける、しばしば時間のかかる、またコストのかかる努力を回避することにより、必要とされる時間を削減すること、また薬剤研究開発の焦点および効率を改善することが望まれていることによって動機付けられている。
リードの生成の状況における標的とリガンドとの分子の組合せのコンピュータ・モデリングは、ライブラリーが1つまたは複数の化合物構造データベースとして仮想的に生成および記憶されようと、コンビナトリアル・ケミストリー(combinatorial chemistry)および有機合成を介して構築されようと、化合物ライブラリーの大規模なコンピュータ内(in−silico)スクリーニング(すなわち、ライブラリー・スクリーニング)を必要とする可能性があり、所期の標的分子に関して、生物活性のコンピュータ予測(または等価な尺度)に基づいて、リガンドの選択されたサブセットをランク付けするためにコンピュータ方法を使用する。
本文全体にわたって、「結合モード(binding mode)」という用語は、最小の結合エネルギー(すなわち最大の結合親和力)で、またはその近くで結合状態にある潜在的な分子複合体の3D分子構造を指し、この場合、(「結合自由エネルギー」と、またはその概念上正反対の同等物である「結合親和力」と交換されることがある)「結合エネルギー」という用語は、潜在的な分子複合体が形成されたときの分子系の自由エネルギーにおける変化、すなわちリガンドおよび標的について、非結合状態から(潜在的な)結合状態への遷移を指す。
結合親和力は、創薬と合理的な薬剤設計に直接利害のあるものである。というのは、生体過程または経路の一部であるタンパク質と、その生体過程または経路の修正を目標とするために求められる薬剤候補など、2つの分子の相互作用は、しばしば、その薬剤候補がその目的をどれだけ良好に果たすことになるか示す助けとなるからである。さらに、結合モードが決定可能である場合、標的に対する薬剤の活動をよりよく理解することができる。そのような理解は、たとえば、リガンドの1つまたは複数の特性を、(標的に関して)その効力、(他の標的バイオポリマーに関して)結合特異性、または他の化学的特性および代謝特性を改善するように、さらに修正することが望ましいとき有用となる可能性がある。
標的分子とリガンドの間の親和力を測定または推定するために、いくつかの実験室的手法がある。標的は、しばしば最初に単離され、次いで試験管内で(in vitro)リガンドと混合され、高スループット・スクリーニングに関連付けられた無数の生化学的/機能的アッセイにおいてなど、実験的に分子相互作用が評価される可能性がある。しかし、そのような方法は、標的が簡単に単離され、リガンドが簡単に製造され、分子相互作用が容易に測定される場合に最も有用であるが、標的を容易に単離することができない、単離が生体過程または疾病経路と干渉する、リガンドを十分な量で合成することが困難であるとき、あるいは特定の標的またはリガンドが前もって十分に特徴付けられない場合、より問題となる。後者の場合には、その標的とリガンドの可能な組合せすべてについて、数千または数百万の実験が必要となり、実験室的手法の使用を非実現可能なものにする可能性がある。
最初に、標的(さらにタンパク質ファミリーのメンバーなど関連標的)の様々な化学的特性および生体特性、ならびに/あるいは1つまたは複数の既知の天然バインダーまたはその標的に対する代用の専門知識を使用し、実験室処理に必要とされる組合せの数を削減することによってこのボトルネックを解決しようと、いくつかの試みがなされているが、大抵の場合において、これは依然として非実際的であり、非常にコストがかかる。実験室設定で実際に分子を組み立て、実験的な結果を測定する代わりに、別の手法は、コンピュータを使用し、2つ以上の分子間の分子相互作用をシミュレーションし特徴付けることである(すなわち、コンピュータ内でモデル化された分子の組合せ)。分子の組合せや相互作用を評価するためにコンピュータ方法を使用することは、通常、構造ベースであろうと、リガンド・ベースであろうと、両方であろうと、合理的な薬剤設計の1つまたは複数のステージに関連する。
所与の標的−リガンド対について潜在的な分子の組合せの性質および/または尤度をコンピュータによりモデル化するとき、結合モードおよび親和力の実際のコンピュータ予測は、通例、2部で、すなわち(a)コンピュータ・システムが、リガンドおよび標的について最適な結合モードを予測しようと試みる「ドッキング」と、(b)コンピュータ・システムが、計算された結合モードに関連する結合親和力を推定しようと試みる「スコアリング」で行われる。ライブラリー・スクリーニング中には、やはりスコアリングを使用し、標的分子に関して、あるリガンド対別のリガンドについて相対結合親和力を予測し、それによってリガンドをランク優先順位付けする、または結合についての確率を割り当てることができる。
ドッキングは、好ましい親和力を有する1つまたは複数の系ポーズを見つけることを意図して、事実上決定論的であろうと確率論的であろうと、探索または機能最適化アルゴリズムを必要とする可能性がある。スコアリングは、親和力機能のより洗練された推定を必要とする可能性があり、この場合、親和力は、1つまたは複数の実験による、または分子力学ベースの、または量子力学ベースの、または知識ベースの式の組合せ、すなわちスコアリング関数を用いて表される。個々のスコアリング関数は、様々な定式化(formulation)を使用して、よりロバストなコンセンサススコアリング・スキームを形成するためにそれ自体組み合わせることができる。実際には、今日のコンピュータ薬剤設計の状況において使用される多数の異なるドッキング戦略およびスコアリング・スキームがある。
どのコンピュータ方法を選択しようと、基礎となる分子モデルと固有の数値アルゴリズム双方のコンピュータ上の複雑さと、各分子の組合せを処理するために割り振らなければならないコンピューティング資源の量(時間、CPUの数、シミュレーションの数)との間で固有の兼ね合いがある。たとえば、明示的な水分子によって囲まれた、また無数の時間ステップにわたって進化した2つの分子の、高度に洗練された分子動力学シミュレーション(MD)は、潜在的な分子の組合せをモデル化する際に精度をより高める可能性があるが、結果として生じるコンピュータ・コスト(すなわち、時間およびコンピューティング・パワー)は膨大であり、その結果、そのようなシミュレーションは、分子の組合せがわずか2、3個を超えると使用するのに扱いにくいものである。一方、複数の、しばしば誤りを起こしやすいモデリング・ショートカットおよび近似と共に、分子相互作用を表すためにより未発達のモデルを使用すると、コンピュータ・コストはより許容されるものになる可能性があるが、モデリング精度と予測力の点から常に著しい性能劣化を引き起こすことになる。現在、薬剤候補のライブラリーを標的タンパク質に対してチェックするプロセスですら、現行のコンピュータ・システムを使用して必要とされる精度を求めるためには非常に長くかかる。
精度とスピードの間の兼ね合いはまた、合理的な薬剤設計における他のコンピュータ・ステップについても存在する。たとえば、大規模な仮想ライブラリーは、高速な仮想スクリーニングのために、正確かつ迅速に同様の分子からなるグループの形に集めることを必要とする。他の例では、リード洗練は、リードの生成ステージで十分にドッキングされていると判定されたものと類似の分子について、分子ライブラリーを正確かつ迅速に探索することを必要とする。ライブラリー・スクリーニングおよび探索のための現行の技法は、非常に不正確かつ非効率であり、その結果、合理的な創薬解決策の一部として実行可能なものではない。
本発明は、概して、様々なシナリオにおいて効率的な分子処理を可能にするような形で分子表現を生成するための方法を提供することに関する。合理的な薬剤設計および創薬に必要とされるほとんどすべてのコンピュータ・プロセス−ライブラリー構築、分子マッチング、ライブラリー探索、ドッキング、スコアリング−は、分子表現を効率的に処理するための方法から利益を受けることができる。ここで分子表現を処理することは、結合を回転させること、結合を延ばす、または収縮させること、原子のグループを回転させること、などにより、分子の構造または分子の一部を変換することを意味する可能性がある。また、分子または分子の一部間での親和力機能を計算することを必要とする可能性がある。広範な潜在的な入力−サイズおよび構造の異なる数千万の分子−と、多数の異なるタイプの分子処理のため、コンピュータ・システムの資源に対する需要は、幅広く変わる可能性がある。たとえば、典型的には、同じ標的に対して、より小さな分子についての結合親和力を計算するためのコンピュータ資源は、より大きな分子の場合ほどかからない。他の例では、概して、小さな分子について空間変換を計算する方が、大きな分子よりコンピュータ上安価である。
当業者には、汎用マイクロプロセッサ上で実行するソフトウェアにおいてであろうと特別に設計されたハードウェアにおいてであろうと、概して、コンピュータ・コストが可変のタスクは非効率になる傾向があると理解されている。ソフトウェアとして実装されたとき、あるタスクに対するコンピュータ・コストが予測不能であると、コード局所性が不十分に、またデータ局所性が不十分になる可能性があり、(たとえば、ページ障害が発生したとき)メモリ・アクセスが予測不能になる可能性があり、そのソフトウェアをどれだけ最適化することができるかを制限し、これによりそのソフトウェアの適用が厳しく制約される可能性がある。コンピュータ・コストが可変のタスクは、特別に設計されたハードウェア内で実装されたとき、ハードウェア設計の複雑さを非常に増大し、設計プロセスがより長い、よりコストのかかるものとなり、最終設計は、定コスト・タスクの場合よりはるかに効率が低くなる傾向がある。したがって、コストが可変のタスクは、1つまたは複数の定コスト・タスクの集まりとして実装することが有利である。
図1は、一連の処理エンジン101、102、103、104からなり、その結果、各処理エンジンの出力が以下の処理エンジンの入力である一般的な処理システム100の例を示す。第1のエンジン101のための入力110は、一実施形態においてデータベース・サーバ、他の実施形態においてファイル・サーバ、さらに他の実施形態においてシステム・ボード上のストレージとすることができる入力ブロックからのものである。最終エンジン104からの出力は、一実施形態においてデータベース・サーバ、他の実施形態においてそのプロセッサ上のストレージ、他の実施形態においてシステム・ボード上のストレージとすることができる出力ブロック120に進む。そのような一連のエンジン100はまた、パイプラインとして知られる。
その入力からの出力を生成するためにパイプライン・ステージによってかかる時間量は、パイプライン・ステージ間隔(またはステージ間隔)として定義される。パイプライン・ステージへの入力は、ステージ間隔の最初に読み出される。すなわち、入力データは、ステージ間隔の前ではなく、開始した後で読み出すために使用可能であることが保証される。パイプライン・ステージからの出力は、ステージ間隔の終了の前ではなく、その後でだけ使用可能であることが保証される。
処理エンジン101、102、103、104は、各処理エンジンについてのステージ間隔が正確に同じ持続時間のものである場合、すなわち、各ステージが、定コスト・タスクを実行しつつある場合、決してアイドルでないことは自明であるはずである。次の入力は、特定の処理エンジンが入力から出力を生成すると直ちに、処理するために使用可能である。すなわち、時間は、エンジンが次の入力を待つことによってアイドルで費やされない。1つまたは複数のエンジンが、出力を生成するために、パイプライン内の他のエンジンより長くかけている場合、いくつかのエンジンは、しばらくアイドルのまま費やし、したがって、アイドルの処理エンジンの利用率100%未満に向かう。処理エンジン利用率は、より速いエンジンがかける時間と整合するためにより遅いエンジンがかける時間を削減することによって改善することができる。一例では、各エンジン101、103、104についてのステージ間隔は10サイクルであり、102についてのステージ間隔は20サイクルである。ここで、サイクルは、概してシステム・クロック速度によって決定される、コンピュータによって認識される基本時間を意味する。現在の例では、エンジン101、103、104は、20サイクルのうち10サイクルの間アイドルとなり、パイプライン内の4つのエンジンのうち3つの利用率が50%にすぎないことになる。一例では、102についてのステージ間隔を15サイクルに削減すると、101、103、104の利用率が66.7%に改善される。他の例では、102についてのステージ間隔を10サイクルに削減すると、101、103、104の利用率が100%に改善される。102についてのステージ間隔を5サイクルにさらに削減すると、101、103、104の利用率が100%に改善されるが、102の利用率が50%に減少する。したがって、パイプライン内のエンジンの利用率は、可能な限り各ステージ間隔が同じ持続時間のものとなるように、エンジンとそれらの入力データを設計することによって改善することができる。最大のエンジン利用率は、エンジンすべてについてのステージ間隔が同じ持続時間のものであるとき達成される。
一実施形態では、入力データをより小さなセットの形に区分することにより、パイプライン内のエンジンについてのステージ間隔を削減することができる。また、エンジンが各区画についてほぼ同じ時間をかけるように入力を区分することによって、より大きな効率を得ることができる。パイプラインのある実施形態では、エンジンに、各区画について、ほぼではなく正確に同じ時間量をかけさせることにより、パイプラインを最大限に効率的にすることが望ましい可能性がある。ステージ間隔の持続時間を削減する他の方法は、同じ量のコンピュータ作業を行うために、より多くの計算単位をパイプライン・ステージに充当することである。
また、パイプラインは、そのパイプライン内の他のステージより速いステージについてのステージ間隔の持続時間を増大することによって、より効率的にすることができる。ステージ間隔持続時間を増大する方法は、同じ量のコンピュータ作業を行うために、ステージに充当する計算単位をより少なくすることである。ステージ間隔の持続時間を増大する別の方法は、エンジンをしばらくの間アイドルにすることである。
広範な潜在的な入力−たとえば、サイズおよび構造の異なる数千万の分子−は、コンピュータ・システムに対する需要を幅広く変える可能性があることを想起されたい。システムに対する需要は、幅広く変わるストレージの量、および入力データ用の伝送帯域幅を含む可能性がある。たとえば、システムが分子を全体で処理する場合には、より大きな分子は、より小さな分子よりプロセッサ上のより多くのストレージを必要とすることになる。したがって、最も広範な分子を処理することができるようにするために、プロセッサは、多数の入力分子が最大の分子よりはるかに小さい可能性がある場合ですら、最大の分子に関連するデータを記憶することができなければならない。明らかに、最大の分子を保持するようにストレージを設計することは、非効率であり無駄の多いものである。
ストレージと伝送帯域幅の要件は、入力分子データを、より小さな一部の形に区分し、それにより各部をパイプライン化して処理することができるようにすることによって削減することができる。そのような場合には、任意の所与の時間で、パイプラインによって処理されつつある分子データの一部だけ伝送および記憶し、したがって分子全体を伝送および記憶する必要をなくすることを必要とする。さらに、エンジンが処理することができる分子のサイズは、もはやプロセッサまたはシステム・ボード上のストレージのサイズによって決定されない。処理エンジンは、分子がより小さな一部の形に区分される限り、任意のサイズ−小さな、または大きな−分子を処理することが可能である。
本発明者らは、入力データをより小さな一部の形に区分することによって、パイプライン化された処理をどのように可能にすることができるかについて論じた。パイプライン実装それ自体は、区画のサイズに対して制限を課す。区画サイズが非常に小さい場合には、所望の計算を実行するために、より多くのパイプライン・ステージが必要とされることを、当業者なら理解するであろう。各パイプライン・ステージについてのステージ間隔は、各ステージが非常に少量のデータを処理することを必要とするため、非常に短いものとなる。しかし、パイプライン・ステージの数を増大することは、パイプラインの設計がより複雑になることを意味する。パイプラインの複雑さの増大は、たとえば、パイプライン・ステージ間のルーチン量の増大、パイプライン・ステージ間のステージ量の可能な増大など、様々な理由に帰すことができる。複雑さが増大すると、一般に、設計サイクルがコストのかかる、より長いものとなり、最終的に製品がより高価になる。
この特許に述べられている本発明は、入力、すなわち分子の表現を区分するための方法を提供し、その結果、各区画がシステムに対するほぼ同じコンピュータ需要を作り出すことによって分子処理のコンピュータ効率を高めようと試みる。一例では、コンピュータ需要は、プロセッサ上またはプロセッサ外のストレージ量によって測定することができる。他の例では、コンピュータ需要は、データを1つまたは複数のプロセッサとの間で転送するために必要とされる帯域幅の量によって測定することができる。さらに他の例では、コンピュータ需要は、計算単位の数によって測定することができ、計算単位の数は、ゲートの数、経路指定要件、プロセッサ上の計算ブロックのサイズなどによって測定される。
リガンド−標的ドッキングのための現行のコンピュータ方法は、それらの特定のドッキング方法用に設計されている分子のデジタル表現を使用する。たとえば、FlexXは、分子の断片を増加的にドッキングすることによって、潜在的な薬剤分子の結合モードを計算する。FlexXは、柔軟性であると考えられる分子の結合すべてを破断することによってその断片を構築し、したがってそれ自体剛直性である断片を構築する。分子断片を使用する、FlexXに似た他のコンピュータ・ドッキング方法は、プレース・アンド・ジョイン(place−and−join)法である(非特許文献1)。プレース・アンド・ジョイン法で使用される分子断片は、2つの隣接する柔軟性結合を有する原子部で分子を破断することによって構築される。次いで、その断片は、増加的に「配置」され、分子の結合モードを再構築しようと試みて破断点で「接合」される。増分ドッキング方法は、コンピュータ資源に対するほぼ同じ需要を作り出すことを保証しない断片を生み出し、したがって、それらは、パイプライン化された実装に依拠するドッキング実装に好適でない。
また、ある種の計算を速める必要ではなく分子の物理的または化学的特性に触発された、いくつかの分子表現スキームも存在する。RECAPは、1組の化学的規則に基づいて分子を区分する(非特許文献2)。RECAP規則は、化学的に合成することができる断片を生み出すことが意図されている。その規則は、得られる断片の剛直性または柔軟性に基づくものではない。RECAP規則はまた、より効率的な分子処理計算を容易にすることを意図したものではなく、コンビナトリアル薬剤設計および合成について案内するためのものである。
本発明は、分子全体より高い効率で、特別に設計されたハードウェアにおいて諸部を記憶、伝送する、また他の方法で処理することができるように、より小さな一部の形に分子の区分を可能にする。区分された表現は、分子の構造、分子に対して実行される処理、およびパイプラインの設計を考慮することによって構築される。好ましい実施形態では、最初に分子のグラフ表現が構築される。そのグラフ表現は、最初に、不変連結部除去演算子(invariant link removal operator)を使用して区分され、その結果、ある区分基準を満たすサブグラフが生成される。1つまたは複数のサブグラフがさらなる処理を必要とする場合、ノード開裂演算子(node−cleaving operator)が適用され、その結果、やはり1組の区分基準を満たす、さらなるサブグラフが生成される。最後に、任意のサブグラフが依然としてさらなる区分を必要とする場合、不変連結部だけでなく、あらゆるタイプの連結部を除去することができ、得られるサブグラフが最終的な1組の基準を満たすまでノードを開裂することができる。グラフ区分により、分子全体よりはるかに効率的に記憶、伝送、処理される、より小さな区画が得られる。効率の増大により、合理的な創薬、仮想ライブラリー設計など、複雑な分子処理を必要とするアプリケーションを設計し動作させることが可能になる。
本発明の分野における従来技術は、大量に文書化されている。
ドルーズ(非特許文献3)は、創薬の現況の優れた全体像を提供する。(非特許文献4)では、アバジャンとトトロフは、高スループット・ドッキングおよびスコアリングとそのアプリケーションの状態を示す。ラムら(非特許文献5)は、さらにタンパク質の族に対する複数のコンビナトリアル・ライブラリーの設計、ドッキング、仮想スクリーニングに対して一般的な手法を教示し、最後に、ワスコウィクスら(非特許文献6)は、複数のコンピュータを使用し、リガンドのグループを特定のコンピュータに割り当てることによって、特定の標的に対する大規模なリガンド・ライブラリーの仮想スクリーニングを加速することについて述べている。
現在、ドッキング・シミュレーションを実行するために使用されるソフトウェア・ツールのいくつかの例がある。これらの方法は、a)表面相関、幾何学的ハッシングの使用、ポーズ・クラスタリング、またはグラフ・パターンマッチングに基づく、剛体パターンマッチング・アルゴリズム、b)増分構築(incremental construction)または「プレース・アンド・ジョイン」演算子を含む、断片ベースの方法、c)モンテ・カルロ、シミュレーテッド・アニーリング(simulated annealing)、または遺伝子(またはミーム(memetic))アルゴリズムの使用を含む確率的最適化法、d)分子動力学シミュレーション、またはe)それらから導出された混成戦略の使用を含めて、広範なコンピュータ技法を含む。
最も初期のドッキング・ソフトウェア・ツールは、1982年(v1.0)に遡ってUCSFで開発され、現在(増分構築を含むための拡張と共に)v5.0まで開発されている、DOCK(非特許文献7、8、9)と呼ばれるグラフ・ベースの剛体パターンマッチング・アルゴリズムであった。グラフ・ベースのパターンマッチング・アルゴリズムの他の例には、CLIX(非特許文献10)(これはGRID(非特許文献11)を使用する)、FLOG(非特許文献12)、LIGIN(非特許文献13)が含まれる。
他の剛体パターンマッチング・ドッキング・ソフトウェア・ツールには、FTDOCK(非特許文献14)およびHEX(非特許文献15)の形状ベースの相関法、フィッシャーらの幾何学的ハッシング(非特許文献16)、またはラレイらのポーズ・クラスタリング(非特許文献17)が含まれる。
一般に、剛体パターンマッチング・アルゴリズムは、標的とリガンドが共に剛体である(すなわち、柔軟性でない)と仮定し、したがって、小さな剛直性分子(または分子断片)を、明確な、ほぼ剛直性の活性部位を用いて簡単なタンパク質にドッキングするのに適している可能性がある。したがって、このクラスのドッキング・ツールは、リガンド当たり複数のコンフォーマを含む分子ライブラリーの新たなリガンド設計、コンビナトリアル・ライブラリー設計、または複雑でない剛体スクリーニングに適している可能性がある。
増分構築ベースのドッキング・ソフトウェア・ツールには、(EMBLからライセンスされた)TriposからのFlexX(非特許文献18、19)、Hammerhead(非特許文献20)、(任意選択として)DOCK v4.0(非特許文献9)、およびリーチらのノングリーディのバックトラッキング・アルゴリズム(非特許文献21)が含まれる。新たなリガンド設計の状況において増分構築を使用するプログラムには、(Accelrysからの)LUDI(非特許文献22)およびGrowMol(非特許文献23)が含まれる。「プレース・アンド・ジョイン」戦略に基づくドッキング・ソフトウェア・ツールには、デジャレらが含まれる(非特許文献1)。
増分構築アルゴリズムを使用し、十分に特徴付けられた活性部位を用いた、剛直性標的分子に対する柔軟性リガンドのドッキングをモデル化することができる。増分構築アルゴリズムは、1つまたは複数の標的に対して柔軟性リガンドのライブラリーをスクリーニングするとき使用することができる。増分構築アルゴリズムは、多数のそれらの確率的最適化ベースの競合相手より、比較的計算量がかからないが、したがってそれらより正確でない。しかし、FlexXですら、1つの標的−リガンド組合せを処理するために1〜2分未満程度かかる可能性があり、したがって、ライブラリーのサイズ(数千万以上の化合物)に応じて、依然としてコンピュータにとって重荷になる可能性がある。増分構築アルゴリズムは、しばしば1つまたは複数のスコアリング関数を使用し、計算中に遭遇する異なる系ポーズを評価およびランク付けする。最近、FlexXはFlexE(非特許文献24)に拡張され、ある活性部位回転異性体のユーザ定義集団(ensemble)の使用を介して、標的分子の活性部位の部分的な柔軟性を反映しようと試みている。
確率的最適化に基づくコンピュータ・ドッキング・ソフトウェア・ツールには、すべて修正型モンテ・カルロ技法に基づく(MolSoftからの)ICM(非特許文献25)、(Schrodingerからの)GLIDE(非特許文献26)、(Accelrysからの)LigandFit(非特許文献27)、ならびにシミュレーテッド・アニーリングに基づく(Scripps Instituteからの)AutoDock v.2.5(非特許文献28)が含まれる。遺伝子アルゴリズムまたはミーム・アルゴリズムに基づく他のものには、GOLD(非特許文献29、30)、DARWIN(非特許文献31)、(やはりScrippsからの)AutoDock v.3.0(非特許文献32)が含まれる。
確率的最適化ベースの方法を使用し、標的分子に対する柔軟性リガンドのドッキングをモデル化することができる。確率的最適化ベースの方法は、一般に、親和力機能の分子力学ベースの定式化を使用し、また、様々な戦略を使用し1つまたは複数の好ましい系エネルギーの最小量を求めて探索する。確率的最適化ベースの方法は、しばしば、それらの増分構築の競合相手より計算量がかかるが、よりロバストでもある。確率的最適化ベースの方法は、事実上確率的なものであるため、ランまたはシミュレーションが異なると、しばしば予測が異なる可能性がある。従来、確率的最適化を使用する大抵のドッキング・ソフトウェア・ツールは、標的がほぼ剛直性であると仮定する(すなわち、活性部位内の水素結合ドナー基およびアクセプタ基が回転することができる)。というのは、そうでない場合には、組合せの(combinatorial)複雑さが増大し、問題を合理的な時間内でロバストに解決するのが直ちに困難になるからである。
分子動力学シミュレーションもまた、標的−リガンド組合せのコンピュータ・モデリングの状況において使用されている。これには、ディ・ノラら(非特許文献33)および(モンテ・カルロと共に)ルティら(非特許文献18)に提示された実装が含まれる。原理上は、分子動力学シミュレーションは、タンパク質柔軟性を任意の程度でモデル化することが可能である。一方、分子動力学シミュレーションはまた、多数のきめ細かい時間ステップの評価を必要とする可能性があり、したがって、しばしば非常に時間がかかる(標的−リガンド組合せ当たり数時間さらには数日程度)。また、分子動力学シミュレーションは、しばしば、有効な軌道を選択するためにユーザ対話を必要とする。したがって、リード発見における分子動力学シミュレーションの使用は、少数の有望なリード候補を特色として、予測される複雑さを局所的に最小限に抑えることに、より適している。
混成方法は、選択された低エネルギー・リガンド・コンフォメーションを高速スクリーニングするために剛体パターン・マッチングを使用することを必要とし、その後に、生き残るポーズのモンテ・カルロねじれ最適化(torsional optimization)、さらに最後に、(潜在的に)柔軟性のタンパク質活性部位と組み合わせて少数の選択(choice)リガンド構造の分子動力学的洗練が続く可能性がある。このタイプのドッキング・ソフトウェア戦略の例は、ワンら(非特許文献34)である。
ソフトウェア内で実装され、標的−リガンド親和力を推定する、または異なるリガンドをライブラリー・スクリーンに従ってランク優先順位付けする、または中間ドッキング・ポーズをランク付けし結合モードを予測するために使用されるスコアリング関数のいくつかの例がある。スコアリング関数は、従来、3つの異なるカテゴリ、すなわちa)実験によるスコアリング関数、b)分子力学ベースの式、またはc)知識ベースのスコアリング関数またはそれらから導出された混成スキームに入る。
(標的−リガンド組合せに適用されるように)実験により導出されたスコアリング関数は、最初に、しばしばQSAR調査で使用される線形自由エネルギー関係によって触発された。初期の例は、(LUDIで使用される)ボームらのものである(非特許文献18、35)。他の実験によるスコアリング関数には、(FlexXで使用される)SCORE(非特許文献36)、ChemScore(非特許文献37)、PLP(非特許文献38)、Fresno(非特許文献39)、GlideScore v.2.0+(非特許文献40)(GLIDEによって使用される、ChemScoreの修正形態)が含まれる。
一般に、実験によるスコアリング関数は、特に大規模な化合物ライブラリー・スクリーニングの状況において、今日使用されているスコアリング関数の大部分を含む。基本的な前提は、それぞれが関連の数値重み(numerical weight)で乗算され、それぞれが(いわゆる)「マスター・スコアリング式」で表された1組の相互作用構成要素の1つを表す、実験によるエネルギー・モデルの線形組合せを較正することであり、マスター・スコアリング式は、分子の組合せの結合自由エネルギーを十分に近似しようと試みる。数値重み係数は、標的−リガンド複合体のトレーニング・セットについて構成された実験的結合自由エネルギー・データにフィッティングすることによって得ることができる。
分子力学ベースのスコアリング関数は、最初に、AMBER(非特許文献41、42)、OPLS(非特許文献43)、MMFF(非特許文献44)、CHARMM(非特許文献45)のような分子力学力場の状況において分子モデリングの際に使用するために開発された。分子力学ベースのスコアリング関数の諸例には、(AMBERに基づく)DOCK v.4.0の化学およびエネルギー・ベースのスコアリング関数(非特許文献9)、GOLDで使用される目的関数(非特許文献29、30)、(実験による重量を用いる)AutoDock v.3.0(非特許文献32)、およびFLOG(非特許文献12)が含まれる。
一般に、分子力学ベースのスコアリング関数は、多数の確率的最適化ベースのドッキング・プログラムによって使用される目的関数に酷似している可能性がある。そのような関数は、典型的には、1つまたは複数の分子力学力場(たとえば、AMBER、MMFF、OPLSなど)に基づいて、様々な属性(たとえば、電荷、質量、vdW半径、結合平衡定数(bond equilibrium constant)など)の原子(または化学基)レベルのパラメータ化を必要とする。場合によっては、リガンドについての関係あるパラメータ、たとえば、MOPAC(非特許文献46)、AMPAC(非特許文献47)、またはAMSOL(非特許文献48)の使用を介して割り当てられるリガンド部分電荷をも、他の分子モデリング・ソフトウェア・パッケージの使用に基づいて割り当てることができる。それらはまた、分子内相互作用(すなわち、分子の自己エネルギー)、ならびに静電気など遠距離相互作用を含むことができる。場合によっては、エネルギー項(energy term)の組合せは、この場合も、試験リガンド−標的複合体の再現のために最適化された数値重みを介して達成することができる。
知識ベースのスコアリング関数は、最初に、液体をモデル化するための平均力統計力学(mean force statistical mechanics)法の可能性によって触発された。諸例には、DrugScore(非特許文献49)、PMF(非特許文献50)、BLEEP(非特許文献51)が含まれる。
一般に、知識ベースのスコアリング関数は、親和力機能の区分を必要としない。しかし、知識ベースのスコアリング関数は、関係ある分子複合体の3D構造の大規模なデータベースの使用を必要とする。また、通常、既知の実験的結合親和力を用いて分子複合体のデータ・セットに対して後退する必要がない。これらの方法は、2つの原子間で、所与の距離で相互作用がより好ましいほど、バルクの無秩序な媒質内で、予想に対して、その発生がより頻繁になるという基礎の仮定に基づくものである。これらのスキームは、「逆ボルツマン(inverse Boltzmann)」スキームと呼ばれることがあるが、実際には、高分子およびタンパク質の折り畳み内に局所的な最適化された構造が存在することは、距離依存の1対ずつの選好分布(preference distribution)が厳密にボルツマンである必要がないことを意味する。また、他の分子記述子、たとえば、溶媒和効果の近似のための溶媒接触可能表面(solvent−accessible surface)領域に基づく一重項選好(singlet preference)の概念を導入することも可能である。
混成スコアリング関数は、異なるタイプの1つまたは複数のスコアリング関数の混合とすることができる。一例は、VALIDATE(非特許文献52)であり、これは、分子力学/実験による混成関数である。スコアリング関数の他の組合せは、複数の関数を各分子の組合せについて評価することができ、何らかの形態の「コンセンサス」判断が、1組の規則または統計的基準、たとえば、各スコアリング関数の上位10%ランク・リスト内で発生する(交差ベースの)状態、高平均ランクを有する(平均ベースの)状態などに基づいて行われるコンセンサス・スコアリングの概念を含むことができる。コンセンサス・スコアリングの有用な調査考察は、ビサンツら(非特許文献53)に見ることができる。
しかし、標的−リガンド分子の組合せのモデル化のために使用可能な現行のどのコンピュータ・ツールも、潜在的な薬剤候補の効率的な大規模スクリーニングを可能にするために今日の創薬で必要とされる必要精度とスピードを共に実現しない。
構造データベースに関連して、標的タンパク質と化合物双方についての構造および化学情報のデジタル表現のために、様々なファイル・フォーマットがある。諸例には、pdb、(Triposからの)mol2、SMILESフォーマットが含まれる。
化学的、構造的規則に基づいて分子を区分する分子表現スキームが存在する。
米国仮出願第60/511,189号
R.L.デジャレ、R.P.シェリダン、J.S.ディクソン、I.D.クンツ、R.ヴェンカタラーグヴァン、「Docking Flexible Ligands to Macromolecular Receptors by Molecular Shape」、J.Med.Chem.、Vol.29、2149−2153(1986)
シャオ・チャン・レウェル、ダンカン・B.ジャド、ステファン・P.ワトソン、マイケル・M.ハン「RECAP Retrosynthetic Combinatorial Analysis Procedure:a powerful new technique for identifying privileged molecular fragments with useful applications in combinatorial chemistry.」J.Chem.Inf.Comput.Sci.1998、38、511−522
J.ドルーズ、「Drug Discovery:A Historical perspective」、Science、287、1960−1964(2000)
ルーベン・アバジャン、マキシム・トトロフ、「High−throughput docking for lead generation」、Current Opinion in Chemical Biology、Vol.5、375−382(2001)
M.L.ラム、K.W.バーディック、S.トバ、M.M.ヤング、A.G.スキルマンら、「Design、docking、and evaluation of multiple libraries against multiple targets」、Proteins、Vol.42、296−318(2001)
B.ワスコウィクス、T.D.J.パーキンス、R.A.サイクス、J.リー、「Large−scale virtual screening for discovering leads in the post−genomic era」、IBM Systems Journal、Vol.40、No.2(2001)
B.K.ショイチェ、D.L.ボディアン、I.D.クンツ、「Molecular docking using shape descriptors」、J Comp Chem、Vol.13 No.3、380−397(1992)
E.C.メン、D.A.グシュヴェント、J.M.ブラニー、I.D.クンツ、「Orientational sampling and rigid−body minimization in molecular docking」、Proteins:Structure、Function、and Genetics、Vol.17、266−278(1993)
T.J.A.ユーウィング、I.D.クンツ、「Critical Evaluation of Search Algorithms for Automated Molecular Docking and Database Screening」、J.Computational Chemistry、Vol.18 No.9、1175−1189(1997)
M.C.ローレンス、P.C.デーヴィス、「CLIX:A Search Algorithm for Finding Novel Ligands Capable of Binding Proteins of Known Three−Dimensional Structure」、Proteins、Vol.12、31−41(1992)
M.A.カステンホルツ、M.パスター、G.クルシアーニ、E.E.J.ハークスマ、T.フォックス、「GRID/CPCA:A new computational tool to design selective ligands」、J.Medicinal Chemistry、Vol.43、3033−3044(2000)
M.D.ミラー、S.K.カースレイ、D.J.アンダーウッド、R.P.シェリダン、「FLOG:a system to select‘quasi−flexible’ligands complementary to a receptor of known three−dimensional structure」、J.Computer−Aided Molecular Design、Vol.8 No.2、153−174(1994)
V.ソボレフ、R.C.ウェイド、G.ヴリエンド、M.エデルマン、「Molecular docking using surface complementarity」、Proteins、Vol.25、120−129(1996)
P.アロイ、G.ムーント、H.A.ガブ、E.ケロル、F.X.アヴィレス、M.J.E.スターンバーク、「Modeling Protein Docking using Shape Complementarity、Electrostatics and Biochemical Information」、Proteins:Structure、Function、and Genetics、Vol.33、535−549(1998)
D.W.リッチー、G.J.L.ケンプ、「Fast Computation、Rotation、and Comparison of Low Resolution Spherical Harmonic Molecular Surfaces」、Proteins:Structure、Function、and Genetics、Vol.39、178−194(2000)
D.フィッシャー、R.ノレル、H.ウォルフソン、R.ナシノフ、「Surface motifs by a computer vision technique:searches、detection、and implications for protein−ligand recognition」、Proteins、Vol.16、278−292(1993)
M.ラレイ、S.ヴェフィン、T.レンガー、「Placement of medium−sized molecular fragments into active sites of proteins」、J.Computer Aided Molecular Design、Vol.10、41−54(1996)
B.クラマー、M.ラレイ、T.レンガー、「Evaluation of the FlexX incremental construction algorithm for protein−ligand docking」、Proteins、Vol.37、228−241(1999)
M.ラレイ、B.クラマー、T.レンガー、G.クレーベ、「A Fast Flexible Docking Method Using An Incremental Construction Algorithm」、J.Mol.Biol.、Vol.261、470−489(1996)
W.ウェルチ、J.リュペール、A.N.ジェーン、「Hammerhead:Fast、fully automated docking of flexible ligands to protein binding sites」、Chemical Biology、Vol.3、449−462(1996)
A.R.リーチ、I.D.クンツ、「Conformational Analysis of Flexible Ligands in Macromolecular Receptor Sites」、J.Comp.Chem.、Vol.13、730−748(1992)
H.J.ボーム、「The computer program LUDI:a new method for the de novo design of enzyme inhibitors」、J.Computer−Aided Molecular Design、Vol.6、61−78(1992)
R.S.ボハーチェック、C.マクマーティン、「Multiple Highly Diverse Structures Complementary to Enzyme Binding Sites:Results of Extensive Application of a de Novo Design Method Incorporating Combinatorial Growth」、J.American Chemical Society、Vol.116、5560−5571(1994)
H.クラウセン、C.ブーニン、M.ラレイ、T.レンガー、「FlexE:Efficient Molecular Docking Considering Protein Structure Variations」、J.Molecular Biology、Vol.308、377−395(2001)
R.A.アバジャン、M.M.トトロフ、D.N.クズネツォフ、「Biased probability Monte Carlo conformational searches and electrostatic calculations for peptides and proteins」、J.Comp.Chem.、Vol.15、488−506(1994)
T.A.ハルグレン、R.B.マーフィ、R.A.フリーズナー、H.S.ビアード、L.L.フレイ、W.T.ポラード、J.L.バンクス、「Glide:a new approach for rapid、accurate docking and scoring.2.Enrichment factors in database screening」、J Med Chem.、Vol.47 No.7、1750−1759、(2004)
B.A.ルティ、Z.R.ワッサーマン、P.F.W.スタウテン、C.N.ホッジ、M.ザカリアス、J.A.マッカモン、「Molecular Mechanics/Grid Method for the Evaluation of Ligand−Receptor Interactions」、J.Comp.Chem.、Vol.16、454−464(1995)
D.S.グッセル、A.J.オルソン、「Automated Docking of Substrates to Proteins by Simulated Annealing」、Proteins:Structure、Function、and Genetics、Vol.8、195−202(1990)
G.ジョーンズ、P.ウィレット、R.C.グレン、「Molecular Recognition of Receptor Sites using a Genetic Algorithm with a Description of Desolvation」、J.Mol.Biol.、Vol.245、43−53(1995)
G.ジョーンズ、P.ウィレット、R.C.グレン、A.リーチ、R.テイラー、「Development and Validation of a Genetic Algorithm for Flexible Docking」、J.Mol.Biol.、Vol.267、727−748(1997)
J.S.テイラー、R.M.バーネット、Proteins、Vol.41、173−191(2000)
G.M.モリス、D.S.グッセル、R.S.ハリディ、R.ヒューイ、W.E.ハート、R.K.ブリュー、A.J.オルソン、「Automated Docking Using a Lamarckian Genetic Algorithm and an Empirical Binding Free Energy Function」、J.Comp.Chem.、Vol.19、1639−1662(1998)
A.ディ・ノラ、H.J.C.ベレンドセ、D.ロッカターノ、「Molecular Dynamics Simulation of the Docking of Substrates to Proteins」、Proteins、Vol.19、174−182(1994)
J.ワン、P.A.コールマン、I.D.クンツ、Proteins、Vol.36、1−19(1999)
H.J.ボーム、「The Development of a simple empirical scoring function to estimate the binding constant for a protein−ligand complex of known three−dimensional structure」、J.Comput−Aided Mal.Des.、Vol.8、243−256(1994)
R.ワン、Y.ガオ、L.ライ、「A new empirical method for estimating the binding affinity of a protein−ligand complex.」、J.Molecular Modeling、Vol.4、379(1998)
M.D.エルドリッジ、C.W.マリー、T.R.オートン、G.V.パオリーニ、R.P.ミー、「Empirical scoring functions:I.The development of a fast empirical scoring function to estimate the binding affinity of ligands in receptor complexes」、J.Computer−Aided Molecular Design、Vol.11、425−445(1997)
D.K.ゲルハール、D.ボウジダ;P.A.レジュト、In 「Rational Drug Design:Novel Methodology and Practical Applications」、L.パリル、M.R.レディ、Ed.;American Chemical Society:Washington、D.C.、pp.292−311(1999)
D.ログナン、S.L.ラウエモレール、A.ホルム、S.バス、V.シンケ、J.Medicinal Chemistry、Vol.42、4650−4658(1999)
T.A.ハルグレン、R.B.マーフィ、R.A.フリーズナー、H.S.ビアード、L.L.フレイ、W.T.ポラード、J.L.バンクス、「Glide:a new approach for rapid、accurate docking and scoring.2.Enrichment factors in database screening」、J Med Chem.、Vol.47 No.7、1750−1759、(2004)
D.A.パールマン、D.A.ケース、J.C.クランドウェル、W.S.ロス、T.E.チェザム III、D.M.ファーガソン、G.L.シーベル、U.C.シン、P.ウィーナー、P.A.コールマン AMBER 4.1、University of California、San Francisco(1995)
W.D.コーネル、P.チェプラック、C.I.ベイリー、I.R.ゴールグ、K.M.マーツ、D.M.ファーガソン、D.C.スペルマイヤー、T.フォックス、J.W.クランドウェル、P.A.コールマン、「A second−generation force field for the simulation of proteins、nucleic acids、and organic molecules」、J American Chemical Society、Vol.117、5179−5197(1995)
W.L.ヨルゲンセン、J.ティラド・リベス、J.American Chemical Society、Vol.110、1657−1666 (1988)
T.A.ハルグレン、「Merck Molecular Force Field.I.Basis、Form、Scope、Parameterization、and Performance of MMFF94」、J.Comp.Chem.、Vol.17、490−519(1996)
B.R.ブルックス、R.E.ブラッコレリ、B.D.オラフソン、D.J.ステイツ、S.スワミナサン、M.カープラス、「CHARMM:A Program for Macromolecular Energy、Minimization、and Dynamics Calculations」、J.Comp.Chem.、Vol.4、187−217(1983)
J.J.P.スチュワート、Quantum Chemistry Program Exchange、Vol.10:86(1990)
D.A.リオタード、E.F.ヒーリー、J.M.ルイズ、M.J.S.デュワー、Quantum Chemistry Program Exchange−no.506、QCPE Bulletin、Vol.9:123(1989)
G.D.ホーキンス、D.J.ギーセン、G.C.リンチ、C.C.チャンバーズ、I.ロッシ、J.W.ストアラー、J.リー、D.リナルディ、D.A.リオタード、C.J.クラマー、D.G.トゥルフラーによるAMSOL−version 6.5.1、University of Minnesota、Minneapolis(1997)
H.ゴールケ、M.ヘンドリッヒ、G.クレーベ、「Knowledge−based Scoring Function to Predict Protein−Ligand Interactions」、J.Mol.Biol.、Vol.295、337−356(2000)
I.ミュゲ、Y.C.マーティン、「A general and fast scoring function for protein−ligand interactions−a simplified potential approach.」、J.Med.Chem.、Vol.42、791−804(1999)
J.B.O.ミッチェル、R.A.ラスコースキー、A.アレックス、J.M.ソーントン、「BLEEP−Potential of Mean Force Describing Protein−Ligand Interactions II.Calculation of Binding Energies and Comparison with Experimental Data」、J.Comp.Chem.、Vol.20、1165−1176(1999)
R.D.ヘッド、M.L.スミス、T.I.オプレア、C.L.ウォーラー、S.M.グリーン、G.R.マーシャル、「VALIDATE:A New Method for Receptor−Based Prediction of Binding Affinities of Novel Ligand」、J.American Chemical Society、Vol.l 18、3959−3969(1996)
C.ビサンツ、G.フォルカーズ、D.ログナン、「Protein−based virtual screening of chemical databases.1.Evaluation of different docking/scoring combinations」、J Med Chem、Vol.43、4759−4767(2000)
J.ウェストブルック、P.M.フィッツジェラルド(2003):Structural Bioinformatics、P.E.Bourne、H.Weissig(編者).Hoboken、NJ、John Wiley & Sons、Inc.161−179頁
http://www.tripos.com/custResources/mol2Files/
http://www.daylight.com/dayhtml/smiles/smiles−intro.html
M.クラーク、R.D.クラマー、N.V.オプデンボッシュ、「Validation of the General Purpose Tripos 5.2 Force Field」、J.Comp.Chem.、Vol.10、982−1012(1989)
http://www2.chemi.e.uni−erlangen.de/software/corina/index.html
2D Overlay with feature trees M.ラレイ、JS.ディクソン JCAMD、12:471−490、1998
本発明は、本開示を読んだ後で明らかになるように、多数の応用例を有する。本発明によるコンピュータ・システムの実施形態について述べる上で、少数の可能な変形形態について述べられているにすぎない。他の応用例および変形形態は、当業者に明らかとなることになり、それにより、本発明は、諸例と同程度に狭く解釈すべきでなく、添付の特許請求の範囲によるべきである。
本発明は、どのような区分もなしに分子全体を処理することに比べて、分子をより小さな一部で処理することによって迅速かつ効率的に分子を記憶、伝送、処理するために、分子を区分することに関する。本発明の諸実施形態について、限定的ではなく例示的なものとして述べる。本発明は、広く有用なものであり、多数の異なる状況において使用することができることを理解されたい。
以下の説明では、「バイオポリマー」という用語は、タンパク質、核酸(DNAまたはRNA)、ペプチド、またはヌクレオチド配列、あるいはそれらの任意の一部分または断片のうち1つまたは複数を含む高分子を指す。本明細書では、「生体分子」という用語は、バイオポリマー、炭水化物、ホルモン、あるいは、それだけには限らないが合成化合物、医薬化合物、薬剤様の化合物、もしくは天然の化合物、またはそれらの任意の一部分もしくは断片を含めて、無機もしくは有機の他の分子または化学化合物のうち1つまたは複数を含む化学エンティティを指す。
分子サブセットは、分子の構成要素の全部または一部であり、その構成要素は、単原子または単結合、原子および/または結合のグループ、アミノ酸残基、ヌクレオチドなどとすることができる。分子サブセットは、分子、分子の一部、1つまたは複数の分子(または他の生物反応物質(bioreactive agent))で構成された化学化合物、タンパク質、タンパク質の1つまたは複数のサブセットまたはドメイン、核酸、1つまたは複数のペプチド、あるいは1つまたは複数のオリゴヌクレオチドを含む可能性がある。本発明の他の実施形態では、分子サブセットはまた、1つまたは複数のイオン、個々の原子、あるいは、塩、気体分子、水分子、基(radical)など他の単分子の全部または一部、さらには、アルコール、エステル、ケトン、単糖などのような有機化合物をも含むことができる。さらに他の実施形態では、分子サブセットはまた、有機分子、残基、ヌクレオチド、炭水化物、無機分子、および、合成化合物、医薬化合物、薬剤様の化合物、または天然の化合物を含めて、他の化学的に活性な項目を含むことができる。
さらに他の実施形態では、分子サブセットは、1つまたは複数の共有結合を介して、標的にすでに結合されている、または添着されている可能性がある。他の実施形態では、分子サブセットは、実際、タンパク質の3次構造を構成する2次構造要素、またはタンパク質4次構造のサブユニットなど、標的の1つまたは複数の構造構成要素を含むことができる。他の実施形態では、分子サブセットは、活性部位の全部または一部を含むタンパク質ドメイン、1つまたは複数のタンパク質残基に対する近接性に基づいて選択されるタンパク質構造の、1つまたは複数の空間的に接続されたサブセット、さらには様々な分子相互作用にとって関心のある触媒または他の表面残基を特色とする、切断されたタンパク質サブセットなど、標的分子の1つまたは複数の部分を含むことができる。他の実施形態では、分子サブセットは、既存の分子複合体の全部または一部を含むことができ、たとえば、活性化タンパク質またはアロステリックな結合タンパク質として、2つ以上の他の分子間の分子結合を意味する。
分子の組合せ(または組合せ)は、通常特定の物理環境、化学環境、または生態環境の状況において、潜在的に結合する、または分子複合体を形成する、または他の方法で互いに相互作用することができる2つ以上の分子サブセットの集まりである。組合せは、最後に、2つ以上の相互作用する分子サブセットの識別を指定する。
分子の組合せは、リガンド生体分子(第1の分子サブセット)が標的生体分子(通常、バイオポリマー、第2の分子サブセット)と相互作用する、2つの分子サブセットの典型的なシナリオを表すことになる。したがって、分子の組合せの典型的な分析は、特定の環境内でリガンドが標的分子と相互作用することになるかどうか、またそれはどの程度か判定しようとする。別段特に指示がない限り、そのような諸例および諸説明は、3つ以上の分子サブセットが結合し、または互いに相互作用し、1つもしくは複数の標的分子および/または1つもしくは複数のリガンドの全部または一部分、さらには、指定された環境に関連付けることができるものなど、他の分子を表す分子の組合せに概して適用されることを理解されたい。
他の実施形態では、その分析は、結合する、または他の方法で標的と反応する可能性がある1つまたは複数のリガンドを見つけ出し、さらには標的タンパク質の活性部位をよりよく特徴付けるために、同じ環境内の同じ標的分子と組み合わせて、たとえば分子ライブラリー(仮想またはその他)から選択された、それぞれが異なるリガンドに対応する複数の分子の組合せを必要とする可能性がある。そのような場合には、関係ある生物活性の相対比較を行うために、各分子の組合せについてスコアを割り当てる、またはランク付けすることを必要とする可能性がある。
分子コンフォメーション(またはコンフォメーション)は、分子サブセットを構成する原子すべての相対位置を示す。コンフォメーションは、分子サブセットを構成する原子すべての絶対位置を示してはいないことに留意されたい。たとえば、分子サブセット内の原子すべてが同じ方向で同じ距離だけ並進された場合には、原子は、互いにそれらの位置を変えておらず、並進後のコンフォメーションは、並進前のコンフォメーションと同一である。同様に、原子すべてが同じ軸の周りで同じ角度だけ回転された場合、コンフォメーションに対する変化はない。実際、すべての構成原子に線形座標変換が適用されると、分子コンフォメーションは異ならないことになる。同じ分子サブセットの2つの異なるコンフォメーションは、結合長、結合角、結合ねじれ(適正および不適正)の変化、または、環変換(たとえば、環コーナー・フラッピング、環ブック・フォールディングなど)など他のより複雑な変化により発生する可能性がある。以下の諸例および諸説明の多くでは、大抵の共有結合がコンフォメーションの変化中に保存される、すなわち、結合が破断または形成されないと仮定されることになるが、これは、ジスルフィド結合、水素結合、塩橋など、他の化学結合についての場合である必要はない。2つのコンフォメーションの違いは、サブセット内の1つの原子だけの位置の変化と同程度に微妙な(局所的な)ものとすることも、異なるタンパク質の折り畳みに関連する変化、または複数の活性残基についての側鎖の変更と同程度に大きな(全体的な)ものとすることもできる。コンフォメーションにおけるいくつかの変化は、幾何学的には可能であるが、概して物理的に実現可能でない。というのは、構成原子または基の好ましくない立体の衝突を引き起こす可能性があるからである。コンフォメーションにおける可能な変化は、概して、コンフォメーションの自由度(conformational degree of freedom)と呼ばれる。
図2は、分子コンフォメーションの変化に関連するいくつかのコンフォメーションの自由度の線図例を示す。項目200は、2つの隣接する原子201と原子202の間の化学結合引張り、すなわち結合長の変化の例を示す。項目210は、3つの連続する原子211、212、213間の結合角曲げ、すなわち結合角の変化の例を示す。項目220は、適正なねじれ、すなわち原子222と原子223の間の結合の周りでの回転、あるいは同等に、原子221、222、223によって画定された平面と222、223、224によって画定された平面との間の2面角の変化の例を示す。適正なねじれについてのこの例では、原子225と原子226は、それら自体に、また原子222、223、224に対する相対距離を保存するために、原子222と原子223間の結合の周りで同様に回転することになることに留意されたい。
図2で続行すると、項目230は、不適正なねじれ、すなわち原子231、232、233によって画定された平面と231、232、234によって画定された平面との間の2面角の変化を示す。項目240は、原子241、242、243、244、245、246によって画定された同素環の「ブック・フォールディング」変換の例を示す。この場合には、変換は、原子241、242、243、244によって画定された平面と、241、246、245、244によって画定された平面との間の角度の変化を反映する。最後に、項目250は、非芳香族の同素環の「コーナー・フラッピング」変換を示すが、いま、変換は、原子251、252、253、255、256によって画定された平面と、253、254、255によって画定された平面との間の角度の変化を反映する。
(それだけには限らないが)シス・モードとトランス・モードの間の交換、1つまたは複数のキラル中心の変化、異なる立体異性体を反映すること、または環、特に大環状のものの、他のより複雑な変形など、他のコンフォメーションの自由度が可能である。しかし、共有結合を破断または形成しない分子コンフォメーションの(ほぼすべてではないにせよ)多数の変化は、図2にリストされているコンフォメーションの自由度のうち1つまたは複数の集まりの形に分解することができる。
多くの場合には、自由度はまた、関係ある原子および結合の許された運動に対する限界を反映する制約を有する可能性がある。そのような制約は、化学結合の自然な、または混成状態、当該の構造変更に関するエネルギー地形、さらには、2次構造要素もしくはタンパク質構造モチーフの保存、または様々なヘテロ原子もしくは他の分子の存在に関するものなど、他のより込み入った考慮すべき点によって刺激を受ける可能性がある。
以下の諸例および諸説明の多くでは、分子サブセットのコンフォメーションは、主に、適正なねじれおよび不適正なねじれに関する1つまたは複数の自由度に関連付けられることになる。というのは、多くの系にとって、標準的なリガンドおよび標的内の大抵の化学結合の結合長および結合角は、組合せの非結合状態と結合状態の間で著しく変化せず、最も可能性の高い例外は、環状(特に大環状の)環を特色とする化学基の構造摂動(structural perturbations)に関連するからである。しかし、分子コンフォメーションは、ねじれの自由度だけに限定される必要がないことは、当業者には自明となるはずである。
分子の組合せは、指定された環境内で2つ以上の分子サブセットを含む可能性があるため、今後は、説明において用語構成を使用し、構成分子サブセットの接合ポーズを表すことになる。したがって、分子の組合せの特定の構成は、通常選択された座標系の状況において、すべての分子サブセットのすべての構造構成要素、および環境のすべての構成要素の、互いのその1組の位置について述べる。
分子変換は、分子コンフォメーションを変化させる能力を有するコンフォメーションの自由度1つだけに適用される操作と定義される。変換は、分子の剛体変換を除外することに留意されたい。というのは、分子コンフォメーションは、分子サブセットを構成する原子の、絶対位置ではなく相対位置だけを示すからである。一実施形態では、分子内のいくつかの結合が、何らかの規定の軸の周りで回転される可能性があり、その結果、回転された結合に接続されている原子すべての原子の座標が変化する。他の実施形態では、分子内のいくつかの結合が延長され、したがって、その結合に接続されている原子すべての原子の座標が変化する可能性がある。さらに他の実施形態では、6員環は、ブック・フォールディング変換を受ける可能性がある。代替の実施形態では、変換により、分子のキラル中心のうち1つまたは複数の周りで対掌性が変化する可能性がある。
図3aは、化学式C20N22N8C5を有するメトトレキサート分子300のコンフォメーション390の「ボール・アンド・スティック(ball−and−stick)」レンダリングを示す。その分子は、原子310と結合350の集まりからなる。項目313によって示されている小さな黒い原子は、炭素原子を表す。項目316によって示されている非常に小さな白い原子は、水素原子を表し、一方、わずかに大きい方の濃い色の原子(項目310)は酸素原子であり、より大きな白い原子(項目320)は窒素原子である。
図3aでは、項目323は、ベンゼン環(C6H4)を含む円を、項目325は、カルボキシル基(COO−)を含む円を、項目327は、メチル基(CH3)を含む別の円を示す。項目353は、ベンゼン環320を、メチル基327を含むエステル基に接続する共有結合を示す。項目355は、炭素原子313をカルボキシル基325に接続する共有結合を示す。最後に、項目357は、メチル基327を窒素原子383に接続する共有結合を示す。
図3bは、同じメトトレキサート分子300の別のコンフォメーション393の「ボール・アンド・スティック」レンダリングを示す。図3aと図3bのコンフォメーションは、ねじれの自由度355および357に割り当てられたねじれ角の値が異なるだけであり、したがって、メチル基(327)とカルボキシル基(325)内の原子と結合についての位置が、残りの分子に対して異なることになる。換言すれば、図3bは、図3aに対して分子変換、すなわちねじれの自由度355および357に割り当てられたねじれ角の値の変化を適用することによって得られる。図3cは、同じメトトレキサート分子300の別のコンフォメーション396の「ボール・アンド・スティック」レンダリングを示すが、この場合には、コンフォメーションの違いがはるかに劇的であり、図3cのコンフォメーションに到達するように図3aのコンフォメーションに適用された分子変換は、結合長および角度の変化、ならびに複数のねじれとベンゼン環の変形をも含む。
分子サブセットを構成する原子は、それらの座標が変換によって変化しない場合、分子変換に対して不変であると言える。分子サブセットを構成する結合は、その結合が接続する原子の座標が変換によって変化しない場合、分子変換に対して不変であると言える。不変性の例が図3bに示されており、330は、355および357に適用された2平面の回転によって影響されず、したがって、両変換に対して不変である。310と325は共に、357に適用された2平面の回転に対して不変であることに留意されたい。同様に、310と327は共に、355に適用された2平面の回転に対して不変である。図3dは、メトトレキサート分子における不変性の別の例を示し、原子のグループ385の座標が、結合383の周りの回転によって修正されているが、原子のグループ385の座標は、結合383の周りの回転に対して不変のままとなる。
典型的には、各異なる構成について説明する1組の適切な分子記述子を使用し、ある構成を別の構成と区別することになる。分子記述子は、それだけには限らないが、a)化学記述子(たとえば、要素、原子タイプ、化学基、残基、結合タイプ、混成状態、電離状態、互変異性状態、対掌性、立体化学、プロトン化、水素結合容量[すなわち、ドナーまたはアクセプタ]、芳香族性など)、b)物理記述子(たとえば、形式電荷および部分電荷、質量、分極率、イオン化エネルギー、ファン・デル・ワールス[vdW]半径など特徴的サイズパラメータ、vdWウェル深さ、疎水性、水素結合電位パラメータ、溶解度、幾何形状を結合するための結合エネルギーに関する均衡結合パラメータなど)、c)幾何記述子(たとえば、原子座標、結合ベクトル、結合長、結合角、結合ねじれ、環についての適切な構造記述子、溶媒接触可能表面および溶媒除外体積(solvent−excluded volumes)など、分子表面および体積についての記述子などを含むことができる。
化学記述子は、要素タイプおよび結合接続性(すなわち、水素を除いて、どの原子が互いに接続されるか)など、基本構造情報を少なくとも規定しなければならない代表的な化学構造に対して、有機(または適切な場合、無機)化学の1つまたは複数の規則または概念を適用することに基づいて割り当てることができるが、何らかの形態の座標情報を含むこともできる。そのような化学構造は、いくつかの異なるデータ表現で記憶し受け取ることができる。他の多数のものもまた可能であるが、データ表現の一般的な一例は、PDBファイルのものであり、それについて、PDBファイル・フォーマットの完全な説明は、ウェストブルックら(非特許文献54)に見出すことができる。化学記述子を割り当てるために使用することができる既存のソフトウェア・プログラムの諸例には、TriposからのSYBYL(商標)、UCSFからのChimera(商標)、WhatIf(商標)(タンパク質用)などが含まれる。また、化学記述子を正しく割り当てることには、キラル中心および立体化学、さらには、電離状態の割当てに関するように予想されるpHなどの、環境要因に関する追加の入力が含まれる可能性がある。
図4aは、図3で述べられているメトトレキサート・リガンド・コンフォメーションについての化学構造のpdbファイル表現400を示し、一般ヘッダ410と、原子タイプおよび座標情報で構成されたセクション420と、結合接続性情報に関するセクション425とを含む。ヘッダ・セクション410は、任意の付注、または分子とそのコンフォメーションの識別、ソース、特性に関する望ましい他の情報を含むことができる。セクション420は、メトトレキサートの33個の非水素原子すべてのリストを示し、各原子について、化学タイプ(たとえば、原子要素)と、3つの空間座標とを含む。たとえば、原子6についての行は、1の化合物(または残基)IDを有する、鎖A内のMTXという名前の化合物(または、タンパク質の場合には残基)内でNA4という名前を有し、指定されたデカルト座標系内で(x,y,z)座標(20.821,57.440,21.075)を有する窒素原子であることを示す。
PDBファイルのコネクト・レコード(connect record)と呼ばれることもあるPDBファイル400のセクション425は、各原子に関連する結合のリストについて説明する。たとえば、このセクションの第1の行は、原子1が原子(2)および原子(12)に結合することを示し、一方、第2の行は、原子2が原子(1)、(3)、(4)に結合することを示す。また、この例において、水素がどのように欠けているか、したがって各原子について結合接続が完成しない可能性があることに留意されたい。当然ながら、水素原子の位置がすでに指定されている場合、PDBファイル表現の完成された変形形態は可能であるが、化学構造が実験的観察に由来する多くの場合には、水素の位置は、非常に不明確である、または完全に欠けている可能性がある。
図4bは、SYBYLを使用し、図4aのPDBファイルからの様々な化学記述子を割り当てることによって構築されたTripos mol2ファイルを示す。列430は、各原子についてのインデックスをリストし、列433は、各原子についての原子名(非一意とすることもできる)をリストし、列435、437、439は、それぞれ、内部座標系内で各原子についてのx座標、y座標、z座標をリストし、列440は、各原子についてのSYBYL原子タイプをリストし、列442および列445は、(タンパク質、核酸などに関係する)各原子についての残基IDおよび残基名をリストする。セクション450は、分子内の結合すべてをリストする。列451は、各結合についての結合インデックスをリストし、列452および列453は、その結合によって接続された2つの原子の原子インデックスをリストし、列455は、単結合、二重結合、3重結合、非局在化結合、アミド結合、芳香族結合、または他の特殊共有結合とすることができる結合タイプをリストする。他の実施形態では、そのような情報は、塩橋または水素結合など非共有結合を表すこともできる。
この例では、コンピュータ手段を介して化学記述子を割り当てた結果として、今度は水素原子がどのように含まれているか(またこの場合には、それらの可能性の高い位置が予測されているか)留意されたい。この例では、SYBYL原子タイプは、混成状態、化学タイプ、結合接続性、水素結合容量(hydrogen bond capacity)、芳香族性、および場合によっては化学基についての体系化された情報を含む。さらに、電離状態は、概して、原子タイプおよび水素化の組合せによって推論することができる。他の例は、孤立電子対に関係するデータを含むこともできる。この例では、mol2ファイルは、メトトレキサート・リガンドに対応する化学記述子データの一部分を表す。
物理記述子は、1つまたは複数の化学記述子に依存し、典型的には、原子および/または結合に関するが、化学基、残基などによって特徴付けることもできる。物理記述子のための値は、典型的には、AMBER(非特許文献41、42)、OPLS(非特許文献43)、MMFF(非特許文献44)、CHARMM(非特許文献45)のような分子力学力場に関連する1つまたは複数のパラメータ・セットに従って割り当てられる。また、いくつかの物理記述子は、Mopac(非特許文献46)またはAMPAC(非特許文献47)を介して部分電荷を割り当てることなど、1つまたは複数の分子モデリング・ソフトウェア・パッケージの使用に従って割り当てることができる。典型的には、モデル化すべきエネルギー相互作用の選択により、所与の分子の組合せについて親和力を計算するために、各分子サブセットについて決定しなければならない物理記述子のタイプおよび形態が決まる。
図4cは、図4aおよび図4bに対応するメトトレキサート・リガンドについて(部分電荷についてMopac v7.0と共に)Amber96力場を介して割り当てられた物理記述子のサブセットを含むファイルを示す。セクション460は、図3aで元々リストされていた同一の原子名(列461)について、電荷(列462)、質量(列463)、vdW半径(列464)、およびvdWウェル深さ(列465)に関する原子物理記述子について説明する。セクション470は、図2で述べられている10個の可能な結合ねじれに関する結合物理記述子について説明する。ここで、列472、474、476、478は、2平面変化に関連するひずみエネルギーを推定する際に使用される、一般化されたPitzer電位についての標準的な数値パラメータを示す。この例では、図4cにおけるファイルは、図4aおよび図4bに関連するメトトレキサート・リガンドに対応する物理記述子データの一部分を表す。
幾何記述子は、分子の組合せの1つまたは複数の構成要素の構造の説明に関する。これは、それだけには限らないが、座標、または原子中心の位置を表す点に関する他の空間情報、様々な結合を表すベクトル、様々な化学基を表す平面、個々の原子の範囲および配置を表す球、溶質−溶媒界面を表す3D表面、相互作用場または電位の離散化(discretization)を3D体積グリッド(volumetric grid)(たとえば、プローブ・グリッド・マップ(非特許文献27、32)、微分方程式ソルバー用のメッシュなど)上に表す空間3D関数、さらには、構造、表面、および/または体積の近似表現のための適切な幾何基底関数の一般化されたセット(たとえば、リッチーら(非特許文献15)の球面調和動径基底関数(spherical harmonics radial basis function))を含むことができる。幾何記述子はまた、図2に関連して述べられているいくつかの基本的構造変換など、異なるポーズに関連する1つまたは複数の可能な自由度を表す1つまたは複数の幾何変数(たとえば、角度、ねじれ、長さなど)を含むことができる。
たとえば点、ベクトル、平面、球について説明するもののような、いくつかの幾何記述子は、自然の表現を有するが、実際の値は、座標系の選択によって決まる可能性がある。表面、体積、グリッド・マップ、または基底関数のような他のものは、ストレージ要件、所望の精度のレベル、表現すべきオブジェクトの性質に応じて様々な表現を有する可能性がある。たとえば、表面は、一連の表面法線、または様々な基本的表面小片(patch)の集まりによって表すことができる。体積は、3Dビットマップの占有によって、または、球またはポリゴンなど、より簡単な幾何オブジェクトの和集合によって表すことができる。
構造の自由度と共に必要とされる幾何記述子は、連続的な、または離散的な変数とすることも、基本的な構造またはエネルギーの考慮すべき点によって課される1つまたは複数の制約を有することも、その分子サブセットについての内部座標系の選択に依存することもできる。そのような記述子は特に重要なものである。というのは、それらは、同じ分子または組合せの2つの異なる幾何状態(たとえば、コンフォメーション、ポーズ、構成)を区別する幾何形状の変換(または演算子)について説明するからである。
その記述子データを有する分子サブセットは、多数の方法で、デジタルで表すことができる。一実施形態では、分子サブセットの記述子データについてのデジタル表現は、pdbファイル(図4a)またはmol2ファイル(図4b)など、テキスト・ファイルの形態にあることができる。pdbファイルおよびmol2ファイルは、分子データを記憶するために使用される表現である。
分子サブセットの記述子のための表現の、他の実施形態は、リスト・データ構造である。図5は、4ペプチド・ペプスタチン・アナログ分子IVVL(イソバリルバリンバリンリスタオエチル)(isovalryl−valine−valine−lysta−o−ethyl)の概略図500を示す。塗り潰された各円は、原子を表す。円を接続する線は、原子間の結合を表す。各円に割り当てられた一意の番号は、異なる各原子を識別する。番号は任意で割り当てることができ、原子のための識別タグとして働くにすぎない。塗り潰された各円によって表された原子のタイプもまた識別され、たとえば、原子15は、バリン・ペプチド基510内の窒素であり、原子12は、別のバリン・ペプチド基520内の窒素であり、原子5は、イソ吉草酸基530内の炭素であり、原子26は、スタチン・アナログ・リスタオエチル基内のアルファ炭素であり、以下同様である。図6aは、図3aに示されているメトトレキサート分子の2D概略図を示す。
リスト表現の例が図5bに示されており、分子IVVLについての何らかの分子記述子データが、リストとして表されている。リスト内の各行は、リスト内の原子のインデックス501と、その原子タイプ502と、その残基503と、その空間座標504とを含む。図6bは、メトトレキサートのリスト表現を示す。リスト内の各行は、リスト内の原子のインデックス601と、その原子タイプ602と、その空間座標603と、その部分電荷604とを含む。図5bにおけるIVVLについてのリスト表現と異なり、図6bは、各原子の残基タイプを含まず、各原子についての部分電荷を含む。図5bおよび図6bは、分子の記述子データをリストとしてどのように表すことができるかについての例示的なものであり、包括的な例ではない。
さらに他の実施例では、分子サブセットの記述子データは、ツリーとして表すことができる。ツリー・データ構造は、ノードと呼ばれるオブジェクトと、連結部と呼ばれるノード間の接続との集まりとして定義される。ツリー構造では、ノードが1つまたは複数のレベルで分配され、ノードは、それ自体より高いレベルで1つまたは複数のノードに、またそれ自体より低いレベルで1つまたは複数のノードに接続される。(ルート・ノードとしても知られる)最初のレベルのノードは、それらより低いレベルにあるノードだけに接続される。(リーフ・ノードとしても知られる)最後のレベルのノードは、それらより高いレベルにあるノードだけに接続される。特定のレベルのノードは、下方のレベルでそれが接続される1つまたは複数のノードに対する「親」ノードとして、また上方のレベルでそれが接続される1つまたは複数のノードに対する「子」ノードとして知られる。第1のツリーは、第1のツリーのノードおよび連結部もまた第2のツリー内に含まれる場合、第2のツリーのサブツリーである。
図5cは、ノードが原子を表し、ノード間の連結部が原子間の結合を表す、分子のための可能な1つのツリー表現を示す。黒いノードは、窒素原子を表し、灰色のノードは、酸素原子を表し、白いノードは、炭素原子を表す。各ノードの番号は、それが図5a内で表す原子を示す。図5cに示されている実施形態では、ノード番号15、すなわち窒素原子が上端レベルである。原子15は、図5aにおいて原子12および原子19に接続され、したがって、ノード番号15は、ツリーの第2のレベルで配置されるノード12およびノード19に対する連結部を有する。したがって、ノード15は、ツリーのルート・ノードである。また、ノード15はノード12およびノード19の親ノードであり、ノード12およびノード19は、その子ノードである。同図で続行すると、原子12は、図5aにおいて原子09および原子11に結合され、したがって、ノード12は、ツリーの第3のレベルで配置されるノード09およびノード11に連結される。ツリーのレベルの数は、そのツリーが表す分子のサイズおよび構造によって決まる。図5cでは、ツリーは、11のレベルを有する。各レベルのノードの数は、同じである必要はないことに留意されたい。第1のレベルは1つのノードを含み、第4のレベルは6つのノードを含み、第6のレベルは4つのノードを含むなどである。図5dは、図5aの分子IVVLについて別のツリー表現を示す。ツリー表現のこの実施形態では、原子32が第1のレベルとなるように選択される。その表現は、明らかに図5cに示されているものと非常に異なる。違いの例として、図5dにおけるツリーは、18のレベルを有し、一方、図5cにおけるツリーは、11のレベルを有する。したがって、ツリー表現は、分子のサイズや構造に依存するだけでなく、ツリーの第1のレベルとなるように選択される1つまたは複数の原子にも依存する。所与の分子のいくつかのツリー表現があり得ることを理解されたい。
ツリー表現の別の例が、図6cに示されている。これは、図6aに示されているメトトレキサート分子を表す。ツリーは、閉ループまたは環を表すことができない。環を含む構造を表すためにツリーを使用することが望ましい場合には、その表現内に環がないように、いくつかの結合をその表現から省略することが必要とされる。たとえば、メトトレキサートは、3つの環615、625、635を含む。図6cにおけるそのツリー表現は、原子02と04、05と08、19と23の間で結合を省略する。省略された結合は、図6cに点線として示されている。点線は、連結部ではなく、どの結合が図6cに表されていないか見えるようにする助けとなるように示されているにすぎない。メトトレキサートについて他のツリー表現もまた可能であることは、当業者には明らかとなるはずである。
代替の実施形態では、ツリーのノードは、原子ではなく分子断片を表すことができる。図7aは、環が710、720と符号付けされているメトトレキサート分子の概略図を示す。メトトレキサートのツリー表現は、図7bに示されており、ノード01は、プテリジン環710を表し、ノード11は、ベンゼン環720を表す。
さらに他の実施形態では、分子記述子データをグラフとして表すことができる。グラフは、ノードと呼ばれるオブジェクトと、連結部と呼ばれるノード間の接続との集まりとして定義される。ツリーと異なり、グラフは、そのノードが諸レベルで分配されていない可能性があり、ノードは、任意の他のノードに接続することができる。図6dは、メトトレキサートのグラフ表現を示す。各ノードは原子を表し、ノード間の連結部は、原子間の結合を表す。グラフ内で、袋文字の円(open circle)は、炭素を表し、黒い円は、窒素を表し、灰色の円は、酸素を表す。各円内の番号は、それが表す原子の番号に対応する。たとえば、ノード22は、ベンゼン環内の22番の炭素を表し、11番のノードは、プテリジン環内の11番の窒素原子を表す。グラフは閉ループまたは環を表すことができ、その結果、プテリジン環およびベンゼン環を構成する結合すべてがグラフ内で表されることに留意されたい。メトトレキサートのツリー表現では、環内のいくつかの結合を、その表現から省略しなければならなかった。
分子サブセットのグラフ表現の他の実施例では、ノードが特定の断片を表し、その構成原子が分子内で接続される断片を連結部で接続することができる。図8aは、メトトレキサートの概略図を示し、図8bは、メトトレキサートのグラフ表現を示す。グラフ内のノード1は、項目810を含むプテリジン環を表し、ノード11は、カルボキシル基820を表し、ノード17は、カルボキシル基830を表す。ノード01と単一の炭素原子を表すノード03の間の連結部は、ノード01を構成する原子が炭素原子03に接続されることを表す。
図9aは、図9bに示されている分子のグラフ表現と共に、6アミノ酸−MET910、TYR920、930、940、TRP950、PRO960で構成されたポリペプチドの概略図を示す。グラフ内のノードは原子を表し、連結部は結合を表す。グラフは、O−C−C−Nの反復パターンで構成された(バックボーンとしても知られる)主鎖(main chain)を有することに留意されたい。反復パターンの例は901であり、その構成原子は、酸素911、炭素913、915、窒素917である。主鎖には、残基または側鎖が添着されている。たとえば、919は、アミノ酸TRPで構成された側鎖であり、図9aにおける項目950に対応する。その分子は、小さなタンパク質の例であり、大きなタンパク質は、アミノ酸の長い鎖である。点線として示されている連結部は、芳香環の一部であり、炭素原子と酸素原子の間の太線は、脂肪族二重結合であり、窒素と炭素の間の太線は、ペプチド結合であり、細い実線は、脂肪族単結合(single aliphatic bond)である。
分子サブセットは、グラフ・データ構造によって多数の異なる方法で表すことができることは、当業者には明らかとなるはずである。上述の諸実施形態は、例示的な例にすぎないものとする。
好ましい実施形態では、分子サブセットの記述子データは、分子サブセットに対する操作を説明しやすくするように、グラフとして表される。これまでに述べたデータ構造(リスト、ツリー、グラフ)は、分子記述子データを表すために使用することができるデータ構造の例示的な例にすぎず、包括的な例ではないことをも理解されたい。
次に、本発明についてさらに述べる際に有用なものとなる、いくつかの定義について述べる。
・あるグラフが含むノードが別のグラフより少ない場合、前者は後者より小さいと言える。
・別のグラフが、あるグラフのノードすべてを含む場合、前者は後者のサブグラフである。
・一方のグラフの任意のノードと他方のグラフの任意のノードとの間に連結部がない場合、2つのグラフは接続されていないと言える。
・2つのグラフのいずれか1つに適用された1組の変換により他方のグラフ内の原子の座標が変化しない場合、その2つのグラフは、その変換に対して独立であると言える。
・1組の変換により、連結部が接続するノードを構成する原子の座標が変化しない場合、その連結部は、その変換に対して不変であると言える。
本発明は、分子サブセットを、より小さな一部の形に分割し、分割されていない分子サブセットに比べて、そのより効率的な記憶、伝送、処理を容易にするための方法について述べる。本発明者らは、分子表現をより小さな一部の形に分割するプロセスを、「区分」と呼び、分子表現のより小さな一部を、「部分表現」(subrepresentation)と呼ぶ。2つの部分表現は、一方の部分表現からの任意のノードを他方の部分表現からの任意のノードに接続する連結部がない場合、接続されていないと呼ばれることになり、そうでない場合には、その2つの部分表現は、接続されていると呼ばれることになる。2つの部分表現は、その2つの部分表現のいずれか一方に適用された1組の変換のいずれかにより、他方の部分表現のノードによって表された任意の原子の座標が変化しない場合、その1組の変換に対して相互に独立していると呼ばれることになる。同様に、部分表現は、その部分表現に適用された1組の変換のいずれかにより、その部分表現のノードによって表された任意の原子の座標が修正されない場合、その1組の変換に対して不変であると呼ばれる。
分子を処理するためのシステムの実施形態が、図10に示されている。パイプライン1020の第1のエンジンは、入力または記憶装置1010から分子情報を読み出す。パイプライン1030内の第2のエンジンは、先行するエンジン1020によって読み出された分子データに分子変換を適用する。分子変換エンジン1030の出力は、パイプライン内の下流処理エンジン1040、1050に送られる。1050の出力は、記憶装置に進むことも、別のコンピュータ・エンジンに進むこともできる。
一実施形態では、分子処理システム1000は、専用マイクロプロセッサ、ASIC、またはFPGA上で実装することができる。他の実施形態では、分子処理システム1000は、複数のマイクロプロセッサ、ASIC、またはFPGAを扱う電子またはシステム・ボード上で実装することができる。さらに他の実施形態では、分子処理システム1000は、1つまたは複数の電子デバイス内に収容された複数のボード上で、またはそれらを跨いで実装することができる。さらに他の実施形態では、分子処理システム1000は、1つまたは複数の電子ボード上の1つまたは複数のマイクロプロセッサ、ASIC、またはFPGAを含む複数のデバイスを跨いで実装することができ、それらのデバイスは、ネットワークを跨いで接続される。
いくつかの実施形態では、分子処理システム1000はまた、分析において使用される、または分析によって生成された様々な、必要とされるデータ要素の記憶用に1つまたは複数の記憶媒体デバイスを含むことができる。別法として、いくつかの他の実施形態では、いくつかの、またはすべての記憶媒体デバイスは、外部に位置し、しかしネットワーク化する、または他の方法で分子処理システム1000に接続することができる。外部記憶媒体デバイスの諸例には、1つまたは複数のデータベース・サーバまたはファイル・システムが含まれる可能性がある。1つまたは複数のボードを扱う実装を必要とするいくつかの実施形態では、分子処理システム1000はまた、コンピュータ・プロセスを支援するために、1つまたは複数のソフトウェア処理コンポーネントを含むことができる。別法として、いくつかの他の実施形態では、いくつかの、またはすべてのソフトウェア処理コンポーネントは、外部に位置し、しかしネットワーク化する、または他の方法で分子処理システム1000に接続することができる。
背景考察で述べたように、分子処理システム1000のパイプラインを最大の効率で動作させるために、パイプラインのステージすべてが同一のパイプライン・ステージ間隔を有するべきである。したがって、パイプライン内のより速い、またはより遅い他のエンジンのスピードを整合するために、分子変換エンジンを速くする、または遅くする方法を必要とする。処理エンジンを単にしばらくの間アイドルにすることによって処理エンジンを遅くすることができるが、これは明らかに無駄が多いものである。別法として、より少ない分子または結合を含む、より小さな分子サブセットの形に分子データを区分することによって、分子変換エンジンを速くすることができる。
また、分子表現を部分表現の形に区分することにより、ストレージおよび伝送要件のより小さなパイプライン型分子処理システム1000の設計および実装が可能になる。これは、システムが、分子のサイズにかかわらず、等しく効率的に分子を処理することを可能にする。
また、区分は、変換エンジンや他の処理エンジンの実際の設計によって制約されることになる。デバイスの設計によるそのような制約の例は、コンピュータ・システム内の使用可能なストレージの量であり、その結果、区分は、部分表現を生成することが制約され、部分表現のそれぞれは、所定の最大量より少ないストレージを使用する。デバイス設計による制約の他の例は、分子処理システム内の記憶装置と処理エンジンとの間の使用可能な帯域幅の量であり、その結果、区分は、部分表現を生成することが制約され、部分表現のそれぞれは、所定量の帯域幅を超えて使用することができない。さらに他の例では、分子処理システム内の複数の処理エンジン間で使用可能なものより多くの帯域幅を部分表現が使用することができない制約を受けて、部分表現を生成しなければならない。代替の例では、区分は、使用可能な処理エンジンの総数と、分子処理システム内でサイクル当たり実行することができる計算の総数とによって制約される可能性がある。ここで、計算の数は、加算、減算、乗算、除算、モジュラス、ビットごとのAND、ビットごとのORなど基本演算を、分子処理システムの1つまたは複数のパイプライン・ステージによってサイクル当たり実行することができることを意味する。したがって、区分プロセスは、各部分表現に関連する計算の数が最大数未満となるように、部分表現を生成することが制約される可能性がある。
本発明者らは、ストレージの単位(または、記憶単位)を、1回のトランザクション内で関与することができるストレージの最大量と定義する。たとえば、いくつかのランダム・アクセス・メモリ(RAM)技術では、ストレージは、ビットのグループ群で構成され、そのメモリとの1回のトランザクション内でビットのグループ1つだけを読み出す、または書き込むことができる。そのような場合には、記憶単位は、1回のトランザクションで読み出す、または書き込むことができるグループのサイズである。たとえば、RAM技術の例におけるそのようなグループのサイズは、64ビットである。64ビット未満、たとえば40ビットを読み出すことが必要とされる場合には、その技術により依然として64ビットが返され、そのうち24ビットは無視されることになる。64ビットを超えて、たとえば100ビットを読み出すことが必要とされる場合、100ビットすべてを読み出すために2回のトランザクションがかかることになる。したがって、1回のトランザクション内で読み出すことができるストレージの最大量は64ビットであり、これはまた、ストレージの単位のサイズである。他の例では、ディスク・ドライブなど、ある記憶技術において、ディスクのセクタ1つだけを読み出すことが可能であり、そのセクタをストレージの単位とすることができる。さらに他の例では、トランザクションごとに、固定された量のデータの読出し/書込みを可能にするように、データベースを構成することができる。そのような場合には、データベースによって課される制限によりストレージの単位が決定される。
また、本発明者らは、表現記憶単位(representation storage unit)を、1つの部分表現を記憶するために使用されるストレージの量と定義する。部分表現によって必要とされるストレージの量は、実際に使用されるストレージの量と異なる可能性があることに留意されたい。そのような場合には、表現記憶単位の何らかの部分が使用されないままとなることになる。たとえば、表現記憶単位を1Mbとし、1つの部分表現について必要とされるストレージの量を0.8Mbとする。そのような場合には、残りの0.2Mbは、使用されないままとなる。未使用のストレージは、部分表現のすべて、または一部を記憶するために使用されない。他の例では、1つの部分表現について必要とされるストレージの量が1.6Mbである場合には、2つの表現記憶単位が使用され、そのうち0.4Mbが使用されないままとなる。
表現記憶単位のサイズは、区分に対する制約として使用することができる。たとえば、部分表現が表現記憶単位より多くのストレージを必要とする場合には、その部分表現がさらに区分される。他の例では、使用中の表現記憶単位すべてについて合計された未使用のストレージの総量が最小限に抑えられるように、区分を制約することができる。
本発明者らは、伝送の単位(または、伝送単位)を、1回のトランザクション内で、トランザクション・チャネルを跨いで伝送することができるデータの最大量と定義する。一例では、デジタル・データをランダム・アクセス・メモリ(RAM)からマイクロプロセッサに伝送する際に、単一のクロック・サイクル内で伝送することができるデータの最大量は、マイクロプロセッサ上のピンの数によって決まる。たとえば、RAMからデータを読み取ることに128ピンが提供される場合には、伝送単位サイズは、128ビットである。チャネル使用の例において、そのチャネルを跨いで128ビットを伝送することが必要とされる場合には、そのチャネルが最も効率的に使用される。128ビット未満、たとえば100ビットを伝送することが必要とされる場合、チャネルは依然として128ビットを伝送し、そのうち28ビットは、受信器によって無視される。したがって、そのような伝送の効率は、100%未満である。128ビットを超えて、たとえば200ビットを伝送することが必要とされる場合には、第1のトランザクションが最大128ビットを含むにすぎず、したがって、伝送単位のサイズを設定する。他の例では、先の例のマイクロプロセッサを、1回のトランザクション内で、128ピンだけを使用して256ビットを読み出すことができるように構築することができる場合には、伝送単位は、256ビットとなる。さらに他の例では、デジタル・データをディスク・ドライブから読み出すためのディスク・ドライブ・コントローラが、1回のトランザクション内で1KBを読み出すことができる場合には、伝送単位は、1KBである。さらに他の例では、受信器は、1ビットずつ、すなわちシリアルでチャネルからデータを読み取ることができるが、そのデータを、所定のサイズまたはサイズの範囲のビットのグループ群、すなわちパケット内で、チャネル上で伝送しなければならない可能性がある。そのような場合には、単一のトランザクションのサイズは1パケットであり、1パケットのサイズにより、伝送単位が決定される。そのようなスキームの諸例は、イーサネット(登録商標)、TCP/IPなどである。
また、本発明者らは、表現伝送単位を、1つの部分表現を伝送するために使用される伝送帯域幅の量と定義する。部分表現によって必要とされる帯域幅の量は、実際に使用される帯域幅の量と異なる可能性があることに留意されたい。そのような場合には、表現伝送単位の何らかの部分が、伝送チャネルの受信器によって読み出されないビット、すなわち未読のビットからなることになる。未読のビットはまた、情報を搬送しないと言うことができる。たとえば、表現伝送単位を1Mbとし、1つの部分表現について必要とされる量を0.8Mbとする。そのような場合には、伝送の0.2Mbが未読のビットからなる。他の例では、1つの部分表現について必要とされる帯域幅が1.6Mbである場合には、2つの表現伝送単位が使用され、そのうち0.4Mbが未読のままとなる。
表現伝送単位のサイズは、区分に対する制約として使用することができる。たとえば、部分表現が表現伝送単位より多くの帯域幅を必要とする場合には、その部分表現がさらに区分される。他の例では、使用中の表現伝送単位すべてについて合計された未読のビットの総量が最小限に抑えられるように、区分を制約することができる。
区分エンジン1020の好ましい実施形態では、一連のグラフ区分演算子が分子表現に適用され、いくつかの部分表現を生成する。区分演算子は、いくつかの供給された区分基準を受けていくつかの部分表現を生成する。区分演算子の適用後、1つまたは複数の区分基準を使用して、得られる各部分表現がさらに区分を必要とするかどうかさらに評価される。部分表現をさらに区分するための1つの基準例は、その部分表現が所定の閾値より少ない原子を有することである。他の基準例は、部分表現が所定のデータ記憶制限を超えることである。さらに他の基準例は、先の区分演算子によって生成された部分表現の数が、所定の最大閾値より小さかった、および/または、所定の最低閾値より大きかったことである。代替の基準例は、変換を含めて、各部分表現に関連する分子処理計算の数が、所定の最大数より小さい、および/または、所定の最小数より大きいことである。他の基準例は、部分表現内の原子の数の変動を最小限に抑えるべきであることである。すなわち、可能な限り、部分表現すべてが同じ数の原子を有するべきである。上記の基準は例示的な例として示されているにすぎないことは、当業者には明らかとなるはずである。
確実にするための考察では、グラフをより小さなグラフの形に区分することを必要とすることになる。本発明者らは、グラフをより小さなグラフの形にさらに分割するために、以下の種類のグラフ区分演算子を定義する。
連結部除去演算子。この演算子は、1つまたは複数の供給された基準を受けて、グラフから連結部を除去する。グラフから1つまたは複数の連結部を除去すると、グラフを複数の接続されないサブグラフの形に分割することができる。1つまたは複数の供給された基準は、どのタイプの連結部を除去すべきか指定することができる。たとえば、不変連結部だけが除去される、または特定の原子の対(たとえば、2つの炭素原子)間の連結部だけ除去することができる。他の基準は、得られるサブグラフが満たさなければならない、たとえば、連結部除去から得られるサブグラフすべてが閾値未満の数のノードを有するべきである制約を指定することができる。連結部除去に供給される可能性がある基準の諸例、および以下の演算子は、後で区分基準として本説明において提供される。
連結部除去演算子の例が、図11に示されている。図11aは、仮説分子のグラフ表現を示す。グラフのノードは、原子と分子断片とを表し、連結部は、結合を表す。太線は、不変連結部を表し、一方、他の連結部は不変でない。図11bは、連結部除去演算子を図11aのグラフに適用した結果を示す。この場合には、演算子は、2つの連結部1101、1102を除去し、3つの接続されていないサブグラフ1110、1120、1130が得られる。供給された区分基準によって、サブグラフ1110、1120、1130が許容されると判定された場合、区分は完了したと考えられる。サブグラフが許容されないと見なされた場合、連結部の別のセットが除去され、得られるサブグラフが、供給された基準に対して判定される。
図12aは、ポリペプチドMYWYPYの概略を示す。不変連結部もまた、図12aにおいて1210、1220、1230、1240、1250で示されている。連結部除去演算子は、不変連結部すべてを除去することを判断し、6つのサブグラフ1211、1221、1231、1241、1251、1261が得られる。図12bは、3つの不変結合1220、1230、1240だけ除去することを判断し、3つのサブグラフ1212、1222、1232、1242だけが得られる連結部除去演算子の応用例を示す。2つの区画のうちどちらがより許容されるかは、供給された区分基準によって判断される。
不変連結部除去演算子。この演算子は、除去される連結部すべてが不変でなければならない追加の特性と共に、上記で定義されている連結部除去演算子と全く同じことを実行する。本発明者らは、本説明において後で参照されるように、この演算子を明示的に定義する。
ノード開裂演算子。連結部除去演算子と同様に、この演算子は、供給された基準を受けて、グラフを、接続されていないサブグラフの形に分裂させようと試みる。この演算子は、最初に、1つまたは複数の供給された制約に従って、あるノードをルート・ノードとして選択する。ルート・ノード部で連結される1つまたは複数のサブグラフが、図13に示されているように接続されていないグラフの形に分裂される。図13aは、仮説分子のグラフ表現を示し、ノードが分子断片を表し、連結部が結合を表している。たとえば、ノード開裂演算子は、供給された制約に従って、1310をルート・ノードとして選択する。図13bは、3つの接続されていないサブグラフ1320、1330、1340を生成するように、選択されたルート・ノード1310部での開裂の結果を示す。元のルート・ノード1310は、いま、得られる3つのサブグラフすべてのメンバーであることに留意されたい。図13cにおける例に進むと、そのノードは、3つではなく、2つの部分1301、1302の形に開裂されている可能性がある。2つの開裂結果のうちどちらがより許容されるかは、供給された制約によって判定される。
グラフを、接続されていないサブグラフの形に分裂させることが可能でない場合、グラフをサブグラフの形に分裂させようと試みるために、1つまたは複数の連結部が除去される。図14aは、仮説分子の概略表現を示す。図14bは、ノード開裂演算子を1410に適用した結果を示す−グラフは、接続されていないサブグラフの形に分割されない。接続されていないサブグラフ1430、1440を構築するために、演算子は、連結部1420を除去する。
他の例では、図15aは、分子CH2−CBG−ASN−TYR−CH2−PRO−ILE−VAL−NHの概略を示す。図15bは、ノード1510部での開裂の結果を示す−分子は、接続されていない2つのサブグラフの形に区分されない。図15cは、連結部1520を除去することにより、接続されていない2つのサブグラフ1530、1540が得られることを示す。
グラフを分裂させることが不可能であると実証された場合には、分裂が全く行われない。ノード開裂演算子を入力グラフに適用した結果は、入力グラフそれ自体である。
図16では、本発明のシステムの実施形態がパイプラインを備え、第1のステージ1610は、分子のデジタル表現を受け取る。次いで、分子表現は、区分エンジン1620によって複数の部分表現の形に区分される。次いで、その部分表現は、1つまたは複数の分子サブセット処理エンジン1630によって処理される。一実施形態では、処理エンジンは、部分表現に対して分子変換を計算することができる。他の実施形態では、処理エンジンは、部分表現内の原子および結合に対して親和力機能を計算することができる。上述の処理エンジン1630の諸実施形態は、例示的なものであり、包括的なものではないものとすることを理解されたい。
次に、区分エンジン1620の好ましい実施形態について述べる。最初に、分子の入力デジタル表現を使用し、分子のグラフ表現を構築する。分子表現の他の実施形態では、ツリー、リストなど諸データ構造をも使用し、グラフと同程度に有用な表現を構築することができることは、当業者には明らかとなるはずである。
区分エンジンの一実施形態では、1つまたは複数の区分基準が分子のグラフ表現に適用され、グラフをとにかく区分するべきかどうか評価する。ある例では、グラフは、閾値未満の数のノードからなる可能性があり、区分することが必要とされない可能性がある。他の例では、グラフによって必要とされるストレージが、単一の区画用の割り振られた最大ストレージを超える可能性があり、区分することが必要とされる可能性がある。グラフを区分することが必要とされない場合には、区分プロセスは完了である。グラフを区分することが必要とされる場合には、不変連結部除去演算子にかけられる。
不変連結部除去演算子は、1つまたは複数の区分基準を受けて、グラフに適用される。演算子を適用することにより、1つまたは複数の部分表現が生成される。得られる部分表現のうち1つまたは複数が、供給された区分基準を満たすようにグラフを区分するやり方を演算子が見出すことができない場合、部分表現1つだけを生成することができる。そうでない場合には、複数の部分表現が生成される。さらなる区分基準が、得られた部分表現に適用され、どの部分表現がそれ以上区分されないかどうか、また、どの部分表現が次の区分演算子−ノード開裂にかけられるかどうか判定する。
不変連結部除去ステップからの、得られた部分表現すべてが所望の区分基準を満たし、さらに区分することが必要とされない可能性がある。そのような場合には、区分プロセスは完了したと考えられる。
ノード開裂演算子が、1つまたは複数の区分基準を受けて、不変連結部除去から得られた1つまたは複数の部分表現に適用される。演算子を適用することにより、1つまたは複数の部分表現が生成される。先のステップと同様に、得られる部分表現のうち1つまたは複数が、供給された区分基準を満たすようにグラフを区分するやり方を演算子が見出すことができない場合、部分表現1つだけを生成することができる。そうでない場合には、複数の部分表現が生成される。次いで、さらなる区分基準が部分表現に適用され、どの部分表現がそれ以上区分されないかどうか、また、どの部分表現がさらなる区分にかけられるかどうか判定する。
ノード開裂ステップからの、得られた部分表現すべてが所望の区分基準を満たし、さらに区分することが必要とされない可能性がある。そのような場合には、区分プロセスは完了したと考えられる。
このステージでの部分表現は、得られる部分表現が所望の区分基準を満たすように、連結部除去演算子およびノード開裂演算子を適用することによって区分される。連結部除去演算子は、不変連結部を含めて、どのタイプの連結部をも除去することができることに留意されたい。所望の区分基準を満たす、接続されていない部分表現が生成されるように、連結部が除去され、ノードが開裂される。このステージで生成された部分表現は、独立であるように制約されず、接続されないにすぎない。いま、区分プロセスは完了したと考えられる。
この開示で述べられている発明は、分子処理において広く使用可能なものである。ここで、分子処理は、コンピュータ手段を介して1つまたは複数の分子の組合せを決定する、または特徴付けることを意味する。いくつかの実施形態では、これは、それだけには限らないが、可能な分子複合体またはその代用の形成の尤度の予測、ある環境内の分子サブセット間の結合親和力または結合エネルギーの推定、その分子の組合せについての結合モード(さらには追加の代替モード)の予測、あるいは、標的分子サブセットとの、予測された生物活性に基づく分子サブセット(たとえば、リガンド)の集まりのランク優先順位付けを含むことができ、したがって、コンピュータ標的−リガンド・ドッキングおよびスコアリングに関連する使用をも含むことになる。
次に、仮想スクリーニングにおける本発明の可能な使用の実施形態について述べる。この実施形態では、しばしばタンパク質である標的との、リガンドについての最良の結合モードを見出そうとする最適化アルゴリズムの一部として、分子変換およびエネルギーの迅速かつ効率的な計算が行われる。入力分子の多数の新しいコンフォメーションを迅速かつ効率的に生成するために、リガンドとタンパク質が共に区分される。分子データは、処理エンジンによって受け取られ、処理エンジンは、その分子をより小さな区画の形に区分する。適正なねじれおよび不適正なねじれ、2平面の回転、結合の延長、ならびに結合角変化など諸変換が、各区画内で1つまたは複数の結合に適用され、その分子について新しいコンフォメーションが並列の形で生成される。区画は、いくつかの分子変換エンジンによって並列で変換されるため、新しいコンフォメーションは、非常に迅速に生成される。それぞれが他方と異なるいくつかのコンフォメーションが生成される。各コンフォメーションからの各変換後区画は、親和力計算エンジンに送られ、親和力計算エンジンは、その特定の区画の、標的分子との親和力を計算する。区画は、変換ならびに親和力を計算するコストが区画全体にわたって一定であり、パイプラインを最大限に利用することを可能にするようなサイズおよび構造のものである。コンフォメーションは、計算された親和力の機能に基づいてランク付けされ、最悪のいくつかは廃棄される。残りの分子を使用し、新しいコンフォメーションを生成し、それについて親和力が計算され、以下同様である。
最適化プロセスは、1つまたは複数の所定の中止基準が満たされたとき中止される。簡単な中止基準の例は、最適化プロセス全体にわたって生成されたコンフォメーションの総数が所定の閾値を満たすことである。中止基準の他の例は、反復の数が所定の閾値に達したことである。