JP5032120B2

JP5032120B2 - 分子を区分するための方法および装置

Info

Publication number: JP5032120B2
Application number: JP2006535364A
Authority: JP
Inventors: サチンアフジャ、; キタ、デビット; フォドール、エニコ; プラカシュ、アディティヨ
Original assignee: バーセオン
Priority date: 2003-10-14
Filing date: 2004-10-14
Publication date: 2012-09-26
Anticipated expiration: 2024-10-14
Also published as: WO2005038431A2; WO2005038431A3; JP2007508637A; KR20070045141A; CA2542343C; US20050228592A1; US20160292394A1; EP1673627A2; KR101239466B1; US9317664B2; CA2542343A1; EP1673627A4

Description

本発明は、一般にバイオインフォマティクス、プロテオミクス、分子モデリング、コンピュータ支援分子設計（ｃｏｍｐｕｔｅｒ−ａｉｄｅｄｍｏｌｅｃｕｌａｒｄｅｓｉｇｎ）（ＣＡＭＤ）に関し、より詳細には、コンピュータ支援薬剤設計（ｃｏｍｐｕｔｅｒ−ａｉｄｅｄｄｒｕｇｄｅｓｉｇｎ）（ＣＡＤＤ）および分子の組合せ（ｍｏｌｅｃｕｌａｒｃｏｍｂｉｎａｔｉｏｎ）のコンピュータ・モデリングに関する。

本願は、２００３年１０月１４日に出願された「ＭＥＴＨＯＤＡＮＤＤＥＶＩＣＥＦＯＲＰＡＲＴＩＴＩＯＮＩＮＧＡＭＯＬＥＣＵＬＥ」という名称の米国仮出願第６０／５１１，１８９号からの優先権を主張し、その本出願である。その内容全体は、参照により本明細書に組み込まれる。

従来の創薬プロセスとその制限の説明は、本発明を理解するのに有用である。

何らかの生物学的状態を治療する、または治癒させるための新薬を発見することは、非常に長い、コストのかかるプロセスであり、典型的には、平均して１薬剤当たり１２年と８億ドルかかり、場合によっては、完成するために最大で１５年以上と１０億ドルかかる可能性がある。そのプロセスは、それ自体薬剤として、または最終的な薬剤分子の前駆体として働く潜在的な化学化合物を同定し、評価し、最適化するために、ウェット・ラボ試験／実験、様々な生化学的アッセイや細胞ベースのアッセイ、動物モデル、また、コンピュータ・ツールの形態のコンピュータ・モデリングを含む可能性がある。

創薬プロセスの目標は、潜在的な分子の相互作用（ｍｏｌｅｃｕｌａｒｉｎｔｅｒａｃｔｉｏｎ）または組合せを介して、有機体内の１つまたは複数の他の生体分子（すなわち、薬剤「標的」）、通常はバイオポリマーの機能に影響を及ぼす化学化合物またはリガンド、すなわち、バインダー（ｂｉｎｄｅｒ）、生体分子を同定し、特徴付けることである。本明細書では、バイオポリマーという用語は、タンパク質、核酸（ＤＮＡまたはＲＮＡ）、ペプチド、またはヌクレオチド配列、あるいはそれらの任意の一部分または断片のうち１つまたは複数を含む高分子（ｍａｃｒｏｍｏｌｅｃｕｌｅ）を指す。本明細書では、生体分子という用語は、バイオポリマー、炭水化物、ホルモン、あるいは、それだけには限らないが、合成化合物、医薬化合物（ｍｅｄｉｃｉｎａｌｃｏｍｐｏｕｎｄ）、薬剤様の化合物、もしくは天然の化合物、またはそれらの任意の一部分もしくは断片を含めて、無機または有機の他の分子または化学化合物の１つまたは複数を含む化学エンティティを指す。標的分子は、典型的には、患者の疾病または他の障害の治療において助けとなるように、機能、構造、および／または化学的活性の変化に影響を及ぼすことが望ましい疾病関連の標的タンパク質または核酸である。他の場合には、標的は、薬剤によって影響を受けたとき感染性有機体の生存または活性に影響を及ぼす、ウイルス、細菌、または寄生虫など疾病を引き起こす有機体内で見出される生体分子である。さらに他の場合には、標的は、癌細胞など、欠陥細胞または有害細胞の生体分子である。さらに他の場合には、標的は、抗原、あるいは、アレルギー反応または他の望ましくない免疫応答もしくは生体応答を誘発する可能性がある他の環境化学物質（ｅｎｖｉｒｏｎｍｅｎｔａｌｃｈｅｍｉｃａｌａｇｅｎｔ）である。

標的分子は、典型的には、患者の疾病または他の障害の治療において助けとなるように、機能、構造、および／または化学的活性の変化に影響を及ぼすことが望ましい疾病関連の標的タンパク質または核酸である。他の場合には、標的は、薬剤によって影響を受けたとき感染性有機体の生存または活性に影響を及ぼす、ウイルス、細菌、または寄生虫など疾病を引き起こす有機体内で見出される生体分子である。さらに他の場合には、標的は、癌細胞など、欠陥細胞または有害細胞の生体分子である。さらに他の場合には、標的は、抗原、あるいは、アレルギー反応または他の望ましくない免疫応答もしくは生体応答を誘発する可能性がある他の環境化学物質（ｅｎｖｉｒｏｎｍｅｎｔａｌｃｈｅｍｉｃａｌａｇｅｎｔ）である。

リガンドは、典型的には、小分子薬として知られるもの、または、効力、低毒性、膜透過性、溶解度、化学的／代謝安定性などの点で、望ましい、薬剤様の特性を有する化学化合物である。他の場合には、リガンドは、注入されたタンパク質ベースの、またはペプチド・ベースの薬剤、さらには別の本格的な（ｆｕｌｌ−ｆｌｅｄｇｅｄ）タンパク質など、生物学的なものとすることができる。さらに他の場合には、リガンドは、標的酵素の化学基質とすることができる。リガンドは、標的に共有結合することさえでき、あるいは、実際、タンパク質の一部分、たとえば、タンパク質２次構造構成要素、活性部位を含む、またはその近くのタンパク質ドメイン、適切なタンパク質４次構造のタンパク質サブユニットなどとすることができる。

背景考察の残りの部分全体を通して、別段特に区別がない限り、（潜在的な）分子の組合せは、１つのリガンドと１つの標的とを特色とすることになり、リガンドと標的は、別個の化学エンティティであり、リガンドは化学化合物であると仮定されることになる一方、標的は、典型的には、生体タンパク質（変異株または野生型）となる。標的としての核酸（ＤＮＡ／ＲＮＡ双方）の頻度は、遺伝子療法および病原微生物学（ｐａｔｈｏｇｅｎｉｃｍｉｃｒｏｂｉｏｌｏｇｙ）における進歩として、来るべき数年のうちに増大する可能性が高いことに留意されたい。また、「分子複合体」という用語は、好適な（しばしば水性）環境の中で互いに相互作用するとき、標的とリガンドの間の結合状態を指すことになる。「潜在的な」分子複合体は、確率は低いが発生する可能性があり、したがって正常な条件下で実際に形成することもしないこともある結合状態を指す。

創薬プロセス自体は、典型的には、４つの異なるサブプロセス、すなわち（１）標的の妥当性試験、（２）リードの生成／最適化、（３）前臨床試験、（４）臨床試験および承認を含む。

標的の妥当性試験は、疾病関連性を有する１つまたは複数の標的の決定を含み、通常、完了するのに２年半かかる。標的の妥当性試験フェーズの結果は、ある有機体内での標的分子の存在または作用が、何らかの効果、すなわち治癒または治療が求められる疾病を開始させる、悪化させる、またはその一因となる何らかの効果を引き起こす、またはそれに影響を及ぼすことを決定することを含む可能性がある。場合によっては、標的のための天然バインダーまたは基質をも、実験的方法を介して決定することができる。

リードの生成は、典型的には、標的分子に結合することができ、それによって、標的の機能の活性化、不活化、触媒作用、または阻害を介して標的の効果を変えるリード化合物の同定を必要とし、その場合には、リードは、薬剤適用プロセスで使用される好適な候補のリガンドとして見られることになる。リードの最適化は、所望の標的に対する結合親和力を改善する、選択性を高める、また、毒性、溶解度、代謝という基本問題に対処するために、リード候補を薬剤前駆体の形に化学的かつ構造的に洗練することを必要とする。リードの生成とリードの最適化は、一緒にして、典型的には完了するのに約３年かかり、さらに考察するために、化学的に異なるリードが１つまたは複数となる可能性がある。

前臨床試験では、生化学的アッセイや動物モデルを使用して、薬剤の吸収、分布、代謝、排泄、副作用、および必要とされる投与量に関係する様々な薬物動態学的要因について、選択されたリードを試験する。この前臨床試験は、約１年かかる。前臨床試験期間の後で、臨床試験および承認に、さらに６〜８年以上かかり、その間に、薬剤候補は、安全および効能について被験者で試験される。

合理的な薬剤設計は、一般に、効果的なリード候補の生成および最適化の設計のための基礎として、（構造ベースの）薬剤標的および／または（リガンド・ベースの）それらの天然リガンドについての構造情報を使用する。構造ベースの合理的な薬剤設計は、一般に、標的についての構造の３次元モデルを使用する。標的タンパク質または核酸については、そのような構造は、Ｘ線結晶構造解析／ＮＭＲまたは他の測定手順の結果とすることができ、あるいは、相同性モデリング、タンパク質モチーフおよび保存されたドメインの分析、ならびに／または、タンパク質の折り畳みもしくは核酸等価物のコンピュータ・モデリングから生じる可能性がある。多数の膜関連標的タンパク質、たとえばＧＰＣＲおよびイオン・チャネルについて考察するとき、モデルによって構築された構造がしばしば使用可能なすべてとなる。リガンドの構造は、同様の形で生成することもでき、その代わりに、リガンドがバイオポリマーでない限り、初めから、基本的な物理的原理や化学的原理を使用して、既知の２Ｄ化学表現から構築することもできる。

合理的な薬剤設計は、リードの最適化に対する標的リガンド分子相互作用および組合せのコンピュータ・モデリングから、所望の薬剤様の生体特性（ｂｉｏｌｏｇｉｃａｌｐｒｏｐｅｒｔｉｅｓ）のコンピュータ予測に及ぶ、いくつかのコンピュータ構成要素のいずれかの使用を組み込むことができる。合理的な薬剤設計の状況におけるコンピュータ・モデリングの使用は、主に、生物学的な「ウェット」ラボ試験などにおける、しばしば時間のかかる、またコストのかかる努力を回避することにより、必要とされる時間を削減すること、また薬剤研究開発の焦点および効率を改善することが望まれていることによって動機付けられている。

リードの生成の状況における標的とリガンドとの分子の組合せのコンピュータ・モデリングは、ライブラリーが１つまたは複数の化合物構造データベースとして仮想的に生成および記憶されようと、コンビナトリアル・ケミストリー（ｃｏｍｂｉｎａｔｏｒｉａｌｃｈｅｍｉｓｔｒｙ）および有機合成を介して構築されようと、化合物ライブラリーの大規模なコンピュータ内（ｉｎ−ｓｉｌｉｃｏ）スクリーニング（すなわち、ライブラリー・スクリーニング）を必要とする可能性があり、所期の標的分子に関して、生物活性のコンピュータ予測（または等価な尺度）に基づいて、リガンドの選択されたサブセットをランク付けするためにコンピュータ方法を使用する。

本文全体にわたって、「結合モード（ｂｉｎｄｉｎｇｍｏｄｅ）」という用語は、最小の結合エネルギー（すなわち最大の結合親和力）で、またはその近くで結合状態にある潜在的な分子複合体の３Ｄ分子構造を指し、この場合、（「結合自由エネルギー」と、またはその概念上正反対の同等物である「結合親和力」と交換されることがある）「結合エネルギー」という用語は、潜在的な分子複合体が形成されたときの分子系の自由エネルギーにおける変化、すなわちリガンドおよび標的について、非結合状態から（潜在的な）結合状態への遷移を指す。

結合親和力は、創薬と合理的な薬剤設計に直接利害のあるものである。というのは、生体過程または経路の一部であるタンパク質と、その生体過程または経路の修正を目標とするために求められる薬剤候補など、２つの分子の相互作用は、しばしば、その薬剤候補がその目的をどれだけ良好に果たすことになるか示す助けとなるからである。さらに、結合モードが決定可能である場合、標的に対する薬剤の活動をよりよく理解することができる。そのような理解は、たとえば、リガンドの１つまたは複数の特性を、（標的に関して）その効力、（他の標的バイオポリマーに関して）結合特異性、または他の化学的特性および代謝特性を改善するように、さらに修正することが望ましいとき有用となる可能性がある。

標的分子とリガンドの間の親和力を測定または推定するために、いくつかの実験室的手法がある。標的は、しばしば最初に単離され、次いで試験管内で（ｉｎｖｉｔｒｏ）リガンドと混合され、高スループット・スクリーニングに関連付けられた無数の生化学的／機能的アッセイにおいてなど、実験的に分子相互作用が評価される可能性がある。しかし、そのような方法は、標的が簡単に単離され、リガンドが簡単に製造され、分子相互作用が容易に測定される場合に最も有用であるが、標的を容易に単離することができない、単離が生体過程または疾病経路と干渉する、リガンドを十分な量で合成することが困難であるとき、あるいは特定の標的またはリガンドが前もって十分に特徴付けられない場合、より問題となる。後者の場合には、その標的とリガンドの可能な組合せすべてについて、数千または数百万の実験が必要となり、実験室的手法の使用を非実現可能なものにする可能性がある。

最初に、標的（さらにタンパク質ファミリーのメンバーなど関連標的）の様々な化学的特性および生体特性、ならびに／あるいは１つまたは複数の既知の天然バインダーまたはその標的に対する代用の専門知識を使用し、実験室処理に必要とされる組合せの数を削減することによってこのボトルネックを解決しようと、いくつかの試みがなされているが、大抵の場合において、これは依然として非実際的であり、非常にコストがかかる。実験室設定で実際に分子を組み立て、実験的な結果を測定する代わりに、別の手法は、コンピュータを使用し、２つ以上の分子間の分子相互作用をシミュレーションし特徴付けることである（すなわち、コンピュータ内でモデル化された分子の組合せ）。分子の組合せや相互作用を評価するためにコンピュータ方法を使用することは、通常、構造ベースであろうと、リガンド・ベースであろうと、両方であろうと、合理的な薬剤設計の１つまたは複数のステージに関連する。

所与の標的−リガンド対について潜在的な分子の組合せの性質および／または尤度をコンピュータによりモデル化するとき、結合モードおよび親和力の実際のコンピュータ予測は、通例、２部で、すなわち（ａ）コンピュータ・システムが、リガンドおよび標的について最適な結合モードを予測しようと試みる「ドッキング」と、（ｂ）コンピュータ・システムが、計算された結合モードに関連する結合親和力を推定しようと試みる「スコアリング」で行われる。ライブラリー・スクリーニング中には、やはりスコアリングを使用し、標的分子に関して、あるリガンド対別のリガンドについて相対結合親和力を予測し、それによってリガンドをランク優先順位付けする、または結合についての確率を割り当てることができる。

ドッキングは、好ましい親和力を有する１つまたは複数の系ポーズを見つけることを意図して、事実上決定論的であろうと確率論的であろうと、探索または機能最適化アルゴリズムを必要とする可能性がある。スコアリングは、親和力機能のより洗練された推定を必要とする可能性があり、この場合、親和力は、１つまたは複数の実験による、または分子力学ベースの、または量子力学ベースの、または知識ベースの式の組合せ、すなわちスコアリング関数を用いて表される。個々のスコアリング関数は、様々な定式化（ｆｏｒｍｕｌａｔｉｏｎ）を使用して、よりロバストなコンセンサススコアリング・スキームを形成するためにそれ自体組み合わせることができる。実際には、今日のコンピュータ薬剤設計の状況において使用される多数の異なるドッキング戦略およびスコアリング・スキームがある。

どのコンピュータ方法を選択しようと、基礎となる分子モデルと固有の数値アルゴリズム双方のコンピュータ上の複雑さと、各分子の組合せを処理するために割り振らなければならないコンピューティング資源の量（時間、ＣＰＵの数、シミュレーションの数）との間で固有の兼ね合いがある。たとえば、明示的な水分子によって囲まれた、また無数の時間ステップにわたって進化した２つの分子の、高度に洗練された分子動力学シミュレーション（ＭＤ）は、潜在的な分子の組合せをモデル化する際に精度をより高める可能性があるが、結果として生じるコンピュータ・コスト（すなわち、時間およびコンピューティング・パワー）は膨大であり、その結果、そのようなシミュレーションは、分子の組合せがわずか２、３個を超えると使用するのに扱いにくいものである。一方、複数の、しばしば誤りを起こしやすいモデリング・ショートカットおよび近似と共に、分子相互作用を表すためにより未発達のモデルを使用すると、コンピュータ・コストはより許容されるものになる可能性があるが、モデリング精度と予測力の点から常に著しい性能劣化を引き起こすことになる。現在、薬剤候補のライブラリーを標的タンパク質に対してチェックするプロセスですら、現行のコンピュータ・システムを使用して必要とされる精度を求めるためには非常に長くかかる。

精度とスピードの間の兼ね合いはまた、合理的な薬剤設計における他のコンピュータ・ステップについても存在する。たとえば、大規模な仮想ライブラリーは、高速な仮想スクリーニングのために、正確かつ迅速に同様の分子からなるグループの形に集めることを必要とする。他の例では、リード洗練は、リードの生成ステージで十分にドッキングされていると判定されたものと類似の分子について、分子ライブラリーを正確かつ迅速に探索することを必要とする。ライブラリー・スクリーニングおよび探索のための現行の技法は、非常に不正確かつ非効率であり、その結果、合理的な創薬解決策の一部として実行可能なものではない。

本発明は、概して、様々なシナリオにおいて効率的な分子処理を可能にするような形で分子表現を生成するための方法を提供することに関する。合理的な薬剤設計および創薬に必要とされるほとんどすべてのコンピュータ・プロセス−ライブラリー構築、分子マッチング、ライブラリー探索、ドッキング、スコアリング−は、分子表現を効率的に処理するための方法から利益を受けることができる。ここで分子表現を処理することは、結合を回転させること、結合を延ばす、または収縮させること、原子のグループを回転させること、などにより、分子の構造または分子の一部を変換することを意味する可能性がある。また、分子または分子の一部間での親和力機能を計算することを必要とする可能性がある。広範な潜在的な入力−サイズおよび構造の異なる数千万の分子−と、多数の異なるタイプの分子処理のため、コンピュータ・システムの資源に対する需要は、幅広く変わる可能性がある。たとえば、典型的には、同じ標的に対して、より小さな分子についての結合親和力を計算するためのコンピュータ資源は、より大きな分子の場合ほどかからない。他の例では、概して、小さな分子について空間変換を計算する方が、大きな分子よりコンピュータ上安価である。

当業者には、汎用マイクロプロセッサ上で実行するソフトウェアにおいてであろうと特別に設計されたハードウェアにおいてであろうと、概して、コンピュータ・コストが可変のタスクは非効率になる傾向があると理解されている。ソフトウェアとして実装されたとき、あるタスクに対するコンピュータ・コストが予測不能であると、コード局所性が不十分に、またデータ局所性が不十分になる可能性があり、（たとえば、ページ障害が発生したとき）メモリ・アクセスが予測不能になる可能性があり、そのソフトウェアをどれだけ最適化することができるかを制限し、これによりそのソフトウェアの適用が厳しく制約される可能性がある。コンピュータ・コストが可変のタスクは、特別に設計されたハードウェア内で実装されたとき、ハードウェア設計の複雑さを非常に増大し、設計プロセスがより長い、よりコストのかかるものとなり、最終設計は、定コスト・タスクの場合よりはるかに効率が低くなる傾向がある。したがって、コストが可変のタスクは、１つまたは複数の定コスト・タスクの集まりとして実装することが有利である。

図１は、一連の処理エンジン１０１、１０２、１０３、１０４からなり、その結果、各処理エンジンの出力が以下の処理エンジンの入力である一般的な処理システム１００の例を示す。第１のエンジン１０１のための入力１１０は、一実施形態においてデータベース・サーバ、他の実施形態においてファイル・サーバ、さらに他の実施形態においてシステム・ボード上のストレージとすることができる入力ブロックからのものである。最終エンジン１０４からの出力は、一実施形態においてデータベース・サーバ、他の実施形態においてそのプロセッサ上のストレージ、他の実施形態においてシステム・ボード上のストレージとすることができる出力ブロック１２０に進む。そのような一連のエンジン１００はまた、パイプラインとして知られる。

その入力からの出力を生成するためにパイプライン・ステージによってかかる時間量は、パイプライン・ステージ間隔（またはステージ間隔）として定義される。パイプライン・ステージへの入力は、ステージ間隔の最初に読み出される。すなわち、入力データは、ステージ間隔の前ではなく、開始した後で読み出すために使用可能であることが保証される。パイプライン・ステージからの出力は、ステージ間隔の終了の前ではなく、その後でだけ使用可能であることが保証される。

処理エンジン１０１、１０２、１０３、１０４は、各処理エンジンについてのステージ間隔が正確に同じ持続時間のものである場合、すなわち、各ステージが、定コスト・タスクを実行しつつある場合、決してアイドルでないことは自明であるはずである。次の入力は、特定の処理エンジンが入力から出力を生成すると直ちに、処理するために使用可能である。すなわち、時間は、エンジンが次の入力を待つことによってアイドルで費やされない。１つまたは複数のエンジンが、出力を生成するために、パイプライン内の他のエンジンより長くかけている場合、いくつかのエンジンは、しばらくアイドルのまま費やし、したがって、アイドルの処理エンジンの利用率１００％未満に向かう。処理エンジン利用率は、より速いエンジンがかける時間と整合するためにより遅いエンジンがかける時間を削減することによって改善することができる。一例では、各エンジン１０１、１０３、１０４についてのステージ間隔は１０サイクルであり、１０２についてのステージ間隔は２０サイクルである。ここで、サイクルは、概してシステム・クロック速度によって決定される、コンピュータによって認識される基本時間を意味する。現在の例では、エンジン１０１、１０３、１０４は、２０サイクルのうち１０サイクルの間アイドルとなり、パイプライン内の４つのエンジンのうち３つの利用率が５０％にすぎないことになる。一例では、１０２についてのステージ間隔を１５サイクルに削減すると、１０１、１０３、１０４の利用率が６６．７％に改善される。他の例では、１０２についてのステージ間隔を１０サイクルに削減すると、１０１、１０３、１０４の利用率が１００％に改善される。１０２についてのステージ間隔を５サイクルにさらに削減すると、１０１、１０３、１０４の利用率が１００％に改善されるが、１０２の利用率が５０％に減少する。したがって、パイプライン内のエンジンの利用率は、可能な限り各ステージ間隔が同じ持続時間のものとなるように、エンジンとそれらの入力データを設計することによって改善することができる。最大のエンジン利用率は、エンジンすべてについてのステージ間隔が同じ持続時間のものであるとき達成される。

一実施形態では、入力データをより小さなセットの形に区分することにより、パイプライン内のエンジンについてのステージ間隔を削減することができる。また、エンジンが各区画についてほぼ同じ時間をかけるように入力を区分することによって、より大きな効率を得ることができる。パイプラインのある実施形態では、エンジンに、各区画について、ほぼではなく正確に同じ時間量をかけさせることにより、パイプラインを最大限に効率的にすることが望ましい可能性がある。ステージ間隔の持続時間を削減する他の方法は、同じ量のコンピュータ作業を行うために、より多くの計算単位をパイプライン・ステージに充当することである。

また、パイプラインは、そのパイプライン内の他のステージより速いステージについてのステージ間隔の持続時間を増大することによって、より効率的にすることができる。ステージ間隔持続時間を増大する方法は、同じ量のコンピュータ作業を行うために、ステージに充当する計算単位をより少なくすることである。ステージ間隔の持続時間を増大する別の方法は、エンジンをしばらくの間アイドルにすることである。

広範な潜在的な入力−たとえば、サイズおよび構造の異なる数千万の分子−は、コンピュータ・システムに対する需要を幅広く変える可能性があることを想起されたい。システムに対する需要は、幅広く変わるストレージの量、および入力データ用の伝送帯域幅を含む可能性がある。たとえば、システムが分子を全体で処理する場合には、より大きな分子は、より小さな分子よりプロセッサ上のより多くのストレージを必要とすることになる。したがって、最も広範な分子を処理することができるようにするために、プロセッサは、多数の入力分子が最大の分子よりはるかに小さい可能性がある場合ですら、最大の分子に関連するデータを記憶することができなければならない。明らかに、最大の分子を保持するようにストレージを設計することは、非効率であり無駄の多いものである。

ストレージと伝送帯域幅の要件は、入力分子データを、より小さな一部の形に区分し、それにより各部をパイプライン化して処理することができるようにすることによって削減することができる。そのような場合には、任意の所与の時間で、パイプラインによって処理されつつある分子データの一部だけ伝送および記憶し、したがって分子全体を伝送および記憶する必要をなくすることを必要とする。さらに、エンジンが処理することができる分子のサイズは、もはやプロセッサまたはシステム・ボード上のストレージのサイズによって決定されない。処理エンジンは、分子がより小さな一部の形に区分される限り、任意のサイズ−小さな、または大きな−分子を処理することが可能である。

本発明者らは、入力データをより小さな一部の形に区分することによって、パイプライン化された処理をどのように可能にすることができるかについて論じた。パイプライン実装それ自体は、区画のサイズに対して制限を課す。区画サイズが非常に小さい場合には、所望の計算を実行するために、より多くのパイプライン・ステージが必要とされることを、当業者なら理解するであろう。各パイプライン・ステージについてのステージ間隔は、各ステージが非常に少量のデータを処理することを必要とするため、非常に短いものとなる。しかし、パイプライン・ステージの数を増大することは、パイプラインの設計がより複雑になることを意味する。パイプラインの複雑さの増大は、たとえば、パイプライン・ステージ間のルーチン量の増大、パイプライン・ステージ間のステージ量の可能な増大など、様々な理由に帰すことができる。複雑さが増大すると、一般に、設計サイクルがコストのかかる、より長いものとなり、最終的に製品がより高価になる。

この特許に述べられている本発明は、入力、すなわち分子の表現を区分するための方法を提供し、その結果、各区画がシステムに対するほぼ同じコンピュータ需要を作り出すことによって分子処理のコンピュータ効率を高めようと試みる。一例では、コンピュータ需要は、プロセッサ上またはプロセッサ外のストレージ量によって測定することができる。他の例では、コンピュータ需要は、データを１つまたは複数のプロセッサとの間で転送するために必要とされる帯域幅の量によって測定することができる。さらに他の例では、コンピュータ需要は、計算単位の数によって測定することができ、計算単位の数は、ゲートの数、経路指定要件、プロセッサ上の計算ブロックのサイズなどによって測定される。

リガンド−標的ドッキングのための現行のコンピュータ方法は、それらの特定のドッキング方法用に設計されている分子のデジタル表現を使用する。たとえば、ＦｌｅｘＸは、分子の断片を増加的にドッキングすることによって、潜在的な薬剤分子の結合モードを計算する。ＦｌｅｘＸは、柔軟性であると考えられる分子の結合すべてを破断することによってその断片を構築し、したがってそれ自体剛直性である断片を構築する。分子断片を使用する、ＦｌｅｘＸに似た他のコンピュータ・ドッキング方法は、プレース・アンド・ジョイン（ｐｌａｃｅ−ａｎｄ−ｊｏｉｎ）法である（非特許文献１）。プレース・アンド・ジョイン法で使用される分子断片は、２つの隣接する柔軟性結合を有する原子部で分子を破断することによって構築される。次いで、その断片は、増加的に「配置」され、分子の結合モードを再構築しようと試みて破断点で「接合」される。増分ドッキング方法は、コンピュータ資源に対するほぼ同じ需要を作り出すことを保証しない断片を生み出し、したがって、それらは、パイプライン化された実装に依拠するドッキング実装に好適でない。

また、ある種の計算を速める必要ではなく分子の物理的または化学的特性に触発された、いくつかの分子表現スキームも存在する。ＲＥＣＡＰは、１組の化学的規則に基づいて分子を区分する（非特許文献２）。ＲＥＣＡＰ規則は、化学的に合成することができる断片を生み出すことが意図されている。その規則は、得られる断片の剛直性または柔軟性に基づくものではない。ＲＥＣＡＰ規則はまた、より効率的な分子処理計算を容易にすることを意図したものではなく、コンビナトリアル薬剤設計および合成について案内するためのものである。

本発明は、分子全体より高い効率で、特別に設計されたハードウェアにおいて諸部を記憶、伝送する、また他の方法で処理することができるように、より小さな一部の形に分子の区分を可能にする。区分された表現は、分子の構造、分子に対して実行される処理、およびパイプラインの設計を考慮することによって構築される。好ましい実施形態では、最初に分子のグラフ表現が構築される。そのグラフ表現は、最初に、不変連結部除去演算子（ｉｎｖａｒｉａｎｔｌｉｎｋｒｅｍｏｖａｌｏｐｅｒａｔｏｒ）を使用して区分され、その結果、ある区分基準を満たすサブグラフが生成される。１つまたは複数のサブグラフがさらなる処理を必要とする場合、ノード開裂演算子（ｎｏｄｅ−ｃｌｅａｖｉｎｇｏｐｅｒａｔｏｒ）が適用され、その結果、やはり１組の区分基準を満たす、さらなるサブグラフが生成される。最後に、任意のサブグラフが依然としてさらなる区分を必要とする場合、不変連結部だけでなく、あらゆるタイプの連結部を除去することができ、得られるサブグラフが最終的な１組の基準を満たすまでノードを開裂することができる。グラフ区分により、分子全体よりはるかに効率的に記憶、伝送、処理される、より小さな区画が得られる。効率の増大により、合理的な創薬、仮想ライブラリー設計など、複雑な分子処理を必要とするアプリケーションを設計し動作させることが可能になる。

本発明の分野における従来技術は、大量に文書化されている。

ドルーズ（非特許文献３）は、創薬の現況の優れた全体像を提供する。（非特許文献４）では、アバジャンとトトロフは、高スループット・ドッキングおよびスコアリングとそのアプリケーションの状態を示す。ラムら（非特許文献５）は、さらにタンパク質の族に対する複数のコンビナトリアル・ライブラリーの設計、ドッキング、仮想スクリーニングに対して一般的な手法を教示し、最後に、ワスコウィクスら（非特許文献６）は、複数のコンピュータを使用し、リガンドのグループを特定のコンピュータに割り当てることによって、特定の標的に対する大規模なリガンド・ライブラリーの仮想スクリーニングを加速することについて述べている。

現在、ドッキング・シミュレーションを実行するために使用されるソフトウェア・ツールのいくつかの例がある。これらの方法は、ａ）表面相関、幾何学的ハッシングの使用、ポーズ・クラスタリング、またはグラフ・パターンマッチングに基づく、剛体パターンマッチング・アルゴリズム、ｂ）増分構築（ｉｎｃｒｅｍｅｎｔａｌｃｏｎｓｔｒｕｃｔｉｏｎ）または「プレース・アンド・ジョイン」演算子を含む、断片ベースの方法、ｃ）モンテ・カルロ、シミュレーテッド・アニーリング（ｓｉｍｕｌａｔｅｄａｎｎｅａｌｉｎｇ）、または遺伝子（またはミーム（ｍｅｍｅｔｉｃ））アルゴリズムの使用を含む確率的最適化法、ｄ）分子動力学シミュレーション、またはｅ）それらから導出された混成戦略の使用を含めて、広範なコンピュータ技法を含む。

最も初期のドッキング・ソフトウェア・ツールは、１９８２年（ｖ１．０）に遡ってＵＣＳＦで開発され、現在（増分構築を含むための拡張と共に）ｖ５．０まで開発されている、ＤＯＣＫ（非特許文献７、８、９）と呼ばれるグラフ・ベースの剛体パターンマッチング・アルゴリズムであった。グラフ・ベースのパターンマッチング・アルゴリズムの他の例には、ＣＬＩＸ（非特許文献１０）（これはＧＲＩＤ（非特許文献１１）を使用する）、ＦＬＯＧ（非特許文献１２）、ＬＩＧＩＮ（非特許文献１３）が含まれる。

他の剛体パターンマッチング・ドッキング・ソフトウェア・ツールには、ＦＴＤＯＣＫ（非特許文献１４）およびＨＥＸ（非特許文献１５）の形状ベースの相関法、フィッシャーらの幾何学的ハッシング（非特許文献１６）、またはラレイらのポーズ・クラスタリング（非特許文献１７）が含まれる。

一般に、剛体パターンマッチング・アルゴリズムは、標的とリガンドが共に剛体である（すなわち、柔軟性でない）と仮定し、したがって、小さな剛直性分子（または分子断片）を、明確な、ほぼ剛直性の活性部位を用いて簡単なタンパク質にドッキングするのに適している可能性がある。したがって、このクラスのドッキング・ツールは、リガンド当たり複数のコンフォーマを含む分子ライブラリーの新たなリガンド設計、コンビナトリアル・ライブラリー設計、または複雑でない剛体スクリーニングに適している可能性がある。

増分構築ベースのドッキング・ソフトウェア・ツールには、（ＥＭＢＬからライセンスされた）ＴｒｉｐｏｓからのＦｌｅｘＸ（非特許文献１８、１９）、Ｈａｍｍｅｒｈｅａｄ（非特許文献２０）、（任意選択として）ＤＯＣＫｖ４．０（非特許文献９）、およびリーチらのノングリーディのバックトラッキング・アルゴリズム（非特許文献２１）が含まれる。新たなリガンド設計の状況において増分構築を使用するプログラムには、（Ａｃｃｅｌｒｙｓからの）ＬＵＤＩ（非特許文献２２）およびＧｒｏｗＭｏｌ（非特許文献２３）が含まれる。「プレース・アンド・ジョイン」戦略に基づくドッキング・ソフトウェア・ツールには、デジャレらが含まれる（非特許文献１）。

増分構築アルゴリズムを使用し、十分に特徴付けられた活性部位を用いた、剛直性標的分子に対する柔軟性リガンドのドッキングをモデル化することができる。増分構築アルゴリズムは、１つまたは複数の標的に対して柔軟性リガンドのライブラリーをスクリーニングするとき使用することができる。増分構築アルゴリズムは、多数のそれらの確率的最適化ベースの競合相手より、比較的計算量がかからないが、したがってそれらより正確でない。しかし、ＦｌｅｘＸですら、１つの標的−リガンド組合せを処理するために１〜２分未満程度かかる可能性があり、したがって、ライブラリーのサイズ（数千万以上の化合物）に応じて、依然としてコンピュータにとって重荷になる可能性がある。増分構築アルゴリズムは、しばしば１つまたは複数のスコアリング関数を使用し、計算中に遭遇する異なる系ポーズを評価およびランク付けする。最近、ＦｌｅｘＸはＦｌｅｘＥ（非特許文献２４）に拡張され、ある活性部位回転異性体のユーザ定義集団（ｅｎｓｅｍｂｌｅ）の使用を介して、標的分子の活性部位の部分的な柔軟性を反映しようと試みている。

確率的最適化に基づくコンピュータ・ドッキング・ソフトウェア・ツールには、すべて修正型モンテ・カルロ技法に基づく（ＭｏｌＳｏｆｔからの）ＩＣＭ（非特許文献２５）、（Ｓｃｈｒｏｄｉｎｇｅｒからの）ＧＬＩＤＥ（非特許文献２６）、（Ａｃｃｅｌｒｙｓからの）ＬｉｇａｎｄＦｉｔ（非特許文献２７）、ならびにシミュレーテッド・アニーリングに基づく（ＳｃｒｉｐｐｓＩｎｓｔｉｔｕｔｅからの）ＡｕｔｏＤｏｃｋｖ．２．５（非特許文献２８）が含まれる。遺伝子アルゴリズムまたはミーム・アルゴリズムに基づく他のものには、ＧＯＬＤ（非特許文献２９、３０）、ＤＡＲＷＩＮ（非特許文献３１）、（やはりＳｃｒｉｐｐｓからの）ＡｕｔｏＤｏｃｋｖ．３．０（非特許文献３２）が含まれる。

確率的最適化ベースの方法を使用し、標的分子に対する柔軟性リガンドのドッキングをモデル化することができる。確率的最適化ベースの方法は、一般に、親和力機能の分子力学ベースの定式化を使用し、また、様々な戦略を使用し１つまたは複数の好ましい系エネルギーの最小量を求めて探索する。確率的最適化ベースの方法は、しばしば、それらの増分構築の競合相手より計算量がかかるが、よりロバストでもある。確率的最適化ベースの方法は、事実上確率的なものであるため、ランまたはシミュレーションが異なると、しばしば予測が異なる可能性がある。従来、確率的最適化を使用する大抵のドッキング・ソフトウェア・ツールは、標的がほぼ剛直性であると仮定する（すなわち、活性部位内の水素結合ドナー基およびアクセプタ基が回転することができる）。というのは、そうでない場合には、組合せの（ｃｏｍｂｉｎａｔｏｒｉａｌ）複雑さが増大し、問題を合理的な時間内でロバストに解決するのが直ちに困難になるからである。

分子動力学シミュレーションもまた、標的−リガンド組合せのコンピュータ・モデリングの状況において使用されている。これには、ディ・ノラら（非特許文献３３）および（モンテ・カルロと共に）ルティら（非特許文献１８）に提示された実装が含まれる。原理上は、分子動力学シミュレーションは、タンパク質柔軟性を任意の程度でモデル化することが可能である。一方、分子動力学シミュレーションはまた、多数のきめ細かい時間ステップの評価を必要とする可能性があり、したがって、しばしば非常に時間がかかる（標的−リガンド組合せ当たり数時間さらには数日程度）。また、分子動力学シミュレーションは、しばしば、有効な軌道を選択するためにユーザ対話を必要とする。したがって、リード発見における分子動力学シミュレーションの使用は、少数の有望なリード候補を特色として、予測される複雑さを局所的に最小限に抑えることに、より適している。

混成方法は、選択された低エネルギー・リガンド・コンフォメーションを高速スクリーニングするために剛体パターン・マッチングを使用することを必要とし、その後に、生き残るポーズのモンテ・カルロねじれ最適化（ｔｏｒｓｉｏｎａｌｏｐｔｉｍｉｚａｔｉｏｎ）、さらに最後に、（潜在的に）柔軟性のタンパク質活性部位と組み合わせて少数の選択（ｃｈｏｉｃｅ）リガンド構造の分子動力学的洗練が続く可能性がある。このタイプのドッキング・ソフトウェア戦略の例は、ワンら（非特許文献３４）である。

ソフトウェア内で実装され、標的−リガンド親和力を推定する、または異なるリガンドをライブラリー・スクリーンに従ってランク優先順位付けする、または中間ドッキング・ポーズをランク付けし結合モードを予測するために使用されるスコアリング関数のいくつかの例がある。スコアリング関数は、従来、３つの異なるカテゴリ、すなわちａ）実験によるスコアリング関数、ｂ）分子力学ベースの式、またはｃ）知識ベースのスコアリング関数またはそれらから導出された混成スキームに入る。

（標的−リガンド組合せに適用されるように）実験により導出されたスコアリング関数は、最初に、しばしばＱＳＡＲ調査で使用される線形自由エネルギー関係によって触発された。初期の例は、（ＬＵＤＩで使用される）ボームらのものである（非特許文献１８、３５）。他の実験によるスコアリング関数には、（ＦｌｅｘＸで使用される）ＳＣＯＲＥ（非特許文献３６）、ＣｈｅｍＳｃｏｒｅ（非特許文献３７）、ＰＬＰ（非特許文献３８）、Ｆｒｅｓｎｏ（非特許文献３９）、ＧｌｉｄｅＳｃｏｒｅｖ．２．０＋（非特許文献４０）（ＧＬＩＤＥによって使用される、ＣｈｅｍＳｃｏｒｅの修正形態）が含まれる。

一般に、実験によるスコアリング関数は、特に大規模な化合物ライブラリー・スクリーニングの状況において、今日使用されているスコアリング関数の大部分を含む。基本的な前提は、それぞれが関連の数値重み（ｎｕｍｅｒｉｃａｌｗｅｉｇｈｔ）で乗算され、それぞれが（いわゆる）「マスター・スコアリング式」で表された１組の相互作用構成要素の１つを表す、実験によるエネルギー・モデルの線形組合せを較正することであり、マスター・スコアリング式は、分子の組合せの結合自由エネルギーを十分に近似しようと試みる。数値重み係数は、標的−リガンド複合体のトレーニング・セットについて構成された実験的結合自由エネルギー・データにフィッティングすることによって得ることができる。

分子力学ベースのスコアリング関数は、最初に、ＡＭＢＥＲ（非特許文献４１、４２）、ＯＰＬＳ（非特許文献４３）、ＭＭＦＦ（非特許文献４４）、ＣＨＡＲＭＭ（非特許文献４５）のような分子力学力場の状況において分子モデリングの際に使用するために開発された。分子力学ベースのスコアリング関数の諸例には、（ＡＭＢＥＲに基づく）ＤＯＣＫｖ．４．０の化学およびエネルギー・ベースのスコアリング関数（非特許文献９）、ＧＯＬＤで使用される目的関数（非特許文献２９、３０）、（実験による重量を用いる）ＡｕｔｏＤｏｃｋｖ．３．０（非特許文献３２）、およびＦＬＯＧ（非特許文献１２）が含まれる。

一般に、分子力学ベースのスコアリング関数は、多数の確率的最適化ベースのドッキング・プログラムによって使用される目的関数に酷似している可能性がある。そのような関数は、典型的には、１つまたは複数の分子力学力場（たとえば、ＡＭＢＥＲ、ＭＭＦＦ、ＯＰＬＳなど）に基づいて、様々な属性（たとえば、電荷、質量、ｖｄＷ半径、結合平衡定数（ｂｏｎｄｅｑｕｉｌｉｂｒｉｕｍｃｏｎｓｔａｎｔ）など）の原子（または化学基）レベルのパラメータ化を必要とする。場合によっては、リガンドについての関係あるパラメータ、たとえば、ＭＯＰＡＣ（非特許文献４６）、ＡＭＰＡＣ（非特許文献４７）、またはＡＭＳＯＬ（非特許文献４８）の使用を介して割り当てられるリガンド部分電荷をも、他の分子モデリング・ソフトウェア・パッケージの使用に基づいて割り当てることができる。それらはまた、分子内相互作用（すなわち、分子の自己エネルギー）、ならびに静電気など遠距離相互作用を含むことができる。場合によっては、エネルギー項（ｅｎｅｒｇｙｔｅｒｍ）の組合せは、この場合も、試験リガンド−標的複合体の再現のために最適化された数値重みを介して達成することができる。

知識ベースのスコアリング関数は、最初に、液体をモデル化するための平均力統計力学（ｍｅａｎｆｏｒｃｅｓｔａｔｉｓｔｉｃａｌｍｅｃｈａｎｉｃｓ）法の可能性によって触発された。諸例には、ＤｒｕｇＳｃｏｒｅ（非特許文献４９）、ＰＭＦ（非特許文献５０）、ＢＬＥＥＰ（非特許文献５１）が含まれる。

一般に、知識ベースのスコアリング関数は、親和力機能の区分を必要としない。しかし、知識ベースのスコアリング関数は、関係ある分子複合体の３Ｄ構造の大規模なデータベースの使用を必要とする。また、通常、既知の実験的結合親和力を用いて分子複合体のデータ・セットに対して後退する必要がない。これらの方法は、２つの原子間で、所与の距離で相互作用がより好ましいほど、バルクの無秩序な媒質内で、予想に対して、その発生がより頻繁になるという基礎の仮定に基づくものである。これらのスキームは、「逆ボルツマン（ｉｎｖｅｒｓｅＢｏｌｔｚｍａｎｎ）」スキームと呼ばれることがあるが、実際には、高分子およびタンパク質の折り畳み内に局所的な最適化された構造が存在することは、距離依存の１対ずつの選好分布（ｐｒｅｆｅｒｅｎｃｅｄｉｓｔｒｉｂｕｔｉｏｎ）が厳密にボルツマンである必要がないことを意味する。また、他の分子記述子、たとえば、溶媒和効果の近似のための溶媒接触可能表面（ｓｏｌｖｅｎｔ−ａｃｃｅｓｓｉｂｌｅｓｕｒｆａｃｅ）領域に基づく一重項選好（ｓｉｎｇｌｅｔｐｒｅｆｅｒｅｎｃｅ）の概念を導入することも可能である。

混成スコアリング関数は、異なるタイプの１つまたは複数のスコアリング関数の混合とすることができる。一例は、ＶＡＬＩＤＡＴＥ（非特許文献５２）であり、これは、分子力学／実験による混成関数である。スコアリング関数の他の組合せは、複数の関数を各分子の組合せについて評価することができ、何らかの形態の「コンセンサス」判断が、１組の規則または統計的基準、たとえば、各スコアリング関数の上位１０％ランク・リスト内で発生する（交差ベースの）状態、高平均ランクを有する（平均ベースの）状態などに基づいて行われるコンセンサス・スコアリングの概念を含むことができる。コンセンサス・スコアリングの有用な調査考察は、ビサンツら（非特許文献５３）に見ることができる。

しかし、標的−リガンド分子の組合せのモデル化のために使用可能な現行のどのコンピュータ・ツールも、潜在的な薬剤候補の効率的な大規模スクリーニングを可能にするために今日の創薬で必要とされる必要精度とスピードを共に実現しない。

構造データベースに関連して、標的タンパク質と化合物双方についての構造および化学情報のデジタル表現のために、様々なファイル・フォーマットがある。諸例には、ｐｄｂ、（Ｔｒｉｐｏｓからの）ｍｏｌ２、ＳＭＩＬＥＳフォーマットが含まれる。

化学的、構造的規則に基づいて分子を区分する分子表現スキームが存在する。
米国仮出願第６０／５１１，１８９号Ｒ．Ｌ．デジャレ、Ｒ．Ｐ．シェリダン、Ｊ．Ｓ．ディクソン、Ｉ．Ｄ．クンツ、Ｒ．ヴェンカタラーグヴァン、「ＤｏｃｋｉｎｇＦｌｅｘｉｂｌｅＬｉｇａｎｄｓｔｏＭａｃｒｏｍｏｌｅｃｕｌａｒＲｅｃｅｐｔｏｒｓｂｙＭｏｌｅｃｕｌａｒＳｈａｐｅ」、Ｊ．Ｍｅｄ．Ｃｈｅｍ．、Ｖｏｌ．２９、２１４９−２１５３（１９８６）シャオ・チャン・レウェル、ダンカン・Ｂ．ジャド、ステファン・Ｐ．ワトソン、マイケル・Ｍ．ハン「ＲＥＣＡＰＲｅｔｒｏｓｙｎｔｈｅｔｉｃＣｏｍｂｉｎａｔｏｒｉａｌＡｎａｌｙｓｉｓＰｒｏｃｅｄｕｒｅ：ａｐｏｗｅｒｆｕｌｎｅｗｔｅｃｈｎｉｑｕｅｆｏｒｉｄｅｎｔｉｆｙｉｎｇｐｒｉｖｉｌｅｇｅｄｍｏｌｅｃｕｌａｒｆｒａｇｍｅｎｔｓｗｉｔｈｕｓｅｆｕｌａｐｐｌｉｃａｔｉｏｎｓｉｎｃｏｍｂｉｎａｔｏｒｉａｌｃｈｅｍｉｓｔｒｙ．」Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｃｏｍｐｕｔ．Ｓｃｉ．１９９８、３８、５１１−５２２Ｊ．ドルーズ、「ＤｒｕｇＤｉｓｃｏｖｅｒｙ：ＡＨｉｓｔｏｒｉｃａｌｐｅｒｓｐｅｃｔｉｖｅ」、Ｓｃｉｅｎｃｅ、２８７、１９６０−１９６４（２０００）ルーベン・アバジャン、マキシム・トトロフ、「Ｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｄｏｃｋｉｎｇｆｏｒｌｅａｄｇｅｎｅｒａｔｉｏｎ」、ＣｕｒｒｅｎｔＯｐｉｎｉｏｎｉｎＣｈｅｍｉｃａｌＢｉｏｌｏｇｙ、Ｖｏｌ．５、３７５−３８２（２００１）Ｍ．Ｌ．ラム、Ｋ．Ｗ．バーディック、Ｓ．トバ、Ｍ．Ｍ．ヤング、Ａ．Ｇ．スキルマンら、「Ｄｅｓｉｇｎ、ｄｏｃｋｉｎｇ、ａｎｄｅｖａｌｕａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｌｉｂｒａｒｉｅｓａｇａｉｎｓｔｍｕｌｔｉｐｌｅｔａｒｇｅｔｓ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．４２、２９６−３１８（２００１）Ｂ．ワスコウィクス、Ｔ．Ｄ．Ｊ．パーキンス、Ｒ．Ａ．サイクス、Ｊ．リー、「Ｌａｒｇｅ−ｓｃａｌｅｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇｆｏｒｄｉｓｃｏｖｅｒｉｎｇｌｅａｄｓｉｎｔｈｅｐｏｓｔ−ｇｅｎｏｍｉｃｅｒａ」、ＩＢＭＳｙｓｔｅｍｓＪｏｕｒｎａｌ、Ｖｏｌ．４０、Ｎｏ．２（２００１）Ｂ．Ｋ．ショイチェ、Ｄ．Ｌ．ボディアン、Ｉ．Ｄ．クンツ、「Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｈａｐｅｄｅｓｃｒｉｐｔｏｒｓ」、ＪＣｏｍｐＣｈｅｍ、Ｖｏｌ．１３Ｎｏ．３、３８０−３９７（１９９２）Ｅ．Ｃ．メン、Ｄ．Ａ．グシュヴェント、Ｊ．Ｍ．ブラニー、Ｉ．Ｄ．クンツ、「Ｏｒｉｅｎｔａｔｉｏｎａｌｓａｍｐｌｉｎｇａｎｄｒｉｇｉｄ−ｂｏｄｙｍｉｎｉｍｉｚａｔｉｏｎｉｎｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇ」、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ、Ｆｕｎｃｔｉｏｎ、ａｎｄＧｅｎｅｔｉｃｓ、Ｖｏｌ．１７、２６６−２７８（１９９３）Ｔ．Ｊ．Ａ．ユーウィング、Ｉ．Ｄ．クンツ、「ＣｒｉｔｉｃａｌＥｖａｌｕａｔｉｏｎｏｆＳｅａｒｃｈＡｌｇｏｒｉｔｈｍｓｆｏｒＡｕｔｏｍａｔｅｄＭｏｌｅｃｕｌａｒＤｏｃｋｉｎｇａｎｄＤａｔａｂａｓｅＳｃｒｅｅｎｉｎｇ」、Ｊ．ＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ、Ｖｏｌ．１８Ｎｏ．９、１１７５−１１８９（１９９７）Ｍ．Ｃ．ローレンス、Ｐ．Ｃ．デーヴィス、「ＣＬＩＸ：ＡＳｅａｒｃｈＡｌｇｏｒｉｔｈｍｆｏｒＦｉｎｄｉｎｇＮｏｖｅｌＬｉｇａｎｄｓＣａｐａｂｌｅｏｆＢｉｎｄｉｎｇＰｒｏｔｅｉｎｓｏｆＫｎｏｗｎＴｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｔｒｕｃｔｕｒｅ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．１２、３１−４１（１９９２）Ｍ．Ａ．カステンホルツ、Ｍ．パスター、Ｇ．クルシアーニ、Ｅ．Ｅ．Ｊ．ハークスマ、Ｔ．フォックス、「ＧＲＩＤ／ＣＰＣＡ：Ａｎｅｗｃｏｍｐｕｔａｔｉｏｎａｌｔｏｏｌｔｏｄｅｓｉｇｎｓｅｌｅｃｔｉｖｅｌｉｇａｎｄｓ」、Ｊ．ＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ、Ｖｏｌ．４３、３０３３−３０４４（２０００）Ｍ．Ｄ．ミラー、Ｓ．Ｋ．カースレイ、Ｄ．Ｊ．アンダーウッド、Ｒ．Ｐ．シェリダン、「ＦＬＯＧ：ａｓｙｓｔｅｍｔｏｓｅｌｅｃｔ‘ｑｕａｓｉ−ｆｌｅｘｉｂｌｅ’ｌｉｇａｎｄｓｃｏｍｐｌｅｍｅｎｔａｒｙｔｏａｒｅｃｅｐｔｏｒｏｆｋｎｏｗｎｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｓｔｒｕｃｔｕｒｅ」、Ｊ．Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ、Ｖｏｌ．８Ｎｏ．２、１５３−１７４（１９９４）Ｖ．ソボレフ、Ｒ．Ｃ．ウェイド、Ｇ．ヴリエンド、Ｍ．エデルマン、「Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｕｒｆａｃｅｃｏｍｐｌｅｍｅｎｔａｒｉｔｙ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．２５、１２０−１２９（１９９６）Ｐ．アロイ、Ｇ．ムーント、Ｈ．Ａ．ガブ、Ｅ．ケロル、Ｆ．Ｘ．アヴィレス、Ｍ．Ｊ．Ｅ．スターンバーク、「ＭｏｄｅｌｉｎｇＰｒｏｔｅｉｎＤｏｃｋｉｎｇｕｓｉｎｇＳｈａｐｅＣｏｍｐｌｅｍｅｎｔａｒｉｔｙ、ＥｌｅｃｔｒｏｓｔａｔｉｃｓａｎｄＢｉｏｃｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎ」、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ、Ｆｕｎｃｔｉｏｎ、ａｎｄＧｅｎｅｔｉｃｓ、Ｖｏｌ．３３、５３５−５４９（１９９８）Ｄ．Ｗ．リッチー、Ｇ．Ｊ．Ｌ．ケンプ、「ＦａｓｔＣｏｍｐｕｔａｔｉｏｎ、Ｒｏｔａｔｉｏｎ、ａｎｄＣｏｍｐａｒｉｓｏｎｏｆＬｏｗＲｅｓｏｌｕｔｉｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃＭｏｌｅｃｕｌａｒＳｕｒｆａｃｅｓ」、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ、Ｆｕｎｃｔｉｏｎ、ａｎｄＧｅｎｅｔｉｃｓ、Ｖｏｌ．３９、１７８−１９４（２０００）Ｄ．フィッシャー、Ｒ．ノレル、Ｈ．ウォルフソン、Ｒ．ナシノフ、「Ｓｕｒｆａｃｅｍｏｔｉｆｓｂｙａｃｏｍｐｕｔｅｒｖｉｓｉｏｎｔｅｃｈｎｉｑｕｅ：ｓｅａｒｃｈｅｓ、ｄｅｔｅｃｔｉｏｎ、ａｎｄｉｍｐｌｉｃａｔｉｏｎｓｆｏｒｐｒｏｔｅｉｎ−ｌｉｇａｎｄｒｅｃｏｇｎｉｔｉｏｎ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．１６、２７８−２９２（１９９３）Ｍ．ラレイ、Ｓ．ヴェフィン、Ｔ．レンガー、「Ｐｌａｃｅｍｅｎｔｏｆｍｅｄｉｕｍ−ｓｉｚｅｄｍｏｌｅｃｕｌａｒｆｒａｇｍｅｎｔｓｉｎｔｏａｃｔｉｖｅｓｉｔｅｓｏｆｐｒｏｔｅｉｎｓ」、Ｊ．ＣｏｍｐｕｔｅｒＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ、Ｖｏｌ．１０、４１−５４（１９９６）Ｂ．クラマー、Ｍ．ラレイ、Ｔ．レンガー、「ＥｖａｌｕａｔｉｏｎｏｆｔｈｅＦｌｅｘＸｉｎｃｒｅｍｅｎｔａｌｃｏｎｓｔｒｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｐｒｏｔｅｉｎ−ｌｉｇａｎｄｄｏｃｋｉｎｇ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．３７、２２８−２４１（１９９９）Ｍ．ラレイ、Ｂ．クラマー、Ｔ．レンガー、Ｇ．クレーベ、「ＡＦａｓｔＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇＭｅｔｈｏｄＵｓｉｎｇＡｎＩｎｃｒｅｍｅｎｔａｌＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈｍ」、Ｊ．Ｍｏｌ．Ｂｉｏｌ．、Ｖｏｌ．２６１、４７０−４８９（１９９６）Ｗ．ウェルチ、Ｊ．リュペール、Ａ．Ｎ．ジェーン、「Ｈａｍｍｅｒｈｅａｄ：Ｆａｓｔ、ｆｕｌｌｙａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｏｆｆｌｅｘｉｂｌｅｌｉｇａｎｄｓｔｏｐｒｏｔｅｉｎｂｉｎｄｉｎｇｓｉｔｅｓ」、ＣｈｅｍｉｃａｌＢｉｏｌｏｇｙ、Ｖｏｌ．３、４４９−４６２（１９９６）Ａ．Ｒ．リーチ、Ｉ．Ｄ．クンツ、「ＣｏｎｆｏｒｍａｔｉｏｎａｌＡｎａｌｙｓｉｓｏｆＦｌｅｘｉｂｌｅＬｉｇａｎｄｓｉｎＭａｃｒｏｍｏｌｅｃｕｌａｒＲｅｃｅｐｔｏｒＳｉｔｅｓ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１３、７３０−７４８（１９９２）Ｈ．Ｊ．ボーム、「ＴｈｅｃｏｍｐｕｔｅｒｐｒｏｇｒａｍＬＵＤＩ：ａｎｅｗｍｅｔｈｏｄｆｏｒｔｈｅｄｅｎｏｖｏｄｅｓｉｇｎｏｆｅｎｚｙｍｅｉｎｈｉｂｉｔｏｒｓ」、Ｊ．Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ、Ｖｏｌ．６、６１−７８（１９９２）Ｒ．Ｓ．ボハーチェック、Ｃ．マクマーティン、「ＭｕｌｔｉｐｌｅＨｉｇｈｌｙＤｉｖｅｒｓｅＳｔｒｕｃｔｕｒｅｓＣｏｍｐｌｅｍｅｎｔａｒｙｔｏＥｎｚｙｍｅＢｉｎｄｉｎｇＳｉｔｅｓ：ＲｅｓｕｌｔｓｏｆＥｘｔｅｎｓｉｖｅＡｐｐｌｉｃａｔｉｏｎｏｆａｄｅＮｏｖｏＤｅｓｉｇｎＭｅｔｈｏｄＩｎｃｏｒｐｏｒａｔｉｎｇＣｏｍｂｉｎａｔｏｒｉａｌＧｒｏｗｔｈ」、Ｊ．ＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ、Ｖｏｌ．１１６、５５６０−５５７１（１９９４）Ｈ．クラウセン、Ｃ．ブーニン、Ｍ．ラレイ、Ｔ．レンガー、「ＦｌｅｘＥ：ＥｆｆｉｃｉｅｎｔＭｏｌｅｃｕｌａｒＤｏｃｋｉｎｇＣｏｎｓｉｄｅｒｉｎｇＰｒｏｔｅｉｎＳｔｒｕｃｔｕｒｅＶａｒｉａｔｉｏｎｓ」、Ｊ．ＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、Ｖｏｌ．３０８、３７７−３９５（２００１）Ｒ．Ａ．アバジャン、Ｍ．Ｍ．トトロフ、Ｄ．Ｎ．クズネツォフ、「ＢｉａｓｅｄｐｒｏｂａｂｉｌｉｔｙＭｏｎｔｅＣａｒｌｏｃｏｎｆｏｒｍａｔｉｏｎａｌｓｅａｒｃｈｅｓａｎｄｅｌｅｃｔｒｏｓｔａｔｉｃｃａｌｃｕｌａｔｉｏｎｓｆｏｒｐｅｐｔｉｄｅｓａｎｄｐｒｏｔｅｉｎｓ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１５、４８８−５０６（１９９４）Ｔ．Ａ．ハルグレン、Ｒ．Ｂ．マーフィ、Ｒ．Ａ．フリーズナー、Ｈ．Ｓ．ビアード、Ｌ．Ｌ．フレイ、Ｗ．Ｔ．ポラード、Ｊ．Ｌ．バンクス、「Ｇｌｉｄｅ：ａｎｅｗａｐｐｒｏａｃｈｆｏｒｒａｐｉｄ、ａｃｃｕｒａｔｅｄｏｃｋｉｎｇａｎｄｓｃｏｒｉｎｇ．２．Ｅｎｒｉｃｈｍｅｎｔｆａｃｔｏｒｓｉｎｄａｔａｂａｓｅｓｃｒｅｅｎｉｎｇ」、ＪＭｅｄＣｈｅｍ．、Ｖｏｌ．４７Ｎｏ．７、１７５０−１７５９、（２００４）Ｂ．Ａ．ルティ、Ｚ．Ｒ．ワッサーマン、Ｐ．Ｆ．Ｗ．スタウテン、Ｃ．Ｎ．ホッジ、Ｍ．ザカリアス、Ｊ．Ａ．マッカモン、「ＭｏｌｅｃｕｌａｒＭｅｃｈａｎｉｃｓ／ＧｒｉｄＭｅｔｈｏｄｆｏｒｔｈｅＥｖａｌｕａｔｉｏｎｏｆＬｉｇａｎｄ−ＲｅｃｅｐｔｏｒＩｎｔｅｒａｃｔｉｏｎｓ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１６、４５４−４６４（１９９５）Ｄ．Ｓ．グッセル、Ａ．Ｊ．オルソン、「ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇｏｆＳｕｂｓｔｒａｔｅｓｔｏＰｒｏｔｅｉｎｓｂｙＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇ」、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ、Ｆｕｎｃｔｉｏｎ、ａｎｄＧｅｎｅｔｉｃｓ、Ｖｏｌ．８、１９５−２０２（１９９０）Ｇ．ジョーンズ、Ｐ．ウィレット、Ｒ．Ｃ．グレン、「ＭｏｌｅｃｕｌａｒＲｅｃｏｇｎｉｔｉｏｎｏｆＲｅｃｅｐｔｏｒＳｉｔｅｓｕｓｉｎｇａＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｗｉｔｈａＤｅｓｃｒｉｐｔｉｏｎｏｆＤｅｓｏｌｖａｔｉｏｎ」、Ｊ．Ｍｏｌ．Ｂｉｏｌ．、Ｖｏｌ．２４５、４３−５３（１９９５）Ｇ．ジョーンズ、Ｐ．ウィレット、Ｒ．Ｃ．グレン、Ａ．リーチ、Ｒ．テイラー、「ＤｅｖｅｌｏｐｍｅｎｔａｎｄＶａｌｉｄａｔｉｏｎｏｆａＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｆｏｒＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇ」、Ｊ．Ｍｏｌ．Ｂｉｏｌ．、Ｖｏｌ．２６７、７２７−７４８（１９９７）Ｊ．Ｓ．テイラー、Ｒ．Ｍ．バーネット、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．４１、１７３−１９１（２０００）Ｇ．Ｍ．モリス、Ｄ．Ｓ．グッセル、Ｒ．Ｓ．ハリディ、Ｒ．ヒューイ、Ｗ．Ｅ．ハート、Ｒ．Ｋ．ブリュー、Ａ．Ｊ．オルソン、「ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇＵｓｉｎｇａＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍａｎｄａｎＥｍｐｉｒｉｃａｌＢｉｎｄｉｎｇＦｒｅｅＥｎｅｒｇｙＦｕｎｃｔｉｏｎ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１９、１６３９−１６６２（１９９８）Ａ．ディ・ノラ、Ｈ．Ｊ．Ｃ．ベレンドセ、Ｄ．ロッカターノ、「ＭｏｌｅｃｕｌａｒＤｙｎａｍｉｃｓＳｉｍｕｌａｔｉｏｎｏｆｔｈｅＤｏｃｋｉｎｇｏｆＳｕｂｓｔｒａｔｅｓｔｏＰｒｏｔｅｉｎｓ」、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．１９、１７４−１８２（１９９４）Ｊ．ワン、Ｐ．Ａ．コールマン、Ｉ．Ｄ．クンツ、Ｐｒｏｔｅｉｎｓ、Ｖｏｌ．３６、１−１９（１９９９）Ｈ．Ｊ．ボーム、「ＴｈｅＤｅｖｅｌｏｐｍｅｎｔｏｆａｓｉｍｐｌｅｅｍｐｉｒｉｃａｌｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｔｏｅｓｔｉｍａｔｅｔｈｅｂｉｎｄｉｎｇｃｏｎｓｔａｎｔｆｏｒａｐｒｏｔｅｉｎ−ｌｉｇａｎｄｃｏｍｐｌｅｘｏｆｋｎｏｗｎｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｓｔｒｕｃｔｕｒｅ」、Ｊ．Ｃｏｍｐｕｔ−ＡｉｄｅｄＭａｌ．Ｄｅｓ．、Ｖｏｌ．８、２４３−２５６（１９９４）Ｒ．ワン、Ｙ．ガオ、Ｌ．ライ、「Ａｎｅｗｅｍｐｉｒｉｃａｌｍｅｔｈｏｄｆｏｒｅｓｔｉｍａｔｉｎｇｔｈｅｂｉｎｄｉｎｇａｆｆｉｎｉｔｙｏｆａｐｒｏｔｅｉｎ−ｌｉｇａｎｄｃｏｍｐｌｅｘ．」、Ｊ．ＭｏｌｅｃｕｌａｒＭｏｄｅｌｉｎｇ、Ｖｏｌ．４、３７９（１９９８）Ｍ．Ｄ．エルドリッジ、Ｃ．Ｗ．マリー、Ｔ．Ｒ．オートン、Ｇ．Ｖ．パオリーニ、Ｒ．Ｐ．ミー、「Ｅｍｐｉｒｉｃａｌｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｓ：Ｉ．Ｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆａｆａｓｔｅｍｐｉｒｉｃａｌｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｔｏｅｓｔｉｍａｔｅｔｈｅｂｉｎｄｉｎｇａｆｆｉｎｉｔｙｏｆｌｉｇａｎｄｓｉｎｒｅｃｅｐｔｏｒｃｏｍｐｌｅｘｅｓ」、Ｊ．Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ、Ｖｏｌ．１１、４２５−４４５（１９９７）Ｄ．Ｋ．ゲルハール、Ｄ．ボウジダ；Ｐ．Ａ．レジュト、Ｉｎ「ＲａｔｉｏｎａｌＤｒｕｇＤｅｓｉｇｎ：ＮｏｖｅｌＭｅｔｈｏｄｏｌｏｇｙａｎｄＰｒａｃｔｉｃａｌＡｐｐｌｉｃａｔｉｏｎｓ」、Ｌ．パリル、Ｍ．Ｒ．レディ、Ｅｄ．；ＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ：Ｗａｓｈｉｎｇｔｏｎ、Ｄ．Ｃ．、ｐｐ．２９２−３１１（１９９９）Ｄ．ログナン、Ｓ．Ｌ．ラウエモレール、Ａ．ホルム、Ｓ．バス、Ｖ．シンケ、Ｊ．ＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ、Ｖｏｌ．４２、４６５０−４６５８（１９９９）Ｔ．Ａ．ハルグレン、Ｒ．Ｂ．マーフィ、Ｒ．Ａ．フリーズナー、Ｈ．Ｓ．ビアード、Ｌ．Ｌ．フレイ、Ｗ．Ｔ．ポラード、Ｊ．Ｌ．バンクス、「Ｇｌｉｄｅ：ａｎｅｗａｐｐｒｏａｃｈｆｏｒｒａｐｉｄ、ａｃｃｕｒａｔｅｄｏｃｋｉｎｇａｎｄｓｃｏｒｉｎｇ．２．Ｅｎｒｉｃｈｍｅｎｔｆａｃｔｏｒｓｉｎｄａｔａｂａｓｅｓｃｒｅｅｎｉｎｇ」、ＪＭｅｄＣｈｅｍ．、Ｖｏｌ．４７Ｎｏ．７、１７５０−１７５９、（２００４）Ｄ．Ａ．パールマン、Ｄ．Ａ．ケース、Ｊ．Ｃ．クランドウェル、Ｗ．Ｓ．ロス、Ｔ．Ｅ．チェザムＩＩＩ、Ｄ．Ｍ．ファーガソン、Ｇ．Ｌ．シーベル、Ｕ．Ｃ．シン、Ｐ．ウィーナー、Ｐ．Ａ．コールマンＡＭＢＥＲ４．１、ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ、ＳａｎＦｒａｎｃｉｓｃｏ（１９９５）Ｗ．Ｄ．コーネル、Ｐ．チェプラック、Ｃ．Ｉ．ベイリー、Ｉ．Ｒ．ゴールグ、Ｋ．Ｍ．マーツ、Ｄ．Ｍ．ファーガソン、Ｄ．Ｃ．スペルマイヤー、Ｔ．フォックス、Ｊ．Ｗ．クランドウェル、Ｐ．Ａ．コールマン、「Ａｓｅｃｏｎｄ−ｇｅｎｅｒａｔｉｏｎｆｏｒｃｅｆｉｅｌｄｆｏｒｔｈｅｓｉｍｕｌａｔｉｏｎｏｆｐｒｏｔｅｉｎｓ、ｎｕｃｌｅｉｃａｃｉｄｓ、ａｎｄｏｒｇａｎｉｃｍｏｌｅｃｕｌｅｓ」、ＪＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ、Ｖｏｌ．１１７、５１７９−５１９７（１９９５）Ｗ．Ｌ．ヨルゲンセン、Ｊ．ティラド・リベス、Ｊ．ＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ、Ｖｏｌ．１１０、１６５７−１６６６（１９８８）Ｔ．Ａ．ハルグレン、「ＭｅｒｃｋＭｏｌｅｃｕｌａｒＦｏｒｃｅＦｉｅｌｄ．Ｉ．Ｂａｓｉｓ、Ｆｏｒｍ、Ｓｃｏｐｅ、Ｐａｒａｍｅｔｅｒｉｚａｔｉｏｎ、ａｎｄＰｅｒｆｏｒｍａｎｃｅｏｆＭＭＦＦ９４」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１７、４９０−５１９（１９９６）Ｂ．Ｒ．ブルックス、Ｒ．Ｅ．ブラッコレリ、Ｂ．Ｄ．オラフソン、Ｄ．Ｊ．ステイツ、Ｓ．スワミナサン、Ｍ．カープラス、「ＣＨＡＲＭＭ：ＡＰｒｏｇｒａｍｆｏｒＭａｃｒｏｍｏｌｅｃｕｌａｒＥｎｅｒｇｙ、Ｍｉｎｉｍｉｚａｔｉｏｎ、ａｎｄＤｙｎａｍｉｃｓＣａｌｃｕｌａｔｉｏｎｓ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．４、１８７−２１７（１９８３）Ｊ．Ｊ．Ｐ．スチュワート、ＱｕａｎｔｕｍＣｈｅｍｉｓｔｒｙＰｒｏｇｒａｍＥｘｃｈａｎｇｅ、Ｖｏｌ．１０：８６（１９９０）Ｄ．Ａ．リオタード、Ｅ．Ｆ．ヒーリー、Ｊ．Ｍ．ルイズ、Ｍ．Ｊ．Ｓ．デュワー、ＱｕａｎｔｕｍＣｈｅｍｉｓｔｒｙＰｒｏｇｒａｍＥｘｃｈａｎｇｅ−ｎｏ．５０６、ＱＣＰＥＢｕｌｌｅｔｉｎ、Ｖｏｌ．９：１２３（１９８９）Ｇ．Ｄ．ホーキンス、Ｄ．Ｊ．ギーセン、Ｇ．Ｃ．リンチ、Ｃ．Ｃ．チャンバーズ、Ｉ．ロッシ、Ｊ．Ｗ．ストアラー、Ｊ．リー、Ｄ．リナルディ、Ｄ．Ａ．リオタード、Ｃ．Ｊ．クラマー、Ｄ．Ｇ．トゥルフラーによるＡＭＳＯＬ−ｖｅｒｓｉｏｎ６．５．１、ＵｎｉｖｅｒｓｉｔｙｏｆＭｉｎｎｅｓｏｔａ、Ｍｉｎｎｅａｐｏｌｉｓ（１９９７）Ｈ．ゴールケ、Ｍ．ヘンドリッヒ、Ｇ．クレーベ、「Ｋｎｏｗｌｅｄｇｅ−ｂａｓｅｄＳｃｏｒｉｎｇＦｕｎｃｔｉｏｎｔｏＰｒｅｄｉｃｔＰｒｏｔｅｉｎ−ＬｉｇａｎｄＩｎｔｅｒａｃｔｉｏｎｓ」、Ｊ．Ｍｏｌ．Ｂｉｏｌ．、Ｖｏｌ．２９５、３３７−３５６（２０００）Ｉ．ミュゲ、Ｙ．Ｃ．マーティン、「Ａｇｅｎｅｒａｌａｎｄｆａｓｔｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｆｏｒｐｒｏｔｅｉｎ−ｌｉｇａｎｄｉｎｔｅｒａｃｔｉｏｎｓ−ａｓｉｍｐｌｉｆｉｅｄｐｏｔｅｎｔｉａｌａｐｐｒｏａｃｈ．」、Ｊ．Ｍｅｄ．Ｃｈｅｍ．、Ｖｏｌ．４２、７９１−８０４（１９９９）Ｊ．Ｂ．Ｏ．ミッチェル、Ｒ．Ａ．ラスコースキー、Ａ．アレックス、Ｊ．Ｍ．ソーントン、「ＢＬＥＥＰ−ＰｏｔｅｎｔｉａｌｏｆＭｅａｎＦｏｒｃｅＤｅｓｃｒｉｂｉｎｇＰｒｏｔｅｉｎ−ＬｉｇａｎｄＩｎｔｅｒａｃｔｉｏｎｓＩＩ．ＣａｌｃｕｌａｔｉｏｎｏｆＢｉｎｄｉｎｇＥｎｅｒｇｉｅｓａｎｄＣｏｍｐａｒｉｓｏｎｗｉｔｈＥｘｐｅｒｉｍｅｎｔａｌＤａｔａ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．２０、１１６５−１１７６（１９９９）Ｒ．Ｄ．ヘッド、Ｍ．Ｌ．スミス、Ｔ．Ｉ．オプレア、Ｃ．Ｌ．ウォーラー、Ｓ．Ｍ．グリーン、Ｇ．Ｒ．マーシャル、「ＶＡＬＩＤＡＴＥ：ＡＮｅｗＭｅｔｈｏｄｆｏｒＲｅｃｅｐｔｏｒ−ＢａｓｅｄＰｒｅｄｉｃｔｉｏｎｏｆＢｉｎｄｉｎｇＡｆｆｉｎｉｔｉｅｓｏｆＮｏｖｅｌＬｉｇａｎｄ」、Ｊ．ＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ、Ｖｏｌ．ｌ１８、３９５９−３９６９（１９９６）Ｃ．ビサンツ、Ｇ．フォルカーズ、Ｄ．ログナン、「Ｐｒｏｔｅｉｎ−ｂａｓｅｄｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇｏｆｃｈｅｍｉｃａｌｄａｔａｂａｓｅｓ．１．Ｅｖａｌｕａｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｄｏｃｋｉｎｇ／ｓｃｏｒｉｎｇｃｏｍｂｉｎａｔｉｏｎｓ」、ＪＭｅｄＣｈｅｍ、Ｖｏｌ．４３、４７５９−４７６７（２０００）Ｊ．ウェストブルック、Ｐ．Ｍ．フィッツジェラルド（２００３）：ＳｔｒｕｃｔｕｒａｌＢｉｏｉｎｆｏｒｍａｔｉｃｓ、Ｐ．Ｅ．Ｂｏｕｒｎｅ、Ｈ．Ｗｅｉｓｓｉｇ（編者）．Ｈｏｂｏｋｅｎ、ＮＪ、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、Ｉｎｃ．１６１−１７９頁ｈｔｔｐ：／／ｗｗｗ．ｔｒｉｐｏｓ．ｃｏｍ／ｃｕｓｔＲｅｓｏｕｒｃｅｓ／ｍｏｌ２Ｆｉｌｅｓ／ｈｔｔｐ：／／ｗｗｗ．ｄａｙｌｉｇｈｔ．ｃｏｍ／ｄａｙｈｔｍｌ／ｓｍｉｌｅｓ／ｓｍｉｌｅｓ−ｉｎｔｒｏ．ｈｔｍｌＭ．クラーク、Ｒ．Ｄ．クラマー、Ｎ．Ｖ．オプデンボッシュ、「ＶａｌｉｄａｔｉｏｎｏｆｔｈｅＧｅｎｅｒａｌＰｕｒｐｏｓｅＴｒｉｐｏｓ５．２ＦｏｒｃｅＦｉｅｌｄ」、Ｊ．Ｃｏｍｐ．Ｃｈｅｍ．、Ｖｏｌ．１０、９８２−１０１２（１９８９）ｈｔｔｐ：／／ｗｗｗ２．ｃｈｅｍｉ．ｅ．ｕｎｉ−ｅｒｌａｎｇｅｎ．ｄｅ／ｓｏｆｔｗａｒｅ／ｃｏｒｉｎａ／ｉｎｄｅｘ．ｈｔｍｌ２ＤＯｖｅｒｌａｙｗｉｔｈｆｅａｔｕｒｅｔｒｅｅｓＭ．ラレイ、ＪＳ．ディクソンＪＣＡＭＤ、１２：４７１−４９０、１９９８

本発明は、分子サブセットのより高速かつより効率的な記憶、伝送、処理を可能にするために、分子表現をより小さな一部の形に区分するための方法である。本方法は、原子と、原子間の結合とを含む分子表現を提供することを含む。分子表現は、分子構造と、その分子サブセットが分子処理の一部として受けると予想される変換とに基づいて、１つまたは複数の一部の形に区分される。区分プロセスはまた、諸区画が使用されるデバイスによる制約を考慮することができる。

本発明は、分子処理において広く有用なものである。区分された分子サブセットは、分子変換、親和力機能、新しいコンフォメーションの生成、分子類似性計算などを効率的に計算する際に使用することができる。そのような計算の効率の増大により、仮想スクリーニングなど、複雑な分子処理アプリケーションを動作させることが可能になる。

本発明の他の特徴および利点は、以下の詳細な説明および好ましい実施形態に鑑みて明らかになろう。

本発明のより複合的な理解とその多数の利点は、添付の図面に関連して詳細な説明を参照することによって本発明をよりよく理解したとき、容易に得られることになろう。

本発明は、本開示を読んだ後で明らかになるように、多数の応用例を有する。本発明によるコンピュータ・システムの実施形態について述べる上で、少数の可能な変形形態について述べられているにすぎない。他の応用例および変形形態は、当業者に明らかとなることになり、それにより、本発明は、諸例と同程度に狭く解釈すべきでなく、添付の特許請求の範囲によるべきである。

本発明は、どのような区分もなしに分子全体を処理することに比べて、分子をより小さな一部で処理することによって迅速かつ効率的に分子を記憶、伝送、処理するために、分子を区分することに関する。本発明の諸実施形態について、限定的ではなく例示的なものとして述べる。本発明は、広く有用なものであり、多数の異なる状況において使用することができることを理解されたい。

以下の説明では、「バイオポリマー」という用語は、タンパク質、核酸（ＤＮＡまたはＲＮＡ）、ペプチド、またはヌクレオチド配列、あるいはそれらの任意の一部分または断片のうち１つまたは複数を含む高分子を指す。本明細書では、「生体分子」という用語は、バイオポリマー、炭水化物、ホルモン、あるいは、それだけには限らないが合成化合物、医薬化合物、薬剤様の化合物、もしくは天然の化合物、またはそれらの任意の一部分もしくは断片を含めて、無機もしくは有機の他の分子または化学化合物のうち１つまたは複数を含む化学エンティティを指す。

分子サブセットは、分子の構成要素の全部または一部であり、その構成要素は、単原子または単結合、原子および／または結合のグループ、アミノ酸残基、ヌクレオチドなどとすることができる。分子サブセットは、分子、分子の一部、１つまたは複数の分子（または他の生物反応物質（ｂｉｏｒｅａｃｔｉｖｅａｇｅｎｔ））で構成された化学化合物、タンパク質、タンパク質の１つまたは複数のサブセットまたはドメイン、核酸、１つまたは複数のペプチド、あるいは１つまたは複数のオリゴヌクレオチドを含む可能性がある。本発明の他の実施形態では、分子サブセットはまた、１つまたは複数のイオン、個々の原子、あるいは、塩、気体分子、水分子、基（ｒａｄｉｃａｌ）など他の単分子の全部または一部、さらには、アルコール、エステル、ケトン、単糖などのような有機化合物をも含むことができる。さらに他の実施形態では、分子サブセットはまた、有機分子、残基、ヌクレオチド、炭水化物、無機分子、および、合成化合物、医薬化合物、薬剤様の化合物、または天然の化合物を含めて、他の化学的に活性な項目を含むことができる。

さらに他の実施形態では、分子サブセットは、１つまたは複数の共有結合を介して、標的にすでに結合されている、または添着されている可能性がある。他の実施形態では、分子サブセットは、実際、タンパク質の３次構造を構成する２次構造要素、またはタンパク質４次構造のサブユニットなど、標的の１つまたは複数の構造構成要素を含むことができる。他の実施形態では、分子サブセットは、活性部位の全部または一部を含むタンパク質ドメイン、１つまたは複数のタンパク質残基に対する近接性に基づいて選択されるタンパク質構造の、１つまたは複数の空間的に接続されたサブセット、さらには様々な分子相互作用にとって関心のある触媒または他の表面残基を特色とする、切断されたタンパク質サブセットなど、標的分子の１つまたは複数の部分を含むことができる。他の実施形態では、分子サブセットは、既存の分子複合体の全部または一部を含むことができ、たとえば、活性化タンパク質またはアロステリックな結合タンパク質として、２つ以上の他の分子間の分子結合を意味する。

分子の組合せ（または組合せ）は、通常特定の物理環境、化学環境、または生態環境の状況において、潜在的に結合する、または分子複合体を形成する、または他の方法で互いに相互作用することができる２つ以上の分子サブセットの集まりである。組合せは、最後に、２つ以上の相互作用する分子サブセットの識別を指定する。

分子の組合せは、リガンド生体分子（第１の分子サブセット）が標的生体分子（通常、バイオポリマー、第２の分子サブセット）と相互作用する、２つの分子サブセットの典型的なシナリオを表すことになる。したがって、分子の組合せの典型的な分析は、特定の環境内でリガンドが標的分子と相互作用することになるかどうか、またそれはどの程度か判定しようとする。別段特に指示がない限り、そのような諸例および諸説明は、３つ以上の分子サブセットが結合し、または互いに相互作用し、１つもしくは複数の標的分子および／または１つもしくは複数のリガンドの全部または一部分、さらには、指定された環境に関連付けることができるものなど、他の分子を表す分子の組合せに概して適用されることを理解されたい。

他の実施形態では、その分析は、結合する、または他の方法で標的と反応する可能性がある１つまたは複数のリガンドを見つけ出し、さらには標的タンパク質の活性部位をよりよく特徴付けるために、同じ環境内の同じ標的分子と組み合わせて、たとえば分子ライブラリー（仮想またはその他）から選択された、それぞれが異なるリガンドに対応する複数の分子の組合せを必要とする可能性がある。そのような場合には、関係ある生物活性の相対比較を行うために、各分子の組合せについてスコアを割り当てる、またはランク付けすることを必要とする可能性がある。

分子コンフォメーション（またはコンフォメーション）は、分子サブセットを構成する原子すべての相対位置を示す。コンフォメーションは、分子サブセットを構成する原子すべての絶対位置を示してはいないことに留意されたい。たとえば、分子サブセット内の原子すべてが同じ方向で同じ距離だけ並進された場合には、原子は、互いにそれらの位置を変えておらず、並進後のコンフォメーションは、並進前のコンフォメーションと同一である。同様に、原子すべてが同じ軸の周りで同じ角度だけ回転された場合、コンフォメーションに対する変化はない。実際、すべての構成原子に線形座標変換が適用されると、分子コンフォメーションは異ならないことになる。同じ分子サブセットの２つの異なるコンフォメーションは、結合長、結合角、結合ねじれ（適正および不適正）の変化、または、環変換（たとえば、環コーナー・フラッピング、環ブック・フォールディングなど）など他のより複雑な変化により発生する可能性がある。以下の諸例および諸説明の多くでは、大抵の共有結合がコンフォメーションの変化中に保存される、すなわち、結合が破断または形成されないと仮定されることになるが、これは、ジスルフィド結合、水素結合、塩橋など、他の化学結合についての場合である必要はない。２つのコンフォメーションの違いは、サブセット内の１つの原子だけの位置の変化と同程度に微妙な（局所的な）ものとすることも、異なるタンパク質の折り畳みに関連する変化、または複数の活性残基についての側鎖の変更と同程度に大きな（全体的な）ものとすることもできる。コンフォメーションにおけるいくつかの変化は、幾何学的には可能であるが、概して物理的に実現可能でない。というのは、構成原子または基の好ましくない立体の衝突を引き起こす可能性があるからである。コンフォメーションにおける可能な変化は、概して、コンフォメーションの自由度（ｃｏｎｆｏｒｍａｔｉｏｎａｌｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ）と呼ばれる。

図２は、分子コンフォメーションの変化に関連するいくつかのコンフォメーションの自由度の線図例を示す。項目２００は、２つの隣接する原子２０１と原子２０２の間の化学結合引張り、すなわち結合長の変化の例を示す。項目２１０は、３つの連続する原子２１１、２１２、２１３間の結合角曲げ、すなわち結合角の変化の例を示す。項目２２０は、適正なねじれ、すなわち原子２２２と原子２２３の間の結合の周りでの回転、あるいは同等に、原子２２１、２２２、２２３によって画定された平面と２２２、２２３、２２４によって画定された平面との間の２面角の変化の例を示す。適正なねじれについてのこの例では、原子２２５と原子２２６は、それら自体に、また原子２２２、２２３、２２４に対する相対距離を保存するために、原子２２２と原子２２３間の結合の周りで同様に回転することになることに留意されたい。

図２で続行すると、項目２３０は、不適正なねじれ、すなわち原子２３１、２３２、２３３によって画定された平面と２３１、２３２、２３４によって画定された平面との間の２面角の変化を示す。項目２４０は、原子２４１、２４２、２４３、２４４、２４５、２４６によって画定された同素環の「ブック・フォールディング」変換の例を示す。この場合には、変換は、原子２４１、２４２、２４３、２４４によって画定された平面と、２４１、２４６、２４５、２４４によって画定された平面との間の角度の変化を反映する。最後に、項目２５０は、非芳香族の同素環の「コーナー・フラッピング」変換を示すが、いま、変換は、原子２５１、２５２、２５３、２５５、２５６によって画定された平面と、２５３、２５４、２５５によって画定された平面との間の角度の変化を反映する。

（それだけには限らないが）シス・モードとトランス・モードの間の交換、１つまたは複数のキラル中心の変化、異なる立体異性体を反映すること、または環、特に大環状のものの、他のより複雑な変形など、他のコンフォメーションの自由度が可能である。しかし、共有結合を破断または形成しない分子コンフォメーションの（ほぼすべてではないにせよ）多数の変化は、図２にリストされているコンフォメーションの自由度のうち１つまたは複数の集まりの形に分解することができる。

多くの場合には、自由度はまた、関係ある原子および結合の許された運動に対する限界を反映する制約を有する可能性がある。そのような制約は、化学結合の自然な、または混成状態、当該の構造変更に関するエネルギー地形、さらには、２次構造要素もしくはタンパク質構造モチーフの保存、または様々なヘテロ原子もしくは他の分子の存在に関するものなど、他のより込み入った考慮すべき点によって刺激を受ける可能性がある。

以下の諸例および諸説明の多くでは、分子サブセットのコンフォメーションは、主に、適正なねじれおよび不適正なねじれに関する１つまたは複数の自由度に関連付けられることになる。というのは、多くの系にとって、標準的なリガンドおよび標的内の大抵の化学結合の結合長および結合角は、組合せの非結合状態と結合状態の間で著しく変化せず、最も可能性の高い例外は、環状（特に大環状の）環を特色とする化学基の構造摂動（ｓｔｒｕｃｔｕｒａｌｐｅｒｔｕｒｂａｔｉｏｎｓ）に関連するからである。しかし、分子コンフォメーションは、ねじれの自由度だけに限定される必要がないことは、当業者には自明となるはずである。

分子の組合せは、指定された環境内で２つ以上の分子サブセットを含む可能性があるため、今後は、説明において用語構成を使用し、構成分子サブセットの接合ポーズを表すことになる。したがって、分子の組合せの特定の構成は、通常選択された座標系の状況において、すべての分子サブセットのすべての構造構成要素、および環境のすべての構成要素の、互いのその１組の位置について述べる。

分子変換は、分子コンフォメーションを変化させる能力を有するコンフォメーションの自由度１つだけに適用される操作と定義される。変換は、分子の剛体変換を除外することに留意されたい。というのは、分子コンフォメーションは、分子サブセットを構成する原子の、絶対位置ではなく相対位置だけを示すからである。一実施形態では、分子内のいくつかの結合が、何らかの規定の軸の周りで回転される可能性があり、その結果、回転された結合に接続されている原子すべての原子の座標が変化する。他の実施形態では、分子内のいくつかの結合が延長され、したがって、その結合に接続されている原子すべての原子の座標が変化する可能性がある。さらに他の実施形態では、６員環は、ブック・フォールディング変換を受ける可能性がある。代替の実施形態では、変換により、分子のキラル中心のうち１つまたは複数の周りで対掌性が変化する可能性がある。

図３ａは、化学式Ｃ_２０Ｎ_２２Ｎ_８Ｃ_５を有するメトトレキサート分子３００のコンフォメーション３９０の「ボール・アンド・スティック（ｂａｌｌ−ａｎｄ−ｓｔｉｃｋ）」レンダリングを示す。その分子は、原子３１０と結合３５０の集まりからなる。項目３１３によって示されている小さな黒い原子は、炭素原子を表す。項目３１６によって示されている非常に小さな白い原子は、水素原子を表し、一方、わずかに大きい方の濃い色の原子（項目３１０）は酸素原子であり、より大きな白い原子（項目３２０）は窒素原子である。

図３ａでは、項目３２３は、ベンゼン環（Ｃ_６Ｈ_４）を含む円を、項目３２５は、カルボキシル基（ＣＯＯ⁻）を含む円を、項目３２７は、メチル基（ＣＨ_３）を含む別の円を示す。項目３５３は、ベンゼン環３２０を、メチル基３２７を含むエステル基に接続する共有結合を示す。項目３５５は、炭素原子３１３をカルボキシル基３２５に接続する共有結合を示す。最後に、項目３５７は、メチル基３２７を窒素原子３８３に接続する共有結合を示す。

図３ｂは、同じメトトレキサート分子３００の別のコンフォメーション３９３の「ボール・アンド・スティック」レンダリングを示す。図３ａと図３ｂのコンフォメーションは、ねじれの自由度３５５および３５７に割り当てられたねじれ角の値が異なるだけであり、したがって、メチル基（３２７）とカルボキシル基（３２５）内の原子と結合についての位置が、残りの分子に対して異なることになる。換言すれば、図３ｂは、図３ａに対して分子変換、すなわちねじれの自由度３５５および３５７に割り当てられたねじれ角の値の変化を適用することによって得られる。図３ｃは、同じメトトレキサート分子３００の別のコンフォメーション３９６の「ボール・アンド・スティック」レンダリングを示すが、この場合には、コンフォメーションの違いがはるかに劇的であり、図３ｃのコンフォメーションに到達するように図３ａのコンフォメーションに適用された分子変換は、結合長および角度の変化、ならびに複数のねじれとベンゼン環の変形をも含む。

分子サブセットを構成する原子は、それらの座標が変換によって変化しない場合、分子変換に対して不変であると言える。分子サブセットを構成する結合は、その結合が接続する原子の座標が変換によって変化しない場合、分子変換に対して不変であると言える。不変性の例が図３ｂに示されており、３３０は、３５５および３５７に適用された２平面の回転によって影響されず、したがって、両変換に対して不変である。３１０と３２５は共に、３５７に適用された２平面の回転に対して不変であることに留意されたい。同様に、３１０と３２７は共に、３５５に適用された２平面の回転に対して不変である。図３ｄは、メトトレキサート分子における不変性の別の例を示し、原子のグループ３８５の座標が、結合３８３の周りの回転によって修正されているが、原子のグループ３８５の座標は、結合３８３の周りの回転に対して不変のままとなる。

典型的には、各異なる構成について説明する１組の適切な分子記述子を使用し、ある構成を別の構成と区別することになる。分子記述子は、それだけには限らないが、ａ）化学記述子（たとえば、要素、原子タイプ、化学基、残基、結合タイプ、混成状態、電離状態、互変異性状態、対掌性、立体化学、プロトン化、水素結合容量［すなわち、ドナーまたはアクセプタ］、芳香族性など）、ｂ）物理記述子（たとえば、形式電荷および部分電荷、質量、分極率、イオン化エネルギー、ファン・デル・ワールス［ｖｄＷ］半径など特徴的サイズパラメータ、ｖｄＷウェル深さ、疎水性、水素結合電位パラメータ、溶解度、幾何形状を結合するための結合エネルギーに関する均衡結合パラメータなど）、ｃ）幾何記述子（たとえば、原子座標、結合ベクトル、結合長、結合角、結合ねじれ、環についての適切な構造記述子、溶媒接触可能表面および溶媒除外体積（ｓｏｌｖｅｎｔ−ｅｘｃｌｕｄｅｄｖｏｌｕｍｅｓ）など、分子表面および体積についての記述子などを含むことができる。

化学記述子は、要素タイプおよび結合接続性（すなわち、水素を除いて、どの原子が互いに接続されるか）など、基本構造情報を少なくとも規定しなければならない代表的な化学構造に対して、有機（または適切な場合、無機）化学の１つまたは複数の規則または概念を適用することに基づいて割り当てることができるが、何らかの形態の座標情報を含むこともできる。そのような化学構造は、いくつかの異なるデータ表現で記憶し受け取ることができる。他の多数のものもまた可能であるが、データ表現の一般的な一例は、ＰＤＢファイルのものであり、それについて、ＰＤＢファイル・フォーマットの完全な説明は、ウェストブルックら（非特許文献５４）に見出すことができる。化学記述子を割り当てるために使用することができる既存のソフトウェア・プログラムの諸例には、ＴｒｉｐｏｓからのＳＹＢＹＬ（商標）、ＵＣＳＦからのＣｈｉｍｅｒａ（商標）、ＷｈａｔＩｆ（商標）（タンパク質用）などが含まれる。また、化学記述子を正しく割り当てることには、キラル中心および立体化学、さらには、電離状態の割当てに関するように予想されるｐＨなどの、環境要因に関する追加の入力が含まれる可能性がある。

図４ａは、図３で述べられているメトトレキサート・リガンド・コンフォメーションについての化学構造のｐｄｂファイル表現４００を示し、一般ヘッダ４１０と、原子タイプおよび座標情報で構成されたセクション４２０と、結合接続性情報に関するセクション４２５とを含む。ヘッダ・セクション４１０は、任意の付注、または分子とそのコンフォメーションの識別、ソース、特性に関する望ましい他の情報を含むことができる。セクション４２０は、メトトレキサートの３３個の非水素原子すべてのリストを示し、各原子について、化学タイプ（たとえば、原子要素）と、３つの空間座標とを含む。たとえば、原子６についての行は、１の化合物（または残基）ＩＤを有する、鎖Ａ内のＭＴＸという名前の化合物（または、タンパク質の場合には残基）内でＮＡ４という名前を有し、指定されたデカルト座標系内で（ｘ，ｙ，ｚ）座標（２０．８２１，５７．４４０，２１．０７５）を有する窒素原子であることを示す。

ＰＤＢファイルのコネクト・レコード（ｃｏｎｎｅｃｔｒｅｃｏｒｄ）と呼ばれることもあるＰＤＢファイル４００のセクション４２５は、各原子に関連する結合のリストについて説明する。たとえば、このセクションの第１の行は、原子１が原子（２）および原子（１２）に結合することを示し、一方、第２の行は、原子２が原子（１）、（３）、（４）に結合することを示す。また、この例において、水素がどのように欠けているか、したがって各原子について結合接続が完成しない可能性があることに留意されたい。当然ながら、水素原子の位置がすでに指定されている場合、ＰＤＢファイル表現の完成された変形形態は可能であるが、化学構造が実験的観察に由来する多くの場合には、水素の位置は、非常に不明確である、または完全に欠けている可能性がある。

図４ｂは、ＳＹＢＹＬを使用し、図４ａのＰＤＢファイルからの様々な化学記述子を割り当てることによって構築されたＴｒｉｐｏｓｍｏｌ２ファイルを示す。列４３０は、各原子についてのインデックスをリストし、列４３３は、各原子についての原子名（非一意とすることもできる）をリストし、列４３５、４３７、４３９は、それぞれ、内部座標系内で各原子についてのｘ座標、ｙ座標、ｚ座標をリストし、列４４０は、各原子についてのＳＹＢＹＬ原子タイプをリストし、列４４２および列４４５は、（タンパク質、核酸などに関係する）各原子についての残基ＩＤおよび残基名をリストする。セクション４５０は、分子内の結合すべてをリストする。列４５１は、各結合についての結合インデックスをリストし、列４５２および列４５３は、その結合によって接続された２つの原子の原子インデックスをリストし、列４５５は、単結合、二重結合、３重結合、非局在化結合、アミド結合、芳香族結合、または他の特殊共有結合とすることができる結合タイプをリストする。他の実施形態では、そのような情報は、塩橋または水素結合など非共有結合を表すこともできる。

この例では、コンピュータ手段を介して化学記述子を割り当てた結果として、今度は水素原子がどのように含まれているか（またこの場合には、それらの可能性の高い位置が予測されているか）留意されたい。この例では、ＳＹＢＹＬ原子タイプは、混成状態、化学タイプ、結合接続性、水素結合容量（ｈｙｄｒｏｇｅｎｂｏｎｄｃａｐａｃｉｔｙ）、芳香族性、および場合によっては化学基についての体系化された情報を含む。さらに、電離状態は、概して、原子タイプおよび水素化の組合せによって推論することができる。他の例は、孤立電子対に関係するデータを含むこともできる。この例では、ｍｏｌ２ファイルは、メトトレキサート・リガンドに対応する化学記述子データの一部分を表す。

物理記述子は、１つまたは複数の化学記述子に依存し、典型的には、原子および／または結合に関するが、化学基、残基などによって特徴付けることもできる。物理記述子のための値は、典型的には、ＡＭＢＥＲ（非特許文献４１、４２）、ＯＰＬＳ（非特許文献４３）、ＭＭＦＦ（非特許文献４４）、ＣＨＡＲＭＭ（非特許文献４５）のような分子力学力場に関連する１つまたは複数のパラメータ・セットに従って割り当てられる。また、いくつかの物理記述子は、Ｍｏｐａｃ（非特許文献４６）またはＡＭＰＡＣ（非特許文献４７）を介して部分電荷を割り当てることなど、１つまたは複数の分子モデリング・ソフトウェア・パッケージの使用に従って割り当てることができる。典型的には、モデル化すべきエネルギー相互作用の選択により、所与の分子の組合せについて親和力を計算するために、各分子サブセットについて決定しなければならない物理記述子のタイプおよび形態が決まる。

図４ｃは、図４ａおよび図４ｂに対応するメトトレキサート・リガンドについて（部分電荷についてＭｏｐａｃｖ７．０と共に）Ａｍｂｅｒ９６力場を介して割り当てられた物理記述子のサブセットを含むファイルを示す。セクション４６０は、図３ａで元々リストされていた同一の原子名（列４６１）について、電荷（列４６２）、質量（列４６３）、ｖｄＷ半径（列４６４）、およびｖｄＷウェル深さ（列４６５）に関する原子物理記述子について説明する。セクション４７０は、図２で述べられている１０個の可能な結合ねじれに関する結合物理記述子について説明する。ここで、列４７２、４７４、４７６、４７８は、２平面変化に関連するひずみエネルギーを推定する際に使用される、一般化されたＰｉｔｚｅｒ電位についての標準的な数値パラメータを示す。この例では、図４ｃにおけるファイルは、図４ａおよび図４ｂに関連するメトトレキサート・リガンドに対応する物理記述子データの一部分を表す。

幾何記述子は、分子の組合せの１つまたは複数の構成要素の構造の説明に関する。これは、それだけには限らないが、座標、または原子中心の位置を表す点に関する他の空間情報、様々な結合を表すベクトル、様々な化学基を表す平面、個々の原子の範囲および配置を表す球、溶質−溶媒界面を表す３Ｄ表面、相互作用場または電位の離散化（ｄｉｓｃｒｅｔｉｚａｔｉｏｎ）を３Ｄ体積グリッド（ｖｏｌｕｍｅｔｒｉｃｇｒｉｄ）（たとえば、プローブ・グリッド・マップ（非特許文献２７、３２）、微分方程式ソルバー用のメッシュなど）上に表す空間３Ｄ関数、さらには、構造、表面、および／または体積の近似表現のための適切な幾何基底関数の一般化されたセット（たとえば、リッチーら（非特許文献１５）の球面調和動径基底関数（ｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｓｒａｄｉａｌｂａｓｉｓｆｕｎｃｔｉｏｎ））を含むことができる。幾何記述子はまた、図２に関連して述べられているいくつかの基本的構造変換など、異なるポーズに関連する１つまたは複数の可能な自由度を表す１つまたは複数の幾何変数（たとえば、角度、ねじれ、長さなど）を含むことができる。

たとえば点、ベクトル、平面、球について説明するもののような、いくつかの幾何記述子は、自然の表現を有するが、実際の値は、座標系の選択によって決まる可能性がある。表面、体積、グリッド・マップ、または基底関数のような他のものは、ストレージ要件、所望の精度のレベル、表現すべきオブジェクトの性質に応じて様々な表現を有する可能性がある。たとえば、表面は、一連の表面法線、または様々な基本的表面小片（ｐａｔｃｈ）の集まりによって表すことができる。体積は、３Ｄビットマップの占有によって、または、球またはポリゴンなど、より簡単な幾何オブジェクトの和集合によって表すことができる。

構造の自由度と共に必要とされる幾何記述子は、連続的な、または離散的な変数とすることも、基本的な構造またはエネルギーの考慮すべき点によって課される１つまたは複数の制約を有することも、その分子サブセットについての内部座標系の選択に依存することもできる。そのような記述子は特に重要なものである。というのは、それらは、同じ分子または組合せの２つの異なる幾何状態（たとえば、コンフォメーション、ポーズ、構成）を区別する幾何形状の変換（または演算子）について説明するからである。

その記述子データを有する分子サブセットは、多数の方法で、デジタルで表すことができる。一実施形態では、分子サブセットの記述子データについてのデジタル表現は、ｐｄｂファイル（図４ａ）またはｍｏｌ２ファイル（図４ｂ）など、テキスト・ファイルの形態にあることができる。ｐｄｂファイルおよびｍｏｌ２ファイルは、分子データを記憶するために使用される表現である。

分子サブセットの記述子のための表現の、他の実施形態は、リスト・データ構造である。図５は、４ペプチド・ペプスタチン・アナログ分子ＩＶＶＬ（イソバリルバリンバリンリスタオエチル）（ｉｓｏｖａｌｒｙｌ−ｖａｌｉｎｅ−ｖａｌｉｎｅ−ｌｙｓｔａ−ｏ−ｅｔｈｙｌ）の概略図５００を示す。塗り潰された各円は、原子を表す。円を接続する線は、原子間の結合を表す。各円に割り当てられた一意の番号は、異なる各原子を識別する。番号は任意で割り当てることができ、原子のための識別タグとして働くにすぎない。塗り潰された各円によって表された原子のタイプもまた識別され、たとえば、原子１５は、バリン・ペプチド基５１０内の窒素であり、原子１２は、別のバリン・ペプチド基５２０内の窒素であり、原子５は、イソ吉草酸基５３０内の炭素であり、原子２６は、スタチン・アナログ・リスタオエチル基内のアルファ炭素であり、以下同様である。図６ａは、図３ａに示されているメトトレキサート分子の２Ｄ概略図を示す。

リスト表現の例が図５ｂに示されており、分子ＩＶＶＬについての何らかの分子記述子データが、リストとして表されている。リスト内の各行は、リスト内の原子のインデックス５０１と、その原子タイプ５０２と、その残基５０３と、その空間座標５０４とを含む。図６ｂは、メトトレキサートのリスト表現を示す。リスト内の各行は、リスト内の原子のインデックス６０１と、その原子タイプ６０２と、その空間座標６０３と、その部分電荷６０４とを含む。図５ｂにおけるＩＶＶＬについてのリスト表現と異なり、図６ｂは、各原子の残基タイプを含まず、各原子についての部分電荷を含む。図５ｂおよび図６ｂは、分子の記述子データをリストとしてどのように表すことができるかについての例示的なものであり、包括的な例ではない。

さらに他の実施例では、分子サブセットの記述子データは、ツリーとして表すことができる。ツリー・データ構造は、ノードと呼ばれるオブジェクトと、連結部と呼ばれるノード間の接続との集まりとして定義される。ツリー構造では、ノードが１つまたは複数のレベルで分配され、ノードは、それ自体より高いレベルで１つまたは複数のノードに、またそれ自体より低いレベルで１つまたは複数のノードに接続される。（ルート・ノードとしても知られる）最初のレベルのノードは、それらより低いレベルにあるノードだけに接続される。（リーフ・ノードとしても知られる）最後のレベルのノードは、それらより高いレベルにあるノードだけに接続される。特定のレベルのノードは、下方のレベルでそれが接続される１つまたは複数のノードに対する「親」ノードとして、また上方のレベルでそれが接続される１つまたは複数のノードに対する「子」ノードとして知られる。第１のツリーは、第１のツリーのノードおよび連結部もまた第２のツリー内に含まれる場合、第２のツリーのサブツリーである。

図５ｃは、ノードが原子を表し、ノード間の連結部が原子間の結合を表す、分子のための可能な１つのツリー表現を示す。黒いノードは、窒素原子を表し、灰色のノードは、酸素原子を表し、白いノードは、炭素原子を表す。各ノードの番号は、それが図５ａ内で表す原子を示す。図５ｃに示されている実施形態では、ノード番号１５、すなわち窒素原子が上端レベルである。原子１５は、図５ａにおいて原子１２および原子１９に接続され、したがって、ノード番号１５は、ツリーの第２のレベルで配置されるノード１２およびノード１９に対する連結部を有する。したがって、ノード１５は、ツリーのルート・ノードである。また、ノード１５はノード１２およびノード１９の親ノードであり、ノード１２およびノード１９は、その子ノードである。同図で続行すると、原子１２は、図５ａにおいて原子０９および原子１１に結合され、したがって、ノード１２は、ツリーの第３のレベルで配置されるノード０９およびノード１１に連結される。ツリーのレベルの数は、そのツリーが表す分子のサイズおよび構造によって決まる。図５ｃでは、ツリーは、１１のレベルを有する。各レベルのノードの数は、同じである必要はないことに留意されたい。第１のレベルは１つのノードを含み、第４のレベルは６つのノードを含み、第６のレベルは４つのノードを含むなどである。図５ｄは、図５ａの分子ＩＶＶＬについて別のツリー表現を示す。ツリー表現のこの実施形態では、原子３２が第１のレベルとなるように選択される。その表現は、明らかに図５ｃに示されているものと非常に異なる。違いの例として、図５ｄにおけるツリーは、１８のレベルを有し、一方、図５ｃにおけるツリーは、１１のレベルを有する。したがって、ツリー表現は、分子のサイズや構造に依存するだけでなく、ツリーの第１のレベルとなるように選択される１つまたは複数の原子にも依存する。所与の分子のいくつかのツリー表現があり得ることを理解されたい。

ツリー表現の別の例が、図６ｃに示されている。これは、図６ａに示されているメトトレキサート分子を表す。ツリーは、閉ループまたは環を表すことができない。環を含む構造を表すためにツリーを使用することが望ましい場合には、その表現内に環がないように、いくつかの結合をその表現から省略することが必要とされる。たとえば、メトトレキサートは、３つの環６１５、６２５、６３５を含む。図６ｃにおけるそのツリー表現は、原子０２と０４、０５と０８、１９と２３の間で結合を省略する。省略された結合は、図６ｃに点線として示されている。点線は、連結部ではなく、どの結合が図６ｃに表されていないか見えるようにする助けとなるように示されているにすぎない。メトトレキサートについて他のツリー表現もまた可能であることは、当業者には明らかとなるはずである。

代替の実施形態では、ツリーのノードは、原子ではなく分子断片を表すことができる。図７ａは、環が７１０、７２０と符号付けされているメトトレキサート分子の概略図を示す。メトトレキサートのツリー表現は、図７ｂに示されており、ノード０１は、プテリジン環７１０を表し、ノード１１は、ベンゼン環７２０を表す。

さらに他の実施形態では、分子記述子データをグラフとして表すことができる。グラフは、ノードと呼ばれるオブジェクトと、連結部と呼ばれるノード間の接続との集まりとして定義される。ツリーと異なり、グラフは、そのノードが諸レベルで分配されていない可能性があり、ノードは、任意の他のノードに接続することができる。図６ｄは、メトトレキサートのグラフ表現を示す。各ノードは原子を表し、ノード間の連結部は、原子間の結合を表す。グラフ内で、袋文字の円（ｏｐｅｎｃｉｒｃｌｅ）は、炭素を表し、黒い円は、窒素を表し、灰色の円は、酸素を表す。各円内の番号は、それが表す原子の番号に対応する。たとえば、ノード２２は、ベンゼン環内の２２番の炭素を表し、１１番のノードは、プテリジン環内の１１番の窒素原子を表す。グラフは閉ループまたは環を表すことができ、その結果、プテリジン環およびベンゼン環を構成する結合すべてがグラフ内で表されることに留意されたい。メトトレキサートのツリー表現では、環内のいくつかの結合を、その表現から省略しなければならなかった。

分子サブセットのグラフ表現の他の実施例では、ノードが特定の断片を表し、その構成原子が分子内で接続される断片を連結部で接続することができる。図８ａは、メトトレキサートの概略図を示し、図８ｂは、メトトレキサートのグラフ表現を示す。グラフ内のノード１は、項目８１０を含むプテリジン環を表し、ノード１１は、カルボキシル基８２０を表し、ノード１７は、カルボキシル基８３０を表す。ノード０１と単一の炭素原子を表すノード０３の間の連結部は、ノード０１を構成する原子が炭素原子０３に接続されることを表す。

図９ａは、図９ｂに示されている分子のグラフ表現と共に、６アミノ酸−ＭＥＴ９１０、ＴＹＲ９２０、９３０、９４０、ＴＲＰ９５０、ＰＲＯ９６０で構成されたポリペプチドの概略図を示す。グラフ内のノードは原子を表し、連結部は結合を表す。グラフは、Ｏ−Ｃ−Ｃ−Ｎの反復パターンで構成された（バックボーンとしても知られる）主鎖（ｍａｉｎｃｈａｉｎ）を有することに留意されたい。反復パターンの例は９０１であり、その構成原子は、酸素９１１、炭素９１３、９１５、窒素９１７である。主鎖には、残基または側鎖が添着されている。たとえば、９１９は、アミノ酸ＴＲＰで構成された側鎖であり、図９ａにおける項目９５０に対応する。その分子は、小さなタンパク質の例であり、大きなタンパク質は、アミノ酸の長い鎖である。点線として示されている連結部は、芳香環の一部であり、炭素原子と酸素原子の間の太線は、脂肪族二重結合であり、窒素と炭素の間の太線は、ペプチド結合であり、細い実線は、脂肪族単結合（ｓｉｎｇｌｅａｌｉｐｈａｔｉｃｂｏｎｄ）である。

分子サブセットは、グラフ・データ構造によって多数の異なる方法で表すことができることは、当業者には明らかとなるはずである。上述の諸実施形態は、例示的な例にすぎないものとする。

好ましい実施形態では、分子サブセットの記述子データは、分子サブセットに対する操作を説明しやすくするように、グラフとして表される。これまでに述べたデータ構造（リスト、ツリー、グラフ）は、分子記述子データを表すために使用することができるデータ構造の例示的な例にすぎず、包括的な例ではないことをも理解されたい。

次に、本発明についてさらに述べる際に有用なものとなる、いくつかの定義について述べる。

・あるグラフが含むノードが別のグラフより少ない場合、前者は後者より小さいと言える。
・別のグラフが、あるグラフのノードすべてを含む場合、前者は後者のサブグラフである。
・一方のグラフの任意のノードと他方のグラフの任意のノードとの間に連結部がない場合、２つのグラフは接続されていないと言える。
・２つのグラフのいずれか１つに適用された１組の変換により他方のグラフ内の原子の座標が変化しない場合、その２つのグラフは、その変換に対して独立であると言える。
・１組の変換により、連結部が接続するノードを構成する原子の座標が変化しない場合、その連結部は、その変換に対して不変であると言える。

本発明は、分子サブセットを、より小さな一部の形に分割し、分割されていない分子サブセットに比べて、そのより効率的な記憶、伝送、処理を容易にするための方法について述べる。本発明者らは、分子表現をより小さな一部の形に分割するプロセスを、「区分」と呼び、分子表現のより小さな一部を、「部分表現」（ｓｕｂｒｅｐｒｅｓｅｎｔａｔｉｏｎ）と呼ぶ。２つの部分表現は、一方の部分表現からの任意のノードを他方の部分表現からの任意のノードに接続する連結部がない場合、接続されていないと呼ばれることになり、そうでない場合には、その２つの部分表現は、接続されていると呼ばれることになる。２つの部分表現は、その２つの部分表現のいずれか一方に適用された１組の変換のいずれかにより、他方の部分表現のノードによって表された任意の原子の座標が変化しない場合、その１組の変換に対して相互に独立していると呼ばれることになる。同様に、部分表現は、その部分表現に適用された１組の変換のいずれかにより、その部分表現のノードによって表された任意の原子の座標が修正されない場合、その１組の変換に対して不変であると呼ばれる。

分子を処理するためのシステムの実施形態が、図１０に示されている。パイプライン１０２０の第１のエンジンは、入力または記憶装置１０１０から分子情報を読み出す。パイプライン１０３０内の第２のエンジンは、先行するエンジン１０２０によって読み出された分子データに分子変換を適用する。分子変換エンジン１０３０の出力は、パイプライン内の下流処理エンジン１０４０、１０５０に送られる。１０５０の出力は、記憶装置に進むことも、別のコンピュータ・エンジンに進むこともできる。

一実施形態では、分子処理システム１０００は、専用マイクロプロセッサ、ＡＳＩＣ、またはＦＰＧＡ上で実装することができる。他の実施形態では、分子処理システム１０００は、複数のマイクロプロセッサ、ＡＳＩＣ、またはＦＰＧＡを扱う電子またはシステム・ボード上で実装することができる。さらに他の実施形態では、分子処理システム１０００は、１つまたは複数の電子デバイス内に収容された複数のボード上で、またはそれらを跨いで実装することができる。さらに他の実施形態では、分子処理システム１０００は、１つまたは複数の電子ボード上の１つまたは複数のマイクロプロセッサ、ＡＳＩＣ、またはＦＰＧＡを含む複数のデバイスを跨いで実装することができ、それらのデバイスは、ネットワークを跨いで接続される。

いくつかの実施形態では、分子処理システム１０００はまた、分析において使用される、または分析によって生成された様々な、必要とされるデータ要素の記憶用に１つまたは複数の記憶媒体デバイスを含むことができる。別法として、いくつかの他の実施形態では、いくつかの、またはすべての記憶媒体デバイスは、外部に位置し、しかしネットワーク化する、または他の方法で分子処理システム１０００に接続することができる。外部記憶媒体デバイスの諸例には、１つまたは複数のデータベース・サーバまたはファイル・システムが含まれる可能性がある。１つまたは複数のボードを扱う実装を必要とするいくつかの実施形態では、分子処理システム１０００はまた、コンピュータ・プロセスを支援するために、１つまたは複数のソフトウェア処理コンポーネントを含むことができる。別法として、いくつかの他の実施形態では、いくつかの、またはすべてのソフトウェア処理コンポーネントは、外部に位置し、しかしネットワーク化する、または他の方法で分子処理システム１０００に接続することができる。

背景考察で述べたように、分子処理システム１０００のパイプラインを最大の効率で動作させるために、パイプラインのステージすべてが同一のパイプライン・ステージ間隔を有するべきである。したがって、パイプライン内のより速い、またはより遅い他のエンジンのスピードを整合するために、分子変換エンジンを速くする、または遅くする方法を必要とする。処理エンジンを単にしばらくの間アイドルにすることによって処理エンジンを遅くすることができるが、これは明らかに無駄が多いものである。別法として、より少ない分子または結合を含む、より小さな分子サブセットの形に分子データを区分することによって、分子変換エンジンを速くすることができる。

また、分子表現を部分表現の形に区分することにより、ストレージおよび伝送要件のより小さなパイプライン型分子処理システム１０００の設計および実装が可能になる。これは、システムが、分子のサイズにかかわらず、等しく効率的に分子を処理することを可能にする。

また、区分は、変換エンジンや他の処理エンジンの実際の設計によって制約されることになる。デバイスの設計によるそのような制約の例は、コンピュータ・システム内の使用可能なストレージの量であり、その結果、区分は、部分表現を生成することが制約され、部分表現のそれぞれは、所定の最大量より少ないストレージを使用する。デバイス設計による制約の他の例は、分子処理システム内の記憶装置と処理エンジンとの間の使用可能な帯域幅の量であり、その結果、区分は、部分表現を生成することが制約され、部分表現のそれぞれは、所定量の帯域幅を超えて使用することができない。さらに他の例では、分子処理システム内の複数の処理エンジン間で使用可能なものより多くの帯域幅を部分表現が使用することができない制約を受けて、部分表現を生成しなければならない。代替の例では、区分は、使用可能な処理エンジンの総数と、分子処理システム内でサイクル当たり実行することができる計算の総数とによって制約される可能性がある。ここで、計算の数は、加算、減算、乗算、除算、モジュラス、ビットごとのＡＮＤ、ビットごとのＯＲなど基本演算を、分子処理システムの１つまたは複数のパイプライン・ステージによってサイクル当たり実行することができることを意味する。したがって、区分プロセスは、各部分表現に関連する計算の数が最大数未満となるように、部分表現を生成することが制約される可能性がある。

本発明者らは、ストレージの単位（または、記憶単位）を、１回のトランザクション内で関与することができるストレージの最大量と定義する。たとえば、いくつかのランダム・アクセス・メモリ（ＲＡＭ）技術では、ストレージは、ビットのグループ群で構成され、そのメモリとの１回のトランザクション内でビットのグループ１つだけを読み出す、または書き込むことができる。そのような場合には、記憶単位は、１回のトランザクションで読み出す、または書き込むことができるグループのサイズである。たとえば、ＲＡＭ技術の例におけるそのようなグループのサイズは、６４ビットである。６４ビット未満、たとえば４０ビットを読み出すことが必要とされる場合には、その技術により依然として６４ビットが返され、そのうち２４ビットは無視されることになる。６４ビットを超えて、たとえば１００ビットを読み出すことが必要とされる場合、１００ビットすべてを読み出すために２回のトランザクションがかかることになる。したがって、１回のトランザクション内で読み出すことができるストレージの最大量は６４ビットであり、これはまた、ストレージの単位のサイズである。他の例では、ディスク・ドライブなど、ある記憶技術において、ディスクのセクタ１つだけを読み出すことが可能であり、そのセクタをストレージの単位とすることができる。さらに他の例では、トランザクションごとに、固定された量のデータの読出し／書込みを可能にするように、データベースを構成することができる。そのような場合には、データベースによって課される制限によりストレージの単位が決定される。

また、本発明者らは、表現記憶単位（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｔｏｒａｇｅｕｎｉｔ）を、１つの部分表現を記憶するために使用されるストレージの量と定義する。部分表現によって必要とされるストレージの量は、実際に使用されるストレージの量と異なる可能性があることに留意されたい。そのような場合には、表現記憶単位の何らかの部分が使用されないままとなることになる。たとえば、表現記憶単位を１Ｍｂとし、１つの部分表現について必要とされるストレージの量を０．８Ｍｂとする。そのような場合には、残りの０．２Ｍｂは、使用されないままとなる。未使用のストレージは、部分表現のすべて、または一部を記憶するために使用されない。他の例では、１つの部分表現について必要とされるストレージの量が１．６Ｍｂである場合には、２つの表現記憶単位が使用され、そのうち０．４Ｍｂが使用されないままとなる。

表現記憶単位のサイズは、区分に対する制約として使用することができる。たとえば、部分表現が表現記憶単位より多くのストレージを必要とする場合には、その部分表現がさらに区分される。他の例では、使用中の表現記憶単位すべてについて合計された未使用のストレージの総量が最小限に抑えられるように、区分を制約することができる。

本発明者らは、伝送の単位（または、伝送単位）を、１回のトランザクション内で、トランザクション・チャネルを跨いで伝送することができるデータの最大量と定義する。一例では、デジタル・データをランダム・アクセス・メモリ（ＲＡＭ）からマイクロプロセッサに伝送する際に、単一のクロック・サイクル内で伝送することができるデータの最大量は、マイクロプロセッサ上のピンの数によって決まる。たとえば、ＲＡＭからデータを読み取ることに１２８ピンが提供される場合には、伝送単位サイズは、１２８ビットである。チャネル使用の例において、そのチャネルを跨いで１２８ビットを伝送することが必要とされる場合には、そのチャネルが最も効率的に使用される。１２８ビット未満、たとえば１００ビットを伝送することが必要とされる場合、チャネルは依然として１２８ビットを伝送し、そのうち２８ビットは、受信器によって無視される。したがって、そのような伝送の効率は、１００％未満である。１２８ビットを超えて、たとえば２００ビットを伝送することが必要とされる場合には、第１のトランザクションが最大１２８ビットを含むにすぎず、したがって、伝送単位のサイズを設定する。他の例では、先の例のマイクロプロセッサを、１回のトランザクション内で、１２８ピンだけを使用して２５６ビットを読み出すことができるように構築することができる場合には、伝送単位は、２５６ビットとなる。さらに他の例では、デジタル・データをディスク・ドライブから読み出すためのディスク・ドライブ・コントローラが、１回のトランザクション内で１ＫＢを読み出すことができる場合には、伝送単位は、１ＫＢである。さらに他の例では、受信器は、１ビットずつ、すなわちシリアルでチャネルからデータを読み取ることができるが、そのデータを、所定のサイズまたはサイズの範囲のビットのグループ群、すなわちパケット内で、チャネル上で伝送しなければならない可能性がある。そのような場合には、単一のトランザクションのサイズは１パケットであり、１パケットのサイズにより、伝送単位が決定される。そのようなスキームの諸例は、イーサネット(登録商標)、ＴＣＰ／ＩＰなどである。

また、本発明者らは、表現伝送単位を、１つの部分表現を伝送するために使用される伝送帯域幅の量と定義する。部分表現によって必要とされる帯域幅の量は、実際に使用される帯域幅の量と異なる可能性があることに留意されたい。そのような場合には、表現伝送単位の何らかの部分が、伝送チャネルの受信器によって読み出されないビット、すなわち未読のビットからなることになる。未読のビットはまた、情報を搬送しないと言うことができる。たとえば、表現伝送単位を１Ｍｂとし、１つの部分表現について必要とされる量を０．８Ｍｂとする。そのような場合には、伝送の０．２Ｍｂが未読のビットからなる。他の例では、１つの部分表現について必要とされる帯域幅が１．６Ｍｂである場合には、２つの表現伝送単位が使用され、そのうち０．４Ｍｂが未読のままとなる。

表現伝送単位のサイズは、区分に対する制約として使用することができる。たとえば、部分表現が表現伝送単位より多くの帯域幅を必要とする場合には、その部分表現がさらに区分される。他の例では、使用中の表現伝送単位すべてについて合計された未読のビットの総量が最小限に抑えられるように、区分を制約することができる。

区分エンジン１０２０の好ましい実施形態では、一連のグラフ区分演算子が分子表現に適用され、いくつかの部分表現を生成する。区分演算子は、いくつかの供給された区分基準を受けていくつかの部分表現を生成する。区分演算子の適用後、１つまたは複数の区分基準を使用して、得られる各部分表現がさらに区分を必要とするかどうかさらに評価される。部分表現をさらに区分するための１つの基準例は、その部分表現が所定の閾値より少ない原子を有することである。他の基準例は、部分表現が所定のデータ記憶制限を超えることである。さらに他の基準例は、先の区分演算子によって生成された部分表現の数が、所定の最大閾値より小さかった、および／または、所定の最低閾値より大きかったことである。代替の基準例は、変換を含めて、各部分表現に関連する分子処理計算の数が、所定の最大数より小さい、および／または、所定の最小数より大きいことである。他の基準例は、部分表現内の原子の数の変動を最小限に抑えるべきであることである。すなわち、可能な限り、部分表現すべてが同じ数の原子を有するべきである。上記の基準は例示的な例として示されているにすぎないことは、当業者には明らかとなるはずである。

確実にするための考察では、グラフをより小さなグラフの形に区分することを必要とすることになる。本発明者らは、グラフをより小さなグラフの形にさらに分割するために、以下の種類のグラフ区分演算子を定義する。

連結部除去演算子。この演算子は、１つまたは複数の供給された基準を受けて、グラフから連結部を除去する。グラフから１つまたは複数の連結部を除去すると、グラフを複数の接続されないサブグラフの形に分割することができる。１つまたは複数の供給された基準は、どのタイプの連結部を除去すべきか指定することができる。たとえば、不変連結部だけが除去される、または特定の原子の対（たとえば、２つの炭素原子）間の連結部だけ除去することができる。他の基準は、得られるサブグラフが満たさなければならない、たとえば、連結部除去から得られるサブグラフすべてが閾値未満の数のノードを有するべきである制約を指定することができる。連結部除去に供給される可能性がある基準の諸例、および以下の演算子は、後で区分基準として本説明において提供される。

連結部除去演算子の例が、図１１に示されている。図１１ａは、仮説分子のグラフ表現を示す。グラフのノードは、原子と分子断片とを表し、連結部は、結合を表す。太線は、不変連結部を表し、一方、他の連結部は不変でない。図１１ｂは、連結部除去演算子を図１１ａのグラフに適用した結果を示す。この場合には、演算子は、２つの連結部１１０１、１１０２を除去し、３つの接続されていないサブグラフ１１１０、１１２０、１１３０が得られる。供給された区分基準によって、サブグラフ１１１０、１１２０、１１３０が許容されると判定された場合、区分は完了したと考えられる。サブグラフが許容されないと見なされた場合、連結部の別のセットが除去され、得られるサブグラフが、供給された基準に対して判定される。

図１２ａは、ポリペプチドＭＹＷＹＰＹの概略を示す。不変連結部もまた、図１２ａにおいて１２１０、１２２０、１２３０、１２４０、１２５０で示されている。連結部除去演算子は、不変連結部すべてを除去することを判断し、６つのサブグラフ１２１１、１２２１、１２３１、１２４１、１２５１、１２６１が得られる。図１２ｂは、３つの不変結合１２２０、１２３０、１２４０だけ除去することを判断し、３つのサブグラフ１２１２、１２２２、１２３２、１２４２だけが得られる連結部除去演算子の応用例を示す。２つの区画のうちどちらがより許容されるかは、供給された区分基準によって判断される。

不変連結部除去演算子。この演算子は、除去される連結部すべてが不変でなければならない追加の特性と共に、上記で定義されている連結部除去演算子と全く同じことを実行する。本発明者らは、本説明において後で参照されるように、この演算子を明示的に定義する。

ノード開裂演算子。連結部除去演算子と同様に、この演算子は、供給された基準を受けて、グラフを、接続されていないサブグラフの形に分裂させようと試みる。この演算子は、最初に、１つまたは複数の供給された制約に従って、あるノードをルート・ノードとして選択する。ルート・ノード部で連結される１つまたは複数のサブグラフが、図１３に示されているように接続されていないグラフの形に分裂される。図１３ａは、仮説分子のグラフ表現を示し、ノードが分子断片を表し、連結部が結合を表している。たとえば、ノード開裂演算子は、供給された制約に従って、１３１０をルート・ノードとして選択する。図１３ｂは、３つの接続されていないサブグラフ１３２０、１３３０、１３４０を生成するように、選択されたルート・ノード１３１０部での開裂の結果を示す。元のルート・ノード１３１０は、いま、得られる３つのサブグラフすべてのメンバーであることに留意されたい。図１３ｃにおける例に進むと、そのノードは、３つではなく、２つの部分１３０１、１３０２の形に開裂されている可能性がある。２つの開裂結果のうちどちらがより許容されるかは、供給された制約によって判定される。

グラフを、接続されていないサブグラフの形に分裂させることが可能でない場合、グラフをサブグラフの形に分裂させようと試みるために、１つまたは複数の連結部が除去される。図１４ａは、仮説分子の概略表現を示す。図１４ｂは、ノード開裂演算子を１４１０に適用した結果を示す−グラフは、接続されていないサブグラフの形に分割されない。接続されていないサブグラフ１４３０、１４４０を構築するために、演算子は、連結部１４２０を除去する。

他の例では、図１５ａは、分子ＣＨ２−ＣＢＧ−ＡＳＮ−ＴＹＲ−ＣＨ２−ＰＲＯ−ＩＬＥ−ＶＡＬ−ＮＨの概略を示す。図１５ｂは、ノード１５１０部での開裂の結果を示す−分子は、接続されていない２つのサブグラフの形に区分されない。図１５ｃは、連結部１５２０を除去することにより、接続されていない２つのサブグラフ１５３０、１５４０が得られることを示す。

グラフを分裂させることが不可能であると実証された場合には、分裂が全く行われない。ノード開裂演算子を入力グラフに適用した結果は、入力グラフそれ自体である。

図１６では、本発明のシステムの実施形態がパイプラインを備え、第１のステージ１６１０は、分子のデジタル表現を受け取る。次いで、分子表現は、区分エンジン１６２０によって複数の部分表現の形に区分される。次いで、その部分表現は、１つまたは複数の分子サブセット処理エンジン１６３０によって処理される。一実施形態では、処理エンジンは、部分表現に対して分子変換を計算することができる。他の実施形態では、処理エンジンは、部分表現内の原子および結合に対して親和力機能を計算することができる。上述の処理エンジン１６３０の諸実施形態は、例示的なものであり、包括的なものではないものとすることを理解されたい。

次に、区分エンジン１６２０の好ましい実施形態について述べる。最初に、分子の入力デジタル表現を使用し、分子のグラフ表現を構築する。分子表現の他の実施形態では、ツリー、リストなど諸データ構造をも使用し、グラフと同程度に有用な表現を構築することができることは、当業者には明らかとなるはずである。

区分エンジンの一実施形態では、１つまたは複数の区分基準が分子のグラフ表現に適用され、グラフをとにかく区分するべきかどうか評価する。ある例では、グラフは、閾値未満の数のノードからなる可能性があり、区分することが必要とされない可能性がある。他の例では、グラフによって必要とされるストレージが、単一の区画用の割り振られた最大ストレージを超える可能性があり、区分することが必要とされる可能性がある。グラフを区分することが必要とされない場合には、区分プロセスは完了である。グラフを区分することが必要とされる場合には、不変連結部除去演算子にかけられる。

不変連結部除去演算子は、１つまたは複数の区分基準を受けて、グラフに適用される。演算子を適用することにより、１つまたは複数の部分表現が生成される。得られる部分表現のうち１つまたは複数が、供給された区分基準を満たすようにグラフを区分するやり方を演算子が見出すことができない場合、部分表現１つだけを生成することができる。そうでない場合には、複数の部分表現が生成される。さらなる区分基準が、得られた部分表現に適用され、どの部分表現がそれ以上区分されないかどうか、また、どの部分表現が次の区分演算子−ノード開裂にかけられるかどうか判定する。

不変連結部除去ステップからの、得られた部分表現すべてが所望の区分基準を満たし、さらに区分することが必要とされない可能性がある。そのような場合には、区分プロセスは完了したと考えられる。

ノード開裂演算子が、１つまたは複数の区分基準を受けて、不変連結部除去から得られた１つまたは複数の部分表現に適用される。演算子を適用することにより、１つまたは複数の部分表現が生成される。先のステップと同様に、得られる部分表現のうち１つまたは複数が、供給された区分基準を満たすようにグラフを区分するやり方を演算子が見出すことができない場合、部分表現１つだけを生成することができる。そうでない場合には、複数の部分表現が生成される。次いで、さらなる区分基準が部分表現に適用され、どの部分表現がそれ以上区分されないかどうか、また、どの部分表現がさらなる区分にかけられるかどうか判定する。

ノード開裂ステップからの、得られた部分表現すべてが所望の区分基準を満たし、さらに区分することが必要とされない可能性がある。そのような場合には、区分プロセスは完了したと考えられる。

このステージでの部分表現は、得られる部分表現が所望の区分基準を満たすように、連結部除去演算子およびノード開裂演算子を適用することによって区分される。連結部除去演算子は、不変連結部を含めて、どのタイプの連結部をも除去することができることに留意されたい。所望の区分基準を満たす、接続されていない部分表現が生成されるように、連結部が除去され、ノードが開裂される。このステージで生成された部分表現は、独立であるように制約されず、接続されないにすぎない。いま、区分プロセスは完了したと考えられる。

この開示で述べられている発明は、分子処理において広く使用可能なものである。ここで、分子処理は、コンピュータ手段を介して１つまたは複数の分子の組合せを決定する、または特徴付けることを意味する。いくつかの実施形態では、これは、それだけには限らないが、可能な分子複合体またはその代用の形成の尤度の予測、ある環境内の分子サブセット間の結合親和力または結合エネルギーの推定、その分子の組合せについての結合モード（さらには追加の代替モード）の予測、あるいは、標的分子サブセットとの、予測された生物活性に基づく分子サブセット（たとえば、リガンド）の集まりのランク優先順位付けを含むことができ、したがって、コンピュータ標的−リガンド・ドッキングおよびスコアリングに関連する使用をも含むことになる。

次に、仮想スクリーニングにおける本発明の可能な使用の実施形態について述べる。この実施形態では、しばしばタンパク質である標的との、リガンドについての最良の結合モードを見出そうとする最適化アルゴリズムの一部として、分子変換およびエネルギーの迅速かつ効率的な計算が行われる。入力分子の多数の新しいコンフォメーションを迅速かつ効率的に生成するために、リガンドとタンパク質が共に区分される。分子データは、処理エンジンによって受け取られ、処理エンジンは、その分子をより小さな区画の形に区分する。適正なねじれおよび不適正なねじれ、２平面の回転、結合の延長、ならびに結合角変化など諸変換が、各区画内で１つまたは複数の結合に適用され、その分子について新しいコンフォメーションが並列の形で生成される。区画は、いくつかの分子変換エンジンによって並列で変換されるため、新しいコンフォメーションは、非常に迅速に生成される。それぞれが他方と異なるいくつかのコンフォメーションが生成される。各コンフォメーションからの各変換後区画は、親和力計算エンジンに送られ、親和力計算エンジンは、その特定の区画の、標的分子との親和力を計算する。区画は、変換ならびに親和力を計算するコストが区画全体にわたって一定であり、パイプラインを最大限に利用することを可能にするようなサイズおよび構造のものである。コンフォメーションは、計算された親和力の機能に基づいてランク付けされ、最悪のいくつかは廃棄される。残りの分子を使用し、新しいコンフォメーションを生成し、それについて親和力が計算され、以下同様である。

最適化プロセスは、１つまたは複数の所定の中止基準が満たされたとき中止される。簡単な中止基準の例は、最適化プロセス全体にわたって生成されたコンフォメーションの総数が所定の閾値を満たすことである。中止基準の他の例は、反復の数が所定の閾値に達したことである。

パイプライン化されたコンピュータ・システムの図である。分子コンフォメーションの変化に関連するいくつかの自由度の図である。メトトレキサート分子の異なるコンフォメーションの「ボール・アンド・スティック（ｂａｌｌ−ａｎｄ−ｓｔｉｃｋ）」レンダリングを示す図である。メトトレキサート分子の異なるコンフォメーションの「ボール・アンド・スティック（ｂａｌｌ−ａｎｄ−ｓｔｉｃｋ）」レンダリングを示す図である。メトトレキサート分子の異なるコンフォメーションの「ボール・アンド・スティック（ｂａｌｌ−ａｎｄ−ｓｔｉｃｋ）」レンダリングを示す図である。メトトレキサート分子の異なるコンフォメーションの「ボール・アンド・スティック（ｂａｌｌ−ａｎｄ−ｓｔｉｃｋ）」レンダリングを示す図である。ＰＤＢファイル例（一半部）を示す図である。ＰＤＢファイル例（他半部）を示す図である。図４ａにおけるＰＤＢファイルからの様々な化学記述子を割り当てるために、ＳＹＢＹＬを使用することによって構築されたＭＤＬｍｏｌ２ファイルを示す図である。図４ａおよび４ｂに示されている分子についてＡｍｂｅｒ９６力場を介して割り当てられた物理記述子を含むファイルの一半部を示す図である。図４ａおよび４ｂに示されている分子についてＡｍｂｅｒ９６力場を介して割り当てられた物理記述子を含むファイルの他半部を示す図である。ＩＶＶＬ分子の概略表現を示す図である。ＩＶＶＬ分子のリスト表現例を示す図である。ＩＶＶＬ分子のツリー表現の２つの例を示す図である。ＩＶＶＬ分子のツリー表現の２つの例を示す図である。メトトレキサート分子の概略図である。メトトレキサート分子のリスト表現例を示す図である。メトトレキサート分子のツリー表現例を示す図である。メトトレキサート分子のグラフ表現例を示す図である。メトトレキサート分子の概略図である。メトトレキサート分子のツリー表現例を示す図である。メトトレキサート分子の概略図である。メトトレキサート分子のグラフ表現例を示す図である。６アミノ酸ポリペプチドＭＹＷＹＰＹの概略図である。分子ＭＹＷＹＰＹのグラフ表現例を示す図である。分子処理パイプライン例を示す図である。仮説分子（ｈｙｐｏｔｈｅｔｉｃａｌｍｏｌｅｃｕｌｅ）の概略図である。図１１ａの分子に対する連結部除去演算子の適用の結果を示す図である。ポリペプチドＭＹＷＹＰＹについての連結部除去演算子の諸例を示す図である。ポリペプチドＭＹＷＹＰＹについての連結部除去演算子の諸例を示す図である。仮説分子の概略図である。図１３ａの仮説分子に対するノード開裂演算子の適用の諸例を示す図である。図１３ａの仮説分子に対するノード開裂演算子の適用の諸例を示す図である。仮説分子の概略図である。ノード開裂の例を示す図である。連結部除去の例を示す図である。分子ＣＨ２−ＣＢＧ−ＡＳＮ−ＴＹＲ−ＣＨ２−ＰＲＯ−ＩＬＥ−ＶＡＬ−ＮＨの概略図である。分子ＣＨ２−ＣＢＧ−ＡＳＮ−ＴＹＲ−ＣＨ２−ＰＲＯ−ＩＬＥ−ＶＡＬ−ＮＨについてのノード開裂の諸例を示す図である。分子ＣＨ２−ＣＢＧ−ＡＳＮ−ＴＹＲ−ＣＨ２−ＰＲＯ−ＩＬＥ−ＶＡＬ−ＮＨについてのノード開裂の諸例を示す図である。分子処理パイプラインの例を示す図である。

Claims

生体分子が標的に対するリード候補であるかどうか判定するための方法であって、
（ａ）回路の区分エンジンが前記生体分子または前記標的またはその両方の分子サブセットの分子表現を受け取る工程であって、前記分子サブセットは複数の原子と結合とを含む工程と、
（ｂ）前記区分エンジンが前記分子表現の全部または少なくとも一部に対する一組の分子変換を受け取る工程であって、前記一組の分子変換は少なくとも回転演算子を含み、分子変換が前記分子表現のコンフォメーションの自由度に適用されて前記分子表現のコンフォメーションを変化させる能力を備える操作である工程と、
（ｃ）前記区分エンジンが一組の区分演算子および回路の記憶単位の最大サイズを含む一組の区分基準を受け取る工程であって、前記分子表現への区分演算子の適用は１または複数の区分基準に従う１または複数の部分表現を生成するものである工程と、
（ｄ）前記区分エンジンが前記分子表現を複数の得られる部分表現に区分する工程であって、前記区分は前記一組の分子変換と前記一組の区分演算子と前記一組の区分基準に依拠し、得られる部分表現のサイズは前記回路の記憶単位の最大サイズに依拠するものである工程と、
（ｅ）前記分子部分表現を１以上の分子サブセット処理エンジンに送る工程と、
（ｆ）前記回路の１または複数の分子サブセット処理エンジンが前記分子部分表現を使って前記生体分子の少なくとも一部と前記標的の少なくとも一部の間の結合親和力を判定する工程であって、
前記結合親和力を判定する工程は、１または複数の分子変換の前記組を、前記分子サブセットの複数のコンフォメーションを得るためにそれぞれの得られた部分表現へ適用し、前記コンフォメーションそれぞれの親和力を計算し、前記コンフォメーションの前記親和力から最適な親和力を識別することを含み、前記結合親和力は前記生体分子が前記標的に対するリード候補であるかどうかを判定するのに使用されること
を特徴とする方法。
前記分子表現がグラフであり、前記得られる部分表現がサブグラフである、請求項１に記載の方法。
前記分子表現がツリーであり、前記得られる部分表現がサブツリーである、請求項１に記載の方法。
前記得られる部分表現のうち１つまたは複数が、残りの部分表現すべてに関連する分子変換すべてに対して不変である、請求項１に記載の方法。
前記１組の分子変換が、適正なねじれに対応する１つまたは複数の分子変換と、不適正なねじれに対応する１つまたは複数の分子変換とを含む、請求項１に記載の方法。
前記１組の分子変換が、１つまたは複数の結合の長さの変化に対応する１つまたは複数の分子変換を含む、請求項１に記載の方法。
前記１組の分子変換が、２つの連続する結合間の結合角の変化に対応する１つまたは複数の分子変換を含む、請求項１に記載の方法。
前記１組の分子変換が、キラル中心の周りでの対掌性の変化に対応する１つまたは複数の分子変換を含む、請求項１に記載の方法。
前記１組の分子変換が、１つまたは複数の環に適用されたブック・フォールディング変換に対応する１つまたは複数の分子変換を含む、請求項１に記載の方法。
前記１組の分子変換が、１つまたは複数の環に適用されたコーナー・フラッピング変換に対応する１つまたは複数の分子変換を含む、請求項１に記載の方法。
前記１組の区分演算子が、不変連結部を除去する演算子を含む、請求項１に記載の方法。
前記不変連結部除去演算子が、ポリペプチドのすべてもしくは一部またはポリペプチドの一部を含む分子サブセットのための分子表現に適用され、前記除去された連結部が、ペプチド結合に対応する、請求項１１に記載の方法。
前記得られる部分表現が、側鎖が１つ以下の部分表現内に存在するものである、請求項１２に記載の方法。
前記得られる部分表現が、ある部分表現が前記ポリペプチドの主鎖の一部を含むことができるものである、請求項１３に記載の方法。
前記不変連結部除去演算子が、ヌクレオチドのすべてまたは一部を含む分子サブセットのための分子表現に適用される、請求項１１に記載の方法。
前記分子表現を区分することは、第１の１組の区分基準に従い不変連結部を除去し、その結果１つまたは複数の第１の部分表現を生じることと、
前記不変連結部を除去した後に、第２の１組の区分基準に従いノード開裂演算子を、前記第１の部分表現のうち１つまたは複数に適用し、その結果さらなる部分表現を得ることと、
ノード開裂演算子を適用した後に、任意の種類の追加連結部を除去し、最後の１組の基準に従い追加ノードを開裂し、その結果最後の１組の部分表現を得ることとを含む、請求項１に記載の方法。
前記第１の１組の区分基準に従い不変連結部を除去した結果生じる前記第１の部分表現すべてが、前記区分基準のすべてを満たすとき、さらに区分されない、請求項１６に記載の方法。
前記第２の１組の区分基準に従い前記ノード開裂演算子を適用した結果生じるすべてのさらなる部分表現が、前記区分基準のすべてを満たすとき、さらに区分されない、請求項１６に記載の方法。
前記１組の区分演算子が、ノード開裂を実行する演算子を含む、請求項１に記載の方法。
前記区分基準が、得られる部分表現の総数が所定の最大数未満となることを規定する基準を含む、請求項１に記載の方法。
前記区分基準が、得られる部分表現の総数が所定の最小数を超えることを規定する基準を含む、請求項１に記載の方法。
前記区分基準が、１つまたは複数の区分された部分が所定の最大数未満の原子および／または結合を有することを規定する基準を含む、請求項１に記載の方法。
前記区分基準が、各部分表現に関連する分子変換の数が所定の最大数未満であることを規定する基準を含む、請求項１に記載の方法。
前記区分基準が、各部分表現に関連する分子変換の数が所定の最小数を超えることを規定する基準を含む、請求項１に記載の方法。
前記区分基準が、部分表現内の原子の数間の違いが最小限であることを規定する基準を含む、請求項１に記載の方法。
前記結合親和力を決定することが、分子構成内の２つ以上の分子サブセット間の親和力機能を計算することを含む、請求項１に記載の方法。
前記結合親和力を決定することで、分子の組合せの分析が行われる、請求項１に記載の方法。
各コンフォメーションの親和力の計算をした後で、１つまたは複数の分子変換を使用して新しい分子コンフォメーションを生成することをさらに含む、請求項１に記載の方法。
前記区分基準が、各部分表現に必要とされるストレージが所定の最大量未満であることを規定する基準を含み、区分することが、前記複数の部分表現を複数の記憶単位に記憶するための未使用ストレージの総量が最小になるように制約される、請求項１に記載の方法。
前記区分基準が、各部分表現を前記回路の一方のデバイスから前記回路の他方のデバイスに伝送するために必要とされる帯域幅が所定の最大数未満であることを規定する基準を含む、請求項１に記載の方法。
前記分子表現を前記区分することが、前記回路の１つまたは複数の記憶装置と１つまたは複数の処理エンジンとの間で使用可能な帯域幅に依存する、請求項１に記載の方法。
前記区分することが、前記回路の複数の処理エンジンの間で使用可能な帯域幅に依存する、請求項１に記載の方法。
前記区分することが、前記回路の使用可能な処理エンジンの数に依存する、請求項１に記載の方法。
前記使用可能な処理エンジンが、サイクル当たり最大数の計算を実行することができる、請求項３３に記載の方法。
前記１組の区分基準が、各得られる部分表現に関連する計算の数が所定の最大数未満であることを規定する基準を含む、請求項３３に記載の方法。
前記区分することが、前記回路内の使用可能なストレージの量に依存する、請求項１に記載の方法。
前記区分エンジンが、複数の記憶単位内に前記結果として得られる部分表現のそれぞれを記憶することをさらに含む、請求項１に記載の方法。
前記区分エンジンが、各部分表現を表現記憶単位で記憶し、その結果、所定の整数個の表現記憶単位が１つの記憶単位で記憶されることをさらに含む、請求項１に記載の方法。
前記整数が、前記分子サブセットに依存する、請求項３８に記載の方法。
前記結果として得られる部分表現のそれぞれが、複数の伝送単位で前記回路の１つまたは複数の構成要素間で転送される、請求項１に記載の方法。
各部分表現が、表現伝送単位ごとに転送され、その結果、所定の整数個の伝送単位が１つの伝送単位で転送される、請求項４０に記載の方法。
前記整数が、前記分子サブセットに依存する、請求項４１に記載の方法。
各得られた部分表現に対する分子変換を計算することが、前記得られた部分表現のうち少なくとも１つの座標を変換して前記座標が変更されるようにすることを含む、請求項１に記載の方法。
生体分子が標的に対するリード候補であるかどうか判定するために使用する分子処理システムであって、
前記生体分子または前記標的またはその両方の、複数の原子および結合を含む分子サブセットの分子表現を受け取るデータ読み出しエンジンと、
前記分子表現の全部または少なくとも一部に対する、少なくとも一つの回転演算子を含む一組の分子変換であって、前記分子表現の自由度に適用されかつ分子表現のコンフォメーションを変化させる能力を備えた操作である分子変換と、一組の区分演算子と、回路の記憶単位の最大サイズを含む一組の区分基準であって、１または複数の前記区分基準にしたがって前記分子表現に区分演算子を適用して１または複数の部分表現を生成する前記区分基準とを記憶する１または複数のストレージモジュールと、
前記データ読み出しエンジンと前記ストレージモジュールとに結合されていて、前記一組の分子変換、前記一組の区分演算子、前記一組の区分基準に基づいて前記分子表現を複数の結果として得られる部分表現に区分する区分エンジンであって、得られる部分表現のサイズは前記回路の記憶単位の最大サイズに依拠する区分エンジンと、
前記分子サブセットの複数のコンフォメーションを得るための１または複数の前記分子変換を使って前記得られた部分表現のうちの少なくとも一つを変換する１つまたは複数の分子変換エンジンと、
前記分子部分表現を使って前記生体分子の少なくとも一部と前記標的の少なくとも一部との間の結合親和力を計算する１または複数の分子サブセット処理エンジンであって、
前記結合親和力の計算は、前記コンフォメーションそれぞれの親和力を計算し、前記コンフォメーションの前記親和力から最適な親和力を識別することを含み、前記結合親和力は前記生体分子が前記標的に対するリード候補であるかどうか判定するのに使われる分子サブセット処理エンジンと
を有することを特徴とした分子処理システム。
前記データ読み出しエンジンが、前記１組の分子変換、前記１組の区分演算子、および前記１組の区分基準を受け取るように構成される、請求項４４に記載の分子処理システム。
前記回路が、集積回路である、請求項４４に記載の分子処理システム。
前記分子区分エンジンが、不変連結部を除去する演算子を使用することによって前記分子表現を区分するように構成される、請求項４４に記載の分子処理システム。
前記分子区分エンジンが、
第１の１組の区分基準に従い不変連結部を除去し、その結果１つまたは複数の第１の部分表現を生じることと、
前記不変連結部を除去した後に、第２の１組の区分基準に従いノード開裂演算子を、前記第１の部分表現のうち１つまたは複数に適用し、その結果さらなる部分表現を得ることと、
前記ノード開裂演算子を適用した後に、任意の種類の追加連結部を除去し、最後の１組の基準に従い任意の追加ノードを開裂し、その結果、最後の１組の部分表現を得ることとによって前記分子表現を区分するように構成される、請求項４４に記載の分子処理システム。
前記分子区分エンジンが、得られる部分表現の総数が所定の最大数未満となるように前記分子表現を区分するように構成される、請求項４４に記載の分子処理システム。
前記分子区分エンジンが、それぞれの部分表現に必要なストレージが所定の最大量未満となるように前記分子表現を区分するように構成される、請求項４４に記載の分子処理システム。
前記分子区分エンジンが、前記分子処理システム内の前記分子サブセット処理エンジンの間で、また１つまたは複数の記憶装置と前記分子サブセット処理エンジンのうち１つまたは複数との間で使用可能な帯域幅に基づいて、前記分子表現を区分するように構成される請求項４４に記載の分子処理システム。
前記分子区分エンジンが、使用可能な分子サブセット処理エンジンの数に基づき、また、前記分子処理システム内の１サイクルにつき実行されうる計算の総回数に基づいて、前記分子表現を区分するように構成される、請求項４４に記載の分子処理システム。