JP7387962B2 - Intelligent generation method of drug molecules based on reinforcement learning and docking - Google Patents
Intelligent generation method of drug molecules based on reinforcement learning and docking Download PDFInfo
- Publication number
- JP7387962B2 JP7387962B2 JP2022543606A JP2022543606A JP7387962B2 JP 7387962 B2 JP7387962 B2 JP 7387962B2 JP 2022543606 A JP2022543606 A JP 2022543606A JP 2022543606 A JP2022543606 A JP 2022543606A JP 7387962 B2 JP7387962 B2 JP 7387962B2
- Authority
- JP
- Japan
- Prior art keywords
- molecule
- fragments
- fragment
- molecules
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 230000002787 reinforcement Effects 0.000 title claims description 37
- 238000003032 molecular docking Methods 0.000 title claims description 21
- 239000003814 drug Substances 0.000 title claims description 12
- 229940079593 drug Drugs 0.000 title claims description 11
- 239000012634 fragment Substances 0.000 claims description 125
- 230000000694 effects Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 18
- 150000001875 compounds Chemical class 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 201000010099 disease Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 claims description 3
- 238000003776 cleavage reaction Methods 0.000 claims description 3
- 238000009510 drug design Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 125000006413 ring segment Chemical group 0.000 claims description 3
- 230000007017 scission Effects 0.000 claims description 3
- 239000011701 zinc Substances 0.000 claims description 3
- 229910052725 zinc Inorganic materials 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- IJOOHPMOJXWVHK-UHFFFAOYSA-N chlorotrimethylsilane Chemical compound C[Si](C)(C)Cl IJOOHPMOJXWVHK-UHFFFAOYSA-N 0.000 claims 1
- 101800000535 3C-like proteinase Proteins 0.000 description 7
- 101800002396 3C-like proteinase nsp5 Proteins 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 150000002611 lead compounds Chemical class 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 241000711573 Coronaviridae Species 0.000 description 2
- 108700003471 Coronavirus 3C Proteases Proteins 0.000 description 2
- 238000004617 QSAR study Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 238000013456 study Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は医薬品化学及びコンピュータの技術分野に関し、具体的には、強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法に関する。 The present invention relates to the technical field of medicinal chemistry and computing, and in particular to a method for intelligent generation of pharmaceutical molecules based on reinforcement learning and docking.
医薬品化学の分野では、安全で効果的な化合物の設計や製造は鍵である。これは時間やお金がかかり、複雑で困難であり、複数のパラメータを最適化させるプロセスである。有望の化合物でも臨床試験において失敗していまうリスクが高く(>90%)、その結果、不要な資源浪費をもたらす。現在、1種の新薬を市販するまでには平均コストが10億ドルを遥かに上回っており、発見から市販まで平均で13年がかかる。医薬品の場合は、発見から商業的な生産までは時間がよりかかり、例えば、高エネルギー分子は25年を必要とする。分子を発見するための重要なステップは計算研究又は合成と特徴付け用の候補を生成することである。これは非常に困難なタスクであり、可能な分子の化学空間が巨大であり、すなわち、潜在的な医薬品類似化合物の数が1023~1060種類であり、合成された全ての化合物の数が約108個の桁であるためである。リピンスキーによる薬学における「5つの規則」などヒューリスティック手法が、可能な空間を絞り込むが、大きな課題に直面している。 In the field of medicinal chemistry, the design and production of safe and effective compounds is key. This is a time consuming, expensive, complex and difficult process that requires optimization of multiple parameters. Even promising compounds have a high risk (>90%) of failing in clinical trials, resulting in unnecessary wastage of resources. Currently, the average cost to bring a new drug to market is well over $1 billion, and it takes an average of 13 years from discovery to market. Pharmaceuticals take longer to go from discovery to commercial production, for example, high-energy molecules require 25 years. An important step in discovering molecules is generating candidates for computational studies or synthesis and characterization. This is a very difficult task, as the chemical space of possible molecules is huge, i.e. the number of potential drug-like compounds is 10 23 to 10 60 , and the number of all synthesized compounds is This is because there are approximately 10 8 digits. Heuristic methods such as Lipinski's "Five Rules" for pharmaceutical science narrow down the space of possibilities, but face major challenges.
コンピュータ技術の革命により、AIを使った創薬がトレンドになりつつある。従来、この目的を達成するために、定量的構造-活性関係(QSAR)、分子置換、分子シミュレーション、分子ドッキングなど、さまざまな計算モデルの組み合わせが用いられてきた。しかし、従来の方法は本質的に組み合わせられたものであり、多くの分子の不安定性や合成不可能性を招くことが多い。近年、深層学習モデルに基づいて薬物に類似した化合物を設計するための生成モデルが多く登場しており、例えば、変分オートエンコーダによる分子生成法や、生成的敵対的ネットワークによる分子生成法などがある。しかし、現在の方法は候補化合物の生成速度、有効性や分子活性の面でまだ改良の余裕がある。 Due to the revolution in computer technology, drug discovery using AI is becoming a trend. Traditionally, combinations of various computational models have been used to achieve this goal, including quantitative structure-activity relationships (QSAR), molecular replacement, molecular simulation, and molecular docking. However, conventional methods are combinatorial in nature and often lead to instability or inability to synthesize many molecules. In recent years, many generative models for designing drug-like compounds based on deep learning models have appeared, such as molecule generation methods using variational autoencoders and molecule generation methods using generative adversarial networks. be. However, current methods still have room for improvement in terms of the production rate, efficacy, and molecular activity of candidate compounds.
本発明は、Actor-critic強化学習モデル及びドッキングシミュレーションに基づいて、最適な性質を有する新しい医薬品分子を生成する、強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法を提供する。Actorネットワークには双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングが使用される。 The present invention provides an intelligent generation method of drug molecules based on reinforcement learning and docking, which generates new drug molecules with optimal properties based on an actor-critical reinforcement learning model and docking simulation. The Actor network uses a bidirectional transformer encoder mechanism and modeling with a DenseNet network.
上記の問題を解决するために、本発明は、以下の技術案によって達成される。
強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法は、具体的には、
医薬品設計のための仮想フラグメントコンビネーションライブラリを構築するステップ1であって、
医薬品分子仮想フラグメントコンビネーションライブラリは従来のツールキットによって1組の分子をフラグメント化したものであり、分子を分割する際に、フラグメントは分類されず、全て同じものと取り扱われるステップ1と、
フラグメント類似性を計算して分子フラグメントコーディングを行うステップ2であって、
化学類似性を計算する従来の組み合わせ方法によって異なる分子フラグメントの間の類似性を測定し、類似性に基づく平衡二分木を構築することによって、全てのフラグメントを2進文字列にコーディングし、類似するフラグメントについて類似するコーディングを付与するステップ2と、
Actor-critic強化学習モデルに基づいて分子を生成して最適化するステップ3であって、
(1)Actor-critic強化学習モデルに基づくフレームワークの説明
Actor-critic強化学習モデルに基づいて分子を生成して最適化し、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行い、当該ビットでの値を入れ替えて、すなわち、0であれば、1に変更し、逆の場合にも同様であり、分子に用いられる変化の度合いを追跡することを可能とし、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索でいないようにし、
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態から始まり、Actorは全てのフラグメントを抽出してチェックし、異なるフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、次に、DenseNetネットワーク出力確率によって置換対象のフラグメント及び置換用のフラグメントを決定し、全ての制約に対する新しい状態の満足度に従って、新しい状態を採点し、criticは、次に、新しい状態と現在の状態の価値から増加させる報酬の間の差TD-Errorがactorに供給されるか否かを調べて、YESの場合、actorのアクションが強化され、NOの場合、アクションが阻止され、次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返し、
(2)強化学習モデルの報酬メカニズムの最適化
分子自体の固有属性情報及び分子計算活性情報の2つの特性について最適化された分子を設計し、強化学習モデルの報酬メカニズム部分はパーセプトロンモデルを構築することで報酬結果の予測を行い、パーセプトロンモデルは訓練と予測の2つの段階を含み、訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングしたものに由来するデータセットの陰性サンプルとの2つの由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によってモデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習し、予測過程では、該モデルは、先進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的の従来の関連PDBファイルとについて仮想分子ドッキングを行って得られる生成分子の計算活性情報と、汎用ソフトウェアパッケージを用いて計算された生成分子の固有属性情報とを入力として、生成分子が実際の活性を有するか否かを予測し、生成される分子の活性をさらに最適化させ、強化学習モデルのActorは、有効な分子を生成するごとに報酬が付与され、工夫して予測モデルの期待に合致する分子を取得した場合、より高い報酬が付与されるステップ3とを含む。
In order to solve the above problems, the present invention is achieved by the following technical solution.
Specifically, the intelligent generation method of drug molecules based on reinforcement learning and docking is
Step 1 of constructing a virtual fragment combination library for drug design, comprising:
A drug molecule virtual fragment combination library is a set of molecules fragmented using a conventional toolkit, and when dividing a molecule, the fragments are not classified and are all treated as the same (step 1);
Step 2 of calculating fragment similarity and performing molecular fragment coding,
Measure the similarity between different molecular fragments by traditional combinatorial methods to calculate chemical similarity, and code all fragments into binary strings to make them similar by constructing a balanced binary tree based on similarity. Step 2 of assigning similar coding to the fragments;
Step 3 of generating and optimizing molecules based on an actor-critical reinforcement learning model,
(1) Description of the framework based on the actor-critic reinforcement learning model Generate and optimize a molecule based on the actor-critic reinforcement learning model, select a single fragment of the molecule and 1 bit in the fragment description, and change it. and transpose the value in that bit, i.e. if it is 0, change it to 1, and vice versa, making it possible to track the degree of change used in the numerator and coded We keep the lead bits constant, which allows the model to only change bits at the ends, ensuring that the model only searches for molecules near known compounds,
The molecular state to be fragmented based on the Actor-critical reinforcement learning model, i.e. starting from the current state, the Actor extracts and checks all fragments, introduces the position information in the molecule of different fragments, and transforms the encoder The mechanism is used to calculate the attention coefficient of each fragment of each molecule, and then the fragment to be replaced and the fragment for replacement are determined by the DenseNet network output probability, according to the new state's satisfaction with all constraints. Scoring the new state, the critic then checks whether the difference TD-Error between the new state and the reward to be increased from the value of the current state is provided to the actor, and if YES, the actor's the action is reinforced, if NO, the action is blocked, then replacing the current state with a new state and repeating this process a predetermined number of times;
(2) Optimization of the reward mechanism of the reinforcement learning model A molecule is designed that is optimized for the two characteristics of the molecule itself, unique attribute information and molecular calculation activity information, and a perceptron model is constructed for the reward mechanism part of the reinforcement learning model. The perceptron model includes two stages: training and prediction, and in the training process, the dataset is derived from molecules known to have activity according to previous literature reports. The data set contains two origins: positive samples and negative samples derived from random samples from the same quantity of ZINC library, obtained by sequential docking of positive and negative samples out of order. Using calculated activity information and molecule-specific attribute information calculated by conventional toolkits as input, the model learns the potential correlation between the activity calculation information and attribute information and whether or not it really has activity through multiple trainings, In the prediction process, the model uses the computational activity information of the generated molecules obtained by performing virtual molecular docking between the generated molecules and conventional associated PDB files of disease-related targets using advanced and efficient drug docking software. and unique attribute information of the produced molecule calculated using a general-purpose software package, predict whether the produced molecule has actual activity or not, and further optimize and strengthen the activity of the produced molecule. The actor of the learning model includes step 3 in which a reward is given each time a valid molecule is generated, and a higher reward is given if a molecule that meets the expectations of the prediction model is obtained through devising.
さらに、前記ステップ1では、分子分割において、1つの環原子から延伸している全ての単結合が破壊され、分割を分子するときのフラグメントチェーンリストが作成されて元の分割点を記録して記憶し、後の分子設計における連結点として機能し、ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とし、この過程においてオープンソースツールキットRDKitを用いて分子開裂を行い、重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられ、
さらに、前記ステップ2では、フラグメントの間の類似性計算において、「医薬品類似」分子を比較する際には、具体的には、最大共通下部構造Tanimoto-MCS(TMCS)を用いて類似性を比較し、小さなフラグメントの場合、レーベンシュタイン距離を改良したダメラウ・レーベンシュタイン距離を導入し、この場合、2つの文字列の間のダメラウ・レーベンシュタイン距離を以下のように定義し、
2つの分子M1とM2との間のTMCS距離を以下のように定義し、
この場合、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2、すなわち
、を測定する。
Furthermore, in step 1, all single bonds extending from one ring atom are broken during molecule splitting, and a fragment chain list is created to record and store the original splitting point. It functions as a connecting point in later molecular design, and if the total number of ligation points is constant, it allows the exchange of fragments with different numbers of ligation points, and in this process, the open source tool kit RDKit is used to perform molecule cleavage. , fragments with more than 12 heavy atoms are discarded, fragments with more than 4 ligation points are also discarded,
Furthermore, in step 2, when comparing "drug-like" molecules in the similarity calculation between fragments, the maximum common substructure Tanimoto-MCS (TMCS) is used to specifically compare the similarity. However, for small fragments, we introduce the Damerau-Levenshtein distance, which is an improved version of the Levenshtein distance, and in this case, we define the Damerau-Levenshtein distance between two strings as follows,
Define the TMCS distance between two molecules M1 and M2 as follows,
In this case, the similarity between the two molecules M1 and M2 and the corresponding smiles notations S1 and S2, i.e.
, to measure.
さらに、前記ステップ2では、分子フラグメントコードにおいて、前記文字列はフラグメント類似性に基づく平衡二分木を構築することにより作成され、次に、該木は各フラグメントに2進文字列を生成するものであり、その延伸において分子を表記する2進文字列を生成し、ライゲーションポイントの順序はそれぞれのフラグメントの識別子とされ、木を集合する際には、全てのフラグメントの間の類似性を計算し、次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとし、次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成し、測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性であり、
全てのフラグメントが単一の木に連結されるまで連結過程を繰り返し、
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成し、
ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定し、木のそれぞれの分岐については、左向きであれば、コードに1を追加し(「1」)、右向きであれば、0を追加し(「0」)、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる。
Further, in step 2, in the molecular fragment code, the string is created by constructing a balanced binary tree based on fragment similarity, and then the tree generates a binary string for each fragment. In its stretching, a binary string representing the molecule is generated, the order of the ligation points is taken as an identifier for each fragment, and when assembling the tree, the similarity between all fragments is calculated, Next, fragment pairs are formed using a bottom-up greedy method, where the two most similar fragments are first paired, and then this process is repeated to connect the two most similar pairs of fragments. As a result of measurement, the calculated similarity between two sub-trees is the maximum similarity between any two fragments of these trees,
Repeat the concatenation process until all fragments are concatenated into a single tree,
Once all fragments are stored in a binary tree, generate code for all fragments using the binary tree;
Determine the code of each fragment from the path from the root to the leaf that stores the fragment, and for each branch of the tree, add 1 ('1') to the code if it is pointing to the left, and if it is pointing to the right, Add a 0 ('0'), so that the rightmost character of the code corresponds to the branch closest to the fragment.
従来技術に比べて、本発明の有益な効果は以下のとおりである。
本発明は、Actor-critic強化学習モデル及びドッキングシミュレーション方法に基づいて、新規分子を生成する。該モデルは、所望の性質を付与するためにどのように分子を修飾して改良するかを学習する。
(1)従来の強化学習方法と異なり、本発明は、如何にリード化合物のフラグメントを変換することによって、従来の化合物に近い構造の新規化合物を生成し、検索対象の化学空間を絞り込むかに着目する。
(2)本発明は、Actor-critic強化学習モデルに基づいて、Actorネットワークには双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングを利用し、様々なフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、フラグメントの分子での相対位置又は絶対位置情報を保存することで、並行訓練を実現する。
(3)強化学習の報酬メカニズムによって単層パーセプトロンモデルが作成され、該モデルの入力は、分子関連属性情報と活性情報との2つの部分の情報を含み、該活性情報は、ドッキングソフトウェアを用いて生成分子と疾患関連標的とについて分子ドッキングを行うことにより得られ、生成される分子の活性はさらに最適化させる。
(4)本発明の方法では、候補生成物の規模については、特定の疾患に対応する標的に対しては、200万以上の候補生成分子の生成が予測される。
(5)本発明の方法では、分子ドッキング部分によって1000個以上の超高次元パラメータが追加され、分子活性と関連属性情報が融合され、最適化させた80%以上の高品質AI分子が生成され得る。
(6)本発明の方法は大規模なスーパーコンピューティングプラットフォームに依拠し、分子生成速度が顕著に向上する。
Compared with the prior art, the beneficial effects of the present invention are as follows.
The present invention generates new molecules based on an actor-critical reinforcement learning model and docking simulation method. The model learns how to modify and improve molecules to impart desired properties.
(1) Unlike conventional reinforcement learning methods, the present invention focuses on how to generate new compounds with structures close to conventional compounds by converting fragments of lead compounds and narrow down the chemical space to be searched. do.
(2) The present invention is based on an actor-critical reinforcement learning model, uses a bidirectional transformer encoder mechanism and modeling by a DenseNet network in the actor network, introduces position information in molecules of various fragments, and transforms the transformer encoder Parallel training is achieved by calculating the attention coefficient of each fragment of each molecule using a mechanism and storing the relative or absolute position information of the fragments in the molecule.
(3) A single-layer perceptron model is created by the reward mechanism of reinforcement learning, and the input of the model includes two parts of information: molecule-related attribute information and activity information, and the activity information is generated using docking software. The activity of the produced molecules is further optimized by performing molecular docking of the produced molecules and disease-related targets.
(4) In terms of the scale of candidate products, the method of the present invention predicts the production of 2 million or more candidate molecules for a target corresponding to a specific disease.
(5) In the method of the present invention, more than 1000 ultra-high-dimensional parameters are added by the molecular docking part, molecular activity and related attribute information are fused, and more than 80% of optimized high-quality AI molecules are generated. obtain.
(6) The method of the present invention relies on a large-scale supercomputing platform, which significantly increases the rate of molecule production.
以下、実施例によって図面を参照しながら本発明の技術案をさらに説明するが、本発明の特許範囲は実施例を何ら限定するものではない。 Hereinafter, the technical solution of the present invention will be further explained using examples with reference to the drawings, but the patent scope of the present invention is not limited to the examples in any way.
実施例1
本実施例は、主として、新型コロナウイルスのMpro標的に対する活性化合物の生成を目的とし、1組の出発リード化合物を基にして、これらのフラグメントの一部を置換することでこれらの分子を改良して最適化させ、所望の性質を有するMproを標的とする新規活性化合物を生成する。本実施例では、Actor-critic強化学習モデル及びドッキングシミュレーション方法に基づいて、最適な性質を有する新規医薬品分子を生成する。以下、本実施例の技術案について詳細に説明する。
Example 1
This example is primarily aimed at generating active compounds against the Mpro target of the novel coronavirus, based on a set of starting lead compounds and improving these molecules by substituting some of their fragments. to generate new active compounds targeting Mpro with desired properties. In this example, a new drug molecule with optimal properties is generated based on an actor-critical reinforcement learning model and a docking simulation method. The technical proposal of this embodiment will be described in detail below.
Actor-critic強化学習モデル及びドッキングに基づく医薬品分子のインテリジェント生成方法であって、具体的には、下記のステップ1~ステップ3を含む。 The present invention is a method for intelligently generating drug molecules based on an actor-critical reinforcement learning model and docking, and specifically includes steps 1 to 3 below.
ステップ1.医薬品設計のための仮想フラグメントコンビネーションライブラリを構築する。 Step 1. Building a virtual fragment combination library for drug design.
医薬品分子仮想フラグメントコンビネーションライブラリは1組の分子をフラグメント化したものである。本実施例の仮想フラグメントライブラリは、図1に示すように、医薬品化学データベースであるChEMBLデータベースからのMpro標的に関連する10172個の化合物と、実験室において分子ドッキングによりスクリーニングされたMproを標的とする175個のリード化合物とから構成される。分子のフラグメント化の通常の方法は、分子を環構造、側鎖やリーガーなどのものに分けることである。本発明では、フラグメントを分類しない以外、分子分割は略同じ手段に従って行われる。このため、全てのフラグメントは同じものとして取り扱われる。分子を切断するために、1つの環原子から延伸している全ての単結合が破壊される。分子を分割する際に、フラグメントチェーンリストが作成されて元の分割点を記録して記憶し、後の分子設計における連結点として機能する。ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とする。この過程において、分子開裂は従来の化学情報学のオープンソースツールキットRDKitによって行われる。この過程において、重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられる。これらの制約は面白い候補対象を多く生成することを維持しながら複雑さを低減させるためである。 A drug molecule virtual fragment combination library is a fragmented set of molecules. As shown in Figure 1, the virtual fragment library of this example includes 10172 compounds related to the Mpro target from the ChEMBL database, which is a medicinal chemistry database, and the Mpro target screened by molecular docking in the laboratory. It consists of 175 lead compounds. A common method of molecular fragmentation is to separate the molecule into ring structures, side chains, leaguers, etc. In the present invention, molecular resolution is performed according to substantially the same means, except that fragments are not sorted. Therefore, all fragments are treated as the same. To cleave a molecule, all single bonds extending from one ring atom are broken. When a molecule is split, a fragment chain list is created to record and remember the original split points and serve as linking points in later molecule designs. If the total number of ligation points is constant, it is possible to exchange fragments with different numbers of ligation points. In this process, molecular cleavage is performed by the conventional cheminformatics open source toolkit RDKit. In this process, fragments with more than 12 heavy atoms are discarded, and fragments with more than 4 ligation points are also discarded. These constraints are intended to reduce complexity while still generating a large number of interesting candidate objects.
ステップ2.フラグメント類似性を計算して分子フラグメントコーディングを行う。 Step 2. Perform molecular fragment coding by calculating fragment similarities.
ステップ2.1 フラグメント間んお類似性の計算
本実施例では、全てのフラグメントは2進文字列としてコーディングされ、なお、コーディングは類似するフラグメントが類似するコードを得ることを目的とする。このため、フラグメントの間の類似性についての測定が行わなければならない。化学類似性を計算する方法が多くある。分子の指紋は直接的な2進コードであり、ここでは、類似する分子は原則的には類似するコードが付与される。ただし、分子フラグメント及びそれに固有のスパース表現の形式を比較した結果、ここでの目的に関しても、分子の指紋の寄与がそれほど大きくない。化学的には、分子の間の類似性を視覚的に測定する方法としては、最大共通下部構造Tanimoto-MCS(TMCS)類似性を利用することである。
Step 2.1 Calculating inter-fragment similarity In this example, all fragments are coded as binary strings, and the coding is aimed at obtaining similar codes for similar fragments. For this reason, measurements of similarity between fragments must be made. There are many ways to calculate chemical similarity. The fingerprint of a molecule is a direct binary code, where similar molecules are in principle given similar codes. However, after comparing molecular fragments and their inherent sparse representation formats, the contribution of molecular fingerprints is not very large, even for our purposes here. Chemically, a way to visually measure the similarity between molecules is to use maximum common substructure Tanimoto-MCS (TMCS) similarity.
ここで、mcs(M1,M2)は分子M1及びM2の最大共通下部構造の原子数であり、atoms(M1)及びatoms(M2)はそれぞれ分子M1及びM2の原子数である。 Here, mcs (M1, M2) is the number of atoms in the maximum common substructure of molecules M1 and M2, and atoms (M1) and atoms (M2) are the numbers of atoms in molecules M1 and M2, respectively.
Tanimoto-MCS類似性の利点の1つはフラグメントの構造を直接比較するので、他の特定の表記に依存しないことにある。「医薬品類似」分子を比較する際には、通常、このような方法は好適である。しかし、小さなフラグメントの場合、Tanimoto-MCS類似性には欠点がある。このため、本発明では、2つのテキスト文字列の間の類似性を測定する一般的な方法であるレーベンシュタイン距離が導入されている。レーベンシュタイン距離は、2つの文字列を同じとするのに必要な最小の挿入、削除及び置換の回数として定義される。ただし、置換による編集距離への影響を考慮して、本実施例では、レーベンシュタイン距離を改良した的ダメラウ・レーベンシュタイン距離が導入され、すなわち、2つの文字列の間のダメラウ・レーベンシュタイン距離は以下のように定義される。
One of the advantages of Tanimoto-MCS similarity is that it directly compares the structures of fragments and therefore does not rely on any other specific notation. Such methods are generally preferred when comparing "drug-like" molecules. However, for small fragments, Tanimoto-MCS similarity has drawbacks. For this reason, the present invention introduces the Levenshtein distance, a common method to measure the similarity between two text strings. Levenshtein distance is defined as the minimum number of insertions, deletions, and substitutions required to make two strings the same. However, in consideration of the effect of substitution on the edit distance, this example introduces the Damerau-Levenshtein distance, which is an improved version of the Levenshtein distance, that is, the Damerau-Levenshtein distance between two character strings is It is defined as below.
妥協案として、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2を測定するようになり、すなわち、以下のとおりである。
As a compromise, we now measure the similarity between two molecules M1 and M2 and the corresponding smiles notations S1 and S2, namely:
ステップ2.2 分子フラグメントのコーディング
全てのフラグメントは2進文字列にコーディングされる。前記文字列はフラグメント類似性に基づく平衡二分木を構築することにより作成され。次に、該木は各フラグメントに2進文字列を生成するものであり、その延伸において分子を表記する2進文字列を生成する。ライゲーションポイントの順序はそれぞれのフラグメントの識別子とされる。木を集合する際には、全てのフラグメントの間の類似性を計算する。次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとする。次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成する。測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性である。全てのフラグメントが単一の木に連結されるまで、連結過程を繰り返す。
Step 2.2 Coding of Molecular Fragments All fragments are coded into binary strings. The string is created by constructing a balanced binary tree based on fragment similarity. The tree then generates a binary string for each fragment, and its extension generates a binary string representing the molecule. The order of ligation points is taken as an identifier for each fragment. When assembling a tree, we calculate the similarity between all fragments. Next, fragment pairs are formed by a bottom-up greedy method, in which the two most similar fragments are first paired. This process is then repeated to connect the two most similar pairs of fragments to form a new four-leaf tree. As a result of the measurement, the calculated similarity between two subtrees is the maximum similarity between any two fragments of these trees. Repeat the concatenation process until all fragments are concatenated into a single tree.
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成する。ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定する。木のそれぞれの分岐については、図2に示すように、左向きであれば、コードに1を追加し(「1」)、右向きであれば、(「0」)を追加し、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる。 Once all fragments are stored in a binary tree, the binary tree is used to generate code for all fragments. The code of each fragment is determined from the path from the root to the leaf that stores the fragment. For each branch of the tree, as shown in Figure 2, if it goes to the left, add 1 ('1') to the code, if it goes to the right, add ('0'), and in this way , the rightmost character of the code will correspond to the branch closest to the fragment.
ステップ3.Actor-critic強化学習モデルに基づいて分子を生成して最適化する。 Step 3. Generate and optimize molecules based on an actor-critical reinforcement learning model.
ステップ3.1 Actor-critic強化学習モデルに基づくフレームワークの説明
本発明では、Actor-critic強化学習モデルに基づいて分子を生成して最適化し、最適化は、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行うことである。当該ビットでの値を入れ替える。すなわち、0であれば、1に変更し、逆の場合にも同様である。こにより、分子に用いられる変化の度合いを追跡することが可能になり、コードの末端でビットを変更することは、非常に類似するフラグメントの変化を表し、開始部位での変化は大幅に異なるタイプのフラグメントの変化を表すためである。図3に示すように、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索でいないようにする。
Step 3.1 Description of Framework Based on Actor-Critic Reinforcement Learning Model In the present invention, molecules are generated and optimized based on the actor-critic reinforcement learning model, and the optimization consists of a single fragment of the molecule and the fragment. This is to select and change one bit in the description. Swap the value in the relevant bit. That is, if it is 0, it is changed to 1, and vice versa. This makes it possible to track the degree of change used in the molecule; changing a bit at the end of the code represents a change in a very similar fragment, while a change at the start site represents a significantly different type of change. This is to represent changes in fragments. As shown in Figure 3, we keep the coded lead bits constant, allowing the model to only change bits at the ends, ensuring that the model only searches for molecules near known compounds.
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態Sから始まる。Actorは全てのフラグメントを抽出してチェックし、双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークを利用して置換対象のフラグメント及び置換用のフラグメントを決定し、すなわち、Actorにより採用されるアクションAiは新しい状態Siを取得する。全ての制約に対する新しい状態の満足度に従って、新しい状態Siについて採点Rを行う。次にcriticは、SiとSの価値から増加させる報酬の間の差Td-errorがactorに供給されるか否かを調べる。YESの場合、actorのアクションAiが強化され、NOの場合、アクションが阻止される。次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返す。ここで、損失関数loss=-log(prob)*td_errorである We begin with a molecular state, ie, the current state S, that is fragmented based on the actor-critical reinforcement learning model. The Actor extracts and checks all the fragments and determines the fragment to be replaced and the fragment for replacement using the bidirectional transformer encoder mechanism and the DenseNet network, i.e., the action Ai adopted by the Actor changes the new state Si get. Score R for the new state Si according to the new state's satisfaction with all constraints. Next, the critic checks whether the difference Td-error between the reward to be increased from the value of Si and S is provided to the actor. If YES, the action Ai of the actor is strengthened, and if NO, the action is blocked. The current state is then replaced with a new state and the process is repeated a predetermined number of times. Here, the loss function loss=-log(prob)*td_error
ステップ3.2 強化学習モデルActorのネットワーク構造
Actorネットワークは、双方向トランスフォーマーエンコーダメカニズム及びDenseNetネットワークによるモデリングを利用して、さまざまなフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用して、各分子のさまざまなフラグメントのアテンション係数を計算し、該構造の一回の読み取りは1分子のコーディングフラグメントを表し、向前き及び後向きに出力して連結し、連結された表記をDenseNetニューラルネットワークを通じて、どのフラグメントを変化するかを計算し、変化後の確率分布の推定を行う。
Step 3.2 Reinforcement learning model Actor network structure The Actor network uses the bidirectional transformer encoder mechanism and modeling by DenseNet network to introduce the molecular position information of various fragments, and uses the transformer encoder mechanism to introduce the molecular position information of various fragments. , calculate the attention coefficients of different fragments of each molecule, one read of the structure represents a coding fragment of one molecule, output and concatenate forward and backward, and convert the concatenated representation into a DenseNet neural network. Through this process, we calculate which fragments to change and estimate the probability distribution after the change.
フラグメントの置換概率は分子の前進フラグメントと後続フラグメントに依存する。このため、各分子はフラグメント配列として構成され、この配列はトランスフォーマーエンコーダメカニズムに一括して伝達される。各分子のさまざまなフラグメントのアテンション係数を計算することにより、各フラグメントの重要性が得られる。図4に示すように、次に、フォワード及びバックワードトランスフォーマーエンコーダによって1分子のさまざまなフラグメント相関性を有するベクトル化表記が入力され、最後に、連結の結果はDenseNetネットワークによって分類され、どのフラグメントを変化するかの計算及び変化後の確率分布の推定が行われる。 The fragment displacement probability depends on the forward and trailing fragments of the molecule. To this end, each molecule is organized as a fragment sequence, and this sequence is transmitted en masse to the transformer encoder mechanism. By calculating the attention coefficients of the various fragments of each molecule, the importance of each fragment is obtained. As shown in Figure 4, vectorized representations with different fragment correlations of one molecule are then input by forward and backward transformer encoders, and finally, the concatenation result is classified by a DenseNet network to identify which fragments. Calculation of whether the change will occur and estimation of the probability distribution after the change are performed.
ステップ3.3 強化学習モデルの報酬メカニズムの最適化
創薬では、最も重大な課題は複数の特性を最適化させた分子の設計であり、これらの特性には好適な関連性がない場合がある。提案されている方法では、このような状況に対応できることを確かめるために、2種の異なる特性が選択され、これらの特性は医薬品としての分子のフィージビリティを表し得る。本発明の目的は、実際の活性分子の性質により近い医薬品の分子を生成し、すなわち、所望の「最適位置」で分子を生成することである。前記したとおり、選択された性質は分子自体の固有属性情報(例えば、MW、clogPやPSAなど)及び分子計算活性情報(すなわち、分子と特定の疾患の対応する標的とのドッキング結果の情報)である。なお、本発明では、強化学習モデルの報酬メカニズム部分は単層パーセプトロンモデルを構築することで報酬結果の予測を行う。このモデルは訓練と予測との2つの段階を含む。訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングするものに由来するデータセットの陰性サンプルとの2つの部分の由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によって、モデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習する。予測過程では、該モデルでは、生成分子の計算活性情報は、進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的とについて仮想分子ドッキングを行うことにより得られる。該モデルは、医薬品ドッキングソフトウェア、例えばLedockによって、各epochによって生成される512個以下の分子とMpro新型コロナウイルスに関連する異なるコンフォメーションの380個の標的に関する従来のPDBファイルとについて仮想分子ドッキングを行う。生成分子の固有属性情報は、汎用ソフトウェアパッケージRDKitを用いて計算されるものであり、生成分子の計算活性情報及び分子自体の固有属性情報の合計1143個の超高次元パラメータを単層パーセプトロンの入力として、生成分子が実際の活性を有するか否かを予測し、生成される分子の活性をさらに最適化させる。該強化学習フレームワークのactorは、有効な分子を生成するごとに報酬が付与され、工夫して予測モデルの期待に合致する分子を取得した場合、より高い報酬が付与される。
Step 3.3 Optimizing the Reward Mechanism of Reinforcement Learning Models In drug discovery, the most critical challenge is the design of molecules that optimize multiple properties, and these properties may not have favorable relationships. . In order to ensure that the proposed method is compatible with this situation, two different properties are selected, which can represent the feasibility of the molecule as a drug. The aim of the present invention is to produce molecules of pharmaceutical products closer to the properties of the actual active molecules, ie to produce molecules in the desired "optimal position". As mentioned above, the selected properties are information on the intrinsic attributes of the molecule itself (e.g., MW, clogP, PSA, etc.) and molecular computational activity information (i.e., information on the docking results of the molecule with the corresponding target of a specific disease). be. In the present invention, the reward mechanism part of the reinforcement learning model predicts the reward result by constructing a single-layer perceptron model. This model includes two stages: training and prediction. During the training process, the dataset is divided into positive samples from molecules known to be active according to previous literature reports, and negative samples from the dataset from random samplings from the same amount of ZINC libraries. Inputting the calculated activity information obtained by sequentially docking the positive and negative samples, including the origin of the two parts with the sample, and the molecule-specific attribute information calculated by a conventional toolkit, Through multiple trainings, the model learns the potential correlation between activation calculation information and attribute information and whether or not there is really activation. In the prediction process, in the model, computational activity information of the product molecules is obtained by performing virtual molecular docking of the product molecules with disease-related targets using an advanced and efficient drug docking software. The model performs virtual molecule docking with pharmaceutical docking software, e.g. Ledock, for up to 512 molecules generated by each epoch and a conventional PDB file of 380 targets of different conformations related to the Mpro novel coronavirus. conduct. The unique attribute information of the generated molecule is calculated using the general-purpose software package RDKit, and a total of 1143 ultra-high-dimensional parameters, including the calculated activity information of the generated molecule and the unique attribute information of the molecule itself, are input into a single-layer perceptron. As a result, it is possible to predict whether the generated molecule has actual activity or not, and further optimize the activity of the generated molecule. The actors of the reinforcement learning framework are rewarded each time they generate a valid molecule, and are rewarded with a higher reward if they make efforts to obtain a molecule that meets the expectations of the prediction model.
最終的に生成された新型コロナウイルスMpro標的に対する活性化合物分子は図5に示される。 The final generated active compound molecules against the novel coronavirus Mpro target are shown in Figure 5.
なお、以上の本発明の前記実施例は説明的なものに過ぎず、本発明を限定するものではなく、このため、本発明は上記の特定の形態に限定されるものではない。当業者が本発明の原理を逸脱することなく本発明に基づて得る他の形態は全て本発明の特許範囲に属する。 It should be noted that the above-described embodiments of the present invention are merely illustrative and do not limit the present invention, and therefore the present invention is not limited to the specific embodiments described above. All other forms that a person skilled in the art may deduce based on the invention without departing from the principles of the invention are within the patentable scope of the invention.
Claims (3)
医薬品設計のための仮想フラグメントコンビネーションライブラリを構築するステップ1であって、
医薬品分子仮想フラグメントコンビネーションライブラリは従来のツールキットによって1組の分子をフラグメント化したものであり、分子を分割する際に、フラグメントは分類されず、全て同じものと取り扱われるステップ1と、
フラグメント類似性を計算して分子フラグメントコーディングを行うステップ2であって、
化学類似性を計算する従来の組み合わせ方法によって異なる分子フラグメントの間の類似性を測定し、類似性に基づく平衡二分木を構築することによって、全てのフラグメントを2進文字列にコーディングし、類似するフラグメントについて類似するコーディングを付与し、
フラグメントの間の類似性計算において、「医薬品類似」分子を比較する際には、具体的には、最大共通下部構造Tanimoto-MCSを用いて類似性を比較し、小さなフラグメントの場合、レーベンシュタイン距離を改良したダメラウ・レーベンシュタイン距離を導入し、この場合、2つの文字列の間のダメラウ・レーベンシュタイン距離を以下のように定義し、
2つの分子M1とM2との間のTMCS距離を以下のように定義し、
この場合、2つの分子M1とM2との間の類似性、及び対応するsmiles表記S1及びS2、すなわち、
を測定するステップ2と、
Actor-critic強化学習モデルに基づいて分子を生成して最適化するステップ3であって、
(1)Actor-critic強化学習モデルに基づくフレームワークの説明
Actor-critic強化学習モデルに基づいて分子を生成して最適化し、分子の単一のフラグメント及び該フラグメント記述における1bitを選択して変更を行い、当該ビットでの値を入れ替えて、すなわち、0であれば、1に変更し、逆の場合にも同様であり、分子に用いられる変化の度合いを追跡することを可能とし、コーディングされるリードビットを一定に維持し、これにより、モデルでは末端でのビット変更のみを許可し、モデルが既知の化合物付近の分子しか検索できないようにし、
Actor-critic強化学習モデルに基づいてフラグメント化される分子状態、すなわち、現在の状態から始まり、Actorは全てのフラグメントを抽出してチェックし、異なるフラグメントの分子での位置情報を導入し、トランスフォーマーエンコーダメカニズムを利用してそれぞれの分子の各フラグメントのアテンション係数を計算し、次に、DenseNetネットワーク出力確率によって置換対象のフラグメント及び置換用のフラグメントを決定し、全ての制約に対する新しい状態の満足度に従って、新しい状態を採点し、criticは、次に、新しい状態と現在の状態の価値から増加させる報酬の間の差TD-Errorがactorに供給されるか否かを調べて、YESの場合、actorのアクションが強化され、NOの場合、アクションが阻止され、次に、現在の状態を新しい状態で置換し、このプロセスを所定の回数繰り返し、
(2)強化学習モデルの報酬メカニズムの最適化
期待に合致する分子自体の固有属性情報及び分子計算活性情報を有する分子を設計し、強化学習モデルの報酬メカニズム部分は訓練と予測の2つの段階を含むパーセプトロンモデルを構築することで報酬結果の予測を行い、訓練過程では、データセットは、従来の文献報告により活性を有するものとして知られている分子由来のデータセットの陽性サンプルと、同じ数量のZINCライブラリからランダムにサンプリングするものに由来するデータセットの陰性サンプルとの2つの由来を含み、陽性サンプル及び陰性サンプルの順序を乱したものを順次ドッキングして得られた計算活性情報及び従来のツールキットによって算出された分子固有属性情報を入力として、複数の訓練によって、モデルは活性計算情報及び属性情報と本当に活性があるか否かとの潜在的な相関関係を学習し、予測過程では、該モデルは、先進的かつ効率的な医薬品ドッキングソフトウェアを用いて生成分子と疾患に関連する標的の従来の関連PDBファイルとについて仮想分子ドッキングを行って得られる生成分子の計算活性情報と、汎用ソフトウェアパッケージを用いて計算された生成分子の固有属性情報とを入力として、生成分子が実際の活性を有するか否かを予測し、強化学習モデルのActorは、有効な分子を生成するごとに報酬が付与され、期待に合致する分子自体の固有属性情報及び分子計算活性情報を有する分子を取得できる場合、より高い報酬が付与されるステップ3とを含む、ことを特徴とするインテリジェント生成方法。 An intelligent generation method for pharmaceutical molecules based on reinforcement learning and docking, specifically:
Step 1 of constructing a virtual fragment combination library for drug design, comprising:
A drug molecule virtual fragment combination library is a set of molecules fragmented using a conventional toolkit, and when dividing a molecule, the fragments are not classified and are all treated as the same (step 1);
Step 2 of calculating fragment similarity and performing molecular fragment coding,
Measure the similarity between different molecular fragments by traditional combinatorial methods to calculate chemical similarity, and code all fragments into binary strings to make them similar by constructing a balanced binary tree based on similarity. give similar coding for fragments ,
In calculating the similarity between fragments, when comparing "drug-like" molecules, we specifically compare the similarity using the maximum common substructure Tanimoto-MCS, and for small fragments, we use the Levenshtein distance. In this case, we define the Damerau-Levenshtein distance between two strings as follows,
Define the TMCS distance between two molecules M1 and M2 as follows,
In this case, the similarity between the two molecules M1 and M2 and the corresponding smiles notations S1 and S2, i.e.
Step 2 of measuring
Step 3 of generating and optimizing molecules based on an actor-critical reinforcement learning model,
(1) Description of the framework based on the actor-critic reinforcement learning model Generate and optimize a molecule based on the actor-critic reinforcement learning model, select a single fragment of the molecule and 1 bit in the fragment description, and change it. and transpose the value in that bit, i.e. if it is 0, change it to 1, and vice versa, making it possible to track the degree of change used in the numerator and coded We keep the lead bits constant, which allows the model to only change bits at the ends, allowing the model to only search for molecules near known compounds,
The molecular state to be fragmented based on the Actor-critical reinforcement learning model, i.e. starting from the current state, the Actor extracts and checks all fragments, introduces the position information in the molecule of different fragments, and transforms the encoder The mechanism is used to calculate the attention coefficient of each fragment of each molecule, and then the fragment to be replaced and the fragment for replacement are determined by the DenseNet network output probability, according to the new state's satisfaction with all constraints. Scoring the new state, the critic then checks whether the difference TD-Error between the new state and the reward to be increased from the value of the current state is provided to the actor, and if YES, the actor's the action is reinforced, if NO, the action is blocked, then replacing the current state with a new state and repeating this process a predetermined number of times;
(2) Optimization of the reward mechanism of reinforcement learning model
The reward mechanism part of the reinforcement learning model predicts the reward result by designing a molecule with unique attribute information of the molecule itself and molecular computational activity information that matches expectations, and constructing a perceptron model that includes two stages: training and prediction. During the training process, the dataset consists of positive samples of the dataset derived from molecules known to have activity according to previous literature reports, and data derived from random sampling from the ZINC library of the same quantity. The calculation activity information obtained by sequentially docking the positive and negative samples in a disordered order and the molecule-specific attribute information calculated by the conventional toolkit are input. , Through multiple trainings, the model learns the potential correlation between activity calculation information and attribute information and whether it is really active, and in the prediction process, the model uses advanced and efficient drug docking software. The computational activity information of the generated molecule obtained by virtual molecule docking of the generated molecule and the conventional related PDB file of the disease-related target, and the unique attribute information of the generated molecule calculated using a general-purpose software package. As input , the actor of the reinforcement learning model predicts whether or not the generated molecule has actual activity , and is given a reward each time it generates an effective molecule. 3. An intelligent generation method comprising step 3 in which a higher reward is given if a molecule having molecular calculation activity information can be obtained .
ライゲーションポイントの総数が一定であれば、ライゲーションポイント数の異なるフラグメントの交換を可能とし、
この過程においてオープンソースツールキットRDKitを用いて分子開裂を行い、
重原子が12個を超える断片が捨てられ、4個以上のライゲーションポイントを有する断片も捨てられる、ことを特徴とする請求項1に記載の強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法。 In step 1, in the molecule splitting, all single bonds extending from one ring atom are broken, and when splitting the molecule, a fragment chain list is created to record and store the original splitting point, Serves as a connecting point in later molecular design,
As long as the total number of ligation points is constant, it is possible to exchange fragments with different numbers of ligation points,
In this process, molecular cleavage was performed using the open source toolkit RDKit,
The method for intelligent generation of pharmaceutical molecules based on reinforcement learning and docking according to claim 1, characterized in that fragments with more than 12 heavy atoms are discarded, and fragments with more than 4 ligation points are also discarded.
木を集合する際には、全てのフラグメントの間の類似性を計算し、次に、ボトムアップ型貪欲法によってフラグメントペアを形成し、ここでは、まず最も類似する2つのフラグメントをペアとし、次に、この過程を繰り返して、フラグメントが最も類似している2対を連結して4リーフ付き新木を形成し、測定の結果、算出した2つのサブ木の間の類似性はこれらの木のいずれか2つのフラグメントの間の最大類似性であり、
全てのフラグメントが単一の木に連結されるまで連結過程を繰り返し、
全てのフラグメントが二分木に記憶されると、前記二分木を用いて全てのフラグメントについてコードを生成し、ルートからフラグメントを記憶するリーフまでの経路からそれぞれのフラグメントのコードを決定し、木のそれぞれの分岐については、左向きであれば、コードに1を追加し、右向きであれば、0を追加し、このようにして、コードの最右の文字がフラグメントに最も近い分岐に対応するようになる、ことを特徴とする請求項1に記載の強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法。 In step 2, in the molecular fragment code, the string is created by constructing a balanced binary tree based on fragment similarity, and then the tree generates a binary string for each fragment. , in its stretching generates a binary string representing the molecule, the order of the ligation points being taken as an identifier for each fragment,
When assembling a tree, we calculate the similarity between all fragments, and then form fragment pairs using a bottom-up greedy method, where we first pair the two most similar fragments, then Then, by repeating this process, we concatenate the two pairs of fragments that are most similar to form a new tree with 4 leaves. is the maximum similarity between the two fragments,
Repeat the concatenation process until all fragments are concatenated into a single tree,
Once all fragments are stored in the binary tree, generate codes for all fragments using the binary tree, determine the code for each fragment from the path from the root to the leaf that stores the fragment, and For a branch, if it goes left, we add 1 to the code, if it goes right, we add 0, so that the rightmost character of the code corresponds to the branch closest to the fragment. 2. The intelligent generation method of pharmaceutical molecules based on reinforcement learning and docking according to claim 1.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110780433.3A CN113488116B (en) | 2021-07-09 | 2021-07-09 | Drug molecule intelligent generation method based on reinforcement learning and docking |
CN202110780433.3 | 2021-07-09 | ||
PCT/CN2021/107490 WO2023279436A1 (en) | 2021-07-09 | 2021-07-21 | Drug molecule intelligent generation method based on reinforcement learning and docking |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023531846A JP2023531846A (en) | 2023-07-26 |
JP7387962B2 true JP7387962B2 (en) | 2023-11-29 |
Family
ID=77938422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022543606A Active JP7387962B2 (en) | 2021-07-09 | 2021-07-21 | Intelligent generation method of drug molecules based on reinforcement learning and docking |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7387962B2 (en) |
CN (1) | CN113488116B (en) |
WO (1) | WO2023279436A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762661A (en) * | 2022-11-21 | 2023-03-07 | 苏州沃时数字科技有限公司 | Molecular design and structure optimization method, system, device and storage medium |
CN117831646B (en) * | 2023-11-29 | 2024-09-03 | 重庆大学 | Molecular orientation intelligent generation method based on molecular fragment chemical space deconstruction |
CN117711528A (en) * | 2023-12-25 | 2024-03-15 | 石家庄鲜虞数字生物科技有限公司 | Virtual screening method based on molecular space search |
CN118412066B (en) * | 2024-05-15 | 2024-10-18 | 西南科技大学 | A method, device, equipment and medium for constructing an organic molecule virtual screening library |
CN118800363A (en) * | 2024-06-15 | 2024-10-18 | 南通大学附属医院 | Generation and screening method of lead active molecules based on artificial intelligence fragmentation technology |
CN119179911B (en) * | 2024-11-26 | 2025-01-28 | 武汉泰铭恒创信息技术股份有限公司 | Intelligent community police service data processing method and system based on artificial intelligence |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820361A (en) | 2019-11-15 | 2021-05-18 | 北京大学 | A drug molecule generation method based on adversarial imitation learning |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019018780A1 (en) * | 2017-07-20 | 2019-01-24 | The University Of North Carolina At Chapel Hill | Methods, systems and non-transitory computer readable media for automated design of molecules with desired properties using artificial intelligence |
EP3698283A1 (en) * | 2018-02-09 | 2020-08-26 | DeepMind Technologies Limited | Generative neural network systems for generating instruction sequences to control an agent performing a task |
GB201805300D0 (en) * | 2018-03-29 | 2018-05-16 | Benevolentai Tech Limited | Reinforcement Learning |
US20220076799A1 (en) * | 2019-01-07 | 2022-03-10 | President And Fellows Of Harvard College | Machine learning techniques for determining therapeutic agent dosages |
EP4008006A1 (en) * | 2019-08-02 | 2022-06-08 | Flagship Pioneering Innovations VI, LLC | Machine learning guided polypeptide design |
US20210057050A1 (en) * | 2019-08-23 | 2021-02-25 | Insilico Medicine Ip Limited | Workflow for generating compounds with biological activity against a specific biological target |
CN110534164A (en) * | 2019-09-26 | 2019-12-03 | 广州费米子科技有限责任公司 | Drug molecule generation method based on deep learning |
CN110970099B (en) * | 2019-12-10 | 2023-04-28 | 北京大学 | A Drug Molecule Generation Method Based on Regularized Variational Autoencoder |
CN111508568B (en) * | 2020-04-20 | 2023-08-29 | 腾讯科技(深圳)有限公司 | Molecule generation method, molecule generation device, computer readable storage medium and terminal device |
CN112116963B (en) * | 2020-09-24 | 2024-11-19 | 深圳智药信息科技有限公司 | Automatic drug design method, system, computing device and computer readable storage medium |
-
2021
- 2021-07-09 CN CN202110780433.3A patent/CN113488116B/en active Active
- 2021-07-21 WO PCT/CN2021/107490 patent/WO2023279436A1/en active Application Filing
- 2021-07-21 JP JP2022543606A patent/JP7387962B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820361A (en) | 2019-11-15 | 2021-05-18 | 北京大学 | A drug molecule generation method based on adversarial imitation learning |
Non-Patent Citations (2)
Title |
---|
Alexander Larlsson, et al.,Deep Reinforcement Learning for Multiparameter Optimization in de novo Drug Design,Journal of Chemical Information and Modeling [online],2019年07月05日,No.59,Pages.3166-3176,[検索日:2023年6月15日], <URL:https://doi.org/10.1021/acs.jcim.9b00325> |
Sai Krishna Gottipati, et al.,Towered Actor Critic For Handling Multiple Action Types In Reinforcement Learning For Drug Discovery,Proceedings of the AAAI Conference on Artificial Intelligence [online],2021年05月18日,Vol.35, No.1,Pages.142-150,[検索日:2023年6月27日], <URL:https://doi.org/10.1609/aaai.v35i1.16087> |
Also Published As
Publication number | Publication date |
---|---|
WO2023279436A1 (en) | 2023-01-12 |
CN113488116B (en) | 2023-03-10 |
JP2023531846A (en) | 2023-07-26 |
CN113488116A (en) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7387962B2 (en) | Intelligent generation method of drug molecules based on reinforcement learning and docking | |
Maziarz et al. | Learning to extend molecular scaffolds with structural motifs | |
Sousa et al. | Generative deep learning for targeted compound design | |
Dong et al. | Deep learning in retrosynthesis planning: datasets, models and tools | |
Bradshaw et al. | A model to search for synthesizable molecules | |
Blaschke et al. | Memory-assisted reinforcement learning for diverse molecular de novo design | |
JP7217696B2 (en) | Apparatus for predicting physical properties of polymer, program, and method for predicting physical properties of polymer | |
CN108717470B (en) | A Code Snippet Recommendation Method with High Accuracy | |
Humphrey et al. | JAMS: A JSON Annotated Music Specification for Reproducible MIR Research. | |
Quick et al. | Grammar-based automated music composition in Haskell | |
CN111090461A (en) | Code annotation generation method based on machine translation model | |
CN116802741A (en) | Inverse synthesis system and method | |
CN112116963A (en) | Automated drug design method, system, computing device and computer-readable storage medium | |
CN114924741A (en) | A Code Completion Method Based on Structural Features and Sequence Features | |
Lin et al. | PanGu Drug Model: learn a molecule like a human | |
CN116189809B (en) | Drug molecule important node prediction method based on challenge resistance | |
Schirmer et al. | Introduction to RNA secondary structure comparison | |
Alberga et al. | DeLA-DrugSelf: Empowering multi-objective de novo design through SELFIES molecular representation | |
Lavecchia | Navigating the frontier of drug-like chemical space with cutting-edge generative AI models | |
Nebel et al. | Random generation of RNA secondary structures according to native distributions | |
Gao et al. | Fragment‐based deep molecular generation using hierarchical chemical graph representation and multi‐resolution graph variational autoencoder | |
Bouchard-Côté et al. | Improved reconstruction of protolanguage word forms | |
Ray et al. | Deep variational graph autoencoders for novel host-directed therapy options against COVID-19 | |
Singh et al. | ChemoVerse: Manifold traversal of latent spaces for novel molecule discovery | |
Xu et al. | Tree-Invent: A novel multipurpose molecular generative model constrained with a topological tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220715 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7387962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |