[go: up one dir, main page]

JP7288207B2 - 低分子化合物探索方法、プログラム、装置、およびシステム - Google Patents

低分子化合物探索方法、プログラム、装置、およびシステム Download PDF

Info

Publication number
JP7288207B2
JP7288207B2 JP2021163292A JP2021163292A JP7288207B2 JP 7288207 B2 JP7288207 B2 JP 7288207B2 JP 2021163292 A JP2021163292 A JP 2021163292A JP 2021163292 A JP2021163292 A JP 2021163292A JP 7288207 B2 JP7288207 B2 JP 7288207B2
Authority
JP
Japan
Prior art keywords
molecular
low
compound
weight
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021163292A
Other languages
English (en)
Other versions
JP2023054446A (ja
Inventor
祥平 太刀川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daikin Industries Ltd
Original Assignee
Daikin Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=85803435&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP7288207(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Daikin Industries Ltd filed Critical Daikin Industries Ltd
Priority to JP2021163292A priority Critical patent/JP7288207B2/ja
Priority to EP22878445.0A priority patent/EP4414992A4/en
Priority to PCT/JP2022/036775 priority patent/WO2023058576A1/ja
Priority to CN202280064701.4A priority patent/CN117980997A/zh
Priority to TW111137547A priority patent/TW202324145A/zh
Publication of JP2023054446A publication Critical patent/JP2023054446A/ja
Publication of JP7288207B2 publication Critical patent/JP7288207B2/ja
Application granted granted Critical
Priority to US18/622,044 priority patent/US20240242787A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、低分子化合物探索方法、プログラム、装置、およびシステムに関する。
従来、目的の機能、特性、物性を達成する材料を探索するためには、実験者が、実験者の知識や経験をもとに実験を行なわなければならなかった。しかし、このような材料探索の手法では、材料探索の成功の可否は、実験者の知識や経験に影響されてしまう。
そのため、昨今では、マテリアルズ・インフォマティクスと呼ばれる、目的の機能、特性、物性を達成する材料を情報科学で探索する手法が知られている(特許文献1)。
特開2020-71827号公報
しかしながら、特許文献1では、ポリマー(高分子化合物)を対象としており、低分子化合物を対象としていない。本開示では、所望の物性を有する可能性の高い低分子化合物を探索することを目的とする。
本開示の第1の態様による方法は、
コンピュータが実行する方法であって、
複数の低分子化合物の化学構造を取得するステップと、
回帰モデルを用いて、前記取得された各低分子化合物の化学構造から、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出するステップと、
前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出するステップと、を含む。
本開示の第1の態様によれば、所望の物性を有する可能性の高い低分子化合物を探索することができる。
また、本開示の第2の態様は、第1の態様に記載の方法であって、
前記獲得関数が期待改善度(Expected Improvement)である場合、期待改善度が最大となる低分子化合物を決定するステップをさらに含む。
本開示の第2の態様によれば、期待改善度が最大となる低分子化合物を探索することができる。
また、本開示の第3の態様は、第1の態様または第2の態様に記載の方法であって、
前記複数の低分子化合物のうちの一部の低分子化合物を選択するステップと、
前記選択された一部の低分子化合物の化学構造と、前記選択された一部の低分子化合物の物性値の実測値と、を用いて前記回帰モデルを生成するステップと
をさらに含む。
本開示の第3の態様によれば、事前に実験を行って回帰モデルを生成しておかなくてもよい。
また、本開示の第4の態様は、第1の態様または第2の態様に記載の方法であって、
前記複数の低分子化合物の化学構造を、複数の種類の記述子に置き換えるステップと、
前記複数の種類の記述子をもとに、前記複数の低分子化合物のうちの一部の低分子化合物を選択するステップと、
前記選択された一部の低分子化合物の化学構造と、前記選択された一部の低分子化合物の物性値の実測値と、を用いて前記回帰モデルを生成するステップと
をさらに含む。
本開示の第4の態様によれば、事前に実験を行って回帰モデルを生成しておかなくてもよく、かつ、複数の種類の記述子をもとに選択された一部の低分子化合物により生成された回帰モデルを用いることができる。
また、本開示の第5の態様は、第4の態様に記載の方法であって、
前記複数の低分子化合物の化学構造を文字列にするステップをさらに含む。
本開示の第5の態様によれば、文字列で表記された化学構造を扱うことができる。
また、本開示の第6の態様は、第4の態様に記載の方法であって、
前記複数の低分子化合物の化学構造を複数の種類のRDKit2D記述子に置き換えるステップをさらに含む。
本開示の第6の態様によれば、化学構造を数値化して扱うことができる。
また、本開示の第7の態様は、第1の態様から第6の態様のいずれかに記載の方法であって、
前記推定値は、確率分布の平均値であり、前記ばらつきは、前記確率分布の標準偏差である。
本開示の第7の態様によれば、物性値の平均値と標準偏差を考慮して、所望の低分子化合物を探索することができる。
また、本開示の第8の態様は、第1の態様から第7の態様のいずれかに記載の方法であって、
前記複数の低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物と、のうちの少なくとも1つを含む。
本開示の第8の態様によれば、種々の手法により、候補化合物を取得することができる。
また、本開示の第9の態様は、第1の態様から第8の態様のいずれかに記載の方法であって、
前記回帰モデルは、ガウス過程回帰モデルである。
本開示の第9の態様によれば、物性値の推定の不確実性を把握することができる。
また、本開示の第10の態様は、第1の態様から第9の態様のいずれかに記載の方法であって、
前記物性値の推定値を修正するステップと、
前記物性値の推定値を修正された低分子化合物の化学構造と、前記修正された物性値の推定値と、を用いて前記回帰モデルを生成するステップと
をさらに含む。
本開示の第10の態様によれば、1つの低分子化合物ごとではなく、複数の低分子化合物を用いて一度に実験を行うことができる。
本開示の第11の態様による方法は、
コンピュータが実行する方法であって、
複数の低分子化合物の化学構造を、複数の種類の記述子に置き換えるステップと、
前記複数の種類の記述子についてdet(XTX)が最大になる組み合わせを選択することで、前記複数の低分子化合物のうち、最も多様な化合物群を選択するステップと、を含む。
本開示の第11の態様によれば、複数の低分子化合物の中から多様性に富む化合物群を選択することができる。
また、本開示の第12の態様は、第11の態様に記載の方法であって、
前記複数の種類の記述子について、相関性の高い記述子のうちの一部を選択するステップをさらに含み、
前記最も多様な化合物群は、選択された一部の記述子を用いて選択され、
選択された一部の記述子の数が前記最も多様な化合物群を形成する低分子化合物の数以下である。
本開示の第12の態様によれば、情報量が多い記述子を残すことができる。
また、本開示の第13の態様は、第11の態様に記載の方法であって、
前記最も多様な化合物群は、遺伝的アルゴリズムを用いて選択される。
本開示の第13の態様によれば、多大な計算量に対応することができる。
また、本開示の第14の態様は、第11の態様に記載の方法であって、
前記最も多様な化合物群を形成する低分子化合物の化学構造と、前記最も多様な化合物群を形成する低分子化合物の物性値の実測値と、を用いて回帰モデルを生成するステップと
をさらに含む。
本開示の第14の態様によれば、回帰モデルの適用範囲を広げることができる。
本開示の第15の態様によるプログラムは、
コンピュータに
複数の低分子化合物の化学構造を取得する手順、
回帰モデルを用いて、前記取得された各低分子化合物の化学構造から、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出する手順、
前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出する手順、を実行させる。
本開示の第16の態様による装置は、
制御部を備えた装置であって、
前記制御部は、
複数の低分子化合物の化学構造を取得し、
回帰モデルを用いて、前記取得された各低分子化合物の化学構造から、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出し、
前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出する。
本開示の第17の態様によるシステムは、
サーバとユーザ端末とを含むシステムであって、
前記サーバの制御部は、
複数の低分子化合物の化学構造を取得し、
回帰モデルを用いて、前記取得された各低分子化合物の化学構造から、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出し、
前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出し、
前記獲得関数を、前記ユーザ端末に提示する。
本開示の一実施形態に係る全体の構成を示す図である。 本開示の一実施形態に係る化合物探索装置のハードウェア構成を示す図である。 本開示の一実施形態に係る全体の流れを説明するための図である。 本開示の一実施形態に係る全体の流れを説明するための図である。 本開示の一実施形態に係る化学構造から複数の種類の記述子への置き換えについて説明するための図である。 本開示の一実施形態に係る最も多様な化合物群の選択について説明するための図である。
以下、図面に基づいて本開示の実施の形態を説明する。
<用語>
本明細書において、「低分子化合物」とは、分子量1万以下の化合物である。
<全体の構成>
図1は、本開示の一実施形態に係る全体の構成を示す図である。以下、実施例1と実施例2に分けて説明する。
<実施例1>
図1の上部で示されるように、実施例1では、ユーザ30は、化合物探索装置10を操作して、化合物探索装置10に化合物を探索させることができる。
化合物探索装置10は、化合物の探索の処理を行う。具体的には、化合物探索装置10は、ユーザ30が入力した指示を受け付けて、化合物の探索の処理を行い、探索の処理の結果を提示する。化合物探索装置10は、例えば、パーソナルコンピュータ、タブレット、スマートフォン等である。
<実施例2>
図1の下部で示されるように、実施例2では、ユーザ30は、ユーザ端末20を操作して、化合物探索装置10(例えば、サーバ)に化合物を探索させることができる。化合物探索システム1は、化合物探索装置(例えば、サーバ)10と、ユーザ端末20と、を含む。
化合物探索装置(例えば、サーバ)10は、化合物の探索の処理を行う。具体的には、化合物探索装置(例えば、サーバ)10は、ユーザ端末20からの要求に応じて、化合物の探索の処理を行い、探索の処理の結果をユーザ端末20に提示させる。化合物探索装置(例えば、サーバ)10は、1つまたは複数のコンピュータから構成される。化合物探索装置(例えば、サーバ)10は、任意のネットワークを介して、ユーザ端末20とデータを送受信することができる。
ユーザ端末20は、化合物探索装置(例えば、サーバ)10に化合物の探索の処理を要求して、探索の処理の結果を提示する。具体的には、ユーザ端末20は、ユーザ30が入力した指示を化合物探索装置(例えば、サーバ)10へ送信する。また、ユーザ端末20は、化合物の探索の処理の結果を、化合物探索装置(例えば、サーバ)10から受信して提示する。ユーザ端末20は、例えば、パーソナルコンピュータ、タブレット、スマートフォン等である。ユーザ端末20は、任意のネットワークを介して、化合物探索装置(例えば、サーバ)10とデータを送受信することができる。
<ハードウェア構成>
図2は、本開示の一実施形態に係る化合物探索装置10のハードウェア構成を示す図である。なお、ユーザ端末20についても同様である。
化合物探索装置10は、制御部101、ROM(Read Only Memory)102、RAM(Random Access Memory)103を有する。制御部101、ROM102、RAM103は、いわゆるコンピュータを形成する。また、化合物探索装置10は、補助記憶装置104、表示装置105、操作装置106、I/F(Interface)装置107、ドライブ装置108を有することができる。なお、化合物探索装置10の各ハードウェアは、バス109を介して相互に接続されている。
制御部(例えば、CPU)101は、補助記憶装置104にインストールされている各種プログラムを実行する演算デバイスである。制御部101がプログラムを実行することによって、本明細書に記載の各処理が行われる。
ROM102は、不揮発性メモリである。ROM102は、補助記憶装置104にインストールされている各種プログラムを制御部101が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ROM102はBIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
RAM103は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM103は、補助記憶装置104にインストールされている各種プログラムが制御部101によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
補助記憶装置104は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。
表示装置105は、化合物探索装置10の内部状態等を表示する表示デバイスである。
操作装置106は、化合物探索装置10の操作者が化合物探索装置10に対して各種指示を入力する入力デバイスである。
I/F装置107は、ネットワークに接続し、他のデバイスと通信を行うための通信デバイスである。
ドライブ装置108は記憶媒体110をセットするためのデバイスである。ここでいう記憶媒体110には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記憶媒体110には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、補助記憶装置104にインストールされる各種プログラムは、例えば、配布された記憶媒体110がドライブ装置108にセットされ、該記憶媒体110に記録された各種プログラムがドライブ装置108により読み出されることでインストールされる。あるいは、補助記憶装置104にインストールされる各種プログラムは、I/F装置107を介して、ネットワークよりダウンロードされることでインストールされてもよい。
以下、制御部101が実行する処理について説明する。図3を参照しながら、全体の流れを説明した後に、各処理の詳細を説明する。
<全体の概要>
図3は、本開示の一実施形態に係る全体の流れを説明するための図である。なお、化合物探索装置10は、低分子化合物の物性値の目標値(例えば、実験者等が入力した目標値)を取得しておくものとする。
ステップ1(S1)において、化合物探索装置10は、複数の低分子化合物の化学構造を取得する。つまり、化合物探索装置10は、候補となる化合物である候補化合物を取得する。
ステップ2(S2)において、化合物探索装置10は、S1で取得された複数の低分子化合物の化学構造を、複数の種類の記述子(例えば、RDKit2D記述子)に置き換える。
ステップ3(S3)において、化合物探索装置10は、S2の複数の種類の記述子をもとに、S1で取得された複数の低分子化合物のうちの一部の低分子化合物(例えば、最も多様な化合物群)を選択する。具体的には、化合物探索装置10は、D最適化の手法を用いて、最も多様な化合物群を選択する。
ステップ4(S4)において、実験者は、S3で選択された最も多様な化合物群を用いて実験を行う。実験の結果、目的を達成した場合(物性値の実測値が物性値の目標値を満たす場合)には処理を終了し、目的を達成しなかった場合にはステップ5へ進む。
ステップ5(S5)において、化合物探索装置10は、S3で選択された最も多様な化合物群を用いて回帰モデル(具体的には、ガウス過程回帰モデル)を生成する。具体的には、化合物探索装置10は、S3で選択された低分子化合物の化学構造と、S3で選択された低分子化合物の物性値の実測値(S4の実験により得られた値)と、を用いて回帰モデルを生成する。回帰モデルは、入力が"低分子化合物の化学構造"であり、出力が"物性値"であるモデル(つまり、"低分子化合物の化学構造"から"物性値"を推定するモデル)である。
以下、ステップ6およびステップ7において、化合物探索装置10は、ベイズ最適化の手法を用いて、獲得関数を算出する。
ステップ6(S6)において、化合物探索装置10は、S5で生成された回帰モデル(具体的には、ガウス過程回帰モデル)を用いて、S1で取得された複数の低分子化合物のうちS3の最も多様な化合物群以外の低分子化合物の化学構造から、物性値の推定値および該推定値のばらつきを算出する。
ステップ7(S7)において、化合物探索装置10は、S6で算出された物性値の推定値および該推定値のばらつきから、獲得関数を算出する。その後、化合物探索装置10は、獲得関数が最大または最小となる低分子化合物(例えば、獲得関数が期待改善度(Expected Improvement)である場合には、期待改善度が最大となる低分子化合物)を決定する。そして、化合物探索装置10あるいはユーザ端末20に、獲得関数が最大または最小となる低分子化合物の化学構造が表示される。
ステップ8(S8)において、実験者は、S7で算出された獲得関数をもとに決定された低分子化合物(例えば、獲得関数が期待改善度(Expected Improvement)である場合には、期待改善度が最大となる低分子化合物)を用いて実験を行う。実験の結果、目的を達成した場合(物性値の実測値が物性値の目標値を満たす場合)には処理を終了し、目的を達成しなかった場合にはステップ5へ戻り、S8の実験により得られた値を追加して回帰モデルを生成し直す(つまり、化合物探索装置10は、S8で実験を行われた低分子化合物の化学構造と、S8で実験を行われた低分子化合物の物性値の実測値(S8の実験により得られた値)と、を機械学習用のデータセットに追加して再学習する)。
以下、各処理の詳細を説明する。
<<複数の低分子化合物の取得(図3のS1)>>
まず、複数の低分子化合物の取得について説明する。化合物探索装置10は、複数の低分子化合物(候補となる化合物である候補化合物)の化学構造を取得する。以下、[人によって選択された化合物]と、[データベースから抽出された化合物]と、[特定のアルゴリズムによって設計された化合物]と、に分けて説明する。
[人によって選択された化合物]
例えば、化合物探索装置10は、人(例えば、実験者)によって選択された複数の低分子化合物を、候補化合物として取得する。この場合、人(例えば、実験者)の知見を活かした化合物を候補化合物とすることができる。
[データベースから抽出された化合物]
例えば、化合物探索装置10は、任意の化合物データベースから抽出された複数の低分子化合物を、候補化合物として取得する。この場合、化合物データベース内の種々の化合物を候補化合物とすることができる。
[特定のアルゴリズムによって設計された化合物]
例えば、化合物探索装置10は、特定のアルゴリズムによって設計された複数の低分子化合物を、候補化合物として取得する。例えば、アルゴリズムは、分子を部分構造にフラグメント化するアルゴリズムであってもよいし、分子を部分構造にフラグメント化した後にそれらの部分構造をつなぐアルゴリズムであってもよいし、任意の部分構造を列挙した後にそれらの部分構造をつなぐアルゴリズムであってもよい。
<<化学構造から記述子への置き換え(図3のS2)>>
次に、化学構造から記述子への置き換えについて説明する。化合物探索装置10は、低分子化合物の化学構造を、複数の種類の記述子に置き換える。なお、化合物の化学構造の記述子とは、化合物の特徴を数値化したものである。図5を参照しながら詳細に説明する。
図5は、本開示の一実施形態に係る化学構造から複数の種類の記述子への置き換えについて説明するための図である。
例えば、化合物探索装置10は、低分子化合物の化学構造を文字列(例えば、SMILES(simplified molecular input line entry system)の文字列)にして、その文字列を、複数の種類の記述子に置き換えることができる。なお、化学構造の表記方法は、SMILESに限られず、他の表記方法(例えば、MOLファイル)であってもよい。
例えば、化合物探索装置10は、複数の低分子化合物の化学構造を複数の種類のRDKit2D記述子に置き換えることができる。
<<最も多様な化合物群の選択(図3のS3)>>
次に、最も多様な化合物群の選択について説明する。機械学習用のデータセットは、多様な化合物群のデータセットであることが好ましい。もし、機械学習用のデータセットの化合物が同じような(つまり、記述子が似通っている)化合物ばかりであったとすると、機械学習により生成されたモデルの適用範囲が狭くなってしまう(つまり、特定の化合物のみを用いてモデルを生成すると、それ以外の化合物を推定することができない)。そのため、化合物探索装置10は、D最適化の手法を用いて、複数の種類の記述子をもとに、複数の低分子化合物のうち最も多様な化合物群を選択する。図6を参照しながら詳細に説明する。
図6は、本開示の一実施形態に係る最も多様な化合物群の選択について説明するための図である。複数の低分子化合物(図6の低分子化合物1、低分子化合物2、低分子化合物3、低分子化合物4、低分子化合物5、低分子化合物6、低分子化合物7、低分子化合物8、低分子化合物9、低分子化合物10、・・・、低分子化合物N)のそれぞれが、複数の種類の記述子(図6の記述子1、記述子2、記述子3、記述子4、記述子5、・・・、記述子L)に置き換えられたとする。なお、N個の低分子化合物(N個の候補化合物)から、M個の低分子化合物(M個の最も多様な化合物群)を選択するとする。また、複数の種類の記述子の個数がL個であったとする。
化合物探索装置10は、複数の種類の記述子についてdet(XTX)が最大になる組み合わせを選択することで、複数の低分子化合物のうち、最も多様な化合物群を選択することができる。det(XTX)は、D最適化基準である(行列式:det(XTX)は、XTX(下記の式(1)は、XTXの行列である)から計算される値である)。
Figure 0007288207000001
・・・式(1)
ここで、det(XTX)=0となるのを防ぐためには、最も多様な化合物群の個数(M個)≧記述子の個数であることが必須である。そのため、化合物探索装置10は、記述子の個数をM個まで絞り込む。そうすると、N×Mの行列ができることとなる。化合物探索装置10は、M通りのdet(XTX)の中で、det(XTX)の値が最大になる組み合わせを選択する。例えば、化合物探索装置10は、遺伝的アルゴリズムを用いて、M通りのdet(XTX)の中で、det(XTX)の値が最大になる組み合わせを選択することができる。
<<情報量が多い記述子の絞り込み>>
記述子の絞り込みにおいて、情報量が多い記述子が残ることが好ましい。そのため、化合物探索装置10は、以下の手法を用いて、記述子を絞り込む。以下、[同じ値である割合が高い記述子の削除]と、[相関性の高い記述子のうちの一部の選択]と、に分けて説明する。
[同じ値である割合が高い記述子の削除]
化合物探索装置10は、同じ値である割合が高い記述子(例えば、図6の記述子1)を削除する。具体的には、化合物探索装置10は、同じ値である低分子化合物の全体に対する割合が閾値よりも大きい記述子を削除する。
[相関性の高い記述子のうちの一部の選択]
化合物探索装置10は、複数の種類の記述子について、相関性の高い記述子のうちの一部を選択(例えば、相関性の高い記述子の組(図6の記述子3と記述子4)のうちの1つの記述子(記述子4)を削除)する。具体的には、化合物探索装置10は、相関性の高い記述子の組のそれぞれの記述子において、その他の全ての記述子との相関係数を計算して絶対値に変換し、全ての絶対値を足し合わせた値が大きい方の記述子を削除する。
ここで、記述子について説明する。例えば、記述子は、分子量、水素原子以外の原子で計算された分子量、価電子の数、水素原子以外の数、窒素原子と「窒素原子と結合した水素」と水酸基の合計値、窒素原子と酸素原子の合計値、水素原子と「炭素原子以外の原子」の数、回転可能な結合の数、環の数、ラジカルの数、オクタノール/水分配係数、スピロ原子の数、橋頭位原子の数、脂肪族炭素環の数、脂肪族複素環の数、脂肪族環の数、芳香族炭素の数、芳香族複素環の数、芳香環の数、水素受容基の数、水素供与基の数、飽和炭素環の数、飽和複素環の数、飽和環の数、環の数、脂肪族カルボン酸の数、脂肪族ヒドロキシル基の数、芳香族化合物に結合した窒素官能基の数、芳香族カルボン酸の数、芳香族窒素の数、芳香族アミンの数、芳香族ヒドロキシル基の数、カルボン酸の数、エステル基の数、カルボニル基の数、カルボン酸を除くカルボニル基の数、チオカルボニル基の数、イミンの数、第三級アミンの数、第二級アミンの数、第一級アミンの数、ヒドロキシルアミノ基の数、ピロール構造の数、チオール基の数、アルデヒドの数、カルバミン酸アルキルの数、ハロゲン化アルキルの数、アミドの数、アミジンの数、アニリンの数、アジド基の数、バルビツール酸構造の数、ベンゼン環の数、二環構造の数、ジアゾ基の数、ジヒドロピリジンの数、エポキシド環の数、エステルの数、エーテル酸素の数、フラン環の数、グアニジン基の数、ハロゲンの数、ヒドラジン基の数、イミダゾール環の数、イミド基の数、イソシアネートの数、イソチオシアネートの数、ケトンの数、ベータラクタムの数、環状エステルの数、メトキシ基の数、モルホリン環の数、ニトリルの数、ニトロ基の数、ニトロベンゼン構造の数、非オルトニトロベンゼン構造の数、オキサゾール環の数、フェノール構造の数、リン酸基の数、リン酸エステル基の数、ピペリジン環の数、ピペルジン環の数、第一級アミドの数、ピリジン環の数、四級窒素の数、チオエーテルの数、スルホンアミドの数、スルホン基の数、末端アセチレンの数、テトラゾール環の数、チアゾール環の数、チオフェン環の数、尿素構造の数のうちの少なくとも1つを含む。
<<物性値の推定値およびばらつきの算出(図3のS6)>>
次に、物性値の推定値および該推定値のばらつきの算出について説明する。
化合物探索装置10は、回帰モデル(具体的には、ガウス過程回帰モデル)を用いて、各低分子化合物の化学構造から、各低分子化合物の物性値の推定値および該推定値のばらつきを算出する。つまり、化合物探索装置10は、物性値の確率分布を出力する(推定値は、確率分布の平均値であり、該推定値のばらつきは、確率分布の標準偏差である)。
<<獲得関数の算出(図3のS7)>>
次に、獲得関数の算出について説明する。化合物探索装置10は、物性値の推定値および該推定値のばらつきから、獲得関数を算出する。化合物探索装置10は、獲得関数が最大または最小となる低分子化合物を決定することができる。
例えば、獲得関数は、期待改善度(EI(Expected Improvement))である。化合物探索装置10は、獲得関数が期待改善度(EI)である場合、期待改善度(EI)が最大となる低分子化合物を決定することにより、所望の物性を満たす可能性の高い化合物を選択ことができる。なお、獲得関数は、期待改善度(EI)に限られない。以下、獲得関数の種類について説明する。
[獲得関数]
獲得関数は、下記の4つのいずれかであってもよい。なお、EIは期待改善度、PIは改善確率、UCBは信頼上限、LCBは信頼下限を指標とする。獲得関数がEI、PI、UCBの場合は、EI、PI、UCBが最大となる低分子化合物を決定する。獲得関数がLCBの場合は、LCBが最小となる低分子化合物を決定する。EI、PI、UCB、LCBは、以下の数式により算出される。
1.EI(Expected Improvement)
EI(x)=(μ(x)-ymax)Φ(Z)+σ(x)φ(Z) ifσ(x)>0
EI(x)=0 ifσ(x)=0
なお、Φは累積密度関数(確率密度関数を-∞から特定の値まで積分した値)であり、φは確率密度関数であり、Zは(ymax-μ)/σ(x)を示す。μは平均値であり、σは標準偏差である。
2.PI(Probability of Improvement)
PI(x)=∫ ymaxN(f|μ(x2),σ(x))df
なお、f~N(f|μ,σ)がガウス過程による推定結果であり、f~N(f|μ,σ)で確率変数fが平均値μ、分散σの正規分布にしたがうことを示す。μは平均値であり、σは標準偏差である。
3.UCB(Upper Confidence Bound)
UCB(x)=μ(x)+kσ(x)
なお、μ(x)が活用に対応する項であり、σ(x)が探索に対応する項である。kは探索を重視する程度を示す。μは平均値であり、σは標準偏差である。
4.LCB(Lower Confidence Bound)
LCB(x)=μ(x)-kσ(x)
なお、μ(x)が活用に対応する項であり、σ(x)が探索に対応する項である。kは探索を重視する程度を示す。μは平均値であり、σは標準偏差である。
このように、化合物探索装置10は、ベイズ最適化の手法を用いることにより、所望の物性を満たす可能性の高い化合物を選択ことができる。
<その他の実施形態>
以下、複数の化合物の同時実験に適用したベイズ最適化について説明する。
図4は、本開示の一実施形態に係る全体の流れを説明するための図である。なお、化合物探索装置10は、低分子化合物の物性値の目標値(例えば、実験者等が入力した目標値)を取得しておくものとする。
ステップ101(S101)において、化合物探索装置10は、複数の低分子化合物の化学構造を取得する。つまり、化合物探索装置10は、候補となる化合物である候補化合物を取得する。
ステップ102(S102)において、化合物探索装置10は、S101で取得された複数の低分子化合物の化学構造を、複数の種類の記述子(例えば、RDKit2D記述子)に置き換える。
ステップ103(S103)において、化合物探索装置10は、S102の複数の種類の記述子をもとに、S101で取得された複数の低分子化合物のうちの一部の低分子化合物(例えば、最も多様な化合物群)を選択する。具体的には、化合物探索装置10は、D最適化の手法を用いて、最も多様な化合物群を選択する。
ステップ104(S104)において、実験者は、S103で選択された最も多様な化合物群を用いて実験を行う。実験の結果、目的を達成した場合(物性値の実測値が物性値の目標値を満たす場合)には処理を終了し、目的を達成しなかった場合にはステップ105へ進む。
ステップ105(S105)において、化合物探索装置10は、S103で選択された最も多様な化合物群を用いて回帰モデル(具体的には、ガウス過程回帰モデル)を生成する。具体的には、化合物探索装置10は、S103で選択された低分子化合物の化学構造と、S103で選択された低分子化合物の物性値の実測値(S104の実験により得られた値)と、を用いて回帰モデルを生成する。回帰モデルは、入力が"低分子化合物の化学構造"であり、出力が"物性値"であるモデル(つまり、"低分子化合物の化学構造"から"物性値"を推定するモデル)である。
以下、ステップ106およびステップ107において、化合物探索装置10は、ベイズ最適化の手法を用いて、獲得関数を算出する。
ステップ106(S106)において、化合物探索装置10は、S105で生成された回帰モデル(具体的には、ガウス過程回帰モデル)を用いて、S101で取得された複数の低分子化合物のうちS103の最も多様な化合物群以外の低分子化合物の化学構造から、物性値の推定値および該推定値のばらつきを算出する。
ステップ107(S107)において、化合物探索装置10は、S106で算出された物性値の推定値および該推定値のばらつきから、獲得関数を算出する。その後、化合物探索装置10は、獲得関数が最大または最小となる低分子化合物(例えば、獲得関数が期待改善度(Expected Improvement)である場合には、期待改善度が最大となる低分子化合物)を決定する。そして、化合物探索装置10あるいはユーザ端末20に、獲得関数が最大または最小となる低分子化合物の化学構造が表示される。
ステップ108(S108)において、化合物探索装置10は、S107で決定された低分子化合物のS106で算出された物性値の推定値を修正(具体的には、推定値を増減)する。例えば、化合物探索装置10は、人(例えば、実験者)が入力した修正の指示にしたがって、物性値の推定値を修正する。例えば、化合物探索装置10は、所定のルールをもとに、物性値の推定値を修正する。
ステップ109(S109)において、化合物探索装置10は、S108で修正された推定値を追加して回帰モデルを生成し直す(つまり、化合物探索装置10は、S108で推定値を修正された低分子化合物の化学構造と、S108で修正された推定値(修正後の推定値)と、を機械学習用のデータセットに追加して再学習する)。
ステップ110(S110)において、化合物探索装置10は、S109で再学習された回帰モデル(具体的には、ガウス過程回帰モデル)を用いて、S101で取得された複数の低分子化合物のうちS103の最も多様な化合物群以外の低分子化合物の化学構造から、物性値の推定値および該推定値のばらつきを算出する。
ステップ111(S111)において、化合物探索装置10は、S110で算出された物性値の推定値および該推定値のばらつきから、獲得関数を算出する。その後、化合物探索装置10は、獲得関数が最大または最小となる低分子化合物(例えば、獲得関数が期待改善度(Expected Improvement)である場合には、期待改善度が最大となる低分子化合物)を決定する。そして、化合物探索装置10あるいはユーザ端末20に、獲得関数が最大または最小となる低分子化合物の化学構造が表示される。
本実施形態では、実験者は、S107で決定された低分子化合物とS111で決定された低分子化合物を用いて実験を行う。つまり、S108~S112を繰り返すことで、実験を行う低分子化合物を追加していく。
ステップ112(S112)において、化合物探索装置10は、所定の個数(つまり、実験を行う低分子化合物の個数)の低分子化合物を追加したか否かを判定する。追加した場合にはステップ113へ進み、追加していない場合にはステップ108へ戻り、ステップ111で決定された低分子化合物のS110で算出された物性値の推定値を修正(具体的には、推定値を増減)する。
ステップ113(S113)において、実験者は、S107で決定された低分子化合物とS111で決定された低分子化合物を用いて実験を行う。実験の結果、目的を達成した場合(物性値の実測値が物性値の目標値を満たす場合)には処理を終了し、目的を達成しなかった場合にはステップ109へ戻り、S113の実験により得られた値を追加して回帰モデルを生成し直す(つまり、化合物探索装置10は、S113で実験を行われた低分子化合物の化学構造と、S113で実験を行われた低分子化合物の物性値の実測値(S113の実験により得られた値)と、を機械学習用のデータセットに追加して再学習する)。
以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
1 化合物探索システム
10 化合物探索装置
20 ユーザ端末
30 ユーザ
101 制御部
102 ROM
103 RAM
104 補助記憶装置
105 表示装置
106 操作装置
107 I/F装置
108 ドライブ装置
109 バス
110 記憶媒体

Claims (17)

  1. コンピュータが実行する方法であって、
    複数の低分子化合物の化学構造を取得するステップと、
    低分子化合物の化学構造と当該低分子化合物の物性値の実測値とを用いて生成された回帰モデル、前記取得された各低分子化合物の化学構造を入力することで、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出するステップと、
    前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出するステップと、を含む方法。
  2. 前記獲得関数が期待改善度(Expected Improvement)である場合、期待改善度が最大となる低分子化合物を決定するステップをさらに含む請求項1に記載の方法。
  3. 前記複数の低分子化合物のうちの一部の低分子化合物を選択するステップと、
    前記選択された一部の低分子化合物の化学構造と、前記選択された一部の低分子化合物の物性値の実測値と、を用いて前記回帰モデルを生成するステップと
    をさらに含む、請求項1または2に記載の方法。
  4. 前記複数の低分子化合物の化学構造を、複数の種類の記述子に置き換えるステップと、
    前記複数の種類の記述子をもとに、前記複数の低分子化合物のうちの一部の低分子化合物を選択するステップと、
    前記選択された一部の低分子化合物の化学構造と、前記選択された一部の低分子化合物の物性値の実測値と、を用いて前記回帰モデルを生成するステップと
    をさらに含む、請求項1または2に記載の方法。
  5. 前記複数の低分子化合物の化学構造を文字列にするステップをさらに含む請求項4に記載の方法。
  6. 前記複数の低分子化合物の化学構造を複数の種類のRDKit2D記述子に置き換えるステップをさらに含む請求項4に記載の方法。
  7. 前記推定値は、確率分布の平均値であり、前記ばらつきは、前記確率分布の標準偏差である、請求項1から6のいずれか一項に記載の方法。
  8. 前記複数の低分子化合物は、人によって選択された化合物と、データベースから抽出された化合物と、特定のアルゴリズムによって設計された化合物と、のうちの少なくとも1つを含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記回帰モデルは、ガウス過程回帰モデルである、請求項1から8のいずれか一項に記載の方法。
  10. 前記物性値の推定値を修正するステップと、
    前記物性値の推定値を修正された低分子化合物の化学構造と、前記修正された物性値の推定値と、を用いて前記回帰モデルを生成するステップと
    をさらに含む、請求項1から9のいずれか一項に記載の方法。
  11. 前記複数の低分子化合物の化学構造を、複数の種類の記述子に置き換えるステップと、
    前記複数の種類の記述子についてdet(XTX)が最大になる組み合わせを選択することで、前記複数の低分子化合物のうち、最も多様な化合物群を選択するステップと、
    さらに含む請求項1に記載の方法。
  12. 前記複数の種類の記述子について、相関性の高い記述子のうちの一部を選択するステップをさらに含み、
    前記最も多様な化合物群は、選択された一部の記述子を用いて選択され、
    選択された一部の記述子の数が前記最も多様な化合物群を形成する低分子化合物の数以下である、請求項11に記載の方法。
  13. 前記最も多様な化合物群は、遺伝的アルゴリズムを用いて選択される請求項11に記載の方法。
  14. 前記最も多様な化合物群を形成する低分子化合物の化学構造と、前記最も多様な化合物群を形成する低分子化合物の物性値の実測値と、を用いて回帰モデルを生成するステップと
    をさらに含む、請求項11に記載の方法。
  15. コンピュータに
    複数の低分子化合物の化学構造を取得する手順、
    低分子化合物の化学構造と当該低分子化合物の物性値の実測値とを用いて生成された回帰モデル、前記取得された各低分子化合物の化学構造を入力することで、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出する手順、
    前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出する手順、を実行させるためのプログラム。
  16. 制御部を備えた装置であって、
    前記制御部は、
    複数の低分子化合物の化学構造を取得し、
    低分子化合物の化学構造と当該低分子化合物の物性値の実測値とを用いて生成された回帰モデル、前記取得された各低分子化合物の化学構造を入力することで、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出し、
    前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出する、装置。
  17. サーバとユーザ端末とを含むシステムであって、
    前記サーバの制御部は、
    複数の低分子化合物の化学構造を取得し、
    低分子化合物の化学構造と当該低分子化合物の物性値の実測値とを用いて生成された回帰モデル、前記取得された各低分子化合物の化学構造を入力することで、前記各低分子化合物の物性値の推定値および前記推定値のばらつきを算出し、
    前記物性値の推定値および前記推定値のばらつきから、獲得関数を算出し、
    前記獲得関数を、前記ユーザ端末に提示する、システム。
JP2021163292A 2021-10-04 2021-10-04 低分子化合物探索方法、プログラム、装置、およびシステム Active JP7288207B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2021163292A JP7288207B2 (ja) 2021-10-04 2021-10-04 低分子化合物探索方法、プログラム、装置、およびシステム
EP22878445.0A EP4414992A4 (en) 2021-10-04 2022-09-30 LOW MOLECULAR WEIGHT COMPOUND SEARCH METHOD, PROGRAM, APPARATUS AND SYSTEM
PCT/JP2022/036775 WO2023058576A1 (ja) 2021-10-04 2022-09-30 低分子化合物探索方法、プログラム、装置、およびシステム
CN202280064701.4A CN117980997A (zh) 2021-10-04 2022-09-30 低分子化合物探索方法、程序、装置和系统
TW111137547A TW202324145A (zh) 2021-10-04 2022-10-03 低分子化合物搜索方法、程式、裝置及系統
US18/622,044 US20240242787A1 (en) 2021-10-04 2024-03-29 Method, program, apparatus, and system for searching low molecular weight compound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021163292A JP7288207B2 (ja) 2021-10-04 2021-10-04 低分子化合物探索方法、プログラム、装置、およびシステム

Publications (2)

Publication Number Publication Date
JP2023054446A JP2023054446A (ja) 2023-04-14
JP7288207B2 true JP7288207B2 (ja) 2023-06-07

Family

ID=85803435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021163292A Active JP7288207B2 (ja) 2021-10-04 2021-10-04 低分子化合物探索方法、プログラム、装置、およびシステム

Country Status (6)

Country Link
US (1) US20240242787A1 (ja)
EP (1) EP4414992A4 (ja)
JP (1) JP7288207B2 (ja)
CN (1) CN117980997A (ja)
TW (1) TW202324145A (ja)
WO (1) WO2023058576A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019172280A1 (ja) 2018-03-09 2019-09-12 昭和電工株式会社 ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法
WO2020176164A1 (en) 2019-02-25 2020-09-03 Citrine Informatics, Inc. Predictive design space metrics for materials development
WO2021079985A1 (ja) 2019-10-25 2021-04-29 コニカミノルタ株式会社 特性予測装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7109339B2 (ja) 2018-11-02 2022-07-29 昭和電工株式会社 ポリマー設計装置、プログラム、および方法
US20210271980A1 (en) * 2020-03-02 2021-09-02 Insilico Medicine Ip Limited Deterministic decoder variational autoencoder
JP7539685B2 (ja) 2020-04-01 2024-08-26 学校法人立命館 ストーリーの展開をユーザに提示する方法、ストーリー展開提示装置、そのコンピュータプログラム、ストーリーの展開を解析する方法、ストーリー展開解析装置、そのコンピュータプログラム
JP7398334B2 (ja) * 2020-04-30 2023-12-14 株式会社日立製作所 ユーザに提案する材料を決定するシステム
JP7577934B2 (ja) * 2020-06-10 2024-11-06 株式会社レゾナック 物性予測装置、物性予測方法及び製造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019172280A1 (ja) 2018-03-09 2019-09-12 昭和電工株式会社 ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法
WO2020176164A1 (en) 2019-02-25 2020-09-03 Citrine Informatics, Inc. Predictive design space metrics for materials development
WO2021079985A1 (ja) 2019-10-25 2021-04-29 コニカミノルタ株式会社 特性予測装置

Also Published As

Publication number Publication date
WO2023058576A1 (ja) 2023-04-13
TW202324145A (zh) 2023-06-16
JP2023054446A (ja) 2023-04-14
CN117980997A (zh) 2024-05-03
US20240242787A1 (en) 2024-07-18
EP4414992A1 (en) 2024-08-14
EP4414992A4 (en) 2025-04-30

Similar Documents

Publication Publication Date Title
Murtagh et al. Ward’s hierarchical agglomerative clustering method: which algorithms implement Ward’s criterion?
KR101419624B1 (ko) 개인화 태그 랭킹
Yang et al. Optimal designs for pairwise calculation: An application to free energy perturbation in minimizing prediction variability
US11126695B2 (en) Polymer design device, polymer design method, and non-transitory recording medium
CN110321284B (zh) 测试数据录入方法、装置、计算机设备和存储介质
US9921947B2 (en) Test selection method and test selection apparatus
CN112231224A (zh) 基于人工智能的业务系统测试方法、装置、设备和介质
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN108596815A (zh) 基于移动终端的用户行为相似度识别方法、系统及装置
JP2021174473A (ja) ユーザに提案する材料を決定するシステム
JP7288207B2 (ja) 低分子化合物探索方法、プログラム、装置、およびシステム
Zhang et al. A black-box attack on code models via representation nearest neighbor search
Dong et al. Empirically comparing the finite-time performance of simulation-optimization algorithms
US8001122B2 (en) Relating similar terms for information retrieval
JPWO2014188524A1 (ja) 作業時間推定装置
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
JP7339923B2 (ja) 材料の特性値を推定するシステム
CN110659316B (zh) 数据处理方法、装置、计算机设备和存储介质
JP2011059947A (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
CN114251075A (zh) 基于多目标参数的储层开采方案确定方法、装置及设备
CN117290610B (zh) 一种高校招生信息推荐方法和系统
JP2020154514A (ja) 学習装置、学習方法、検索装置、検索方法及びプログラム
CN110647950B (zh) 兴趣点数据获取方法、装置、可读存储介质和计算机设备
CN116301786A (zh) 辅助编码方法、装置、计算机设备和存储介质
Kim et al. Damage identification of trusses with elastic supports using FEM and genetic algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R151 Written notification of patent or utility model registration

Ref document number: 7288207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R157 Certificate of patent or utility model (correction)

Free format text: JAPANESE INTERMEDIATE CODE: R157