[go: up one dir, main page]

KR101953762B1 - 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법 - Google Patents

이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법 Download PDF

Info

Publication number
KR101953762B1
KR101953762B1 KR1020170185040A KR20170185040A KR101953762B1 KR 101953762 B1 KR101953762 B1 KR 101953762B1 KR 1020170185040 A KR1020170185040 A KR 1020170185040A KR 20170185040 A KR20170185040 A KR 20170185040A KR 101953762 B1 KR101953762 B1 KR 101953762B1
Authority
KR
South Korea
Prior art keywords
information
drug
learning
prediction
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020170185040A
Other languages
English (en)
Inventor
정종선
장유섭
박혜진
이승주
신재민
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Priority to US16/198,138 priority Critical patent/US20190164632A1/en
Application granted granted Critical
Publication of KR101953762B1 publication Critical patent/KR101953762B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Physiology (AREA)

Abstract

본 발명은 암을 포함하는 질병 관련 특이 유전자 변이 지문 (Genetic Variation Fingerprints)과 약물의 분자 프로파일의 결합분석에 의해 약물의 반응성을 신뢰성 있게 예측할 수 있는 새로운 학습모델인 약물 적응증 및 반응 예측 시스템 및 방법인 CDRscan (Cancer-Drug Response Scan)에 관한 것으로, 본 발명은 수집된 학습정보로부터 유전체에 포함된 유전정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 딥러닝 기계학습에 의해 학습하는 학습모듈과; 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 예측모듈과; 상기 학습모듈에 의해 학습된 반응성 예측알고리즘을 저장하는 저장모듈을 포함하여 구성되고: 상기 학습정보는, 표적단백질, 생체 외 세포주 및 생체 내 임상연구에 대한 약물의 반응성 정보이다. 이와 같은 본 발명에 의하면, 본 발명에서는 임상시험으로부터 수집되는 유전체에 대한 약물의 반응성 결과들로부터, 약리 효과가 밝혀지지 않은 유전체와 약물의 반응성 정도를 예측할 수 있는 효과가 있다.

Description

이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법 {Drug indication and response prediction systems and method using AI deep learning based on convergence of different category data}
본 발명은 암을 포함하는 질병 관련 특이 유전자 변이 지문 (Genetic Variation Fingerprints)과 약물의 분자 프로파일의 결합분석에 의해 약물의 반응성을 신뢰성 있게 예측할 수 있는 새로운 학습모델인 약물 적응증 및 반응 예측 시스템 및 방법인 CDRscan (Cancer-Drug Response Scan)을 제공하고자 하는 것이다.
최근에 차세대시퀀싱 (NGS, next generation sequencing) 기술의 혁신으로 복잡하고 다양한 암을 이해하는데 많은 발전이 이루었다. 또한, 국제적인 컨소시엄의 노력으로 이러한 암 종의 체세포 돌연변이에 대한 카탈로그 뿐만 아니라 총체적인 암 유발 돌연변이(driver mutation) 데이터베이스도 개발 및 발표 되었다 [1, 2, 3]. 이러한 국제적인 컨소시엄 연구 성과로 인해서 개별 종양의 특정 유전체 지문(genomic fingerprint)에 대한 암 맞춤치료에 대한 기대 또한 급속도로 커지게 되었다. 그러나 현재 암 환자 및 제약업계를 포함한 의료계의 모든 이해 관계자들에게 임상에서 승인되고 사용되는 새로운 맞춤 암 치료제는 여전히 충분하지 않은 실정이다 [4]. 따라서, 유전체정보와 항암제의 반응 사이의 개인 맞춤을 위한 연관성을 예측하기 위한 효율적이고 체계적인 접근이 필요하게 되었다.
암 세포주 및 약물 독성 데이터의 분자 프로파일 링 데이터를 통합하기 위해 여러 가지 협력 노력이 이루어졌다(www.lincsproject.org) [5, 6]. 이러한 노력은 항암제 독성 및 개인에 특화된 맞춤약물을 예측 할 수 있는 유전체 바이오 마커 (biomarker)를 밝히는 것이 가장 중요한 목표이다. 암에서의 약물 독성에 대한 유전체 독성정보 중에서 GDSC (GDSC, Genomics of Drug Sensitivity in Cancer)는 공개적으로 이용 가능한 데이터베이스의 한 예이다(cancerRxgene.org). 특히, GDSC는 265 개의 항암 화합물에 대하여 1,001 개의 인간 암 세포의 약물 독성 정보를 실험적으로 측정한 공용 데이터베이스이다 [6]. 여기서 사용 된 GDSC의 세포주 프로젝트는 다음의 사이트에서 공개되었다 (CCLP: COSMIC Cell Lines Project, http://cancer.sanger.ac.uk/cell_lines). 이러한 공용 자원은 유전체 기반 정밀 암 치료제 실현에 큰 도움이 될 것으로 기대된다. 그러나 이러한 데이터베이스의 잠재적인 가치에도 불구하고 높은 차원의 데이터와 복잡성으로 인해 통합 분석에는 많은 기술적인 문제가 존재한다. 따라서, 항암 약물 독성에서 분자 바이오마커를 체계적으로 규명하기 위한 많은 계산 방법이 개발 되었지만 [5, 7, 8, 9, 10, 11, 12, 13], 그러나, 이러한 노력에도 불구하고 약물 독성은 특정 세포주 및 주어진 유전자 변이 세트에 제한된다. 왜냐하면, 모든 사람의 유전정보는 모두 다르고, 공통적인 변이는 전체에서 일부분이기 때문이다.
정보 기술의 최근 발전으로 앞에서 언급한 복잡한 문제를 해결하기 위해 점점 더 많이 사용되는 방법이 딥러닝 모델(deep learning model), 또는 심층학습 모델이라 부른다[14]. 딥러닝 학습 방법은 대량의 고차원의 원시 데이터로부터 심층 기계 학습을 하는 기술의 한 분야이다[15]. 최근까지는 학습을 하기에 계산양의 한계로 직접적으로 많은 제한이 있었지만 [16], 그러나 방법론적 개선과 병렬 컴퓨팅에 의한 강력한 기계를 사용하면서 수천 개의 숨겨진 유닛을 포함하는 다양한 레이어로 딥러닝 학습 모델을 교육할 수 있게 되었다 [17, 18, 19, 20]. 약리적, 유전체, 전사체 및 후성유전체 데이터와 그들의 약물반응성 데이터와 같은 여러 유형의 구조 정보를 조작할 수 있기 때문에 최소한의 지침으로 약물-표적 상호 작용 예측에 적합하게 되었다 [14].
제약 업계는 신약 개발을 위해 이러한 유형의 데이터를 활용하는 딥러닝 학습에 많은 기대감을 보여주기 시작했다 [21]. 최근에는 약물 개발에서 인공 지능을 사용하여 몇 가지 유망한 결과가 입증되었다 [22, 23, 24, 25], 약물-표적 프로파일[26] 및 다른 전통적인 기계 학습 모델 [27]에 비해 우수한 예측 정확도를 갖는 약물 재사용(drug repositioning)도 가능해졌다. 그러나 대다수의 접근방법은 오히려 개념 증명에 그쳤고, 딥러닝 학습을 통한 약물 발견의 생산 가능 솔루션은 현재 부족하게 되었다 [28].
현재 PubChem (pubchem.ncbi.nlm.nih.gov)은 미국 NCBI(국립기술정보센터)에서 운영하고 있고, 약 1억개 화합물(compounds), 2억 개의 물질(substances) 및 바이오에세이(bioassay) 정보를 보유하고 있다(en.wikipedia.org/wiki/PubChem). 또한, 이러한 화합물(compound)은 약리적 작용기(pharmacophore descriptor)로 표현하는 많은 방법들이 존재한다[29, 30, 31, 32, 33]. 그 중에서, 파델(PaDELL)방법은 약물에서 1,875 (1D 및 2D 1,444개, 그리고 3D 431개) 특징(feature), 및 12개의 지문 (전체 약 16,092 비트)로 표현 할 수 있다[29]. 또한, 유전체에서 변이는 다양한 특징들을 추출 할 수 있다. 특히, 질병원인 변이를 추출한 방법 및 툴 들은 다음과 같다 [34 ~56].
따라서, 종래기술은 개별적으로 QSAR(Quantitative structureactivity relationship), 약물 세포독성 데이터를 사용한 약물개발, 딥러닝 (Deep Learning)기반 전장유전체(whole genome sequencing)의 발현조절, 구조적변이, 등이 독립적으로 적용이 되어 활용되었다. 그러나 본 발명에서는 약물(drugs)-세포(cell lines)-독성(IC50) 데이터에 이종 특성정보 (유전체정보, QSAR정보 및 발현정보)를 통합한 AI 딥러닝 방법인 CDRscan(Cancer drug response scanning)은 예측 정확도가 이전 컴퓨터 모델링 접근법과 비교하여 더욱 향상되었다. 특히, 버추얼 약물(drugs) vs. 버추얼 세포(cell lines) 혹은 표적단백질의 상호작용 모델을 도1에서 제안한다. 여기서, 2개의 다른 이종 특성 버추얼 정보는 첫 번째가 약물의 경우 파델(PaDELL)방법 혹은 문헌[29-33]으로 설명이 된다. 그리고 두 번째는 전장 유전체 (혹은 표적 단백질)의 지문(Genomic fingerprint, or a set of mutation features)에 대한 문헌방법 [34-56]로 설명이 될 수 있고, 가장 표준적인 딥러닝 방법은 문헌[57]에서 주어진다. 본 방법으로 정확한 약물반응 예측모델 및 약물 재사용/재배치 (drug repositioning), 화학 물질의 스크리닝 및 새로운 항암제 후보 발굴 및 환자 맞춤형 항암제 선택을 위한 임상의사결정지원시스템(Clinical decision supporting system) 에 사용할 수 있다.
한편, 아래 첨부된 비 특허 선행기술 문헌을 주요 내용별로 구분하면,
(001 - 004)은 유전체 정보와 항암제의 반응 사이의 연관성 논문이고;
(005 - 013)은 암 유전체 약물독성 및 COSMIC 세포주 프로젝트 문헌이며;
(014 - 018)은 딥러닝 심층학습 모델의 약리학 및 유전체관련 논문이고;
(019 - 028)은 딥러닝 심층학습 모델의 신약 개발에 사용된 논문이고;
(029 - 056)은 약물 및 변이를 특징(feature)으로 표현하는 방법 및 논문이고;
(057)은 딥러닝 방법론 및 알고리듬에 대한 논문이다.
Forbes, S. A., et al. COSMIC: somatic cancer genetics at high-resolution. Nucleic Acids Research. 45, 777-783 (2017). Lawrence, M. S., et al. Discovery and saturation analysis of cancer genes across 21 tumour types. Nature. 505, 495-501 (2014). Stratton, M.R., Campbell, P.J. & Futreal, P.A. The cancer genome. Nature 458, 719-724 (2009). Williams SP, & McDermott U. The pursuit of therapeutic biomarkers with high-throughput cancer cell drug screens. Cell Chemical Biology. 24, 1066-1074 (2017). Barretina, J, et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature. 483, 603-7 (2012). Yang, W., et al. Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells. Nucleic Acids Research. 41, 955-961 (2013). Basu, A., et al. An interactive resource to identify cancer genetic and lineage dependencies targeted by small molecules. Cell. 154, 1151-1161 (2013). Iorio, F., et al. (2016). A Landscape of pharmacogenomic interactions in cancer. Cell. 166, 740-754 (2016). Garnett, M. J., Edelman, E. J., Heidorn, S. J., Greenman, C. D., Dastur, A., Lau, K. W., Greninger, P., Thompson, I. R., Luo, X. & Soares, J. Systematic identification of genomic markers of drug sensitivity in cancer cells. Nature. 483, 570-575 (2012). Menden, M.P., Iorio, F., Ballester, P.J., Saez-Rodriguez, J., Garnett, M., McDermott, U., & Benes, C.H. Machine learning prediction of cancer cell sensitivity to drugs based on genomic and chemical properties. PLoS ONE. 8. e61318 (2013). Rubio-Perez, C., Tamborero, D., Schroeder, M., Antolin, A., Deu-Pons, J., Perez-Llamas, C., Mestres, J., Gonzalez-Perez, A., & Lopez-Bigas, N. In silico prescription of anticancer drugs to cohorts of 28 tumor types reveals targeting opportunities. Cancer Cell. 27, 382-396 (2015). Seashore-Ludlow, B., et al. Harnessing connectivity in a large-scale small-molecule sensitivity dataset. Cancer Discovery. 5, 1210-1223 (2015). Yadav, B., et al. Quantitative scoring of differential drug sensitivity for individually optimized anticancer therapies. Scientific Reports. 4 (2015). Vanhaelen, Q., et al.. Design of efficient computational workflows for in silico drug repurposing. Drug Discovery Today. 22, 210-222 (2017). Mamoshina, P., Vieira, A., Putin, E. & Zhavoronkov, A. Applications of deep learning in biomedicine. Molecular Pharmaceutics. 13, 1445-1454 (2016). Ramsundar, B., Kearnes, S., Riley, P., Webster, D., Konerding, D. & Pande, V. Massively multitask networks for drug discovery. arXiv:1502.02072 (2015).( Dahl, G. E., Jaitly, N. & Salakhutdinov, R. Multi-task neural networks for QSAR predictions. arXiv:1406.1231 (2014). (018) Nantasenamat C, Isarankura-Na-Ayudhya C, Naenna T, Prachayasittikul V. "A practical overview of quantitative structure-activity relationship". Excli J. 8: 7488(2009). (019) Ebuka, D Quantitative structureactivity relationship study on potent anticancer compounds against MOLT-4 and P388 leukemia cell lines, Journal of Advanced Research, 10.1016(2016) Yuan, Y., et al. DeepGene: an advanced cancer type classifier based on deep learning and somatic point mutations. BMC Bioinformatics. 17, 243-256 (2016). Smalley, E. AI-powered drug discovery captures pharma interest. Nature Biotechnology. 35, 604-605 (2017).) Baskin, I.I., Winkler, D. & Tetko, I.V. A renaissance of neural networks in drug discovery. Expert Opinion on Drug Discovery. 11, 785-95 (2016). Gonczarek, A., Tomczak, J.M., Zareba, S., Kaczmar, J. Dabrowski, P. & Walczak, MJ. Learning deep architectures for interaction prediction in structure-based virtual screening. NIPS, 30, (2016). Pereira, J. C., Caffarena, E. R., & Dos Santos, C. N. Boosting docking-based virtual screening with deep learning. Journal of Chemical Information and Modeling. 56, 2495-2506 (2016). Unterthiner, T, Mayr, A, Klambauer, G, Steijaert, M, Wegner, J.K., Ceulemans, H, & Hochreiter, S. Deep learning as an opportunity in virtual screening. NIPS, 27, (2014). Wen M., Zhang Z., Niu S., Sha H., Yang R., Lu H., & Yun Y. Deep-learning-based drug-target interaction prediction. Journal of Proteome Research. 16, 1401-1409 (2017). Aliper A, Plis S, Artemov A, Ulloa A, Mamoshina P, & Zhavoronkov A. Deep learning applications for predicting pharmacological properties of drugs and drug repurposing using transcriptomic data. Molecular Pharmaceutics. 13, 2524-2530 (2016). Ching, T., et al. Opportunities and obstacles for deep learning in biology and medicine. bioRxiv. doi: http://dx.doi.org/10.1101/142760 (2017). (029) Yap CW. PaDEL-Descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32, 1466-1474(2011) (030) Schneider, G.; Clement-Chomienne, O.; Hilfiger, L.; Schneider, P.;Kirsch, S.; Bohm, H-J. and Neihart, W. Virtual Screening for Bioactive Molecules by Evolutionary De Novo Design Angew. Chem. Int. Ed., 39, 4130-4133(2000) (031) Schneider, G.; Lee, M-L.; Stal, M. and Schneider, P. De novo design of molecular architectures by evolutionary assembly of drug-derived building blocks J. Comp-Aid. Mol. Des., 14, 487-494(2000) (032) Pearlman, S. R. and Smith, K. M. Novel Software Tools for Chemical Diversity, Perspectives in Drug Discovery and Design, 9/10/11: 339-353,(1998). (033) Burden, F. R. Molecular identification number for substructure searches, J. Chem. Inf. Comput. Sci. 29 , 225-7(1989). (034) SIFT: Kumar, Prateek, Steven Henikoff, and Pauline C. Ng. "Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm." Nature protocols 4.7: 1073-1081(2009). (035) Polyphen-2 : I. A. Adzhubei, S. Schmidt, L. Peshkin et al., method and server for predicting damaging missense mutations,Nature Methods, vol. 7, no. 4, pp. 248249, 2010 (036) LRT S. Chun and J. C. Fay, of deleterious mutations within three human genomes,Genome Research, vol. 19, no. 9, pp. 15531561, 2009. (037) Polyphen-2 HDIV n HDVAR Score: Yunos, R. I. M., Ab Mutalib, N. S., Khor, S. S., Saidin, S., Nadzir, N. M., Razak, Z. A., & Jamal, R. (2016). Characterisation of genomic alterations in proximal and distal colorectal cancer patients (No. e2109v1). PeerJ Preprints. (038) MutationAccessor1: Reva, B., Antipin, Y., & Sander, C. (2011). Predicting the functional impact of protein mutations: application to cancer genomics. Nucleic acids research, 39(17), e118-e118. (039) MutationAccessor2: Gnad, F., Baucom, A., Mukhyala, K., Manning, G., & Zhang, Z.. Assessment of computational methods for predicting the effects of missense mutations in human cancers. BMC genomics, 14(3), S7(2013). (040) MUTATIONTASTER: Dong, C., Wei, P., Jian, X., Gibbs, R., Boerwinkle, E., Wang, K., & Liu, X. Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Human molecular genetics, 24(8), 2125-2137(2014). (041) MutationAccessor and Mutation Taster: Oishi, Maho, et al. "Comprehensive Molecular Diagnosis of a Large Cohort of Japanese Retinitis Pigmentosa and Usher Syndrome Patients by Next-Generation SequencingDiagnosis of RP and Usher Syndrome Patients by NGS." Investigative ophthalmology & visual science 55.11 (2014): 7369-7375. (042) PhyloP46way_placental and PhyloP46way_vertebrate: Pollard, Katherine S., et al. "Detection of nonneutral substitution rates on mammalian phylogenies." Genome research 20.1: 110-121(2010). (043) GERP++_RS Score: Davydov, E. V., Goode, D. L., Sirota, M., Cooper, G. M., Sidow, A., & Batzoglou, S.. Identifying a high fraction of the human genome to be under selective constraint using GERP++. PLoS computational biology, 6(12), e1001025(2010). (044) B62 Score: Tsuda, H., Kurosumi, M., Umemura, S., Yamamoto, S., Kobayashi, T., & Osamura, R. Y. HER2 testing on core needle biopsy specimens from primary breast cancers: interobserver reproducibility and concordance with surgically resected specimens. BMC cancer, 10(1), 534(2010). (045) Siphy : Garber, Manuel, et al. "Identifying novel constrained elements by exploiting biased substitution patterns." Bioinformatics 25.12: i54-i62(2009). (046) CHASM : H. Carter, J. Samayoa, R. H. Hruban, and R. Karchin, of driver mutations in pancreatic cancer using cancerspecific high-throughput annotation of somatic mutations (CHASM),Cancer Biology & Therapy, vol. 10, no. 6, pp. 582587(2010). (047) Dendrix: F. Vandin, E. Upfal, and B. J. Raphael, novo discovery of mutated driver pathways in cancer,Genome Research, vol. 22, no. 2, pp. 375385(2012). (048) MutsigCV: M. S. Lawrence, P. Stojanov, P. Polak et al., heterogeneity in cancer and the search for new cancer-associated genes,Nature, vol. 499, no. 7457, pp. 214218. [68] M. Kanehisa and S. Goto, kyoto encyclopedia(2013) (049) FATHMM: Shihab, Hashem A., et al. "Predicting the functional, molecular, and phenotypic consequences of amino acid substitutions using hidden Markov models." Human mutation 34.1: 57-65(2013). (050) VEST3_score: Carter, Hannah, et al. "Identifying Mendelian disease genes with the variant effect scoring tool." BMC genomics 14.3: S3(2013). (051) MetaSVM: Nono, Djotsa, et al. "Computational Prediction of Genetic Drivers in Cancer." eLS (2016). (052) MetaLR : Dong, Chengliang, et al. "Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies." Human molecular genetics 24.8: 2125-2137(2014). (053) CADD: Kircher, Martin, et al. "A general framework for estimating the relative pathogenicity of human genetic variants." Nature genetics 46.3: 310-315(2014). (054) CADD 2 : Velde, K. Joeri, et al. "Evaluation of CADD scores in curated mismatch repair gene variants yields a model for clinical validation and prioritization." Human mutation 36.7: 712-719(2014). (055) CADD 3: Mather, Cheryl A., et al. "CADD score has limited clinical validity for the identification of pathogenic variants in non-coding regions in a hereditary cancer panel." Genetics in medicine: official journal of the American College of Medical Genetics (2016). (056) ParsSNP: Kumar, Runjun D., S. Joshua Swamidass, and Ron Bose. "Unsupervised detection of cancer driver mutations with parsimony-guided learning." Nature genetics 48.10: 1288-1294(2016). (057) Deep Learning: Yann Lecun, Y., Bengio, Y. & Hinton, G. Nature. 521, 436-444 (2015)
본 발명은 전술한 바와 같은 기술배경 및 사회적 요구에 따라, 약물의 반응성을 반응 대상 유전체의 유전특성 및 지문에 따라 예측하기 위한 약물 적응증 및 반응 예측 시스템을 제공하기 위한 것으로, 본 발명의 구체적인 목적은, 딥러닝 기계학습을 통해, 공지된 세포주 유전체, 표적단백질 및 생체내 약물반응 임상데이터에 대한 약물의 반응성 결과들로부터, 유전체의 세부 유전정보의 변이 특성 혹은 지문들에 대한 약물을 구성하는 구성 정보들의 반응성을 신뢰성 있게 예측할 수 있는 예측 시스템을 제공하기 위한 것이다.
본 발명은 이와 같은 종래기술의 문제점을 해결하기 위한 것으로, 본 발명은 수집된 학습정보로부터 유전체에 포함된 유전정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 딥러닝 기계학습에 의해 학습하는 학습모듈과; 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 예측모듈과; 상기 학습모듈에 의해 학습된 반응성 예측알고리즘을 저장하는 저장모듈을 포함하여 구성되고: 상기 학습정보는, 세포주 유전체, 표적단백질 및 생체내 약물반응 임상데이터에 대한 약물의 반응성 정보이다.
이때, 상기 학습모듈은, 수집된 학습정보로부터 딥러닝 기계학습을 위한 학습데이터를 생성하는 학습데이터 생성부와; 상기 학습데이터 생성부로부터 생성된 다수의 학습데이터를 딥러닝 기계학습을 수행하는 딥러닝 기계학습부와; 상기 딥러닝 기계학습부로부터 학습된 결과로부터, 유전체정보에 대한 약물의 반응성을 예측하는 반응성 예측 알고리즘을 생성하는 반응성 예측 알고리즘 구성부를 포함하여 구성될 수도 있다.
그리고 상기 약물은, 상기 영양제, 불특정약물(약물의 독성을 모르는 화합물), 특정약물(식약처 승인을 받은 약물) 정보일 수도 있다. 그리고, 약물 정보는 도2 에서 a)영역의 정보들로 정의 될 수 있다.
그리고 상기 구성정보는, 상기 약물을 구성하는 약리 관능기 정보일 수도 있다. 그리고, 약물 구성정보는 도2에서 d)영역의 정보들로 정의 될 수 있다.
또한, 상기 유전정보는, 상기 유전체에 포함된 변이정보일 수도 있다.
또한, 상기 유전정보는, 상기 유전체에 포함된 변이들에 대한 특성 정보일 수도 있다.
그리고 상기 특성정보는, 상기 변이들에 대한 유전체 지문(genomic fingerprint)으로서, 다양한 종에서의 진화관점 변이 생성빈도(mutability or entropy of variants), 암 변이 발생빈도(variant frequency in cancer), 암 원인변이 예측 점수(driver mutation score), 3차원 단백질구조의 변이 환경정보(3D structure mutation environment), 임상적으로 증명된 질병원인 변이(clinical significance mutation), 유전자 상호작용에 기인한 약물반응 계층화정보(drug response stratification), 후성유전체정보(epigenomics), 발현체정보(transcriptomics), 및 단백체정보(proteomics) 중 어느 하나 이상을 포함하여 구성될 수도 있다. 그리고, 유전 특성정보는 도2에서 e)영역의 정보들로 정의 될 수 있다.
그리고 상기 학습데이터는, 상기 표적단백질, 세포주 유전체 및 약물반응 임상정보에 포함된 변이정보 군에 대한 약물을 구성하는 약리 관능기 정보 군에 대한 반응도를 나타낸 다수의 정보일 수도 있다. 그리고, 학습데이터는 도2의 c)영역의 정보들로 정의 될 수 있다.
또한, 상기 학습데이터는, 상기 세포주 유전체에 포함된 변이들에 대한 유전 특성정보 군에 대한 약물을 구성하는 약리 관능기정보 군에 대한 약물 적응증/반응도를 나타낸 다수의 정보일 수도 있다.
그리고 상기 딥러닝 기계학습부는, 상기 학습데이터들에 대한 딥러닝 기계학습을 통해 세포주에 포함된 각 유전정보에 대한 약물을 구성하는 각 구성정보의 반응 상관관계를 학습할 수도 있다.
또한, 상기 딥러닝 기계학습은, 컨벌루션 신경 네트워크(CNN, Convolutional Neural Network) 모델에 의해 수행될 수도 있다.
그리고 상기 딥러닝 기계학습은, 텐서플로(TensorFlow) 기계학습 엔진에 의해 수행될 수도 있다.
또한, 상기 학습정보는, 암세포주 백과사전(CCLE) 또는 암 세포에 대한 약물 감도 및 유전체학(GDSC) 생체 외(in vitro) 실험 데이터베이스로부터 수집될 수도 있다.
또한, 상기 학습정보는, 표적단백질에 대한 약물 해리 상수(Kd) 및 유전정보가 포함된 데이터베이스로부터 수집될 수도 있다.
또한, 상기 학습정보는, 병원 (혹은 약물 임상실험)에서 수집한 맞춤 약물 처방을 유전정보기반 환자의 생체 내의 (in vivo) 약물반응 데이터베이스로부터 수집될 수도 있다.
그리고 상기 딥러닝 기계학습은, (A1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와; (A2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와; (A3) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와; (A4) 상기 학습정보에 포함된 유전체의 유전정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 학습 레이어들을 생성하는 단계와; (A5) 상기 학습 레이어들에 대한 딥러닝 기계학습을 통해, 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행될 수도 있다.
또한, 상기 반응성은, 표적단백질의 경우 약물 해리 상수(dissociation constant), 세포주의 경우 수용억제지수 IC50, 혹은, 환자의 항암 약물치료 효과(완전관해: Complete Remission, CR, 부분관해: Partial Remission, PR, 불변: Stable Disease, SD, 혹은 진행: Progressive Disease, PD), 등의 기준으로 판별할 수도 있다.
이때, 상기 반응성 예측 알고리즘 구성부는, 상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성할 수도 있다.
그리고 상기 예측 모듈의 약물 반응성 예측은, (C1) 분석 대상정보를 수신하는 단계와; (C2) 상기 분석정보에 포함된 유전체의 분석대상 유전정보를 산출하는 단계와; (C3) 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와; (C4) 상기 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응상관 관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하는 단계를 포함하여 수행될 수도 있다.
또한, 상기 분석대상 구성정보는, 상기 약물을 구성하는 관능기 정보일 수도 있다.
그리고 상기 분석대상 유전정보는, 상기 유전체에 포함된 변이정보일 수도 있다.
또한, 상기 분석대상 유전정보는, 상기 유전체에 포함된 변이들에 대한 특성 정보일 수도 있다.
그리고 상기 예측알고리즘은, 서로 다른 딥러닝 기계학습 예측알고리즘에 의해 산출된 예측값을 병합할 수도 있다.
또한, 상기 서로 다른 딥러닝 기계학습 예측알고리즘은, 이종 특성정보의 각 독립적인 레이여(layer)에서의 합성공 신경망을 적용한후, 이종 특성정보가 병합된 (fully_connected) 레이여(Layer)를 생성 후, 각 은닉 유닛의 가중치 합을 계산한 후 그 결과에 비선형 함수인 렐루, 하이퍼볼릭 탄젠트 및 시그모이드 함수, 혹은 텐서플로에서 제공되는 새로운 성능이 향상된 함수 일 수도 있다.
한편, 상기 딥러닝 기계학습은, (B1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와; (B2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와; (B3) 각 유전체에 포함된 상기 유전정보 군에 대한 약물의 반응도를 나타내는 유전정보 학습레이어들을 생성하는 단계와; (B4) 상기 유전정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와; (B5) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와; (B6) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 학습레이어들을 생성하는 단계와; (B7) 상기 구성정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와; (B8) 상기 제(B4)단계에서 산출된 각 유전정보에 대한 약물의 반응 상관관계와, 상기 제(B7)단계에서 산출된 각 유전체에 대한 각 구성정보의 반응 상관관계를 통해 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행될 수도 있다.
이와 같은 본 발명에 의하면, 본 발명은 체내(in vivo), 체외(in vitro) 혹은 표적단백질 시험으로부터 수집되는 유전정보에 대한 약물의 반응성 결과들로부터, 약리 효과가 밝혀지지 않은 유전정보를 사용하여 약물의 반응성 정도를 예측할 수 있는 효과가 있다.
즉, 본 발명은 유전체의 변이정보에 대한 약물을 구성하는 약리 관능기의 반응성 상관관계를 도출할 수 있으므로, 분석대상인 유전체의 변이 및 약물의 약리 관능기를 추출하면, 해당 유전체에 대한 약물의 반응성 정도를 신뢰성있게 예측할 수 있는 효과가 있다.
또한, 본 발명은 유전체의 변이 특성정보에 대한 약물을 구성하는 관능기의 반응성 상관관계를 도출할 수 있으므로, 분석대상인 유전체의 변이에 대한 특성정보 및 약물의 관능기를 추출하면, 해당 유전체에 대한 약물의 반응성 정도를 신뢰성 있게 예측할 수 있는 효과가 있다.
이를 통해 본 발명은, 미지의 고분자화합물(약물 개발 대상 물질)의 특정 유전체를 포함하는 표적단백질, 세포주 혹은 인체에 대한 반응성을 임상시험 전에 예측할 수 있으므로, 신약 개발에 따른 시간 및 비용을 현저하게 줄일 수 있는 효과가 있으며, 이미 개발된 약물에 대하여도, 임상에서 밝혀진 유전체 이외의 다른 유전체에 대한 반응성 정도를 미리 예측할 수 있으므로 기존 약물에 대한 다른 용도의 발견 및 부작용 발견에 대한 연구 비용 및 시간을 현저히 줄여주는 효과가 있다.
도 1은 본 발명에 의한 CDRscan의 딥러닝 기계학습 구조를 일 예를 도시한 예시도.
도 2는 본 발명에 의한 약물 적응증 및 반응 예측 시스템의 구성을 기능별로 구분하여 도시한 블록도.
도 3은 본 발명에 의한 약물 적응증 및 반응 예측 방법을 구현하는 딥러닝 기계학습 방법의 일예를 도시한 흐름도.
도 4는 본 발명에 의한 약물 적응증 및 반응 예측 방법을 구현하는 딥러닝 기계학습 방법의 다른 예를 도시한 흐름도.
도 5는 본 발명에 의한 약물 적응증 및 반응 예측 방법을 구현하는 반응 예측 방법의 일예를 도시한 흐름도.
도 6은 본 발명에 의한 딥러닝 기계학습을 위한 약물정보, 유전정보, 그들의 반응도 및 특성정보를 도시한 예시도.
도 7은 본 발명에 의한 파델(PeDEL) 약리 관능기(Descriptor)의 일 예를 도시한 예시도.
도 8은 본 발명에 적용되는 약물에 대한 IC50 데이터 생성과정의 일 예를 도시한 예시도.
도 9는 본 발명에 의한 세포주에 대한 유전체 유전정보 생성과정을 구성하는 파이프라인의 구성 예를 도시한 예시도.
도 10은 본 발명에 사용되는 질병연관 유전체와 약물독성 관계 데이터의 생성 구조를 도시한 예시도.
도 11은 본 발명에 의한 질병연관 유전체와 약물독성 관계 데이터의 생성 과정을 도시한 예시도.
도 12는 본 발명에 의한 딥러닝 기계학습 방법을 구현하는 각 수행단계의 예를 도시한 예시도.
도 13은 본 발명에 의한 딥러닝 기계학습을 위한 이종 특성정보의 병합 구조의 일 예를 도시한 예시도.
도 14는 본 발명에 의한 세포주기반 약물독성 시험 데이터와 약물 반응성 예측결과를 도시한 예시도.
도 15는 본 발명에 의한 표적단백질기반 약물결합 해리도와 시뮬레이션에 의한 약물결합 해리도 예측결과를 도시한 예시도.
도 16은 본 발명에 의한 표적단백질 약물결합 해리도계산을 위한 시뮬레이션 및 약물상호작용 에너지 데이터소스를 도시한 예시도.
도 17은 본 발명에 의한 표적단백질 약물결합 해리도계산을 위한 약물상호작용 에너지 데이터를 도시한 예시도.
도 18은 본 발명에 의한 변이특성정보, 변이를 포함한 염기서열 및 단백질 프랭킹(flanking) 서열을 도시한 예시도.
도 19는 본 발명에 의한 생체외(in vitro) 및 생체내(in vivo) 약물 적응증 및 반응 예측 방법을 구현하는 시험을 도시한 예시도.
도 20은 본 발명에 의한 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도시한 예시도.
도 21은 본 발명에 의해 세포주별 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예를 예시도.
도 22는 본 발명에 의해 약물별 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예를 예시도.
도 23은 본 발명에 의해 기존 약물들에 대한 신규 적응증을 예측한 결과를 도시한 예시도.
도 24는 본 발명에 의한 이종 특성정보가 병합된 예측모델 정밀도에 대한 ROC-curve 도출 결과를 도시한 예시도.
도 25는 본 발명에 의한 이종 특성정보가 병합된 예측모델에 의한 개별 암타입에 대한 R-square값들을 도출한 예를 예시도.
도 26은 본 발명에 의한 이종 특성정보가 병합된 예측모델에 대한 변이부담(mutation burden)의 영향을 분석한 결과를 도시한 예시도.
이하에서는 본 발명에 의한 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법의 구체적인 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명에 의한 CDRscan의 딥러닝 기계학습 구조를 일 예를 도시한 예시도이고, 도 2는 본 발명에 의한 약물 적응증 및 반응 예측 시스템의 구성을 기능별로 구분하여 도시한 블록도이며, 도 3은 본 발명에 의한 약물 적응증 및 반응 예측 방법을 구현하는 딥러닝 기계학습 방법의 일예를 도시한 흐름도이고, 도 4는 본 발명에 의한 약물 적응증 및 반응 예측 방법을 구현하는 딥러닝 기계학습 방법의 다른 예를 도시한 흐름도이며, 도 6은 본 발명에 의한 딥러닝 기계학습을 위한 약물정보, 유전정보, 그들의 반응도 및 특성정보를 도시한 예시도이며, 도 7은 본 발명에 의한 파델(PeDEL)의 약리적 관능기(Descriptor)의 일 예를 도시한 예시도이고, 도 8은 본 발명에 적용되는 약물에 대한 IC50 데이터 생성과정의 일 예를 도시한 예시도이며, 도 9는 본 발명에 의한 세포주에 대한 유전체 유전정보 생성과정을 구성하는 파이프라인의 구성 예를 도시한 예시도이고, 도 10은 본 발명에 사용되는 질병연관 유전체와 약물독성 관계 데이터의 생성 구조를 도시한 예시도이며, 도 11은 본 발명에 의한 질병연관 유전체와 약물독성 관계 데이터의 생성 과정을 도시한 예시도이고, 도 12는 본 발명에 의한 딥러닝 기계학습 방법을 구현하는 각 수행단계의 예를 도시한 예시도 이며, 도 13은 본 발명에 의한 딥러닝 기계학습을 위한 이종 특성정보의 병합 구조의 일 예를 도시한 예시도 이며, 도 14는 본 발명에 의한 세포주기반 약물독성 시험 데이터와 약물 반응성 예측결과를 도시한 예시도 이며, 도 15는 본 발명에 의한 표적단백질기반 약물결합 해리도와 시뮬레이션에 의한 약물결합 해리도 예측결과를 도시한 예시도 이며, 도 16은 본 발명에 의한 표적단백질 약물결합 해리도계산을 위한 시뮬레이션 및 약물상호작용 에너지 데이터소스를 도시한 예시도 이며, 도 17은 본 발명에 의한 표적단백질 약물결합 해리도계산을 위한 약물상호작용 에너지 데이터를 도시한 예시도 이며, 그리고, 도 18은 본 발명에 의한 변이특성정보, 변이를 포함한 염기서열 및 단백질 프랭킹(flanking) 서열을 도시한 예시도 이며, 도 19는 본 발명에 의한 생체외(in vitro) 및 생체내(in vivo) 약물 적응증 및 반응 예측 방법을 구현하는 시험을 도시한 예시도 이며, 도 20은 본 발명에 의한 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도시한 예시도이고, 도 21은 본 발명에 의해 세포주별 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예를 예시도이며, 도 22는 본 발명에 의해 약물별 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예를 예시도이고, 도 23은 본 발명에 의해 기존 약물들에 대한 신규 적응증을 예측한 결과를 도시한 예시도이며, 도 24는 본 발명에 의한 이종 특성정보가 병합된 예측모델 정밀도에 대한 ROC-curve 도출 결과를 도시한 예시도이고, 도 25는 본 발명에 의한 이종 특성정보가 병합된 예측모델에 의한 개별 암타입에 대한 R-square값들을 도출한 예를 예시도이며, 도 26은 본 발명에 의한 이종 특성정보가 병합된 예측모델에 대한 변이부담(mutation burden)의 영향을 분석한 결과를 도시한 예시도이다.
먼저, 본 발명에 의한 약물 적응증 및 반응 예측 시스템을 이하 CDRscan이라 칭하고, 본 발명의 이해를 돕기 위해 본 발명에 의한 시스템의 기능적 구성 및 수행방법을 먼저 설명하고, 이후 본 발명에 의한 다양한 실시예와 실험예를 설명하기로 한다.
본 발명에 의한 CDRscan은 도 1에 도시된 바와 같이, 특정 질병(종양) 세포주의 변이정보(유전체 시그니쳐)로부터 해당 질병의 약물(항암제)을 반응성(IC50)을 예측하는 기계학습 시스템이다.
상기 CDRscan은 컨볼루션 신경 네트워크 (CNN)모델과 유사하지만, 독립적으로 설계된 것으로, 각각 서로 다른 기계학습 함수들(5개)에 의해 예측된 반응성(IC50) 값을 산출하여 최종 해당 약물의 반응성을 산출한다.
이때, 상기 서로 다른 기계학습 함수는 다양한 딥러닝 함수가 사용될 수 있는데, 이를 크게 구분하면, 1) 최종 분석 대상인 유전정보와 구성정보를 학습요소로 하여 기계학습을 수행하는 방법과, 2) 유전정보와 약물을 학습요소로 하여 기계학습을 수행하고, 유전체와 구성정보를 학습요소로 하여 기계학습을 수행하여 각각 1차 학습된 연관관계를 산출한 후, 이들 정보에 대하여 2차 학습을 수행하는 방법으로 구분된다.
이하에서는 이와 같은 CDRscan을 구현 및 수행하기 위한 본 발명의 구성 및 방법을 도 2 내지 도 5를 참조하여 설명하기로 한다.
먼저, 도 2에 도시된 바와 같이, 본 발명에 의한 약물 적응증 및 반응 예측 시스템의 구체적인 실시예는, 학습모델(100), 예측모듈(200) 및 저장모듈(300)을 포함하여 구성된다.
이때, 상기 학습모델(100)은, 수집된 학습정보로부터 유전체에 포함된 유전정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 딥러닝 기계학습에 의해 학습하는 부분이다.
여기서, 상기 학습정보는 세포주에 대한 약물의 반응성 정보로, 암세포주 백과사전(CCLE) 또는 암 세포에 대한 약물 감도 및 유전체학(GDSC) 데이터베이스로부터 수집된다.
한편, 이와 같은 기능을 수행하기 위해 상기 학습모듈(100)은 학습데이터 생성부(110), 딥러닝 기계학습부(120) 및 반응성 예측 알고리즘 구성부(130)를 포함하여 구성된다.
여기서, 상기 학습데이터 생성부(110)는 수집된 학습정보로부터 딥러닝 기계학습을 위한 학습데이터를 생성하는 부분이고, 상기 딥러닝 기계학습부(120)는 상기 학습데이터 생서부로부터 생성된 다수의 학습데이터를 딥러닝 기계학습을 수행하는 부분이며, 상기 반응성 예측 알고리즘 구성부(130)는 상기 딥러닝 기계학습부(!20)로부터 학습된 결과로부터, 유전체정보에 대한 약물의 반응성을 예측하는 반응성 예측 알고리즘을 생성하는 부분이다.
이때, 상기 유전정보 및 구성정보는 딥러닝 단위 정보에 따라 다양하게 설정될 수 있다. 즉, 상기 유전정보 및 구성정보는 각각 유전체 및 약물(화합물)을 구성하는 하위 단위 정보 또는 이에 포함된 다양한 정보로 설정될 수 있다.
본 발명에서는 상기 유전정보로 유전체에 포함된 변이정보 및 상기 변이에 대한 특성정보로 설정되는 실시예를 개시하였으나, 하드웨어가 뒷받침된다면, 상기 유전정보를 염기서열정보로 설정하는 것도 가능하다.
마찬가지로, 상기 약물의 구성정보로 관능기 정보가 설정되는 실시예를 개시하였으나, 상기 약물을 구성하는 전체 원자단으로 설정되는 것도 가능하다.
즉, 본 발명에 있어, 반응성 예측 결과는 기계학습이 수행된 대상과 분석을 위해 입력된 정보의 대상 사이에 공통요소가 많을수록 정확도가 향상되는바, 상기 유전정보 및 분석정보의 단위를 세부단위로 설정하는 경우, 미지의 화합물에 대한 반응성을 예측 결과의 정확성이 향상될 수 있다.
본 발명의 구체적인 실시예에 있어, 상기 유전정보로 변이정보와 특성정보가 설정되는 경우를 대비하여 살피면, 상기 유전정보로 변이정보가 설정되어, 딥러닝 기계학습이 수행된 경우, 학습의 대상인 학습정보에 포함된 세포주의 변이와 분석대상으로 입력된 유전체의 변이들 사이에 공통된 요소가 많을수록 분석의 정확도가 향상된다.
반면에, 상기 유전정보로 특성정보가 설정되어, 딥러닝 기계학습이 수행된 경우, 학습의 대상인 학습정보에 포함된 세포주의 변이와 분석대상으로 입력된 유전체의 변이들 사이에 공통 변이가 적어도, 각 변이의 유사특성에 따라 반응성이 정확성있게 예측될 수 있다.
따라서, 이 경우 변이특성이 서로 다른 종(種)의 유전체에 대한 약물의 반응성을 예측할 수 있다.
이와 같이, 상기 구성정보는 상기 약물을 구성하는 관능기 정보일 수 있다.
그리고 상기 유전정보는 상기 유전체에 포함된 변이정보 또는 상기 유전체에 포함된 변이들에 대한 특성정보일 수 있다.
이때, 상기 유전정보가 변이정보인 경우, 상기 학습데이터는 상기 세포주에 포함된 변이정보들의 군(群)에 대한 약물을 구성하는 관능기정보들의 군(群)에 대한 반응도를 나타낸 다수의 정보이다.
반면에 상기 유전정보가 변이에 대한 특성정보인 경우, 상기 학습데이터는 상기 세포주에 포함된 변이들에 대한 특성정보들의 군(群)에 대한 약물을 구성하는 관능기정보들의 군(群)에 대한 반응도를 나타낸 다수의 정보이다.
이때, 상기 특성정보는, 상기 변이들에 대한 유전체 지문(genomic fingerprint)으로서, 다양한 종에서의 진화관점 변이 생성빈도(mutability or entropy of variants), 암 변이 발생빈도(variant frequency in cancer), 암 원인변이 예측 점수(driver mutation score), 3차원 단백질구조의 변이 환경정보(3D structure mutation environment), 임상적으로 증명된 질병원인 변이(clinical significance mutation), 유전자 상호작용에 기인한 약물반응 계층화정보(drug response stratification), 후성유전체정보(epigenomics), 발현체정보(transcriptomics), 및 단백체정보(proteomics) 중 어느 하나 이상을 포함하여 구성될 수도 있다.
한편, 상기 딥러닝 기계학습부(120)는, 상기 학습데이터들에 대한 딥러닝 기계학습을 통해 세포주에 포함된 각 유전정보에 대한 약물을 구성하는 각 구성정보의 반응 상관관계를 학습한다.
여기서, 상기 딥러닝 기계학습은, 다양한 딥러닝 기법에 의해 수행될 수 있는데, 대표적으로는 구글 오픈소스인 텐서플로(TensorFlow) 기계학습에 의해 수행될 수 있고, 더욱 구체적으로는 컨벌루션 신경 네트워크(CNN, Convolutional Neural Network) 모델에 의해 수행될 수 있다.
이하에서는 상기 학습모듈에 의한 딥러닝 기계학습 방법의 구체적인 실시예를 도 3 및 4를 참조하여 설명하기로 한다.
먼저, 본 발명에 의한 딥러닝 기계학습 방법은 두 가지 방법으로 구분되는데, 먼저, 도 3에 도시된 바를 참조하여, 최종 분석 대상인 유전정보와 구성정보를 학습요소로 하여 기계학습을 수행하는 방법을 설명하기로 한다.
도 3에 도시된 바와 같이, 본 발명에 의한 딥러닝 기계학습의 첫 번째 방법은 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 것으로부터 시작된다(S110).
이때, 학습정보는 다양한 세포주들에 대한 다양한 약물의 반응성에 대한 시험 결과데이터를 말한다.
이후, 상기 학습데이터 생성부는 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성한다(S120).
여기서 상기 유전정보는 변이정보 또는 변이들에 대한 특성정보일 수 있다.
그리고 상기 학습데이터 생성부는 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성한다(S130).
이때, 상기 구성정보는 약물을 구성하는 관능기 정보일 수 있다.
다음으로, 상기 학습데이터 생성부는 상기 학습정보에 포함된 유전체의 유전정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 학습레이어들을 생성한다.
여기서, 상기 학습레이어는 CNN 모델에 적용하기 위한 형태로 조합된 데이터로 이의 구체적인 형태의 예가 도 12 및 도 13에 도시되어 있다.
이때, 상기 학습레이어는 이론상 학습정보에 포함된 세포주의 수×약물의 수만큼 생성된다.
이후, 상기 딥러닝 기계학습부는 상기 학습레이어들에 대한 딥러닝 기계학습을 통해, 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출한다.
여기서, 상기 약물의 반응성 결과 및 예측의 기준은 수용억제지수 IC50을 기준으로 판단될 수 있다.
상기 IC50은 세포주의 세포를 50% 사멸하는데 소요되는 약물의 농도를 의미하는 것으로, 상기 IC50 값이 낮을 수록 약물의 반응성이 높은 것을 의미한다.
다음으로, 상기 반응성 예측 알고리즘 구성부는, 상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성한다(S160).
이때, 상기 딥러닝 기계학습부(120)는 상기 딥러닝 기계학습을 복수의 방법(함수)로 수행한 이후에, 각각의 예측값의 평균으로부터 최종 예측값을 산출하도록 구성될 수 있다.
다음으로, 도 4에 도시된 바와 같이, 본 발명에 의한 딥러닝 기계학습의 두 번째 방법 역시 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 것으로부터 시작된다(S210).
그리고 상기 학습데이터 생성부는 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성한다(S220).
이 경우도 역시, 상기 유전정보는 변이정보 또는 변이들에 대한 특성정보일 수 있다.
이후, 상기 학습데이터 생성부(100)는 각 유전체에 포함된 상기 유전정보 군에 대한 약물의 반응도를 나타내는 유전정보 학습레이어들을 생성한다(S230).
그리고 상기 딥러닝 기계학습부(120)는 상기 유전정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출한다(S240).
다음으로, 상기 학습데이터 생성부(110)는 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성한다(S250).
이후, 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 학습레이어들을 생성하고(S260), 상기 구성정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출한다(S270).
그리고 상기 딥러닝 기계학습부(120)는 제240단계에서 산출된 각 유전정보에 대한 약물의 반응 상관관계와, 상기 제270단계에서 산출된 각 유전체에 대한 각 구성정보의 반응 상관관계를 통해 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출한다.
이와 같은 딥러닝 기계학습의 두 번째 방법은 유전체에 포함된 유전정보의 수 및 약물의 구성정보의 수가 많은 경우, 딥러닝 기계학습과정을 분산처리하여, 처리과정을 이원화할 수 있을 뿐만 아니라, 상관관계의 정확성을 향상시킬 수 있다.
한편, 상기 예측모듈(200)은 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 부분으로, 이를 위해 상기 예측모듈은 입력부(210), 비교데이터 생성부(220) 및 예측결과 생성부(230)를 포함하여 구성된다.
이때, 상기 입력부(210)는 분석대상 정보를 입력받는 부분으로, 상기 입력대상 정보는 분석 대상이 되는 유전체 및 약물 데이터가 포함된 정보를 말한다.
그리고 상기 비교데이터 생성부(220)는 상기 분석대상 정보에 포함된 유전체 및 약물 데이터를 각각 딥러닝 기계학습에 사용된 유전정보 및 구성정보에 대응하는 형태로 구성된 비교데이터를 생성하는 부분이다.
즉, 상기 비교데이터 생성부(220)는, 상기 딥러닝 기계학습이 변이정보와 관능기정보로 수행된 경우, 상기 분석대상 정보에 포함된 유전체의 변이데이터를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출한다.
물론, 상기 딥러닝 기계학습이 특성정보와 관능기정보로 수행된 경우, 상기 비교데이터 생성부는, 상기 분석대상 정보에 포함된 유전체의 변이에 대한 특성정보를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출한다.
그리고 상기 예측결과 생성부(230)는 상기 반응성 예측 알고리즘 구성부(130)에 의해 도출된 반응성 예측 알고리즘에 의해, 분석대상 정보에 포함된 유전체에 대한 약물의 반응 예측결과를 산출하는 부분이다.
이하에서는 도 5를 참조하여, 상기 예측 모듈의 반응성 예측 방법의 구체적인 예를 설명한다.
본 발명에 의한 반응성 예측 방법은, 도 5에 도시된 바와 같이, 상기 입력부(210)가 분석대상이 되는 유전체 및 약물 데이터가 포함된 분석 대상정보를 수신하는 것으로부터 시작된다(S310).
이후, 상기 비교데이터 생성부(220)는 상기 분석정보에 포함된 유전체의 분석대상 유전정보를 산출하고(S320), 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출한다(S330).
이때, 전술한 바와 같이, 상기 분석대상 구성정보와 유전정보는 각각 딥러닝 기계학습에 적용된 구성정보 및 유전정보에 대응하는 것으로, 각각 약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 변이정보 또는 상기 유전체에 포함된 변이들에 대한 특성 정보일 수 있다.
그리고 상기 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응상관 관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하고, 산출된 결과를 출력한다(S340, S350).
한편, 상기 저장모듈(300)은 상기 학습모듈에 의해 학습된 반응성 예측알고리즘을 저장하는 부분으로, 반응성 예측 알고리즘 DB(320)를 포함하여 구성되고, 수집된 학습데이터를 저장하기 위한 세포주-약물 반응성 DB(310)를 더 포함하여 구성될 수도 있다.
이하에서는 본 발명에 의한 약물 적응증 및 반응 예측 시스템 및 방법의 구현 예들을 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전술한 바와 같이, 본 발명의 CDRscan의 딥러닝 기계학습에 있어, 두 개의 연속 단계로 구성되는 실시예는, 첫 번째 단계에서는 종양의 유전체 서열 데이터와 항암제의 화학적 특성으로부터 각각 28,328 및 3,072 개의 특징을 추출한다.
그리고 이러한 특징은 암 세포주의 유전자 변이형과 약물의 분자적 특성의 '지문'으로 간주 될 수 있다.
다음으로, 각 세트의 지문은 컨벌루션 신경 네트워크(CNN, Convolutional Neural Network) 모델을 사용하여 독립적으로 컨벌루션되어 각각 가상 종양 세포와 가상 약물을 생성한다.
이후, 약물반응인 '가상 도킹 (virtual docking)'을 수행하여 각 가상 세포주에 대해 다수(244개)의 항암제를 통해 예측된 IC50 값을 조사한다.
이와 같은 CDRscan은 크게 두 분야에 적용될 수 있다.
즉, 첫째는 임상 상황에서 CDRscan은 암 환자의 특정 유전체 시그니처에 대해 가장 효과적인 항암제를 예측하는 데 사용할 수 있다.
그리고 또한 CDRscan은 특정 약이나 작은 화합물에 대한 체세포 돌연변이의 민감도 특성을 확인하는데 사용될 수 있다.
또한, 암 유형은 특정 화합물에 민감할 것으로 예상되는 유전체 시그니처에따라 예측될 수 있다.
이와 같은, 상기 CDRscan을 구현하기 위하여, 상기 CDRscan은 다음과 같은 소프트웨어와 하드웨어가 사용된다.
즉, 본 발명은 CNN(convolution neural network)을 수행하도록 하기 위하여, 상기 CDRscan은 TensorFlow 1.3.0, Keras 2.0.6 및 Ubuntu 16.04.3 LTS의 소프트웨어가 복합적으로 채택되어 운용된다.
또한, 상기 CDRscan은 하드웨어적으로 전술한 바와 같은 시스템의 디자인, 학습 및 검증을 GPU 기반으로 수행하기 위하여, NVidia GTX 1080Ti가 장착된 워크스테이션이 적용된다.
한편, CDRscan 모델에는 두 가지 다른 입력 소스가 사용되는데, 각각 개별 암 세포주의 유전체 서열 변이와 항암제의 화학적 특성을 나타낸다.
여기서, 암 세포주의 유전체 지문은 체세포 돌연변이의 특성 상태를 나타내는 28,328개의 이진코드 문자열로 표현된다.
이때, 체세포 돌연변이의 특성을 바이너리로 부호화되고, 비존재도 부호화되며, 244 GDSC 약물의 분자 지문은 3,072 개의 이진부호를 사용하여 인코딩 된다.
한편, 각 약물에 대해 PubChem (Kim S, Thiessen PA et al)에서 얻은 구조 정보로부터 화학 구조의 선 표기인 SMILES을 먼저 생성한다.
다음으로, PaDEL-descriptor(v2.2.1)를 사용하여 지문, 핑거 프린터, 확장 핑거 프린터 및 그래프 전용 핑거 프린터 클래스의 관능기(디스크립터)를 추출한다.
이하에서는, 본 발명에 의한 딥러닝 기계학습의 원리를 도 12 및 8-2를 참조하여 상세히 설명하기로 한다.
도 12 및 8-2에 도시된 바와 같이, 본 발명에 의한 CDRscan은, 이종정보가 병합되어 딥러닝이 수행되는데, 상기 이종정보는 각각 셀라인과 약물에 의해 구분되는 유천체 변이 및 특성 정보와 약물의 관능기 정보 또는 표현형 정보일 수 있다.
즉, 이들 서로 다른 정보가 각각 셀라인과 약물에 의한 구준 기준에 따라 배열되어, 이들 병합된 데이터가 딥러인 기계학습에 의해 학습된다.
이때, 기계학습의 알고리즘은 도 13에 도시된 수식으로 정의될 수 있다.
한편, 본 발명에서는 딥러닝 기계학습 및 예측과정에서 약물의 관능기(Descriptor)를 사용하는데, 도 7에 도시된 바와 같이 상기 Drug descriptor의 이용은 약물에 대한 고분자 화합물을 그대로 적용하는 것이 비하여, 학습 및 분석의 효율을 향상시킨다.
한편, 본 발명에 사용되는 세포주의 NGS 데이터 생성은 도 9에 도시된 바와 같은 파이프 라인을 통해 생성된다.
도 9에 도시된 유전체 데이터 생성 파이프 라인은 이미 그 정확성 및 신뢰성이 검증된 것으로, 본 명세서에서 구체적인 내용의 설명은 생략하기로 한다.
한편, 전술한 바와 같이, 본 발명의 딥러닝 학습을 위한 학습데이터는 도 10에 도시된 바와 같이, CCLP와 GDSC 두 가지 주요 데이터베이스로부터 추출된다.
이들은 인간 암 세포주 및 약물 감수성 분석기의 유전체 프로파일에 대한 포괄적인 공개 정보를 제공하고 있다.
상기 CCLP는 광범위한 암 유형에서 1,000종 이상의 암 세포주의 체세포 변이를 분류하고, GDSC는 1,000 종 이상의 CCLP 암 세포주와 265종의 항암제의 약물 민감도 분석 결과를 포함한다.
이들 양 데이터베이스의 전체 데이터 세트는 1,001개의 세포주에서 686,312개의 돌연변이 위치와 265개의 약물을 포함한다.
한편, 본 발병에서는 이들 데이터를 다음 기준에 따라 필터링하여 사용한다.
첫째, Cancer Gene Census에 포함된 유전자에 속하는 돌연변이를 사용하고, 상기 돌연변이는 암과 관련성 있는 567개의 유전자 목록으로부터 판단된다.
둘째, 본 발명에서는 적어도 21개의 다른 세포주가 나타내는 암 유형만 포함하여 사용된다.
1,001 개의 세포주로 구성된 31개의 암 유형 중 총 787개의 세포주를 가진 25가지 암 유형이 데이터 세트에 포함된다.
한편, 특정 암 유형은 제외될 수 있는 데, 예를 들어, 특정 암 유형이 비교적 작은 수의 세포주로 표현된 경우, 이들 암 유형은 판단에서 제외될 수 있다.
상기 CCLP는 암 연구에 일반적으로 사용되는 1,001 개의 인간 암 세포주의 전체 exome sequencing 데이터를 포함하여 다양한 유형의 분자 프로파일 데이터를 포함한다.
여기서, 본 발명의 일 실시예는 COSMIC 암 유전자 센서스에서 567개의 유전자들로부터 28,328개의 위치에서 서열 변이 정보를 선택했다.
상기 GDSC는 200,000가지가 넘는 약물 - 암 세포주 쌍에 대한 약물 감도 검정으로부터 IC50 값을 제공합니다.
이때, 상기 IC50은 약물의 반응성에 대한 activity를 판별하는 기준으로, 통상 50%를 기준으로 사용되나, 다른 기준으로 설정된 데이터를 적용할 수도 있다.
또한, GDSC에서는 CCLP에서 유전 학적으로 특징지어지는 1,001 개의 세포주가 동일한 세트로 사용되었으며, FDA 승인에서 조사중인 것을 포함하여 265가지 항암 요법이 검사에 포함되었다.
한편, 본 발명에서는 단순화된 분자입력라인 시스템(SMILES) 형식을 사용하여 각 약물의 구조 및 화학적 특성을 추출한다.
그러나 265개의 약물 중 SMILES에는 18개의 약물이 등록되었고 3개의 약물에는 1,000 g / mol을 초과하는 분자량이 있었으므로, 이들 21가지 약물은 데이터 세트에서 제거되었다.
이때, GDSC에서 일부 동일한 화학 물질은 각각 2개의 개별 개체로 계산될 수 있다.
이와 같은 개별 개체 쌍은 9쌍 이었지만 모든 쌍에서 IC50 값이 다르기 때문에, 상기 9쌍을 18가지의 약물로 간주하여 학습을 수행할 수 있다.
즉, 본 발명의 일실시예에서는 최종 데이터 세트로 235개의 작은 화학 물질을 나타내는 244개의 약물이 있고, 딥러닝 기계학습에 사용된 세포주와 약물의 최종 매트릭스는 총 152,594 개의 인스턴스로 구성된다.
본 발명에 의한 딥러닝 기계학습의 일 실시예 중 25종의 특정 암 및 1000여종의 암세포주와 250여 개의 의약품의 활성을 예측한 예의 과정은 도 8에 도시된 바와 같이, 다음과 같은 과정을 통해 수행될 수 있다.
1) COSMIC 데이터에서 유래된 CCLP 및 GDSC 데이터베이스의 모든 가용데이터를 분석/추출하여, 총 20만건의 암세포 vs. 250여개 의약품의 세포활성 (== 암치료제로서의 가능성) 데이터를 확보한다.
2) 다음으로, 총 20여만 건의 임상/실험적 관측 데이터에 대해, TensorFlow를 이용하여, 전술한 바와 같은 CDRscan를 이용하여 딥러닝 기계학습을 수행한다.
3) 그리고 CDRscan의 성능을 검증하기 위해, 제1단계의 모든 데이터에 대해 5-Fold-Cross-Validation 평가법으로 성능을 평가한다.
이때, 본 발명의 일 실시예서는, 총 25개의 모든 암세포 종류에서 피어슨 상관관계지수 0.9 이상의 정확성이 확인되었다.
전술한 바와 같이, 본 발명은 기계 학습을 위한 학습데이터로 두 개의 구별 데이터를 기반으로한다.
하나는 28,328개의 디스크립터로 표현된 세포주의 유전체 특징을 포함하고 다른 하나는 3,072 개의 PaDEL 디스크립터를 갖는 화학적 특징을 가지며, 인스턴스 당 총 31,400 개의 디스크립터를 포함한다.
이를 통해, 25개의 암 유형에 걸친 총 152,594건의 인스턴스 중 144,953건 (각 암 유형별로 무작위로 선택된 95%의 인스턴스를 편집)을 선택하여 CDRscan의 5 가지 모델을 학습하는 데 사용했다.
그리고 남은 7,641 개의 데이터 세트(전체 인스턴스의 5%에 해당)는 모델의 정확성 평가를 위해 별도로 설정되었다.
이를 통해, 본 발며에서는 기계학습에 대한 신뢰성을 객관적으로 확인할 수 있다.
이하에서는, CDRscan를 이용하여 딥러닝 기계학습 방법을 도 8을 참조하여 상세히 설명하기로 한다.
도 8에 도시된 바와 같이, 본 발명에 의한 CDRscan를 이용하여 딥러닝 기계학습은, 유전체 CNN 과정과, PaDELL CNN 과정 및 이종 특성정보 병합(Dual) CNN 과정을 포함하여 수행된다.
이때, 상기 유전체 CNN 과정은, 학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 유전체 유변들을 반응성(IC50)을 기준으로 합성곱기반으로 학습하는 과정을 말한다.
그리고 PaDELL CNN 과정은, 학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 PeDELL descriptor(관능기)들을 반응성(IC50)을 기준으로 합성곱기반으로 학습하는 과정을 말한다.
마지막으로 상기 Dual CNN 과정은, 상기 유전체 CNN 과정과 PaDELL CNN 과정으로부터 산출된 유전체 변이와 PeDELL descriptor에 대한 파라미터들을 병합한 상태로 합성곱기반으로 학습하는 과정을 말한다.
이와 같은, 학습과정을 통해, 도 12에 도시된 바와 같이, 1단계에서 학습하고, 2단계에서 새로운 유전체 유전정보와 약물의 약물특성 정보가 입력되면, 상기 유전체 변이정보로부터 입력된 약물특성 데이터의 반응성 정도(IC50)를 3단계처럼 예측 할 수 있게 된다.
한편, 도 14의 세포주의 약물 반응성, 도 19의 전향적/후향적 약물반응 임상연구의 약물반응도 내지, 도 15의 표적단백질의 해리도에서 8-5 및 도 17에 도시된 시뮬레이션 컨포메이션 2,000개와 상호작용에너지 26개를 사용하여 의한 약물 해리도 예측 결과의 정확성 검증결과는, 도 15에 요약한 R-square 값이 0.80로 매우 높은 정확성을 보이는 것으로 판단되었다.
즉, 도 14에 도시된 바와 같이, 실제 체외 시험 결과값과 비교한 경우 R-square 값이 0.85로 나타났고, 약물-단백질 결합 (해리상수)에 대한 3D 시뮬레이션 결과와 대비하였을 때 R-square 값이 0.8로 나타났으며, 공지된 의약정보 DB의 데이터로 시험한 결과 R-square 값이 0.85로 나타났다. 따라서, 도 19에 도시된 바와 같은 생체 외(in vitro)의 방식으로 생체 내(in vivo)에서도 같은 결과의 정확성을 보일 것으로 판단된다. 본 발명기반 생체 내 임상연구는 전향적 혹은 후향적으로 임상연구가 가능하다.
이와 같이, 기존의 분석 방법에 대비하여(R-square 0.6~0.7), 매우 높은 R-square 값으로부터 본 발명의 예측 정확성을 확인할 수 있다.
이와 같은 본 발명에 의한 CDRscan의 다섯 가지 모델 모두에 대해 예측되고 검사 된 IC50 값은 도 20에 도시된 바와 같이, 강한 상관관계를 보인다.
도 20에 도시된 예에서는 다섯 가지 모델의 결정 계수 R^2 값이 0.838 내지 0.853로 종래기술에 의한 예측 모델(Menden et al., 2013]) 비하여 상당히 높은 것을 확인할 수 있다.
5가지 모델 모두에서, 예측된 IC50 값의 평균 오차 (즉, 예측된 IC50- 관측 된 IC50)는 0에 가깝고, 대부분의 예측이 정확하다는 것을 확인할 수 있다.
도 21 및 도 22에는 각각 세포주와 약물에 대한 예측과 실험값의 상관관계 결과값이 각각 도시되어 있다. 도 21은 세포주관점에서 대한 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예이고, 도 22은 약물관점에서 약물 적응증 및 반응 예측결과에 대한 상관관계 R-square값을 도출한 예이다.
한편, 본 발명에 의한 CDRscan은 도 23에 도시된 바와 같이, 약물의 용도 확장을 위하여도 사용될 수 있다.
즉, 본 발명에 의한 CDRscan을 사용하여 FDA가 승인 한 모든 약물(총 1,487 가지 화합물)에 대해 787 세포주의 감수성을 예측한 결과, 도 23에 도시된 바와 같이, 1,487 개의 FDA 승인된 화합물에 대한 화학적 기술자가 추출되었고, CDRscan은 787 개의 암 세포주에 대해 예측된 IC50 값의 표를 생성했다.
이를 통해 1,487 개의 약물 중 102개가 GDSC 항암제 패널에 포함되었다.
CDRscan 분석은 FDA 승인 항암제 중 23개에 대한 원래 적응증 이외의 추가 암 유형에 대한 작용가능성을 예측하였다.
이들 약물 중 9가지 유형은 여러 암종에서 ln (IC50)이 -2.0 미만이었으며 비특이적 세포 독성을 시사했다.
14개의 약물은 암 유형의 일부에 대해서만 선택성을 보였다.
나아가, 1,385 건의 비항암 FDA 약 중 23건이 하나에 대한 효능을 예측했다.
4개의 약물이 다양한 질병의 활성을 예측했다.
본 발명의 권리는 이상에서 설명한 실시 예에 한정되지 않고, 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리 범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 암을 포함하는 질병 관련 특이 유전자 변이 지문 (Genetic Variation Fingerprints)과 약물의 분자 약리관능기의 결합분석에 의해 약물의 반응성을 신뢰성 있게 예측할 수 있는 새로운 학습모델인 약물 적응증 및 반응 예측 시스템 및 방법인 CDRscan (Cancer-Drug Response Scan)에 관한 것으로, 본 발명에 의하면, 본 발명에서는 체외 및 체내 임상시험으로부터 수집되는 유전체에 대한 약물의 반응성 결과들로부터, 약리 효과가 밝혀지지 않은 유전체와 약물의 반응성 정도를 예측할 수 있는 효과가 있다.
100 : 학습모듈 110 : 학습데이터 생성부
120 : 딥-러닝 기계학습부 130 : 반응성 예측 알고리즘 구성부
200 : 예측모듈 210 : 입력부
220 : 비교데이터 생성부 230 : 예측결과 생성부
300 : 저장모듈 310 : 세포주-약물 반응성 정보 DB
320 : 반응성 예측 알고리즘 DB 331 :CCLP
332 : GDSC

Claims (31)

  1. 수집된 학습정보로부터 유전체에 포함된 유전정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 딥러닝 기계학습에 의해 학습하는 학습모듈과;
    상기 학습모듈에 의해 학습된 반응성 예측알고리즘을 저장하는 저장모듈; 그리고
    분석정보를 수신하여, 상기 저장모듈에 저장된 반응성 예측알고리즘을 이용하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 예측모듈을 포함하여 구성되고:
    상기 학습정보는,
    표적단백질, 세포주 또는 체내 약물반응 임상정보에 대한 약물의 반응성 정보이며:
    상기 학습모듈은,
    수집된 학습정보로부터 딥러닝 기계학습을 위한 학습데이터를 생성하는 학습데이터 생성부와;
    상기 학습데이터 생성부로부터 생성된 다수의 학습데이터를 딥러닝 기계학습을 수행하는 딥러닝 기계학습부와;
    상기 딥러닝 기계학습부로부터 학습된 결과로부터, 유전체정보에 대한 약물의 반응성을 예측하는 반응성 예측 알고리즘을 생성하는 반응성 예측 알고리즘 구성부를 포함하여 구성되고:
    상기 학습데이터는,
    상기 표적단백질, 세포주 또는 임상정보에 포함된 변이정보 군에 대한 특성정보들의 군에 대한 약물을 구성하는 관능기정보 군에 대한 반응도를 나타낸 다수의 정보 또는 상기 표적단백질, 생체 외 세포주 또는 생체 내 임상정보에 포함된 변이들에 대한 특성정보 군에 대한 약물을 구성하는 관능기정보 군에 대한 반응도를 나타낸 다수의 정보이며:
    상기 특성정보는,
    상기 변이들에 대한 변이군정보, 종별 진화관점 변이 생성빈도(mutability or entropy of variants), 암 변이 발생빈도(variant frequency in cancer), 암 원인변이 예측 점수(driver mutation score), 3차원 단백질구조의 변이 환경정보(3D structure mutation environment), 임상적으로 증명된 질병원인 변이(clinical significance mutation), 유전자 상호작용에 기인한 약물반응 계층화정보(drug response stratification), 후성유전체정보(epigenomics), 발현체정보(transcriptomics) 또는 단백체정보(proteomics) 중 둘 이상을 포함하여 구성되고:
    상기 딥러닝 기계학습부는,
    상기 학습데이터들로부터 생성된 유전체의 특성정보 군에 대한 약물을 구성하는 관능기정보 군의 반응도를 나타낸 학습레이어들을 입력 데이터로 하여 컨벌루션 신경 네트워크(CNN, Convolutional Neural Network) 모델에 의한 딥러닝 기계학습을 통해 표적단백질, 생체 외 세포주 또는 생체 내 임상정보에 포함된 각 유전정보에 대한 약물을 구성하는 각 구성정보의 반응 상관관계를 학습함을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 제 1 항에 있어서,
    상기 딥러닝 기계학습은,
    텐서플로(TensorFlow) 기계학습 엔진에 의해 수행됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  13. 제 1 항에 있어서,
    상기 학습정보는,
    표적단백질-약물 해리상수, 암세포주 백과사전(CCLE);
    암 세포에 대한 약물 감도 및 유전체학(GDSC); 또는
    체내 약물반응 임상정보 데이터베이스로부터 수집됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  14. 제 1 항에 있어서,
    상기 딥러닝 기계학습은,
    (A1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
    (A2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와;
    (A3) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
    (A4) 상기 학습정보에 포함된 유전체의 유전정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 학습레이어들을 생성하는 단계와;
    (A5) 상기 학습레이어들에 대한 딥러닝 기계학습을 통해, 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  15. 제 14 항에 있어서,
    상기 반응도는,
    표적단백질의 해리상수, 세포주의 수용억제지수 IC50 또는 체내의 약물반응 임상정보 (CR, PR, SD 또는 PD) 기준으로 판별됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  16. 제 14 항에 있어서,
    상기 반응성 예측 알고리즘 구성부는,
    상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성함을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  17. 제 16 항에 있어서,
    상기 예측 모듈의 약물 반응성 예측은,
    (C1) 분석 대상정보를 수신하는 단계와;
    (C2) 상기 분석정보에 포함된 유전체의 분석대상 유전정보를 산출하는 단계와;
    (C3) 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와;
    (C4) 상기 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응상관 관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하는 단계를 포함하여 수행됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  18. 제 17 항에 있어서,
    상기 분석대상 구성정보는,
    상기 약물을 구성하는 관능기 정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  19. 제 17 항에 있어서,
    상기 분석대상 유전정보는,
    상기 유전체에 포함된 변이정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  20. 제 17 항에 있어서,
    상기 분석대상 유전정보는,
    상기 유전체에 포함된 변이들에 대한 특성 정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  21. 제 16 항에 있어서,
    상기 예측알고리즘은,
    서로 다른 딥러닝 기계학습 예측알고리즘에 의해 산출된 예측값을 병합함을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  22. 제 1 항에 있어서,
    상기 딥러닝 기계학습은,
    (A1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
    (A2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와;
    (A3) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
    (A4) 상기 학습정보에 포함된 유전체의 유전정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 학습레이어들을 생성하는 단계와;
    (A5) 상기 학습레이어들에 대한 딥러닝 기계학습을 통해, 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행되고:
    상기 반응성 예측 알고리즘 구성부는,
    상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성하며:
    상기 예측알고리즘은,
    서로 다른 딥러닝 기계학습 예측알고리즘에 의해 산출된 예측값을 병합하고:
    상기 서로 다른 딥러닝 기계학습 예측알고리즘은, 이종 특성정보가 병합된 레이어의 각 은닉 유닛의 가중치 합을 계산한 후, 그 결과에 비선형 함수인 렐루, 하이퍼볼릭 탄젠트 또는 시그모이드 함수가 적용되도록 구성됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  23. 제 1 항에 있어서,
    상기 딥러닝 기계학습은,
    (B1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
    (B2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와;
    (B3) 각 유전체에 포함된 상기 유전정보 군에 대한 약물의 반응도를 나타내는 유전정보 학습레이어들을 생성하는 단계와;
    (B4) 상기 유전정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와;
    (B5) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
    (B6) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 학습레이어들을 생성하는 단계와;
    (B7) 상기 구성정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와;
    (B8) 상기 제(B4)단계에서 산출된 각 유전정보에 대한 약물의 반응 상관관계와, 상기 제(B7)단계에서 산출된 각 유전체에 대한 각 구성정보의 반응 상관관계를 통해 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  24. 제 23 항에 있어서,
    상기 반응도는,
    표적단백질의 해리상수, 세포주의 수용억제지수 IC50 또는 체내약물반응 임상정보(CR, PR, SD 또는 PD)를 기준으로 판별됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  25. 제 23 항에 있어서,
    상기 반응성 예측 알고리즘 구성부는,
    상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성함을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  26. 제 25 항에 있어서,
    상기 예측 모듈의 약물 반응성 예측은,
    (C1) 분석 대상정보를 수신하는 단계와;
    (C2) 상기 분석정보에 포함된 유전체의 분석대상 유전정보를 산출하는 단계와;
    (C3) 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와;
    (C4) 상기 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응상관 관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하는 단계를 포함하여 수행됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  27. 제 26 항에 있어서,
    상기 분석대상 구성정보는,
    상기 약물을 구성하는 관능기 정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  28. 제 26 항에 있어서,
    상기 분석대상 유전정보는,
    상기 유전체에 포함된 변이정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  29. 제 26 항에 있어서,
    상기 분석대상 유전정보는,
    상기 유전체에 포함된 변이들에 대한 특성 정보임을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  30. 제 25 항에 있어서,
    상기 예측알고리즘은,
    서로 다른 딥러닝 기계학습 예측알고리즘에 의해 산출된 예측값을 병합함을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
  31. 제 1 항에 있어서,
    상기 딥러닝 기계학습은,
    (B1) 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
    (B2) 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성하는 단계와;
    (B3) 각 유전체에 포함된 상기 유전정보 군에 대한 약물의 반응도를 나타내는 유전정보 학습레이어들을 생성하는 단계와;
    (B4) 상기 유전정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와;
    (B5) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
    (B6) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 학습레이어들을 생성하는 단계와;
    (B7) 상기 구성정보 학습레이어들에 대한 딥러닝 기계학습을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와;
    (B8) 상기 제(B4)단계에서 산출된 각 유전정보에 대한 약물의 반응 상관관계와, 상기 제(B7)단계에서 산출된 각 유전체에 대한 각 구성정보의 반응 상관관계를 통해 개별 유전정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계를 포함하여 수행되고:
    상기 반응성 예측 알고리즘 구성부는,
    상기 딥러닝 기계학습부에 의해 학습된 상기 유전정보에 대한 상기 구성정보의 반응 상관관계를 통해, 유전정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성하며:
    상기 예측알고리즘은,
    서로 다른 딥러닝 기계학습 예측알고리즘에 의해 산출된 예측값을 병합하고:
    상기 서로 다른 딥러닝 기계학습 예측알고리즘은, 이종 특성정보가 병합된 레이여의 각 은닉 유닛의 가중치 합을 계산한 후, 그 결과에 비선형 함수인 렐루, 하이퍼볼릭 탄젠트 또는 시그모이드 함수가 적용되도록 구성됨을 특징으로 하는 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템.
KR1020170185040A 2017-09-25 2017-12-31 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법 Active KR101953762B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/198,138 US20190164632A1 (en) 2017-09-25 2018-11-21 Drug indication and response prediction systems and method using ai deep learning based on convergence of different category data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170123719 2017-09-25
KR20170123719 2017-09-25

Publications (1)

Publication Number Publication Date
KR101953762B1 true KR101953762B1 (ko) 2019-03-04

Family

ID=65759917

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170185040A Active KR101953762B1 (ko) 2017-09-25 2017-12-31 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법

Country Status (2)

Country Link
US (1) US20190164632A1 (ko)
KR (1) KR101953762B1 (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477344A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
KR20210014976A (ko) * 2019-07-31 2021-02-10 주식회사 피디젠 혈중암세포 분석 기반 암 진행 예측 플랫폼
WO2021071181A1 (ko) * 2019-10-07 2021-04-15 한국과학기술원 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치
WO2021096255A1 (ko) * 2019-11-15 2021-05-20 서울시립대학교 산학협력단 독성 데이터베이스, 인공지능, 분자도킹 기반 단계적 접근법을 이용한 독성발현경로 (aop)의 분자수준초기현상 (mie) 작용 화학물질 우선순위 결정 방법 및 시스템
KR102261556B1 (ko) 2020-10-30 2021-06-07 한밭대학교 산학협력단 학습 데이터셋을 확장하여 학습하는 인공지능 기반의 미생물 균총과 질병의 연관성 예측 시스템 및 프로그램
KR102279056B1 (ko) 2021-01-19 2021-07-19 주식회사 쓰리빌리언 지식전이를 이용한 유전자변이의 병원성 예측 시스템
KR20210148544A (ko) 2020-05-29 2021-12-08 주식회사 에일론 아미노산 간의 인접 지도를 이용한 단백질의 3차 구조 예측 방법
KR20210153540A (ko) 2020-06-10 2021-12-17 주식회사 에이조스바이오 인공지능 딥러닝을 활용한 표현형 기반 항암 약물 스크리닝 시스템
KR20220057821A (ko) 2020-10-30 2022-05-09 가천대학교 산학협력단 인공지능 기반 약물 반응성 예측 장치 및 방법
WO2022231165A1 (ko) * 2021-04-26 2022-11-03 주식회사 온코크로스 약물 효과 예측 장치 및 그 방법
KR102473861B1 (ko) * 2022-05-31 2022-12-06 주식회사 바스젠바이오 약물 효과 예측 snp 기반의 유전자 점수를 이용한 약물 임상 시뮬레이션 시스템 및 그 방법
WO2023038501A1 (ko) * 2021-09-10 2023-03-16 주식회사 아론티어 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템
WO2023096034A1 (ko) * 2021-11-26 2023-06-01 광주과학기술원 약물 상호 작용을 예측하는 전자장치 및 그 제어방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11482305B2 (en) 2018-08-18 2022-10-25 Synkrino Biotherapeutics, Inc. Artificial intelligence analysis of RNA transcriptome for drug discovery
US20200394459A1 (en) * 2019-06-17 2020-12-17 Nvidia Corporation Cell image synthesis using one or more neural networks
CN110534165B (zh) * 2019-09-02 2024-02-20 广州费米子科技有限责任公司 一种药物分子活性的虚拟筛选系统及其方法
CN110619960B (zh) * 2019-09-10 2022-04-22 电子科技大学 一种基于监督学习框架的中药配伍禁忌预测方法
KR102110176B1 (ko) * 2019-10-11 2020-05-13 주식회사 메디리타 신약 후보 물질 도출 방법 및 장치
CN110931078A (zh) * 2019-12-05 2020-03-27 武汉深佰生物科技有限公司 一种基于人工智能的蛋白质互作组预测服务系统
CN113129999B (zh) * 2019-12-31 2024-06-18 高丽大学校产学协力团 新药候选物质输出方法及装置、模型构建方法与记录介质
KR102521303B1 (ko) * 2020-03-23 2023-04-14 주식회사 뷰노 약물의 작용 기전을 예측하는 신경망의 기계학습 방법 및 신경망을 이용한 약물의 작용 기전 예측 방법
CN111540419A (zh) * 2020-04-28 2020-08-14 上海交通大学 基于深度学习的抗老年痴呆药物有效性预测系统
CN111599403B (zh) * 2020-05-22 2023-03-14 电子科技大学 一种基于排序学习的并行式药物-靶标相关性预测方法
US11830586B2 (en) * 2020-12-08 2023-11-28 Kyndryl, Inc. Enhancement of patient outcome forecasting
CN112768089B (zh) * 2021-04-09 2021-06-22 至本医疗科技(上海)有限公司 用于预测药物敏感状态的方法、设备和存储介质
CN114255886B (zh) * 2022-02-28 2022-06-14 浙江大学 基于多组学相似度引导的药物敏感性预测方法和装置
CN115810404A (zh) * 2022-11-17 2023-03-17 华南理工大学 基于多层级信息融合的药物化学反应类型预测方法
CN117079716B (zh) * 2023-09-13 2024-04-05 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461006B2 (en) * 2001-08-29 2008-12-02 Victor Gogolak Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data
US20030104453A1 (en) * 2001-11-06 2003-06-05 David Pickar System for pharmacogenetics of adverse drug events
US20080118576A1 (en) * 2006-08-28 2008-05-22 Dan Theodorescu Prediction of an agent's or agents' activity across different cells and tissue types
AU2016226162B2 (en) * 2015-03-03 2017-11-23 Nantomics, Llc Ensemble-based research recommendation systems and methods
US10252145B2 (en) * 2016-05-02 2019-04-09 Bao Tran Smart device
US20180166170A1 (en) * 2016-12-12 2018-06-14 Konstantinos Theofilatos Generalized computational framework and system for integrative prediction of biomarkers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M. P. Menden 외 6인, "Machine Learning Prediction of Cancer Cell Sensitivity to Drugs Based on Genomic and Chemical Properties", PLOS ONE, 8권, 4호, 2013.04. 1부.*

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
KR102636659B1 (ko) * 2019-04-02 2024-02-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
KR20210014976A (ko) * 2019-07-31 2021-02-10 주식회사 피디젠 혈중암세포 분석 기반 암 진행 예측 플랫폼
KR102410786B1 (ko) * 2019-07-31 2022-06-20 주식회사 피디젠 혈중암세포 분석 기반 암 진행 예측 장치
WO2021071181A1 (ko) * 2019-10-07 2021-04-15 한국과학기술원 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치
WO2021096255A1 (ko) * 2019-11-15 2021-05-20 서울시립대학교 산학협력단 독성 데이터베이스, 인공지능, 분자도킹 기반 단계적 접근법을 이용한 독성발현경로 (aop)의 분자수준초기현상 (mie) 작용 화학물질 우선순위 결정 방법 및 시스템
CN111477344A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
KR20210148544A (ko) 2020-05-29 2021-12-08 주식회사 에일론 아미노산 간의 인접 지도를 이용한 단백질의 3차 구조 예측 방법
KR20210153540A (ko) 2020-06-10 2021-12-17 주식회사 에이조스바이오 인공지능 딥러닝을 활용한 표현형 기반 항암 약물 스크리닝 시스템
KR20220057821A (ko) 2020-10-30 2022-05-09 가천대학교 산학협력단 인공지능 기반 약물 반응성 예측 장치 및 방법
KR102532095B1 (ko) * 2020-10-30 2023-05-15 가천대학교 산학협력단 인공지능 기반 약물 반응성 예측 장치 및 방법
KR102261556B1 (ko) 2020-10-30 2021-06-07 한밭대학교 산학협력단 학습 데이터셋을 확장하여 학습하는 인공지능 기반의 미생물 균총과 질병의 연관성 예측 시스템 및 프로그램
KR102279056B1 (ko) 2021-01-19 2021-07-19 주식회사 쓰리빌리언 지식전이를 이용한 유전자변이의 병원성 예측 시스템
WO2022231165A1 (ko) * 2021-04-26 2022-11-03 주식회사 온코크로스 약물 효과 예측 장치 및 그 방법
WO2023038501A1 (ko) * 2021-09-10 2023-03-16 주식회사 아론티어 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템
WO2023096034A1 (ko) * 2021-11-26 2023-06-01 광주과학기술원 약물 상호 작용을 예측하는 전자장치 및 그 제어방법
KR102473861B1 (ko) * 2022-05-31 2022-12-06 주식회사 바스젠바이오 약물 효과 예측 snp 기반의 유전자 점수를 이용한 약물 임상 시뮬레이션 시스템 및 그 방법

Also Published As

Publication number Publication date
US20190164632A1 (en) 2019-05-30

Similar Documents

Publication Publication Date Title
KR101953762B1 (ko) 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
Wang et al. DeepDRK: a deep learning framework for drug repurposing through kernel-based multi-omics integration
Bikadi et al. Predicting P-glycoprotein-mediated drug transport based on support vector machine and three-dimensional crystal structure of P-glycoprotein
KR101950395B1 (ko) 개체군 유전체 염기서열 및 변이의 변환데이터에 대한 인공지능 딥러닝 모델을 이용한 바이오마커 검출 방법
Dos Santos et al. Practices in molecular docking and structure-based virtual screening
CN113168886A (zh) 用于使用神经网络进行种系和体细胞变体调用的系统和方法
KR101984611B1 (ko) 약물반응성, 유전자발현정보 및 복제수 변이를 이용한 기능하플로타이핑 방법 및 시스템
Dass et al. Classification of lung cancer subtypes by data mining technique
CN115240762B (zh) 多尺度小分子虚拟筛选方法及系统
Zhuang et al. Deep learning on graphs for multi-omics classification of COPD
Pandey et al. Identification of potential driver mutations in glioblastoma using machine learning
Wang et al. Using feature selection and Bayesian network identify cancer subtypes based on proteomic data
Aranha et al. Combining three-dimensional modeling with artificial intelligence to increase specificity and precision in peptide–MHC binding predictions
Nussinov et al. Cancer and neurodevelopmental disorders: multi-scale reasoning and computational guide
Bijral et al. Exploring artificial intelligence in drug discovery: a comprehensive review
Liu et al. Integration of scRNA-seq data by disentangled representation learning with condition domain adaptation
Kamble et al. Cancer pharmacoinformatics: Databases and analytical tools
Li et al. EfficientNet-resDDSC: A Hybrid Deep Learning Model Integrating Residual Blocks and Dilated Convolutions for Inferring Gene Causality in Single-Cell Data
WO2024081795A1 (en) Methods of identifying targets of cancer drugs and of treating cancer
Cao et al. uniPort: a unified computational framework for single-cell data integration with optimal transport
Liu et al. CoT: a transformer-based method for inferring tumor clonal copy number substructure from scDNA-seq data
Battistella et al. Combing: clustering in oncology for mathematical and biological identification of novel gene signatures
Zhang et al. Data mining methods in Omics-based biomarker discovery
Liu et al. Efficient gaussian sample specific network marker discovery and drug enrichment analysis validation
Yu et al. Genome-wide discovery of hidden genes mediating known drug-disease association using KDDANet

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20171231

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20180117

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20171231

Patent event code: PA03021R01I

Comment text: Patent Application

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20180319

Patent event code: PE09021S01D

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20180730

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20190221

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20190225

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20190225

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20221214

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20241223

Start annual number: 7

End annual number: 7