[go: up one dir, main page]

KR102523938B1 - 상동 재조합 결핍증 예측 모델의 모델링 방법 - Google Patents

상동 재조합 결핍증 예측 모델의 모델링 방법 Download PDF

Info

Publication number
KR102523938B1
KR102523938B1 KR1020220014718A KR20220014718A KR102523938B1 KR 102523938 B1 KR102523938 B1 KR 102523938B1 KR 1020220014718 A KR1020220014718 A KR 1020220014718A KR 20220014718 A KR20220014718 A KR 20220014718A KR 102523938 B1 KR102523938 B1 KR 102523938B1
Authority
KR
South Korea
Prior art keywords
hrd
data
gene expression
modeling method
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020220014718A
Other languages
English (en)
Inventor
강준
이지은
이아원
이연수
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020220014718A priority Critical patent/KR102523938B1/ko
Priority to PCT/KR2023/000172 priority patent/WO2023149672A1/ko
Application granted granted Critical
Publication of KR102523938B1 publication Critical patent/KR102523938B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Zoology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Microbiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)

Abstract

본 발명은 HRD 예측 모델의 모델링 방법에 관한 것으로, a) mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계와, b) 상기 HRD 데이터에서 표적 변수(target variable)를 추출하고, mRNA 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계와, c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함할 수 있다.

Description

상동 재조합 결핍증 예측 모델의 모델링 방법{Modeling method for homologous recombination deficiency predictive model}
본 발명은 상동 재조합 결핍증 예측 모델의 모델링 방법에 관한 것으로, 더 상세하게는 암 유전자 발현 데이터를 사용하여 상동 재조합 결핍증을 예측하는 예측 모델의 모델링 방법에 관한 것이다.
일반적으로, 상동 재조합 결핍(HRD, Homologous recombination deficiency)은 유방암, 난소암, 전립선암을 포함하는 일부 암에서 종양 발생의 주요 기전이다.
HRD는 비정상적인 이중 가닥 파손 복구를 유발하고 게놈 흉터를 유발한다.
상동 재조합 결핍 점수를 계산하는 일부 HRD 검사는 난소암 및 전립선암 환자를 위한 폴리아데노신 이인산-리보스 중합효소(PARP) 억제제 치료의 동반 진단으로 승인되었다.
상동 재조합 수선(HRR, Homologous recombination repair)은 돌연변이를 일으키지 않고 DNA 이중 가닥 파손을 복원하는 DNA 손상 수선 과정으로 정의된다.
그러나 이중 가닥 절단은 염색체 불안정성을 유발하고 암을 유발할 수 있으며, 일부 암은 상동 재조합에 장애가 있다.
상동 재조합 결핍(HRD)은 BRCA1/2, CHEK1/2, PALB2 및 RAD50을 포함한 상동 재조합 관련 유전자의 돌연변이, 결실 또는 후성 유전학적 침묵으로 인해 발생한다.
종래 유전자 발현 기반 HRD 예측 테스트에 대한 연구가 'Peng G, Chun-Jen Lin C, Mo W, et al. Genome-wide transcriptome profiling of homologous recombination DNA repair. Nature Communications. 2014;5(1):3361.' 등과 같이 진행되었다.
그러나 이전 연구에서 HRD 상태는 BRCA1/2와 같은 HRD 관련 유전자의 병원성 변이체의 존재에 의해 결정되는 것으로, 다양한 유전자 발현 데이터를 이용한 HRD를 예측할 수 없다는 한계가 있었다.
이러한 한계는 발견할 수 있는 환자가 제한적이라는 단점이 있다.
상기와 같은 문제점을 감안한 본 발명이 해결하고자 하는 과제는, 유전자 발현 데이터를 이용하여 HRD 상태를 예측할 수 있는 예측 모델의 모델링 방법을 제공함에 있다.
상기와 같은 기술적 과제를 해결하기 위한 본 발명 상동 재조합 결핍증 예측 모델의 모델링 방법은, a) mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계와, b) 상기 HRD 데이터에서 표적 변수(target variable)를 추출하고, mRNA 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계와, c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함할 수 있다.
본 발명의 실시 예에서, 상기 b) 단계는, HRD 데이터에서 절대 편차 중앙값으로 필터링하여 얻어진 HRD 상태일 수 있다.
본 발명의 실시 예에서, 상기 b) 단계는, 절대 편차 중앙값(median absolute deviation)을 이용하여 mRNA 유전자 발현 데이터를 필터링하여 예측 변수를 추출할 수 있다.
본 발명의 실시 예에서, 추출된 예측 변수에서, 암의 유형을 45(담관암)부터 1171(유방 침윤성 암종)까지를 이용하여 예측 변수를 특정할 수 있다.
본 발명의 실시 예에서, 상기 c) 단계는, 예측 변수의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 모델링을 수행할 수 있다.
본 발명의 실시 예에서, 상기 c) 단계는, 데이터의 전처리 과정으로서, 정규화의 양(λ)과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정하고, AUPR(Area Under the Precision-Recall) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행할 수 있다.
본 발명의 실시 예에서, λ={10-5, 10-4, 10-3, 10-2, 10-1, 100}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정될 수 있다.
본 발명은, 벌점형 로지스틱 회귀 모델을 이용하되, 목적 변수로 HRD 상태를 사용하고, 예측 변수로 유전자 발현을 선택하여, HRD에 대한 예측을 수행함으로써, 임상적으로 사용 가능하며, 다양한 암에 대한 HRD 예측이 가능한 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 상동 재조합 결핍증 예측 모델의 모델링 방법의 순서도이다.
도 2는 훈련 세트의 HRD 상태 ROC 그래프이다.
도 3은 테스트 세트의 HRD 상태 ROC 그래프이다.
본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라, 여러가지 형태로 구현될 수 있고 다양한 변경을 가할 수 있다. 단지, 본 실시예에 대한 설명은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위하여 제공되는 것이다. 첨부된 도면에서 구성요소는 설명의 편의를 위하여 그 크기를 실제보다 확대하여 도시한 것이며, 각 구성요소의 비율은 과장되거나 축소될 수 있다.
'제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 상기 구성요소는 위 용어에 의해 한정되어서는 안 된다. 위 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다. 또한, 단수의 표현은 문맥상 명백하게 다르게 표현하지 않는 한, 복수의 표현을 포함한다. 본 발명의 실시예에서 사용되는 용어는 다르게 정의되지 않는 한, 해당 기술분야에서 통상의 지식을 가진 자에게 통상적으로 알려진 의미로 해석될 수 있다.
본 발명은 HRD를 예측하는 방법에 관한 것으로, 본 발명에서 제안하는 방법은 데이터의 처리에 의해 이루어지며, 이를 수행하기 위한 수행 주체는 적어도 프로세서, 데이터 저장수단, 표시수단, 입력수단을 포함하는 컴퓨팅 장치가 된다. 즉, 아래의 설명에서 구체적인 수행 주체에 대한 언급이 없더라도, 컴퓨팅 장치의 프로세서에서 수행되는 것으로 이해되어야 한다.
이하에서는, 도면을 참조하여 본 발명의 일실시예에 따른 HRD 예측 모델의 모델링 방법에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 HRD 예측 모델의 모델링 방법의 순서도이다.
도 1을 참조하면, 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계(S10)와, 상기 HRD 데이터에서 표적 변수(target variable)를 추출하는 단계(S20)와, 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계(S30)와, 표적 변수와 예측 변수를 이용한 회귀 분석 모델링을 수행하는 단계(S40)와, 모델링된 예측 모델의 성능 평가를 수행하는 단계(S50)를 포함하여 구성된다.
이하, 상기와 같이 구성된 본 발명 HRD 예측 모델의 모델링 방법의 구성과 작용에 대하여 보다 상세히 설명한다.
먼저, S10단계에서는 유전자 발현 데이터와 HRD 데이터를 수집한다.
S10단계에서 수집하는 데이터는 TCGA(The Cancer Genome Atlas) 범암(pan-cancer) 데이터인 것으로 한다.
TCGA는 엑솜 시퀀싱(exome sequencing), mRNA 유전자 발현, DNA 메틸화 및 임상 데이터가 포함된 25가지 다른 종양 유형의 10,000개 이상의 표본을 포함하는 대규모 암 게놈 컨소시엄이다.
TCGA에는 다양한 암유형에 대한 HRD 점수가 발표되어 있으며, HRD 테스트 데이터는 저널 웹사이트에서 다운로드할 수 있다.
HRD 점수는 LOH(Loss Of Heterozygosity)를 가지는 15Mb 이상의 논 아암 레벨 영역(non-arm-level regions), 대규모 상태 전환(10Mb 이상의 인접 세그먼트 사이의 중단), 대립형질 불균형이 있는 아종말체 영역(subtelomeric regions)의 3가지 요소를 포함한다.
대립유전자 특이적 카피 수, LOH, 종양 순도에 대한 게놈 전체 분할 데이터는 ABSOLUTE 21을 사용하여 추정될 수 있다.
유전자 발현 데이터는 RNAseq를 사용하여 생성된 전령 RNA(mRNA) 발현에 의해 추정할 수 있다. 또한 mRNA 발현은 정규화로 처리된다.
TCGA 유전자 발현 데이터는 NCI(National Cancer Institute)의 Genomic Data Commons(GDC) 웹사이트에서 다운로드할 수 있다.
그 다음, S20단계에서는 상기 HRD 데이터에서 표적 변수(target variable)를 추출한다.
표적 변수인 HRD 상태는 S10단계에서 얻어진 다양한 HRD 데이터에서 절대 편차 중앙값으로 필터링하여 얻을 수 있다.
HRD 상태는 HRD 점수가 42보다 크거나 같으면 양성, HRD 점수가 42보다 작으면 음성으로 정의한다.
그 다음, S30단계에서는 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출한다.
예측 변수는 mRNA 유전자 발현과 암 유형에 관한 데이터인 것으로 한다.
mRNA 유전자 발현 예측 변수를 추출하는 과정은, 상대적으로 중요도가 낮은 mRNA 유전자 발현 예측 변수들을 제거하는 과정일 수 있다.
이와 같은 변수의 제거를 위하여 본 발명에서는 절대 편차 중앙값(median absolute deviation)을 이용하여 mRNA 유전자 발현 데이터를 필터링하여 예측 변수를 추출한다.
또한, 암 유형을 유방암, 난소암, 전립선 암을 포함하는 암 유형으로 특정하여 예측 변수를 확정한다.
본 발명의 모델링에 사용된 데이터는 총 24개의 암 유형에 대한 10,567건의 연구를 포함한다. 암 유형은 45(담관암)부터 1171(유방 침윤성 암종)까지를 사용하였다.
암 유형의 약어는 아래의 표 1에 기재하였다.
Figure 112022012708084-pat00001
즉, HRD는 유방암, 난소암 및 전립선암을 포함하는 일부 암에서 종양 발생의 주요 기전이며, 이를 포함하는 암 유형들에 대한 예측 변수의 특정에 의해 다양한 암종에 대해 본 발명의 적용여부를 확인할 수 있다.
그 다음, S40단계와 같이 표적 변수와 예측 변수를 이용한 회귀 분석 모델링을 수행한다.
본 발명에서는 회귀 분석 모델로 벌점형 로지스틱 회귀(penalized logistic regression)를 사용한다.
벌점형 로지스틱 회귀 모델을 모델링하기 위하여 데이터의 전처리, 모델링, 시각화를 수행할 수 있는 패키지를 사용할 수 있다. 예를 들어 tidymodels를 사용할 수 있다.
회귀 분석 모델링을 위하여 얻어진 변수 데이터의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 훈련한다.
이때 훈련 세트와 테스트 세트의 분할은 HRD 상태와 암종으로 분할된다.
훈련 세트와 테스트 세트의 예는 위의 표 1에 기재하였다.
데이터의 전처리 과정으로서, 정규화의 양(λ)과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정한다. 하이퍼 파라미터의 결정을 위하여 부트스트랩(Bootstrap) 리샘플링을 사용할 수 있다.
이때, 표적 변수와 암 유형의 결합을 계층화하여 리샘플링을 수행할 수 있다. 리샘플링은 10회 수행될 수 있으나 본 발명은 이에 제한되지 않는다.
또한, 데이터 전처리를 위하여 KNN(K Nearest Neighbor) 대체법(Imputation)을 사용하며, 여-존슨 변환(Yeo-Johnson transformation)을 사용하여 왜도 수정(skewness correction)을 수행한다.
그리고 표준화를 위한 중심 및 척도가 포함되었으며, 합성 소수 오버 샘플링 기법(SMOTE, Synthetic Minority Over-sampling Technique)을 사용하여 클래스 불균형을 해소하였다.
AUPR(Area Under the Precision-Recall) 또는 AUC(Area Under the Curve) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행한다. AUPR 또는 AUC는 모델 성능을 불균형 데이터 세트와 비교할 때 AUROC(Area Under the Receiver Operation Characteristic) 또는 ROC(Receiver Operation Characteristic)에 비하여 더 적합하다.
하이퍼 파라미터 그리드는 λ={10-5, 10-4, 10-3, 10-2, 10-1, 100}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정된다.
최종적으로 λ=0.1, α=0 일때 도 2 및 표 1에 도시한 바와 같이 AUROC 측면에서 최고의 성능을 나타내는 것으로 확인되었다.
훈련 세트에 대한 HRD 상태 예측의 AUROC는 0.98이고, 테스트 세트에 대한 AUROC는 0.93으로 확인되었다. 훈련 세트에 대한 HRD 상태 예측의 정확도는 0.92이고 테스트 세트에 대한 정확도는 0.90이다.
모든 암 유형은 훈련 세트에서 AUROC 및 정확도 측면에서 좋은 예측 결과를 나타낸다. 훈련 세트 예측에서 AUROC는 모든 암 유형에 대해 0.91 이상이었고 정확도는 0.74 이상으로 확인되었다.
자궁암종, 폐편평세포암종, 식도암종을 제외한 대부분의 암 유형은 테스트 세트 예측에서 좋은 성능을 유지했습니다.
테스트 세트 예측에서 AUROC는 0.76 이상, 정확도는 도 3에 도시한 바와 같이 자궁암종, 폐편평세포암종 및 식도암종을 제외한 모든 암 유형에서 0.74 이상으로 확인되었다.
HRD 양성률이 낮은(0.10 미만) 암 유형은 테스트 세트에서 매우 높은 정확도(0.93 이상)를 나타내는 것을 확인할 수 있다.
그 다음, S50단계와 같이, 이와 같이 모델링된 예측 모델의 성능 평가를 위하여, 본 발명에서는 유전자 온톨로지 테스트(gene ontology test)를 수행한다.
이는 전체 훈련 세트로 최종 모델 피팅 후, 선택된 예측 유전자를 다음의 상세한 PANTHER 매개변수(분석 유형: PANTHER Overrepresentation Test(출시 20210224), 주석 버전 및 출시 날짜: PANTHER 버전 16.0 출시 2020-12-01)를 사용하여 유전자 온톨로지 테스트를 수행하여 평가한다.
이와 같은 방법으로 모델링된 HRD 예측 모델은 우리의 벌점형 로지스틱 회귀 모델은 0.93 테스트 세트 AUROC를 사용하여 다양한 암 유형의 유전자 발현 데이터로 HRD 상태를 예측할 수 있다.
이 결과는 유전자 발현 데이터를 사용한 벌점 로지스틱 회귀에 기반한 HRD 예측 모델이 PARP 억제제 치료를 위한 환자 선택에 적용될 수 있음을 나타낸다.
유전자 발현 데이터를 이용한 HRD 검사는 질병이 이전 치료에 내성을 보이기 때문에 연속적으로 수집된 종양 조직을 사용하여 암의 현재 HRD 상태를 평가하는 이점이 있다.
본 발명에 의한 예측 모델은 난소암 및 유방암을 포함한 높은 HRD 발현 악성 종양과 관련된 암 유형에서 우수한 성능을 나타낸다.
이상에서 본 발명에 따른 실시예들이 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 청구범위에 의해서 정해져야 할 것이다.

Claims (7)

  1. a) TCGA(The Cancer Genome Atlas) 범암(pan-cancer) 데이터인 HRD 데이터를 NCI(National Cancer Institute)의 Genomic Data Commons(GDC) 웹사이트에서 다운로드하고, TCGA에서 제공하는 유전자 발현 데이터를 다운로드하여 mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계;
    b) 상기 HRD 데이터에서 표적 변수(target variable)를 절대편차 중앙값으로 필터링하여 추출하고, mRNA 유전자 발현 데이터에서 절대편차 중앙값을 이용하여 상대적 중요도가 낮은 데이터를 제거하여 예측 변수(predictor variable)를 추출하는 단계; 및
    c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함하되,
    상기 c) 단계는,
    데이터의 전처리 과정으로서, 정규화의 양(λ과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정하고,
    AUPR(Area Under the Precision-Recall) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행하는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 c) 단계는,
    예측 변수의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 모델링을 수행하는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.
  6. 삭제
  7. 제1항에 있어서,
    λ={10-5, 10-4, 10-3, 10-2, 10-1, 100}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정되는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.
KR1020220014718A 2022-02-04 2022-02-04 상동 재조합 결핍증 예측 모델의 모델링 방법 Active KR102523938B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220014718A KR102523938B1 (ko) 2022-02-04 2022-02-04 상동 재조합 결핍증 예측 모델의 모델링 방법
PCT/KR2023/000172 WO2023149672A1 (ko) 2022-02-04 2023-01-04 상동 재조합 결핍증 예측 모델의 모델링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220014718A KR102523938B1 (ko) 2022-02-04 2022-02-04 상동 재조합 결핍증 예측 모델의 모델링 방법

Publications (1)

Publication Number Publication Date
KR102523938B1 true KR102523938B1 (ko) 2023-04-19

Family

ID=86142267

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220014718A Active KR102523938B1 (ko) 2022-02-04 2022-02-04 상동 재조합 결핍증 예측 모델의 모델링 방법

Country Status (2)

Country Link
KR (1) KR102523938B1 (ko)
WO (1) WO2023149672A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200873A1 (en) * 2014-06-26 2015-12-30 Icahn School Of Medicine At Mount Sinai Methods for diagnosing risk of renal allograft fibrosis and rejection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9850542B2 (en) * 2013-03-04 2017-12-26 Board Of Regents, The University Of Texas System Gene signature to predict homologous recombination (HR) deficient cancer
CA2908745C (en) * 2013-04-05 2023-03-14 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
ES2946251T3 (es) * 2014-08-15 2023-07-14 Myriad Genetics Inc Métodos y materiales para evaluar la deficiencia de recombinación homóloga
JP7224185B2 (ja) * 2016-05-01 2023-02-17 ゲノム・リサーチ・リミテッド Dnaサンプルを特徴付ける方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200873A1 (en) * 2014-06-26 2015-12-30 Icahn School Of Medicine At Mount Sinai Methods for diagnosing risk of renal allograft fibrosis and rejection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
medRxiv 사전공개논문(https://doi.org/10.1101/2021.12.20.21267985* *

Also Published As

Publication number Publication date
WO2023149672A1 (ko) 2023-08-10

Similar Documents

Publication Publication Date Title
Ross et al. Tissue-based genomics augments post-prostatectomy risk stratification in a natural history cohort of intermediate-and high-risk men
Freedland et al. Utilization of a genomic classifier for prediction of metastasis following salvage radiation therapy after radical prostatectomy
Sauter et al. Integrating tertiary Gleason 5 patterns into quantitative Gleason grading in prostate biopsies and prostatectomy specimens
US20220064737A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
JP2019521673A5 (ko)
AU2020212057A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
CN108504555B (zh) 鉴别及评价肿瘤进展的装置和方法
CN111161882A (zh) 一种基于深度神经网络的乳腺癌生存期预测方法
Qian et al. Radiogenomics of lower-grade gliomas: a radiomic signature as a biological surrogate for survival prediction
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
KR20210073526A (ko) 전사 인자 프로파일링
WO2020132544A1 (en) Anomalous fragment detection and classification
JP2024528489A (ja) 相同修復欠損を分類するシステムおよび方法
CN107851136B (zh) 用于对未知重要性的变体划分优先级顺序的系统和方法
KR102523938B1 (ko) 상동 재조합 결핍증 예측 모델의 모델링 방법
Kikutake et al. Pan-cancer analysis of intratumor heterogeneity associated with patient prognosis using multidimensional measures
KR20240073026A (ko) 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델
Cattelani et al. Triple and quadruple optimization for feature selection in cancer biomarker discovery
CN113724782A (zh) 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法
Toh et al. Analysis of copy number variation from germline DNA can predict individual cancer risk
Liu et al. A support vector machine model predicting the risk of duodenal cancer in patients with familial adenomatous polyposis at the transcript levels
KR102737606B1 (ko) 유전자 발현과 dna 메틸화의 2차 부분 상관관계에 기초한 암 환자별 네트워크 구축 방법
Ho et al. Evolutionary learning-derived lncRNA signature with biomarker discovery for predicting stage of colon adenocarcinoma
KR20230118307A (ko) Braf 변이체 예측 모델의 모델링 방법
Kim et al. Inferring modes of evolution from colorectal cancer with residual polyp of origin

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20220204

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20220216

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20220204

Patent event code: PA03021R01I

Comment text: Patent Application

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20221020

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20230328

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20230417

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20230417

End annual number: 3

Start annual number: 1

PG1601 Publication of registration