KR102523938B1

KR102523938B1 - 상동 재조합 결핍증 예측 모델의 모델링 방법

Info

Publication number: KR102523938B1
Application number: KR1020220014718A
Authority: KR
Inventors: 강준; 이지은; 이아원; 이연수
Original assignee: 가톨릭대학교 산학협력단
Priority date: 2022-02-04
Filing date: 2022-02-04
Publication date: 2023-04-19
Anticipated expiration: 2042-02-04
Also published as: WO2023149672A1

Abstract

본 발명은 HRD 예측 모델의 모델링 방법에 관한 것으로, a) mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계와, b) 상기 HRD 데이터에서 표적 변수(target variable)를 추출하고, mRNA 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계와, c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함할 수 있다.

Description

상동 재조합 결핍증 예측 모델의 모델링 방법{Modeling method for homologous recombination deficiency predictive model}

본 발명은 상동 재조합 결핍증 예측 모델의 모델링 방법에 관한 것으로, 더 상세하게는 암 유전자 발현 데이터를 사용하여 상동 재조합 결핍증을 예측하는 예측 모델의 모델링 방법에 관한 것이다.

일반적으로, 상동 재조합 결핍(HRD, Homologous recombination deficiency)은 유방암, 난소암, 전립선암을 포함하는 일부 암에서 종양 발생의 주요 기전이다.

HRD는 비정상적인 이중 가닥 파손 복구를 유발하고 게놈 흉터를 유발한다.

상동 재조합 결핍 점수를 계산하는 일부 HRD 검사는 난소암 및 전립선암 환자를 위한 폴리아데노신 이인산-리보스 중합효소(PARP) 억제제 치료의 동반 진단으로 승인되었다.

상동 재조합 수선(HRR, Homologous recombination repair)은 돌연변이를 일으키지 않고 DNA 이중 가닥 파손을 복원하는 DNA 손상 수선 과정으로 정의된다.

그러나 이중 가닥 절단은 염색체 불안정성을 유발하고 암을 유발할 수 있으며, 일부 암은 상동 재조합에 장애가 있다.

상동 재조합 결핍(HRD)은 BRCA1/2, CHEK1/2, PALB2 및 RAD50을 포함한 상동 재조합 관련 유전자의 돌연변이, 결실 또는 후성 유전학적 침묵으로 인해 발생한다.

종래 유전자 발현 기반 HRD 예측 테스트에 대한 연구가 'Peng G, Chun-Jen Lin C, Mo W, et al. Genome-wide transcriptome profiling of homologous recombination DNA repair. Nature Communications. 2014;5(1):3361.' 등과 같이 진행되었다.

그러나 이전 연구에서 HRD 상태는 BRCA1/2와 같은 HRD 관련 유전자의 병원성 변이체의 존재에 의해 결정되는 것으로, 다양한 유전자 발현 데이터를 이용한 HRD를 예측할 수 없다는 한계가 있었다.

이러한 한계는 발견할 수 있는 환자가 제한적이라는 단점이 있다.

상기와 같은 문제점을 감안한 본 발명이 해결하고자 하는 과제는, 유전자 발현 데이터를 이용하여 HRD 상태를 예측할 수 있는 예측 모델의 모델링 방법을 제공함에 있다.

상기와 같은 기술적 과제를 해결하기 위한 본 발명 상동 재조합 결핍증 예측 모델의 모델링 방법은, a) mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계와, b) 상기 HRD 데이터에서 표적 변수(target variable)를 추출하고, mRNA 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계와, c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함할 수 있다.

본 발명의 실시 예에서, 상기 b) 단계는, HRD 데이터에서 절대 편차 중앙값으로 필터링하여 얻어진 HRD 상태일 수 있다.

본 발명의 실시 예에서, 상기 b) 단계는, 절대 편차 중앙값(median absolute deviation)을 이용하여 mRNA 유전자 발현 데이터를 필터링하여 예측 변수를 추출할 수 있다.

본 발명의 실시 예에서, 추출된 예측 변수에서, 암의 유형을 45(담관암)부터 1171(유방 침윤성 암종)까지를 이용하여 예측 변수를 특정할 수 있다.

본 발명의 실시 예에서, 상기 c) 단계는, 예측 변수의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 모델링을 수행할 수 있다.

본 발명의 실시 예에서, 상기 c) 단계는, 데이터의 전처리 과정으로서, 정규화의 양(λ)과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정하고, AUPR(Area Under the Precision-Recall) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행할 수 있다.

본 발명의 실시 예에서, λ={10^-5, 10^-4, 10^-3, 10^-2, 10^-1, 10⁰}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정될 수 있다.

본 발명은, 벌점형 로지스틱 회귀 모델을 이용하되, 목적 변수로 HRD 상태를 사용하고, 예측 변수로 유전자 발현을 선택하여, HRD에 대한 예측을 수행함으로써, 임상적으로 사용 가능하며, 다양한 암에 대한 HRD 예측이 가능한 효과가 있다.

도 1은 본 발명의 바람직한 실시예에 따른 상동 재조합 결핍증 예측 모델의 모델링 방법의 순서도이다.
도 2는 훈련 세트의 HRD 상태 ROC 그래프이다.
도 3은 테스트 세트의 HRD 상태 ROC 그래프이다.

본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라, 여러가지 형태로 구현될 수 있고 다양한 변경을 가할 수 있다. 단지, 본 실시예에 대한 설명은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위하여 제공되는 것이다. 첨부된 도면에서 구성요소는 설명의 편의를 위하여 그 크기를 실제보다 확대하여 도시한 것이며, 각 구성요소의 비율은 과장되거나 축소될 수 있다.

'제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 상기 구성요소는 위 용어에 의해 한정되어서는 안 된다. 위 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다. 또한, 단수의 표현은 문맥상 명백하게 다르게 표현하지 않는 한, 복수의 표현을 포함한다. 본 발명의 실시예에서 사용되는 용어는 다르게 정의되지 않는 한, 해당 기술분야에서 통상의 지식을 가진 자에게 통상적으로 알려진 의미로 해석될 수 있다.

본 발명은 HRD를 예측하는 방법에 관한 것으로, 본 발명에서 제안하는 방법은 데이터의 처리에 의해 이루어지며, 이를 수행하기 위한 수행 주체는 적어도 프로세서, 데이터 저장수단, 표시수단, 입력수단을 포함하는 컴퓨팅 장치가 된다. 즉, 아래의 설명에서 구체적인 수행 주체에 대한 언급이 없더라도, 컴퓨팅 장치의 프로세서에서 수행되는 것으로 이해되어야 한다.

이하에서는, 도면을 참조하여 본 발명의 일실시예에 따른 HRD 예측 모델의 모델링 방법에 대하여 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 HRD 예측 모델의 모델링 방법의 순서도이다.

도 1을 참조하면, 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계(S10)와, 상기 HRD 데이터에서 표적 변수(target variable)를 추출하는 단계(S20)와, 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출하는 단계(S30)와, 표적 변수와 예측 변수를 이용한 회귀 분석 모델링을 수행하는 단계(S40)와, 모델링된 예측 모델의 성능 평가를 수행하는 단계(S50)를 포함하여 구성된다.

이하, 상기와 같이 구성된 본 발명 HRD 예측 모델의 모델링 방법의 구성과 작용에 대하여 보다 상세히 설명한다.

먼저, S10단계에서는 유전자 발현 데이터와 HRD 데이터를 수집한다.

S10단계에서 수집하는 데이터는 TCGA(The Cancer Genome Atlas) 범암(pan-cancer) 데이터인 것으로 한다.

TCGA는 엑솜 시퀀싱(exome sequencing), mRNA 유전자 발현, DNA 메틸화 및 임상 데이터가 포함된 25가지 다른 종양 유형의 10,000개 이상의 표본을 포함하는 대규모 암 게놈 컨소시엄이다.

TCGA에는 다양한 암유형에 대한 HRD 점수가 발표되어 있으며, HRD 테스트 데이터는 저널 웹사이트에서 다운로드할 수 있다.

HRD 점수는 LOH(Loss Of Heterozygosity)를 가지는 15Mb 이상의 논 아암 레벨 영역(non-arm-level regions), 대규모 상태 전환(10Mb 이상의 인접 세그먼트 사이의 중단), 대립형질 불균형이 있는 아종말체 영역(subtelomeric regions)의 3가지 요소를 포함한다.

대립유전자 특이적 카피 수, LOH, 종양 순도에 대한 게놈 전체 분할 데이터는 ABSOLUTE 21을 사용하여 추정될 수 있다.

유전자 발현 데이터는 RNAseq를 사용하여 생성된 전령 RNA(mRNA) 발현에 의해 추정할 수 있다. 또한 mRNA 발현은 정규화로 처리된다.

TCGA 유전자 발현 데이터는 NCI(National Cancer Institute)의 Genomic Data Commons(GDC) 웹사이트에서 다운로드할 수 있다.

그 다음, S20단계에서는 상기 HRD 데이터에서 표적 변수(target variable)를 추출한다.

표적 변수인 HRD 상태는 S10단계에서 얻어진 다양한 HRD 데이터에서 절대 편차 중앙값으로 필터링하여 얻을 수 있다.

HRD 상태는 HRD 점수가 42보다 크거나 같으면 양성, HRD 점수가 42보다 작으면 음성으로 정의한다.

그 다음, S30단계에서는 유전자 발현 데이터에서 예측 변수(predictor variable)를 추출한다.

예측 변수는 mRNA 유전자 발현과 암 유형에 관한 데이터인 것으로 한다.

mRNA 유전자 발현 예측 변수를 추출하는 과정은, 상대적으로 중요도가 낮은 mRNA 유전자 발현 예측 변수들을 제거하는 과정일 수 있다.

이와 같은 변수의 제거를 위하여 본 발명에서는 절대 편차 중앙값(median absolute deviation)을 이용하여 mRNA 유전자 발현 데이터를 필터링하여 예측 변수를 추출한다.

또한, 암 유형을 유방암, 난소암, 전립선 암을 포함하는 암 유형으로 특정하여 예측 변수를 확정한다.

본 발명의 모델링에 사용된 데이터는 총 24개의 암 유형에 대한 10,567건의 연구를 포함한다. 암 유형은 45(담관암)부터 1171(유방 침윤성 암종)까지를 사용하였다.

암 유형의 약어는 아래의 표 1에 기재하였다.

즉, HRD는 유방암, 난소암 및 전립선암을 포함하는 일부 암에서 종양 발생의 주요 기전이며, 이를 포함하는 암 유형들에 대한 예측 변수의 특정에 의해 다양한 암종에 대해 본 발명의 적용여부를 확인할 수 있다.

그 다음, S40단계와 같이 표적 변수와 예측 변수를 이용한 회귀 분석 모델링을 수행한다.

본 발명에서는 회귀 분석 모델로 벌점형 로지스틱 회귀(penalized logistic regression)를 사용한다.

벌점형 로지스틱 회귀 모델을 모델링하기 위하여 데이터의 전처리, 모델링, 시각화를 수행할 수 있는 패키지를 사용할 수 있다. 예를 들어 tidymodels를 사용할 수 있다.

회귀 분석 모델링을 위하여 얻어진 변수 데이터의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 훈련한다.

이때 훈련 세트와 테스트 세트의 분할은 HRD 상태와 암종으로 분할된다.

훈련 세트와 테스트 세트의 예는 위의 표 1에 기재하였다.

데이터의 전처리 과정으로서, 정규화의 양(λ)과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정한다. 하이퍼 파라미터의 결정을 위하여 부트스트랩(Bootstrap) 리샘플링을 사용할 수 있다.

이때, 표적 변수와 암 유형의 결합을 계층화하여 리샘플링을 수행할 수 있다. 리샘플링은 10회 수행될 수 있으나 본 발명은 이에 제한되지 않는다.

또한, 데이터 전처리를 위하여 KNN(K Nearest Neighbor) 대체법(Imputation)을 사용하며, 여-존슨 변환(Yeo-Johnson transformation)을 사용하여 왜도 수정(skewness correction)을 수행한다.

그리고 표준화를 위한 중심 및 척도가 포함되었으며, 합성 소수 오버 샘플링 기법(SMOTE, Synthetic Minority Over-sampling Technique)을 사용하여 클래스 불균형을 해소하였다.

AUPR(Area Under the Precision-Recall) 또는 AUC(Area Under the Curve) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행한다. AUPR 또는 AUC는 모델 성능을 불균형 데이터 세트와 비교할 때 AUROC(Area Under the Receiver Operation Characteristic) 또는 ROC(Receiver Operation Characteristic)에 비하여 더 적합하다.

하이퍼 파라미터 그리드는 λ={10^-5, 10^-4, 10^-3, 10^-2, 10^-1, 10⁰}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정된다.

최종적으로 λ=0.1, α=0 일때 도 2 및 표 1에 도시한 바와 같이 AUROC 측면에서 최고의 성능을 나타내는 것으로 확인되었다.

훈련 세트에 대한 HRD 상태 예측의 AUROC는 0.98이고, 테스트 세트에 대한 AUROC는 0.93으로 확인되었다. 훈련 세트에 대한 HRD 상태 예측의 정확도는 0.92이고 테스트 세트에 대한 정확도는 0.90이다.

모든 암 유형은 훈련 세트에서 AUROC 및 정확도 측면에서 좋은 예측 결과를 나타낸다. 훈련 세트 예측에서 AUROC는 모든 암 유형에 대해 0.91 이상이었고 정확도는 0.74 이상으로 확인되었다.

자궁암종, 폐편평세포암종, 식도암종을 제외한 대부분의 암 유형은 테스트 세트 예측에서 좋은 성능을 유지했습니다.

테스트 세트 예측에서 AUROC는 0.76 이상, 정확도는 도 3에 도시한 바와 같이 자궁암종, 폐편평세포암종 및 식도암종을 제외한 모든 암 유형에서 0.74 이상으로 확인되었다.

HRD 양성률이 낮은(0.10 미만) 암 유형은 테스트 세트에서 매우 높은 정확도(0.93 이상)를 나타내는 것을 확인할 수 있다.

그 다음, S50단계와 같이, 이와 같이 모델링된 예측 모델의 성능 평가를 위하여, 본 발명에서는 유전자 온톨로지 테스트(gene ontology test)를 수행한다.

이는 전체 훈련 세트로 최종 모델 피팅 후, 선택된 예측 유전자를 다음의 상세한 PANTHER 매개변수(분석 유형: PANTHER Overrepresentation Test(출시 20210224), 주석 버전 및 출시 날짜: PANTHER 버전 16.0 출시 2020-12-01)를 사용하여 유전자 온톨로지 테스트를 수행하여 평가한다.

이와 같은 방법으로 모델링된 HRD 예측 모델은 우리의 벌점형 로지스틱 회귀 모델은 0.93 테스트 세트 AUROC를 사용하여 다양한 암 유형의 유전자 발현 데이터로 HRD 상태를 예측할 수 있다.

이 결과는 유전자 발현 데이터를 사용한 벌점 로지스틱 회귀에 기반한 HRD 예측 모델이 PARP 억제제 치료를 위한 환자 선택에 적용될 수 있음을 나타낸다.

유전자 발현 데이터를 이용한 HRD 검사는 질병이 이전 치료에 내성을 보이기 때문에 연속적으로 수집된 종양 조직을 사용하여 암의 현재 HRD 상태를 평가하는 이점이 있다.

본 발명에 의한 예측 모델은 난소암 및 유방암을 포함한 높은 HRD 발현 악성 종양과 관련된 암 유형에서 우수한 성능을 나타낸다.

이상에서 본 발명에 따른 실시예들이 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 청구범위에 의해서 정해져야 할 것이다.

Claims

a) TCGA(The Cancer Genome Atlas) 범암(pan-cancer) 데이터인 HRD 데이터를 NCI(National Cancer Institute)의 Genomic Data Commons(GDC) 웹사이트에서 다운로드하고, TCGA에서 제공하는 유전자 발현 데이터를 다운로드하여 mRNA 유전자 발현 데이터 및 HRD 데이터를 수집하는 단계;
b) 상기 HRD 데이터에서 표적 변수(target variable)를 절대편차 중앙값으로 필터링하여 추출하고, mRNA 유전자 발현 데이터에서 절대편차 중앙값을 이용하여 상대적 중요도가 낮은 데이터를 제거하여 예측 변수(predictor variable)를 추출하는 단계; 및
c) 상기 표적 변수와 예측 변수를 이용한 벌점형 로지스틱 회귀모델을 모델링하는 단계를 포함하되,
상기 c) 단계는,
데이터의 전처리 과정으로서, 정규화의 양(λ과 LASSO(Least Absolute Shrinkage Selector Operator) 벌점(penalty)의 비율(α)인 두 개의 하이퍼 파라미터(hyperparameters)를 결정하고,
AUPR(Area Under the Precision-Recall) 측면에서 모델 선택을 위해 그리드 검색을 사용한 하이퍼 파라미터 최적화를 수행하는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 c) 단계는,
예측 변수의 3/4을 훈련 세트(training set)로 사용하고, 나머지를 테스트 세트(test set)로 사용하여, 모델링을 수행하는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.
삭제
제1항에 있어서,
λ={10^-5, 10^-4, 10^-3, 10^-2, 10^-1, 10⁰}, α={0.0, 0.25, 0.5, 0.75, 1.0}으로 설정되는 것을 특징으로 하는 HRD 예측 모델의 모델링 방법.