[go: up one dir, main page]

JP2020522690A - 肺疾病の特定又はモニタリング方法及びシステム - Google Patents

肺疾病の特定又はモニタリング方法及びシステム Download PDF

Info

Publication number
JP2020522690A
JP2020522690A JP2019565941A JP2019565941A JP2020522690A JP 2020522690 A JP2020522690 A JP 2020522690A JP 2019565941 A JP2019565941 A JP 2019565941A JP 2019565941 A JP2019565941 A JP 2019565941A JP 2020522690 A JP2020522690 A JP 2020522690A
Authority
JP
Japan
Prior art keywords
subject
sample
lung disease
biomarkers
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019565941A
Other languages
English (en)
Other versions
JPWO2018223066A5 (ja
JP2020522690A5 (ja
Inventor
シー. ケネディ,ジュリア
シー. ケネディ,ジュリア
エイチ. アンダーソン,ボニー
エイチ. アンダーソン,ボニー
Original Assignee
ベラサイト インコーポレイテッド
ベラサイト インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベラサイト インコーポレイテッド, ベラサイト インコーポレイテッド filed Critical ベラサイト インコーポレイテッド
Publication of JP2020522690A publication Critical patent/JP2020522690A/ja
Publication of JP2020522690A5 publication Critical patent/JP2020522690A5/ja
Publication of JPWO2018223066A5 publication Critical patent/JPWO2018223066A5/ja
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4842Monitoring progression or stage of a disease
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Urology & Nephrology (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】 肺疾病を同定又はモニタリングするための方法及びシステムに関する。【解決手段】 不要な侵襲的処置を最小化し、疾患及び再発の早期発見を促進し、疾患の予防又は回復のための介入療法の有効性をモニタリングするために、現行の臨床治療経路における様々な決定ポイントにおいてゲノム分類器を用いて、肺疾病に対する現行の臨床治療経路を改善するための、方法、システム、及びキットを提供する。【選択図】 図3

Description

(関連出願)
[1] 本願は、2017年6月2日付で出願された米国仮出願第62/514595号、及び、2017年8月17日付けで出願された米国仮出願第62/546936号の優先権を主張し、全体が参照により援用される。
[2] 現在、肺癌などの肺疾病を検出する方法が複数存在する。そのような肺疾病に対する現在の臨床治療経路(clinical pathway of care)は、不要な侵襲的処置の割合が高く、肺疾病の早期発見ができないか、肺疾病を発症する被検体のリスクをアッセイできない。
[3] 本開示は、被検体が肺疾病、例えば肺癌に罹患するか、又は罹患するリスクを有するかを判定する方法及びシステムを提供する。本開示の方法によると、被検体における肺疾病の進行や退行を、例えば、被検体から非侵襲的に採取された試料(例えば、鼻組織試料)を用いてスクリーニングやモニタリングすることができる。これは、肺疾病に対して無症状を示すが、肺疾病を発症するリスク(例えば、受動喫煙や大気汚染曝露)がある被検体に対するスクリーニングや、肺疾病に罹患しているか、又は罹患している疑いのある被検体に対してモニタリングにも活用し得る。
[4] 本開示の一態様は、肺疾病について被検体をスクリーニングする方法であって、(a)(1)肺疾病を発症する1つ以上のリスク因子の存在についてコンピュータ分析を行い、(2)1つ以上のリスク因子の存在が特定された被検体から採取された第1の試料からの上皮組織をアッセイし、第1の試料における肺疾病を発症するリスクに関連付けられた1つ以上のバイオマーカーの有無を特定すること、(b)1つ以上のバイオマーカーの有無を特定するにあたり、(i)被検体において肺疾病に罹患する疑いのある肺領域の電子画像スキャンを取得するように指示すること、又は、(ii)被検体の第2の試料から他の上皮組織をアッセイすることを含む、方法を提供する。一部の実施形態において、方法は、(b)の前に、被検体の上皮組織を含む第1の試料のアッセイの要請を受信することを更に含む。
[5] 一部の実施形態において、電子画像スキャンは、低線量断層撮影(LDCT)スキャン又は磁気共鳴画像法(MRI)である。一部の実施形態において、LDCTスキャンは被検体に対する照射線量が約5ミリシーベルト(mSv)未満である。
[6] 一部の実施形態において、肺疾病は、肺癌、慢性閉塞性肺疾患(COPD)、間質性肺疾病(ILD)、又はこれらの任意の組み合わせである。一部の実施形態において、肺疾病は肺癌であり、肺癌は、小細胞肺癌、腺癌、扁平上皮癌、大細胞癌、小細胞肺癌、又はこれらの任意の組み合わせを含む。
[7] 一部の実施形態において、第1の試料又は第2の試料は気管支鏡検査により採取される。一部の実施形態において、第1の試料又は第2の試料は穿刺吸引法により採取される。一部の実施形態において、第1の試料又は第2の試料は、粘膜上皮組織、鼻上皮組織、肺上皮組織、又はこれらの任意の組み合わせを含む。一部の実施形態において、第1の試料又は第2の試料は、被検体の気道から採取された上皮組織を含む。
[8] 一部の実施形態において、第1の試料又は第2の試料の一部分に対して、第1の試料又は第2の試料を不明確なもの又は疑わしいものとして特定する細胞検査を行う。一部の実施形態において、第1の試料又は第2の試料を不明確なもの又は疑わしいものとして特定するにあたり、試料の第2の部分について(b)を行い、第2の部分は上皮組織を含む。
[9] 一部の実施形態において、第2の試料は、第1の試料とは異なる。一部の実施形態において、第2の試料は、第1の試料とは異なる種類の試料である。一部の実施形態において、第1の試料は第1の時点にて被検体から採取されたものであり、第2の試料は第1の時点より後である第2の時点にて被検体から採取されたものである。一部の実施形態において、第2の時点は第1の時点から約1〜2年以内である。
[10] 一部の実施形態において、(a)は、1つ以上のバイオマーカーの有無を特定するにあたり、1つ以上のバイオマーカーの参照セットと比較することを含む。一部の実施形態において、被検体は、肺疾病の治療を必要とする。一部の実施形態において、被検体は、肺疾病を発症するリスクが増加している疑いがある。一部の実施形態において、被検体は、肺疾病に対して無症状である。一部の実施形態において、被検体は、以前に電子画像スキャンを受けたことがない。一部の実施形態において、被検体は、以前に確定診断を受けたことがない。
[11] 一部の実施形態において、1つ以上のリスク因子は、喫煙、受動喫煙、ラドン曝露、大気汚染曝露、放射線被曝、工業物質曝露、遺伝又は環境による遺伝子突然変異、被検体の年齢、被検体の二次疾患、又はこれらの任意の組み合わせを含む。一部の実施形態において、被検体は、2つ以上のリスク因子を有する。
[12] 一部の実施形態において、1つ以上のバイオマーカーは、少なくとも5つである。一部の実施形態において、1つ以上のバイオマーカーは、遺伝子又は遺伝子フラグメント、配列変異体、融合体、ミトコンドリア転写物、エピジェネティック修飾、コピー数多型、ヘテロ接合性の消失(LOH)、又はこれらの任意の組み合わせのうち1つ以上を含む。一部の実施形態において、1つ以上のバイオマーカーの有無は、発現レベルにより表される。
[13] 一部の実施形態において、方法は、被検体において肺疾病を発症するリスクが増加しているか否かを特定する。一部の実施形態において、(b)における特定は、訓練アルゴリズムの採用を含む。一部の実施形態において、訓練アルゴリズムは、個人の気道から採取された上皮細胞を含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、肺疾病に対して良性の試料と、肺疾病に対して悪性の試料とを含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、1つ以上のリスク因子を有する複数の被検体から採取された試料を含む訓練セットにより訓練されている。
[14] 一部の実施形態において、方法は、(a)の前に、被検体に対してコンピュータ分析を行い、被検体から肺疾病を発症する1つ以上のリスク因子の存在を特定することを更に含む。
[15] 本開示の別の態様は、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法であって、(a)肺疾病に罹患する疑いがあり1つ以上の肺結節について陽性の徴候を示す被検体から採取された上皮組織を含む第1の試料をアッセイして肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定すること、(b)1つ以上のバイオマーカーの有無を特定するにあたり、(i)被検体から第2の試料を採取し、又は、(ii)(a)の結果に基づき被検体の肺領域の電子画像スキャンを取得するように被検体に指示することを含む、方法を提供する。
[16] 一部の実施形態において、陽性の徴候は、以前に電子画像スキャンによって特定されたものである。一部の実施形態において、電子画像スキャンは、低線量断層撮影(LDCT)スキャン又は磁気共鳴画像法(MRI)である。一部の実施形態において、LDCTスキャンは、被検体に対する照射線量が約5mSv未満である。
[17] 一部の実施形態において、1つ以上の肺結節は、少なくとも2つの結節である。一部の実施形態において、被検体における第2の試料の採取は、被検体に対して気管支鏡検査、胸腔穿刺法(TTNA)、又は胸腔鏡補助下手術(VATS)を行うことを含む。一部の実施形態において、被検体における第2の試料の採取は、組織生検を含む。
[18] 一部の実施形態において、1つ以上のバイオマーカーの有無により、被検体が肺疾病に罹患するリスクが高いか低いかを特定する。一部の実施形態において、(b)は、評価されたリスクに応じて(i)又は(ii)を推奨することを更に含む。
[19] 一部の実施形態において、肺疾病は、肺癌、慢性閉塞性肺疾病(COPD)、間質性肺疾患(ILD)、又はこれらの任意の組み合わせである。一部の実施形態において、肺疾病は肺癌であり、肺癌は、小細胞肺癌、腺癌、扁平上皮癌、大細胞癌、小細胞肺癌、又はこれらの任意の組み合わせを含む。
[20] 一部の実施形態において、第1の試料又は第2の試料は気管支鏡検査により採取される。一部の実施形態において、第1の試料又は第2の試料は穿刺吸引法により採取される。一部の実施形態において、第1の試料又は第2の試料は、粘膜上皮組織、鼻上皮組織、肺上皮組織、又はこれらの任意の組み合わせを含む。一部の実施形態において、第1の試料又は第2の試料は、被検体の気道から採取された上皮組織を含む。
[21] 一部の実施形態において、第2の試料は、第1の試料とは異なる。一部の実施形態において、第2の試料は、第1の試料とは異なる種類の試料である。一部の実施形態において、第2の試料は第1の試料の採取から時間を置いて被検体から採取されている。一部の実施形態において、時間は、約1〜2年である。
[22] 一部の実施形態において、(b)は、1つ以上のバイオマーカーの有無を、1つ以上のバイオマーカーの参照セットと比較することを含む。一部の実施形態において、被検体は、肺疾病の治療を必要とする。一部の実施形態において、被検体は、肺疾病を発症するリスクが増加している疑いがある。一部の実施形態において、被検体は、肺疾病に対して無症状である。一部の実施形態において、被検体は、以前に確定診断を受けたことがない。
[23] 一部の実施形態において、1つ以上のバイオマーカーは、少なくとも5つである。一部の実施形態において、1つ以上のバイオマーカーは、遺伝子又は遺伝子フラグメント、配列変異体、融合体、ミトコンドリア転写物、エピジェネティック修飾、コピー数多型、ヘテロ接合性の消失(LOH)、又はこれらの任意の組み合わせのうち1つ以上を含む。一部の実施形態において、1つ以上のバイオマーカーの有無は、発現レベルにより表される。
[24] 一部の実施形態において、方法は、被検体において肺疾病を発症するリスクが増加しているか否かを特定する。一部の実施形態において、(a)における特定は、訓練アルゴリズムの採用を含む。一部の実施形態において、訓練アルゴリズムは、個人の気道から採取された上皮細胞を含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、肺疾病に対して良性の試料と、肺疾病に対して悪性の試料とを含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、1つ以上のリスク因子を有する複数の被検体から採取された試料を含む訓練セットにより訓練されている。一部の実施形態において、方法は、被検体の血液分析、被検体に対する電子画像スキャン、又はこれらの任意の組み合わせを更に含む。
[25] 一部の実施形態において、第2の試料は上皮の試料であり、(b)に続いて、上皮組織の試料をアッセイし、1つ以上の追加バイオマーカーの有無を確認する。一部の実施形態において、1つ以上の追加バイオマーカーは、1つ以上のバイオマーカーである。
[26] 本開示の別の態様は、以前に肺疾病の予防又は治療のために介入療法を受けることを推奨されている、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法を提供する。方法は、(a)被検体が肺疾病に対して介入療法の少なくとも一部を受けた後、被検体から採取された上皮組織を含む第1の試料をアッセイして遺伝データを生成すること、(b)遺伝データを処理して肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定すること、(c)被検体から第2の試料を採取することを推奨することを含むレポートをコンピュータで生成すること、を含む方法を提供する。
[27] 本開示の別の態様は、方法を提供する。方法は、(a)以前に肺疾病の予防又は治療のために介入療法を受けることを推奨されている被検体から採取された上皮組織を含む第1の試料をアッセイして1つ以上のバイオマーカーの有無を特定すること、(b)肺疾病に対する介入療法の少なくとも一部を受けるにあたり、被検体が肺疾病に対して介入療法の少なくとも一部を受けた後、被検体から採取された上皮組織を含む第1の試料をアッセイして遺伝データを生成し、被検体から第2の試料を採取して第2の試料に対して(a)を繰り返すこと、を含む。
[28] 一部の実施形態において、方法は、介入療法に対する被検体のコンプライアンスを特定する。一部の実施形態において、方法は、肺疾病の予防又は治療に対する介入療法の有効性を特定する。一部の実施形態において、介入療法は、被検体に対する医薬組成物の投与を含む。一部の実施形態において、医薬組成物は化学療法薬を含む。一部の実施形態において、介入療法は、運動療法、食事療法、減煙又は禁煙、又はこれらの任意の組み合わせを含む。
[29] 一部の実施形態において、肺疾病は、肺癌、慢性閉塞性肺疾病(COPD)、間質性肺疾患(ILD)、又はこれらの任意の組み合わせである。一部の実施形態において、肺疾病は肺癌であり、肺癌は、小細胞肺癌、腺癌、扁平上皮癌、大細胞癌、小細胞肺癌、又はこれらの任意の組み合わせを含む。
[30] 一部の実施形態において、第1の試料又は第2の試料は気管支鏡検査により採取される。一部の実施形態において、第1の試料又は第2の試料は穿刺吸引法により採取される。一部の実施形態において、第1の試料又は第2の試料は、粘膜上皮組織、鼻上皮組織、肺上皮組織、又はこれらの任意の組み合わせを含む。一部の実施形態において、第1の試料又は第2の試料は、被検体の気道から採取された上皮組織を含む。
[31] 一部の実施形態において、第2の試料は、第1の試料とは異なる。一部の実施形態において、第2の試料は、第1の試料とは異なる種類の試料である。一部の実施形態において、第2の試料は第1の試料の採取から時間を置いて被検体から採取されている。一部の実施形態において、時間は、約1〜2年である。
[32] 一部の実施形態において、(a)は、1つ以上のバイオマーカーの有無を、1つ以上のバイオマーカーの参照セットと比較することを含む。一部の実施形態において、被検体は、肺疾病の治療を必要とする。一部の実施形態において、被検体は、肺疾病を発症するリスクが増加している疑いがある。一部の実施形態において、被検体は、肺疾病に対して無症状である。一部の実施形態において、被検体は、以前に確定診断を受けたことがない。
[33] 一部の実施形態において、1つ以上のバイオマーカーは、少なくとも5つである。一部の実施形態において、1つ以上のバイオマーカーは、遺伝子又は遺伝子フラグメント、配列変異体、融合体、ミトコンドリア転写物、エピジェネティック修飾、コピー数多型、ヘテロ接合性の消失(LOH)、又はこれらの任意の組み合わせのうち1つ以上を含む。一部の実施形態において、1つ以上のバイオマーカーの有無は、発現レベルにより表される。
[34] 一部の実施形態において、(a)における特定は、訓練アルゴリズムの採用を含む。一部の実施形態において、訓練アルゴリズムは、個人の気道から採取された上皮細胞を含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、肺疾病に対して良性の試料と、肺疾病に対して悪性の試料とを含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、1つ以上のリスク因子を有する複数の被検体から採取された試料を含む訓練セットにより訓練されている。一部の実施形態において、方法は、被検体の血液分析、被検体に対する電子画像スキャン、又はこれらの任意の組み合わせを更に含む。
[35] 一部の実施形態において、(b)は、遺伝データを処理して1つ以上のバイオマーカーのそれぞれに対応する発現レベルを特定することを含む。一部の実施形態において、(b)は、遺伝データを処理し、1つ以上のバイオマーカーにおいて少なくとも1つの遺伝子異常を特定することを含む。
[36] 本開示の別の態様は、肺疾病について被検体をモニタリングする方法であって、(a)肺疾病に対する治療を開始している被検体から採取された上皮組織を含む第1の試料をアッセイして1つ以上のバイオマーカーの有無を特定すること、(b)寛解を確定されるにあたり、被検体から第2の試料を採取し、第2の試料で(a)を繰り返すこと、を含む方法を提供する。
[37] 一部の実施形態において、方法は、非侵襲的モニタリングにより肺疾病の再発を早期段階で特定する。一部の実施形態において、肺疾病は、肺癌、慢性閉塞性肺疾病(COPD)、間質性肺疾患(ILD)、又はこれらの任意の組み合わせである。一部の実施形態において、肺疾病は肺癌であり、肺癌は、小細胞肺癌、腺癌、扁平上皮癌、大細胞癌、小細胞肺癌、又はこれらの任意の組み合わせを含む。
[38] 一部の実施形態において、第1の試料又は第2の試料は気管支鏡検査により採取される。一部の実施形態において、第1の試料又は第2の試料は穿刺吸引法により採取される。一部の実施形態において、第1の試料又は第2の試料は、粘膜上皮組織、鼻上皮組織、肺上皮組織、又はこれらの任意の組み合わせを含む。一部の実施形態において、第1の試料又は第2の試料は、被検体の気道から採取された上皮組織を含む。
[39] 一部の実施形態において、第2の試料は、第1の試料とは異なる。一部の実施形態において、第2の試料は、第1の試料とは異なる種類の試料である。一部の実施形態において、第2の試料は第1の試料の採取から時間を置いて被検体から採取されている。一部の実施形態において、時間は、約1〜2年である。
[40] 一部の実施形態において、(a)は、1つ以上のバイオマーカーの有無を、1つ以上のバイオマーカーの参照セットと比較することを含む。一部の実施形態において、被検体は、肺疾病の治療を必要とする。一部の実施形態において、被検体は、肺疾病を発症するリスクが増加している疑いがある。一部の実施形態において、被検体は、肺疾病に対して無症状である。
[41] 一部の実施形態において、1つ以上のバイオマーカーは、少なくとも5つである。一部の実施形態において、1つ以上のバイオマーカーは、遺伝子又は遺伝子フラグメント、配列変異体、融合体、ミトコンドリア転写物、エピジェネティック修飾、コピー数多型、ヘテロ接合性の消失(LOH)、又はこれらの任意の組み合わせのうち1つ以上を含む。一部の実施形態において、1つ以上のバイオマーカーの有無は、発現レベルにより表される。
[42] 一部の実施形態において、(a)における特定は、訓練アルゴリズムの採用を含む。一部の実施形態において、訓練アルゴリズムは、個人の気道から採取された上皮細胞を含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、肺疾病に対して良性の試料と、肺疾病に対して悪性の試料とを含む訓練セットにより訓練されている。一部の実施形態において、訓練アルゴリズムは、1つ以上のリスク因子を有する複数の被検体から採取された試料を含む訓練セットにより訓練されている。一部の実施形態において、方法は、被検体の血液分析、被検体に対する電子画像スキャン、又はこれらの任意の組み合わせを更に含む。本開示の別の態様は、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法であって、(a)肺疾病に罹患する疑いがあり、1つ以上の肺結節について陰性の徴候を示す被検体から採取された上皮組織を含む第1の試料をアッセイして、肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定すること、(b)1つ以上のバイオマーカーの有無を特定するにあたり、(i)被検体から第2の試料を採取し、又は、(ii)(a)の結果に基づき被検体の肺領域の電子画像スキャンを取得するように被検体に指示すること、を含む方法を提供する。一部の実施形態において、方法は、(a)の前に、被検体に対してコンピュータ分析を行い、被検体から肺疾病を発症する1つ以上のリスク因子の存在を特定することを更に含む。
[43] 本開示の別の態様は、肺疾病について被検体をスクリーニングするシステムを提供する。システムは、(i)被検体に対して肺疾病を発症する1つ以上のリスク因子の存在についてヘルスデータ又は生理データを分析し、(2)1つ以上のリスク因子を特定するにあたり、被検体の試料からの上皮組織に対して肺疾病を発症するリスクと関連付けられた1つ以上のバイオマーカーに関するアッセイの推奨を生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサとを含む。
[44] 本開示の別の態様は、肺疾病について被検体をスクリーニングするシステムを提供する。システムは、(i)被検体において肺疾病を発症する1つ以上のリスク因子の存在を示すデータを含む第1のデータセットと、(ii)被検体の試料における上皮組織に対して1つ以上のリスク因子の有無を示すデータを含む第2のデータセットとを含み、1つ以上のバイオマーカーは肺疾病を発症するリスクと関連付けられる、1つ以上のコンピュータデータベースと、(i)第1のデータセットを分析して1つ以上のリスク因子の存在を特定し、(ii)第2のデータセットを分析して1つ以上のバイオマーカーの存在を特定し、(iii)1つ以上のバイオマーカーの有無を特定するにあたり、(1)被検体において肺疾病に罹患する疑いのある肺領域の電子画像スキャンを取得するように指示する、又は(2)被検体の第2の試料から得た他の上皮組織をアッセイするように指示するレポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサとを含む。
[45] 本開示の別の態様は、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングするシステムを提供する。システムは、被検体の第1の試料における上皮組織において1つ以上のバイオマーカーの有無を示すデータを含み、1つ以上のバイオマーカーは肺疾病と関連付けられる、1つ以上のコンピュータデータベースと、(i)被検体が以前に1つ以上の肺結節の存在について陽性の徴候を示していたと判定し、(ii)(i)に続いて、データセットを処理して1つ以上のバイオマーカーの有無を特定し、(iii)1つ以上のバイオマーカーの有無を特定するにあたり、(1)被検体から第2の試料を採取するように指示する、又は(2)被検体の肺領域の電子画像スキャンを更に取得するように指示するレポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサとを含む。
[46] 本開示の別の態様は、以前に肺疾病の予防又は治療のために介入療法を受けることを推奨されている、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングするシステムを提供する。システムは、遺伝データを含むデータセットを含む1つ以上のコンピュータデータベースと、(i)被検体が肺疾病に対して介入療法の少なくとも一部を受けた後、遺伝データを処理して肺疾病と関連付けられる1つ以上のバイオマーカーの有無を特定し、(iii)被検体から第2の試料を採取することを推奨することを含むレポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサとを含む。
[47] 本開示の別の態様は、1つ以上のコンピュータプロセッサにより実行されたとき、本明細書に記載の方法のいずれかを実現する機械実行可能型コードを含む持続性コンピュータ可読媒体を提供する。
[48] 本開示の別の態様は、1つ以上のコンピュータプロセッサとそれに結合されたメモリとを含むコンピュータシステムを提供する。メモリは、1つ以上のコンピュータプロセッサにより実行されたとき、本明細書に記載の方法のいずれかを実現する機械実行可能型コードを含む持続性コンピュータ可読媒体を含む。
[49] 当業者であれば、本開示におけるその他の態様や利点について、以下の詳細な説明から容易に理解するはずである。ただし、以下に記載された本開示の実施形態は説明のために提示したものであり、他の実施形態を以って本開示を実現することもできる。本開示の趣旨から逸脱しない限り、修正や変更は全て許容範囲である。従って、図面及び説明は、本質的に例示に過ぎず、本開示を限定するものでない。
(参照による援用)
[50] 本明細書に言及される刊行物、特許、出願は全て、それぞれ全文が本明細書に援用されていると見なされる。援用されている刊行物、特許、出願の内容が本明細書の開示内容と矛盾する場合は、本明細書の内容を最優先とする。
[51] 本発明の新たな特徴は、下記の請求の範囲に詳細に記載されている。本発明の特徴及び利点をより理解できるように、本発明の原理を適用した実施形態を例示する詳細な説明、及び添付の図面を参照して説明する。本明細書の図面は、次の通りである。
[52] 肺癌診断における臨床的課題を示す。 [53] ゲノム分類分析を含む方法を肺癌の臨床治療経路に組み込んだ場合の利点を示す。 [54] ゲノム分類分析を含むことで改善された臨床決定経路を示す。 [55] ゲノム分類分析を含む方法を臨床治療経路に組み込むことによる、処置推奨の47%低減を示す。 [56] 特発性肺線維症(IPF)の臨床治療経路にゲノム分類分析を含む方法を組み込むことから得られる利益を示す。 [57] 通常の間質性肺炎(UIP)を他の間質性肺疾患(ILD)と区別するために臨床治療経路にゲノム分類分析を組み込むことにより治療決定に生じた肯定的変化を示す。 [58] 共通の経路を共有する損傷範囲の病因を示す。 [59] 被検体における発癌範囲と損傷範囲の差の例を示す。 [60] 発癌範囲と損傷範囲の分子的概念を示す。 [61] ゲノム分類分析(気管支ゲノム分類器)を含むことで改善された、肺癌の臨床標準治療経路を示す。 [62] 複数のゲノム分類器分析(気管支ゲノム分類器:Nasa-Detect、Nasa-RiskStratifier、Nasa-ProtectMonitoring、Nasa-Recurrence)を含めることにより、肺癌の改善された臨床治療経路を示す。 [63] Nasa-Detect分類器のテスト特徴を示す。 [64] Nasa-Risk階層化分類器のテスト特徴を示す。 [65] Nasa-PROTECT分類器のテスト特徴を示す。 [66] Nasa-Recurrence分類器のテスト特徴を示す。 [67] 実演と予防におけるゲノミクスの評価を示す。 [68] 本明細書に記載の方法で使用される試料特性と試料種の例を示す。 [69] 鼻/気管支の擦過試料を含む、様々な被検体コホートを示す。 [70] ゲノム分類器(Nasa-Detect分類器)の訓練に用いられる訓練用試料を示す。 [71] ゲノム分類器(Nasa-Risk階層化分類器)の訓練に用いられる訓練用試料を示す。 [72] バイオマーカーの種類、及び、様々な種類のバイオマーカーの検出に使用されるテクノロジープラットフォームを示す。 [73] ゲノム分類器におけるRNAシーケンシングの例を示す。 [74] RNAシーケンシングの例を示す。 [75] 訓練アルゴリズムを含むゲノム分類器の訓練と検証のフロー図を示す。 [76] ゲノム分類器の訓練に使用される訓練セットで用いられる多様な細胞サブタイプ・組織学的サブタイプの例を示す。 [77] 本明細書で提供される方法を実装するようにプログラム又は構成されたコンピュータ制御システムを示す。 [78] 機械学習アプリケーションの課題と解決策を示す。 [79] ILD患者における一般の間質性肺炎(UIP)パターンを予測する分子ゲノム分類器の開発・評価における分析パイプラインを示す。 [80] DESeq2とvolcanoプロットを用いた分類器を使用した遺伝子選択による、DESeq2により選択された151個の遺伝子(調整済みp値<0.05、倍率変化>2)と、分類器の190の予測遺伝子、そして両セットにおける32個の共通遺伝子を示す。 [81] DESeq2選択遺伝子のみを用いた全ての経気管支生検(TBB)試料の主成分分析(PCA)プロットを適用した、DESeq2と分類器による遺伝子選択(UIP以外の試料(十字)とUIP試料(丸)を区別できていない)を示す。 [82] 分類器による遺伝子を使用した全てのTBB試料のPCAプロットを適用した、DESeq2と分類器による遺伝子選択(UIP以外の試料(十字)とUIP試料(丸)に分類する)を示す。 [83] 患者内でのin silico及びin vitro混合の比較を示す。R平方値が0.99のEnsemble分類器による、in silicoとin vitroの混合比較の散布図である。 [84] 患者内でのin silico及びin vitro混合の比較を示す。R平方値が0.98の罰則付きロジスティック回帰分類器により得られたin silicoとin vitroの混合比較の散布図である。 [85] Ensembleモデルの分類スコアを示す。諧調の異なる灰色は、組織病理UIP、非UIP、非診断の試料を区別する。丸、上向きの三角形、正方形、下向きの三角形はそれぞれ、in silico混合試料、上葉、中葉、下葉の試料を示す。 [86] 1人患者抜き交差検証を行った場合の罰則付きロジスティック回帰モデルの分類スコアを示す。諧調の異なる灰色は、組織病理UIP、非UIP、非診断の試料を区別する。丸、上向きの三角形、正方形、下向きの三角形はそれぞれ、in silico混合試料、上葉、中葉、下葉の試料を示す。 [87] 1人患者抜き交差検証(LOPO CV)及び独立テストセットの検証(テスト)からの受信者動作特性(ROC)曲線を示す。各ROC曲線上の小惑星は、各提案モデルの前向きに定義された決定境界に対応している。 [88] 1人患者抜き交差検証と、独立テストセットでの検証による分類性能を示す。 [89] 複数の試料を含む代表患者6人のデータにおける患者内・患者間の異質性を示す相関行列のヒートマップを示す。 [90] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)と呼吸細気管支炎(RB)を比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [91] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)と細気管支炎を比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [92] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)と過敏性肺炎(HP)を比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [93] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)と非特異性間質性肺炎(NSIP)を比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [94] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)と組織化肺炎(OP)を比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [95] 非UIP亜型とUIP試料を比較して選択した遺伝子を使用したPCAプロットを示す。UIP試料(丸)とサルコイドーシスを比較して有意な差次的発現遺伝子を使用した、全ての訓練用試料のPCAにおける最初の2つの主成分である。 [96] 遺伝子発現の変動を示す。濃い灰色の点は、訓練分類から削除された遺伝子である。 [97] Ensembleモデル(図46A)及び罰則付きロジスティック回帰モデル(図46B)の訓練セットを使用したin silico混合サンプルの閾値対感度/特異度を示す。 [98] Ensembleモデルのスコア変動シミュレーションを示す。スコアの変動性の最終閾値である0.90は、図47Aの特異度(縦の点線)で表している。感度(1.80)及び反転率(1.15)のスコア変動の個々の閾値は、図47B及び図47Cの縦の点線で示される。 [99] 罰則付きロジスティック回帰モデルのスコア変動シミュレーションを示す。スコアの変動性の最終閾値である0.48は、図48Aの特異度(垂直線)で表している。感度(0.78)及び反転率(0.68)のスコア変動性の個々の閾値は、図48B及び48Cの灰色の縦線で示される。
[100] 本発明の様々な実施形態が本明細書に示され説明されたが、そのような実施形態が例示に過ぎないことは当業者には明らかであろう。本発明から逸脱することなく、多数の変形、変更、及び置換が当業者には思いつくであろう。本明細書に記載された本発明の実施形態の様々な代替物を使用できることを理解されたい。
[101] 本明細書における「癌」とは、一般に、異常な細胞増殖の状態を指す。癌には、固形腫瘍又は循環癌細胞が含まれてもよい。癌は転移してもよい。癌は組織特異的な癌であってもよい。癌は肺癌であってもよい。癌は悪性又は良性であってもよい。
[102] 本明細書における「肺癌」とは、一般に、肺又は肺関連組織における癌又は腫瘍を指す。例えば、肺癌は、非小細胞肺癌、小細胞肺癌、肺カルチノイド腫瘍、又はこれらの任意の組み合わせを含んでもよい。非小細胞肺癌は、腺癌、扁平上皮癌、大細胞癌、又はこれらの任意の組み合わせを含んでもよい。肺カルチノイド腫瘍は気管支カルチノイドを含んでもよい。肺癌は、気管支、上皮細胞、平滑筋細胞、肺胞、又はこれらの任意の組み合わせなどの肺組織の癌を含んでもよい。肺癌は、気管、気管支、終末細気管支、又はこれらの任意の組み合わせの癌を含んでもよい。肺癌は、基底細胞、杯細胞、繊毛細胞、神経内分泌細胞、線維芽細胞、マクロファージ細胞、クララ細胞、又はこれらの任意の組み合わせを含んでもよい。
[103] 本明細書における「疾患(disease)又は疾病(condition)」とは、一般に、異常状態又は病的状態を指す。疾患又は疾病は、肺疾患又は肺疾病であってもよい。肺疾患又は肺疾病は、肺癌、間質性肺疾患(ILD)、慢性閉塞性肺疾患(COPD)、慢性気管支炎、嚢胞性線維症、喘息、肺気腫、肺炎、結核、肺水腫、急性呼吸窮迫症候群、又は塵肺症を含んでもよい。ILDの種類には、特発性肺線維症、非特異的間質性肺炎、落屑性間質性肺炎、呼吸細気管支炎、急性間質性肺炎、リンパ性間質性肺炎、又は原因不明の組織化肺炎が含まれる。
[104] 本明細書における「間質性肺疾患(ILD)」とは、一般に、間質性肺組織の疾患を指す。ILDは、間質性肺炎、特発性肺線維症、非特異的間質性肺炎、過敏性肺炎、極低温組織化肺炎(COP)、急性間質性肺炎、落屑性間質性肺炎、サルコイドーシス、石綿肺、又はこれらの任意の組み合わせを含んでもよい。
[105] 低線量断層撮影(CT)スキャン(LDCT)は、一般に、被検体への照射線量を減らす画像診断法を指す。例えば、LDCTの照射線量は、約1.5ミリシーベルト(mSv)未満であってもよい。LDCTの照射線量は、約5mSv未満、約4mSv未満、約3mSv未満、約2mSv未満、約1mSv未満、約0.5mSv未満、約0.1mSv未満、又はそれ以下であってもよい。LDCTの照射線量は、約1.0mSv〜約2.0mSvであってもよい。LDCTの照射線量は、約0.5mSv〜約1.5mSvであってもよい。LDCTの照射線量は、約1.0mSv〜約4.0mSvであってもよい。LDCTの照射線量は、約1.0mSv〜約3.0mSvであってもよい。LDCTの管電流設定は、約40mAs未満、約35mAs未満、約30mAs未満、約25mAs未満、約20mAs未満、約15mAs未満、約10mAs未満、約5mAs未満、約1mAs未満、又はそれ以下であってもよく、その場合でも十分な画像品質を得ることができる。LDCTの管電流設定は、約20mAs〜約40mAsであってもよい。LDCTの管電流設定は、約20mAs〜約50mAsであってもよい。LDCTの管電流設定は、約20mAs〜約80mAsであってもよい。LDCTの管電流設定は、約20mAs〜約100mAsであってもよい。
[106] 中線量CTスキャンの照射線量は、約1mSv以上、約5mSv以上、約6mSv以上、約7mSv以上、約8mSv以上、約9mSv以上、約10mSv以上、約15mSv以上、又はそれ以上であってもよい。中線量CTスキャンの照射線量は、約8mSvであってもよい。中線量CTスキャンの照射線量は、約7mSv〜約10mSvであってもよい。中線量CTスキャンの照射線量は、約1mSv〜約10mSvであってもよい。中線量CTスキャンの照射線量は、約5mSv〜約10mSvであってもよい。中線量CTスキャンの照射線量は、約1mSv〜約5mSvであってもよい。中線量CTの管電流設定は、約100mA以上、約125mAs以上、約150mAs以上、約175mAs以上、約200mAs以上、約225mAs以上、約250mAs以上、約300mAs以上、約350mAs以上、約400mAs以上、約500mAs、又はそれ以上であってもよい。中線量CTの管電流設定は、約200mAs〜約250mAsであってもよい。中線量CTスキャンの管電流設定は、約150mAs〜約250mAsであってもよい。中線量CTスキャンの管電流設定は、約100mAs〜約300mAsであってもよい。中線量CTスキャンの管電流設定は、約100mAs〜約200mAsであってもよい。中線量CTスキャンの管電流設定は、約150mAs〜約300mAsであってもよい。中線量CTスキャンの管電流設定は、約150mAs〜約400mAsであってもよい。
[107] 本明細書における「相同性」とは、一般に、最適な比較を目的として、配列をアラインすることで判定できる、2つ以上のヌクレオチド配列又はアミノ酸配列の間の「相同性」又は「相同率」を算出することを指す(例えば、第1の配列において配列間ギャップを導入することができる)。次に、対応する位置のヌクレオチドを比較し、2つの配列間の同一性%は、配列が共有する同一位置の数に対して求める(つまり、相同率=同一位置の数/位置の総数×100)。例えば、第1の配列の位置と、第2の配列の対応位置が同じヌクレオチドを有していると、この位置における分子も同一になる。両配列を最適にアラインさせるために導入したギャップの数や各ギャップの長さを考慮して、両配列が共有する同一位置の数を以って両配列間の相同率を求める。一部の実施形態において、比較のためにアラインされる配列の長さは、参照配列の長さの少なくとも約30%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、又は少なくとも約95%となる。一部において、配列相同性は約70%〜100%であってもよい。一部において、配列相同性は約80%〜100%であってもよい。一部において、配列相同性は約90%〜100%であってもよい。一部において、配列相同性は約95%〜100%であってもよい。一部において、配列相同性は約70%〜99%であってもよい。一部において、配列相同性は約80%〜99%であってもよい。一部において、配列相同性は約90%〜99%であってもよい。一部において、配列相同性は約95%〜99%であってもよい。BLAST(登録商標)サーチを用いて両配列間の相同性を判定してもよい。両配列は、遺伝子、ヌクレオチド配列、タンパク質配列、ペプチド配列、アミノ酸配列、又はそれらのフラグメントである。実際に両配列を比較する場合は、例えば、数学アルゴリズムを使用するなど、既知の方法を用いることができる。数学アルゴリズムの例としてKarlin, S. and Altschul, S., Proc. Natl. Acad. Sci. USA, 90- 5873-5877 (1993)が挙げられるが、これに限定されない。アルゴリズムは、Altschul, S. et al., Nucleic Acids Res., 25:3389-3402 (1997)に記載のNBLASTやXBLASTプログラム(バージョン2.0)に組み込まれている。BLASTやGappedBLASTプログラムを用いるときは、各プログラムの関連パラメータ(例えば、NBLAST)を使用することができる。例えば、配列比較のパラメータは、スコア=100、ワード長=12に設定してもよく、変更してもよい(W=5又はW=20など)。他の例は、Myers and Miller, CABIOS (1989), ADVANCE, ADAM, BLAT, and FASTAのアルゴリズムを含む。他の実施例体において、両アミノ配列間の同一性%は、GCGソフトウェアパッケージのGAPプログラム(イギリス国ケンブリッジ、アクセルリス)を用いて得ることができる。
[108] 本明細書における「フラグメント」とは、一般に、配列の一部であって、完全長配列よりも短いサブセットを指す。フラグメントは遺伝子の一部であってもよい。フラグメントはペプチドやタンパク質の一部であってもよい。フラグメントはアミノ酸配列の一部であってもよい。フラグメントはオリゴヌクレオチド配列の一部であってもよい。フラグメントの長さは、約20個未満、約30個未満、約40個未満、又は約50個未満のアミノ酸であってもよい。フラグメントの長さは、約20個未満、約30個未満、約40個未満、又は約50個未満のヌクレオチドあってもよい。フラグメントの長さは、約10個〜約50個未満のアミノ酸であってもよい。フラグメントの長さは、約10個〜約40個のアミノ酸であってもよい。フラグメントの長さは、約10個〜約30個のアミノ酸であってもよい。フラグメントの長さは、約10個〜約20個のアミノ酸であってもよい。フラグメントの長さは、約20個〜約50個のアミノ酸であってもよい。フラグメントの長さは、約30個〜約50個のアミノ酸であってもよい。フラグメントの長さは、約40個〜約50個のアミノ酸であってもよい。フラグメントの長さは、約10個〜約50個のヌクレオチドであってもよい。フラグメントの長さは、約10個〜約40個のヌクレオチドであってもよい。フラグメントの長さは、約10個〜約30個のヌクレオチドであってもよい。フラグメントの長さは、約10個〜約20個のヌクレオチドであってもよい。フラグメントの長さは、約20個〜約50個のヌクレオチドであってもよい。フラグメントの長さは、約30個〜約50個のヌクレオチドであってもよい。フラグメントの長さは、約40個〜約50個のヌクレオチドであってもよい。
[109] 本明細書における「被検体」とは、一般に、疾病(例えば、肺疾患)に罹患しているか、罹患している疑いがある個人を指す。被検体は動物であってもよい。動物は、ヒト、非ヒト霊長類、マウス又はラットなどのげっ歯類、イヌ、ネコ、ブタ、ヒツジ、又はウサギなどの哺乳動物であってもよい。動物は、魚類、爬虫類、又はその他の動物であってもよい。動物は、新生児、幼児、青年、成体であってもよい。被検体は微生物(living organism)であってもよい。被検体はヒトであってもよい。ヒトは、1歳以上、2歳以上、5歳以上、10歳以上、20歳以上、30歳以上、40歳以上、50歳以上、60歳以上、65歳以上、70歳以上、75歳以上、80歳以上、又はそれ以上であってもよい。ヒトは、約18歳〜約90歳であってもよい。ヒトは、約18歳〜約30歳であってもよい。ヒトは、約30歳〜約50歳であってもよい。ヒトは、約50歳〜約90歳であってもよい。被検体は、疾病に対するリスク因子を1つ以上有し、無症状であってもよい。被検体は、疾病に対して無症状であってもよい。被検体は、疾病に対するリスク因子を1つ以上有していてもよい。被検体は、疾病の症候を示していてもよい。被検体は、疾病の症候を示し、疾病に対するリスク因子を1つ以上有していてもよい。被検体は、癌や腫瘍などの疾患に罹患しているか、罹患している疑いがあってもよい。被検体は、疾患の治療を受けている患者、例えば癌患者、腫瘍患者、癌・腫瘍患者であってもよい。被検体は、癌や腫瘍などの疾患を発症するリスクを有しやすい傾向があってもよい。被検体は、癌や腫瘍などの疾患に対して寛解に至っていてもよい。被検体には癌に罹患していないか、腫瘍に罹患していないか、癌と腫瘍の両方に罹患していなくてもよい。被検体は健康であってもよい。
[110] 本明細書における「組織試料」とは、一般に、被検体から得たいずれかの組織試料を指す。組織試料は、気道の一部から得られた上皮細胞など、気道の一部から得られた細胞を含んでもよい。組織試料は、鼻組織、気管支組織、肺組織、食道組織、喉頭組織、口腔組織、又はこれらの任意の組み合わせであってもよい。組織試料は、癌や腫瘍などの疾患又は疾病が疑われる又は確定されている試料であってもよい。組織試料は、組織擦過、拭き取り、組織生検、組織切除、穿刺吸引法、組織洗浄、細胞診標本、気管支鏡検査、又はこれらの任意の組み合わせなど、被検体から取り除いた試料であってもよい。組織試料は、穿刺吸引法、気管支鏡検査、又は少量の試料を採取するその他の方法によって採取された試料など、不明確な又は疑わしい試料であってもよい。組織試料は、放射線などの抗癌治療を受けている患者の体において無損傷の部位から採取されたものであってもよい。組織試料は、患者の体における腫瘍であってもよい。組織試料は、癌性細胞、腫瘍細胞、非癌性細胞、又はこれらの任意の組み合わせを含んでもよい。組織は、侵襲性細胞、非侵襲性細胞、又はこれらの任意の組み合わせを含んでもよい。組織試料は、鼻組織、気管組織、肺組織、咽頭組織、喉頭組織、気管支組織、胸膜組織、肺細胞組織、乳房組織、膀胱組織、腎臓組織、肝臓組織、結腸組織、甲状腺組織、子宮頸部組織、前立腺組織、心臓組織、筋肉組織、膵臓組織、肛門組織、胆管組織、骨組織、子宮組織、卵巣組織、子宮内膜組織、膣組織、外陰部組織、胃組織、眼組織、副鼻腔組織、陰茎組織、唾液腺組織、腸組織、胆嚢組織、胃腸組織、膀胱組織、脳組織、脊髄組織、血液試料、又はこれらの任意の組み合わせであってもよい。
[111] 本明細書において、肺疾病の発症又は罹患という文脈における「リスクの増加」とは、一般に、被検体における肺疾病の発生に関連付けられたリスク又は確率の増加を指す。肺疾病を発症するリスクの増加には、被検体における疾病の最初の発生、又は、2回目、3回目、4回目、又はそれ以降の発生など、後続の発生を含む。肺疾病を発症するリスクの増加には、a)最初に疾病を発症するリスク、b)再発、又は再度疾病を発症するリスク、c)将来疾病を発症するリスク、d)被検体の生涯を通して疾病を発症する傾向があるリスク、又は、e)幼児、青年、又は成人のときに疾病を発症する傾向があるリスクが含まれる。肺疾病が発生又は再発し得るリスクの増加には、疾病(癌など)が転移し得るリスクが含まれる。腫瘍又は癌が発生又は再発し得るリスクの増加には、I期癌、II期癌、III期癌、又はIV期癌が発生し得るリスクが含まれる。腫瘍又は癌が発生又は再発し得るリスクには、血液癌、組織癌(腫瘍など)、又は他の部位から1つ以上の臓器部位に転移するリスクが含まれる。
[112] 本明細書における「介入療法又は治療計画の有効性」とは、一般に、介入療法又は治療計画が意図していた結果を達成しているか否かに関する評価、又は判定を指す。例えば、抗癌剤の投与などを含む治療計画の有効性は、腫瘍又は癌細胞の侵襲性を低下させる、被検体の癌又は腫瘍細胞を殺すか排除する、疾患の進行を止める、疾患の発症を予防する抗癌剤の効能を評価する。治療計画は、手術(つまり、外科切除)、栄養療法、運動、放射線、化学療法、細胞移植、輸血などを含んでもよい。介入療法には、医薬組成物、運動療法、食事療法、1つ以上のリスク因子(喫煙や受動喫煙など)の減少又は除去、又はこれらの任意の組み合わせを被検体に適用することを含んでもよい。
[113] 図1に示すように、年間約225,000人を超える患者が新たに肺癌の確定診断を受けている。肺癌と新たに診断された被検体の約90%は、過去に喫煙歴がある被検体である。肺癌は年間約160,000の死者を出す。本明細書に記載されているような新たな方法、システム、キットを開発すると、肺癌の早期発見や肺癌を発症するリスクの増加を改善することができる。早期発見は、死亡率を低減するための重要な鍵である。更に、現在の臨床基準では、手術や肺生検など、高リスク高費用の侵襲的処置を採用せず肺癌を正確に診断することは困難である。現行の臨床標準治療の一環として侵襲的肺生検を受ける被検体の約40%に癌はない。従って、本明細書に記載されているような新たな方法、システム、キットは、肺癌の早期発見と診断の精度を改善する一方、(リスクと追加費用を伴う)不要な侵襲的処置の数を減らすこともできる。
[114] 図2に示すように、現在の臨床診療基準における様々な決定ポイントにゲノム分類器を組み込むことで、不要な侵襲性手法の数を減らし、肺癌のリスクが低い被験体を特定することができる。例えば、米国の場合、画像スキャンで偶然に肺結節を検出するケースが毎年約180万〜200万件に達する。現在の臨床基準では、画像スキャンで結節が検出された被検体は、結節が肺癌の存在を意味するものであるか否かを判定するために、侵襲性気管支鏡検査を受けなければならない。約140,000人の被検体(又は、気管支鏡検査を受けた被検体350,000人のうち約60〜70%)が、不明確な又は疑わしい結果を受ける。現在の臨床基準によると、気管支鏡検査で不明確な又は疑わしい結果が得られた場合、診断手術を行って組織病理的に判断するしかない。しかしながら、不明確な又は疑わしい結果を受けた被検体の約70〜80%は、結局、肺組織が良性であるとの判定を受ける。従って、本明細書に記載の新たな方法、システム、キットは、不明確な又は疑わしい結果の後に1つ以上のゲノム分類器で更に分析を行い、肺癌を発症するリスクが低い被検体を特定し、現在の臨床治療基準を改善することができる。肺癌に対して高いリスクを有する被検体、又はリスクが増加している被検体にのみ診断手術を行うと、低リスク集団に不要の侵襲的処置を適用せずともよい。
[115] 図3は、本明細書に記載の気管支ゲノム分類器に追加/改善を伴う現在の臨床標準治療を示す。一般的な成人集団から、肺癌のリスクがあると特定された個人は、低線量CTスキャンなどの画像スキャンを受けることになる。結節が見つからない場合、間を置いて画像スキャンを再度行ってもよい。結節が見つかった場合、被検体は、リスクアセスメント、CTスキャン、PETスキャン、磁気共鳴画像(MRI)スキャン、X線、又はこれらの任意の組み合わせを受ける。現在、米国では低線量CTスキャンはあまり採用されていない。リスクアセスメント、CTスキャン、PETスキャン、磁気共鳴画像(MRI)スキャン、X線、又はこれらの任意の組み合わせにより、被検体に肺癌のリスクが低いと特定された場合、間を置いてリスクアセスメント、CTスキャン、PETスキャン、磁気共鳴画像(MRI)スキャン、X線、又はこれらの任意の組み合わせを再度行ってもよい。リスクアセスメント、CTスキャン、PETスキャン、磁気共鳴画像(MRI)スキャン、X線、又はこれらの任意の組み合わせにより、被検体に肺癌のリスクが中又は高と特定された場合、被検体は、気管支鏡検査、胸腔穿刺法(TTNA)、胸腔鏡補助下手術(VATS)、気道組織試料の採取法、又はこれらの任意の組み合わせの施術を受けることになる。採取された気道試料が不明確又は疑わしいと特定された場合、気管支ゲノム分類器を実行して肺癌のリスクを特定する。気管支ゲノム分類器により被検体に肺癌のリスクが低いと特定された場合、リスクアセスメント、CTスキャン、PETスキャン、磁気共鳴画像(MRI)スキャン、X線、又はこれらの任意の組み合わせを再度行ってもよい。気管支ゲノム分類器により被検体に肺癌のリスクが中間程度であると特定された場合、気管支鏡検査、胸腔穿刺法(TTNA)、胸腔鏡補助下手術(VATS)、気道組織試料の採取法、又はこれらの任意の組み合わせを再度行ってもよい。気管支鏡検査の試料は不明確又は疑わしいものであり得る。気管支鏡検査で採取された試料は、高い割合で不明確又は疑わしいものであり得る。従って、現行の臨床標準治療に気管支ゲノム分類器を追加すると、不明確な又は疑わしい結果の数を大幅に減らすことができる。被検体が肺癌に罹患していると特定された場合、被検体は肺癌の治療を受けながら、画像診断法、液体生検、又はこれらの任意の組み合わせにより肺癌の再発をモニタリングされてもよい。しかしながら、現在の画像診断法と液体生検による再発の特定は感度も低く、残存疾患の特定能も最小であるという問題を抱えている。
[116] 図4に示すように、肺癌の臨床標準治療に気管支ゲノム分類器を追加すれば、被検体管理を大幅に改善して良い結果をもたらすことができる。例えば、気管支ゲノム分類器を追加する前は、中〜低リスクの被検体の約37%以上が侵襲的処置を受けることになる。それに対して、気管支ゲノム分類器を臨床標準治療に追加すれば、中〜低リスクの被検体に対する侵襲的処置の数が約47%以上減少する。
[117] 図5に示すように、特発性肺線維症(IPF)の臨床標準治療に気管支ゲノム分類器を追加すれば、不要な侵襲的処置の数を大幅に減らすことができる。例えば、米国及び欧州では、約200,000人がIPFの疑いありと評価され、診断のために高解像度コンピュータ断層撮影(HRCT)を受け得る。これらの被検体のうち、約150,000人(又は70〜75%)はHRCTから不明確な又は疑わしい結果を受け得る。不明確な又は疑わしい結果を示す被験体は、組織病理学的真実(IPFの有無)を特定するために診断手術を受け得る。しかしながら、本明細書に記載のゲノム分類器を実施すれば、クラシック間質性肺炎パターン(UIP)(IPFのパターン)の有無を特定し得る。クラシックなUIPの存在が特定されると、被検体は診断手術又は治療を受け得る。クラシックUIPが存在しないことが確認された場合、被検体は、侵襲的処置を受けなくてもよい。
[118] 図6は、生検回数における減少率のグラフであり、UIPを他のILD病理と区別する際にゲノム分類器を用いることの臨床的有用性を強調している。例えば、ゲノム分類器を導入すると、ILDの管理アプローチの改善に大きな臨床的影響を与えることができる。UIPと他のILD病理と区別する際にゲノム分類器を用いることで、侵襲的生検の数を大幅に減らせるはずである。
[119] 図7に示すように、損傷範囲(field of injury)の病因は共通の経路を有する疑いが高い。例えば、病因曝露と慢性気道損傷は、気道上皮環境などの組織の微小環境を変化させ得る。微小環境の変化は、1つ以上の分子異常と1つ以上の修復経路の活性化をもたらし得る。表現型は、損傷に対する内因性の宿主反応により決定され得る。COPD、ILD、喘息又はこれらの任意の組み合わせは、肺癌のリスクを高める宿主の反応を反映し得る。気道上皮に対するバイオマーカー分析は、変化の連続性を特定する重要な機会となり得る。
[120] 図8に示すように、発癌範囲と損傷範囲など、複数の範囲があり得る。損傷範囲は、肺癌の存在に関連付けられ、気道全体の細胞から見られるゲノム変化を含み得る。発癌範囲は、腫瘍源の近位など、周囲の気道に存在し得る腫瘍特異的ゲノム変化を含み得る。損傷範囲と発癌範囲の間には相互作用が生じ得る。例えば、気道上部で見られる分子の変化は、損傷範囲、発癌範囲、又はこれらの任意の組み合わせと関連している場合と関連していない場合があり得る。リスクのある分子指標(at-risk molecular signature)は、肺癌、ILD、COPD、喘息などの肺疾病として表され得る。
[121] 図9は、損傷範囲と発癌範囲における分子の概念を示したものである。損傷には、喫煙又は環境曝露が含まれ得る。損傷指標(RNA発現の変化など)及び疾患指標(追加的な変異、転写調節不全など)は、癌、線維症、肺気腫など肺疾病の概略となり得る。
[122] 図10は、図3の同様の経路であり、単一の気管支ゲノム分類器を追加して改善された臨床判断の現状を示す。ただし、臨床治療経路における他の決定ポイントに他のゲノム分類器を追加すれば、現状の臨床治療を更に改善することができる。
[123] 図11a及び図11bは、早期発見を改善し、不要な侵襲的処置を最小限に抑える、現行の臨床標準治療における特定の決定ポイントへの様々なゲノム分類器の追加を示す。例えば、リスク曝露集団は、包括的な集団内で特定し得る。リスク曝露集団には、肺疾病(肺癌など)を発症する又は罹患するリスクが高い被検体が含まれ得る。肺疾病に関連する1つ以上のリスク因子の存在を特定することによりリスク曝露集団を特定することができる。被検体には、1つ以上のリスク因子の存在を評価するために問診を行ってもよい。医療従事者は、質問に対する被検体の答えから1つ以上のリスク因子の存在を評価し得る。肺疾病のリスクがあると特定された被検体から試料(鼻の擦過などにより採取された非侵襲的試料など)を採取してもよい。試料から得たデータ(発現レベルや配列変異体データなど)を、ゲノム分類器(Nasa-Detect分類器など)に入力し得る。ゲノム分類器により、試料が陽性又は陰性のいずれであるかを特定し得る。陽性の結果が出た被検体は、肺結節をスキャンするために画像スキャン(低線量CTスキャンなど)を受け得る。陰性の結果が出た被検体については、後の時点で試料をもう一度採取し、そこから得たデータをゲノム分類器に入力してもよい。
[124] 画像スキャン(低線量CTスキャンなど)により肺結節の存在が確認された被検体から、試料を採取してもよい。試料から得たデータ(発現レベルや配列変異体データなど)を、ゲノム分類器(Nasa-RISK分類器など)に入力する。このゲノム分類器により、試料の肺疾病(肺癌など)に対するリスクが高いか低いかを特定する。分類器により高リスクの結果が出た被検体は、肺疾病の有無を確認するために侵襲的処置(気管支鏡検査、TTNA、VATSなど)を受け得る。分類器により低リスクの結果が出た被検体については、後の時点でもう一度画像スキャンを行って肺結節の存在を確認し、他の試料から得たデータをゲノム分類器に入力してもよい。
[125] ゲノム分類器(Nasa-Risk階層化分類器又は気管支ゲノム分類器など)により肺疾病のリスクが低いと特定された被検体は、疾患の進行を遅らせるか食い止めるために、又は肺疾病の発生を予防するために介入療法を受けてもよい。介入療法の少なくとも一部が完了した後、被検体から試料を採取してもよい。試料から得たデータ(発現レベルや配列変異体データなど)を、ゲノム分類器(Nasa-PROTECT監視分類器など)に入力し得る。ゲノム分類器により、介入療法の有効性、被検体のコンプライアンス、疾患の退行又は肺疾病の予防、又はこれらの任意の組み合わせについて特定してもよい。
[126] 外科的に切除された癌などの治療計画又は根治的治療(医薬組成物の投与など)を受けている被検体から、治療処置の後、試料を採取してもよい。試料から得たデータ(発現レベルや配列変異体データなど)を、ゲノム分類器(Nasa-Recurrence分類器など)に入力し得る。ゲノム分類器により、肺疾病の再発を早期発見することができる。
[127] 図12は、Nasa-Detect分類器の特徴を示す。分類器により、リスク曝露集団の肺損傷を検出し得る。この分類器は、(i)画像スクリーニングの適用対象を選別するふるいの最適化、(ii)より確実な初期スクリーニングツールの使用による画像スキャンの効果増大、(iii)介入治療の効能を期待できる被検体における早期発見の強化、又は(iv)これらの任意の組み合わせを提供し得る。この分類器の評価対象である被検体は、既に肺癌のリスクありと判定を受けていてもよい。分類器による陽性の結果は、画像スキャン(LDCTなど)による追跡検査の推奨を含み得る。LDCTによる結節なしとの判定は、被検体を介入療法の適用候補と見なしてもよい。結果が陰性であれば、後の時点でこの分類器を用いて再度モニタリングを行ってもよい。
[128] 図13はNasa-Risk階層化分類器の特徴を示す。分類器は結節のリスクを階層化し得る。分類器は、確定できない肺結節の数を最小に抑え得る。生検を必要とし得る被検体には生検を受けさせ、生検を必要としない被検体に侵襲性生検を行うことを回避することができる。この分類器の評価対象である被検体は、既に肺病変が特定されている被検体であってもよい。分類器による「リスク低」の結果は、介入療法の適用候補として被検体に対して監視を行い得る。分類器による「リスク中」の結果は、臨床上の判断を含み得る。分類器による「リスク高」の結果は、被検体に生検を受けさせ得る。分類器は、次世代シーケンシング(NGS)プラットフォームで展開してもよく、シーケンシング情報、放射線学的特徴、又はこれらの任意の組み合わせを含んでもよい。
[129] 図14はNasa-PROTECT分類器の特徴を示す。分類器は、肺損傷の回復をモニタリングするコンパニオン診断として用いられてもよい。分類器は、特定の処置や治療に対して被検体のコンプライアンスを特定してもよい。分類器は、推奨の処置や治療から効能を期待できる被検体を特定してもよい。分類器の適用対象である被検体は、Nasa-DETECT陽性・陰性の被検体集団を含んでもよい。分類器の適用対象である被検体は、肺結節陽性・Nasa-Risk階層化分類器による低リスクを含んでもよい。
[130] 図15はNasa-Recurrence分類器の特徴を示す。分類器は、根治的外科切除又は根治的治療計画を受けている被検体の再発をテストするための非侵襲的モニタリング方法として用いられてもよい。分類器は、疾患の発病又は再発病を初期段階で特定することができる。分類器は再発特定に対する感度が高いものであり得る。この分類器の適用対象である被検体は、治療を目的とする肺癌の外科切除、又は根治的治療計画を受けている被検体を含んでもよい。
[131] 図16は、遺伝子検査用のACCE評価プロセスを示す。遺伝子検査の評価における主要な基準の4つは、A:分析的妥当性、C:臨床的妥当性、C:臨床的有用性、E:倫理的意味を含む。
[132] 図17は、(i)ゲノム分類器の訓練及び検証に用いられる試料の種類、並びに(ii)特定のためにゲノム分類器に入力される試料の種類の例を示す。試料には、既に良性の肺疾患を有する被検体、慢性肺感染症に罹患している被検体、免疫抑制療法を受けた被検体、肺疾病を発症する遺伝的リスクが高い被検体、受動喫煙にさらされる非喫煙者、又はこれらの任意の組み合わせから採取された試料が含まれてもよい。試料は、複数の異なる国から採取されたものであってもよい。コホートから部分集団を抽出し、特定の分類器の訓練や検証に用いてもよい。特定の集団、曝露の種類、又はこれらの任意の組み合わせに対する分類器を開発してもよい。例えば、分類器は、中国の環境汚染や肺疾病の遺伝的素因のために開発されてもよい。ゲノム分類器の開発において、肺疾病のスクリーニング、診断、肺疾病治療の評価、被検体の症状のモニタリング、又はこれらの任意の組み合わせを目的としてもよい。試料を被検体から毎年採取してもよい。毎年採取される試料には、鼻擦過、血液試料、画像スキャン、又はこれらの任意の組み合わせが含まれ得る。
[133] 図18は、鼻又は気管支の擦過から試料を採取しているコホートを示す。各コホートは、識別し得る(AEGIS、DECAMP1、LTP2,DECAMP2、Lahey)。各試料コホートに対して、登録された被検体の数と、現行の標準治療における位置(気管支鏡検査中、事後画像スキャン中、又はスクリーニング中)を同定することができ、表記することができる。被検体の年齢と喫煙歴などの包含基準を提示し得る。それぞれの試料コホートに対して、試料の種類(鼻擦過、気管支擦過、血液、画像スキャン)と、経過観察期間(12ヵ月、24ヵ月、48ヵ月)も記入し得る。
[134] 図19は、分類器(Nasa−DETECT分類器など)を訓練及び検証するために使用される訓練用試料の例を示す。コホートDECAMP2及びLaheyは、この分類器の訓練のために使用され得る。試料は、鼻擦過、血液試料、又はそれらの組み合わせを含み得る。試料を提供する各被検体から追加データを収集することができる。これには:被検体が以前の喫煙者であるか現在の喫煙者であるか;禁煙後の期間;共存症の存在;肺疾病の家族歴;気管支前リスク;又はそれらの任意の組み合わせが含まれる。分類器を訓練し、検証するために使用される訓練用試料は、約:100試料、200試料、300試料、400試料、500試料、600試料、700試料、800試料、900試料、1000試料、1100試料、1200試料、1300試料、1400試料、1500試料、1600試料、1700試料、1800試料、1900試料、2000試料またはそれ以上(例えば異なる被検体から得られた1950の試料)であってもよい。ある場合には、訓練用試料は、約100個から約200個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約300個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約400個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約500個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約600個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約700個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約800個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約900個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約1000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約1500個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約2000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約3000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約4000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約5000個の試料を含むことができる。試料を提供する被検体は、喫煙者、曝露リスクのある非喫煙者、又は喫煙歴も曝露リスクもない健康被検体であり得る。
[135] 図20は、分類器(例えば、Nasa-RISK Stratifier分類器)を訓練及び検証するために使用される訓練用試料の例を示す。コホートAEGIS及びDECAMP1が、この分類器の訓練のために使用され得る。試料は、鼻擦過、気管支擦過、血液試料、又はそれらの任意の組合せを含み得る。試料を提供する各被検体から追加データを収集することができる。これには:被検体が以前の喫煙者であるか現在の喫煙者であるか;禁煙後の期間;共存症の存在;気管支前リスク;又はその組み合わせ;が含まれ得る。分類器を訓練し、かつ、検証するために使用される訓練用試料は、約100試料、200試料、300試料、400試料、500試料、600試料、700試料、800試料、900試料、1000試料、1100試料、1200試料、試料、試料、1300試料、1400試料、1500試料、1600試料、1700試料、1800試料、1900試料、2000試料、2100試料、2200試料、2300試料、2400試料、2500試料、2600試料、2700試料、2800試料、2900試料、3000試料、又はそれ以上(例えば異なる被検体から得られた2350の試料)とすることができる。ある場合には、訓練用試料は、約100個から約200個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約300個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約400個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約500個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約600個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約700個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約800個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約900個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約1000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約1500個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約2000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約3000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約4000個の試料を含むことができる。ある場合には、訓練用試料は、約100個から約5000個の試料を含むことができる。試料を提供する対象は、喫煙者又は非喫煙者であり得る。
[136] 図21は、バイオマーカーと、その存在の有無を検出するために用いられる技術を示す。例えば、ゲノムバイオマーカー(突然変異と不均衡を含む)は、次世代シーケンシング(NGS)、マイクロアレイ、蛍光in situハイブリダイゼーション(FISH)、ポリメラーゼ連鎖反応(PCR)、又はこれらの任意の組み合わせにより検出することができる。エピジェネティックバイオマーカー(5−ヒドロキシメチル化シトシン、5−メチル化シトシン、5−カルボキシメチル化シトシン、5−ホルミル化シトシンなどのDNAメチル化など)は、NGS、マイクロアレイ、PCR、質量分析(MS)、又はこれらの任意の組み合わせにより検出することができる。トランスクリプトームバイオマーカー(RNA発現レベルなど)は、NGS、マイクロアレイ、PCR、又はこれらの任意の組み合わせにより検出することができる。プロテオームバイオマーカー(タンパク質の存在など)は、タンパク質アレイ、免疫組織化学染色(IHC)、又はこれらの任意の組み合わせにより検出することができる。
[137] 図22は、ゲノム分類器におけるRNAシーケンシングと、ゲノム分類器の甲状腺FNA分析を示す。図23は、遺伝子A、遺伝子B、遺伝子CのRNAシーケンシングの例を示す。RNAへの転写の後、(i)1つ以上の発現レベル(各転写産物の計数など)の検出、(ii)1つ以上の変異体(各転写産物の配列など)の検出、(iii)染色体コピーの検出(ヘテロ接合性の消失(LOH)など)、又は(iv)これらの任意の組み合わせを行ってもよい。
[138] 図24は、本明細書における訓練アルゴリズムのフローチャートである。例えばアルゴリズムは、試料から1つ以上の種類のシーケンシングデータを受け取ることができる。アルゴリズムが受け取ったデータを正規化し得る。必要に応じて、特徴抽出又は特徴選択が教師付き機械学習とともに行われ得る。1つ以上の臨床的共変量をアルゴリズムに追加してもよい。1つ以上の訓練ラベルをアルゴリズムに追加してもよい。1つ以上のロックをアルゴリズムに追加してもよい。分析検証を確認し得る。臨床検証を確認し得る。ゲノム分類器を稼働し得る。
[139] 図25は、ベセスダシステムにおける細胞サブタイプと組織サブタイプを多く含む訓練セットの例を示す。例えば、図25は総計634個の試料のうち、ベセスダシステムにおける細胞サブタイプと組織サブタイプを両方とも含む507個の試料を図示している。訓練セットは、生物学の全カテゴリーに及んでいてもよい。
精度、特異度、感度
[140] 本明細書に記載の方法は、(i)肺癌など疾病の有無の判定、(ii)良性又は悪性組織の分類を行ってもよく、方法における診断の特異度は、約70%を超えてもよい。一部の実施形態において、特異度は、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、又はそれ以上であってもよい。一部において、特異度は約70〜約99%であってもよい。一部において、特異度は約80〜約99%であってもよい。一部において、特異度は約85〜約99%であってもよい。一部において、特異度は約90〜約99%であってもよい。一部において、特異度は約95〜約99%であってもよい。一部において、特異度は約70〜約95%であってもよい。一部において、特異度は約80〜約95%であってもよい。一部において、特異度は約85〜約95%であってもよい。一部において、特異度は約90〜約95%であってもよい。一部において、特異度は約70〜100%であってもよい。一部において、特異度は約80〜100%であってもよい。一部において、特異度は約85〜100%であってもよい。一部において、特異度は約90〜100%であってもよい。
[141] 本明細書に記載の方法は、(i)肺癌など疾病の有無の判定、(ii)良性又は悪性組織の分類を行ってもよく、方法における診断の感度は、約70%を超えてもよい。一部の実施形態において、感度は、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、又はそれ以上であってもよい。一部において、感度は約70〜約99%であってもよい。一部において、感度は約80〜約99%であってもよい。一部において、感度は約85〜約99%であってもよい。一部において、感度は約90〜約99%であってもよい。一部において、感度は約95〜約99%であってもよい。一部において、感度は約70〜約95%であってもよい。一部において、感度は約80〜約95%であってもよい。一部において、感度は約85〜約95%であってもよい。一部において、感度は約90〜約95%であってもよい。一部において、感度は約70〜100%であってもよい。一部において、感度は約80〜100%であってもよい。一部において、感度は約85〜100%であってもよい。一部において、感度は約90〜100%であってもよい。
[142] 本明細書に記載の方法は、(i)肺癌など疾病の有無の判定、(ii)良性又は悪性組織の分類を行ってもよく、方法における診断の感度は約70%を超えてもよく、特異度は約70%を超えてもよい。感度は約70%を超えてもよく、特異度は約80%を超えてもよい。感度は約70%を超えてもよく、特異度は約90%を超えてもよい。感度は約70%を超えてもよく、特異度は約95%を超えてもよい。感度は約80%を超えてもよく、特異度は約70%を超えてもよい。感度は約80%を超えてもよく、特異度は約80%を超えてもよい。感度は約80%を超えてもよく、特異度は約90%を超えてもよい。感度は約80%を超えてもよく、特異度は約95%を超えてもよい。
感度は約90%を超えてもよく、特異度は約70%を超えてもよい。感度は約90%を超えてもよく、特異度は約80%を超えてもよい。感度は約90%を超えてもよく、特異度は約90%を超えてもよい。感度は約90%を超えてもよく、特異度は約95%を超えてもよい。感度は約95%を超えてもよく、特異度は約70%を超えてもよい。感度は約95%を超えてもよく、特異度は約80%を超えてもよい。感度は約95%を超えてもよく、特異度は約90%を超えてもよい。感度は約95%を超えてもよく、特異度は約75%を超えてもよい。
[143] 本明細書に記載の方法は、(i)肺癌など疾病の有無の判定、(ii)良性又は悪性組織の分類を行ってもよく、方法における陰性反応適中度(NPV)は、約95%以上であってもよい。NPVは、少なくとも約95%、少なくとも約95.5%、少なくとも約96%、少なくとも約96.5%、少なくとも約97%、少なくとも約97.5%、少なくとも約98%、少なくとも約98.5%、少なくとも約99%、少なくとも約99.5%、又はそれ以上であってもよい。一部において、NPVは約95%〜約99%であってもよい。一部において、NPVは約96%〜約99%であってもよい。一部において、NPVは約97%〜約99%であってもよい。一部において、NPVは約98%〜約99%であってもよい。一部において、NPVは約95%〜100%であってもよい。一部において、NPVは約96%〜100%であってもよい。一部において、NPVは約97%〜100%であってもよい。一部において、NPVは約98%〜100%であってもよい。
[144] 一部の実施形態において、公称(nominal)特異度は約50%以上である。一部の実施形態において、公称特異度は約60%以上である。一部の実施形態において、公称特異度は約70%以上である。一部の実施形態において、公称陰性反応適中度(NPV)は約95%以上である。一部の実施形態において、NPVは少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約95.5%、少なくとも約96%、少なくとも約96.5%、少なくとも約97%、少なくとも約97.5%、少なくとも約98%、少なくとも約98.5%、少なくとも約99%、少なくとも約99.5%(例えば、90%、91%、92%、93%、94%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%、又は100%)、であり、特異度(又は陽性反応適中度(PPV))は少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約50%、少なくとも約60%、少なくとも約70%、少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約95.5%、少なくとも約96%、少なくとも約96.5%、少なくとも約97%、少なくとも約97.5%、少なくとも約98%、少なくとも約98.5%、少なくとも約99%、少なくとも約99.5%(例えば30%、35%、40%、50%、60%、70%、80%、90%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%、又100%)である。一部において、NPVは少なくとも約95%、特異度は少なくとも約50%である。一部において、NPVは少なくとも約95%、特異度は少なくとも約70%である。一部において、NPVは少なくとも約95%、特異度は少なくとも約75%である。一部において、NPVは少なくとも約95%、特異度は少なくとも約80%である。
[145] 感度はTP/(TP+FN)で表され、ここで、TPは真陽性率、FNは偽陰性率を指す。確定した組織病理診断に基づき、継続判定不能数を悪性結果の総数で割ったものである。特異度は通常TN/(TN+FP)で表されるが、TNは真陰性率、FPは偽陽性率を指す。確定した組織病理診断に基づき、良性結果の数を良性結果の総数で割ったものである。陽性反応適中度(PPV)はTP/(TP+FP)で、陰性反応適中度(NPV)はTN/(TN+FN)で表される。
[146] 本発明による方法及び組成物は、更に、生体試料の特定、分類、診断、又はその他の特徴付けを目的とするバイオマーカーパネルの使用に関する。パネルは、損傷範囲、発癌範囲、症状(ILD、COPD、肺癌)の有無、疾患を発症するリスクの増加の有無、疾患再発の有無、疾患の回復、疾患の予防、又はこれらの任意の組み合わせのうち1つ以上を特定し得る。上記の方法及び組成物は、バイオマーカーパネル群を使用してもよい。通常、パネルにおけるバイオマーカーの遺伝子発現レベルパターン(損傷指標や発癌指標などの指標としても知られる)を判定し、その後、生体試料における同じバイオマーカーパネルの指標を、例えば、試料指標と参照指標の類似度を用いて評価し得る。一部の実施形態において、方法は、バイオマーカーパネル、及び/又は分類パネルに含まれてもよい2つ以上の遺伝子発現産物のレベルを測定(又は取得)する。例えば、一部の実施形態において、バイオマーカーパネル又は分類パネルは、少なくとも約1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、25個、30個、33個、35個、38個、40個、43個、45個、48個、50個、53個、58個、63個、65個、68個、100個、120個、140個、142個、145個、147個、150個、152個、157個、160個、162個、167個、175個、180個、185個、190個、195個、200個、又は300個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、25個、30個、33個、35個、38個、40個、43個、45個、48個、50個、53個、58個、63個、65個、68個、100個、120個、140個、142個、145個、147個、150個、152個、157個、160個、162個、167個、175個、180個、185個、190個、195個、200個、又は300個以下のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約500個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約400個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約300個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約200個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約100個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約1個〜約500個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約100個〜約500個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約200個〜約500個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約300個〜約500個のバイオマーカーを含み得る。一部の実施形態において、バイオマーカーパネル又は分類パネルは、約400個〜約500個のバイオマーカーを含み得る。一部の実施形態において、分類パネルは、少なくとも約1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、又は25個の異なるバイオマーカーパネルを含む。他の実施形態において、分類パネルは、約1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、又は25個以下の異なるバイオマーカーパネルを含み得る。バイオマーカーパネルは、損傷指標の特定、間質性肺炎パターン(UIP)の存在の確認、疾患を発症するリスクの特定、疾患再発のリスクの特定、疾患の進行のモニタリング、又はこれらの任意の組み合わせを行い得る遺伝子のパネルを含んでもよい。
[147] 肺癌を発症するリスク又は尤度を高め得る1つ以上のリスク因子は、喫煙、受動喫煙(二次喫煙など)、ラドン曝露、工業物質曝露(石綿、ヒ素、ディーゼル排気ガス、マスタードガス、ウラン、ベリリウム、塩化ビニル、ニッケルクロム酸塩、石炭製品、クロロメチルエーテル、ガソリンなど)、遺伝又は環境による遺伝子突然変異、結核、大気汚染曝露、放射線被曝(過去の放射線療法)、被検体の年齢、二次症状(慢性閉塞性肺疾病(COPD)、間質性肺疾患(ILD)、喘息)の有無、栄養補助食品(ベータカロチンなど)の摂取、又はこれらの任意の組み合わせを含んでもよい。肺癌を発症するリスク又は疑いを高め得るリスク因子は、タバコ、葉巻、パイプ、又はこれらの任意の組み合わせによる喫煙を含んでもよい。
[148] 1つのリスク因子を持つ被検体を、リスク状態であると特定してもよい。2つのリスク因子を持つ被検体を、リスク状態であると特定してもよい。3つのリスク因子を持つ被検体を、リスク状態であると特定してもよい。個々のリスク因子は等しく重み付けされなくてもよい。喫煙などの単一のリスク因子の存在は、被験体をリスク状態と特定することができる。特定の遺伝子変異などの単一のリスク因子の存在は、それのみでは十分でないことがあり、他のリスク因子と組み合わせて有している場合のみ、リスク状態と特定することができる。
[149] 質問に回答できるよう、被検体にアンケート(書面又はウェブ上)を提供し、1つ以上のリスク因子の存在を評価してもよい。医療従事者は、被検体から1つ以上の質問に対する回答を直接聞き、1つ以上のリスク因子の存在を評価してもよい。被検体から採取された非侵襲性試料により1つ以上のリスク因子の存在を評価してもよい。1つ以上のリスク因子の存在を評価するために被検体の過去の病歴を用いてもよい。医療従事者は、例えば被検体の病歴を含む、被検体のヘルスデータ又は生理データを保持してもよい。
[150] 未確定の診断は、不要な手術、診断の遅れ、治療の遅れ、又はこれらの任意の組み合わせにつながり得る。現行の臨床経路では、診断の15〜70%が不安定又は未確定(uncertain or inconclusive)となり得る。未確定の診断の場合、診断手術が推奨され得る。診断が確定していないことにより、手術が推奨される被検体の一部は良性であり得る。高い感度及び特異度で試料を診断又は分類するゲノム分類器の開発が必要であり得る。
[151] 現在、年間約225,000人を超える患者が新たに肺癌の確定診断を受けている可能性がある。新たに肺癌の診断を受けた被検体の約90%は、喫煙の経験がある被検体であり得る。侵襲的生検を受けた被検体の約40%は癌ではない。更に、早期発見も死亡率の低減に非常に重要な要素であり得る。しかしながら、現在の標準治療は、診断に侵襲的処置を必要としている。
[152] 末梢肺結節などの肺組織は生検を行い難く、気管支鏡検査から未確定又は不明瞭な結果しか得られないことがよくある。従って、肺癌を診断するための他のオプションが望まれる。
[153] 喫煙は、鼻、口、口腔、鼻腔、咽頭、喉頭、気管、肺、気管支、肺胞の上皮細胞、又はこれらの任意の組み合わせを含む気道全体の上皮細胞における遺伝子発現を変化させ得る。
[154] 気道の一部から上皮細胞を分離し、分離した上皮細胞における遺伝子指標又はバイオマーカーパネルをアッセイすることで、癌を発症するリスクの判定、癌の確定診断、又は肺組織の良性か悪性かの分類が可能となる。上記のアッセイでは、例えば、核酸増幅(例えばPCR)、アレイハイブリダイゼーション、又はシーケンシングを行ってもよい。そのようなシーケンシングは、超並列型シーケンシングであってもよい(例えば、イルミナ、パシフィックバイオサイエンス・オブ・カリフォルニア、又はオックスフォードナノポア)。シーケンシングは、遺伝的(又はゲノム)異常(例えばコピー数多型、単一のヌクレオチド多型、単一のヌクレオチド変異体、挿入、欠失など)と、遺伝子に対応する発現レベルを特定できる、シーケンシング読み取りを行ってもよい。これにより、被検体のゲノムにおける遺伝子異常に関する情報と、同試料における転写メッセンジャーリボ核酸(mRAN)の発現レベルに関する情報を、同時に提供することができる。
[155] 癌又は腫瘍の部位から離れている気道の一部から上皮細胞を分離し得る。例えば、上皮細胞は鼻皮細胞又は口腔上皮細胞であってもよい。分離した鼻上皮細胞から得たバイオマーカーパネルの発現レベルの遺伝子指標により、気管支組織や末梢肺結節において癌を発症するリスクを予測し、又は癌の存在を確定することができる。癌の存在に関連付けられるゲノム変化は、気道全体の細胞から見られることがある。
[156] 間質性肺疾患(ILD)の亜型は、区別するのが難しいことがあり、臨床的に確定診断するのが難しいことがある。例えば約42%の、ILDに罹患する多くの被検体が、最初の症状から確定診断を受けるまで少なくとも1年以上かかると報告されている。誤診が一般的であり得る。ILDに罹患する被検体の少なくとも55%は、少なくとも1回は誤診されているとの報告もある。
[157] 米国及び欧州では、毎年約200,000人がILDの疑いありと評価される。高解像度CTスキャンの施術を受けた被検体の約25〜30%がUIPの存在を示している。約70〜75%(約150,000人)の被検体は、高解像度CTスキャン後に不確定又は確定の診断を受ける。不確定の診断を受けているこれらの被験体は、診断手術を推奨され得る。
[158] 遺伝子指標(IPFにおける標準UIPパターン)を用いるゲノム分類器を開発し、診断の精度を高め、診断手術を受ける被検体の数を低減する必要があり得る。
[159] 本明細書に記載の方法は、ILD罹患の疑いがある被検体から採取された試料におけるバイオマーカーパネル(例えば標準UIPパターン)に対するアッセイを行い、ILD(IPF)の存在を特定するゲノム分類器を提供する。この方法は、少なくとも約88%の特異度と少なくとも約67%の感度を有し得る。ゲノム分類器により陽性のUIPパターンを有すると特定された被検体の場合、その後診断手術を受ける被検体の割合は、ゲノム分類器なしでは約59%であったが、ゲノム分類器を使用すると約29%まで減少した。
[160] 標準UIPパターンに対して高解像度コンピュータ断層撮影(HRCT)を行う基準として、少なくとも4つ、つまり、胸膜下基底優位、網状異常、蜂巣状構造(牽引気管支拡張症の有無に拘らず)、ある特徴の欠如によるUIPパターンとの矛盾が挙げられ得る。UIPパターンには、胸膜下基底優位、網状異常、ある特徴の欠如によるUIPパターンとの矛盾の3つが含まれ得る。標準UIPパターンと矛盾する症候には、上肺野又は中肺野優位、気管支周囲優位、広範囲のスリガラス状異常、大量の微小結節、離散性嚢胞、びまん性モザイク減弱又は空気捕捉、気管支肺区域又は肺葉の硬化のうちいずれかが含まれ得る。
[161] 被検体(肺癌を発症するリスクが低い被検体など)から、気管支鏡検査、胸腔穿刺法(TTNA)、胸腔鏡補助下手術(VATS)、又はその他の方法により、気道組織試料、例えば肺組織試料を採取し得る。気管支鏡検査から確定診断が得られなかった場合は、分類器(気管支ゲノム分類器など)を適用し、気道組織試料を特定・分類して侵襲的処置を不要に行わないようにしてもよい。
[162] 被検体は、経気管支生検などの生検を受けることもある。生検から得た1つ以上の発現レベルに対して分類器(ゲノム分類器など)を適用し、遺伝子パネルの1つ以上の遺伝子や、遺伝子発現パターン(標準IPF「UIPパターン」など)の有無を検出してもよい。分類器は、生検試料におけるILD(IPFなど)の有無を特定することができる。
[163] 一般集団に対して肺癌を発症するリスク増加の疑いがあり得る(1つ以上のリスク因子に基づいて判定)被検体に対して、分類器(Nasa-Detect分類器など)を採用し、被検体における「損傷」指標の有無を判定し得る。これは、肺癌診断における早期発見につながり得る。分類器(Nasa-Detect分類器)を被検体から採取された試料からアッセイされた1つ以上の発現レベルに適用し、遺伝子パネルの1つ以上の遺伝子又は遺伝子発現パターンの有無を検出してもよい。遺伝子パネルは、被検体において肺癌を発症しやすくする、又は、疾患の早期指標にあたる、「損傷」の指標を含み得る。分類器を用いて、介入療法又は損傷治療の適用対象となり得る被検体を特定することができる。分類器(Nasa-Detect分類器)が陰性の結果、つまり被検体は「損傷」パネルにおける1つ以上の遺伝子を有せず、発現変化もないとの結果を出した場合、後の時点で被検体から採取された第2の試料を以って分類器を再実行し、遺伝子発現における変化をモニタリングしてもよい。分類器(Nasa-Detect分類器)が陽性の結果、つまり被検体が「損傷」パネルにおける1つ以上の遺伝子又は発現変化を示しているとの結果を出した場合、被検体は、低線量CTスキャン(LDCT)を受け得る。
[164] 「リスク状態」である被検体集団から「損傷」を検出するように、分類器を訓練してもよい。陽性結果とともにLDCTによる経過観察を推奨してもよく、陰性結果とともに、一定期間ごとに第2の分類器(Nasa-Detect分類器など)によりモニタリングを行うことを推奨してもよい。上記の一定期間とは、例えば、約0.5年ごと、約1年ごと、約1.5年ごと、約2年ごと、約2.5年ごと、約3年ごと、約3.5年ごと、約4年ごと、約4.5年ごと、約5年ごと、又はそれ以上である。一部において、一定期間は約0.5年〜約3年であってもよい。一部において、一定期間は約1年〜約3年であってもよい。一部において、一定期間は約2年〜約3年であってもよい。一部において、一定期間は約0.5年〜約2年であってもよい。一部において、一定期間は約0.5年〜約1.5年であってもよい。「リスク状態」の集団から「損傷」を検出するように訓練を受けた分類器は、(i)LDCTによりスクリーニングされる被検体の下位集団の最適化、(ii)より確実なスクリーニングツールの使用によるLDCTスクリーニングの効果増大、(iii)介入治療の効能を期待できる被検体の検出、又はこれらの任意の組み合わせを提供し得る。
[165] 被検体は1つ以上の肺結節の有無を判定するために、低線量CTスキャンを受けてもよい。LDCTにより肺結節がないことが確認された場合は、(i)後の時点で被検体から採取された第2の試料を以って分類器(Nasa-Detect分類器など)を再実行し、「損傷」パネルにおける1つの遺伝子の遺伝子発現変化をモニタリングしてもよく、(ii)被検体に介入療法を受けるように勧めてもよい。LDCTにより肺結節の存在が確認された場合は、分類器(Nasa-Risk階層化分類器)を被検体から採取された試料からアッセイされた1つ以上の発現レベルに適用してもよい。
[166] 介入療法を勧められた被検体(LDCTにより肺結節を有しないことが確認された被検体)は、1つ以上の薬物療法を受けてもよい。1つ以上の薬物療法を行った後、被検体から試料を採集し、1つ以上の発現レベルについてアッセイを行い、分類器(Nasa-PROTECT監視分類器)に適用してもよい。分類器(Nasa-PROTECT監視分類器など)を訓練し、特定のバイオマーカーセットにおける変化をモニタリングし、特定の薬物療法を続けるべきか否かに関してアドバイスができるようにしてもよい。分類器(Nasa-PROTECT監視分類器)の結果は、薬物治療の中止、他の薬物治療への切り替え、非薬物治療への切り替え、現行の維持、又はこれらの任意の組み合わせとなり得る。分類器(Nasa-PROTECT監視分類器など)をコンパニオン診断ツールとして利用し、肺癌などの癌の進行を繰り止める「損傷範囲」の治療をモニタリングしてもよい。
[167] 分類器(例えば、Nasa-PROTECT分類器)をコンパニオン診断ツールとして訓練させ、肺損傷の治療をモニタリングしてもよい。また、分類器を訓練させ、特定の治療や薬物療法の効能を期待できる被検体の下位集団を特定してもよい。
[168] LDCTにより1つ以上の肺結節の存在が確認されると、被検体から試料を採取し得る。試料に対して1つ以上の発現レベルをアッセイし得、その発現レベルを分類器(Nasa-Risk階層化分類器など)に入力し得る。気管支鏡検査やその他の侵襲的処置より前に分類器(Nasa-Risk階層化分類器など)を実行してもよい。分類器(Nasa-Risk階層化分類器など)により、被検体が「肺癌を発症するリスク低」「肺癌を発症するリスク高」「肺癌に罹患するリスク低」「肺癌に罹患するリスク高」のいずれであるかを特定し得る。分類器(Nasa-Risk階層化分類器など)の結果が「リスク低」であれば、後の時点で被検体に対してLDCTをもう一度行う。分類器(Nasa-Risk階層化分類器など)の結果が「リスク高」であれば、被検体は、気管支鏡検査、胸腔穿刺法(TTNA)、胸腔鏡補助下手術(VATS)、又はその他の方法を受け得る。分類器(Nasa-Risk階層化分類器など)により、異なるカテゴリーの被検体(例えば、高リスクの被検体と低リスクの被検体)に対して、それぞれに合う次のステップを提示し得る。これによって、偽陽性率を抑え、癌の早期発見を改善することができる。
[169] 分類器(Nasa-Risk階層化分類器など)を訓練し、LDCTにより検出された肺結節の存在によるリスクを階層化し、次にとるべきステップをより明確に提示できるようにしてもよい。分類器は、放射線選択特性が含まれてもよく、次世代シーケンシング(NGS)プラットフォームで展開してもよい。分類器の結果が「リスク低」であれば、持続的に被検体を経過観察又はモニタリングすることを勧める、又は、介入療法の潜在的な適用対象として被検体に介入療法を勧めることができる。分類器の結果が「リスク高」であれば、摘出生検を勧めるができる。分類器は、更なる検査を必要する被検体には摘出生検を促し、必要としない被検体に摘出生検を行うことを回避することができる。分類器は、確定診断のできない肺結節の数を最小化することができる。分類器にかかる被検体集団は、LDCTなどにより肺病変の存在が確定されている被検体を含んでもよい。
[170] 気管支鏡検査又はその他の侵襲的処置(TTNAやVATSなど)により癌を診断すると、陽性の結果が出ることがあれば、気管支鏡検査を用いても確定診断ができないこともある。このような場合、気管支鏡検査を用いても確定診断ができないときは、試料を被検体から採取し、1つ以上の発現レベルをアッセイした後、その発現レベルを分類器(気管支ゲノム分類器など)に入力し得るる。分類器(気管支ゲノム分類器など)による結果が「中度のリスク」であると、被検体は気管支鏡検査又はその他の侵襲的処置をもう一度受け得る。分類器(気管支ゲノム分類器など)による結果が「リスク低」であると、被検体はLDCTをもう一度受け得る。ある場合には、気管支鏡検査により、癌、又は悪性の結果が得られることがある。気管支鏡検査又はその他の侵襲的処置から癌、又は悪性の結果が出された被検体は、罹患組織を外科的に切除し得る。罹患組織に対して外科切除を行うことができれば、試料を被検体から採取し、1つ以上の発現レベルをアッセイした後、その発現レベルを分類器(Nasa-Recurrence分類器など)に入力し得る。癌、例えば早期癌を検出して外科切除を行った後、分類器(Nasa-Recurrence分類器など)は、モニタリングを通じて再発を早期に予測することができる。分類器(Nasa-Recurrence分類器など)の結果が「再発のリスクなし」であれば、後の時点で被検体から第2の試料を採取し、1つ以上の発現レベルをアッセイした後、その発現レベルを分類器(Nasa-Recurrence分類器など)にかけ得る。分類器(Nasa-Recurrence分類器など)の結果が「再発のリスクあり」であれば、試料を被検体から採取し、試料に対して突然変異試験、免疫毒性試験、又はこれらの任意の組み合わせを行い得る。突然変異試験や免疫毒性試験の結果に基づいて、被検体に治療法を勧め、治療法のモニタリングや第2の突然変異試験又免疫毒性試験を行い得る。
[171] 分類器(Nasa-Recurrence分類器など)を訓練させ、癌の再発につき、被検体に対して非侵襲的モニタリングを行うようにしてもよい。又は、分類器を訓練させ、腫瘍の根治的外科切除を受けた被検体に対して腫瘍や癌の再発をモニタリングできるようにしてもよい。分類器は再発を感知するか、再発する疑いが低いと判定することになる。被検体集団は、肺癌の治療のために外科切除を受けている被検体を含んでもよい。分類器は、疾患の再発を早期で特定することができる。
[172] 癌又は悪性として特定された罹患組織に対して外科切除が行えない場合、被検体から試料を採取し、突然変異試験又免疫毒性試験を行ってもよい。
試料
[173] 被検体から1つ以上の試料を採取し得る。1つ以上の試料は同種の試料、例えば1つ以上の生検試料であってもよい。被検体から採取された1つ以上の試料は異なる種類のもの、例えば、それぞれ生検と穿刺吸引法により得た試料であってもよい。
[174] 試料の種類には、血液試料、組織試料、画像試料が含まれてもよい。試料は、無細胞DNAを含んでもよい。血液試料は、無細胞DNAも含んでもよい。血液試料は、血球を含んでもよい。血液試料は、血清又は血漿を含んでもよい。組織試料は、摘出生検、外科切除、針吸引法、穿刺吸引法、組織拭き取り、組織擦過、又はこれらの任意の組み合わせにより採取されることができる。組織試料は、上皮細胞、血液細胞、又はこれらの任意の組み合わせを含んでもよい。組織試料は、癌性細胞、非癌性細胞、又はこれらの任意の組み合わせを含んでもよい。画像試料は、気管支鏡検査、CTスキャン(低線量CTスキャンなど)、VATS、又はTTNA、又はこれらの任意の組み合わせによって取得できる。
[175] 試料は、分離して精製した試料であってもよい。試料は、新たに分離した試料であってもよい。新たに分離した試料から細胞を分離し、培養してもよい。試料は1つ以上の細胞を含んでもよい。分離した試料は、細胞の不均一な混合物を含んでもよい。細胞の均一な混合物を含むように試料を精製してもよい。試料には約100個、約1,000個、約5,000個、約10,000個、約20,000個、約30,000個、約40,000個、約50,000個、約60,000個、約70,000個、約80,000個、約90,000個、約100,000個、約150,000個、約200,000個、約250,000個、約300,000個、約350,000個、約400,000個、約450,000個、約500,000個、約550,000個、約600,000個、約650,000個、約700,000個、約750,000個、約800,000個、約850,000個、約900,000個、約950,000個、又はそれ以上の細胞を含んでもよい。試料は、約30,000個〜約1,000,000個の細胞を含んでもよい。試料は、約20,000個〜約50,000個の細胞を含んでもよい。試料は、約100,000個〜約400,000個の細胞を含んでもよい。試料は、約400,000個〜約800,000個の細胞を含んでもよい。
[176] 試料は上皮細胞が含んでもよい。試料は血球を含んでもよい。試料は、鼻組織、口腔組織(歯肉組織、頬組織、舌組織など)、咽頭組織、喉頭組織、気管組織、気管支組織、肺組織、又はこれらの任意の組み合わせが含まれてもよい。
[177] 分類器は1つ以上の訓練用試料を用いて訓練されてもよい。分類器は種類の異なる1つ以上の訓練用試料を用いて訓練されてもよい。訓練用試料の種類には、摘出生検、組織切除、針吸引、穿刺吸引法、血液試料、無細胞DNA試料、画像又は撮影データ(CTスキャンなど)、又はこれらの任意の組み合わせが含まれてもよい。分類器は、摘出生検や穿刺吸引法による試料など、少なくとも2種類の訓練用試料を用いて訓練されてもよい。分類器は、摘出生検と穿刺吸引法による試料、血液試料など、少なくとも3種類の訓練用試料を用いて訓練されてもよい。分類器は、摘出生検と穿刺吸引法による試料、CTスキャンから得た画像など、少なくとも3種類の訓練用試料を用いて訓練されてもよい。分類器は、摘出生検と穿刺吸引法による試料、血液試料、CTスキャンから得た画像など、少なくとも4種類の訓練用試料を用いて訓練されてもよい。
[178] 訓練用試料は、一人以上の被検体から採取してもよい。被検体は出生国が異なってもよい。被検体は居住地が異なってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、少なくとも約2ヶ国、3ヶ国、4ヶ国、5ヶ国、6ヶ国、7ヶ国、8ヶ国、9ヶ国、10ヶ国、11ヶ国、12ヶ国、13ヶ国、14ヶ国、15ヶ国、16ヶ国、17ヶ国、18ヶ国、19ヶ国、又は20ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、少なくとも約3ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、少なくとも約5ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、少なくとも約10ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、約2ヶ国〜約10ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、約3ヶ国〜約15ヶ国であってもよい。訓練用試料における被検体の出生国は、それぞれ異なる、約2ヶ国〜約20ヶ国であってもよい。訓練用試料における被検体の居住地は、少なくとも約2ヶ所、3ヶ所、4ヶ所、5ヶ所、6ヶ所、7ヶ所、8ヶ所、9ヶ所、10ヶ所、11ヶ所、12ヶ所、13ヶ所、14ヶ所、15ヶ所、16ヶ所、17ヶ所、18ヶ所、19ヶ所、又は20ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、少なくとも約3ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、少なくとも約5ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、少なくとも約10ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、約2ヶ所〜約10ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、約3ヶ所〜約15ヶ所のそれぞれ異なる場所であってもよい。訓練用試料における被検体の居住地は、約2ヶ所〜約20ヶ所のそれぞれ異なる場所であってもよい。
[179] 訓練用試料は、肺癌などの疾病罹患の疑いのある被検体、疾病(肺癌など)の確定診断を受けている被検体、既に疾病(良性肺疾患など)を有している被検体、LDCTにより肺結節が特定されている被検体、非喫煙者の被検体、非喫煙者であるが受動喫煙にさらされている被検体、喫煙者の被検体、禁煙している被検体、生涯に少なくとも約1本、約10本、約20本、約100本、約200本、約300本、約400本、約500本、約600本、約700本、約800本、約900本、約1,000本、約2,000本、約3,000本、約4,000本、約5,000本、約10,000本、約11,000本、約12,000本、約13,000本、約14,000本、約15,000本、約16,000本、約17,000本、約18,000本、約19,000本、約20,000本、約30,000本、約40,000本、約50,000本、約60,000本、約70,000本、約80,000本、約90,000本、約100,000本、約200,000本、約300,000本、約400,000本、約500,000本、又はそれ以上のタバコ、葉巻、又は電子タバコを吸っている被検体、疾病(肺癌など)を発症する遺伝的リスクが増加している被検体、免疫抑制療法を受けた被検体、慢性肺感染症に罹患している被検体、又はこれらの任意の組み合わせから採取された1つ以上の試料を含んでもよい。一部において、被検体は、生涯に約1本〜約10本のタバコ、葉巻、又は電子タバコを吸っていてもよい。一部において、被検体は、生涯に約1本〜約100本のタバコ、葉巻、又は電子タバコを吸っていてもよい。一部において、被検体は、生涯に約1本〜約1000本のタバコ、葉巻、又は電子タバコを吸っていてもよい。一部において、被検体は、生涯に約1000本〜約10,000本のタバコ、葉巻、又は電子タバコを吸っていてもよい。一部において、被検体は、生涯に約10,000本〜約50,000本のタバコ、葉巻、又は電子タバコを吸っていてもよい。一部において、被検体は、生涯に約10,000本〜約100,000本のタバコ、葉巻、又は電子タバコを吸っていてもよい。
[180] 喫煙者とは、生涯に少なくとも約1本、約5本、約10本、約20本、約30本、約40本、約50本、約60本、約70本、約80本、約90本、約100本、約200本、約300本、約400本、又は約500本のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、生涯に少なくとも約100本のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、生涯に少なくとも約500本のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約5箱、約10箱、約20箱、約30箱、約40箱、又は約50箱を超えるタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約5箱を超えるタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約10箱を超えるタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約20箱を超えるタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約30箱を超えるタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約1箱〜約12箱(又はそれ以上)のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約10箱〜約25箱のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約25箱〜約50箱のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。
喫煙者とは、1年に約1箱〜約50箱のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。喫煙者とは、1年に約10箱〜約50箱のタバコ、葉巻、又は電子タバコを吸っている者であってもよい。
[181] 訓練用試料は、疾病(肺癌など)の陽性診断を受けた喫煙者、疾病(肺癌など)の陰性診断を受けた喫煙者、診断を受けたことがない喫煙者、受動喫煙にさらされ疾病(肺癌など)の陽性診断を受けた非喫煙者、受動喫煙にさらされたが疾病(肺癌など)の陰性診断を受けた非喫煙者、受動喫煙にさらされたが診断を受けたことがない非喫煙者、疾病(肺癌など)の陽性診断を受けた非喫煙者、疾病(肺癌など)の陰性診断を受けた非喫煙者、診断を受けたことがない非喫煙者、又はこれらの任意の組み合わせから採取された1つ以上の試料を含んでもよい。
[182] 訓練用試料又は検証用試料から1つ以上の種類のゲノム情報を得てもよい。例えば、1つ以上の遺伝子(バイオマーカーパネルの遺伝子)の発現レベルに対して試料のアッセイを行い得る。1つ以上の遺伝子の有無について試料のアッセイを行ってもよい。発現レベル、リードの計数、配列変異体、融合体、ヘテロ接合性の消失(LOH)、ミトコンドリア転写物、これらのうち1つ以上、又はこれらの任意の組み合わせについて試料のアッセイを行ってもよい。
[183] 試料は、同被検体から1回以上採取されてもよい。例えば、被検体からまず第1の試料を採取することができ、それから約1年後に第2の試料を採取することができる。毎日、週に数回、隔週、毎週、隔月、毎月、隔年、毎年、2年ごと、3年ごと、4年ごと、又は5年ごとに同被検体から試料を採集してもよい。一部の例示では、第1試料は特定の時点で採取し、少なくとも1日、2日、3日、4日、5日、6日、1週間、2週間、3週間、1ヵ月、2ヵ月、3ヶ月、4ヶ月、5ヵ月、6ヶ月、1年、2年、3年、4年、5年、又はそれ以上の間を置いて、第2の試料を採取することができる。第2の試料から得た結果を第1の試料から得た結果と比べ、被検体における疾患の進行度、処方された治療又は処置の有効性、疾病を発症するリスクの変化、又はこれらの任意の組み合わせをモニタリングしてもよい。
[184] 分類器は1つ以上の特徴を探し出せるように訓練されてもよい。特徴は、疾病(肺癌など)、組織型(肺組織など)、集団(類似の遺伝的構造を有する被検体の集まり)、曝露リスク(環境汚染又は受動喫煙)、損傷プロファイル、又はこれらの任意の組み合わせであってもよい。分類器は、スクリーニングアッセイ、診断アッセイ、治療計画、モニタリング計画、又はこれらの任意の組み合わせの一部であってもよい。
[185] 本開示は、試料を採集した後、本開示における1つ以上の方法により分析するまで、秒、分、時、日、週、月、年単位の期間、試料を保存する方法を提供する。一部において、被検体から採取された試料は、試料の各部分に対してその後異なる方法や工程(保存、細胞分析、妥当性試験、核酸抽出、分子プロファイリング、又はこれらの任意の組み合わせを含むが、これに限らない)を行えるよう、保存や更なる分析の前に細分されてもよい。
[186] 一部において、試料の一部を保存し、別の部分を更に操作してもよい。操作には、分子プロファイリング、組織染色、核酸(RNA又はDNA)の抽出・検出・定量化、遺伝子発現物質(RNA又はタンパク質)の抽出・検出・定量化、固定、検査が含まれるが、これらに限らない。グルタルアルデヒド、ホルムアルデヒド、又はメタノールを使用するなど、本分野で既知の方法により、保存の前、又は保存中に試料を固定してもよい。他の例示において、試料を採取して保存し、その後、試料の各部分に対してその後異なる方法や工程(保存、細胞分析、妥当性試験、核酸抽出、分子プロファイリング、又はこれらの任意の組み合わせを含むが、これに限らない)を行えるように細分してもよい。一部において、試料を採取して分析(例えば細胞分析)を行い、その結果として得られた試料を本明細書に記載された1つ以上の分子プロファイリング方法により更に分析してもよい。その場合、細胞分析と分子プロファイリングの間に、試料を保存しておくことになる。採取の際に試料を保存して輸送を促進するか、他の分析結果を待ってもよい。他の実施例体において、医師や他の医療従事者からの指示が来るまで試料を保存しておいてもよい。
[187] 細胞アッセイは、例えば甲状腺腫瘍又は結節を含む様々な腫瘍に対する現行の標準診断法である。本開示の一部の実施形態において、陰性、不明、診断確定、診断未確定などとアッセイを受けた試料に対して次のアッセイを行い、更なる情報を収集してもよい。本開示において、後続のアッセイには、ゲノムDNA、RNA、mRNA発現産物レベル、miRNAレベル、遺伝子発現産物レベル、又は遺伝子発現産物の選択的スプライシングの分子プロファイリングが含まれ得る。本開示の一部の実施形態において、分子プロファイリングとは、生体試料におけるゲノムDNAの数(コピー数など)及び/又は種類の判定を指す。一部において、数及び/又は種類を、対照試料や正常と見なされる試料と更に比較してもよい。一部の実施形態において、ゲノムDNAを、コピー数多型(コピー数の増加(増幅)又は減少)や変異体(挿入、欠失、切断など)について分析することもできる。分子プロファイリングは、同じ試料、同じ試料の一部、又は本明細書に記載のうちいずれかの方法を用いて新しく得た試料に対して行ってもよい。分子プロファイリングを行う企業は、個人に直接、又は仲介者(医師、第三者の試験センタや研究所、医療従事者など)を介して、追加の試料を要請する場合もある。一部において、試料アッセイの際、分子プロファイリング分野で用いられる方法や組成物を、組織染色法やその他の診断法と組み合わせて使用してもよい。他の例示において、組織染色法やその他の診断法を事前に採用せず、分子プロファイリング分野で用いられる方法や組成物のみを用いて試料を直接アッセイしてもよい。一部において、分子プロファイリングのみを用いた場合でも、又は組織アッセイや他のアッセイと組み合わせて用いた場合でも、当業者であれば、被検体を診断し、治療を提案することができる。一部において、分子プロファイリングのみを用いた場合でも、又は組織アッセイや他のアッセイと組み合わせて用いた場合でも、腫瘍又は腫瘍と疑わしきものの悪性変改を経時的にモニタリングすることができる。
[188] 本開示の分子プロファイリングは、被検体から採取された1つ以上の試料からタンパク質又は核酸(RNA又はDNA)を抽出し分析する方法を提供する。一部において、採取された試料全体から核酸を抽出する。他の例示において、採取された試料の一部から核酸を抽出する。一部において、核酸を抽出していない試料の部分は、細胞検査又は免疫組織化学法により分析される。一部において、被検体において互いに近接する部位から複数の試料を採取し得る。例えば、最大約500ミリメートル(mm)、400mm、300mm、200mm、100mm、90mm、80mm、70mm、60mm、50mm、40mm、30mm、20mm、10mm、9mm、8mm、7mm、6mm、5mm、4mm、3mm、2mm、1mm、又はその以下の距離を置いて離れている異なる2ヵ所から2つの異なる試料を採取し得る。一部において、複数の試料(例えば、近接部位から採取されたもの)を異なる方法により分析し得る。例えば、細胞検査又は免疫組織化学法により第1の試料を分析してもよく、分子プロファイリングにより第2の試料を分析してもよい。
[189] 一部の実施形態において、本開示の方法は、核酸分子(例えば、DNA、RNA)を、被検体の組織試料から抽出し、核酸シーケンシングライブラリーを生成することを含む。例えば、核酸ライブラリーは、逆転写(RT−PCR)により分離されたRNAから生成されたcDNAを増幅することにより生成することができる。一部において、cDNAは、ポリメラーゼ連鎖反応(PCR)により増幅され得る。
分類器
[190] データの固有特性を調べることにより特徴の関連性を評価するFilter型手法、特徴サブセット検索にモデル仮設を埋め込むWrapper型手法、最適の特徴セットの検索を分類器アルゴリズムに組み立てるEmbedded型手法を含む、特徴選択法を用いて、試料の強度値を分析することができる。
[191] 本開示の方法に有用に用いられるFilter型手法には、(1)二標本t検定、ANOVA分析、ベイズフレームワーク、ガンマ分布モデルなどを使用するパラメトリック法、(2)Wilcoxon順位和検定、級間・級内平方和検定、順位積法、ランダム順列法、又は2つのデータ間の発現の円貨倍率ついて閾値を設定し、誤分類の数を最小化する各遺伝子の閾値を検出することを含むTNoMを使用するモデルフリー法、(3)二変量法、相関性による特徴選択法(CFS)、最小重複性・最大関連性法(MRMR)、マルコフブランケットフィルター法、非層間収縮重心法のような多変量法が含まれる。本開示の方法に有用に用いられるWrapper型手法には、逐次検索法、遺伝的アルゴリズム、分布推定アルゴリズムが含まれる。本開示の方法に有用に用いられるEmbedded型手法には、ランダムフォレストアルゴリズム、サポートベクターマシン重みベクターアルゴリズム、ロジスティクス回帰重みアルゴリズムが含まれる。Bioinformatics. 2007 Oct 1; 23(19):2507-17では、強度データ分析に用いられる上記のFilter型手法の利点を概説している。
[192] 次いで、分類器アルゴリズムを用いて選択された特徴を分類し得るる。アルゴリズムの例示には、主成分分析アルゴリズム、部分最小二乗法、独立成分分析アルゴリズムなど、変数の数を低減させる方法が含まれるが、これに限らない。また、アルゴリズムの例示には、統計的方法や機械学習に基づく方法など、大量の変数を直接取り扱う方法が含まれるが、これに限らない。統計的方法には、罰則付きロジスティック回帰、マイクロアレイ予測分析(PAM)、収縮重心(shrunken centroids)に基づく方法、サポートベクターマシン分析、正則化線形判別分析が含まれる。機械学習には、バギング法、ブースティング法、ランダムフォレストアルゴリズム、及びこれらの任意の組み合わせが含まれる。Cancer Inform. 2008; 6: 77-97では、マイクロアレイ強度データの分析に用いられる上記の分類手法を概説している。
[193] 本方法及びアルゴリズムは、1)低量及び/又は低品質の核酸を含有する試料の遺伝子発現分析、2)偽陽性率及び偽陰性率の顕著な低下、3)結果として生じる病理の原因となる遺伝的経路、代謝経路、又はシグナル伝達経路の確定、4)遺伝性障害の診断精度に対する統計的確率、疾病を発症するリスク、疾病における変化のモニタリング、介入療法の有効性、又はこれらの任意の組み合わせの割り当て、5)不明確な結果の解消、6)肺疾病又は肺疾病の亜型との区別、を可能とする。
[194] 一部の実施形態において、本開示の方法は、特定の生体試料の細胞構成を判定し、結果として得た分子プロファイリング指標を他の細胞型及び/又は組織型の存在による希釈効果に対して較正させる、アップフロント法を提供する。一態様において、アップフロント法は、試料の各成分に対するアップフロントのミニ分類器として既知の細胞及び/又は組織に特異的な遺伝子発現パターンの組み合わせる用いるアルゴリズムである。アルゴリズムは、この分子指紋を用いることで、組成に応じて試料を予備分類し、補正/正規化因子を適用する。このデータは、場合によって、最終診断を補助する情報を取り組む最終分類アルゴリズムに送り込まれ得る。
[195] 生遺伝子の発現レベルと選択的スプライシングデータは、一部において、データの正規化を目的として、及び/又はデータの信頼性を高めることを目的として設計されたアルゴリズムを適用することで改善することができる。本開示の一部の実施形態において、データ分析では処理すべき個々のデータポイントの数を非常に多いので、本明細書に記載の様々なアルゴリズムを適用するためには、コンピュータや他の装置、マシン、又は機器を必要とする。「機械学習アルゴリズム」とは、遺伝子発現プロファイルの特徴付けに採用されるコンピュータ実行型予測の方法論であり、当業者には「分類器」として公知である。通常、例えばマイクロアレイに基づくハイブリダイゼーション分析から得得る、特定の発現レベルに対応するシグナルを、発現プロファイル分類のために、アルゴリズムにかけ得る。教師付きの学習では、一般的に、分類器を「訓練」してクラス間の差異を認識させ、独立したテストセットを以って分類器の精度を「テスト」する。新たに採取された未知の試料については、分類器を用いて試料が属するクラスを予測することができる。
[196] 一部において、ロバストマルチアレイ平均(RMA)法を用いて生データを正規化してもよい。RMA法では、まず、多数のマイクロアレイ上のマッチする各細胞についてバックグラウンド補正強度を算出する。そしてIrizarry et al. Biostatistics 2003 Apr. 4 (2): 249-64に記載されているように、バックグラウンド補正値を正の値に制限し得る。バックグラウンド補正の後、マッチングとバックグラウンド補正を行った各細胞の強度の底を2とする対数が得られ得る。各マイクロアレイ上の、バックグラウンド補正、対数変換、マッチングをかけた強度を、各入力アレイ及び各プローブ発現値に対してアレイパーセンタイルプローブ値を全アレイパーセンタイル点の平均値と取り替えられる分立正規化法を用いて正規化し得る。この方法につき、より詳しくはBolstad et al. Bioinformatics 2003に記載され得る。各マイクロアレイ上の各プローブに対する発現測定値を得るために、分立正規化の後、正規化データを線形モデルに適合させることができる。TukeyのMedian Polishアルゴリズム(Tukey, J. W., Exploratory Data Analysis. 1977)を使用し、正規化プローブセットデータについて対数スケールの発現レベルを測定してもよい。
[197] データを更にフィルタリングし、疑わしいデータを取り除いてもよい。一部の実施形態において、約1個、2個、3個、4個、5個、6個、7個、又は8個より少ないグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブから由来するデータは、異常ハイブリダイゼーションが生じる傾向や二次構造上の問題のため、信頼性が低いと考えられ得る。約4個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約6個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約8個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約4個〜約8個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。同様に、約8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブから由来するデータは、異常ハイブリダイゼーションが生じる傾向や二次構造上の問題のため、信頼性が低いと考えられ得る。約10個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約15個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約20個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約25個以上のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約8個〜約30個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約10個〜約30個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約12個〜約30個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。約15個〜約30個のグアノシン+シストシンヌクレオチドを有するマイクロアレイプローブは、信頼性が低いと考えられ得る。
[198] 一部において、信頼性の低いプローブセットを選択し、一連の参照データセットに対してプローブセットの信頼性にランクを付けることにより、データ分析から除外してもよい。例えば、RefSeqやEnsembl (EMBL)は、極めて高品質の参照データセットと考えられ得る。RefSeqやEnsembl配列とマッチするプローブセットから得たデータは、一部において、その高い信頼性により、特にマイクロアレイ分析実験に使用され得る。同様に、信頼性の低い参照データセットとマッチするプローブセットから得たデータは、更なる分析から取り除かれてもよく、含めるか否かを個別的に検討されてもよい。一部において、EnsemblのハイスループットcDNA及び/又はmRNA参照データセットは別々に、又は共に、プローブセットの信頼性判定に用いられ得る。他の例示において、プローブセットの信頼性はランク付けをされ得る。例えば、全ての参照データセットに完璧にマッチするプローブ及び/又はプローブセットは、最も信頼性が高いものとしてランク付けをされ得る(1)。更に、3つの参照データセットのうち2つとマッチするプローブ及び/又はプローブセットは、二番目に信頼性が高いものとしてランク付され得る(2)。3つの参照データセットのうち1つとマッチするプローブ及び/又はプローブセットは、三番目に信頼性が高いものとしてランク付けされ得る(2)。そして、マッチする参照データがないものは、信頼性が最も低いものとしてランク付けされ得る(4)。ランクに基づいて、プローブ又はプローブセットを分析に含んでもよく、取り除いてもよい。例えば、更なる分析に用いるために、カテゴリー1、2、3、4のプローブセットからのデータを選んでもよく、カテゴリー1、2、3のプローブセットからのデータを選んでもよく、カテゴリー1及び2のプローブセットからのデータを選んでもよく、又はカテゴリー1のプローブセットからのデータのみを選んでもよい。別の例において、プローブセットは、参照データセットエントリーに対する塩基対ミスマッチの数に基づいてランク付けされてもよい。言い換えれば、分子プロファイリングに用いられる所定のプローブ及び/プローブセットの信頼性を評価する従来の方法が多数あり得、本開示の方法は、これらの方法やその組み合わせを網羅するものである。
[199] 遺伝子発現レベル、又は選択的スプライシングのデータ分析法には、本明細書に記載の特徴選択アルゴリズムの使用が更に含まれ得る。本開示の一部の実施形態において、LIMMAソフトウェアパッケージ(Smyth, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420)を用いて特徴選択を行う。
[200] 遺伝子発現レベル及び/又は選択的スプライシングのデータ分析法には、予備分類器アルゴリズムの使用が更に含まれ得る。例えば、アルゴリズムは、細胞特異的な分子指紋を使用することで、組成に応じて試料を予備分類して、補正/正規化因子を適用し得る。次いで、このデータ/情報を、最終診断、予後、又はモニタリング評価を補助する情報を取り組む最終分類アルゴリズムに送り込み得る。
[201] 遺伝子発現レベル及び/又は選択的スプライシングのデータ分析法には、本明細書に記載の分類器アルゴリズムの使用が更に含まれ得る。本開示の一部の実施形態において、サポートベクターマシン(SVM)アルゴリズム、ランダムフォレストアルゴリズム、又はこれらの任意の組み合わせが、マイクロアレイデータ分類に用いられる。一部の実施形態において、試料の区別(例えば、良性か悪性か、正常か悪性か、低リスクか高リスクか)、又は種類の区別(例えば、ILDか肺癌か)を特定するマーカーを、統計的優位性に基づいて選択し得る。一部において、偽検出率(FDR)に対するBenjamini Hochberg補正を適用し、統計的優位性選択を行う。
[202] 一部において、Fishel and Kaufman et al. 2007 Bioinformatics 23(13): 1599-606に記載されているメタ分析アプローチにより分類器アルゴリズムを補足し得る。一部において、再現性分析などのメタ分析アプローチにより分類器アルゴリズムを補足し得る。一部において、再現性分析では、少なくとも1つの予測的発現産物マーカーセットに出現するマーカーを選択する。
[203] 一部において、ヘイズ事後分析法を用いて、特徴選択・分類の結果のランク付けを行い得る。例えば、本明細書に記載のものなど、既知の方法を用いてマイクロアレイデータに対して抽出、正規化、要約を行い得る。次いで、本明細書に記載のアルゴリズム又は方法(LIMMAにより提供される特徴選択法を含むが、これに限らない)など、既知の特徴選択法を適用し、データに特徴分析をかけ得る。その後、本明細書に記載の方法(SVMやランダムフォレストアルゴリズムの使用を含むが、これに限らない)など、既知のアルゴリズムや方法を適用し、データに分類をかけ得る。次いで、事後確率関数に従って分類器アルゴリズムの結果をランク付けし得る。例えば、マーカーをカテゴリー(例えばILD、COPD、肺癌など)に割り当てる際の第1の種及び第2の種の誤差率から事後確率を導出するために、既知の分子プロファイリング結果、例えば出版公開された結果を検査して事後確率関数を導出し得る。誤差率は、推定変化倍率値(例えば、1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、2.2倍、2.4倍、2.5倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、又はそれ以上)を用いて、各研究で報告された試料サイズに基づき計算され得る。変化倍率値は、約0.5倍、約0.8倍、約1.0倍、約1.1倍、約1.2倍、約1.3倍、約1.4倍、約1.5倍、約1.6倍、約1.7倍、約1.8倍、約1.9倍、約2.0倍、約2.1倍、約2.2倍、約2.3倍、約2.4倍、約2.5倍、約2.6倍、約2.7倍、約2.8倍、約2.9倍、約3.0倍、約3.5倍、約4.0倍、約4.5倍、約5.0倍、約5.5倍、約6.0倍、約6.5倍、約7.0倍、約7.5倍、約8.0倍、約8.5倍、約9.0倍、約9.5倍、又は約10.0倍であってもよい。変化倍率値は、約0.5倍〜約10.0倍であってもよい。変化倍率値は、約0.5倍〜約1.0倍であってもよい。変化倍率値は、約0.5倍〜約5.0倍であってもよい。変化倍率値は、約2.0倍〜約8.0倍であってもよい。変化倍率値は、約2.0倍〜約6.0倍であってもよい。変化倍率値は、約6.0倍〜約10.0倍であってもよい。変化倍率値は、約5.0倍〜約10.0倍であってもよい。変化倍率値は、約8.0倍〜約10.0倍であってもよい。次いで、事前確率を、本開示の分子プロファイリングデータセットと組み合わせ、差次的な遺伝子発現の事後確率を推定し得る。最後に、事後確率推定値を、本開示の第2のデータセットと組み合わせ、差次的な発現の最終事後確率を公式化し得る。事後確率を導出しマイクロアレイデータの分析に適用する付加的な方法は、本技術分野において既知のものであり得、例えば、Smyth, G.K. 2004 Stat. Appl. Genet. Mol. Biol. 3: Article 3に記載されている。一部において、事後確率を用いて分類器アルゴリズムにより提供されるマーカーをランク付けしてもよい。一部において、事後確率に従ってマーカーのランク付けを行い、所定の閾値を超えるものを、例えば、良性、悪性、正常、低リスク、高リスク、又は疾病の種類(ILD、COPD、肺癌)などの試料を示す、又はその試料に対する診断結果を示す差次的発現を有するマーカーとして選んでもよい。閾値の例には、少なくとも約0.7、約0.75、約0.8、約0.85、約0.9、約0.925、約0.95、約0.975、約0.98、約0.985、約0.99、約0.995、又はそれ以上の事前確率が含まれる。確率は少なくとも約0.7であってもよく、少なくとも約0.75であってもよく、少なくとも約0.8であってもよく、少なくとも約0.85であってもよく、少なくとも約0.9であってもよく、少なくとも約0.95であってもよく、少なくとも約0.99であってもよい。確率は約0.75〜約0.995であってもよく、約0.80〜約0.995であってもよく、約0.85〜約0.995であってもよく、約0.9〜約0.995であってもよく、約0.85〜約0.95であってもよく、約0.8〜約0.95であってもよく、約0.75〜約0.95であってもよい。
[204] 分子プロファイリング結果の統計的評価は、診断精度の尤度、癌、疾患又は疾病の尤度、特定の癌、疾患又は疾病の尤度、特定の介入療法成功の尤度のうち1つ以上を示す定量値を提供してもよい。よって、遺伝学や分子生物学の素養を持たない疑いの高い医師が生データを理解する必要はなくなる。むしろデータは、患者の治療ガイドに最も有用な形式で直接医師に提示され得る。分子プロファイリングの結果は、既知の方法(スチューデントのT検定、両側T検定、ピアソンの順位和検定、隠れマルコフモデル分析、q−qプロットの分析、主成分分析、一元配置のANOVA、二元配置のANOVA、LIMMAなどを含むが、これに限らない)を用いて統計的に評価されることができる。
[205] 本開示の一部の実施形態において、訓練アルゴリズムを用いて結果を分類し得る。本開示の訓練アルゴリズムには、既知の良性試料、悪性試料、正常試料の参照セットを用いて開発されたアルゴリズムが含まれる。訓練用試料は、FNA試料、摘出生検試料、気管支鏡試料、又はこれらの任意の組み合わせを含んでもよい。試料のカテゴリー化に適合するアルゴリズムには、k近傍アルゴリズム、概念ベクトルアルゴリズム、単純ベイズアルゴリズム、ニューラルネットワークアルゴリズム、隠れマルコフモデルアルゴリズム、遺伝的アルゴリズム、相互情報特徴選択アルゴリズム、又はこれらの任意の組み合わせが含まれ得るが、これに限らない。一部において、本開示の訓練アルゴリズムは、遺伝子発現又は選択的スプライシングのデータ以外のデータ(DNA多型データ、シーケンシングデータ、本開示の細胞学者や病理学者による採点又は診断、本開示の予備分類器アルゴリズムにより提供される情報、又は本開示における被検体の病歴に関する情報を含むが、これに限らない)を取り組んでもよい。
[206] 逐次分析の初期に使用され得る分類器により、良性又は疑わしい試料、低リスクや高リスクの試料、ILDなしの試料やILDありの試料を選択又は除外することができる。一部の実施形態において、連続分析は、前の分類器により除外されていない試料のデータに「主」分類器を適用することで終了する。「主」分類器は、多数の種類の組織における遺伝子発現レベルのデータ分析から得られ、また試料を「良性」又は「疑わしい」(又は悪性)として指定することができる。
[207] 例示の分類プロセスにおける次のステップでは、試料の遺伝子発現レベルとバイオマーカーの第1のセット又は第1の分類器とを比べる第1の比較を行い得る。第1の比較の結果が「マッチ」であれば、「肺疾病を発症するリスク低」又は「高」の試料、又はILD又は肺癌を有する試料である、などの結果を出力して、分類プロセスを終了する。結果が「マッチ」でなければ、試料の遺伝子発現レベルを、第2の比較としてバイオマーカーの第2のセット又は第2の分類器と比べ得る。第2の比較の結果が「マッチ」であれば、(a)被検体は肺疾病に罹患しているとの診断と報告、(b)肺疾病を発症するリスクありとの報告、(c)介入療法の有効性の報告、(d)画像スキャン、他の試料採取法、気管支鏡検査、生検、外科切除、医薬組成物など、次にとるべき処置の推奨などの結果を出力して、分類プロセスを終了する。結果が「マッチ」でなければ、「マッチ」するまで、又は分類プロセスに含まれるバイオマーカーセットや分類器を全て使い切るまで、同様の段階的比較プロセスを繰り返す。一部の実施形態において、分類プロセスの最終比較は、本明細書に記載されているように、試料の遺伝子発現レベルと、主分類器との比較になる。
[208] 一部において、1つ以上の機械学習アルゴリズムを方法に採用してもよい。例えば、約2個、約3個、約4個、約5個、約6個、約7個、約8個、約9個、約10個、約11個、約12個、約13個、約14個、約15個、約16個、約17個、約18個、約19個、約20個、又はそれ以上の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約4個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約5個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約6個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約7個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約8個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約9個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約10個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約4個〜約10個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約6個〜約10個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約4個〜約8個の機械学習アルゴリズムを方法に採用してもよい。一部において、少なくとも約4個〜約15個の機械学習アルゴリズムを方法に採用してもよい。また、1つ以上の機械学習アルゴリズムを連続して方法に採用してもよい。一部において、機械学習アルゴリズムと融合呼び出しアルゴリズムの組み合わせを方法に採用してもよい。例えば、少なくとも1個の機械学習アルゴリズムと少なくとも1個の融合呼び出しアルゴリズムを方法に採用する。一部において、少なくとも5個の機械学習アルゴリズムと少なくとも1個の融合呼び出しアルゴリズムを方法に採用してもよい。一部において、少なくとも7個の機械学習アルゴリズムと少なくとも1つの融合呼び出しアルゴリズムを方法に採用してもよい。
[209] 本方法及びシステムは、試料における一つ以上のバイオマーカーの存在又は非存在を同定し得る。例えば、バイオマーカーは、表1、2、3、4、5、6、7、8、9、10、11、12、13、又はそれらの任意の組合せからのバイオマーカーを含むことができる。いくつかの場合において、バイオマーカーは、表1、表2、又はそれらの組み合わせからのバイオマーカーを含み得る。いくつかの場合において、バイオマーカーは、表1、表2、表3、又はそれらの任意の組合せからのバイオマーカーを含み得る。いくつかの場合において、バイオマーカーは、表4、表5、表6、表7、又はそれらの任意の組合せからのバイオマーカーを含み得る。いくつかの場合において、バイオマーカーは、表8、表9、表10又はそれらの任意の組合せからのバイオマーカーを含み得る。いくつかの場合において、バイオマーカーは、表11、表12、表13、又はそれらの任意の組合せからのバイオマーカーを含み得る。いくつかの場合において、バイオマーカーは、表1からのバイオマーカー又はそれらの任意の組合せを含むことができる。いくつかの場合において、バイオマーカーは、表2からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表3からのバイオマーカー又はそれらの任意の組合せを含むことができる。いくつかの場合において、バイオマーカーは、表4からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表5からのバイオマーカー又はそれらの任意の組合せを含むことができる。いくつかの場合において、バイオマーカーは、表6からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表7からのバイオマーカー又はそれらの任意の組合せを含むことができる。いくつかの場合において、バイオマーカーは、表8からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表9からのバイオマーカー又はそれらの任意の組合せを含むことができる。いくつかの場合において、バイオマーカーは、表10からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表11からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表12からのバイオマーカー又はそれらの任意の組合せを含み得る。いくつかの場合において、バイオマーカーは、表13からのバイオマーカー又はそれらの任意の組合せを含み得る。
[210] 1つ以上のバイオマーカーの有無、又は差次的発現は、肺癌、IPF、ILD、COPD、又はこれらの任意の組み合わせなどの疾病を発症する1つ以上のリスク因子の存在を示すものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、疾病(肺癌、IPF、ILD、COPDなど)の予防又は治療を目的とする介入療法の有効性を特定するものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、被検体における疾病(肺癌、IPF、ILD、COPDなど)のリスク又は寛解を特定するものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、疾病(肺癌、IPF、ILD、COPDなど)に罹患する喫煙者と罹患しない喫煙者を区別するものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、疾病(肺癌、IPF、ILD、COPDなど)の診断、疾病(肺癌、IPF、ILD、COPDなど)の予後、又はこれらの任意の組み合わせを特定するものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、損傷範囲を特定するものであってもよい。1つ以上のバイオマーカーの有無、又は差次的発現は、第1の部位から採取された第1の細胞型又は第1の細胞の発現プロファイルと、第2の部位から採取された第2の細胞型又は第2の細胞の発現プロファイルとの関係を特定するものであってもよい。例えば、鼻組織における1つ以上のバイオマーカーの有無、又は差次的発現は、気管支組織における疾病(肺癌、IPF、ILD、COPDなど)の存在を示すものであってもよい。
[211]
[212]
[225]
[226] 表15は、非UIP亜型とUIP試料の間で有意に発現した遺伝子の数(p調整<0.05、倍率変化>2)(n=212)を示す。差次的に発現する遺伝子のうち、UIP試料と非UIP試料間のそれと重複するものの数を3番目の列にまとめた。
[227]
[228] 表16は、線形混合効果モデルを用いる2つの分類器から得たスコアの変動性の推定を示す。百分率(%)は、分類スコアの5%〜95%の変位値の範囲に対する推定変動性の比率である。
[229] 本明細書に記載の分類器は、侵襲的処置を使用せず、IPF又は肺癌などの疾病を診断してもよい。教師なしのクラスタリング分析には、(i)小さい試料サイズ、(ii)疾患の異質性(例えば、非UIPパターン亜型疾患)、(iii)異なる試料のプール効果及びバッチ効果、又は(iv)これらの任意の組み合わせにより、(a)悪性組織と良性組織の区別、(b)UIPパターンと非UIPパターンの区別、(c)特定の発現パターンを有する試料とそうでない試料の区別、又は(d)これらの任意の組み合わせを行うことができないという短所がある。訓練済みの機械学習アルゴリズムであれば、上記の短所を補える。本明細書に記載の方法は、侵襲的処置の必要性を排除し、小さい試料サイズ、疾患の不均一性、又は異なる試料のプール効果及びバッチ効果という限界にも拘らず、高い臨床精度を備えた非侵襲的予後ツール、診断ツール、又はこれらの任意の組み合わせを提供することができる。一部において、RNA-seqデータは、機械学習アルゴリズムに入力される。同被検体から採取された試料でも異質性が生じることがある。例えば、組織病理的特徴は、組織(肺組織など)全体で均一性を有しないことがあり、遺伝子発現プロファイルは、試料の採取部位により異なり得る。疾患により異質性が生じることもある。例えば、非UIPパターンの存在は、異なる種類の疾患など、1つ以上の亜型疾患を示す。
[230] 一部において、被検体から1つ、2つ、3つ、4つ、5つ、6つ、7、8つ、9つ、10個、又はそれ以上の試料を採取して個別的に分析してもよい。一部において、被検体から2つの試料を採取して個別的に分析してもよい。一部において、被検体から3つの試料を採取して個別的に分析してもよい。一部において、被検体から4つの試料を採取して個別的に分析してもよい。一部において、被検体から5つの試料を採取して個別的に分析してもよい。一部において、被検体から6つの試料を採取して個別的に分析してもよい。一部において、被検体から7つの試料を採取して個別的に分析してもよい。部において、被検体から8つの試料を採取して個別的に分析してもよい。一部において、被検体から9つの試料を採取して個別的に分析してもよい。一部において、被検体から10個の試料を採取して個別的に分析してもよい。一部において、被検体から1〜10個の試料を採取して個別的に分析してもよい。一部において、被検体から1〜5の試料を採取して個別的に分析してもよい。一部において、被検体から1〜20個の試料を採取して個別的に分析してもよい。
[231] 分類器、例えばロック分類器は、検証セット(分類器の検証に用いられるもの)と比べ、互いに独立したテストセットにおいて、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを出してもよい。分類器は、少なくとも約5つの独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約10個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約50個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約100個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約500個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1000個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1つ〜約10個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1つ〜約100個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1つ〜約500個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1つ〜約1000個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。分類器は、少なくとも約1つ〜約5000個の独立テスト用試料において、実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持してもよい。
[232] 複数の独立テスト用試料において実質的に同じ精度、NPV、PPV、感度、特異度、又はこれらの任意の組み合わせを維持するために、バッチ効果を取り除くことができる。除去すると試料間で大きい変動をもたらすバイオマーカーを、分類器の選択特性やそれ以降の分析から取り除いてもよい。バッチ効果に非常に敏感なバイオマーカーを、以降の分析や選択特性から取り除いてもよい。それにより、複数の独立試料をかけても分類器の性能(精度、NPV、PPV、感度、特異度など)は、実質的に変わらないことになる。
[233] 本方法は、被検体から採取された複数の試料のうち、異質性を持つ被検体を特定することを含み得る。例えば、この方法は、一方の試料には非UIPパターンが割り当てられ、他方にはUIPパターンが割り当てられる被検体を特定することを含み得る。組織病理診断、遺伝子発現、又はこれらの組み合わせにより、同被検体から採取された試料から異質性を見付けることができる。例えば、UIPパターンと非UIPパターンの疾患は、異質である。非UIPパターンの疾患の区別又は診断に用いられるバイオマーカーは、それとは異なる非UIPパターンの疾患の区別又は診断には適用できなくてもよい。この場合、それぞれの疾患、亜型疾患、UIPパターン疾患、非UIPパターン疾患に対して、新規のバイオマーカーセットを作成し得る。又は、非UIPパターンの疾患の区別又は診断に用いられ得るバイオマーカーを、それとは異なる非UIPパターンの疾患の区別又は診断に適用し得る。
[234] 訓練セットの試料は、複数の症状(例えば、疾患や亜型疾患)を含んでもよい。独立テストセットの試料は、複数の症状(例えば、疾患や亜型疾患)を含んでもよい。独立テストセットの試料は、訓練セットの試料とは異なる少なくとも1種の疾患又は亜型疾患を含んでもよい。訓練セットの試料は、独立テストセットの試料とは異なる少なくとも1つの疾患又は亜型疾患を含んでもよい。独立テストセットの試料は、訓練セットの試料に加え、更に少なくとも2種の疾患又は亜型疾患を含んでもよい。例えば、更に含まれる少なくとも2種の疾患又は亜型疾患は、アミロイド沈着又は軽鎖沈着、外因性リポイド肺炎、組織化肺胞出血、又はこれらの任意の組み合わせである。独立テストセットに、訓練セットには含まれない1種以上の新規疾患又は亜型疾患が出現してもよい。訓練セットの試料は、独立テストセットの試料に加え、更に少なくとも2種の疾患又は亜型疾患を含んでもよい。
[235] この方法では、in silico試料で分類器の性能を評価してもよい。in silico試料は、特に試料サイズが小さい場合、独立テストセットでin vitro試料の混合をシミュレートすることができる。in silico試料は分類器の決定境界、分類器の最適性能に必要な試料の最適数、又はこれらの任意の組み合わせを決定するとき、役に立つ。この方法は、例えば、試料サイズが小さい場合など、プール試料に適用できる。
[236] 小さい試料サイズとは、100体、90体、80体、70体、60体、50体、40体、30体、25体、20体、15体、10体、又は5体未満の異なる被検体から採取された試料を指してもよい。小さい試料サイズとは、約50体〜約100体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約50体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約100体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約200体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約10体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約5体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体又は約2体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約15体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約1体〜約8体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約5体〜約50体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズとは、約5体〜約100体の異なる被検体から採取された複数の試料を指してもよい。小さい試料サイズは、小さいサイズの独立テスト用試料と訓練用試料を含んでもよい。小さい試料サイズは、被検体が罹患する疾患が大変珍しい亜型であるなどして、被検体の数が限られたことを意味してもよい。単一試料の複製、例えば単一試料の1つ、2つ、3つ、4つ、5つ、又はそれ以上の複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ又は約2つの複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約3つの複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約4つの複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約5つの複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約10個の複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約15個の複製を含むことで、小さい試料サイズを拡張してもよい。単一試料の約1つ〜約20個の複製を含むことで、小さい試料サイズを拡張してもよい。
[237] 実施例1
[238] 背景:侵襲的処置を使用せずとも特発性肺線維症(IPF)を正確に診断するために、IPFの特徴である一般の間質性肺炎(UIP)の組織病理的パターンを特定するRNA-seqデータを用いて、分類器を開発する。この場合、分類器の開発における様々な問題、例えば臨床設定のゲノムデータに機械学習を適用する際に生じる試料のサイズ、異質性、バッチ効果などに直面することになる。
[239] 方法論:エクソーム濃縮RNAシーケンシングを、訓練アルゴリズムで用いられる、90人の患者から得た354個の経気管支生検(TBB)試料に対して実行する。別途の検証として、追加の患者49人から得た3〜5個の個別TBB試料から構成されるプールTBB試料に対してシーケンシングを行う。教師なしのクラスタリングと差次的発現遺伝子分析を行い、疾患の異質性を特徴付け、UIPと非UIPを区別できるゲノム特徴を選択する。小さな試料サイズと、潜在的な疾患異質性による問題を克服できるように、患者ごとに複数の試料を用いて機械学習アルゴリズムを訓練する。テストセットのプール試料を模倣するようにシミュレートしたin silico混合試料に対して評価を行う。テストセットで機械学習アルゴリズムを検証し、複数のバッチに亘る技術的な複製を用いてアルゴリズムの堅牢性を更に評価する。
[240] 結果:教師なしのクラスタリングと差次的遺伝子発現分析は、患者、特に非UIP群の間で高い異質性を示す。罰則付きロジスティック回帰モデルとEnsembleモデルを用いて開発された分類器は、患者ごとに複数の試料をテストする場合、交差検証で約0.9の受信者動作特特性曲線下面積(AUC)を以って組織病理的UIPを分類する。個々の訓練セットの試料からin silicoでシミュレートされるTBBプールを用いて決定境界を定義し、85%以上の特異度を最適化する。罰則付きロジスティック回帰モデルは、技術的な複製全体において高い再現性を示すので、最終モデルで選択してもよい。最終モデルは、分子テストの前に実験室でプールされた試料を使用すれば、独立テストセットにおいて感度70%・特異度88%を示す。
[241] 結論:試料のサイズ、疾患とサンプリングの異質性、プール効果やバッチ効果による問題を克服し、本明細書に記載の方法は、機械学習とRNA-seqを活用してUIPを特定する、非常に正確且つ堅牢な分類器を提供し得る。
[242] 前書き:間質性肺疾患(ILD)は、同様の臨床症状を伴い、肺間質に影響を与える様々な疾患で構成されている。特発性肺線維症(IPF)は、予後が最も悪く、最も一般的なILDである。IPFの原因はほとんど不明のままなので、正確且つタイムリーな診断を下すのは難しい。多くの場合、IPFの正確な診断には、臨床的特徴、放射線特徴、組織病理的特徴の学際的評価が必要なので(Flaherty等2004、Travis等2013:両方とも本文に援用されている)、患者は、明確な結果も出ないまま、長々と続く診断プロセスに苦労させられる。特に、IPFの特徴である一般の間質性肺炎(UIP)の存在を判定するためには、多くの場合、侵襲的手術による組織病理的判定が必要である。更に、組織病理的判定の質は、クリニックによって大きく変動し得るものである(Flaherty等2007:本文に援用されている)。従って、患者の苦労を軽減し、医師が自信を持って臨床診断を迅速に行い、より良い治療決定を下せるようにするためには、手術を必要とせずUIPと非UIPを区別する、一貫性と正確性を兼ね備えた非侵襲的な診断ツールが非常に重要である。
[243] このような新規の診断ツールを作り上げるためには、エクソーム濃縮RNAシーケンシングデータは、手術より非侵襲性である気管支鏡検査を介して採取された経気管支生検試料(TBB)から利用できる。研究によると、トランスクリプトミクスデータのゲノム情報は、癌やその他の慢性疾患などの表現型の変化を示し(Tuch等2010、Twine等2011:両方とも本文に援用されている)、その複雑な特性は疾患に対して明らかな関連性を持たないものを含む、ゲノム全体に広がる複数の遺伝子によるものである(Boyle 2017:本文に援用されている)。更に重要なことに、トランスクリプトミクスデータを使用してUIPを特定することの実現可能性は、既に確立されている(Pankratz等2017:本文に援用されている)。本明細書に記載の方法及びシステムは、上記の問題に解消する分析的解決策を提供する。
[244] 機械学習法は生物医学的問題の解決に幅広く適用され、それによって研究者は生物学的経路を構築し、臨床的に関連する疾患を特定し、疾患リスクをより正確に予測できるようになり、乳癌(Sorlie等:本文に援用されている)、膠芽腫(Brennan等:本文に援用されている)などの疾患への理解を深めてきた。ただし、最近の機械学習は、医療画像データやソーシャルメディアデータなどの大規模なデータセット向けに設計されている。しかしながら臨床研究では患者の数を増やせないので、多くの場合、試料のサイズが限られてしまう。この場合、多くの患者は生検を受けられる状態ではなくなるので、採取された試料のうち、相当の数が確定診断を得られず、教師付きの学習に適するものではなかった。その上、非UIPカテゴリーに属するのは1種の疾患ではなく、異なる種類の疾患の集まりである。これは小さな試料サイズと相まって、それぞれの非UIP疾患カテゴリーから極一部の試料のみを利用できるようになり、分類が更に難しくなってしまう。この例の更なる特徴は、患者における異質性である。組織病理的特徴は肺全体に亘って均一ではなく、ゲノムの特徴は生検試料を採取された部位により異なる(Kim等:本文に援用されている)。そのような異質性をよく理解するために、患者ごとに複数の試料(最大5つ)を採取し、訓練セットの患者について個別にシーケンシングを行う。このデータセットは、解くべき課題であり、また新しい機会でもある。詳細については、以下に説明する。
[245] 分類器は診断製品の基盤としても用いられ得るので、更に2つの要件があり得る。まず、費用対効果を高めるために、患者ごとに1回のシーケンシングのみが許容され得るので、独立テストセットにこの実情を反映する必要があり得る。訓練セットの各試料とテストセットのプール試料を分析的にブリッジすることが必要になり得る。また、最終ロック分類器が独立テストセットで良好に稼働することも重要であり得るが、今後の全試料において性能を維持することも重要であり得る。従って、予測可能なバッチ効果に対して高い堅牢性を有する分類器を将来開発することは非常に重要になり得る。
[246] 下記セクションは、定量分析において解消すべき問題を説明し、この問題を克服するための実用的な解決策を説明する一方、改善の証拠と、このようなアプローチの限界について示し得る。
[247] 材料及び方法
[248] 研究設計
[249] 18歳以上であり、ILDに対する組織病理診断を目的として臨床的に必要である肺生検処置計画の適用対象である患者は、試料採取を必要とする複数のラボ実験に志願してもよい(新規ゲノムテスト用の気管支試料、BRAVE)(Pankratz等)。気管支鏡検査の必要としない、勧められていない、又は検査そのものが困難である患者は、研究に参加することができない。病理診断のために行われた生検の種類に基づき、患者のグループ分けをする。BRAVE-1の患者は外科肺生検(SLB)を受け、BRAVE-2の患者は病理診断用のTBBを受け、BRAVE-3の患者は凍結生検を受ける。本研究は、各機関の治験審査委員会により承認を受け、患者全員から参加の前に同意を得る必要がある。
[250] 研究において、201人のBRAVE患者を、訓練で使用される113人のグループ(2012年12月〜2015年7月に登録)と、検証に用いられる88人のグループ(2014年8月及び2016年5月に登録)に前向きに分け得る。訓練グループは最終的に、使用できるRNAシーケンシングデータと、モデルの訓練や交差検証に使用できる参照標準病理の真理値ラベルを持つ90人の患者を選別し得る。検証グループは、試料の処理、試料の妥当性、参照標準の真理値ラベルの判定に関するテストセット選別基準を満足する49人の患者を精選し得る。参照ラベルと関連病理を含むテストセットに関する全ての臨床情報は、分類器パラメータを最終的に確定してロックされたテストセットを前向きに採点するまで、アルゴリズム開発チームに知らせないようにし得る。
[251] トータルRNAを抽出し、TruSeq RNA Access Library Prep procedure(カリフォルニア州サンディエゴ、イルミナ)に入力して発現エクソン配列を濃縮し、NextSeq v2ケミストリー150サイクルキット(カリフォルニア州サンディエゴ、イルミナ)を用いてNextSeq 500機器でシーケンシングを行い得る。訓練セットとして、90人の患者から採取された354個のTBB試料のそれぞれに対して個別的にRNAシーケンシングデータを生成し、更に8つのTBB試料を品質管理のために選択して、センチネルと呼ばれ得る8つの異なるバッチにおいてシーケンシングを繰り返すことができる。独立テストセットとして、各患者の利用可能なTBB試料から抽出したトータルRNAを等量混合することができ、訓練セットと同様の手順によりシーケンシングを行うが、実行時点をその後にして、異なるバッチを用いる。従って、訓練セットの場合、患者ごとに最大5つのシーケンシングデータがあり得、そのうち1つは個別のTBB試料に対応し得る。一方、テストセットの場合、全てのTBB試料と、同患者から得られた対応のRNA材料を市販試料の実行方法としてシーケンシング前に一緒にプールするため、各患者のシーケンシングデータは1つのみであり得る。
[252] 病理検討、及びラベル割当
[253] 組織病理診断は、Pankratz等とKim等に記載されているプロセスに従い、病理判定を目的として特別に採取された生検試料とスライドを使用して、病理学者3人の総意により一元的に決定し得る。中心病理診断は、病理判定用の肺葉試料ごとに個別に定められ得る。以下の規則に従って、葉レベルの診断から各患者の参照標準レベルを定める。UIP亜型、例えば標準UIP(UIPの特徴を全て表す)、困難UIP(標準UIPより特徴の数が少ない)、指示UIP(差が生じるUIPを用いた侵入プロセスの細分化)、又はこれらの任意の組み合わせに基づいて肺葉の診断を行い、その患者の参照ラベルとして「UIP」を割り当て得る。肺葉のいずれかが「非UIP」病理と診断され(Pankratz等)、他の肺に対して、診断不能、又は分類不能の繊維症ありとの診断を受けた場合、「非UIP」を患者レベルの参照ラベルとして患者に割り当て得る。全ての肺葉が分類不能な線維症(例えば、他に分類できないか、「CIF、NOC」の慢性間質性線維症)との診断を受ける、又は未確定である場合、参照ラベルは割り当てられず、患者は除外され得る。この患者レベルの参照ラベルプロセスは、訓練セットとテストセットにおいて同一であり得るが、訓練セットの各TBB試料は、患者レベルで定められた参照ラベルに加え、元の肺葉から試料レベルの参照ラベルを直接継承してもよい。
[254] 分子テスト、シーケンシングパイプライン、データQC
[255] 気管支鏡検査では、各患者から最大5つのTBB試料をサンプリングし得る。通常、臨床的に必要である診断手法の間に、2つの上肺葉と3つの下肺葉の試料を採取し得る。分子テスト用のTBB試料には、核酸防腐剤を入れ、開発研究所に送る出荷前に、又は出荷中に4℃で最大18日間保存し、その後、凍結保存し得る。トータルRNAを抽出し、定量して、必要に応じて患者ごとにプールし得る。次いで、複数ラウンドの増幅とハイブリダイゼーションを活用してエクソン配列に特定的なプローブする、TruSeq RNA Access Library Prep(カリフォルニア州サンディエゴ、イルミナ)に15ngを入力することにより、コーディングトランスクリプトームを濃縮させる。処理中の収量基準を満たすライブラリーは、High Outputキット(カリフォルニア州サンディエゴ、イルミナ)を用いて、NextSeq 500機器(2×75bpのペアエンドリード)でシーケンシングを行うことができる。生のシーケンシング(FASTQ)ファイルは、STAR RNA-seqアライナソフトウェア(Dobin等:本文に援用されている)を使用して、Human Referenceアセンブリ37(Genome Reference Consortium)にアラインされ得る。63,677のEnsembl注釈付き遺伝子レベルの特徴に対する未加工リードカウントを、HTSeqを用いてまとめ得る(Anders等2015:本文に援用されている)。データ品質指標は、RNA-seqC(DeLuca等:本文に援用されている)を用いて生成し得る。トータルリード、マップユニークリード、塩基ごとの平均カバレッジ、塩基複製率、コーディング領域に整列された塩基の割合、塩基ミスマッチ率、遺伝子内カバレッジの均一性に対する最低基準を満たすライブラリー配列データをダウンストリーム分析で用いてもよい。
[256] 正規化
[257] ライブラリーアッセイによる濃縮対象にならない機能を除外するためにシーケンシングデータをフィルタリングし、その結果として、26,268個の遺伝子が残り得る。訓練セットの場合、26,268個のEnsembl遺伝子の発現カウントデータを、比率中央値法で推定されたサイズ係数によって正規化し、閉形式であるパラメトリック法を使用して分散安定化変換(VST)により約log2に変換し得る(DESeq2パッケージ)(Love等2014:本文に援用されている)。訓練セットからの幾何学的アプローチ及びVSTのベクトルを凍結し、正規化用独立テストセットに個別に再度適用して、臨床パターンを模倣してもよい。
[258] アルゴリズムの訓練及び開発につき、90人の患者から採取された354個のTBB試料それぞれより、RNA配列データを生成し得る。トータルRNAから配列データに至る処理を8回行い、その度に追加TBB試料(「センチネル」)8つを複製して、バッチ効果をモニタリングし得る。また、検証のために、ライブラリーの準備とシーケンシングの前に、患者ごとに最低3つから最高5つまで採取された等量混合TBBからトータルRNAを抽出し得る。従って、訓練セットに属する患者は最大5つのシーケンスライブラリー訓練に寄与することができ、テストセットの患者は、臨床試料を用いる実験計画と同様に、単一のシーケンスライブラリーで表すものとする。
[259] 差次的発現分析
[260] 標準パイプライン(Anders等2013:本明細書に援用されている)を用いて検出された差次的発現遺伝子を、非UIP試料とUIPを分類するために直接使用できるか否かについて検討し得る。差次的発現遺伝子は、Bioconductor RパッケージであるDESeq2を使用して特定し得る(Love等2014)。訓練セットにおける遺伝子レベルの未加工発現カウントを使用して、差次的分析を行い得る。テスト条件調整後のp値のカットオフ値を<0.05に、倍数変化を>2にし、差次的発現遺伝子を選択する。訓練セットでは、非UIP試料とUIP試料、又はUIP試料同士に対して一対差分分析を実行することができ、非UIP疾患のそれぞれに対して10個以上の試料、例えば、細気管支炎(N=10)、過敏性肺炎(HP)(N=13)、非特異的間質性肺炎(NSIP)(N=12)、組織化肺炎(OP)(N=23)、呼吸細気管支炎(RB)(N=16)、サルコイドーシス(N=11)を用意する。主成分分析(PCA)プロットを、上記で特定した差次的発現遺伝子を用いて、全ての訓練用試料に対して作成してもよい。
[261] 遺伝子発現相関ヒートマップ
[262] 代表患者6人からの採取された試料の相関値r2を、VST遺伝子発現を使用して計算し、患者の順序を保存した相関行列のヒートマップをプロットして、遺伝子発現の患者内、及び患者間の異質性を視覚化し得る。患者6人は、患者内・患者間の異質性の全範囲で表せるように厳選した患者であることができ、それぞれ上肺葉対下肺葉のラベルが異なるUIP患者1人と非UIP患者1人、上肺葉対下肺葉のラベルが同じ、又は類似するUIP患者2人と非UIP患者2人を含む。ヒートマップは、gplots Rパッケージのheatmap.2機能を用いて作成できる。
[263] 分類器の開発
[264] 分類器の開発と評価を、図28にまとめた。目標は、正確且つ再現性のあるUIP/非UIP予測を提供し、ILD患者に対する侵襲的処置を減らして臨床的ニーズを満たす、TBB試料に対して堅牢なバイナリ分類器を構築することである。正の予測値が高くなるように、特異度テスト(特異度>85%)を高く設計してもよい。テストでUIPが予測される場合、この結果の信頼度は相当に高くなり得る。
[265] 分類器開発における特徴フィルタリング
[266] まず、生物学的に無意味な特徴、又は情報量の少ないであろう特徴は、試料間のバラツキのない発現レベルのために除去され得る。Ensemblで偽遺伝子、リボソームRNA、T細胞受容体又は免疫グロブリン遺伝子の個々のエクソン、無情報及び低発現遺伝子として注釈付きの遺伝子は、訓練セット全体において未加工カウント発現レベル<5として取り除かれるか、又は訓練セットにおける試料の5%未満に対してカウント>0として発現され得る。
[267] 複数のバッチで処理される同試料で可変的に発現する遺伝子は、生物学的要因ではなく技術的要因に対する感度を示唆するため、排除され得る。上記遺伝子を特定するために、複数のアッセイプレートで処理されたセンチネルTBB試料を線形混合効果モデルに適合させ得る。このモデルは、各遺伝子に個別に適合させることができる。ここで、gijは試料j及びバッチiの遺伝子発現、μは平均遺伝子発現であり、次のように表される。
[268] セット全体において、sampleijは生物学的に異なる試料の固定効果であり得、batchはバッチ固有のランダム効果であり得る。全変動を用いて、非常に可変性の高い遺伝子を特定し得る。この測定による上位5%の遺伝子は除外し得る(図39から図44)。その結果、17,601個のEnsembl遺伝子がダウンストリーム解析の候補として残り得る。
[269] 患者内のIn silico混合
[270] 個々のTBB試料により分類器の訓練と最適化を行い、サンプリングの多様性と機能選択、重み付けプロセス中に利用可能な情報コンテンツを最大化し得る。複数のTBB試料は、抽出後の段階でRNAとしてプールされることができ、プールRNAは、ライブラリーの準備、シーケンシング、分類を通じて1回の反応で処理され得る(Pankratz等)。個々の試料で開発された分類器が、プール試料ルで高い性能を達成できるかどうかを評価することができる。個々の試料データからプール試料を「in silico」でシミュレートする方法を開発できる。最初に、訓練セット全体における遺伝子全体の幾何学的アプローチを用いて計算されたサイズ係数により、未加工のリードカウントを正規化し得る。試料i=1、…、n、遺伝子j=1、…、mの正規化カウントCijは、次の式で算出され得る。
ここで、
とKijは試料iと遺伝子jの未加工カウントを意味する。次に、各訓練患者p=1、…、Pについて、in silico混合カウントKpijは次の式で算出される。
ここで、I(p)は、患者pに属する個々の試料iの指標セットである。訓練セットの凍結分散安定化変換(VST)をKpijに適用できる。
[271] 分類器の訓練
[272] テストは病理学により定義された参照ラベルを認識して呼び出すことを目的とし得るので、参照ラベルは分類器の訓練(Tuch等)の応答変数、及びエクソーム濃縮、フィルター処理、正規化を行った予測特徴としてのRNA配列データで定義され得る。ランダムフォレスト、サポートベクターマシン(SVM)、勾配ブースティング、ニューラルネットワーク、罰則付きロジスティック回帰を含む複数の分類モデルを評価し得るる(Dobson等:本文に援用されている)。各分類器は、5分割交差検証と1人患者抜き交差検証(LOPO CV)に基づいて評価し得る(Friedman等:本文に援用されている)。Ensembleモデルは、個々のモデルのスコアの加重平均を介して個々の機械学習方法を組み合わせることで検査することもできる。
[273] 過剰適合を最小限に抑えるために、訓練・評価中に、各交差検証分割を層化して、単一の患者からの全てのデータを特定の分割に含めるか保持し得る。ハイパーパラメータ調整は、ネスト交差検証法を用いて各交差検証分割内で実行し得る(Krstajic D等2014:本文に援用されている)。ランダム検索と1つの標準エラールール(Hastie、Tibshirani、Friedman 2009:本文に援用されている)を選択して、内部CVから最適なパラメータを選択し、潜在的な過剰適合を更に最小限に抑え得る。最終的に、完全な訓練セットでハイパーパラメータ調整を繰り返し、最終ロック分類器のパラメータを定義する。様々な機械学習アルゴリズムのトレーニングのパイプラインは、Rパッケージ(DESeq2、hclust、cv.glmnet、caret、caretEnsemble)を使用して自動化と実行を行い得る。
[274] 完全に独立した検証のベストプラクティスでは、テスト決定境界を含む全ての分類器パラメータを前向きに定義する必要があり得る。従って、訓練セットのデータのみを使用して行ってもよい。テストセットはプールTBBを患者レベルで分類するため、提案されたin silico混合モデルを使用して、訓練セット内の患者レベルのスコアの分布をシミュレートし得る。患者内の混合物は、各LOPO CV分割で100回シミュレートし、VST発現に遺伝子レベルの技術的変動が追加され得る。遺伝子レベルの技術的変動は、混合効果モデルを使用して推定し得る。TBB試料の式(1)は、複数の処理バッチに亘って複製してもよい。最終決定境界は、感度を著しく損なわず(≧0.65)特異度(>0.85)を最適化するように選択し得る。性能は、複製されたin silico混合シミュレーションからの患者レベルのLOPO CVスコアを使用して推定し得る。特異度を保守的にするために、90%を超える平均特異度の基準を設定して最終決定境界を選択し得る。シミュレーションで同様の推定性能を備えた決定境界の場合、最も高い特異度を持つ決定境界を選択できる(図46Aから図46B)。
[275] 試料のバッチ効果と監視体系の評価
[276] 未確定の臨床患者集団に対する分類性能の拡張性を確保するため、グローブシフト、回転、圧縮、又はスコア分布の拡大を引き起こし得るバッチ効果と呼ばれる深刻な技術的要因がないことを保証することが重要であり得る。既存のデータのバッチ効果を定量化し、観察可能なバッチ効果に対する候補分類器の堅牢性を評価するために、9つの異なるTBB試料を採点し、各バッチ内で3回複製し、3つの異なる処理バッチで処理し、線形混合効果モデルを使用して各分類器のスコアの変動を評価した。線形混合モデルの低スコアの変動によって示されるように、バッチ効果に対してより堅牢なモデルを、独立した検証の最終モデルとして選択することができる。バッチ効果を監視するために、新しい処理バッチごとにUIP試料と非UIP対照試料を処理し得る。潜在的なバッチ効果をキャプチャするには、これらの複製対照試料のスコアを比較し、推定スコアの変動性が事前に指定された閾値σsvよりも小さいか否かを、in silicoの患者レベルのLOPO CVスコアを使用して訓練により決定し得る。
[277] 独立検証
[278] 最終候補分類器は、49人の患者からのTBB試料の盲検化独立テストセットで前向きに検証され得る。ロックアルゴリズムを使用してテストセットの分類スコアを導出し、事前に設定された決定境界と比較して、UIP対非UIP呼び出しのバイナリ予測を行い得る。決定境界より上の分類スコアはUIP、決定境界以下は非UIPと見なし得る。ROCを構築し、AUCを計算するために、連続分類スコアを組織病理学ラベルと比較し得る。バイナリ分類予測を組織病理ラベルと比較して、感度や特異度などのバイナリ分類性能を算出し得る。
[279] スコア変動シミュレーション
[280] 臨床現場では、臨床試料の分類スコアが安定しているか否か、潜在的な技術的要因の影響を受けていないか否かを監視することが重要であり得る。これを行うには、分類器が許容できるスコアの変動の限界を前向きに検討する必要があり得る。LOPO CVスコアが対象集団の分類スコアの分布を表すという仮定の下で、UIPコールと非UIPコール間の感度、特異度、フリップレートについてシミュレーションを実行し得る。最初のステップとして、in silicoの患者レベルのLOPO CVスコアにシミュレートされたノイズを追加し得る。この場合、ノイズはe〜N(O、σ)としてシミュレートでき、σは0、0.01、…、10になり得る。次に、シミュレートされたノイズのスコアを用いて、感度、特異度、フリップレートを算出し得る。シミュレーションを1,000回繰り返し得る。1,000セットのシミュレートスコアを使用して、個々の閾値、σspec、σsens、σflipは、ノイズの標準偏差σの最大値として定義されることができ、推定(平均)特異度>0.9、感度>0.65、フリップレート<0.15になる。分類スコアの変動性の最終閾値は、σsv = min (σspec, σsens, σflip)のように定義できる。
[281] Ensembleモデルの閾値は、特異度、感度、フリップレートに対してそれぞれ0.9、1.8、1.15であることができ、最終閾値はσ sv=0.9であり得る(図48Aから図48C)。罰則付き回帰モデルの閾値は、特異度、感度、フリップレートに対してそれぞれ0.48、0.78、0.68であることができ、最終値はσPL sv=0.48であり得る。
[282] 結果
[283] ILD疾患の分布
[284] 表14に、UIP及び非UIPグループ内のILD疾患患者の分布をまとめる。患者の中で、UIPパターンの患者の有病率は、p値0.27のテストセット(47%)よりも訓練セット(59%)の方が高くなり得る。訓練セットの患者3人とテストセットの患者1人は、潜在的な異質性を有し得る。肺葉のうち一方には、非UIP疾患(非特異的間質性肺炎、肺高血圧症、又は過敏性肺炎)の1つが割り当てられ、他方にはUIPパターンが割り当てられ、最終的な患者レベルのラベルはUIPとなり得る。
[285] 非UIPグループには、臨床診療で一般的に遭遇する多様な異種疾患が含まれ得る。試料サイズが小さいため、一部の疾患は患者が1〜2人のみであり得る。3種の新種疾患(アミロイド沈着又は軽鎖沈着、外因性リポイド肺炎、診断しやすい組織化肺胞出血)がテストセットには存在し得るが、訓練セットには存在しないことがある。
[286] 患者内の異質性
[287] 同じ患者から採取された試料の異質性は、組織病理診断と遺伝子発現の両方で観察され得る。UIP及び非UIPグループにまたがる疾患に罹患するこのような患者3人は、患者レベルの診断分類に算出上の課題をもたらし得る。6人の患者から採取された試料の相関行列はまた、発現プロファイルにおける顕著な患者内・患者間変動を明らかにし得る(図38)。図38は、異なる肺葉で同じラベルと類似の遺伝子発現パターンを持つ2人の非UIP患者と(図38の患者1と2)、同一又は類似のラベルと高度に相関する発現プロファイルを持つ2人のUIP患者(図38の患者5と6)、更に、異なるラベル及び異種発現を有するUIP患者1人と非UIP患者1人(図38の患者3と4)とともに、患者内・患者全体で観察され得る異質性の全スペクトルの代表的な視覚化を図示する。
[288] UIPと非UIP間のDE分析
[289] UIPと非UIPの間でDESeq2により検出された差次的発現遺伝子が2つの診断クラスを予測できるか否かをまず調べる。UIPと非UIPの間で151の有意に差次的発現遺伝子を特定することができ(調整済みp<0.05、倍率変化>2)、UIPで55個の上方制御遺伝子と96個の下方制御遺伝子である(図29、表15)。しかし、これらの差次的発現遺伝子のみを使用すると、PCAプロット(図30)に示されているように、2つのクラスを完全に分離できないことがある。それに対して、190個の分類器遺伝子にまたがるPCAは、2つのクラスをよりよく分離し得る(図31)。
[290] 非UIP疾患患者の異質性
[291] 異質性は、10を超える臨床的に定義された疾患で構成される非UIP試料の遺伝子発現で観察され得る。UIP試料と、試料サイズが10を超える各非UIP疾患サブタイプとの間で有意に異なる(調整済みp<0.05、倍率変化>2)遺伝子が特定され得る(表15)。差次的発現遺伝子の数が多いほど、非UIP疾患の亜型はUIPとは異なり得る。各非UIP亜型の差次的遺伝子のリストと全ての非UIP試料の差次的遺伝子のリストを比較すると、重複する遺伝子の数は、個々の非UIP亜型で特定された差次的遺伝子の数に大きく依存し得る。それによると、一部の非UIP疾患は、全ての非UIP試料とUIP試料間で見られる全体的な差次的遺伝子により支配的な影響を与え得る(表15)。更に、個々の非UIP疾患で特定された遺伝子の中で重複する差次的遺伝子はほとんどない。例えば、サルコイドーシスの1174個の差次的遺伝子とRBの701個の間で共通しているのは172個で、サルコイドーシス、RB、NSIPの差次的遺伝子の中に共通するのは6個であり得る。細気管支炎、NSIP、HPの差次的遺伝子には共通の遺伝子が存在しない。これは、非UIP試料の疾患内の異なる分子発現パターンを示唆し得る。
[292] 非UIP亜型とUIP試料間で差次的に発現した遺伝子を使用したPCAプロットは、特定の非UIP疾患亜型がRBやHPなどの疾患のUIP試料から十分に分離される傾向があることを示している(図39、図41)。ただし、他の非UIP試料にUIP試料が散在し得る(図40、図43)。これは、1つの非UIP亜型に由来する差次的遺伝子が他の非UIP疾患に一般化できないことがあることを示している。
[293] 患者におけるin silico混合とin vitroプーリングの比較
[294] 各患者におけるin silico混合試料を使用して、訓練セット内で評価するためのin vitroプール試料をモデル化し得る。in silico混合試料とin vitroプール試料が合理的に一致するように、11人の患者のプール試料をシーケンシングし、in silico混合試料と比較し得る。in silico混合試料とin vitroプール試料のペアの26,268遺伝子の発現レベルに基づく平均r平方値は0.99(SD=0.003)であり、平均r平方値が、技術的複製では0.98(SD=0.008)、生物学的複製では0.94(0.04)であることを考慮すると、in silico混合試料のシミュレートされた発現レベルはin vitroでプールされた試料のそれと良好に一致し得る。
[295] 2つの候補分類器、つまりEnsembleと罰則付きロジスティック回帰モデル(以下で説明)によるin silico及びin vitro混合試料の分類スコアも散布図で比較できる(図32、図33)。各in vitroプール試料の複製数は3〜5の範囲であるため、複数の複製の平均スコアを使用できる。in silico混合試料の分類スコアは、両方の分類器でピアソンの相度度が0.99なので、in vitroでプールされた試料の分類スコアと非常に高い相関関係を示し得る(図32、図33)。ポイントは、明らかなシフトや回転なしで、X=Yの線の周りに落ち得る。
[296] 訓練セットに対する交差検証
[297] 90人の患者から採取された354個のTBB試料の訓練セットでの特徴選択と機械学習アルゴリズムを評価し得る。最初の試みとして、個々の方法とEnsembleモデルは、各分割の経験的AUCの平均を使用して推定された5分割CV及び交差検証AUC(cvAUC)に基づいて個別に評価され得る。全体として、罰則付き回帰モデル(cvAUC=0.89)などの線形モデルの方が、ランダムフォレスト(cvAUC=0.83)や勾配ブースティング(cvAUC=0.84)などの非線形ツリーベースのモデルよりも優れ得る。ニューラルネットワーク分類器のcvAUCは0.8未満になり得る。最も優れた性能を示すのは、(1)線形カーネルと放射状カーネルを備えたSVMのアンサンブルモデル、及び(2)罰則付きロジスティック回帰であり得る。両方ともcvAUC=0.89である。ただし、疾患間の異質性と小さいサイズの試料のため、全てのモデルにおけるCV性能は、分割によって大きく異なることがある。
[298] LOPO CVでは、LOPO CV分割内の患者ごとにインシリコ混合試料を100回複製して、患者レベルの性能を評価できる。算出した各試料の分類スコアとin silico混合試料の平均スコアを、図34と図35に図示する。全体的に、患者レベルの性能が、試料レベルの性能に比べてわずかに高い場合がある。LOPO CV分割全体の合計スコアに基づいて、Ensembleモデルと罰則付きロジスティック回帰モデルは、それぞれ、試料レベルでAUCの0.9[0.87−0.93]及び0.87[0.83−0.91]、in silico混合患者レベルで0.93[0.88−0.98]及び0.91[0.85−0.97]を出し、最も優れた性能示す(図36A)。
[299] 分類器の堅牢性
[300] 推定スコアの変動は、Ensembleモデルと罰則付きロジスティック回帰モデルでそれぞれ0.46と0.22であり得る(表16)。両方とも、スコア変動許容範囲の事前に指定された閾値である0.9及び0.48未満であり得る(図47Aから図47C、図48Aから図48C)。Ensemble分類器のスコア範囲が罰則付きロジスティック回帰分類器より広いことを考慮して、スコアの5%及び95%分位の範囲に対する変動性の割合を比較し得る。全体的に、罰則付きロジスティック回帰分類器の方が、アンサンブルモデルよりもスコアの変動が少ない。これは、罰則付きロジスティック回帰が技術的(試薬/実験室)バッチ効果に対してより堅牢であり、技術的複製に対してより一貫したスコアを提供することを示唆する(表16)。高い交差検証性能と堅牢性により、独立検証の最終候補モデルとして、罰則付きロジスティック回帰モデルを選択し得る。
[301] 独立検証性能
[302] 事前に指定された決定境界0.87でロックされた罰則付きロジスティック分類器を使用し、in vitro混合試料の独立テストセットに基づいて検証性能を評価し得る。最終分類器は、AUC0.87[0.76−0.98]で特異度0.88[0.70−0.98]、感度0.70[0.47−0.87]であり得る(図36B、図37)。検証性能のポイント推定値は、in silicoの患者レベルの訓練CV性能よりは低いが、AUC、感度、特異度のp値がそれぞれ0.6、0.7、1であり、誤差範囲である。
[303] 論議
[304] 本研究では、重大な課題が存在する場合でも、正確性と堅牢性を兼ね備えた分類が可能である。適切な統計的手法、機械学習アプローチ、RNAシーケンシング技術を活用することにより、有意味な診断テストを提供し、間質性肺疾患に罹患する患者の治療を改善することができる。
[305] 機械学習、特にディープラーニングは、ここ数年で革命的な進歩を成し遂げた。最近開発された高度に洗練されたツールにより、多くのアプリケーションで分類性能が劇的に改善され得る(Lecun等:本文に援用されている)。しかしながら、ツールのほとんどは、容易に入手でき、信頼性の高いラベルと大きな試料サイズを必要とし得る。性能改善は、高品質のラベルを持つ試料の数と、直接且つ明確に関係している(Gu等、Sun等)。本プロジェクトでは、患者試料に基づいた他の臨床研究と同様に、試料サイズが制限され得る。例えば、訓練セットに患者は90人に過ぎない(表14)。それに加えて、非UIPグループは生理学的に均質な疾患ではなく、それぞれ独自の生理を持つ様々な種類の疾患の集まりであり、一部の疾患に至っては、訓練セットに1〜2人の患者しか含まれていない(Libbrecht等:本文に援用されている)(表14)。当然のことながら、これらの非UIP疾患は、生理学的に異なるだけでなく、分子レベルや遺伝子レベルでも異なり得る。訓練用試料を利用して、UIPグループとの差別化のために非UIP疾患に共通する特徴の特定を試みたところ、何も現れなかった(表15、図38)。更に、3種以上の疾患(アアミロイド沈着又は軽鎖沈着、外因性リポイド肺炎、組織化肺胞出血)がテストセットには存在するが、訓練セットには存在しない(表14)。UIPの割合の変化は、訓練(59%)とテスト(47%)の間にも現れる。最後の2つの要因により、訓練セットの交差検証性能と比較して、テストセットでの性能がわずかに低い理由を説明できる。この状況では、大きな試料サイズを活用する最近の機械学習は適用できない。場合によっては、より伝統的な線形モデルやツリーベースのモデルに焦点を合わせる。また、個々の非UIP疾患グループの試料サイズが小さすぎて、ツリーモデルがキャプチャしようとする相互作用を強化できないため、候補の中で、線形モデルが非線形ツリーベースのモデルよりも優れている理由も理解できる。
[306] 訓練用試料のサイズに直接対処するために、同じ患者から採取された最大5つの異なるTBB試料に対してRNA抽出からシーケンシングまで一通りこなして、90人の患者セットを試料354個に成功的に拡張し得る(表14)。概念的にはデータ増強のアイデアに似ているが、増強データに対してシミュレートや外挿を行う代わり、同じ患者の複数のTBB試料での実際の実験からシーケンシングデータを生成し得る。目標は、分類情報を強化するための追加性能を提供することである。交差検証分割を定義し、性能を評価する際に、患者を最小単位として使用する場合は特に注意が必要である。これにより、試料数の多い患者の重みが増すことや、同じ患者の試料がモデル作成とモデル評価の両側にまたがった過剰適合を引き起こすことを防止することができる。ネスト交差検証は、モデルの選択とパラメータの最適化に用いられる1つのSD(標準偏差)ルールと同様に適用され、小さな試料サイズによる性能の高い変動性を正しく考慮し、モデルの複雑さを積極的に削減し、過剰適合を防止し得る。
[307] 訓練セットで患者ごとに複数のTBB試料を実行すると、試料サイズの制限に役立つが、新しい問題が生じ得る。商業的環境では、費用の問題により患者ごとにシーケンシング実行は1回に制限され得る。そのため、1人の患者内の複数のTBB試料からのRNA材料に対するシーケンシングを行う前にプールする必要があり得る。しかしながら、個々のTBB試料で訓練された分類器をプールTBB試料に適用できるか否かは、検証実験を開始する前に対処する必要がある重要な問題になり得る。よって、一連のin silico混合シミュレーションを実行して、テストセットの患者レベルのin vitroプールを模倣する。このアプローチは、分類器の将来の決定境界と、最良の分類性能を達成するために必要な最適なTBBの数を定義するための基本的な構成要素にもなる(Pankratz等)。シミュレートされたin silicoデータは、実験in vitroデータとよく一致し(図32、図33)、このアプローチを使用してプール試料に期待される性能を推定し、プール設定で検証実験を進めることができる。この例では、プール試料が同じタイプ(TBB)で、同じ患者のものであり、よって重複リードの割合やリードの総カウントなど、類似の特性を持っているので、このin silicoアプローチはうまく機能するはずである。しかしながら、提案されているin silico混合モデルを拡張して、異なる特性や品質の試料、例えばUIPと非UIP試料、又は血液などの異なる種類の試料と混合したTBBを混合するのは難しい。これらの場合、リードの総カウント大幅に多い試料は、ここで提案する混合モデルの基本的な仮定に違反する結合試料の表現を支配する傾向がある。このような複雑な手順と生物学的相互作用を正確にモデル化するためには、より高度な方法論が必要になる。
[308] 成功的な検証により必要な臨床性能を成し遂げたことが確認されると(図36Aから図36B、図37)、患者の治療を改善することを目的とした有用な市販製品を完成させる最初のステップとなり得る。同様に重要であるが見落とされがちなのが、将来の患者の流れに一貫した信頼できる性能を提供することの重要性である。これには、分類スコアに体系的な変化をもたらし、誤った臨床予測を生じさせる疑いのある、患者から採取されたデータを配列する潜在的なバッチ効果に対処するための予防的な予測が必要となり得る。これは、上流側の機能選択(図39から図44)から取り組み、バッチ効果に非常に敏感な遺伝子を以降の分析から取り除くことで対処可能である。更に、3つの異なるバッチの10個の異なるTBB試料について、追加の実験データが生成されることがあり、訓練用試料の生成にはいずれも役に立たない。この実験を活用して、各候補モデルの不可視バッチに対する堅牢性を直接評価し、最終モデルを選択する。ただし、実験データは、有限数のバッチを評価することになる。従って、予期しない変化を予測するために、市販のプレート/バッチのそれぞれで実行される制御試料に基づいて監視体系を開発し、予測できない潜在的な変化を検出するべきである。このような予期しない変更が発生する疑いがある場合は、新しいスコアを検証分類スコアの空間にマッピングするために、バッチ修正に直接対処する正規化方法が必要となる。
[309] 結論
[310] 非UIPクラスの限られた試料サイズと高い異質性は、この例で直面する2つの主要な課題であり得、臨床研究では一般的な問題でもあり得る。更に、成功的な市販製品は、以来の着信試料全てに対して経済性と一貫性を兼ね備える必要があり得る。非常に正確性と堅牢性を兼ね備えた分類を実現することは難しいが、不可能ではない。本実施例により、この方法論が成功することが証明されている。同様の問題に直面している他の臨床シナリオにも適用できるはずである。
[311] 実施例2:分子プロファイリング及び細胞診
[312] 被検体は肺癌の症状を見せている。被検体は、被検体を診察して内分泌専門医に紹介する主治医にまず相談をもちかける。内分泌専門医は気管支鏡検査で試料を採取し、細胞検査室に試料を送る。細胞検査室では、気管支鏡検査の一部に対して定期的な細胞検査を行うが、結果は不明確である(つまり、未確定診断)。細胞検査室は、内分泌専門医に残りの試料が分子プロファイリングに適している疑いがあると提案し、内分泌専門医はそれに同意する。
[313] 残りの試料は、本明細書に記載の方法及び組成物を使用して分析される。分子プロファイリング分析の結果は、初期段階の肺癌の疑いが高いことを示唆している。更に、分子プロファイリング分析を患者データと組み合わせる。内分泌専門医は結果を確認し、推奨される治療法を処方する。
[314] 細胞検査室は、内分泌専門医に定期的な細胞検査と分子プロファイリングに対する代金を請求する。内分泌専門医は細胞検査室に代金を支払い、提供された全ての製品とサービスに対して被検体の保険会社に請求する。細胞検査室は、分子プロファイリングの支払いを分子プロファイリングの専門企業に渡し、差額を残す。
[315] 実施例3
[316] 被検体は、受動喫煙にさらされ、肺癌のリスク状態である。被検体は肺癌の無症状を示す。医療従事者は、被検体から鼻組織試料を採取する。本明細書に記載の分子分類器で、鼻組織試料を分析する。複数のバイオマーカーの有無に基づいて、医療従事者は、低線量CTスキャンを受けること、又は、分子分類器を使用して1年後に別の鼻組織試料を分析することを勧める。
[317] 実施例4
[318] 被検体は、肺結節が存在することが既に確認されている。医療従事者は、被検体から鼻組織試料を採取する。本明細書に記載の分子分類器で、鼻組織試料を分析する。複数のバイオマーカーの有無に基づいて、医療従事者は、気管支鏡検査を受けること、又は、分子分類器を使用して1年後に別の鼻組織試料を分析することを勧める。
[319] 実施例5
[320] 被検体は現在、介入療法を受けている。医療従事者は、被検体から鼻組織試料を採取する。本明細書に記載の分子分類器で、鼻組織試料を分析する。複数のバイオマーカーの有無に基づいて、医療従事者は、介入療法を続けること、又は、介入療法を中止して別の介入療法を受けることを勧める。
[321] 実施例6
[322] 被検体は悪性腫瘍の外科切除を前に受けている。本明細書に記載の分子分類器で、鼻組織試料を分析する。複数のバイオマーカーの有無に基づいて、医療従事者は、
被検体に治療計画を勧める、又は、分子分類器を使用して1年後に別の鼻組織試料を分析することを勧める。
コンピュータ制御システム
[323] 本開示は、本開示の方法を実装するようにプログラムされたコンピュータ制御システムを提供する。図26は、ここで提供される方法を実装するようにプログラム又は構成されたコンピュータシステム2601を図示する。コンピュータシステム2601は、肺疾病の診断、被検体の肺疾病を発症するリスクの予測、肺疾病を有する被検体の治療の有効性の予測、又はこれらの任意の組み合わせなどを規制できるし、様々な態様、例えば、(i)試料の1つ以上のバイオマーカーとバイオマーカーの参照セットとの比較、(ii)アルゴリズムの訓練による分類器の開発、(iii)分類器を適用して診断、予測、又は試料の入力に基づく推奨、又は(iv)これらの任意の組み合わせを実現することができる。コンピュータシステム2601は、ユーザの電子デバイス、又は電子デバイスから離れた場所にあるコンピュータシステムである。電子デバイスは、モバイル電子デバイスである。
[324] コンピュータシステム2601は、中央処理装置(CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」)2605を含む。中央処理装置は、シングルコア又はマルチコアプロセッサ、もしくは並列処理用の複数のプロセッサであってもよい。
コンピュータシステム2601は、メモリ又はメモリ領域2610(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶部2615(例えば、ハードディスク)、1つ以上の他のシステムと通信を行う通信インターフェース2620(例えば、ネットワークアダプタ)、周辺機器2625(キャッシュ、他のメモリ、データストレージ、及び/又は電子ディスプレイアダプタ)を備える。メモリ2610、記憶部2615、インターフェース2620、周辺機器2625は、マザーボードなどの通信バス(実線)を介してCPU2605と通信している。記憶部2615は、データを保存するためのデータストレージユニット(又はデータリポジトリ)であってもよい。コンピュータシステム2601は、通信インターフェース2620により、コンピュータネットワーク(「ネットワーク」)2630に動作可能に結合する。ネットワーク2630は、インターネット及び/又はエクストラネット、又は、インターネットと通信しているイントラネット及び/又はエクストラネットであってもよい。ネットワーク2630は、場合によっては、通信ネットワークやデータネットワークであってもよい。ネットワーク2630には、クラウドコンピューティングなどの分散コンピューティングを可能にする1つ以上のコンピュータサーバが含まれる。ネットワーク2630は、場合によってはコンピュータシステム2601の助けを借りて、ピアツーピアネットワークを実装できる。これにより、コンピュータシステム2601に接続されたデバイスは、クライアント又はサーバとして動作できるようになる。
[325] CPU2605は、プログラム又はソフトウェアで具現化できる一連の機械可読命令を実行する。命令は、メモリ2610などのメモリ領域に保存する。命令は、その後、本開示の方法を実装ためにプログラムされた、又はその他の方法で構成される、CPU2605に送られる。CPU2605により実行される動作の例には、フェッチ、デコード、実行、ライトバックが含まれる。
[326] CPU2605は、集積回路などの回路の一部にしてもよい。システム2601の1つ以上の他の構成要素が回路に含まれてもよい。一部において、回路は特定用途向け集積回路(ASIC)である。
[327] 記憶部2615は、ドライバー、ライブラリー、保存されたプログラムなどのファイルを保存する。記憶部2615は、ユーザデータ(ユーザ設定やユーザプログラムなど)を保存する。一部において、コンピュータシステム2601には、イントラネット又はインターネットを介してコンピュータシステム2601と通信しているリモートサーバなど、コンピュータシステム2601の外部にある1つ以上の追加のデータストレージユニットが含まれてもよい。
[328] コンピュータシステム2601は、ネットワーク2630を介して1つ以上のリモートコンピュータシステムと通信を行うことができる。例えば、コンピュータシステム2601は、ユーザのリモートコンピュータシステム(サービスプロバイダーなど)と通信を行う。リモートコンピュータシステムの例には、パーソナルコンピュータ(ポータブルPCなど)、スレート又はタブレットPC(Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標)など)、携帯情報端が含まれる。ユーザは、ネットワーク2630を介してコンピュータシステム2601にアクセスできる。
[329] 本明細書に記載の方法は、コンピュータシステム2601の電子記憶場所、例えば、メモリ2610や電子記憶部2615などに保存されている機械(コンピュータプロセッサなど)実行可能コードにより実装することができる。機械実行可能コード又は機械可読コードは、ソフトウェアの形で提供される。使用中、プロセッサ2605でコードを実行できる。一部では、プロセッサ2605がすぐにアクセスできるように電子記憶部2615からコードを取得してメモリ2610に保存する。場合によっては、電子記憶部2615を除外し、機械実行可能命令がメモリ2610に保存される。
[330] コードは、コードの実行に適合されたプロセッサを備えたマシンで使用するためにプリコンパイル、又は構成できる。又は、実行時にコンパイルしてもよい。コードはプログラミング言語で提供される。プログラミング言語を選択すると、コードをプリコンパイル済み、又はコンパイル済みのまま実行できる。
[331] コンピュータシステム2601など、本明細書で提供しているシステムと方法の態様は、プログラミングで具体化することができる。それぞれの態様は、一般的には、機械(又はプロセッサ)可読媒体に保存される機械実行可能コード及び/又は関連するデータによる「製品」又は「製造品」として具現される。機械実行可能コードは、メモリ(読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリなど)又はハードディスクなどの電子ストレージユニットに格納できる。「ストレージ」タイプの媒体には、ソフトウェアプログラミングに用いられる非持続性ストレージとして機能する、コンピュータ、プロセッサなどの有形メモリ、又はその関連モジュール、例えば各種の半導体メモリ、テープドライブ、ディスクドライブが含まれる。全体又は一部のソフトウェアは、インターネット又は他の通信ネットワークを通じて通信を行う。通信により、例えば、あるコンピュータ又はプロセッサから別のコンピュータ、例えば管理サーバやホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアをロードすることができる。従って、ソフトウェア要素を保持できる別の媒体には、ローカルデバイスの物理インターフェースの間を飛び交い、有線及び光学固定電話ネットワーク、様々なエアリンク経由で使用される、光学、電気、電磁波が含まれる。有線又は無線リンク、光リンクなど、そのような波を運ぶ物理要素も、ソフトウェアを搭載した媒体として見なされる。本明細書で使用されるように、非持続的な有形「記憶」媒体に限定されない限り、コンピュータ又は機械の「読み取り可能な媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
[332] したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形の記憶媒体、搬送波媒体又は物理的伝送媒体を含むが、これに限らない。不揮発性記憶媒体には、例えば、図面に示されているデータベースなどを実装するために使用される、任意のコンピュータなどの記憶装置などの光ディスクや磁気ディスクが含まれる。揮発性記憶媒体には、このようなコンピュータプラットフォームのメインメモリなどの動的メモリも含まれる。有形伝送媒体には、同軸ケーブル、例えば、コンピュータシステム内のバスを構成するワイヤを含む、銅線と光ファイバーが含まれる。搬送波伝送媒体は、電気信号又は電磁信号、もしくは無線周波数(RF)及び赤外線(IR)データ通信中に生成される音響波や光波の形をとることができる。従って、一般的な形式のコンピュータ可読可能媒体には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気メディア、CD−ROM、DVD又はDVD−ROM、その他の光学メディア、パンチカード用紙、テープ、穴のパターンを持つ他の物理記憶媒体、RAM、ROM、PROM、EPROM、FLASH−EPROM、その他のメモリチップ又はカートリッジ、データや命令を搬送する搬送波、搬送波を搬送するケーブル又はリンク、コンピュータがプログラミングコードやデータを読み取ることができるその他の媒体が含まれる。このようなコンピュータ可読媒体の多くは、実行のためにプロセッサに複数の命令の複数のシーケンスを運ぶことに関する。
[333] コンピュータシステム2601は、例えば、分類器や訓練アルゴリズムの出力又は読み出しを提供するユーザインターフェース(UI)2640を含む電子ディスプレイ2635を含むか、それと通信することができる。UIの例としては、グラフィカルユーザインターフェース(GUI)とWebベースのユーザインターフェースが挙げられるが、これに限らない。
[334] 本開示の方法及びシステムは、1つ以上のアルゴリズムにより実装できる。アルゴリズムは、中央処理装置2605による実行されるフトウェアにより実装できる。アルゴリズムは、例えば、(i)バイオマーカーの参照セットと比較して、1つ以上のバイオマーカーの試料内の存在を確定することができる。
参考文献
[335] Flaherty KR, King TE, Jr., Raghu G, Lynch JP, 3rd, Colby TV, Travis WD, Gross BH, Kazerooni EA, Toews GB, Long Q, et al: Idiopathic interstitial pneumonia: what is the effect of a multidisciplinary approach to diagnosis? Am J Respir Crit Care Med 2004, 170:904-910.
[336] Travis WD, Costabel U, Hansell DM, King TE, Jr., Lynch DA, Nicholson AG, Ryerson CJ, Ryu JH, Selman M, Wells AU, et al: An official American Thoracic Society/European Respiratory Society statement: Update of the international multidisciplinary classification of the idiopathic interstitial pneumonias. Am J Respir Crit Care Med 2013, 188:733-748.
[337] Flaherty KR, Andrei AC, King TE, Jr., Raghu G, Colby TV, Wells A, Bassily N, Brown K, du Bois R, Flint A, et al: Idiopathic interstitial pneumonia: do community and academic physicians agree on diagnosis? Am J Respir Crit Care Med 2007, 175:1054-1060.
[338] Tuch BB, Laborde RR, Xu X, Gu J, Chung CB, Monighetti CK, Stanley SJ, Olsen KD, Kasperbauer JL, Moore EJ, et al: Tumor transcriptome sequencing reveals allelic expression imbalances associated with copy number alterations. PLoS One 2010, 5:e9317.
[339] Twine NA, Janitz K, Wilkins MR, Janitz M: Whole transcriptome sequencing reveals gene expression and splicing differences in brain regions affected by Alzheimer's disease. PLoS One 2011, 6:e16266.
[340] Boyle EA, Li YI, Pritchard JK: An Expanded View of Complex Traits: From Polygenic to Omnigenic. Cell 2017, 169:1177-1186.
[341] Pankratz DG, Choi Y, Imtiaz U, Fedorowicz GM, Anderson JD, Colby TV, Myers JL, Lynch DA, Brown KK, Flaherty KR, et al: Usual Interstitial Pneumonia Can Be Detected in Transbronchial Biopsies Using Machine Learning. Ann Am Thorac Soc 2017.
[342] Sorlie T, Tibshirani R, Parker J, Hastie T, Marron JS, Nobel A, Deng S, Johnsen H, Pesich R, Geisler S, et al: Repeated observation of breast tumor subtypes in independent gene expression data sets. Proc Natl Acad Sci U S A 2003, 100:8418-8423.
[343] Brennan CW, Verhaak RG, McKenna A, Campos B, Noushmehr H, Salama SR, Zheng S, Chakravarty D, Sanborn JZ, Berman SH, et al: The somatic genomic landscape of glioblastoma. Cell 2013, 155:462-477.
[344] Kim SY, Diggans J, Pankratz D, Huang J, Pagan M, Sindy N, Tom E, Anderson J, Choi Y, Lynch DA, et al: Classification of usual interstitial pneumonia in patients with interstitial lung disease: assessment of a machine learning approach using high-dimensional transcriptional data. Lancet Respir Med 2015, 3:473-482.
[345] Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR: STAR: ultrafast universal RNA-seq aligner. Bioinformatics 2013, 29:15-21.
[346] Anders S, Pyl PT, Huber W: HTSeq--a Python framework to work with high-throughput sequencing data. Bioinformatics 2015, 31:166-169.
[347] DeLuca DS, Levin JZ, Sivachenko A, Fennell T, Nazaire MD, Williams C, Reich M, Winckler W, Getz G: RNA-SeQC: RNA-seq metrics for quality control and process optimization. Bioinformatics 2012, 28:1530-1532.
[348] Love MI, Huber W, Anders S: Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol 2014, 15:550.
[349] Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD: Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc 2013, 8:1765-1786.
[350] Dobson AJ, Barnett A: An introduction to generalized linear models. CRC press; 2008.
[351] Krstajic D, Buturovic LJ, Leahy DE, Thomas S: Cross-validation pitfalls when selecting and assessing regression and classification models. J Cheminform 2014, 6:10.
[352] Friedman J, Hastie T, Tibshirani R: The elements of statistical learning. Springer series in statistics New York; 2001.
[353] LeCun Y, Bengio Y, Hinton G: Deep learning. Nature 2015, 521:436-444.
[354] Gu B, Hu F, Liu H: Modelling classification performance for large data sets. Advances in Web-Age Information Management 2001:317-328.
[355] Sun C, Shrivastava A, Singh S, Gupta A: Revisiting Unreasonable Effectiveness of Data in Deep Learning Era. arXiv preprint arXiv:170702968 2017.
[356] Libbrecht MW, Noble WS: Machine learning applications in genetics and genomics. Nat Rev Genet 2015, 16:321-332.
[357] Wong SC, Gatt A, Stamatescu V, McDonnell MD: Understanding data augmentation for classification: when to warp? In. IEEE; 2016: 1-6; arXiv:1609.08764.
[358] 本発明の好ましい実施形態が本明細書に示され、説明されているが、実施形態は例としてのみ提供されることを当業者は理解するであろう。本発明は、本明細書内で提供される特定の例により限定されることを意図するものではない。上記の明細書を参照して本発明を説明したが、本明細書の実施形態の説明や図面は、限定的な意味で解釈されることを意図していない。本発明から逸脱しない限り、多数の変形、変更、置換が可能である。更に、本発明の全ての態様は、様々な条件や変数に依存する本明細書に記載の特定の描写、構成、又は相対的割合に限らない。本明細書に記載された本発明の実施形態につき、本発明を実施する際に様々に取り替えることができる。従って、本発明は、代替、修正、変形、又は均等物を全て網羅する。以下の特許請求の範囲が本発明の範囲を定義し、請求項に記載の方法及び構造、それらの同等物が全て含まれる。

Claims (60)

  1. 肺疾病について被検体をスクリーニングする方法であって、
    (a)(1)前記肺疾病を発症する1つ以上のリスク因子の存在についてコンピュータ分析を行い、(2)前記1つ以上のリスク因子の存在が特定された被検体から採取された第1の試料からの上皮組織をアッセイすることであって、前記第1の試料における前記肺疾病を発症するリスクに関連付けられた1つ以上のバイオマーカーの有無を特定する、こと、
    (b)前記1つ以上のバイオマーカーの有無を特定するにあたり、(i)前記被検体において前記肺疾病に罹患する疑いのある肺領域の電子画像スキャンを取得するように指示すること、又は、(ii)前記被検体の第2の試料から他の上皮組織をアッセイすること、
    を含む、方法。
  2. (b)の前に、前記被検体の前記上皮組織を含む前記第1の試料のアッセイの要請を受信すること、を更に含む、請求項1に記載の方法。
  3. 前記電子画像スキャンは、低線量断層撮影(LDCT)スキャン又は磁気共鳴画像法(MRI)である、請求項1に記載の方法。
  4. 前記LDCTスキャンは、前記被検体に対する照射線量が約5ミリシーベルト(mSv)未満である、請求項3に記載の方法。
  5. 前記肺疾病は、肺癌、慢性閉塞性肺疾患(COPD)、間質性肺疾患(ILD)、又はこれらの任意の組み合わせである、請求項1に記載の方法。
  6. 前記肺疾病は肺癌であり、前記肺癌は、小細胞肺癌、腺癌、扁平上皮癌、大細胞癌、小細胞肺癌、又はこれらの任意の組み合わせを含む、請求項1に記載の方法。
  7. 前記第1の試料又は前記第2の試料は、気管支鏡検査により採取される、請求項1に記載の方法。
  8. 前記第1の試料又は前記第2の試料は、穿刺吸引法により採取される、請求項1に記載の方法。
  9. 前記第1の試料又は前記第2の試料は、粘膜上皮組織、鼻上皮組織、肺上皮組織、又はこれらの任意の組み合わせを含む、請求項1に記載の方法。
  10. 前記第1の試料又は前記第2の試料は、前記被検体の気道から採取された上皮組織を含む、請求項1に記載の方法。
  11. 前記第1の試料又は前記第2の試料の一部分に対して、前記第1の試料又は前記第2の試料を不明確なもの又は疑わしいものとして特定する細胞検査を行う、請求項1に記載の方法。
  12. 前記第1の試料又は前記第2の試料を不明確なもの又は疑わしいものとして特定するにあたり、前記試料の第2の部分について(b)を行い、前記第2の部分は前記上皮組織を含む、請求項11に記載の方法。
  13. 前記第2の試料は、前記第1の試料とは異なる、請求項1に記載の方法。
  14. 前記第2の試料は、前記第1の試料とは異なる種類の試料である、請求項1に記載の方法。
  15. 前記第1の試料は第1の時点にて前記被検体から採取されたものであり、前記第2の試料は、前記第1の時点より後である第2の時点にて前記被検体から採取されたものである、請求項1に記載の方法。
  16. 前記第2の時点は前記第1の時点から約1〜2年以内である、請求項15に記載の方法。
  17. (a)は、前記1つ以上のバイオマーカーの有無を、1つ以上のバイオマーカーの参照セットと比較することを含む、請求項1に記載の方法。
  18. 前記被検体は、前記肺疾病の治療を必要とする、請求項1に記載の方法。
  19. 前記被検体は、肺疾病を発症するリスクが増加している疑いがある、請求項1に記載の方法。
  20. 前記被検体は、前記肺疾病に対して無症状である、請求項1に記載の方法。
  21. 前記被検体は、以前に前記電子画像スキャンを受けたことがない、請求項1に記載の方法。
  22. 前記被検体は、以前に確定診断を受けたことがない、請求項1に記載の方法。
  23. 前記1つ以上のリスク因子は、喫煙、受動喫煙、ラドン曝露、大気汚染曝露、放射線被曝、工業物質曝露、遺伝又は環境による遺伝子突然変異、被検体の年齢、被検体の二次疾患、又はこれらの任意の組み合わせを含む、請求項1に記載の方法。
  24. 前記被検体は、2つ以上のリスク因子を有する、請求項1に記載の方法。
  25. 前記1つ以上のバイオマーカーは、少なくとも5つのバイオマーカーを含む、請求項1に記載の方法。
  26. 前記1つ以上のバイオマーカーは、遺伝子又は遺伝子フラグメント、配列変異体、融合体、ミトコンドリア転写物、エピジェネティック修飾、コピー数多型、ヘテロ接合性の消失(LOH)、又はこれらの任意の組み合わせのうち1つ以上を含む、請求項1に記載の方法。
  27. 前記1つ以上のバイオマーカーの有無は、発現レベルにより表される、請求項1に記載の方法。
  28. 前記方法は、前記被検体が前記肺疾病を発症するリスクが増加しているか否かを特定する、請求項1に記載の方法。
  29. (b)における前記特定は、訓練アルゴリズムの採用を含む、請求項1に記載の方法。
  30. 前記訓練アルゴリズムは、個人の気道から採取された上皮細胞を含む訓練セットにより訓練されている、請求項29に記載の方法。
  31. 前記訓練アルゴリズムは、前記肺疾病に対して良性の試料と、前記肺疾病に対して悪性の試料とを含む訓練セットにより訓練されている、請求項29に記載の方法。
  32. 前記訓練アルゴリズムは、1つ以上のリスク因子を有する複数の被検体から採取された試料を含む訓練セットにより訓練されている、請求項29に記載の方法。
  33. 前記方法は、(a)の前に、前記被検体をコンピュータ分析することであって、前記被検体における前記肺疾病を発症する前記1つ以上のリスク因子の存在を特定する、ことを更に含む、請求項1に記載の方法。
  34. 肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法であって、
    (a)前記肺疾病に罹患する疑いがあり1つ以上の肺結節について以前に陽性の徴候を示した被検体から採取された上皮組織を含む第1の試料をアッセイすることであって、前記肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定する、こと、
    (b)前記1つ以上のバイオマーカーの有無を特定するにあたり、(i)前記被検体から第2の試料を採取すること、又は、(ii)(a)の結果に基づき前記被検体の肺領域の電子画像スキャンを取得するように前記被検体に指示すること、
    を含む、方法。
  35. 前記陽性の徴候は、以前に電子画像スキャンによって特定されたものである、請求項34に記載の方法。
  36. 前記1つ以上の肺結節は、少なくとも2つの結節である、請求項34に記載の方法。
  37. 前記被検体から前記第2の試料を採取することは、前記被検体に対して気管支鏡検査、胸腔穿刺法(TTNA)、又は胸腔鏡補助下手術(VATS)を行うことを含む、請求項34に記載の方法。
  38. 前記被検体から前記第2の試料を採取することは、組織生検を行うことを含む、請求項34に記載の方法。
  39. 前記1つ以上のバイオマーカーの有無が、前記被検体が前記肺疾病に罹患するリスクが高いか低いかを特定する、請求項34に記載の方法。
  40. (b)は、評価されたリスクに応じて(i)又は(ii)を推奨することを更に含む、請求項39に記載の方法。
  41. 前記被検体の血液試料を分析すること、前記被検体に対する電子画像スキャンを行うこと、又はこれらの組み合わせを更に含む、請求項34に記載の方法。
  42. 前記第2の試料は上皮の試料であり、(b)に続いて、上皮組織の前記試料が1つ以上の追加バイオマーカーの有無についてアッセイされる、請求項34に記載の方法。
  43. 前記1つ以上の追加バイオマーカーは、前記1つ以上のバイオマーカーである、請求項42に記載の方法。
  44. 以前に前記肺疾病の予防又は治療のために介入療法を受けることを推奨されている、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法であって、
    (a)前記被検体が前記肺疾病に対して前記介入療法の少なくとも一部を完了した後、前記被検体から採取された上皮組織を含む第1の試料をアッセイすることであって、遺伝データを生成する、こと、
    (b)前記遺伝データを処理することであって、前記肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定する、こと、
    (c)前記被検体から第2の試料を採取することを推奨することを含むレポートをコンピュータで生成すること、
    を含む、方法。
  45. 前記方法は、前記介入療法に対する被検体のコンプライアンスを特定する、請求項44に記載の方法。
  46. 前記方法は、前記肺疾病の予防又は治療に対する前記介入療法の有効性を特定する、請求項44に記載の方法。
  47. 前記介入療法は、前記被検体に対して医薬組成物を投与することを含む、請求項44に記載の方法。
  48. 前記医薬組成物は化学療法薬を含む、請求項47に記載の方法。
  49. 前記介入療法は、運動療法、食事療法、減煙又は禁煙、又はこれらの任意の組み合わせを含む、請求項44に記載の方法。
  50. (b)は、前記遺伝データを処理することであって、前記1つ以上のバイオマーカーのそれぞれに対応する発現レベルを特定する、ことを含む、請求項44に記載の方法。
  51. 肺疾病について前記被検体をモニタリングする方法であって、
    (a)肺疾病に対する治療を以前に開始している被検体から採取された上皮組織を含む第1の試料をアッセイすること及び1つ以上のバイオマーカーの有無を特定すること、
    (b)寛解の確定を受けるにあたり、前記被検体から第2の試料を採取すること及び前記第2の試料で(a)を繰り返すこと、を含む、方法。
  52. (b)は、前記遺伝データを処理することであって、前記1つ以上のバイオマーカーにおいて少なくとも1つの遺伝子異常を特定する、ことを含む、請求項44又は51に記載の方法。
  53. 前記方法は、非侵襲的モニタリングにより肺疾病の再発を早期段階で特定する、請求項51に記載の方法。
  54. 前記被検体は、前記肺疾病に対して再発のリスクが増加している疑いがある、請求項51に記載の方法。
  55. 肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングする方法であって、
    (a)前記肺疾病に罹患する疑いがあり、1つ以上の肺結節について以前に陰性の徴候を示した被検体から採取された上皮組織を含む第1の試料をアッセイすることであって、前記肺疾病と関連付けられた1つ以上のバイオマーカーの有無を特定する、こと、
    (b)前記1つ以上のバイオマーカーの有無を特定するにあたり、(i)前記被検体から第2の試料を採取すること、又は、(ii)(a)の結果に基づき前記被検体の肺領域の電子画像スキャンを取得するように前記被検体に指示すること、
    を含む、方法。
  56. (a)の前に、前記被検体に対して前記肺疾病を発症する1つ以上のリスク因子の存在についてコンピュータ分析すること、及び前記被検体から前記1つ以上のリスク因子の存在を特定すること、を更に含む、請求項55に記載の方法。
  57. 肺疾病について被検体をスクリーニングするシステムであって、
    被検体のヘルスデータ又は生理データを含む1つ以上のコンピュータデータベースと、
    (i)前記被検体に対して前記肺疾病を発症する1つ以上のリスク因子の存在について前記ヘルスデータ又は生理データを分析し、(2)前記1つ以上のリスク因子を特定するにあたり、前記被検体の試料からの上皮組織に対して前記肺疾病を発症するリスクと関連付けられた1つ以上のバイオマーカーに関するアッセイの推奨を生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサと
    を含む、システム。
  58. 肺疾病について被検体をスクリーニングするシステムであって、
    (i)被検体において前記肺疾病を発症する1つ以上のリスク因子の存在を示すデータを含む第1のデータセットと、(ii)前記被検体の試料における上皮組織における1つ以上のリスク因子の有無を示すデータを含む第2のデータセットとを含み、1つ以上のバイオマーカーは前記肺疾病を発症するリスクと関連付けられる、1つ以上のコンピュータデータベースと、
    (i)前記第1のデータセットを分析して前記1つ以上のリスク因子の存在を特定し、(ii)前記第2のデータセットを分析して前記1つ以上のバイオマーカーの存在を特定し、(iii)前記1つ以上のバイオマーカーの有無を特定するにあたり、(1)前記被検体において前記肺疾病に罹患する疑いのある肺領域の電子画像スキャンを取得するように指示する、又は(2)前記被検体の第2の試料からの他の上皮組織をアッセイするように指示する、レポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサと
    を含む、システム。
  59. 肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングするシステムであって、
    前記被検体の第1の試料における上皮組織における1つ以上のバイオマーカーの有無を示すデータを含み、1つ以上のバイオマーカーは前記肺疾病と関連付けられる、1つ以上のコンピュータデータベースと、
    (i)前記被検体が以前に1つ以上の肺結節の存在について陽性の徴候を示していたと判定し、(ii)(i)に続いて、前記データセットを処理して前記1つ以上のバイオマーカーの有無を特定し、(iii)前記1つ以上のバイオマーカーの有無を特定するにあたり、(1)前記被検体から第2の試料を採取するように指示する、又は(2)前記被検体の肺領域の電子画像スキャンを更に取得するように指示する、レポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサと、
    を含む、システム。
  60. 以前に前記肺疾病の予防又は治療のために介入療法を完了することを推奨されている、肺疾病に罹患している又は肺疾病に罹患する疑いのある被検体をモニタリングするシステムであって、
    遺伝データを含むデータセットを含む1つ以上のコンピュータデータベースと、
    (i)前記被検体が前記肺疾病に対して前記介入療法の少なくとも一部を完了した後、前記遺伝データを処理して前記肺疾病と関連付けられる1つ以上のバイオマーカーの有無を特定し、(iii)前記被検体から第2の試料を採取することを推奨することを含むレポートを生成するように、個別又は集合的にプログラムされた、1つ以上のコンピュータプロセッサと
    を含む、システム。
JP2019565941A 2017-06-02 2018-06-01 肺疾病の特定又はモニタリング方法及びシステム Pending JP2020522690A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762514595P 2017-06-02 2017-06-02
US62/514,595 2017-06-02
US201762546936P 2017-08-17 2017-08-17
US62/546,936 2017-08-17
PCT/US2018/035702 WO2018223066A1 (en) 2017-06-02 2018-06-01 Methods and systems for identifying or monitoring lung disease

Publications (3)

Publication Number Publication Date
JP2020522690A true JP2020522690A (ja) 2020-07-30
JP2020522690A5 JP2020522690A5 (ja) 2021-07-26
JPWO2018223066A5 JPWO2018223066A5 (ja) 2022-07-20

Family

ID=64455595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019565941A Pending JP2020522690A (ja) 2017-06-02 2018-06-01 肺疾病の特定又はモニタリング方法及びシステム

Country Status (5)

Country Link
US (1) US20200405225A1 (ja)
EP (1) EP3629904A4 (ja)
JP (1) JP2020522690A (ja)
CN (1) CN110958853B (ja)
WO (1) WO2018223066A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230078011A1 (en) * 2021-09-13 2023-03-16 Northwestern University Method and system for labeling medical images

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495515B1 (en) 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US10236078B2 (en) 2008-11-17 2019-03-19 Veracyte, Inc. Methods for processing or analyzing a sample of thyroid tissue
EP2427575B1 (en) 2009-05-07 2018-01-24 Veracyte, Inc. Methods for diagnosis of thyroid conditions
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
US12297505B2 (en) 2014-07-14 2025-05-13 Veracyte, Inc. Algorithms for disease diagnostics
EP3770274A1 (en) 2014-11-05 2021-01-27 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
WO2020061562A1 (en) * 2018-09-21 2020-03-26 Alexander Davis A data processing system for detecting health risks and causing treatment responsive to the detection
GB2596233B (en) * 2018-12-20 2023-10-11 Veracyte Inc Methods and systems for detecting genetic fusions to identify a lung disorder
CA3162251A1 (en) 2020-01-06 2021-07-15 Jillian SUE Systems and methods for analyzing electronic images for quality control
RU2744552C1 (ru) * 2020-08-06 2021-03-11 Государственное бюджетное учреждение здравоохранения города Москвы "Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы" (ГБУЗ "НПКД ДиТ ДЗМ") Способ исследования состояния легких при подозрении на COVID-19 с помощью низкодозной компьютерной томографии
CN112215799A (zh) * 2020-09-14 2021-01-12 北京航空航天大学 一种磨玻璃肺结节自动分类方法及系统
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法
CN112635063B (zh) * 2020-12-30 2022-05-24 华南理工大学 一种肺癌预后综合预测模型、构建方法及装置
CN113674839B (zh) * 2021-07-22 2024-11-22 清华大学 无创成像筛查与微创取样核酸分型的联合检测系统
US20230215565A1 (en) * 2021-09-01 2023-07-06 Rockley Photonics Limited Health state estimation using machine learning
CN114563576B (zh) * 2021-12-17 2024-09-10 重庆医科大学 Cxcl14作为生物标志物在结核病诊断中的用途
CN114544982A (zh) * 2022-03-28 2022-05-27 中元伯瑞生物科技(珠海横琴)有限公司 尘肺诊断的生物标志物及其应用
CN116797596B (zh) * 2023-08-17 2023-11-28 杭州健培科技有限公司 一种肺结节所属肺段识别模型和训练方法
CN117495174B (zh) * 2023-11-03 2024-07-19 睿智合创(北京)科技有限公司 一种评分卡模型的前台数据监控方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006105642A1 (en) * 2005-04-05 2006-10-12 British Columbia Cancer Agency Biomarkers for the detection of lung cancer and uses thereof
US20110269142A1 (en) * 2010-04-30 2011-11-03 President And Fellows Of Harvard College Clinical Method for Individualized Epithelial Cancer Screening Involving ERCC5 and IGF2R Genetic Testing and Gene-Environment Interactions
JP2013532295A (ja) * 2010-07-09 2013-08-15 ソマロジック・インコーポレーテッド 肺癌バイオマーカーとその使用
WO2013154998A1 (en) * 2012-04-09 2013-10-17 Duke University Serum biomarkers and pulmonary nodule size for the early detection of lung cancer
JP2014512511A (ja) * 2010-10-20 2014-05-22 ラッシュ ユニバーシティ メディカル センター 肺がん試験
US20140274772A1 (en) * 2013-03-15 2014-09-18 Rush University Medical Center Biomarker panel for detecting lung cancer
US20140271453A1 (en) * 2013-03-14 2014-09-18 Abbott Laboratories Methods for the early detection of lung cancer
JP2015533477A (ja) * 2012-08-20 2015-11-26 ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ 初期段階の肺がんにおける予後指標としてのタンパク質コーディング遺伝子及び非コーディング遺伝子の発現
WO2016011068A1 (en) * 2014-07-14 2016-01-21 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
WO2016073768A1 (en) * 2014-11-05 2016-05-12 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US20160363581A1 (en) * 2015-06-11 2016-12-15 Michael Phillips Method and apparatus for identification of biomarkers in breath and methods of using same for prediction of lung cancer

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7799498A (en) * 1997-06-10 1998-12-30 Quadrivium, L.L.C. System and method for detection of a biological condition
GB2513732B (en) * 2011-12-10 2020-12-02 Veracyte Inc Methods and compositions for sample identification
WO2013163568A2 (en) * 2012-04-26 2013-10-31 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
US10342457B2 (en) * 2012-06-08 2019-07-09 Koninjklijke Philips N.V. Method and system for monitoring the lung function of a patient
CN104853802B (zh) * 2012-12-14 2021-12-07 明德拉公司 用于检测和获取生物标志物的方法和装置
MX2016005825A (es) * 2013-11-07 2016-12-09 Medial Res Ltd Procedimientos y sistemas para evaluar un riesgo de cancer de pulmon.
US20170127976A1 (en) * 2015-06-11 2017-05-11 Michael Phillips Method and apparatus for identification of biomarkers in breath and methods of usng same for prediction of lung cancer

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006105642A1 (en) * 2005-04-05 2006-10-12 British Columbia Cancer Agency Biomarkers for the detection of lung cancer and uses thereof
US20110269142A1 (en) * 2010-04-30 2011-11-03 President And Fellows Of Harvard College Clinical Method for Individualized Epithelial Cancer Screening Involving ERCC5 and IGF2R Genetic Testing and Gene-Environment Interactions
JP2013532295A (ja) * 2010-07-09 2013-08-15 ソマロジック・インコーポレーテッド 肺癌バイオマーカーとその使用
JP2014512511A (ja) * 2010-10-20 2014-05-22 ラッシュ ユニバーシティ メディカル センター 肺がん試験
WO2013154998A1 (en) * 2012-04-09 2013-10-17 Duke University Serum biomarkers and pulmonary nodule size for the early detection of lung cancer
JP2015533477A (ja) * 2012-08-20 2015-11-26 ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ 初期段階の肺がんにおける予後指標としてのタンパク質コーディング遺伝子及び非コーディング遺伝子の発現
US20140271453A1 (en) * 2013-03-14 2014-09-18 Abbott Laboratories Methods for the early detection of lung cancer
US20140274772A1 (en) * 2013-03-15 2014-09-18 Rush University Medical Center Biomarker panel for detecting lung cancer
WO2016011068A1 (en) * 2014-07-14 2016-01-21 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
WO2016073768A1 (en) * 2014-11-05 2016-05-12 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US20160363581A1 (en) * 2015-06-11 2016-12-15 Michael Phillips Method and apparatus for identification of biomarkers in breath and methods of using same for prediction of lung cancer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230078011A1 (en) * 2021-09-13 2023-03-16 Northwestern University Method and system for labeling medical images

Also Published As

Publication number Publication date
CN110958853B (zh) 2023-08-25
CN110958853A (zh) 2020-04-03
EP3629904A4 (en) 2021-03-31
US20200405225A1 (en) 2020-12-31
EP3629904A1 (en) 2020-04-08
WO2018223066A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
CN110958853B (zh) 用于鉴定或监测肺病的方法和系统
Jamshidi et al. Evaluation of cell-free DNA approaches for multi-cancer early detection
US12051509B2 (en) Methods and machine learning systems for predicting the likelihood or risk of having cancer
US20210040562A1 (en) Methods for evaluating lung cancer status
CN112601826A (zh) 通过全基因组整合进行循环肿瘤dna的超灵敏检测
EP4247980A2 (en) Determination of cytotoxic gene signature and associated systems and methods for response prediction and treatment
US12297505B2 (en) Algorithms for disease diagnostics
Michuda et al. Validation of a transcriptome-based assay for classifying cancers of unknown primary origin
Park et al. Comprehensive analysis of transcription factor-based molecular subtypes and their correlation to clinical outcomes in small-cell lung cancer
Jin et al. Development and validation of an integrated system for lung cancer screening and post-screening pulmonary nodules management: a proof-of-concept study (ASCEND-LUNG)
US20220148677A1 (en) Methods and systems for detecting genetic fusions to identify a lung disorder
Cheng et al. Early signatures of breast cancer up to seven years prior to clinical diagnosis in plasma cell-free DNA methylomes
Zhang et al. Multi-omics analysis unveils immunosuppressive microenvironment in the occurrence and development of multiple pulmonary lung cancers
Yu et al. Lung tumor discrimination by deep neural network model CanDo via DNA methylation in bronchial lavage
Al Bakir et al. Low coverage whole genome sequencing of low-grade dysplasia strongly predicts colorectal cancer risk in ulcerative colitis
Li et al. Circulating tumor DNA profiling approach based on in silico background elimination guides chemotherapy in nasopharyngeal carcinoma
US20240209449A1 (en) Methods and systems to identify a lung disorder
Stone et al. Using saliva epigenetic data to develop and validate a multivariable predictor of esophageal cancer status
Ku et al. Radiogenomic profiling of prostate tumors prior to external beam radiotherapy converges on a transcriptomic signature of TGF-β activity driving tumor recurrence
WO2022120076A1 (en) Clinical classifiers and genomic classifiers and uses thereof
Dia et al. Computational analysis of whole slide images predicts PD-L1 expression and progression-free survival in immunotherapy-treated non-small cell lung cancer patients
WO2025088376A1 (en) Target cell-related machine learning systems for identifying and/or detecting molecular signatures of disease and associated methods of use thereof
Zhang Genomic biomarker development to impact clinical management of patients at risk for lung cancer
CN117230194A (zh) 一种适用于伴发胸腔积液t细胞淋巴瘤患者的预后评估系统及其应用
HK40012915A (en) Compositions, methods and kits for diagnosis of lung cancer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220408

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20220708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230301

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230531

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230619

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230810