BE1023267B1

BE1023267B1 - Method for analyzing copy number variation in the detection of cancer

Info

Publication number: BE1023267B1
Application number: BE2015/5444A
Authority: BE
Inventors: Benoit Devogelaere; Joke Allemeersch
Original assignee: Cartagenia N.V.
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2017-01-17
Also published as: BE1023267A1

Abstract

De onderhavige uitvinding heeft betrekking op een werkwijze voor het identificeren van de aanwezigheid van kanker en/of een verhoogd risico op kanker bij een zoogdier, door het berekenen van een parameter die is verkregen uit een biologisch monster, waarbij de genoemde drempelwaarde een vereiste is voor de aanwezigheid of afwezigheid van een of meerdere aneuploïdieën in het genoemde doelchromosoom of chromosoomsegment dat een indicator is voor de aanwezigheid en/of een verhoog risico op kanker.The present invention relates to a method for identifying the presence of cancer and / or an increased risk of cancer in a mammal, by calculating a parameter obtained from a biological sample, said threshold value being a requirement for the presence or absence of one or more aneuploidies in said target chromosome or segment of chromosome which is an indicator of the presence and / or increased risk of cancer.

Description

WERKWIJZE VOOR HET ANALYSEREN VAN KOPIENUMMERVARIATIE BIJ DE DETECTIE VAN KANKERMETHOD FOR ANALYZING COPY NUMBER VARIATION IN CANCER DETECTION

Technisch gebiedTechnical area

De uitvinding heeft betrekking op het technische gebied van een werkwijze voor het bepalen van kopienummervariatie (CNV) van een interessante sequentie in een testmonster dat een mengsel van nucleïnezuren omvat waarvan bekend is of vermoed wordt dat ze verschillen in de hoeveelheid van een of meerdere interessante sequenties. De werkwijze omvat een statistische benadering die rekening houdt met verhoogde variabiliteit afkomstig van procesgerelateerde, interchromosomale en inter-sequencing variabiliteit. De werkwijze is van toepassing voor het bepalen van CNV's waarvan bekend is of wordt vermoed dat ze zijn geassocieerd met verschillende medische aandoeningen. CNV's die kunnen worden bepaald volgens de werkwijze omvatten trisomieën en monosomieën van enige een of meerdere chromosomen 1-22, X en Y, andere chromosomale nullisomieën en polysomieën, en deleties en/of duplicaties en/of amplificaties van segmenten van enige een of meerdere van de chromosomen, die kunnen worden gedetecteerd door sequencing van de nucleïnezuren van een testmonster.The invention relates to the technical field of a method for determining copy number variation (CNV) of an interesting sequence in a test sample comprising a mixture of nucleic acids known or suspected to differ in the amount of one or more interesting sequences . The method includes a statistical approach that takes into account increased variability from process-related, interchromosomal and inter-sequencing variability. The method is applicable for determining CNVs that are known or suspected to be associated with various medical conditions. CNVs that can be determined according to the method include trisomies and monosomies of any one or more chromosomes 1-22, X and Y, other chromosomal null isomies and polysomies, and deletions and / or duplications and / or amplifications of segments of any one or more of the chromosomes, which can be detected by sequencing the nucleic acids of a test sample.

AchtergrondBackground

Een van de kritische uitdagingen in de humane medische wetenschap is de ontdekking van genetische afwijkingen die nadelige gevolgen voor de gezondheid met zich meebrengen. In veel gevallen zijn specifieke genen en/of kritische diagnostische markers geïdentificeerd in segmenten van het genoom die aanwezig zijn in abnormale kopieaantallen. In prenatale diagnose zijn extra of ontbrekende kopieën van volledige chromosomen bijvoorbeeld vaak voorkomende genetische afwijkingen. Bij kanker komen deletie of amplificatie van kopieën van volledige chromosomen of chromosomale segmenten of specifieke gebieden van het genoom vaak voor.One of the critical challenges in human medical science is the discovery of genetic abnormalities that have adverse health consequences. In many cases, specific genes and / or critical diagnostic markers have been identified in segments of the genome that are present in abnormal copy numbers. For example, in prenatal diagnosis, additional or missing copies of complete chromosomes are common genetic abnormalities. In cancer, deletion or amplification of copies of entire chromosomes or chromosomal segments or specific regions of the genome are common.

De meeste informatie over kopievariatie wordt gegeven voor cytogenetische resolutie die herkenning van structurele afwijkingen heeft toegelaten. Conventionele procedures voor genetische screening en biologische disometrie hebben invasieve procedures gebruikt bijv. amniocentese of biopsie van solide tumoren, om cellen te verkrijgen voor de analyse van karyotypes. Dankzij de erkenning van de nood aan snellere testmethodes die geen celkweek vereisen zijn fluorescentie in situ hybridisatie (FISH), kwantitatieve fluorescentie PCR (QF-PCR) en arrayvergelijkende genomische hybridisatie (array-CGH) ontwikkeld als moleculaire-cytogenetische methodes voor de analyse van kopieaantalvariaties.Most information about copy variation is given for cytogenetic resolution that has allowed recognition of structural abnormalities. Conventional procedures for genetic screening and biological disometry have used invasive procedures, e.g. amniocentesis or biopsy of solid tumors, to obtain cells for the analysis of karyotypes. Recognizing the need for faster test methods that do not require cell culture, fluorescence in situ hybridization (FISH), quantitative fluorescence PCR (QF-PCR), and array comparative genomic hybridization (array CGH) have been developed as molecular cytogenetic methods for the analysis of copy number variations .

De komst van technologieën die sequencing van volledige genomen op relatief korte tijd toelaten, en de ontdekking van circulerend celvrij DNA (cfDNA) hebben de opportuniteit geboden om genetisch materiaal dat afkomstig is van één chromosoom te vergelijken om te worden vergeleken met dat van een ander zonder de risico's die zijn geassocieerd met invasieve bemonsteringsmethodes. US20130034546 en US20130310263 beschrijven beide een werkwijze voor het identificeren van de aanwezigheid van kanker of het risico om kanker te ontwikkelen op basis van een analyse van verkregen sequentieaflezingen die zijn verkregen uit een celvrije DNA-fractie in een monster.The advent of technologies that allow sequencing of complete genomes in a relatively short time, and the discovery of circulating cell-free DNA (cfDNA) have offered the opportunity to compare genetic material from one chromosome to be compared to that of another without the risks associated with invasive sampling methods. US20130034546 and US20130310263 both describe a method for identifying the presence of cancer or the risk of developing cancer based on an analysis of obtained sequence readings obtained from a cell-free DNA fraction in a sample.

Vandenberghe et al., "Non-invasive détection of genomic imbalances in Hodgkin/Reed-Sternberg cells in early and advanced stage Hodgkin's lymphoma by sequencing of circulating cell-free DNA: a technical proof-of-principle study", 2015 beschrijft een methodologie voor het identificeren van genomische onevenwichten bij een patiënt die lijdt aan een presymtomatische Hodgkin lymfoomkanker door masieve parallelle sequencing van circulerend celvrij DNA.Vandenberghe et al., "Non-invasive detection of genomic imbalances in Hodgkin / Reed-Sternberg cells in early and advanced stage Hodgkin's lymphoma by sequencing or circulating cell-free DNA: a technical proof-of-principle study", 2015 describes a methodology for identifying genomic imbalances in a patient suffering from presymtomatic Hodgkin lymphoma cancer by massive parallel sequencing of circulating cell-free DNA.

De beperkingen van de bestaande werkwijzen, die onvoldoende gevoeligheid omvatten omwille van de beperkte niveaus van cfDNA, en de sequencingbias van de technologie omwille van de inherente aard van genomische informatie, onderstrepen echter de voortdurende nood aan niet-invasieve werkwijzen die enige of alle van de specificiteit, gevoeligheid en toepasbaarheid zouden bieden, om een betrouwbare diagnose te kunnen stellen van kopieaantalveranderingen in een verscheidenheid aan klinische settings.However, the limitations of the existing methods, which include insufficient sensitivity due to the limited levels of cfDNA, and the sequencing bias of the technology due to the inherent nature of genomic information, underline the continuing need for non-invasive methods that include some or all of the specificity, sensitivity and applicability, in order to be able to make a reliable diagnosis of copy number changes in a variety of clinical settings.

Hoewel de bovengenoemde methodologieën waardevol zijn, blijft de verhouding van valse positieven en negatieven hoog in het veld. Daarom wordt er constant gestreefd naar het bieden van methodologieën die het percentage valse positieven en in het bijzonder valse negatieven kunnen verlagen, om een meer nauwkeurige screening te bieden.Although the above methodologies are valuable, the ratio of false positives and negatives remains high in the field. Therefore, there is a constant effort to provide methodologies that can reduce the percentage of false positives, and in particular false negatives, to provide more accurate screening.

De onderhavige uitvinding heeft als doel het bieden van een nauwkeurigere, in hoofdzaak niet-invasieve methodologie voor het bepalen of een individu van tumor afgeleid celvrij DNA heeft in zijn of haar perifeer bloed, voor het bevestigen van de diagnose van kanker, om te helpen bij de classificatie van een kanker, voor het beoordelen van de behandelingsrespons, voor het monitoren van de patiënt.The present invention has for its object to provide a more accurate, substantially non-invasive methodology for determining whether an individual has tumor-derived cell-free DNA in his or her peripheral blood, for confirming the diagnosis of cancer, to aid in the classification of a cancer, for assessing the treatment response, for monitoring the patient.

Samenvatting van de uitvindingSummary of the invention

De onderhavige uitvinding biedt een werkwijze, systemen en een apparaat voor het bepalen of er een nucleïnezuursequentieonevenwicht (bijv. chromosoomonevenwicht of een onevenwicht van een chromosoomsegment of gebied) of een genoombrede instabiliteit bestaat binnen een biologisch monster dat is verkregen van een patiënt of voor het bepalen van kopieaantalvariaties.The present invention provides a method, systems, and apparatus for determining whether there is a nucleic acid sequence imbalance (e.g., chromosome imbalance or an imbalance of a chromosome segment or region) or a genome-wide instability within a biological sample obtained from a patient or for determining of copy number variations.

De onderhavige uitvinding biedt in het bijzonder een werkwijze volgens conclusie 1 en een computerprogram ma product volgens conclusie 27.The present invention particularly provides a method according to claim 1 and a computer program product according to claim 27.

Andere uitvoeringsvormen van de uitvinding zijn gericht op systemen en door de computer leesbare media die zijn geassocieerd met de werkwijzen die hier beschreven zijn.Other embodiments of the invention are directed to systems and computer-readable media associated with the methods described herein.

BESCHRIJVING VAN DE FIGURENDESCRIPTION OF THE FIGURES

Figuur 1 toont een grafiek van secundaire parameters die zijn verkregen volgens een uitvoeringsvorm van de onderhavige uitvinding per chromosoom van een monster.Figure 1 shows a graph of secondary parameters obtained according to an embodiment of the present invention per chromosome of a sample.

Figuur 2 toont spreidingsdiagrammen van chromosomen van een monster, waarbij de berekening van een parameter volgens een uitvoeringsvorm volgens de onderhavige uitvinding genoombrede instabiliteit aangeeft die zou kunnen wijzen op de aanwezigheid van een tumor.Figure 2 shows scatter diagrams of chromosomes of a sample, the calculation of a parameter according to an embodiment of the present invention indicating genome-wide instability that could indicate the presence of a tumor.

DEFINITIESDEFINITIONS

Tenzij anders gedefinieerd hebben alle termen die zijn gebruikt in de beschrijving van de uitvinding, inclusief technische en wetenschappelijke termen, de betekenis die algemeen wordt begrepen door een vakman in het gebied waarop deze uitvinding betrekking heeft. Verder zijn definities van de termen opgenomen om de beschrijving van de onderhavige uitvinding beter te begrijpen.Unless defined otherwise, all terms used in the description of the invention, including technical and scientific terms, have the meaning generally understood by one skilled in the art to which this invention relates. Furthermore, definitions of the terms are included to better understand the description of the present invention.

Zoals hierin gebruikt, hebben de volgende termen de volgende betekenis:As used herein, the following terms have the following meaning:

De term "biologisch monster" zoals hierin gebruikt, verwijst naar elk monster dat is afgenomen van een patiënt (bijv. een mens, zoals een zwangere vrouw) en een of meerdere interessante nucleïnezuurmolecule(n) bevat.The term "biological sample" as used herein refers to any sample taken from a patient (e.g., a human, such as a pregnant woman) and containing one or more interesting nucleic acid molecule (s).

De term "nucleïnezuur" of "polynucleotide" verwijst naar een deoxyribonucleïnezuur (DNA) of ribonucleïnezuur (RNA) en een polymeer daarvan in hetzij enkel- hetzij dubbelstrengige vorm. Tenzij specifiek beperkt, omvat de term nucleïnezuren bevattende welbekende analogen van natuurlijke nucleotiden die gelijkaardige bindingseigenschappen hebben als het referentienucleïnezuur en op gelijkaardige manier gemetaboliseerd zijn als natuurlijke voorkomende nucleotiden. Tenzij anders aangegeven, omvat een bepaalde nucleïnezuursequentie ook impliciet conversatief gewijzigde varianten daarvan (bijv. degeneercodonsubstituties), allellen, orthologen, enkel-nucleotide polymorfismen (SNP's) en complementaire sequenties evenals de expliciet aangegeven sequentie. Degenereercodonsubstituties kunnen in het bijzonder worden verkregen door het genereren van sequenties waarin de derde positie van een of meerdere geselecteerde (of alle) codons is gesubstitueerd met gemengde-basis en/of deoxyinosine-residuen. De term nucleïnezuur wordt verwisselbaar gebruikt met gen, DNA, cDNA, mRNA, klein niet-coderend RNA, micro-RNA (miRNA), Piwi-interagerend RNA, en korte haarspeld RNA (shRNA) gecodeerd door een gen of locus.The term "nucleic acid" or "polynucleotide" refers to a deoxyribonucleic acid (DNA) or ribonucleic acid (RNA) and a polymer thereof in either single or double-stranded form. Unless specifically limited, the term includes nucleic acids containing well-known analogs of natural nucleotides that have similar binding properties to the reference nucleic acid and are similarly metabolized as naturally occurring nucleotides. Unless otherwise stated, a particular nucleic acid sequence also includes implicitly conversatively modified variants thereof (e.g., degenerator codon substitutions), alleles, orthologs, single-nucleotide polymorphisms (SNPs) and complementary sequences as well as the explicitly indicated sequence. Degeneration codon substitutions can in particular be obtained by generating sequences in which the third position of one or more selected (or all) codons is substituted with mixed-base and / or deoxyinosine residues. The term nucleic acid is used interchangeably with gene, DNA, cDNA, mRNA, small non-coding RNA, micro-RNA (miRNA), Piwi-interacting RNA, and short hairpin RNA (shRNA) encoded by a gene or locus.

De term "gen" betekent het segment van DNA dat betrokken is bij de productie van een polypeptideketen. Het kan gebieden omvatten voorafgaand of volgend op het coderingsgebied (kop en staart) evenals interveniërende sequenties (intronen) tussen individuele coderingssegmenten (exonen).The term "gene" means the segment of DNA that is involved in the production of a polypeptide chain. It may include regions preceding or following the coding region (head and tail) as well as intervening sequences (introns) between individual coding segments (exons).

De term "reactie" zoals hierin gebruikt, verwijst naar elk proces omvattende een chemische, enzymatische of fysieke actie die indicatief is voor de aanwezigheid of afwezigheid van een bepaalde interessante polynucleotidesequentie. Een voorbeeld van een "reactie" is een amplificatiereactie zoals een polymerasekettingreactie (PCR). Een ander voorbeeld van een "reactie" is een sequencingreactie, hetzij door synthese, hybridisatie hetzij door het brengen van DNA door een porie en het meten van signalen die indicatief zijn voor een bepaalde nucleotide. Een "informatieve reactie" is een reactie die wijst op de aanwezigheid van een of meerdere bepaalde interessante polynucleotidesequenties, en in een geval waar slechts één interessante sequentie aanwezig is. De term "putje" zoals hier gebruikt, verwijst naar een reactie op een vooraf bepaalde locatie binnen een beperkte structuur, bijv. een putjesvormig flesje, cel, of kamer in een PCR-array of bijv. de individuele reactievolumes waarin sequencingreacties plaatsvinden (inclusief zogenaamde patroonstroomcellen van Illumina).The term "reaction" as used herein refers to any process comprising a chemical, enzymatic or physical action indicative of the presence or absence of a particular interesting polynucleotide sequence. An example of a "reaction" is an amplification reaction such as a polymerase chain reaction (PCR). Another example of a "reaction" is a sequencing reaction, either by synthesis, hybridization, or by passing DNA through a pore and measuring signals indicative of a particular nucleotide. An "informative response" is a response that indicates the presence of one or more particular interesting polynucleotide sequences, and in a case where only one interesting sequence is present. The term "well" as used herein refers to a response at a predetermined location within a limited structure, e.g., a well-shaped vial, cell, or chamber in a PCR array or e.g. the individual reaction volumes in which sequencing reactions take place (including so-called cartridge flow cells from Illumina).

De term "klinisch relevante nucleïnezuursequentie" of "doelchromosoom of chromosomaal segment" zoals hierin gebruikt, kan verwijzen naar een polynucleotidesequentie overeenkomstig een segment van een grotere genomische sequentie waarvan het potentiële onevenwicht is getest of naar de grotere genomische sequentie zelf. Een voorbeeld is de sequentie van chromosoom 21. Andere voorbeelden omvatten chromosoom 18, 13 X en Y. Nog andere voorbeelden omvatten gemuteerde genetische sequenties of genetische polymorfismen of kopieaantalvariaties (CNV's) die een foetus kan overerven van een of beide van de ouders. Nog andere voorbeelden omvatten sequenties die zijn gemuteerd, gewist of geamplificeerd in een kwaadaardige tumor, bijv. sequenties waarin verlies van heterozygositeit of genduplicatie voorkomt. In sommige uitvoeringsvormen kunnen meerdere klinisch relevante nucleïnezuursequenties, of equivalente meerdere makers van de klinisch relevante nucleïnezuursequenties worden gebruikt voor het bieden van gegevens voor het detecteren van het onevenwicht. Gegevens van vijf niet-opeenvolgende sequenties over chromosoom 21 kunnen bijvoorbeeld op een aanvullende manier worden gebruikt voor de bepaling van mogelijk onevenwicht in chromosoom 21, waardoor de nood aan monstervolume effectief wordt gereduceerd tot 1/5.The term "clinically relevant nucleic acid sequence" or "target chromosome or chromosomal segment" as used herein may refer to a polynucleotide sequence corresponding to a segment of a larger genomic sequence whose potential imbalance has been tested or to the larger genomic sequence itself. An example is the sequence of chromosome 21. Other examples include chromosome 18, 13 X and Y. Still other examples include mutated genetic sequences or genetic polymorphisms or copy number variations (CNVs) that a fetus can inherit from one or both of the parents. Still other examples include sequences that have been mutated, deleted, or amplified in a malignant tumor, e.g., sequences in which loss of heterozygosity or gene duplication occurs. In some embodiments, multiple clinically relevant nucleic acid sequences, or equivalent multiple makers of the clinically relevant nucleic acid sequences, may be used to provide data for detecting the imbalance. For example, data from five non-consecutive sequences on chromosome 21 can be used in an additional way to determine possible imbalance in chromosome 21, effectively reducing the need for sample volume to 1/5.

De term "oververtegenwoordigde nucleïnezuursequentie" zoals hierin gebruikt, verwijst naar de nucleïnezuursequentie van twee interessante sequenties (bijv. een klinisch relevante sequentie en een achtergrondsequentie) die in meer overvloed aanwezig is dan de andere sequentie in een biologisch monster.The term "over-represented nucleic acid sequence" as used herein refers to the nucleic acid sequence of two interesting sequences (e.g., a clinically relevant sequence and a background sequence) that is present in more abundance than the other sequence in a biological sample.

De term "gebaseerd op" zoals hierin gebruikt, betekent "ten minste gedeeltelijk gebaseerd op" en verwijst naar één waarde (of resultaat) die wordt gebruikt bij de bepaling van een andere waarde, zoals plaatsvindt in verband met een ingang van een werkwijze en de uitgang van die werkwijze. De term "afleiden" zoals hierin gebruikt, verwijst naar de relatie van een ingang van een werkwijze en de uitgang van die werkwijze, zoals plaatsvindt wanneer de afleiding de berekening van een formule is.The term "based on" as used herein means "based at least in part" and refers to one value (or result) that is used in determining another value, such as occurs in connection with an input to a method and the output of that method. The term "derivation" as used herein refers to the relationship of an input of a method and the output of that method, as occurs when the derivation is the calculation of a formula.

De term "parameter" verwijst hierin naar een numerieke waarde die een kwantitatieve gegevensreeks en/of een numerieke relatie tussen kwantitatieve gegevensreeksen kenmerkt. Een verhouding (of functie van een verhouding) tussen het aantal sequentielezingen toegewezen aan een chromosoom en de lengte van het chromosoom waaraan de lezingen zijn toegewezen, is bijvoorbeeld een parameter.The term "parameter" herein refers to a numerical value that characterizes a quantitative data series and / or a numerical relationship between quantitative data series. For example, a ratio (or function of a ratio) between the number of sequence readings assigned to a chromosome and the length of the chromosome to which the readings are assigned is a parameter.

De term "score" zoals hierin gebruikt, verwijst naar een numerieke waarde die is verbonden met of is gebaseerd op een specifiek kenmerk, bijv. het aantal aflezingen of aflezingstellingen voor een bepaalde sequentie die aanwezig is in een monster. De term "eerste score" wordt hierin gebruikt om te verwijzen naar een numerieke waarde die is verbonden met het doelchromosoom of chromosomaal segment. Een ander voorbeeld van een score is bijv. een Z-score die kwantificeert hoeveel het aantal aflezingen van een bepaalde sequentie verschilt van het aantal aflezingen die werden verkregen van dezelfde sequentie in een reeks referentiemonsters. Het is welbekend bij een vakman hoe een dergelijke Z-score kan worden berekend. De term "drempelwaarde" of "drempel" zoals hierin gebruikt, betekent een numerieke waarde waarvan de waarde wordt gebruikt voor het onderscheiden tussen twee of meer statussen (bijv. ziekte en niet-ziekte) van de classificatie voor een biologisch monster. Als een parameter bijvoorbeeld groter is dan de drempelwaarde, wordt een eerste classificatie van de kwantitatieve gegevens gemaakt (bijv. ziekte status); of als de parameter lager is dan de drempelwaarde, wordt een andere classificatie van de kwantitatieve gegevens gemaakt (bijv. niet-ziekte status).The term "score" as used herein refers to a numerical value associated with or based on a specific characteristic, e.g., the number of readings or reading counts for a particular sequence present in a sample. The term "first score" is used herein to refer to a numerical value associated with the target chromosome or chromosomal segment. Another example of a score is, for example, a Z score that quantifies how much the number of readings of a particular sequence differs from the number of readings obtained from the same sequence in a series of reference samples. It is well known to a person skilled in the art how such a Z-score can be calculated. The term "threshold" or "threshold" as used herein means a numerical value whose value is used to distinguish between two or more statuses (e.g., disease and non-disease) of the classification for a biological sample. For example, if a parameter is greater than the threshold value, a first classification of the quantitative data is made (e.g., disease status); or if the parameter is lower than the threshold value, a different classification of the quantitative data is made (e.g., non-disease status).

De term "onevenwicht" zoals hierin gebruikt, betekent elke significante afwijking zoals gedefinieerd door ten minste één drempelwaarde in een hoeveelheid van de klinisch relevante nucleïnezuursequentie van een referentiehoeveelheid. De referentiehoeveelheid zou bijvoorbeeld een verhouding kunnen zijn van 3/5, en een onevenwicht zou dan kunnen plaatsvinden als de gemeten verhouding 1:1 is.The term "imbalance" as used herein means any significant deviation as defined by at least one threshold in an amount of the clinically relevant nucleic acid sequence of a reference amount. For example, the reference amount could be a ratio of 3/5, and an imbalance could then occur if the measured ratio is 1: 1.

De term "willekeurige sequencing" zoals hierin gebruikt, verwijst naar sequencing, waarbij de gesequencete nucleïnezuurfragmenten niet specifiek zijn geïdentificeerd of beoogd vóór de sequencingprocedure. Sequentiespecifieke primers om te richten op specifieke genloci zijn niet vereist. De groepen gesequencete nucleïnezuren variëren van monster tot monster en zelfs van analyse tot analyse voor hetzelfde monster. De identiteiten van de gesequencete nucleïnezuren worden enkel bekendgemaakt van de gegenereerde sequencinguitgang. In sommige uitvoeringsvormen van de onderhavige uitvinding kan de willekeurige sequencing voorafgegaan worden door procedures voor het verrijken van een biologisch monster met bepaalde populaties nucleïnezuurmoleculen die bepaalde gemeenschappelijke kenmerken delen. In een uitvoeringsvorm hebben elk van de DNA-fragmenten in het biologische monster een gelijke kans om gesequencet te worden.The term "random sequencing" as used herein refers to sequencing, wherein the sequenced nucleic acid fragments are not specifically identified or intended before the sequencing procedure. Sequence-specific primers to target specific gene loci are not required. The groups of sequenced nucleic acids vary from sample to sample and even from analysis to analysis for the same sample. The identities of the sequenced nucleic acids are only disclosed from the generated sequencing output. In some embodiments of the present invention, random sequencing can be preceded by procedures for enriching a biological sample with certain populations of nucleic acid molecules that share certain common features. In one embodiment, each of the DNA fragments in the biological sample have an equal chance of being sequenced.

De term "fractie van het humane genoom" of "segment van het humane genoom" zoals hierin gebruikt, verwijst naar minder dan 100% van de nucleotidesequenties in het humane genoom dat zo'n 3 miljard baseparen van nucleotiden omvat. In de context van sequencing verwijst het naar minder dan 1-voudige dekking van de nucleotidesequenties in het humane genoom. De term kan uitgedrukt worden als een percentage of absoluut aantal nucleotiden/baseparen. Als een gebruikersvoorbeeld kan de term worden gebruikt om te verwijzen naar de werkelijke hoeveelheid sequencing dat is uitgevoerd. Uitvoeringsvormen kunnen de vereiste minimale waarde voor de gesequencete fractie van het humane genoom bepalen om een nauwkeurige diagnose te verkrijgen. Als een ander gebruiksvoorbeeld kan de term verwijzen naar de hoeveelheid gesequencete gegevens die zijn gebruikt voor het afleiden van een parameter of hoeveelheid voor de classificatie van ziektes.The term "fraction of the human genome" or "segment of the human genome" as used herein refers to less than 100% of the nucleotide sequences in the human genome comprising about 3 billion base pairs of nucleotides. In the context of sequencing, it refers to less than 1-fold coverage of the nucleotide sequences in the human genome. The term can be expressed as a percentage or absolute number of nucleotides / base pairs. As a user example, the term can be used to refer to the actual amount of sequencing that has been performed. Embodiments can determine the required minimum value for the sequenced fraction of the human genome to obtain an accurate diagnosis. As another use example, the term may refer to the amount of sequenced data used to derive a parameter or amount for the classification of diseases.

De term "samenvattende statistieken" zoals hierin gebruikt, wordt gebruikt als een statistische term, en verwijst naar een indicatie van de omvang van een verdeling van waarden of scores, of een indicatie van de score/waarde aanwezig in het midden van de verdeling. Dit kan bijv. een gemiddelde of mediaan of standaardafwijking (StDev) of mediane absolute afwijking (mad) of gemiddelde absolute afwijking van een verzameling scores zijn.The term "summary statistics" as used herein is used as a statistical term, and refers to an indication of the extent of a distribution of values or scores, or an indication of the score / value present at the center of the distribution. This can be, for example, an average or median or standard deviation (StDev) or median absolute deviation (mad) or average absolute deviation of a set of scores.

De term "kopieaantalvariatie" of "CNV" (copy number variation) verwijst hierin naar variatie in het aantal kopieën van een nucleïnezuursequentie die enkele bp kb of groter is aanwezig in een testmonster in vergelijking met het kopieaantal van de nucleïnezuursequentie die aanwezig is in een gekwalificeerd monster. Een "kopieaantalvariant" verwijst naar de weinige bp of grotere sequentie van nucleïnezuur waarin verschillen in kopieaantallen worden gevonden door vergelijking van een interessante sequentie in het testmonster met die aanwezig in een gekwalificeerd monster. Kopieaantalvarianten/-variaties omvatten deleties, waaronder microdeleties evenals amplificaties. CNV's omvatten chromosomale aneuploïdieën en gedeeltelijke aneuploïdieën.The term "copy number variation" or "CNV" (copy number variation) herein refers to variation in the number of copies of a nucleic acid sequence that is a few bp kb or greater present in a test sample compared to the copy number of the nucleic acid sequence that is present in a qualified sample. A "copy number variant" refers to the few bp or larger sequence of nucleic acid in which differences in copy numbers are found by comparing an interesting sequence in the test sample with those present in a qualified sample. Copy number variants / variations include deletions, including microdeletions as well as amplifications. CNVs include chromosomal aneuploidies and partial aneuploidies.

De term "aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een volledig chromosoom, of deel van een chromosoom. Aneuploïdie verwijst zowel naar chromosomale als subchromosomale onevenwichten, zoals, maar niet beperkt tot, deleties, microdeleties, inserties, micro-inserties, kopieaantalvariaties, duplicaties. Kopieaantalvariaties kunnen variëren in grootte in het bereik van 1 kb tot meerdere Mb. Grote subchromosomale afwijkingen die zich uitstrekken over tientallen MB's en/of overeenkomen met een significant deel van een chromosoomarm, kunnen ook segmentele aneuploïdieën worden genoemd.The term "aneuploidy" herein refers to an imbalance of genetic material caused by the loss or enhancement of a complete chromosome, or part of a chromosome. Aneuploidy refers to both chromosomal and subchromosomal imbalances, such as, but not limited to, deletions, microdeletions, insertions, micro-insertions, copy number variations, duplications. Copy number variations can vary in size in the range of 1 kb to multiple Mb. Large subchromosomal aberrations that extend over dozens of MBs and / or correspond to a significant portion of a chromosome arm can also be called segmental aneuploidies.

De term "chromosomale aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een volledig chromosoom, en omvat kiemlijnaneuploïdie en mozaiëkaneuploïdie.The term "chromosomal aneuploidy" herein refers to an imbalance of genetic material caused by the loss or enhancement of a complete chromosome, and includes germline anuploidy and mosaic anuploidy.

De term "gedeeltelijke aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een deel van een chromosoom bijv. gedeeltelijke monosomie en gedeeltelijke trisomie, en omvat onevenwichten die het resultaat zijn van translocaties, deleties en inserties.The term "partial aneuploidy" herein refers to an imbalance of genetic material caused by a loss or enhancement of a portion of a chromosome, e.g., partial monosomy and partial trisomy, and includes imbalances resulting from translocations, deletions, and insertions.

De term "polymorfisme, polymorf doelnucleïnezuur", "polymorfe sequentie", "polymorfe doelnucleïnezuursequentie" en "polymorf nucleïnezuur" worden onderling verwisselbaar gebruikt om te verwijzen naar een nucleïnezuursequentie die een of meerdere polymorfe plaatsen bevat.The term "polymorphism, polymorphic target nucleic acid", "polymorphic sequence", "polymorphic target nucleic acid sequence" and "polymorphic nucleic acid" are used interchangeably to refer to a nucleic acid sequence containing one or more polymorphic sites.

De term "polymorfe plaats" verwijst hier naar een enkel nucleotidepolymorfisme (SNP, single nucleotide polymorfisme), een kleinschalige multi-basis deletie of insertie, een Multi-Nucleotide Polymorfisme (MNP) of een Korte Tandemherhaling (STR, short tandem repeat) of een CNV (kopieaantalvariatie).The term "polymorphic site" here refers to a single nucleotide polymorphism (SNP, a single-nucleotide polymorphism), a small-scale multi-base deletion or insertion, a Multi-Nucleotide Polymorphism (MNP) or a Short Tandem Repeat (STR, short tandem repeat) or a CNV (copy number variation).

De term "meerdere" wordt hierin gebruikt met verwijzing naar een aantal nucleïnezuurmoleculen of sequentietags of aflezingen dat voldoende is voor het identificeren van significante verschillen in kopieaantalvariaties (bijv. chromosoomdoses) in testmonster en gekwalificeerde monsters met behulp van de werkwijzen volgens de uitvinding. In sommige uitvoeringsvormen worden ten minste ongeveer 3xl06 sequentietags, ten minste ongeveer 5xl06 sequentietags, ten minste ongeveer 8xl06 sequentietags, ten minste ongeveer lOxlO6 sequentietags, ten minste ongeveer 15xl06 sequentietags, ten minste ongeveer 20xl06 sequentietags, ten minste ongeveer 30xl06 sequentietags, ten minste ongeveer 40xl06 sequentietags, of ten minste ongeveer 50xl06 sequentietags verkregen voor elk testmonster. Elke sequentietag kan een enkele-sequentie aflezing zijn van 20 tot 400 bp, of een koppel van 2 sequentieaflezingen met gepaard uiteinde met elk 20 tot 400 bp.The term "multiple" is used herein with reference to a number of nucleic acid molecules or sequence tags or readings sufficient to identify significant differences in copy number variations (e.g., chromosome doses) in test sample and qualified samples using the methods of the invention. In some embodiments, at least about 3x106 sequence tags, at least about 5x106 sequence tags, at least about 8x106 sequence tags, at least about 10x106 sequence tags, at least about 15x106 sequence tags, at least about 20x106 sequence tags, at least about 30x106 sequence tags, at least about 40x06 sequence tags sequence tags, or at least about 50x106 sequence tags obtained for each test sample. Each sequence tag can be a single sequence reading from 20 to 400 bp, or a pair of 2 end-read sequence readings with each 20 to 400 bp.

De termen "polynucleotide", "nucleïnezuur" en "nucleïnezuurmoleculen" worden onderling verwisselbaar gebruikt en verwijzen naar een covalent-gebonden sequentie van nucleotiden (d.w.z. ribonucleotiden voor RNA en deoxyribonucleotiden voor DNA) waarin de 3'-positie van de pentose van één nucleotide wordt gebonden door een fosfodi-estergroep aan de 5'-positie van de pentose van de volgende, sequenties omvatten in eender welke vorm van nucleïnezuur, maar niet beperkt tot RNA- en DNA-moleculen. De term "polynucleotide" omvat, maar is niet beperkt tot, enkel- en dubbelstrengige polynucleotide.The terms "polynucleotide", "nucleic acid" and "nucleic acid molecules" are used interchangeably and refer to a covalently linked sequence of nucleotides (ie ribonucleotides for RNA and deoxyribonucleotides for DNA) in which the 3 'position of the pentose of one nucleotide is bound by a phosphodiester group to the 5 'position of the pentose of the following, include sequences in any form of nucleic acid, but not limited to RNA and DNA molecules. The term "polynucleotide" includes, but is not limited to, single and double stranded polynucleotide.

De term "deel", wanneer gebruikt met verwijzing naar de hoeveelheid sequentie-informatie van nucleïnezuurmoleculen in een biologisch monster verwijst hierin naar de hoeveelheid sequentie-informatie van nucleïnezuurmoleculen in een biologisch monster die samen in aantal lager zijn dan de sequentie-informatie van <1 humaan genoom.The term "portion" when used with reference to the amount of sequence information of nucleic acid molecules in a biological sample herein refers to the amount of sequence information of nucleic acid molecules in a biological sample that together are lower in number than the sequence information of <1 human genome.

De term "testmonster" verwijst hierin naar een monster omvattende een mengsel van nucleïnezuren omvattende ten minste één nucleïnezuursequentie waarvan vermoed wordt dat het kopieaantal variatie ondergaan heeft of ten minste één nucleïnezuursequentie waarvoor het wenselijk is te bepalen of er een kopieaantalvariatie bestaat. Nucleïnezuren die aanwezig zijn in een testmonster worden testnucleïnezuren genoemd, of doelnucleïnezuren of doelchromosomen of chromosomale doelsegmenten.The term "test sample" herein refers to a sample comprising a mixture of nucleic acids comprising at least one nucleic acid sequence suspected of having undergone copy number variation or at least one nucleic acid sequence for which it is desirable to determine whether a copy number variation exists. Nucleic acids present in a test sample are called test nucleic acids, or target nucleic acids or target chromosomes or target chromosomal segments.

De term "referentiemonster" verwijst hierin naar een monster omvattende een mengsel van nucleïnezuren waarvoor de sequencinggegevens worden gebruikt samen met de sequencinggegevens van het testmonster voor het berekenen van scores en parameters zoals beschreven in conclusie 1. Hoewel het niet noodzakelijk is, is een referentiemonster bij voorkeur normaal d.w.z. niet aneuploïde voor de interessante sequentie. Een referentiemonster is dus bij voorkeur een gekwalificeerd monster dat geen trisomie 21 draagt en dat kan worden gebruikt voor het identificeren van de aanwezigheid van een trisomie 21 in een testmonster.The term "reference sample" herein refers to a sample comprising a mixture of nucleic acids for which the sequencing data is used together with the sequencing data of the test sample for calculating scores and parameters as described in claim 1. Although it is not necessary, a reference sample is at preferred normally ie not aneuploid for the sequence of interest. Thus, a reference sample is preferably a qualified sample that does not carry a trisomy 21 and that can be used to identify the presence of a trisomy 21 in a test sample.

De term "referentiereeks" omvat meerdere "referentiemonsters".The term "reference set" includes several "reference samples".

De term "verrijken" verwijst hierin naar het proces van het in het bijzonder amplificeren van bepaalde doelnucleïnezuren die zijn opgenomen in een segment van een monster. Het geamplificeerde product wordt dan vaak gecombineerd met de rest van het monster waaruit het segment verwijderd was.The term "enrichment" herein refers to the process of specifically amplifying certain target nucleic acids that are included in a segment of a sample. The amplified product is then often combined with the rest of the sample from which the segment was removed.

De term "interessante sequentie" verwijst hierin naar een nudeïnezuursequentie die is geassocieerd met een verschil in sequentievoorstelling in gezonde versus zieke personen. Een interessante sequentie kan een sequentie op een chromosoom zijn dat verkeerd is voorgesteld d.w.z. over- of ondervertegenwoordigd, in een ziekte of genetische aandoening. Een interessante sequentie kan ook een segment van een chromosoom, of een chromosoom zijn. Een interessante sequentie kan bijvoorbeeld een chromosoom zijn dat oververtegenwoordigd is in een aneuploïdie-aandoening, of een gen dat een tumorsuppressor codeert die ondervertegenwoordigd is in een kanker. Interessante sequenties omvattende sequenties die over- of ondervertegenwoordigd zijn in de totale populatie, of een subpopulatie van cellen van een patiënt.The term "interesting sequence" herein refers to a nudeic acid sequence that is associated with a difference in sequence representation in healthy versus sick individuals. An interesting sequence may be a sequence on a chromosome that is misrepresented, i.e., over- or under-represented, in a disease or genetic disorder. An interesting sequence can also be a segment of a chromosome, or a chromosome. For example, an interesting sequence may be a chromosome that is over-represented in an aneuploidy disorder, or a gene that encodes a tumor suppressor that is under-represented in a cancer. Interesting sequences comprising sequences that are over- or under-represented in the total population, or a sub-population of cells from a patient.

De term "meerdere polymorfe doelnucleïnezuren" verwijst hierin naar een aantal nucleïnezuursequenties elk omvattende ten minste één polymorfe plaats bijv. één SNP of CNV, zodat ten minste 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40 of meer verschillende polymorfe plaatsen worden geamplificeerd.The term "multiple polymorphic target nucleic acids" herein refers to a number of nucleic acid sequences each comprising at least one polymorphic site e.g. one SNP or CNV, such that at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40 or more different polymorphic sites are amplified.

De term "groep chromosomen" verwijst hierin naar twee of meer chromosomen. De term "verzameling" verwijst naar een reeks chromosomen of chromosomale segmenten, maar kan ook verwijzen naar een reeks waarden of scores die zijn afgeleid van een overeenkomstige reeks chromosomen of chromosomale segmenten.The term "group of chromosomes" herein refers to two or more chromosomes. The term "set" refers to a set of chromosomes or chromosomal segments, but can also refer to a set of values or scores derived from a corresponding set of chromosomes or chromosomal segments.

De term "aflezing" verwijst naar een experimenteel verkregen DNA-sequentie die voldoende lang is (bijv. ten minste ongeveer 20 bp) die kan worden gebruikt voor het identificeren van een grotere sequentie of gebied, bijv. die kan worden uitgelijnd en in het bijzonder toegewezen aan een chromosoomlocatie of genomisch gebied of gen.The term "reading" refers to an experimentally obtained DNA sequence that is sufficiently long (e.g., at least about 20 bp) that can be used to identify a larger sequence or region, e.g., that can be aligned and in particular assigned to a chromosome location or genomic region or gene.

De term "aflezingstelling" verwijst naar het aantal aflezingen die zijn opgehaald uit een monster die zijn toegewezen aan een referentiegenoom of een segment van het genoemde referentiegenoom (stuk).The term "reading count" refers to the number of readings retrieved from a sample assigned to a reference genome or a segment of said reference genome (piece).

De term "stuk" (bin) van een genoom moet worden begrepen als een segment van het genoom. Een genoom kan in verschillende stukken worden onderverdeeld, met hetzij een vaste hetzij een vooraf bepaalde grootte of een variabele grootte. Een mogelijke stukgrootte kan bijv. 10 kB, 20 kB, 30 kB, 40 kB, 50 kB, 60 kB, 70 kB, enz. zijn.The term "piece" (bin) of a genome is to be understood as a segment of the genome. A genome can be subdivided into different pieces, with either a fixed or a predetermined size or a variable size. A possible piece size can be, for example, 10 kB, 20 kB, 30 kB, 40 kB, 50 kB, 60 kB, 70 kB, etc.

De term "venster" moet worden begrepen als meerdere stukken.The term "window" is to be understood as multiple pieces.

De termen "uitgelijnd", "uitlijning", "toegewezen" of "uitlijning", "toewijzing" verwijst naar een of meerdere sequenties die zijn geïdentificeerd als een match in termen van de volgorde van hun nucleïnezuurmoleculen met een gekende sequentie van een referentiegenoom. Een dergelijke uitlijning kan manueel of door een computeralgoritme worden gedaan, waarvoor voorbeelden onder andere het Efficient Local Alignment of Nucleotide Data (ELAND) computerprogramma zijn verdeeld als deel van de Illumina Genomics Analysts-pijpleiding. De overeenstemming van een sequentieaflezing bij de uitlijning kan een sequentiematch van 100% of minder dan 100% zijn (niet-perfecte match).The terms "aligned", "alignment", "assigned" or "alignment", "assignment" refers to one or more sequences identified as a match in terms of the order of their nucleic acid molecules with a known sequence of a reference genome. Such alignment can be done manually or by a computer algorithm, examples of which include the Efficient Local Alignment or Nucleotide Data (ELAND) computer program as part of the Illumina Genomics Analysts pipeline. The correspondence of a sequence reading in the alignment may be a sequence match of 100% or less than 100% (non-perfect match).

De term "referentiegenoom" zoals hierin gebruikt, verwijst naar een digitale nucleïnezuursequentiegegevensbank, samengesteld als een representatief voorbeeld van een soort' DNA. Aangezien het wordt samengesteld uit de sequencing van DNA van meerdere, stelt een referentiegenoom niet nauwkeurig het DNA van een enkele persoon voor. Het wordt gebruikt om de toewijzing van sequencingaflezingen van een monster aan specifieke chromosomale posities toe te laten.The term "reference genome" as used herein refers to a digital nucleic acid sequence database, assembled as a representative example of a kind of DNA. Since it is assembled from the sequencing of multiple DNA, a reference genome does not accurately represent the DNA of a single person. It is used to allow the assignment of sequencing readings from a sample to specific chromosomal positions.

De term "klinisch relevante sequentie" verwijst hierin naar een nucleïnezuursequentie die welbekend is en waarvan vermoed wordt dat deze is geassocieerd of betrokken met een genetische of ziekteaandoening. Het bepalen van de afwezigheid of aanwezigheid van een klinisch relevante sequentie kan nuttig zijn bij de bepaling van een diagnose of het bevestigen van een diagnose van een medische aandoening, of het stellen van een prognose voor de ontwikkeling van een ziekte.The term "clinically relevant sequence" herein refers to a nucleic acid sequence that is well known and suspected of being associated or associated with a genetic or disease condition. Determining the absence or presence of a clinically relevant sequence may be useful in determining a diagnosis or confirming a diagnosis of a medical condition, or making a prognosis for the development of a disease.

De term "afgeleid" wanneer gebruikt in de context van een nucleïnezuur of een mengsel van nucleïnezuren, verwijst hierin naar de middelen waardoor het of de nucleïnezuren worden verkregen uit de bron waaruit ze afkomstig zijn. In één uitvoeringsvorm betekent een mengsel van nucleïnezuren dat is afgeleid van twee verschillende genomen bijvoorbeeld dat de nucleïnezuren, bijv. celvrij DNA, natuurlijk werden afgegeven door cellen door natuurlijk voorkomende processen zoals nécrosé of apoptose, of door lyse van de cellen omwille van onjuiste opslag-of transportomstandigheden.The term "derived" when used in the context of a nucleic acid or a mixture of nucleic acids, refers herein to the means by which it or the nucleic acids are obtained from the source from which they originate. In one embodiment, a mixture of nucleic acids derived from two different genomes means, for example, that the nucleic acids, e.g., cell-free DNA, were naturally released by cells by naturally occurring processes such as necrosis or apoptosis, or by lysis of the cells due to improper storage. or transportation conditions.

De term "biologisch fluïdum" verwijst hierin naar een vloeistof die is genomen uit een biologische bron en omvat, bijvoorbeeld, bloed, serum, plasma, sputum, wasfluïdum, cerebrospinaal fluïdum, urine, sperma, zweet, tranen, speeksel, blastocoelfluïdum en dergelijke. Het verwijst ook naar het medium waarin biologische monsters kunnen worden gekweekt, zoals in vitro kweekmedium waarin cellen, weefsel of embryo kunnen worden gekweekt. Zoals hierin gebruikt, omvatten de termen "bloed", "plasma" en "serum" uitdrukkelijk fracties of verwerkte segmenten daarvan. Wanneer een monster uit een biopsie, uitstrijkje, smeer, enz. wordt genomen, omvat het "monster" zo ook uitdrukkelijk een verwerkte fractie of segment afgeleid van de biopsie, het uitstrijkje, smeer, enz.The term "biological fluid" herein refers to a fluid taken from a biological source and includes, for example, blood, serum, plasma, sputum, wash fluid, cerebrospinal fluid, urine, sperm, sweat, tears, saliva, blastocoel fluid, and the like. It also refers to the medium in which biological samples can be grown, such as in vitro culture medium in which cells, tissue or embryo can be grown. As used herein, the terms "blood", "plasma" and "serum" explicitly include fractions or processed segments thereof. Similarly, when a sample is taken from a biopsy, smear, smear, etc., the "sample" explicitly includes a processed fraction or segment derived from the biopsy, smear, smear, etc.

De term "overeenkomstig" verwijst hierin naar een nucleïnezuursequentie, bijv. een gen of een chromosoom, dat aanwezig is in het genoom van verschillende patiënten, en dat niet noodzakelijk dezelfde sequentie heeft in alle genomen, maar dient voor het bieden van de identiteit eerder dan de genetische informatie van een interessante sequentie, bijv. een gen of chromosoom.The term "corresponding" herein refers to a nucleic acid sequence, e.g., a gene or a chromosome, that is present in the genome of different patients, and that does not necessarily have the same sequence in all genomes, but serves to provide identity rather than the genetic information of an interesting sequence, e.g. a gene or chromosome.

De term "in hoofdzaak celvrij" verwijst hierin naar bereidingen van het gewenste monster waaruit componenten die normaal daarmee zijn geassocieerd, zijn verwijderd. Een plasmamonster kan bijvoorbeeld in hoofdzaak celvrij gemaakt worden door het verwijderen van bloedcellen bijv. witte bloedcellen, die normaal daarmee zijn geassocieerd. In sommige uitvoeringsvormen worden in hoofdzaak vrije monsters verwerkt voor het verwijderen van cellen die anders zouden bijdragen tot het genetische materiaal dat moet worden getest op een aneuploïdie.The term "substantially cell-free" herein refers to preparations of the desired sample from which components that are normally associated with them have been removed. For example, a plasma sample can be made substantially cell-free by removing blood cells, e.g., white blood cells, which are normally associated with it. In some embodiments, essentially free samples are processed to remove cells that would otherwise contribute to the genetic material to be tested for aneuploidy.

Zoals hierin gebruikt, verwijst de term "chromosoom" naar de erfelijke gendrager van een levende cel die is afgeleid van chromatine en die DNA en proteïnecomponenten (in het bijzonder histonen) omvat. Het conventioneel internationaal erkende individuele humane genoomchromosoomnummeringssysteem wordt hierin gebruikt. De term "chromosomale segmenten" moet worden begrepen als een deel van een chromosoom. De genoemde segmenten kunnen naar een stuk, venster of specifiek gebied binnen een chromosoom verwijzen, bijv. waarvan gekend is dat het bijvoorbeeld deleties of inserties of kopieaantalvariaties omvat.As used herein, the term "chromosome" refers to the hereditary gene carrier of a living cell that is derived from chromatin and which includes DNA and protein components (in particular histones). The conventionally internationally recognized individual human genome chromosome numbering system is used herein. The term "chromosomal segments" is to be understood as a part of a chromosome. Said segments may refer to a part, window, or specific region within a chromosome, e.g., known to include, for example, deletions or insertions or copy number variations.

Zoals hierin gebruikt, verwijst de term "polynucleotidelengte" naar het absolute aantal nucleïnezuurmoleculen (nucleotiden) in een sequentie of in een gebied van een referentiegenoom. De term "chromosoomlengte" verwijst naar de gekende lengte van het chromosoom gegeven in baseparen.As used herein, the term "polynucleotide length" refers to the absolute number of nucleic acid molecules (nucleotides) in a sequence or in a region of a reference genome. The term "chromosome length" refers to the known length of the chromosome given in base pairs.

De term "patiënt" verwijst hierin naar een humane patiënt evenals een niet-humane patiënt zoals een zoogdier, een ongewerveld dier, een schimmel, een gist, een bacterie en een virus. Hoewel de voorbeelden hier betrekking hebben op humane cellen en de beschrijving hoofdzakelijk is gericht op mensen, is het concept van de onderhavige uitvinding van toepassing op genomen van eender welke plant of dier, en kan het worden gebruikt in het gebied van de dierengeneeskunde, dierenwetenschappen, onderzoekslaboratoria en dergelijke.The term "patient" herein refers to a human patient as well as a non-human patient such as a mammal, an invertebrate animal, a fungus, a yeast, a bacterium and a virus. Although the examples herein refer to human cells and the description is primarily directed to humans, the concept of the present invention applies to genomes of any plant or animal, and can be used in the field of veterinary medicine, animal sciences, research laboratories and the like.

De term "conditie" verwijst hier naar "medische conditie" als een brede term die alle ziektes en aandoeningen omvat, maar die letsels en normale gezonde situaties kan omvatten, zoals zwangerschap, die een invloed kunnen hebben op de gezondheid van een persoon, voordeel uit medische hulp of implicaties hebben voor medische behandelingen. De genoemde aandoening is bij voorkeur gelinkt met de aanwezigheid van een tumor.The term "condition" here refers to "medical condition" as a broad term that covers all diseases and conditions, but which may include injuries and normal healthy situations, such as pregnancy, which may affect a person's health, benefit from have medical assistance or implications for medical treatments. The said condition is preferably linked to the presence of a tumor.

Gedetailleerde beschrijving van de uitvindingDetailed description of the invention

De onderhavige uitvinding heeft betrekking op een werkwijze voor het bepalen of een patiënt tumorafgeleid celvrij DNA in zijn of haar perifeer bloed heeft, voor het bevestigen van een kankerdiagnose, voor het helpen bij de classificatie van een kanker, voor het beoordelen van de behandelingsrespons, voor het monitoren van de patiënt, voor het identificeren van de aanwezigheid van een kanker en/of een verhoogd risico op een kanker bij een patiënt, waarbij de genoemde patiënt bij voorkeur een zoogdier is. Deze identificatie kan worden uitgevoerd door de berekening van een parameter die is verbonden met chromosomale en/of subchromosomale gegevens die zijn verkregen uit een biologisch monster. Ook wordt een door de computer leesbaar medium voorzien dat is gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van de werkwijzen.The present invention relates to a method for determining whether a patient has tumor-derived cell-free DNA in his or her peripheral blood, for confirming a cancer diagnosis, for assisting in the classification of a cancer, for assessing the treatment response, for monitoring the patient, to identify the presence of a cancer and / or an increased risk of cancer in a patient, said patient preferably being a mammal. This identification can be performed by calculating a parameter associated with chromosomal and / or subchromosomal data obtained from a biological sample. A computer-readable medium is also provided which is coded with multiple instructions for controlling a computer system for performing the methods.

In één aspect wordt een hoeveelheid van aflezingstellingen gelinkt met een chromosoom of chromosomaal segment bepaald op basis van een sequencing van nucleïnezuurmoleculen in een biologisch monster, zoals urine, plasma, serum, blastocoel fluïdum en andere geschikte biologische monsters.In one aspect, an amount of reading counts linked to a chromosome or chromosomal segment is determined based on a sequencing of nucleic acid molecules in a biological sample, such as urine, plasma, serum, blastocoel fluid, and other suitable biological samples.

Nucleïnezuurmoleculen van het biologische monster zijn willekeurig gesequencet, zodat een fractie van het genoom wordt gesequencet. Eén of meerdere drempelwaarden worden gekozen voor het bepalen of er een verandering is vergeleken met een referentiehoeveelheid (d.w.z. onevenwicht), bijvoorbeeld met betrekking tot de verhouding van hoeveelheden van twee chromosomale gebieden (of reeksen van gebieden).Nucleic acid molecules from the biological sample are randomly sequenced so that a fraction of the genome is sequenced. One or more threshold values are selected to determine whether there is a change compared to a reference amount (i.e., imbalance), for example, with respect to the ratio of amounts of two chromosomal regions (or arrays of regions).

Het chromosomale doelgebied (ook een klinisch relevante nudeïnezuursequentie genoemd) en de achtergrondnucleïnezuursequentie kunnen van een eerste type cellen of van een of meerdere tweede types cellen afkomstig zijn. 1. Algemene methode voor het evalueren van een aneuploïdieThe chromosomal target region (also referred to as a clinically relevant nudeic acid sequence) and the background nucleic acid sequence may be from a first type of cells or from one or more second types of cells. 1. General method for evaluating aneuploidy

De onderhavige uitvinding beschrijft een methodologie voor het bepalen of een patiënt tumorafgeleid celvrij DNA in zijn of haar perifeer bloed heeft, voor het bevestigen van een kankerdiagnose, voor het helpen bij de classificatie van een kanker, voor het beoordelen van de behandelingsrespons, voor het monitoren van de patiënt, voor het identificeren van de aanwezigheid van een kanker en/of een verhoogd risico op een kanker bij een patiënt, waarbij de genoemde patiënt bij voorkeur een zoogdier is.The present invention describes a methodology for determining whether a patient has tumor-derived cell-free DNA in his or her peripheral blood, for confirming a cancer diagnosis, for assisting in the classification of a cancer, for assessing the treatment response, for monitoring of the patient, to identify the presence of a cancer and / or an increased risk of cancer in a patient, said patient preferably being a mammal.

In een eerste aspect is de werkwijze voor het bepalen of een patiënt tumorafgeleid celvrij DNA in zijn of haar perifeer bloed heeft, voor het bevestigen van een kankerdiagnose, voor het helpen bij de classificatie van een kanker, voor het beoordelen van de behandelingsrespons, voor het monitoren van de patiënt, voor het identificeren van de aanwezigheid van een kanker en/of een verhoogd risico op een kanker bij een patiënt, gebaseerd op de bepaling van een parameter van het nucleïnezuurgehalte van een biologisch monster. Het biologische monster kan plasma, urine, serum, blastocoel fluïdum of enig ander geschikt monster zijn. De nucleïnezuurmoleculen kunnen bijvoorbeeld fragmenten van chromosomen zijn.Ten minste een deel van meerdere van de nucleïnezuurmoleculen opgenomen in het biologische monster wordt willekeurig gesequencet voor het verkrijgen van een aantal sequenties. Het gesequencete deel stelt een fractie van het humane genoom voor en kan worden geïsoleerd uit het monster door middel van conventionele middelen (bijv. celvrije DNA-extractiemiddelen en bereiding van een NGS-bibliotheek). In één uitvoeringsvorm zijn de nucleïnezuurmoleculen fragmenten van respectievelijke chromosomen. Eén uiteinde (bijv. 50 baseparen (bp)), beide uiteinden, of het volledige fragment kunnen gesequencet zijn. Een subreeks van de nucleïnezuurmoleculen in het monster kan gesequencet zijn, en deze subreeks wordt willekeurig gekozen, zoals hieronder meer in detail zal worden beschreven.In a first aspect, the method for determining whether a patient has tumor-derived cell-free DNA in his or her peripheral blood, for confirming a cancer diagnosis, for assisting in classifying a cancer, for assessing the treatment response, for patient monitoring, to identify the presence of a cancer and / or an increased risk of cancer in a patient, based on the determination of a parameter of the nucleic acid content of a biological sample. The biological sample can be plasma, urine, serum, blastocoel fluid or any other suitable sample. The nucleic acid molecules may, for example, be fragments of chromosomes. At least a portion of several of the nucleic acid molecules included in the biological sample are randomly sequenced to obtain a number of sequences. The sequenced portion represents a fraction of the human genome and can be isolated from the sample by conventional means (e.g., cell-free DNA extraction means and preparation of an NGS library). In one embodiment, the nucleic acid molecules are fragments of respective chromosomes. One end (e.g., 50 base pairs (bp)), both ends, or the entire fragment can be sequenced. A subset of the nucleic acid molecules in the sample can be sequenced, and this subset is randomly selected, as will be described in more detail below.

In één uitvoeringsvorm gebeurt de willekeurige sequencing met behulp van massief parallelle sequencing. Massief parallelle sequencing, zoals deze bereikt op de HiSeq2500, HiSeq3000, HiSeq4000, HiSeq X, MiSeq, MiSeqDx, NextSeq500, NextSeq550 flowcell, het 454 platform (Roche), Illumina Genome Analyzer (or Solexa platform) of PGM of Proton platform (IonTorrent) of GeneRead (Qiagen) of SOLiD System (Applied Biosystems) of de Hélicos True Single Molecule DNA-sequencingtechnologie, de enkele molecule, real-time (SMRT™) technologie van Pacific Biosciences, en nanopore sequencing zoals in MinlON, PromethION, GridlON (Oxford Nanopore technologies), laten de sequencing toe van veel nucleïnezuurmoleculen die op een parallelle manier zijn geïsoleerd uit een specimen bij hogere ordes van multiplexing. Elk van deze platforms sequencet klonaal geëxpandeerd of zelfs niet-geamplificeerde enkele moleculen van nucleïnezuurfragmenten. Klonale expansie kan worden verkregen door brugamplificatie, emulsie-PCR of Wildfire-technologie.In one embodiment, the random sequencing is done using solid parallel sequencing. Solid parallel sequencing, such as this achieved on the HiSeq2500, HiSeq3000, HiSeq4000, HiSeq X, MiSeq, MiSeqDx, NextSeq500, NextSeq550 flowcell, the 454 platform (Roche), Illumina Genome Analyzer (or Solexa platform) or PGMorTorrent (PGM) Proton or GeneRead (Qiagen) or SOLiD System (Applied Biosystems) or the Hélicos True Single Molecule DNA sequencing technology, single molecule, real-time (SMRT ™) technology from Pacific Biosciences, and nanopore sequencing as in MinlON, PromethION, GridlON (Oxford) Nanopore technologies), allow the sequencing of many nucleic acid molecules isolated in parallel from a specimen at higher orders of multiplexing. Each of these platforms sequencially clonally expanded or even non-amplified single molecules of nucleic acid fragments. Clonal expansion can be achieved by bridge amplification, emulsion PCR or Wildfire technology.

Aangezien een groot aantal sequencingaflezingen, in de grootorde van honderdduizenden tot miljoenen of zelfs mogelijk honderd miljoen of miljarden, worden gegenereerd uit elk monster in elke run, vormen de resulterende gesequencete aflezingen een representatief profiel van de mix van nucleïnezuurspecies in het originele specimen. Het halotype, transcriptoom en methylatieprofielen van de gesequencete aflezingen lijken bijvoorbeeld op deze van het originele specimen. Omwille van de grote bemonstering van sequenties uit elk specimen, is het aantal identieke sequenties, zoals deze gegenereerd uit de sequencing van een nucleïnezuurgroep op verschillende veelvouden van dekking of hoge redundantie, ook een goede kwantitatieve voorstelling van de telling van een bepaalde nucleïnezuurspecies of locus in het oorspronkelijke monster.Since a large number of sequencing readings, in the order of hundreds of thousands to millions or even possibly one hundred million or billions, are generated from each sample in each run, the resulting sequenced readings form a representative profile of the mix of nucleic acid species in the original specimen. For example, the halotype, transcriptome and methylation profiles of the sequenced readings resemble those of the original specimen. Because of the large sampling of sequences from each specimen, the number of identical sequences, such as those generated from the sequencing of a nucleic acid group at different multiples of coverage or high redundancy, is also a good quantitative representation of the count of a particular nucleic acid species or locus in the original sample.

Op basis van de sequencing (bijv. gegevens uit de sequencing) wordt een eerste score van een doelchromosoom of chromosomaal segment bepaald. De eerst score wordt bepaald op basis van sequenties die zijn geïdentificeerd als afkomstig uit (d.w.z. alignerend met) het doelchromosoom of segment. Een bio-informatieprocedure kan dan bijvoorbeeld worden gebruikt om elk van deze DNA-sequenties voor het humaan genoom of een referentiegenoom te lokaliseren. Het is mogelijk dat een deel van dergelijke sequenties zal worden verwijderd uit latere analyse omdat ze aanwezig zijn in de herhalingsgebieden van het humane genoom, of in gebieden die worden onderworpen aan interindividuele variaties, bijv. kopienummervariaties. Een score van het doelchromosoom of chromosomaal segment en van een of meerdere andere chromosomen kan aldus worden bepaald.A first score of a target chromosome or chromosomal segment is determined based on the sequencing (e.g., data from the sequencing). The first score is determined based on sequences identified as coming from (i.e., aligning with) the target chromosome or segment. A bio-information procedure can then be used, for example, to locate any of these DNA sequences for the human genome or a reference genome. It is possible that some of such sequences will be removed from later analysis because they are present in the repeat regions of the human genome, or in regions that are subjected to inter-individual variations, e.g., copy number variations. A score of the target chromosome or chromosomal segment and of one or more other chromosomes can thus be determined.

Op basis van de sequencing wordt een verzameling van scores van een of meerdere chromosomen of chromosomale segmenten bepaald van sequenties die zijn geïdentificeerd als afkomstig uit (d.w.z. alignerend met) een reeks van een of meerdere chromosomen. In één uitvoeringsvorm bevat de genoemde reeks alle andere chromosomen naast de eerste (d.w.z. de eerste die is getest). In een andere uitvoeringsvorm bevat de genoemde reeks een enkel ander chromosoom. In een meest voorkeurdragende uitvoeringsvorm bevat de genoemde reeks chromosomen of chromosomale segmenten en omvat het het doelchromosoom of chromosomaal segment.Based on the sequencing, a set of scores from one or more chromosomes or chromosomal segments is determined from sequences identified as coming from (i.e., aligning with) a series of one or more chromosomes. In one embodiment, said set contains all other chromosomes in addition to the first (i.e., the first tested). In another embodiment, said set contains a single different chromosome. In a most preferred embodiment, said set contains chromosomes or chromosomal segments and comprises the target chromosome or chromosomal segment.

Er zijn een aantal manieren om een score te bepalen. De genoemde score is bij voorkeur gebaseerd op de aflezingstellingen die zijn verkregen uit sequencing. De genoemde aflezingstellingen kunnen het tellen omvatten van het aantal aflezingen, het aantal gesequencete nucleotiden (baseparen) of de geaccumuleerde lengtes van gesequencete nucleotiden (baseparen) afkomstig uit een bepaald chromoso(o)m(en) of chromosomale segmenten zoals stukken of vensters of klinisch relevante chromosoomdelen.There are a number of ways to determine a score. Said score is preferably based on the reading counts obtained from sequencing. Said reading counts may include counting the number of readings, the number of sequenced nucleotides (base pairs) or the accumulated lengths of sequenced nucleotides (base pairs) originating from a certain chromosomal (s) or chromosomal segments such as pieces or windows or clinical relevant chromosome parts.

Regels kunnen worden opgelegd op de resultaten van de sequencing om te bepalen wat wordt geteld. In één aspect kan een aflezingstelling worden verkregen op basis van een deel van de gesequencete output. Sequencingoutput overeenkomstig nucleïnezuurfragmenten met een gespecificeerd groottebereik zou bijvoorbeeld kunnen worden geselecteerd.Rules can be imposed on the results of the sequencing to determine what is counted. In one aspect, a reading theorem can be obtained based on a part of the sequenced output. For example, sequencing output corresponding to nucleic acid fragments with a specified size range could be selected.

In één uitvoeringsvorm is de genoemde score de onbewerkte aflezingstelling voor een bepaald chromosoom of chromosomaal segment.In one embodiment, said score is the raw reading count for a particular chromosome or chromosomal segment.

In een voorkeurdragende uitvoeringsvorm worden de genoemde aflezingstellingen onderworpen aan wiskundige functies of bewerkingen om de genoemde score van de genoemde aflezingstelling af te leiden. Dergelijke bewerkingen zijn, onder andere, maar zijn niet beperkt tot, statistische bewerkingen, regressiemodellen, standaard berekeningen (optellen, aftrekken, vermenigvuldigen en delen), waarbij de genoemde standaard berekeningen bij voorkeur zijn gebaseerd op een of meerdere verkregen aflezingstellingen.In a preferred embodiment, said reading counts are subjected to mathematical functions or operations to derive said score from said reading count. Such operations include, but are not limited to, statistical operations, regression models, standard calculations (addition, subtraction, multiplication, and division), said standard calculations being preferably based on one or more reading counts obtained.

In een voorkeurdragende uitvoeringsvorm is de genoemde eerste score een genormaliseerde waarde die is afgeleid van de aflezingstellingen of wiskundig gewijzigde aflezingstellingen. In een andere voorkeurdragende uitvoeringsvorm is de genoemde score een Z-score of standaard score met betrekking tot de aflezingstellingen van een bepaald chromosoom, chromosomaal segment of de wiskundig gewijzigde tellingen, waarbij de Z-score kwantificeert hoeveel het aantal aflezingen van een bepaalde sequentie verschilt van het aantal aflezingen die zijn verkregen uit dezelfde sequentie in een reeks referentiemonsters. Het is welbekend bij een vakman hoe een dergelijke Z-score kan worden berekend.In a preferred embodiment, said first score is a normalized value derived from the reading counts or mathematically modified reading counts. In another preferred embodiment, said score is a Z score or standard score with respect to the reading counts of a particular chromosome, chromosomal segment or mathematically modified counts, the Z score quantifying how much the number of readings of a given sequence differs from the number of readings obtained from the same sequence in a series of reference samples. It is well known to a person skilled in the art how such a Z-score can be calculated.

In een voorkeurdragende uitvoeringsvorm wordt een parameter bepaald op basis van een eerste score (overeenkomstig het doelchromosoom of chromosomaal segment) en een verzameling van scores. De parameter stelt bij voorkeur een relatieve score voor tussen de eerste score en een samenvattende statistiek van de verzameling van scores. De parameter kan, bijvoorbeeld, een eenvoudige verhouding voorstellen van de eerste score ten opzichte van een samenvattende statistiek van de verzameling van scores. In één aspect zou elke score een argument van een functie of afzonderlijke functies kunnen zijn, waarbij een verhouding dan kan worden genomen van deze afzonderlijke functies. De parameter kan, bijvoorbeeld, een eenvoudige verhouding voorstellen van de eerste score ten opzichte van een samenvattende statistiek van scores in de verzameling. In één aspect zou elke score een argument van een functie of afzonderlijke functies kunnen zijn, waarbij een verhouding dan kan worden genomen van deze afzonderlijke functies.In a preferred embodiment, a parameter is determined based on a first score (corresponding to the target chromosome or chromosomal segment) and a set of scores. The parameter preferably represents a relative score between the first score and a summary statistic of the set of scores. The parameter may, for example, represent a simple ratio of the first score to a summary statistic of the set of scores. In one aspect, each score could be an argument of a function or individual functions, whereby a ratio can then be taken of these individual functions. The parameter may, for example, represent a simple ratio of the first score to a summary statistic of scores in the set. In one aspect, each score could be an argument of a function or individual functions, whereby a ratio can then be taken of these individual functions.

In een voorkeurdragende uitvoeringsvorm kan de parameter worden verkregen door een verhouding tussen: - een eerste functie waarbij de eerste score en de verzameling van scores de argumenten zijn; - een tweede functie waarbij de verzameling van scores het argument is.In a preferred embodiment, the parameter can be obtained by a ratio between: - a first function where the first score and the set of scores are the arguments; - a second function where the set of scores is the argument.

In een voorkeurdragende uitvoeringsvorm is de genoemde eerste functie gedefinieerd als een verschil, bij voorkeur het verschil tussen de eerste score en een samenvattende statistiek van de verzameling van scores, waarbij de genoemde samenvattende statistiek bij voorkeur is geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking of mediane absolute afwijking (mad) of gemiddelde absolute afwijking.In a preferred embodiment, said first function is defined as a difference, preferably the difference between the first score and a summary statistic of the set of scores, said summary statistic preferably being selected from the mean, the median, the standard deviation or median absolute deviation (mad) or average absolute deviation.

In een andere voorkeurdragende uitvoeringsvorm is de genoemde tweede functie gedefinieerd als een variabiliteitsamenvattende statistiek van de verzameling van scores, waarbij de genoemde samenvattende statistiek bij voorkeur is geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking of mediane absolute afwijking (mad) of gemiddelde absolute afwijking.In another preferred embodiment, said second function is defined as a variability summary statistic of the set of scores, said summary statistic preferably being selected from the mean, median, standard deviation or median absolute deviation (mad) or average absolute deviation .

Een geschikte uitvoeringsvorm volgens de onderhavige uitvinding omvat gewoonlijk de volgende stappen (na DNA-sequenties uit een willekeurige, lage-dekking sequencingproces op een biologisch monster te hebben verkregen). - het aligneren van sequenties met een referentiegenoom; - het verkrijgen van de aflezingstellingen per chromosoom of chromosomaal segment; - het normaliseren van het aantal aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score die is afgeleid van het genoemde genormaliseerde aantal aflezingen en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van het genormaliseerde aantal aflezingen die waren verkregen uit een reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter van de genoemde scores, waarbij de genoemde parameter een verhouding voorstelt tussen de genoemde eerste score en een samenvattende statistiek van de genoemde verzameling scores, waarbij de eerste functie van de genoemde verhouding wordt gedefinieerd als een verschil tussen de eerste score en een sa men vattende statistiek van de genoemde verzameling scores; en waarbij de tweede functie van de genoemde verhouding wordt gedefinieerd als een samenvattende statistiek van de genoemde verzameling scores. De genoemde sequenties worden bij voorkeur verkregen door lage-dekking sequencing.A suitable embodiment of the present invention usually comprises the following steps (after obtaining DNA sequences from a random, low-coverage sequencing process on a biological sample). - aligning sequences with a reference genome; - obtaining the reading counts per chromosome or chromosomal segment; - normalizing the number of readings or a derivative thereof to a normalized number of readings; - obtaining a first score derived from said normalized number of readings and a set of scores derived from said normalized reading counts for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings obtained from a series of chromosomes or chromosome segments comprising the chromosomal target segment or chromosome; - calculating a parameter of said scores, wherein said parameter represents a ratio between said first score and a summary statistic of said set of scores, the first function of said ratio being defined as a difference between the first score and a summary statistic of said set of scores; and wherein the second function of said ratio is defined as a summary statistic of said set of scores. Said sequences are preferably obtained by low-coverage sequencing.

De genoemde normalisatie vindt bij voorkeur plaats op basis van een reeks referentiemonsters, waarbij de genoemde referentiemonsters bij voorkeur, maar niet noodzakelijk, euploïde of in hoofdzaak euploïde zijn voor het chromosoom of chromosomaal segment dat overeenkomt met het doelchromosoom of chromosomaal segment (d.w.z. het grootste deel van het chromosoom of chromosomaal segment in de referentiemonsters die overeenkomen met het doelchromosoom of chromosomaal segment in het testmonster zijn euploïde). Dergelijke referentiereeks heeft verschillende monstergroottes. Een mogelijke monstergrootte kan bijv. 100 monsters zijn, zoals 50 mannelijke en 50 vrouwelijke monsters. Het zal duidelijk zijn voor een vakman dat de referentiereeks vrij kan worden gekozen door de gebruiker.Said normalization preferably takes place on the basis of a series of reference samples, said reference samples preferably being, but not necessarily, euploid or substantially euploid for the chromosome or chromosomal segment corresponding to the target chromosome or chromosomal segment (ie, the major part of the chromosome or chromosomal segment in the reference samples corresponding to the target chromosome or chromosomal segment in the test sample are euploid). Such a reference series has different sample sizes. A possible sample size can be, for example, 100 samples, such as 50 male and 50 female samples. It will be clear to a person skilled in the art that the reference series can be freely chosen by the user.

Het genoemde aantal aflezingen is bij voorkeur opnieuw gekalibreerd om te corrigeren voor GC-inhoud en/of totaal aantal aflezingen verkregen uit het genoemde monster.Said number of readings is preferably recalibrated to correct for GC content and / or total number of readings obtained from said sample.

Door rekening te houden met een reeks scores afgeleid van aflezingen van chromosomen of chromosomale segmenten die het doelchromosoom of chromosomale segment bevatten voor berekening van de verzameling van scores, kan een gevoeligere en betrouwbaardere parameter worden verkregen in vergelijking met werkwijzen volgens de stand der techniek. Anders dan in de werkwijzen die bekend zijn in de stand der techniek moet er geen veronderstelling worden gedaan over de ploïde-status van enige van de chromosomen in het testmonster. Zelfs als meerdere aneuploïdieën aanwezig zouden zijn in het testmonster of er veel technische of biologische ruis aanwezig is (bijv. afkomstig van de aanwezigheid van kanker of CNV's), biedt de huidige parameter p nog steeds een waardevol instrument, terwijl de werkwijzen die bekend zijn in de stand der techniek kunnen falen in deze situaties (Vandenberghe et al., "Non-invasive détection of genomic imbalances in Hodgkin/Reed-Sternberg cells in early and advanced stage Hodgkin's lymphoma by sequencing of circulating cell-free DNA: a technical proof-of-principle study", 2015). Door een parameter volgens de onderhavige uitvinding te definiëren is de parameter voor het chromosoom of gebied dat moet worden geanalyseerd namelijk duidelijk (d.w.z. is het sterk toegenomen/afgenomen) en verdwijnt het niet in de ruis (d.w.z. slechts matig of niet toegenomen/afgenomen). Voor de screening is gevoeligheid bovendien essentieel, aangezien het belangrijk is een betrouwbaar en te vertrouwen resultaat te hebben, waarbij het aantal valse negatieven wordt geminimaliseerd. Voor de screening kan het namelijk belangrijker zijn hoge gevoeligheid te hebben vergeleken met specificiteit.By taking into account a set of scores derived from readings from chromosomes or chromosomal segments that contain the target chromosome or chromosomal segment for calculating the set of scores, a more sensitive and reliable parameter can be obtained in comparison with prior art methods. Unlike in the methods known in the art, no assumption has to be made about the ploid status of any of the chromosomes in the test sample. Even if multiple aneuploidies were present in the test sample or there was a high level of technical or biological noise (e.g. from the presence of cancer or CNVs), the current parameter p still provides a valuable tool, while the methods known in the state of the art can fail in these situations (Vandenberghe et al., "Non-invasive detection or genomic imbalances in Hodgkin / Reed-Sternberg cells in early and advanced stage Hodgkin's lymphoma by sequencing or circulating cell-free DNA: a technical proof- of-principle study ", 2015). Namely, by defining a parameter according to the present invention, the parameter for the chromosome or region to be analyzed is clear (i.e., it is greatly increased / decreased) and does not disappear in the noise (i.e., only moderately or not increased / decreased). Sensitivity is also essential for screening, since it is important to have a reliable and reliable result, minimizing the number of false negatives. For screening it may be more important to have high sensitivity compared to specificity.

De parameter volgens de onderhavige uitvinding laat robuuste detectie en automatische classificatie van chromosomen toe, zelfs in gegevens met ruis. Door rekening te houden met een verzameling van chromosomen of segmenten, inclusief het doelchromosoom of segment, d.w.z. het merendeel van informatie die aanwezig is in de gegevensreeks, wordt het merendeel van de beschikbare informatie gebruikt, waardoor een adequatere analyse wordt verkregen. Als men bijv. chromosoom 1 (het grootse chromosoom, 7,9% van het genoom) zou verwijderen, zou een grote hoeveelheid gegevens worden verwijderd waarmee geen rekening wordt gehouden, hetgeen een verstoring in de analyse zou veroorzaken.The parameter according to the present invention allows robust detection and automatic classification of chromosomes, even in data with noise. By taking into account a set of chromosomes or segments, including the target chromosome or segment, i.e., the majority of information present in the data set, the majority of the available information is used, resulting in a more adequate analysis. If, for example, chromosome 1 (the largest chromosome, 7.9% of the genome) were to be deleted, a large amount of data would be deleted which would not be taken into account, which would cause a disruption in the analysis.

De onderhavige uitvinding is in het bijzonder erg nuttig in situaties waarin een laag aantal aflezingen of gegevens met ruis wordt verkregen. De uitvinders hebben gevonden dat de parameter volgens de onderhavige uitvinding, in de laatste situaties, superieur was vergeleken met andere methodologieën.The present invention is particularly useful in situations where a low number of readings or data with noise is obtained. The inventors have found that, in the latter situations, the parameter of the present invention was superior to other methodologies.

In een voorkeurdragende uitvoeringsvorm worden de genoemde scores verkregen op basis van de genomische voorstelling van het doelchromosoom of chromosomaal segment (of een gebied daarvan) en de genomische voorstelling van alle autosomen of andere chromosomen, waardoor het doelchromosoom of chromosomaal segment opgenomen is.In a preferred embodiment, said scores are obtained based on the genomic representation of the target chromosome or chromosomal segment (or a region thereof) and the genomic representation of all autosomes or other chromosomes, thereby recording the target chromosome or chromosomal segment.

De parameter wordt vergeleken met een of meerdere drempelwaarden. De drempelwaarden kunnen worden bepaald op enig aantal geschikte manieren. Dergelijke manieren zijn onder andere waarschijnlijkheidsmethode van het Bayesiaanse type, sequentiële waarschijnlijkheidstest (SPRT, sequential proability ratio testing), ontdekking van valse resultaten, betrouwbaarheidsinterval, door de ontvanger bediend kenmerk (ROC, receiver operating characteristic). In een meer voorkeurdragende uitvoeringsvorm is de genoemde drempelwaarde gebaseerd op statistische overwegingen of wordt het empirisch bepaald door het testen van biologische monsters. De drempelwaarde kan worden gevalideerd door middel van testgegevens of een validatiereeks en kan, indien nodig, worden gewijzigd telkens meer gegevens beschikbaar zijn.The parameter is compared with one or more threshold values. The threshold values can be determined in any number of suitable ways. Such ways include Bayesian-type probability method, sequential probability test (SPRT), discovery of false results, confidence interval, receiver-operated characteristic (ROC, receiver operating characteristic). In a more preferred embodiment, said threshold value is based on statistical considerations or is determined empirically by testing biological samples. The threshold value can be validated by means of test data or a validation series and, if necessary, can be changed whenever more data is available.

Op basis van de vergelijking wordt een classificatie bepaald of een chromosomale aneuploïdie bestaat voor het doelchromosoom. In een uitvoeringsvorm is de classificatie een definitieve ja of nee. In een andere uitvoeringsvorm kan de classificatie niet classificeerbaar zijn of onzeker. In nog een andere uitvoeringsvorm kan de classificatie een score zijn die moet worden geïnterpreteerd op een latere datum, bijvoorbeeld, door een arts. In een andere uitvoeringsvorm kan de classificatie gebeuren op een genoombreed niveau. In nog een andere uitvoeringsvorm kan de classificatie een score zijn die de kans bepaalt op de aanwezigheid van genoombrede instabiliteit of de aanwezigheid van een vooraf gedefinieerde CNV-handtekening (d.w.z. een gedefinieerde combinatie van CNV's of subchromosomale of chromosomale kopieaantalafwijkingen).Based on the comparison, a classification is determined as to whether chromosomal aneuploidy exists for the target chromosome. In one embodiment, the classification is a definitive yes or no. In another embodiment, the classification may not be classifiable or uncertain. In yet another embodiment, the classification may be a score to be interpreted at a later date, for example, by a physician. In another embodiment, the classification can be done at a genome-wide level. In yet another embodiment, the classification may be a score that determines the probability of the presence of genome-wide instability or the presence of a predefined CNV signature (i.e., a defined combination of CNVs or subchromosomal or chromosomal copy number abnormalities).

In een verder voorkeurdragende uitvoeringsvorm worden secundaire parameters van de aflezingstellingen berekend, die dienen als een aanvullende interne controle voor de bruikbaarheid van de parameter, de omvang van de aneuploïdie (indien geïdentificeerd) en/of een indicatie voor de betrouwbaarheid van de parameter, het biologische monster of de sequenties die zijn verkregen daarvan en bijgevolg de uiteindelijke beoordeling. De genoemde secundaire parameters kunnen een vereiste zijn voor de aanwezigheid van de genoemde aneuploïdie en/of een maatstaf voor de kwaliteit van het monsters evenals een maatstaf voor genoombrede instabiliteit.In a further preferred embodiment, secondary parameters of the reading counts are calculated, which serve as an additional internal check for the usability of the parameter, the extent of the aneuploidy (if identified) and / or an indication for the reliability of the parameter, the biological sample or the sequences obtained therefrom and therefore the final assessment. Said secondary parameters may be a requirement for the presence of said aneuploidy and / or a measure of the quality of the samples as well as a measure of genome-wide instability.

In één uitvoeringsvorm wordt de genoemde secundaire parameter berekend als de mediaan van de Z-verdeling van de aflezingstellingen of een afgeleide daarvan, voor een doelchromosoom of chromosomaal doelsegment gemeten per stuk of een verzameling stukken (d.w.z. vensters). De laatste secundaire parameters laten beoordeling toe als het merendeel (meer dan 50%) van de vensters in een chromosoom is toegenomen of afgenomen. Het laatste laat de detectie van chromosomale en grote subchromosomale aneuploïdeën toe. Wanneer minder dan 50% van de vensters getroffen wordt, zullen de secundaire parameters niet beïnvloed worden (bijv. kleinere CNV's).In one embodiment, said secondary parameter is calculated as the median of the Z distribution of the reading counts or a derivative thereof, for a target chromosome or chromosomal target segment measured per piece or a set of pieces (i.e., windows). The last secondary parameters allow assessment if the majority (more than 50%) of the windows in a chromosome have increased or decreased. The latter allows the detection of chromosomal and large subchromosomal aneuploids. If less than 50% of the windows are affected, the secondary parameters will not be affected (eg smaller CNVs).

In een andere uitvoeringsvorm kunnen de genoemde secundaire parameters worden berekend als de mediaan van de absolute waarde van de Z-scores voor de aflezingstellingen of een afgeleide daarvan, van de resterende chromosomen (dat is een verzameling van chromosomen of segmenten die het doelchromosoom of segment uitsluiten).In another embodiment, said secondary parameters can be calculated as the median of the absolute value of the Z-scores for the reading counts or a derivative thereof, of the remaining chromosomes (that is a set of chromosomes or segments that exclude the target chromosome or segment ).

De laatste secundaire parameters laten de detectie toe van bijv. de aanwezigheid van technische of biologische instabiliteiten (cf. kwaadaardigheden, kanker) en het onderscheiden daarvan van CNV's van de moeder. Als minder dan de vensters van de andere of alle chromosomen getroffen worden, zal deze secundaire parameters niet beïnvloed worden. Als meer dan 50% van de vensters getroffen wordt, zal dit kunnen worden afgeleid van de genoemde secundaire parameters.The latter secondary parameters allow the detection of, for example, the presence of technical or biological instabilities (cf. malignancies, cancer) and the distinction thereof from CNVs of the mother. If fewer than the windows of the other or all chromosomes are affected, these secondary parameters will not be affected. If more than 50% of the windows are affected, this can be deduced from the aforementioned secondary parameters.

In een andere uitvoeringsvorm biedt de onderhavige uitvinding ook een kwaliteitsscore (QS). QS laat toe de algemene variatie binnen het genoom te beoordelen. Een lage QS is een indicatie van een goede monsterverwerking en een laag niveau van technische en biologische ruis. Een stijging in de QS kan twee mogelijke redenen hebben. Hetzij een fout die is opgetreden tijdens de verwerking van het monster. In het algemeen zal aan de gebruiker worden gevraagd een nieuw biologisch staal af te nemen en te testen. Dit is typisch voor matig gestegen QS-scores. Een sterk gestegen QS zou een indicatie kunnen zijn van een sterk aneuploïde monster en de gebruiker zal worden aangemoedigd een bevestigende test te doen. De genoemde QS wordt bij voorkeur bepaald door het berekenen van de standaardafwijkingen van alle Z-scores voor chromosomen of chromosomale segmenten en optioneel door het verwijderen van de uitschieters daarvan (d.w.z. de hoogste en laagste Z-scores in deze verzameling).In another embodiment, the present invention also provides a quality score (QS). QS makes it possible to assess the general variation within the genome. A low QS is an indication of good sample processing and a low level of technical and biological noise. An increase in the QS can have two possible reasons. Either an error occurred during the processing of the sample. In general, the user will be asked to take and test a new biological sample. This is typical of moderately increased QS scores. A greatly increased QS could be an indication of a strong aneuploid sample and the user will be encouraged to do a confirmatory test. Said QS is preferably determined by calculating the standard deviations of all Z scores for chromosomes or chromosomal segments and optionally by removing the outliers thereof (i.e. the highest and lowest Z scores in this set).

In een uitvoeringsvorm van de onderhavige uitvinding zal de parameter p voldoende zijn om een onderscheid te maken tussen de aanwezigheid en/of afwezigheid van een aneuploïdie. In een meer voorkeurdragende uitvoeringsvorm van de onderhavige uitvinding zullen zowel de parameter als de secundaire parameters worden gebruikt om een beslissing te nemen met betrekking tot de aanwezigheid of afwezigheid van een aneuploïdie. Ook de genoemde secundaire parameters zullen bij voorkeur vergeleken worden met vooraf gedefinieerde drempelwaarden.In an embodiment of the present invention, the parameter p will be sufficient to distinguish between the presence and / or absence of an aneuploidy. In a more preferred embodiment of the present invention, both the parameter and the secondary parameters will be used to make a decision regarding the presence or absence of an aneuploidy. The said secondary parameters will also preferably be compared with predefined threshold values.

In een voorkeurdragende uitvoeringsvorm omvatten het genoemde doelchromosoom of chromosomaal segment volledige chromosoomamplificaties en/of deleties waarvan gekend is dat ze zijn geassocieerd met een kanker (bijv. zoals hierin beschreven). In bepaalde uitvoeringsvormen omvatten het genoemde doelchromosoom of chromosoomsegmenten chromosoomsegmentamplificaties of deleties waarvan bekend is dat ze zijn geassocieerd met een of meerdere kankers. In bepaalde uitvoeringsvormen omvatten de chromosoomsegmenten in hoofdzaak volledige chromosoomarmen (bijv. zoals hierin beschreven). In bepaalde uitvoeringsvormen omvatten de chromosoomsegmenten volledige chromosoomaneuploïdieën. In bepaalde uitvoeringsvormen omvatten de volledige chromosoomaneuploïdiën een verlies, terwijl de volledige chromosoomaneuploïdiën in bepaalde andere uitvoeringsvormen een winst (bijv. een winst of een verlies zoals getoond in Tabel 1) omvatten. In bepaalde uitvoeringsvormen zijn de interessante chromosoomsegmenten in hoofdzaak segmenten op armniveau omvattende een p arm of een q arm van een of meerdere chromosomen 1-22, X en Y. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een amplificatie van een substantieel segment op armniveau van een chromosoom of een deletie van een substantieel segment op armniveau van een chromosoom. In bepaalde uitvoeringsvormen omvatten de interessante chromosomale segmenten in hoofdzaak een of meerdere armen geselecteerd uit de groep bestaande uit lq, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, lOq, 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q en/of 22q. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een amplificatie van een of meerdere armen geselecteerd uit de groep bestaande uit lq, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, lOq, 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q, 22q. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een deletie van een of meerdere armen geselecteerd uit de groep bestaande uit lq, 3q, 4p, 4q, 5q, 6q, 8p, 8q, 9p, 9q, 10p, lOq, lip, llq, 13q, 14q, 15q, 16q, 17p, 17q, 18p, 18q, 19p, 19q, 22q. In bepaalde uitvoeringsvormen zijn de interessante chromosomale segmenten segmenten die een gebied en/of een gen omvatten getoond in Tabel 3 en/of Tabel 5 en/of Tabel 4 en/of Tabel 6. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een amplificatie van een gebied en/of een gen getoond in Tabel 3 en/of Tabel 5. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een deletie van een gebied en/of een gen getoond in Tabel 4 en/of Tabel 6. In bepaalde uitvoeringsvormen zijn de interessante chromosoomsegmenten segmenten waarvan bekend is dat ze een of meerdere oncogenen en/of een of meerdere tumoronderdrukkende genen omvatten. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een amplificatie van een of meerdere gebieden geselecteerd uit de groep bestaande uit 20Q13, 19ql2, Iq21-lq23, 8pll-pl2, en de ErbB2. In bepaalde uitvoeringsvormen omvatten de aneuploïdieën een amplificatie van een of meerdere gebieden omvattende een gen geselecteerd uit de groep bestaande uit MYC, ERBB2 (EGFR), CCND1 (Cyclin Dl), FGFR1, FGFR2, HRAS, KRAS, MYB, MDM2, CCNE, NRAS, MET, ERBB1, CDK4, MYCB, ERBB2, AKT2, MDM2, BRAF, ARAF, CRAF, PIK3CA, AKT1, PTEN, STK11, MAP2K1, ALK, ROS1, CTNNB1, TP53, SMAD4, FBX7, FGFR3, NOTCH1, ERBB4 en CDK4 en dergelijke. In bepaalde uitvoeringsvormen is de kanker een kanker geselecteerd uit de groep bestaande uit leukemie, ALL, hersenkanker, borstkanker, colorectale kanker, gededifferentieerd liposarcoom, esofagaal adenocarcinoom, esofagale squameuze celkanker, GIST, glioom, HCC, hépatocellulaire kanker, longkanker, long NSC, long SC, medullobastoom, melanoom, MPD, myeloproliferatieve aandoening, baarmoederhalskanker, eierstokkanker, prostaatkanker en nierkanker.In a preferred embodiment, said target chromosome or chromosomal segment includes complete chromosome amplifications and / or deletions that are known to be associated with a cancer (e.g., as described herein). In certain embodiments, said target chromosome or chromosome segments include chromosome segment amplifications or deletions that are known to be associated with one or more cancers. In certain embodiments, the chromosome segments comprise substantially complete chromosome arms (e.g., as described herein). In certain embodiments, the chromosome segments comprise complete chromosome anuploidies. In certain embodiments, the complete chromosome anuploidies include a loss, while in some other embodiments, the complete chromosome anuploids include a gain (e.g., a gain or a loss as shown in Table 1). In certain embodiments, the interesting chromosome segments are essentially arm-level segments comprising a p arm or a q arm of one or more chromosomes 1-22, X, and Y. In certain embodiments, the aneuploidies include an amplification of a substantial arm-level segment of a chromosome or a deletion of a substantial arm-level segment of a chromosome. In certain embodiments, the interesting chromosomal segments essentially comprise one or more arms selected from the group consisting of 1q, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, 10q, 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q and / or 22q. In certain embodiments, the aneuploidies include an amplification of one or more arms selected from the group consisting of 1q, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, 10q , 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q, 22q. In certain embodiments, the aneuploidies include a deletion of one or more arms selected from the group consisting of 1q, 3q, 4p, 4q, 5q, 6q, 8p, 8q, 9p, 9q, 10p, 10q, lip, 11q, 13q, 14q , 15q, 16q, 17p, 17q, 18p, 18q, 19p, 19q, 22q. In certain embodiments, the interesting chromosomal segments are segments comprising an area and / or a gene shown in Table 3 and / or Table 5 and / or Table 4 and / or Table 6. In certain embodiments, the aneuploidies include an amplification of an area and / or a gene shown in Table 3 and / or Table 5. In certain embodiments, the aneuploidies include a deletion of a region and / or a gene shown in Table 4 and / or Table 6. In certain embodiments, the interesting chromosome segments are segments known to be is that they comprise one or more oncogenes and / or one or more tumor-suppressing genes. In certain embodiments, the aneuploidies include an amplification of one or more regions selected from the group consisting of 20Q13, 19q12, Iq21-lq23, 8pl1-p12, and the ErbB2. In certain embodiments, the aneuploidies include an amplification of one or more regions comprising a gene selected from the group consisting of MYC, ERBB2 (EGFR), CCND1 (Cyclin D1), FGFR1, FGFR2, HRAS, KRAS, MYB, MDM2, CCNE, NRAS , WITH, ERBB1, CDK4, MYCB, ERBB2, AKT2, MDM2, BRAF, ARAF, CRAF, PIK3CA, AKT1, PTEN, STK11, MAP2K1, ALK, ROS1, CTNNB1, TP53, SMAD4, FBX7, FGFR3, NOTCH1, CD, and such. In certain embodiments, the cancer is a cancer selected from the group consisting of leukemia, ALL, brain cancer, breast cancer, colorectal cancer, differentiated liposarcoma, esophageal adenocarcinoma, esophageal squamous cell cancer, GIST, glioma, HCC, hepatocellular cancer, lung cancer, lung NSC, lung SC, medullobastoma, melanoma, MPD, myeloproliferative disorder, cervical cancer, ovarian cancer, prostate cancer and kidney cancer.

In bepaalde uitvoeringsvormen omvat het biologisch monster een monster dat is geselecteerd uit de groep bestaande uit volledig bloed, een bloedfractie, speeksel/oraal fluïdum, urine, een weefselbiopsie, pleuraal fluïdum, pericardiaal fluïdum, cerebrospinaal fluïdum en peritonaal fluïdumIn certain embodiments, the biological sample comprises a sample selected from the group consisting of whole blood, a blood fraction, saliva / oral fluid, urine, a tissue biopsy, pleural fluid, pericardial fluid, cerebrospinal fluid, and peritonal fluid.

In bepaalde uitvoeringsvormen wijst de detectie van aneuploïdieën of genoombrede instabiliteit of CNV-handtekeningen of microsatellietinstabiliteit (MSI) op een positief resultaat en omvat de genoemde werkwijze verder het voorschrijven, starten en/of veranderen van een behandeling aan een humane patiënt van wie het testmonster was afgenomen. In bepaalde uitvoeringsvormen omvat het voorschrijven, starten en/of veranderen van een behandeling aan een humane patiënt van wie het testmonster was afgenomen, het voorschrijven en/of uitvoeren van verdere diagnose voor het bepalen van de aanwezigheid en/of ernst van een kanker. In bepaalde uitvoeringsvormen omvatten de verdere diagnostische handelingen het screenen van een monster van de genoemde patiënt voor een biomarker van een kanker, en/of beeldvorming van de genoemde patiënt voor een kanker. In bepaalde uitvoeringsvormen, wanneer de genoemde werkwijze de aanwezigheid aangeeft van neoplastische cellen bij het genoemde zoogdier, omvat het behandelen van het genoemde zoogdier of ervoor zorgen dat het genoemde zoogdier wordt behandeld, het verwijderen en/of het afremmen van de groei of proliferatie van de genoemde neoplastische cellen. In bepaalde uitvoeringsvormen omvat het behandelen van het zoogdier het chirurgisch verwijderen van de neoplastische (bijv. tumor) cellen. In bepaalde uitvoeringsvormen omvat het behandelen van het zoogdier het uitvoeren van radiotherapie of het ervoor zorgen dat radiotherapie wordt uitgevoerd op het genoemde zoogdier om de neoplastische cellen te doden. In bepaalde uitvoeringsvormen omvat het behandelen van het genoemde zoogdier het toedienen of het ervoor zorgen dat aan het genoemde zoogdier kankerbestrijdende geneesmiddelen worden toegediend zoals Receptor Tyrosine Kinase (RTK)-remmers, kinaseremmers, CTLA4-remmers, PDl-remmers, PDL1-remmers, immunothérapie, tumor-targeting T-celtherapieën, chimere antigen receptor (CAR) T-celtherapie, kankervaccins (bijv., matuzumab, erbitux, vectibix, nimotuzumab, matuzumab, panitumumab, fluorouracil, capecitabine, 5-trifluoromethyl-2'-deoxyuridine, methotrexaat, raltitrexed, pemetrexed, cytosine arabinoside, 6-mercaptopurine, azathioprine, 6-thioguanine, pentostatine, fludarabine, cladribine, floxuridine, cyclophosphamide, neosar, ifosfamide, thiotepa, l,3-bis(2-chloroethyl)-l-nitosourea, l,-(2-chloroethyl)-3-cyclohexyl-lnitrosourea, hexamethylmelamine, busulfan, procarbazine, dacarbazine, chlorambucil, melphalan, cisplatine, carboplatine, oxaliplatine, bendamustine, carmustine, chloromethine, dacarbazine, fotemustine, lomustine, mannosulfan, nedaplatine, nimustine, prednimustine, ranimustine, satraplatin, semustine, streptozocine, temozolomide, treosulfan, triaziquon, triethyleenmelamine, thiotepa, triplatinetetranitraat, trofosfamide, uramustine, doxorubicine, daunorubicine, mitoxantron, etoposide, topotecan, teniposide, irinotecan, camptosar, camptothecine, belotecan, rubitecan, vincristine, Vinblastine, vinorelbine, vindesine, paclitaxel, docetaxel, abraxane, ixabepilone, larotaxel, ortataxel, tesetaxel, vinflunine, imatinib mesylaat, sunitinib malaat, sorafenib tosylaat, nilotinib hydrochloride monohydraat, tasigna, semaxanib, vandetanib, vatalanib, vemurafenib, dabrafenib, trametinib, ipilimumab, pembrolizumab, nivolumab, retinoïnezuur, een retinoïnezuurderivaat, en dergelijke).In certain embodiments, the detection of aneuploidies or genome-wide instability or CNV signatures or microsatellite instability (MSI) indicates a positive result, and said method further comprises prescribing, initiating and / or changing a treatment to a human patient whose test sample was decreased. In certain embodiments, prescribing, initiating and / or changing a treatment to a human patient from whom the test sample was taken includes prescribing and / or performing further diagnosis to determine the presence and / or severity of a cancer. In certain embodiments, the further diagnostic procedures include screening a sample of said patient for a cancer biomarker, and / or imaging said patient for a cancer. In certain embodiments, when said method indicates the presence of neoplastic cells in said mammal, treating said mammal or causing said mammal to be treated includes removing and / or inhibiting the growth or proliferation of said mammal. said neoplastic cells. In certain embodiments, treating the mammal comprises surgically removing the neoplastic (e.g., tumor) cells. In certain embodiments, treating the mammal includes performing radiotherapy or causing radiotherapy to be performed on said mammal to kill the neoplastic cells. In certain embodiments, treating said mammal includes administering or ensuring that said mammal is administered anti-cancer drugs such as Receptor Tyrosine Kinase (RTK) inhibitors, kinase inhibitors, CTLA4 inhibitors, PD1 inhibitors, PDL1 inhibitors, immunotherapy , tumor targeting T cell therapies, chimeric antigen receptor (CAR) T cell therapy, cancer vaccines (e.g., matuzumab, erbitux, vectibix, nimotuzumab, matuzumab, panitumumab, fluorouracil, capecitabine, 5-trifluoromethyl-2'-deoxyurate, methotrex, methotre raltitrexed, pemetrexed, cytosine arabinoside, 6-mercaptopurine, azathioprine, 6-thioguanine, pentostatin, fludarabine, cladribine, floxuridine, cyclophosphamide, neosar, ifosfamide, thiotepa, 1,3-bis (2-chloroethyl) -1-nitosour - (2-chloroethyl) -3-cyclohexyl-nitrosourea, hexamethylmelamine, busulfan, procarbazine, dacarbazine, chlorambucil, melphalan, cisplatin, carboplatin, oxaliplatin, bendamustine, carmustine, chloromethine, dacarbazine, fotemustine, lomustine, mannosulfan, nedaplatin, nimustine, prednimustine, ranimustine, satraplatin, semustine, streptozocin, temozolomide, treosulfan, triaziquon, triethylene melamine, thiotepa, triplatin tranitx, trofustic, doramid, urofosin, doofamorin, doofuborin, doofubutin, doofu, trio irinotecan, camptosar, camptothecin, belotecan, rubitecan, vincristine, vinblastine, vinorelbine, vindesine, paclitaxel, docetaxel, abraxane, ixabepilone, larotaxel, ortataxel, tesetaxel, vinflunine, imateibibitibibibitibibitibilibitibilibitibilibate , vandetanib, vatalanib, vemurafenib, dabrafenib, trametinib, ipilimumab, pembrolizumab, nivolumab, retinoic acid, a retinoic acid derivative, and the like).

Werkwijzen voor het monitoren van een behandeling van een patiënt voor een kanker worden ook voorzien. In verscheidene uitvoeringsvormen omvatten de werkwijzen het uitvoeren van een werkwijze voor het bepalen of een patiënt van tumorafgeleid celvrij DNA heeft in zijn of haar perifeer bloed, voor het bevestigen van de diagnose van kanker, voor het helpen bij de classificatie van een kanker, voor het beoordelen van de behandelingsrespons, voor het monitoren van de patiënt, voor het identificeren van de aanwezigheid van een kanker en/of een verhoogd risico op een kanker bij een zoogdier zoals hierin beschreven op een monster van de patiënt of het ontvangen van de resultaten van dergelijke werkwijze uitgevoerd op het monster voor of tijdens de behandeling; en het opnieuw uitvoeren van de werkwijze op een tweede monster van de patiënt of het ontvangen van de resultaten van een dergelijke werkwijze uitgevoerd op het tweede monster op een later tijdstip tijdens of na de behandeling; waarbij een verlaagd aantal of een verlaagde ernst van aneuploïdie (bijv. een verlaagde aneuploïdiefrequentie en/of een daling of afwezigheid van bepaalde van bepaalde aneuploïdieën) of een verandering in de CNV-handtekening in de tweede meting (bijv. in vergelijking met de eerste meting) een indicator kan zijn van een positief verloop van de behandeling en hetzelfde of een gestegen aantal of ernst van aneuploïdie of geen of een ongunstige verandering in de CNV-handtekening in de tweede meting (bijv. in vergelijking met de eerste meting) een indicator kan zijn van een negatief verloop van de behandeling en, wanneer de genoemde indicator negatief is, het aanpassen van het behandelingsregime aan een meer agressief behandelingsregime en/of een palliatief behandelingsregime.Methods for monitoring a patient's cancer treatment are also provided. In various embodiments, the methods include performing a method for determining whether a patient has tumor-derived cell-free DNA in his or her peripheral blood, for confirming the diagnosis of cancer, for assisting in the classification of a cancer, for assessing the treatment response, monitoring the patient, identifying the presence of a cancer and / or an increased risk of cancer in a mammal as described herein on a sample from the patient or receiving the results of such a method performed on the sample before or during treatment; and performing the method again on a second sample from the patient or receiving the results of such a method performed on the second sample at a later time during or after the treatment; wherein a reduced number or a reduced severity of aneuploidy (e.g. a reduced aneuploidy frequency and / or a decrease or absence of certain of certain aneuploidies) or a change in the CNV signature in the second measurement (e.g. compared to the first measurement ) can be an indicator of a positive course of treatment and the same or an increased number or severity of aneuploidy or no or an unfavorable change in the CNV signature in the second measurement (e.g. compared to the first measurement) can be an indicator being a negative course of treatment and, if said indicator is negative, adjusting the treatment regime to a more aggressive treatment regime and / or a palliative treatment regime.

Tabel 1 Illustratieve specifieke, terugkerende chromosoomwinsten en -verliezen bij kanker bij mensen (zie bijv. Gordon et al. (2012) Nature Rev. Genetics. 13: 189-203).Table 1 Illustrative specific, recurring chromosome gains and losses in human cancer (see, e.g., Gordon et al. (2012) Nature Rev. Genetics. 13: 189-203).

In verschillende uitvoeringsvormen kan de werkwijze die hierin beschreven is, worden gebruikt voor het detecteren en/of kwantificeren van volledige chromosoomaneuploïdieën die zijn geassocieerd met kanker in het algemeen en/of die zijn geassocieerd met bepaalde kankers. In bepaalde uitvoeringsvormen worden bijgevolg detectie en/of kwantificatie van volledige chromosoomaneuploïdieën gekenmerkt door winsten of verliezen getoond in Tabel 1 verwacht.In various embodiments, the method described herein can be used to detect and / or quantify complete chromosome anuploidies associated with cancer in general and / or associated with certain cancers. Therefore, in certain embodiments, detection and / or quantification of complete chromosome anuploidies characterized by gains or losses shown in Table 1 are expected.

Verschillende studies hebben patronen van kopieaantalvariaties op armniveau binnen grote aantallen kankerspecimens gerapporteerd (Lin et al. Cancer Res 68, 664-673 (2008); George et al. PLoS ONE 2, e255 (2007); Demichelis et al. Genes Chromosomes Cancer 48: 366-380 (2009); Beroukhim et al. Nature. 463(7283): 899-905 [2010]). Daarnaast is vastgesteld dat de frequentie van kopieaantalvariaties op armniveau afneemt met de lengte van chromosoomarmen. Aangepast aan deze trend vertonen de meeste chromosoomarmen sterk bewijs van voorkeurdragende winsten of verliezen, maar zelden beide, binnen meervoudige kankergeslachten (zie bijv. Beroukhim et al. Nature. 463(7283): 899-905 [2010]).Several studies have reported patterns of copy number variations at arm level within large numbers of cancer specimens (Lin et al. Cancer Res 68, 664-673 (2008); George et al. PLoS ONE 2, e255 (2007); Demichelis et al. Genes Chromosomes Cancer 48 : 366-380 (2009); Beroukhim et al. Nature. 463 (7283): 899-905 [2010]). In addition, it has been established that the frequency of copy number variations at arm level decreases with the length of chromosome arms. Adapted to this trend, most chromosome arms show strong evidence of preferential gains or losses, but rarely both, within multiple cancer genera (see, e.g., Beroukhim et al. Nature. 463 (7283): 899-905 [2010]).

In een uitvoeringsvorm worden de hierin beschreven werkwijzen overeenkomstig gebruikt voor het bepalen van CNV's op armniveau (CNV's omvattende één chromosomale arm of in hoofdzaak één chromosomale arm) in een monster. De CNV's kunnen worden bepaald in een testmonster omvattende een constitutioneel (kiemlijn) nucleïnezuur en de CNV's op armniveau kunnen worden geïdentificeerd in deze constitutionele nucleïnezuren. In bepaalde uitvoeringsvormen worden CNV's op armniveau geïdentificeerd (indien aanwezig) in een monster omvattende een mengsel van nucleïnezuren (bijv. nucleïnezuren die zijn afgeleid van normale en nucleïnezuren afgeleid van neoplastische cellen). In bepaalde uitvoeringsvormen is het monster afgeleid van een patiënt van wie vermoed wordt of gekend is dat hij/zij kanker heeft bijv. carcinoom, sarcoom, lymfoom, leukemie, kiemceltumoren, blastoom en dergelijke. In een uitvoeringsvorm is het monsters een plasmamonster dat is afgeleid (verwerkt) van perifeer bloed dat een mengsel van cfDNA omvat dat is afgeleid van normale en kankercellen. In een andere uitvoeringsvorm is het biologische monster dat wordt gebruikt voor het bepalen of een CNV aanwezig is, afgeleid van cellen die, indien een kanker aanwezig is, een mengsel van kanker- en niet-kankercelen omvat van andere biologische weefsels waaronder, maar niet beperkt tot, biologische fluïda zoals serum, zweet, tranen, sputum, urine, sputum, oorsmeer, lymfe, speeksel, cerebropinaal fluïdum, ravages, beenmergsuspensie, vaginaal vocht, transcervicale spoeling, hersenvocht, ascites, melk, afscheidingen van de ademhalings-, darm- en urogenitale kanalen, en leukoforesemonsters, of in weefselbiopsieën, uitstrijkjes of smeersels. In andere uitvoeringsvormen is het biologische monster een monster van stoelgang (fecaal monster).In one embodiment, the methods described herein are accordingly used to determine arm level CNVs (CNVs comprising one chromosomal arm or substantially one chromosomal arm) in a sample. The CNVs can be determined in a test sample comprising a constitutional (germline) nucleic acid and the arm-level CNVs can be identified in these constitutional nucleic acids. In certain embodiments, arm-level CNVs are identified (if present) in a sample comprising a mixture of nucleic acids (e.g., nucleic acids derived from normal and nucleic acids derived from neoplastic cells). In certain embodiments, the sample is derived from a patient suspected or known to have cancer e.g. carcinoma, sarcoma, lymphoma, leukemia, germ cell tumors, blastoma and the like. In one embodiment, the samples is a plasma sample derived (processed) from peripheral blood that comprises a mixture of cfDNA derived from normal and cancer cells. In another embodiment, the biological sample used to determine whether a CNV is present is derived from cells which, if a cancer is present, comprises a mixture of cancer and non-cancer cells from other biological tissues including, but not limited to to, biological fluids such as serum, sweat, tears, sputum, urine, sputum, earwax, lymph, saliva, cerebropinal fluid, havoc, bone marrow suspension, vaginal fluid, transcervical flush, cerebrospinal fluid, ascites, milk, respiratory, intestinal secretions and urogenital channels, and leukophoresis samples, or in tissue biopsies, smears, or spreads. In other embodiments, the biological sample is a stool sample (fecal sample).

In verschillende uitvoeringsvormen omvatten de CNV's die als indicatief zijn geïdentificeerd voor de aanwezigheid van een kanker of een verhoogd risico op een kanker, maar zijn ze niet beperkt tot, CNV's op armniveau die in Tabel 2 zijn opgenomen. Zoals in Tabel 2 wordt geïllustreerd zijn bepaalde CNV's die een substantiële winst op armniveau omvatten, indicatief voor de aanwezigheid van een kanker of een verhoogd risico op kanker voor een bepaalde kanker. Een winst van lq is bijgevolg bijvoorbeeld indicatief voor de aanwezigheid of een verhoogd risico op acute lymfoblastische leukemie (ALL), borstkanker, GIST, HCC, long NSC, medulloblastoom, melanoom, MPD, eierstokkanker en/of prostaatkanker. Een winst van 3q is indicatief voor de aanwezigheid of een verhoogd risico op esofagale squameuze kanker, Long SC en/of PMD. Een winst van 7q is indicatief voor de aanwezigheid of een verhoogd risico op colorectale kanker, glioom, HCC, long NSC, medulloblastoom, melanoom, prostaatkanker en/of nierkanker. Een winst van 7p is indicatief voor de aanwezigheid of een verhoogd risico op borstkanker, colorectale kanker, esofagaal adenocarcinoom, glioom, HCC, Long NSC, medulloblastoom, melanoom en/of nierkanker. Een winst van 20q is indicatief voor de aanwezigheid of een verhoogd risico op borstkanker, colorectale kanker, gededifferentieerd liposarcoom, esofagaal adenocarcinoom, esofagaal squameus, glioomkanker, HCC, long NSC, melanoom, eierstokkanker en/of nierkanker enzovoort.In various embodiments, the CNVs identified as indicative of the presence of a cancer or an increased risk of cancer include, but are not limited to, arm-level CNVs listed in Table 2. As illustrated in Table 2, certain CNVs that include a substantial gain at arm level are indicative of the presence of a cancer or an increased risk of cancer for a particular cancer. A gain of lq is therefore, for example, indicative of the presence or increased risk of acute lymphoblastic leukemia (ALL), breast cancer, GIST, HCC, lung NSC, medulloblastoma, melanoma, MPD, ovarian cancer and / or prostate cancer. A gain of 3q is indicative of the presence or an increased risk of esophageal squamous cancer, lung SC and / or PMD. A gain of 7q is indicative of the presence or increased risk of colorectal cancer, glioma, HCC, lung NSC, medulloblastoma, melanoma, prostate cancer and / or kidney cancer. A gain of 7p is indicative of the presence or increased risk of breast cancer, colorectal cancer, esophageal adenocarcinoma, glioma, HCC, Long NSC, medulloblastoma, melanoma and / or kidney cancer. A gain of 20q is indicative of the presence or increased risk of breast cancer, colorectal cancer, differentiated liposarcoma, esophageal adenocarcinoma, esophageal squamous, glioma cancer, HCC, lung NSC, melanoma, ovarian cancer and / or kidney cancer and so on.

Zo ook, zoals in Tabel 2 wordt geïllustreerd zijn bepaalde CNV's die een substantiële winst op armniveau omvatten, indicatief voor de aanwezigheid en/of een verhoogd risico voor bepaalde kankers. Een verlies van lp is bijgevolg bijvoorbeeld indicatief voor de aanwezigheid of een verhoogd risico voor gastrointestinale stromale tumor. Een verlies van 4q is indicatief voor de aanwezigheid of een verhoogd risico op colorectale kanker, esofagaal adenocarcinoom, long SC, melanoom, eierstokkanker en/of nierkanker. Een winst van 17p is indicatief voor de aanwezigheid of een verhoogd risico op borstkanker, colorectale kanker, esofagaal adenocarcinoom, HCC, Long NSC, Long SC, en/of eierstokkanker.Similarly, as illustrated in Table 2, certain CNVs that include a substantial gain at arm level are indicative of the presence and / or an increased risk for certain cancers. A loss of lp is therefore, for example, indicative of the presence or an increased risk of gastrointestinal stromal tumor. A loss of 4q is indicative of the presence or an increased risk of colorectal cancer, esophageal adenocarcinoma, lung SC, melanoma, ovarian cancer and / or kidney cancer. A gain of 17p is indicative of the presence or an increased risk of breast cancer, colorectal cancer, esophageal adenocarcinoma, HCC, Long NSC, Long SC, and / or ovarian cancer.

Tabel 2 Significante kopieaantalveranderingen van het chromosomaal segment op armniveau bij elk van 16 kankersubtypesTable 2 Significant copy number changes of the chromosomal segment at arm level for each of 16 cancer subtypes

De voorbeelden van associaties tussen kopieaantalvariaties op armniveau zijn bedoeld om illustratief en niet limitatief te zijn. Andere kopieaantalvariaties op armniveau en de kankerassociaties ervan zijn welbekend bij de vakman.The examples of associations between copy number variations at arm level are intended to be illustrative and not limitative. Other copy number variations at arm level and their cancer associations are well known to those skilled in the art.

Andere kopieaantalvariaties die geen significant deel van een chromosoom of chromosoomarm dekken, zoals CNV's van 1 kb tot 1Mb, of 1 kb tot 10 Mb, of 100 kb tot 10 Mb, of 1 kb tot 50 Mb, of 2 bp tot 10 Mb of 2 bp tot 50 Mb zouden even informatief kunnen zijn voor de detectie of bevestiging van de aanwezigheid van tumorafgeleid celvrij DNA.Other copy number variations that do not cover a significant part of a chromosome or chromosome arm, such as CNVs from 1 kb to 1 Mb, or 1 kb to 10 Mb, or 100 kb to 10 Mb, or 1 kb to 50 Mb, or 2 bp to 10 Mb or 2 bp to 50 Mb could be equally informative for the detection or confirmation of the presence of tumor-derived cell-free DNA.

Zoals hierboven is aangegeven, kan de hierin beschreven werkwijze worden gebruikt voor het bepalen van de aan- of afwezigheid van een chromosomale amplificatie. In sommige uitvoeringsvormen is de chromosomale amplificatie de winst van een of meerdere volledige chromosomen. In andere uitvoeringsvormen is de chromosomale amplificatie de winst van een of meerdere segmenten van een chromosoom. In nog andere uitvoeringsvormen is de chromosomale amplificatie de winst van twee of meerdere segmenten van twee of meer chromosomen. In verschillende uitvoeringsvormen kan de chromosomale amplificatie de winst van een of meerdere oncogenen omvatten.As indicated above, the method described herein can be used to determine the presence or absence of a chromosomal amplification. In some embodiments, the chromosomal amplification is the gain of one or more complete chromosomes. In other embodiments, the chromosomal amplification is the gain of one or more segments of a chromosome. In still other embodiments, the chromosomal amplification is the gain of two or more segments of two or more chromosomes. In various embodiments, the chromosomal amplification can include the gain of one or more oncogenes.

Dominant optredende genen die zijn geassocieerd met humane solide tumoren oefenen hun effect gewoonlijk uit door overexpressie of gewijzigde expressie. Genamplificatie is een vaak voorkomend mechanisme dat leidt tot upregulatie van genexpressie. Bewijs van cytogenetische studies geeft aan dat significante amplificatie plaatsvindt in meer dan 50% van de humane borstkankers. De amplificatie van de proto-oncogeen humane epidermale groeifactor receptor 2 (HER2) die zich op chromosoom 17 bevindt (17(17q21-q22)) resulteert meestal in overexpressie van HER2-receptoren op het celoppervlak hetgeen leidt tot overmatige en gedisreguleerde signalering bij borstkanker en andere kwaadaardige kankers (Park et al., Clinical Breast Cancer 8:392-401 [2008]). Van verscheidene oncogenen is gevonden dat ze worden geamplificeerd in andere humane kwaadaardige kankers. Voorbeelden van de amplificatie van cellulaire oncogenen in humane tumoren omvattende amplificatie van: c-myc in promyelocytische leukemiecellijn HL60, en in kleincellige longcarcinoomcellijnen, N-myc in primaire neuroblastomen (stadia III en IV), neuroblastoomcellijnen, retinoblastoomcellijn en primaire tumoren, en kleincellige longcarcinoomcellijnen en tumoren, L-myc in kleincellige longcarcinoomcellijnen en tumoren, c-myb in acute myeloïde leukemie en in coloncarcinoomcellijnen, c-erbb in epidermoïde carcinoomcel, en primaire gliomen, c-K-ras-2 of KRAS in primaire carcinomen van de long, dikke darm, blaas en het rectum, N-ras of NRAS in carcinoomcellijnen bij zoogdieren (Varmus H., Ann Rev Genetics 18: 553-612 (1984) [geciteerd in Watson et al., Molecular Biology of the Gene (4th ed.; Benjamin/Cummings Publishing Co. 1987)].Dominant genes associated with solid human tumors usually exert their effect through overexpression or altered expression. Gene amplification is a common mechanism that leads to the upregulation of gene expression. Evidence from cytogenetic studies indicates that significant amplification occurs in more than 50% of human breast cancers. The amplification of the proto-oncogene human epidermal growth factor receptor 2 (HER2) located on chromosome 17 (17 (17q21-q22)) usually results in overexpression of HER2 receptors on the cell surface leading to excessive and disregulated signaling in breast cancer and other malignant cancers (Park et al., Clinical Breast Cancer 8: 392-401 [2008]). Several oncogenes have been found to be amplified in other human malignant cancers. Examples of the amplification of cellular oncogenes in human tumors including amplification of: c-myc in promyelocytic leukemia cell line HL60, and in small cell lung carcinoma cell lines, N-myc in primary neuroblastomas (stages III and IV), neuroblastoma cell lines, retinoblastoma cell line and primary tumors, and small cell lung cancer. and tumors, L-myc in small cell lung carcinoma cell lines and tumors, c-myb in acute myeloid leukemia and in colon carcinoma cell lines, c-erbb in epidermoid carcinoma cell, and primary gliomas, cK-ras-2 or KRAS in primary carcinomas of the lung, large intestine , bladder and rectum, N-ras or NRAS in mammalian carcinoma cell lines (Varmus H., Ann Rev Genetics 18: 553-612 (1984) [cited in Watson et al., Molecular Biology of the Gene (4th ed .; Benjamin / Cummings Publishing Co. 1987)].

Amplificaties van oncogenen zijn een vaak voorkomende oorzaak van veel types kanker, net zoals het geval is met P70-S6 Kinase 1 amplificatie en borstkanker. In dergelijke gevallen vindt de genetische amplificatie plaats in een somatische cel en treft het enkel het genoom van de kankercellen zelf, niet het volledige organisme, laat staan enige van de nakomelingen. Andere voorbeelden van oncogenen die zijn geamplificeerd in humane kankers omvatten MYC, ERBB2 (EFGR), CCND1 (Cyclin Dl), FGFR1 en FGFR2 in borstkanker, MYC en ERBB2 in baarmoederhalskanker, HRAS, KRAS, NRAS, en MYB in colorectale kanker, MYC, CCND1 en MDM2 in esofagale kanker, CCNE, KRAS en MET in maagkanker, ERBB1, en CDK4 in glioblastomen, CCND1, ERBB1, en MYC in hoofd- en nekkanker, CCND1 in hépatocellulaire kanker, MYCB in neuroblastomen, MYC, ERBB2 en AKT2 in eierstokkanker, MDM2 en CDK4 in sarcomen, NRAS in melanomen en MYC in kleincellige longkanker. In een uitvoeringsvorm kan de onderhavige werkwijze worden gebruikt voor het bepalen van de aan- of afwezigheid van amplificatie van een oncogeen dat is geassocieerd met een kanker. In sommige uitvoeringsvormen wordt het geamplificeerde oncogen geassocieerd met borstkanker, baarmoederhalskanker, colorectale kanker, esofagale kanker, maagkanker, glioblastoom, hoofd- en nekkanker, hépatocellulaire kanker, neuroblastoom, eierstokkanker, melanoom, prostaatkanker, sarcoom en kleincellige longkanker.Amplifications of oncogenes are a common cause of many types of cancer, as is the case with P70-S6 Kinase 1 amplification and breast cancer. In such cases, the genetic amplification takes place in a somatic cell and only affects the genome of the cancer cells themselves, not the entire organism, let alone some of the offspring. Other examples of oncogenes amplified in human cancers include MYC, ERBB2 (EFGR), CCND1 (Cyclin D1), FGFR1 and FGFR2 in breast cancer, MYC and ERBB2 in cervical cancer, HRAS, KRAS, NRAS, and MYB in colorectal cancer, MYC, CCND1 and MDM2 in esophageal cancer, CCNE, KRAS and MET in gastric cancer, ERBB1, and CDK4 in glioblastomas, CCND1, ERBB1, and MYC in head and neck cancer, CCND1 in hépatocellular cancer, MYCB in neuroblastomas, MYC, ERBB2 and AKT2 in ovarian cancer , MDM2 and CDK4 in sarcomas, NRAS in melanomas and MYC in small cell lung cancer. In one embodiment, the present method can be used to determine the presence or absence of amplification of an oncogene associated with a cancer. In some embodiments, the amplified oncogene is associated with breast cancer, cervical cancer, colorectal cancer, esophageal cancer, stomach cancer, glioblastoma, head and neck cancer, hepatocellular cancer, neuroblastoma, ovarian cancer, melanoma, prostate cancer, sarcoma, and small cell lung cancer.

In een uitvoeringsvorm kan de onderhavige werkwijze worden gebruikt voor het bepalen van de aan- of afwezigheid van een chromosomale deletie. In sommige uitvoeringsvormen is de chromosomale deletie het verlies van een of meerdere volledige chromosomen. In andere uitvoeringsvormen is de chromosomale deletie het verlies van een of meerdere segmenten van een chromosoom. In nog andere uitvoeringsvormen is de chromosomale deletie het verlies van twee of meerdere segmenten van twee of meer chromosomen. De chromosomale deletie kan het verlies omvatten van een of meerdere tumoronderdrukkende genen.In one embodiment, the present method can be used to determine the presence or absence of a chromosomal deletion. In some embodiments, the chromosomal deletion is the loss of one or more complete chromosomes. In other embodiments, the chromosomal deletion is the loss of one or more segments of a chromosome. In still other embodiments, the chromosomal deletion is the loss of two or more segments of two or more chromosomes. The chromosomal deletion may include the loss of one or more tumor-suppressing genes.

Van chromosomale deleties omvattende tumoronderdrukkende genen wordt aangenomen dat ze een belangrijke rol spelen in de ontwikkeling en progressie van de genoemde tumoren. Het retinoblastoom-tumoronderdrukkend gen (Rb-1), dat zich in chromosoom 13ql4 bevindt, is het meest uitgebreid gekenmerkte tumoronderdrukkende gen. Het Rb-1 genproduct, een 105 kDa nucleaire fosfoproteïne, speelt blijkbaar een belangrijke rol in de regulatie van de celcyclus (Howe et al., Proc Natl Acad Sei (USA) 87:5883-5887 [1990]). Gewijzigde of verloren expressie van het Rb-eiwit wordt veroorzaakt door inactivering van beide genallelen hetzij door een puntmutatie hetzij door een chromosomale deletie. Er is gevonden dat Rb-i-genwijzigingen aanwezig zijn niet enkel in retinoblastomen, maar ook in andere kwaadaardige tumoren zoals osteosarcomen, kleincellige longkanker (Rygaard et al., Cancer Res 50: 5312-5317 [1990)]) en borstkanker. Studies inzake restrictiefragmentlengtepolymorfisme (RFLP) hebben aangegeven dat dergelijke tumortypes frequent verloren heterozygositeit hebben op 13q hetgeen suggereert dat een van de Rb-1 genallelen verloren is gegaan omwille van een grote chromosomale deletie (Bowcock et al., Am J Hum Genet, 46: 12 [1990]). Chromosoom 1-afwijkingen omvattende duplicaties, deleties en ongebalanceerde translocaties omvattende chromosoom 6 en andere partnerchromosomen geven aan dat gebieden van chromosoom 1, in het bijzonder Iq21-lq32 en lpll-13, oncogenen of tumoronderdrukkende genen kunnen bevatten die pathogenetisch relevant zijn voor zowel chronische als gevorderde fases van myeloproliferatieve neoplasmen (Caramazza et al., Eur J Hematol 84:191-200 [2010]). Myeloproliferatieve neoplasmen worden ook geassocieerd met deleties van chromosoom 5. Volledig verlies of interstitiële deleties van chromosoom 5 zijn de meest voorkomende karyotypische afwijking in myelodysplastische syndromen (MDS's). Geïsoleerde del(5q)/5q—MDS-patiënten hebben een gunstigere prognose dan deze met extra karyotypische afwijkingen, die de neiging hebben myeloproliferatieve neoplasmen (MPN's) en acute myeloïde leukemie te ontwikkelen. De frequentie van ongebalanceerde chromosoom 5-deleties heeft geleid tot het idee dat 5q een of meerdere tumoronderdrukkende genen bezit die fundamentele rollen hebben in de groeicontrole van hematopoïetische stam-/progenitorcellen (HSC's/HPC's). Cytogenetische mapping van vaak gewiste gebieden (CDR's, commonly deleted régions) gecentreerd op 5q31 en 5q32 identificeerden kandidaat-tumoronderdrukkende genen, waaronder de ribosomale subeenheid RPS14, de transcriptiefactor Egrl/Krox20 en het cytoskeletale remodeling-eiwit, alfa-catenine (Eisenmann et al., Oncogene 28:3429-3441 [2009]). Cytogenetische en allelotyping-studies van verse tumoren en tumorcellijnen hebben aangetoond dat allelverlies van verschillende afzonderlijke gebieden op chromosoom 3p, waaronder 3p25, 3p21-22, 3p21.3, 3pl2-13 en 3pl4, de vroegste en meest frequentie genomische afwijkingen zijn die betrokken zijn in een breed spectrum van majeure epitheelkankers van de longen, borst, nier, hoofd en nek, eierstok, baarmoederhals, dikke darm, pancreas, slokdarm, blaas en andere organen. Verschillende tumoronderdrukkende genen zijn toegewezen aan het chromosoom 3p gebied, en er wordt aangenomen dat interstitiële deleties of promoter hypermethylatie het verlies van het 3p of het volledige chromosoom 3 in de ontwikkeling van carcinomen voorafgaat (Angeloni D., Briefings Functional Genomics 6:19-39 [2007]).Chromosomal deletions comprising tumor suppressing genes are believed to play an important role in the development and progression of said tumors. The retinoblastoma tumor suppressor gene (Rb-1), which is located in chromosome 13q14, is the most extensively characterized tumor suppressor gene. The Rb-1 gene product, a 105 kDa nuclear phosphoprotein, apparently plays an important role in cell cycle regulation (Howe et al., Proc Natl Acad Sei (USA) 87: 5883-5887 [1990]). Altered or lost expression of the Rb protein is caused by inactivation of both geneallels either by a point mutation or by a chromosomal deletion. It has been found that Rb-i gene alterations are present not only in retinoblastomas, but also in other malignant tumors such as osteosarcomas, small cell lung cancer (Rygaard et al., Cancer Res 50: 5312-5317 [1990)]) and breast cancer. Restriction fragment length polymorphism (RFLP) studies have indicated that such tumor types have frequently lost heterozygosity at 13q, suggesting that one of the Rb-1 gene alleles has been lost due to a large chromosomal deletion (Bowcock et al., Am J Hum Genet, 46: 12) [1990]). Chromosome 1 abnormalities including duplications, deletions and unbalanced translocations including chromosome 6 and other partner chromosomes indicate that regions of chromosome 1, in particular Iq21-lq32 and lpll-13, may contain pathogenetically relevant for both chronic and chronic genes advanced phases of myeloproliferative neoplasms (Caramazza et al., Eur J Hematol 84: 191-200 [2010]). Myeloproliferative neoplasms are also associated with chromosome 5 deletions. Complete loss or interstitial chromosome 5 deletions are the most common karyotypic abnormality in myelodysplastic syndromes (MDSs). Isolated del (5q) / 5q MDS patients have a more favorable prognosis than those with additional karyotypic abnormalities, which tend to develop myeloproliferative neoplasms (MPNs) and acute myeloid leukemia. The frequency of unbalanced chromosome 5 deletions has led to the idea that 5q has one or more tumor-suppressing genes that have fundamental roles in the growth control of hematopoietic stem / progenitor cells (HSCs / HPCs). Cytogenetic mapping of commonly deleted regions (commonly deleted regions) centered on 5q31 and 5q32 identified candidate tumor suppressing genes, including the ribosomal subunit RPS14, the transcription factor Egrl / Krox20 and the cytoskeletal remodeling protein, alpha-catenin (Eisenmann et al. , Oncogene 28: 3429-3441 [2009]). Cytogenetic and allelotyping studies of fresh tumors and tumor cell lines have shown that allele loss from different distinct regions on chromosome 3p, including 3p25, 3p21-22, 3p21.3, 3pl2-13 and 3pl4, are the earliest and most frequent genomic abnormalities involved in a broad spectrum of major epithelial cancers of the lungs, breast, kidney, head and neck, ovary, cervix, colon, pancreas, esophagus, bladder and other organs. Several tumor suppressing genes have been assigned to the chromosome 3p region, and interstitial deletions or promoter hypermethylation is believed to precede the loss of the 3p or the complete chromosome 3 in carcinoma development (Angeloni D., Briefings Functional Genomics 6: 19-39 [2007]).

Pasgeborenen en kinderen met het syndroom van Down (DS) hebben vaak congenitale transiënte leukemie en hebben een verhoogd risico op acute myeloïde leukemie en acute lymfoblastische leukemie. Chromosoom 21, met ongeveer 300 genen, kan betrokken zijn in veel structurele afwijkingen, bijv. translocaties, deleties en amplificaties, bij leukemie, lymfomen en solide tumoren. Bovendien is gevonden dat genen die zich op chromosoom 21 bevinden een belangrijke rol spelen in tumorigenese. Somatische numerieke evenals structurele chromosoom 21-afwijkingen worden geassocieerd met leukemie, en specifieke genen waaronder RUNX1, TMPRSS2, en TFF, die zich in 21q bevinden, spelen een rol in de tumorigenese (Fonatsch C Gene Chromosomes Cancer 49:497-508 [2010]).Newborns and children with Down syndrome (DS) often have congenital transient leukemia and have an increased risk of acute myeloid leukemia and acute lymphoblastic leukemia. Chromosome 21, with approximately 300 genes, may be involved in many structural abnormalities, e.g., translocations, deletions and amplifications, in leukemia, lymphomas and solid tumors. In addition, it has been found that genes located on chromosome 21 play an important role in tumorigenesis. Somatic numerical as well as structural chromosome 21 abnormalities are associated with leukemia, and specific genes including RUNX1, TMPRSS2, and TFF, which are located in 21q, play a role in tumorigenesis (Fonatsch C Gene Chromosomes Cancer 49: 497-508 [2010] ).

Gezien het voorgaande kan de hierin beschreven werkwijze, in verschillende uitvoeringsvormen, worden gebruikt voor het bepalen van de segment-CNV's waarvan bekend is dat ze een of meerdere oncogenen of tumoronderdrukkende genen bevatten, en/of waarvan bekend is dat ze worden geassocieerd met een kanker of een verhoogd risico op kanker. In bepaalde uitvoeringsvormen kunnen de CNV's worden bepaald in een testmonster omvattende een constitutioneel (kiemlijn) nucleïnezuur en kan het segment worden geïdentificeerd in deze constitutionele nucleïnezuren. In bepaalde uitvoeringsvormen worden segment-CNV's geïdentificeerd (indien aanwezig) in een monster omvattende een mengsel van nucleïnezuren (bijv. nucleïnezuren die zijn afgeleid van normale en nucleïnezuren afgeleid van neoplastische cellen). In bepaalde uitvoeringsvormen is het monster afgeleid van een patiënt van wie vermoed wordt of gekend is dat hij/zij kanker heeft bijv. carcinoom, sarcoom, lymfoom, leukemie, kiemceltumoren, blastoom en dergelijke. In een uitvoeringsvorm is het monsters een plasmamonster dat is afgeleid (verwerkt) van perifeer bloed dat een mengsel van cfDNA omvat dat is afgeleid van normale en kankercellen. In een andere uitvoeringsvorm is het biologische monster dat wordt gebruikt voor het bepalen of een CNV aanwezig is, afgeleid van cellen die, indien een kanker aanwezig is, een mengsel van kanker- en niet-kankercelen omvat van andere biologische weefsels waaronder, maar niet beperkt tot, biologische fluïda zoals serum, zweet, tranen, sputum, urine, sputum, oorsmeer, lymfe, speeksel, cerebropinaal fluïdum, ravages, beenmergsuspensie, vaginaal vocht, transcervicale spoeling, hersenvocht, ascites, melk, afscheidingen van de ademhalings-, darm- en urogenitale kanalen, en leukoforesemonsters, of in weefselbiopsieën, uitstrijkjes of smeersels. In andere uitvoeringsvormen is het biologische monster een monster van stoelgang (fecaal monster).In view of the foregoing, the method described herein can be used, in various embodiments, to determine the segment CNVs that are known to contain one or more oncogenes or tumor-suppressing genes, and / or that are known to be associated with a cancer or an increased risk of cancer. In certain embodiments, the CNVs can be determined in a test sample comprising a constitutional (germline) nucleic acid and the segment can be identified in these constitutional nucleic acids. In certain embodiments, segment CNVs are identified (if present) in a sample comprising a mixture of nucleic acids (e.g., nucleic acids derived from normal and nucleic acids derived from neoplastic cells). In certain embodiments, the sample is derived from a patient suspected or known to have cancer e.g. carcinoma, sarcoma, lymphoma, leukemia, germ cell tumors, blastoma and the like. In one embodiment, the samples is a plasma sample derived (processed) from peripheral blood that comprises a mixture of cfDNA derived from normal and cancer cells. In another embodiment, the biological sample used to determine whether a CNV is present is derived from cells which, if a cancer is present, comprises a mixture of cancer and non-cancer cells from other biological tissues including, but not limited to to, biological fluids such as serum, sweat, tears, sputum, urine, sputum, earwax, lymph, saliva, cerebropinal fluid, havoc, bone marrow suspension, vaginal fluid, transcervical flush, cerebrospinal fluid, ascites, milk, respiratory, intestinal secretions and urogenital channels, and leukophoresis samples, or in tissue biopsies, smears, or spreads. In other embodiments, the biological sample is a stool sample (fecal sample).

De CNV's die worden gebruikt voor het bepalen van de aanwezigheid van een kanker en/of een verhoogd risico op een kanker kunnen amplificatie of deleties omvatten.The CNVs used to determine the presence of a cancer and / or an increased risk of cancer may include amplification or deletions.

In verschillende uitvoeringsvormen omvatten de CNV's die als indicatief zijn geïdentificeerd voor de aanwezigheid van een kanker of een verhoogd risico op een kanker, een of meerdere van de amplificaties omvatten die zijn getoond in Tabel 3.In various embodiments, the CNVs identified as indicative of the presence of a cancer or an increased risk of cancer include one or more of the amplifications shown in Table 3.

Tabel 3 Illustratieve, maar niet-limitatieve chromosomale segmenten gekenmerkt door amplificaties die met kankers worden geassocieerd.Table 3 Illustrative, but non-limiting, chromosomal segments characterized by amplifications associated with cancers.

In bepaalde uitvoeringsvormen, in combinatie met de hierboven beschreven amplificaties (hierin), of afzonderlijk, omvatten de CNV's die zijn geïdentificeerd als indicatief voor de aanwezigheid van een kanker of een verhoogd risico op een kanker een of meerdere van de deleties getoond in Tabel 4.In certain embodiments, in combination with the above-described amplifications (herein), or separately, the CNVs identified as indicative of the presence of a cancer or an increased risk of cancer include one or more of the deletions shown in Table 4.

Tabel 4 Illustratieve, maar niet limitatieve chromosomale segmenten gekenmerkt door deleties die met kankers zijn geassocieerd.Table 4 Illustrative, but not limitative, chromosomal segments characterized by deletions associated with cancers.

De aneuploïdieën die zijn geïdentificeerd als kenmerkend voor verschillende kankers (bijv. de aneuploïdieën geïdentificeerd in Tabellen 3 en 4) kunnen genen bevatten waarvan bekend is dat ze betrokken zijn in kankeretiologieën (bijv. tumoronderdrukkende genen, oncogenen, enz.). Er kan ook onderzocht worden dat deze aneupoïdieën relevante, maar vroeger onbekende genen identificeren.The aneuploidies identified as being characteristic of various cancers (e.g., the aneuploidies identified in Tables 3 and 4) may contain genes known to be involved in cancer etiologies (e.g., tumor-suppressing genes, oncogenes, etc.). It can also be investigated that these aneupoids identify relevant but previously unknown genes.

Tabel 5 illustreert targetgenen waarvan bekend is dat ze vallen binnen het geïdentificeerde geamplificeerde segment en voorspelde genen, en Tabel 6 illustreert targetgenen waarvan bekend is dat ze vallen binnen het geïdentificeerde gewiste segment en voorspelde genen.Table 5 illustrates target genes that are known to fall within the identified amplified segment and predicted genes, and Table 6 illustrates target genes that are known to fall within the identified deleted segment and predicted genes.

Tabel 5 Illustratieve, maar niet-limitatieve chromosomale segmenten en genen waarvan bekend is of wordt voorspeld dat ze aanwezig zijn in gebieden die worden gekenmerkt door amplificatie bij verschillende kankersTable 5 Illustrative but non-limitative chromosomal segments and genes known or predicted to be present in regions characterized by amplification in different cancers

Tabel 6 Illustratieve, maar niet-limitatieve chromosomale segmenten en genen waarvan bekend is of wordt voorspeld dat ze aanwezig zijn in gebieden die worden gekenmerkt door amplificatie bij verschillende kankersTable 6 Illustrative, but non-limiting, chromosomal segments and genes known or predicted to be present in regions characterized by amplification in different cancers

Hoewel de voorbeelden hier betrekking hebben op humane genomen en de beschrijving hoofdzakelijk is gericht op mensen, is het concept van de onderhavige uitvinding van toepassing op genomen van eender welke plant of dier.Although the examples herein refer to human genomes and the description is primarily directed to humans, the concept of the present invention applies to genomes of any plant or animal.

In verschillende uitvoeringsvormen wordt verwacht de hier geïdentificeerde werkwijze te gebruiken voor het identificeren van CNV's van segmenten omvattende de geamplificeerde gebieden of genen die zijn geïdentificeerd in Tabel 5 en/of het gebruiken van de hier geïdentificeerde werkwijzen voor het identificeren van CNV's van segmenten omvattende gewiste gebieden of genen die zijn geïdentificeerd in Tabel 6. In andere uitvoeringsvormen wordt verwacht de hier geïdentificeerde werkwijze te gebruiken voor het screenen voor de aanwezigheid van CNV's van segmenten die eerder niet werden gelinkt met kanker of niet zijn beschreven in Tabel 5 of 6.In various embodiments, it is expected to use the method identified here for identifying CNVs of segments comprising the amplified regions or genes identified in Table 5 and / or using the methods identified here for identifying CNVs of segments comprising deleted regions or genes identified in Table 6. In other embodiments, it is expected to use the method identified here for screening for the presence of CNVs from segments that were not previously linked to cancer or not described in Tables 5 or 6.

In één uitvoeringsvorm bieden de hierin beschreven werkwijzen een middel voor het beoordelen van de associatie tussen genamplificatie en de mate van tumorevolutie. Correlatie tussen amplificatie en/of deletie en het stadium of de graad van een kanker kan voor de prognose belangrijk zijn omdat dergelijke informatie kan bijdragen tot de definitie van een genetisch gebaseerde tumorgraad die het toekomstige verloop van een ziekte met meer geavanceerde tumoren met de slechtste prognose beter zou voorspellen. Daarnaast zou informatie over vroege amplificatie- en/of deletie-events nuttig kunnen zijn bij het associëren van deze events als voorspellers van de latere progressie van de ziekte.In one embodiment, the methods described herein provide a means for assessing the association between gene amplification and the degree of tumor evolution. Correlation between amplification and / or deletion and the stage or degree of a cancer can be important for the prognosis because such information can contribute to the definition of a genetically based tumor degree that will determine the future course of a disease with more advanced tumors with the worst prognosis. would predict better. In addition, information about early amplification and / or deletion events may be useful in associating these events as predictors of the later disease progression.

Genamplificatie en -deleties zoals geïdentificeerd door de werkwijze kunnen worden geassocieerd met andere bekende parameters zoals de tumorgraad, histologie, Brd/Urd-labelingindex, hormonale status, nodale betrokkenheid, tumorgrootte, levensverwachting en andere tumoreigenschappen die beschikbaar zijn uit epidemiologische en biostatistische studies. Tumor-DNA dat moet worden getest door de werkwijze zou bijvoorbeeld atypische hyperplasie, ductaal carcinoom in situ, stadium I-III kanker en metastatische lymfknopen kunnen omvatten om de identificatie van associaties tussen amplificaties en deleties en stadium toe te laten. De gemaakte associaties maken een doeltreffende therapeutische interventie mogelijk. Consistent geamplificeerde gebieden kunnen bijvoorbeeld een overmatig uitgedrukt gen bevatten, waarvan het product therapeutisch kan worden aangevallen (bijv. de groeifactor receptor tyrosine kinase, pl85HER2).Gene amplification and deletions as identified by the method can be associated with other known parameters such as tumor grade, histology, Brd / Urd labeling index, hormonal status, nodal involvement, tumor size, life expectancy and other tumor properties available from epidemiological and biostatistical studies. For example, tumor DNA to be tested by the method could include atypical hyperplasia, ductal carcinoma in situ, stage I-III cancer, and metastatic lymph nodes to allow the identification of associations between amplifications and deletions and stage. The associations made make an effective therapeutic intervention possible. For example, consistently amplified regions may contain an overly expressed gene, the product of which can be therapeutically attacked (e.g., the growth factor receptor tyrosine kinase, p185HER2).

In verschillende uitvoeringsvormen kan de hierin beschreven werkwijze worden gebruikt voor het identificeren van amplificatie- en/of deletie-events die zijn geassocieerd met geneesmiddelenresistentie door het bepalen van het kopieaantalvariaties van nudeïnezuursequenties van primaire kankers ten opzichte van deze die zijn gemetastaseerd naar andere plaatsen. Als genamplificatie en/of deletie een manifestatie van karyotypische instabiliteit is die een snelle ontwikkeling van geneesmiddelenresistentie toelaat, zou meer amplificatie en/of deletie in primaire tumoren van chemoresistente patiënten dan in tumoren bij chemogevoelige patiënten verwacht worden. Als amplificatie van specifieke genen verantwoordelijk is voor de ontwikkeling van geneesmiddelenresistentie, zou bijvoorbeeld verwacht worden dat gebieden die deze genen omgeven, consistent geamplificeerd worden in tumorcellen van pleurale effusies van chemoresistentie patiënten, maar niet in de primaire tumoren. De ontdekking van associaties tussen genamplificatie en/of deletie en de ontwikkeling van geneesmiddelenresistentie kan de identificatie toelaten van patiënten die al dan niet voordeel hebben bij therapie van een adjuvans.In various embodiments, the method described herein can be used to identify amplification and / or deletion events associated with drug resistance by determining the copy number variations of nudeic acid sequence of primary cancers relative to those metastasized to other sites. If gene amplification and / or deletion is a manifestation of karyotypic instability that allows rapid development of drug resistance, more amplification and / or deletion in primary tumors of chemoresistant patients would be expected than in tumors in chemosensitive patients. For example, if amplification of specific genes is responsible for drug resistance development, regions surrounded by these genes would be expected to be consistently amplified in tumor cells from pleural effusions of chemoresistence patients, but not in primary tumors. The discovery of associations between gene amplification and / or deletion and the development of drug resistance may allow the identification of patients who may or may not benefit from adjuvant therapy.

In andere uitvoeringsvormen kan de hierin beschreven werkwijze worden gebruikt voor het identificeren van de aanwezigheid van genoombrede instabiliteit en/of microsatellietinstabiliteit en/of specifieke combinaties van kopieaantalvariaties (die volledige chromosomen, chromosoomarmen of kleinere DNA-segmenten zouden kunnen dekken).In other embodiments, the method described herein can be used to identify the presence of genome-wide instability and / or microsatellite instability and / or specific combinations of copy number variations (which could cover entire chromosomes, chromosome arms or smaller DNA segments).

In nog een andere uitvoeringsvorm kan de hierin beschreven werkwijze worden gebruikt voor het identificeren van de oorsprong van de tumor, d.w.z. het primaire weefsel of orgaan waarvan de tumor afkomstig is alvorens metastatisch te worden.In yet another embodiment, the method described herein can be used to identify the origin of the tumor, i.e., the primary tissue or organ from which the tumor originates before becoming metastatic.

Zowel volledige als gedeeltelijke chromosomale aneuploïdieën evenals kleinere kopieaantalvariaties van DNA-segmenten die zouden kunnen worden geassocieerd met de vorming, en progressie van kanker kunnen worden bepaald volgens de onderhavige uitvinding. II Seauencina. uitliinina en correctieBoth full and partial chromosomal aneuploidies as well as smaller copy number variations of DNA segments that could be associated with the formation, and progression of cancer can be determined according to the present invention. II Seauencina. uitliinina and correction

Zoals hierboven vermeld, wordt slechts een fractie van het genoom gesequencet. In één aspect, zelfs wanneer een groep nucleïnezuren in een specimen gesequencet is bij <100% genomische dekking in plaats van met verscheidende veelvouden van dekking, en uit de verhouding van gesequencete nucleïnezuurmoleculen, wordt het meeste van elk nucleïnezuurspecies niet gesequencet of slechts éénmaal gesequencet.As mentioned above, only a fraction of the genome is sequenced. In one aspect, even when a group of nucleic acids in a specimen is sequenced at <100% genomic coverage rather than with multiple multiples of coverage, and from the ratio of sequenced nucleic acid molecules, most of each nucleic acid species is not sequenced or only sequenced once.

Dit staat in contrast met situaties waarin gerichte verrijking wordt uitgevoerd van een subreeks van het genoom voorafgaand aan de sequencingreactie, gevolgd door hoge-dekking sequencing van die subreeks.This contrasts with situations where targeted enrichment is performed on a subset of the genome prior to the sequencing reaction, followed by high-coverage sequencing of that subset.

In één uitvoeringsvorm wordt massieve parallelle korte-aflezing sequencing gebruikt. Korte sequentietags of aflezingen worden gegenereerd, bijv. uit een bepaalde lengte tussen 20 bp en 400 bp. Sequencing met gepaard uiteinde zou ook kunnen worden uitgevoerd.In one embodiment, massive parallel short reading sequencing is used. Short sequence tags or readings are generated, e.g. from a certain length between 20 bp and 400 bp. Paired end sequencing could also be performed.

In één uitvoeringsvorm is een voorverwerkingsstap beschikbaar voor het vooraf verwerken van de verkregen aflezingen. Dergelijke voorafgaande verwerkingsoptie laat filtering toe van aflezingen met een lage kwaliteit, waardoor voorkomen wordt dat ze worden toegewezen. Toewijzing van aflezingen met een lage kwaliteit kan langdurige computerverwerkingscapaciteit vereisen, kan onjuist zijn en heeft als risiko dat de technische ruis in de gegevens verhoogt, waardoor een minder nauwkeurige parameter wordt verkregen. Dergelijke voorafgaande verwerking is in het bijzonder waardvol wanneer sequencinggegevens van de volgende generatie worden gebruikt, die een algemene lagere kwaliteit of enige andere omstandigheid hebben die is gekoppeld met een algemene lagere kwaliteit van de aflezingen.In one embodiment, a pre-processing step is available for pre-processing the obtained readings. Such prior processing option allows filtering of low quality readings, thereby preventing them from being assigned. Assignment of low-quality readings may require long-term computer processing capacity, may be incorrect, and risk increasing the technical noise in the data, resulting in a less accurate parameter. Such prior processing is particularly valuable when next-generation sequencing data is used that has a generally lower quality or any other condition associated with a generally lower quality of the readings.

De gegenereerde aflezingen kunnen later worden uitgelijnd met een of meerdere humane referentiegenoomsequenties. Het aantal uitgelijnde aflezingen worden bij voorkeur geteld en/of gesorteerd volgens de chromosomale locatie ervan.The generated readings can be later aligned with one or more human reference genome sequences. The number of aligned readings are preferably counted and / or sorted according to their chromosomal location.

Een aanvullend reinigingsprotocol kan worden uitgevoerd, waarbij deduplicatie wordt uitgevoerd, bijv. met Picard-instrumenten, waarbij enkel uniek toegewezen aflezingen worden weerhouden. Aflezingen met mismatches en leemtes kunnen worden verwijderd. Aflezingen die de gebieden op de zwarte lijst indelen, kunnen worden uitgesloten. Dergelijke gebieden op de zwarte lijst kunnen worden genomen uit een vooraf gedefinieerde lijst van bijv. gewone CNV's, collapsed repeats, DAC zwarte-lijst gebieden zoals geïdentificeerd in het ENCODE-project (d.w.z. een reeks gebieden in het humane genoom dat afwijkende, ongestructureerde, hoog-signaal/aflezingstellingen heeft in NGS-experimenten onafhankelijk van cellijn en type experiment) en het ongedefinieerde segment van het referentiegenoom. In één uitvoeringsvorm zijn gebieden op de zwarte lijst gegeven aan de gebruiker. In een andere uitvoeringsvorm kan de gebruiker zijn of haar eigen reeks gebieden op de zwarte lijst gebruiken of definiëren.An additional cleaning protocol can be performed, where deduplication is performed, e.g. with Picard instruments, where only uniquely assigned readings are retained. Readings with mismatches and gaps can be removed. Readings that divide the blacklisted areas can be excluded. Such blacklisted areas can be taken from a predefined list of, for example, common CNVs, collapsed repeats, DAC blacklisted areas as identified in the ENCODE project (ie a set of areas in the human genome that have abnormal, unstructured, high has signal / reading counts in NGS experiments independent of cell line and type of experiment) and the undefined segment of the reference genome. In one embodiment, areas on the blacklist are given to the user. In another embodiment, the user can use or define his or her own set of areas on the blacklist.

In een andere uitvoeringsvorm zijn chromosomen onderverdeeld in gebieden met een vooraf gedefinieerde lengte, in het algemeen stukken genoemd. In een uitvoeringsvorm is de stukgrootte een vooraf gedefinieerde grootte die is gegeven aan de gebruiker. In een andere uitvoeringsvorm kan de genoemde stukgrootte gedefinieerd zijn door een gebruiker, kan het uniform zijn voor alle chromosomen of kan het een specifieke stukgrootte per chromosoom zijn of kan het variëren volgens de verkregen sequentiegegevens. Verandering van de stukgrootte kan een effect hebben op de uiteindelijke parameter die moet worden gedefinieerd, hetzij door het verbeteren van de gevoeligheid (gewoonlijk verkregen door het verlagen van de stukgrootte, vaak ten koste van de specificiteit) hetzij door het verbeteren van de specificiteit (in het algemeen door het verhogen van de stukgrootte, vaak ten koste van de gevoeligheid). Een mogelijke stukgrootte die een aanvaardbare specificiteit en gevoeligheid oplevert, is 50 kb.In another embodiment, chromosomes are subdivided into regions with a predefined length, generally referred to as pieces. In one embodiment, the piece size is a predefined size given to the user. In another embodiment, said piece size may be defined by a user, it may be uniform for all chromosomes, or it may be a specific piece size per chromosome, or it may vary according to the obtained sequence data. Changing the piece size can have an effect on the final parameter to be defined, either by improving the sensitivity (usually obtained by reducing the piece size, often at the expense of specificity) or by improving specificity (in generally by increasing the piece size, often at the expense of sensitivity). A possible piece size that provides acceptable specificity and sensitivity is 50 kb.

In een verdere stap worden de uitgelijnde en gefilterde aflezingen binnen een stuk geteld, om aflezingstellingen te verkrijgen.In a further step, the aligned and filtered readings are counted within one piece to obtain reading counts.

De verkregen aflezingstellingen kunnen worden gecorrigeerd voor de GC-telling voor het stuk. Van GC-voorspanning is gekend dat het genoomassemblage verergert. Verscheidende GC-correcties zijn welbekend in de stand der techniek (bijv. Benjamini et al., Nucleic Acid Research 2012). In een voorkeur dragende uitvoeringsvorm zal de genoemde GC-correctie een LOESS-regressie zijn. In een uitvoeringsvorm kan een gebruiker van de methodologie volgens de onderhavige uitvinding voorzien zijn van de keuze van verscheidene mogelijke GC-correcties.The obtained reading counts can be corrected for the GC count for the piece. GC bias is known to exacerbate genome assembly. Various GC corrections are well known in the art (e.g., Benjamini et al., Nucleic Acid Research 2012). In a preferred embodiment, said GC correction will be a LOESS regression. In one embodiment, a user of the methodology of the present invention may be provided with the choice of various possible GC corrections.

In een latere stap wordt de genomische voorstelling (GR, genomic représentation) van aflezingstellingen berekend. Dergelijke voorstelling wordt bij voorkeur gedefinieerd als een verhouding tussen de GC-gecorrigeerde aflezingstellingen voor een specifiek stuk en de som van alle GC-gecorrigeerde aflezingstellingen.In a later step, the genomic representation (GR, genomic reproduction) of reading counts is calculated. Such representation is preferably defined as a ratio between the GC-corrected reading counts for a specific piece and the sum of all GC-corrected reading counts.

In een uitvoeringsvorm wordt de genoemde GR als volgt gedefinieerd:In one embodiment, said GR is defined as follows:

met k over alle chromosomale stukken (waarbij de factor 107 in de bovenstaande formule willekeurig is gedefinieerd, en eender welke constante waarde kan zijn)with k over all chromosomal pieces (where the factor 107 in the above formula is arbitrarily defined, and can be any constant value)

In een uiteindelijke stap worden de verkregen GC per stuk samengevoegd over een gebied, waarbij het genoemde gebied een subgebied (venster) van een chromosoom of het volledige chromosoom kan zijn. Het genoemde venster kan een vooraf gedefinieerd of variabele grootte hebben, die optioneel kan zijn gekozen door de gebruiker. Een mogelijk venster zou een grootte kunnen hebben van 5 MB of 100 aangrenzende stukken met een grootte van 50 kb.In a final step, the obtained GC are joined piece by piece over an area, said area being a sub-area (window) of a chromosome or the entire chromosome. Said window may have a predefined or variable size, which may be optionally selected by the user. A possible window could have a size of 5 MB or 100 adjacent pieces with a size of 50 kb.

De GR samengevoegd voor een chromosoom kan worden gedefinieerd doorThe GR pooled for a chromosome can be defined by

In een andere uitvoeringsvorm moet de genomische voorstelling van een reeks referentiemonsters berekend worden. De genoemde reeks referentiemonsters (of ook referentiereeks genoemd) kan vooraf gedefinieerd of gekozen zijn door een gebruiker (bijv. geselecteerd uit zijn/haar eigen referentiemonsters). Door de gebruiker toe te laten een eigen referentiereeks te gebruiken, zal een gebruiker de terugkerende technische variatie van zijn/haar omgeving en de variabelen ervan (bijv. verschillende natte labreagentia of protocol, verschillend NGS-instrument of platform, enz.) beter kunnen vastleggen. In een voorkeurdragende uitvoeringsvorm omvat de genoemde referentiereeks genomische informatie van 'gezonde' monsters waarvan verwacht wordt of waarvan bekend is dat ze (relevante) aneuploïdieën bevatten. De genomische voorstelling (GR) van de referentiereeks kan worden gedefinieerd, hetzij op het niveau van het genoom en/of op een subgebied (chromosoom, chromosomaal segment, venster of bin).In another embodiment, the genomic representation of a series of reference samples must be calculated. Said set of reference samples (or also referred to as reference series) can be predefined or selected by a user (e.g. selected from his / her own reference samples). By allowing the user to use his own reference set, a user will be able to better capture the recurring technical variation of his / her environment and its variables (eg different wet lab reagents or protocol, different NGS instrument or platform, etc.) . In a preferred embodiment, said reference set comprises genomic information of 'healthy' samples that are expected or known to contain (relevant) aneuploidies. The genomic representation (GR) of the reference series can be defined either at the level of the genome and / or at a sub-area (chromosome, chromosomal segment, window or bin).

Andere sequencingstrategieën met een enkele molecule zoals die door het Roche 454 platform, het Applied Biosystems SOLiD-platform, de Hélicos True Single Molecule DNA-sequencingtechnologie, de enkele molecule, real-time (SMRT™)-technologie van Pacific Biosciences, en nanoporie sequencing technologieën zoals MinlON, GridlON of PromethION van Oxford Nanopore Technologies zouden ook kunnen worden gebruikt in deze toepassing. III Bepaling van scores, parameter en secundaire parametersOther single molecule sequencing strategies such as the Roche 454 platform, the Applied Biosystems SOLiD platform, the Hélicos True Single Molecule DNA sequencing technology, the single molecule, real-time (SMRT ™) technology from Pacific Biosciences, and nanopore sequencing technologies such as MinlON, GridlON or PromethION from Oxford Nanopore Technologies could also be used in this application. III Determination of scores, parameter and secondary parameters

Op basis van de uitlijningen en de verkregen aflezingstellingen of een afgeleide daarvan, optioneel gecorrigeerd voor GC-gehalte en/of totaal aantal aflezingen verkregen van het genoemde monsters, worden scores berekend die uiteindelijk leiden tot een parameter die toelaat de aanwezigheid van een aneuploïdie in een monster te bepalen. De genoemde scores zijn genormaliseerde waarden die zijn afgeleid van de tellingen van de aflezingen of wiskundig gewijzigde tellingen van de aflezingen, waarbij normalisatie plaatsvindt met het oog op de referentiereeks. Bijgevolg wordt elke score verkregen door middel van een vergelijking met de referentiereeks. De term eerste score wordt gebruikt om te verwijzen naar de score die is gekoppeld met de telling van de aflezingen voor een doelchromosoom of een chromosomaal segment. Een verzameling van scores is een reeks scores die zijn afgeleid van een reeks genormaliseerde aantal aflezingen die het genormaliseerde aantal aflezingen van het genoemde chromosomale doelsegment of doelchromosoom kan omvatten.Based on the alignments and the obtained reading counts or a derivative thereof, optionally corrected for GC content and / or total number of readings obtained from said samples, scores are calculated that ultimately lead to a parameter that allows the presence of an aneuploidy in a determine the sample. The scores mentioned are normalized values derived from the counts of the readings or mathematically modified counts of the readings, with normalization taking place with a view to the reference series. Consequently, each score is obtained by comparison with the reference series. The term first score is used to refer to the score associated with the count of the readings for a target chromosome or a chromosomal segment. A set of scores is a set of scores derived from a set of normalized number of readings that may include the normalized number of readings from said chromosomal target segment or target chromosome.

De genoemde eerste score stelt bij voorkeur een Z-score of standaardscore voor een doelchromosoom of chromosomaal segment voor. De genoemde verzameling is bij voorkeur afgeleid van een reeks van Z-scores die zijn verkregen uit een overeenkomstige reeks chromosomen of chromosomale segmenten die het genoemde chromosomale doelsegment of doelchromosoom omvatten.Said first score preferably represents a Z score or standard score for a target chromosome or chromosomal segment. Said set is preferably derived from a set of Z scores obtained from a corresponding set of chromosomes or chromosomal segments comprising said chromosomal target segment or target chromosome.

Dergelijke scores kunnen als volgt worden berekend:Such scores can be calculated as follows:

Met i een venster of een chromosoom of een chromosoomsegment.With i a window or a chromosome or a chromosome segment.

Een samenvattende statistiek van de genoemde verzameling scores kan bijv. worden berekend als het gemiddelde of de mediane waarde van de individuele scores.A summary statistic of the said set of scores can be calculated, for example, as the average or median value of the individual scores.

Een andere samenvattende statistiek van de genoemde verzameling scores kan worden berekend als de standaardafwijking of mediane absolute afwijking of gemiddelde absolute afwijking van de individuele scores.Another summary statistic of the said set of scores can be calculated as the standard deviation or median absolute deviation or average absolute deviation of the individual scores.

Optioneel, maar niet noodzakelijk, wordt dezelfde verzameling scores gebruikt voor beide types berekeningen.Optionally, but not necessarily, the same set of scores is used for both types of calculations.

De genoemde parameter p zal worden berekend als een functie van de eerste score en een afgeleide (bijv. samenvattende statistiek) van de verzameling van scores. In een voorkeurdragende uitvoeringsvorm zal de genoemde parameter p een verhouding zijn tussen de eerste score gecorrigeerd door de verzameling scores (of een afgeleide daarvan) en een afgeleide van de genoemde verzameling scores.The said parameter p will be calculated as a function of the first score and a derivative (e.g. summary statistics) of the set of scores. In a preferred embodiment, said parameter p will be a ratio between the first score corrected by the set of scores (or a derivative thereof) and a derivative of the said set of scores.

In een andere uitvoeringsvorm zal de genoemde parameter een verhouding zijn tussen de eerste score gecorrigeerd door een samenvattende statistiek van een eerste verzameling scores en een samenvattende statistiek van een andere, tweede verzameling scores, waarbij beide verzamelingen van scores de eerste score omvatten.In another embodiment, said parameter will be a ratio between the first score corrected by a summary statistic of a first set of scores and a summary statistic of another, second set of scores, both sets of scores comprising the first score.

In een specifieke voorkeurdragende uitvoeringsvorm is de genoemde parameter p een verhouding tussen de eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en een samenvattende statistiek van de genoemde verzameling scores. De samenvattende statistiek is bij voorkeur geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking, de mediane absolute afwijking of de gemiddelde absolute afwijking. In één uitvoeringsvorm zijn de genoemde beide gebruikte samenvattende statistieken in de functie dezelfde. In een andere, meer voorkeurdragende uitvoeringsvorm verschillen de genoemde samenvattende statistieken van de verzameling scores in de teller en noemer.In a specific preferred embodiment, said parameter p is a ratio between the first score corrected by a summary statistic of said set of scores, and a summary statistic of said set of scores. The summary statistic is preferably selected from the mean, the median, the standard deviation, the median absolute deviation or the average absolute deviation. In one embodiment, the said two used summary statistics in the function are the same. In another more preferred embodiment, said summary statistics differ from the set of scores in the numerator and denominator.

Een geschikte uitvoeringsvorm volgens de onderhavige uitvinding omvat gewoonlijk de volgende stappen (na DNA-sequenties uit een willekeurige, sequencingproces op een biologisch monster te hebben verkregen). het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor tellingen van aflezingen worden verkregen; - het normaliseren van de genoemde tellingen van aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van een overeenkomstige reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores, waarbij de genoemde parameter een verhouding voorstelt tussen * de genoemde eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de genoemde verzameling scores.A suitable embodiment of the present invention usually comprises the following steps (after obtaining DNA sequences from a random, sequencing process on a biological sample). aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score and a set of scores derived from said normalized reading counts for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from a corresponding set of chromosomes or chromosome segments that comprise the chromosomal target segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the aforementioned set of scores.

Een mogelijke parameter p kan als volgt worden berekend:A possible parameter p can be calculated as follows:

waarbij Zi de eerste score voorstelt en Z j de verzameling van scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt die het genoemde chromosomale segment of chromosoom i bevatten. In een andere uitvoeringsvorm wordt de genoemde parameter p berekend alswherein Zi represents the first score and Z j represents the set of scores and where i represents the target chromosome or chromosomal section, and where j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i contain. In another embodiment, the said parameter p is calculated as

waarbij Zi de eerste score voorstelt en Z j de verzameling van scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt die het genoemde chromosomale segment of chromosoom i bevatten.wherein Zi represents the first score and Z j represents the set of scores and where i represents the target chromosome or chromosomal section, and where j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i contain.

In een nog andere, meest voorkeurdragende uitvoeringsvorm wordt de genoemde parameter p berekend alsIn yet another most preferred embodiment, said parameter p is calculated as

Waarbij Zi de eerste score voorstelt en Z j de verzameling van scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt die het genoemde chromosomale segment of chromosoom i voorstellen.Where Zi represents the first score and Z j represents the set of scores and where i represents the target chromosome or chromosomal section, and where j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i introduce.

Naast de parameter p die de identificatie van de aanwezigheid van aneuploïdieën toelaat, kunnen secundaire parameters worden berekend die kunnen dienen als kwaliteitscontrole of extra informatie bieden met betrekking tot een of meerdere aneuploïdieën die aanwezig zijn in het monsters.In addition to the parameter p that allows the identification of the presence of aneuploidies, secondary parameters can be calculated that can serve as a quality check or provide additional information regarding one or more aneuploidies present in the samples.

Een eerste secundaire parameter die kan worden berekend, laat toe te definiëren of chromosomale en grote subchromosomale aneuploïdieën aanwezig zijn in het monster (vergeleken met bijv. kleinere aneuploïdieën). In een voorkeurdragende uitvoeringsvorm wordt een dergelijke parameter gedefinieerd door een mediaan van Z scores gemeten per subgebied (bijv. vensters van 5 Mb) in een doelchromosoom. Als meer dan 50% van deze subgebieden getroffen wordt, zal dit merkbaar zijn in de secundaire parameters.A first secondary parameter that can be calculated allows defining whether chromosomal and large subchromosomal aneuploidies are present in the sample (compared to, for example, smaller aneuploidies). In a preferred embodiment, such a parameter is defined by a median of Z scores measured per sub-area (e.g., 5 Mb windows) in a target chromosome. If more than 50% of these subareas are affected, this will be noticeable in the secondary parameters.

In een andere uitvoeringsvorm kan een secundaire parameter worden berekend als de mediaan van de absolute waarde van de Z-scores berekend over de resterende chromosomen (dat is alle chromosomen behalve het doelchromosoom of chromosomaal segment) per subgebied (bijv. vensters van 5 Mb). De laatste secundaire parameters laten de detectie toe van bij. de aanwezigheid van technische of biologische instabiliteiten (cf. kwaadaardigheid, kanker). Als minder dan de helft van de vensters van de andere of alle autosomen of chromosomen getroffen worden, zal deze secundaire parameter niet beïnvloed worden. Als meer dan 50% van de vensters getroffen wordt, zal dit kunnen worden afgeleid van de genoemde secundaire parameters.In another embodiment, a secondary parameter can be calculated as the median of the absolute value of the Z scores calculated over the remaining chromosomes (that is, all chromosomes except the target chromosome or chromosomal segment) per sub-area (e.g., 5 Mb windows). The last secondary parameters allow the detection from at. the presence of technical or biological instabilities (cf. malignancy, cancer). If less than half the windows of the other or all autosomes or chromosomes are affected, this secondary parameter will not be affected. If more than 50% of the windows are affected, this can be deduced from the aforementioned secondary parameters.

In een andere uitvoeringsvorm biedt de onderhavige uitvinding ook een kwaliteitsscore (QS). QS laat toe de algemene variatie binnen het genoom te beoordelen. Een lage QS is een indicatie van een goede monsterverwerking en een laag niveau van technische en biologische ruis. Een stijging in de QS kan twee mogelijke redenen hebben. Hetzij een fout die is opgetreden tijdens de verwerking van het monster. In het algemeen zal aan de gebruiker worden gevraagd een nieuw biologisch staal af te nemen en te sequencen. Dit is typisch voor matig gestegen QS-scores. Een sterk gestegen QS is een indicatie van een sterk aneuploïde of genoombreed instabiel monster en de gebruiker zal worden aangemoedigd een bevestigende test te doen om verder te beoordelen of de patiënt kanker ontwikkelt. De genoemde QS wordt bij voorkeur bepaald door het berekenen van de standaardafwijkingen van alle Z-verdelingen voor de chromosomen en door het verwijderen van het hoogst en laagst scorende chromosoom.In another embodiment, the present invention also provides a quality score (QS). QS makes it possible to assess the general variation within the genome. A low QS is an indication of good sample processing and a low level of technical and biological noise. An increase in the QS can have two possible reasons. Either an error occurred during the processing of the sample. In general, the user will be asked to take a new biological sample and to sequence it. This is typical of moderately increased QS scores. A greatly increased QS is an indication of a highly aneuploid or genome-wide unstable sample and the user will be encouraged to do an affirmative test to further assess whether the patient is developing cancer. Said QS is preferably determined by calculating the standard deviations of all Z distributions for the chromosomes and by removing the highest and lowest scoring chromosome.

Monsters met een QS hoger dan 2 worden bijvoorbeeld beschouwd als zijnde van een slechte kwaliteit, of als monsters met een verhoogd risico om kanker te ontwikkelen, en een QS tussen 1,5 en 2 is van een tussenliggende kwaliteit. IV. Vergelijking van drempelwaardeSamples with a QS higher than 2 are, for example, considered to be of poor quality, or as samples with an increased risk of developing cancer, and a QS between 1.5 and 2 is of intermediate quality. IV. Comparison of threshold value

De parameter p zoals berekend in de bovenstaande uitvoeringsvormen zal vervolgens worden vergeleken met een drempelwaarde om te bepalen of er een verandering is vergeleken met een referentiehoeveelheid (d.w.z. onevenwicht), bijvoorbeeld met betrekking tot de verhouding van hoeveelheden van twee chromosomale gebieden (of reeksen van gebieden). De aanwezigheid van een aneuploïdie en/of een verhoogd aantal van de genoemde aneuploïdie is een indicator voor de aanwezigheid en/of een verhoogd risico voor een kanker. In één uitvoeringsvorm zal de gebruiker zijn/haar eigen drempelwaarde kunnen definiëren, hetzij empirisch op basis van ervaring of eerdere experimenten, hetzij bijvoorbeeld op basis van standaard statistische overwegingen. Als een gebruiker de gevoeligheid van de test zou willen verhogen, kan de gebruiker de drempels verlagen (d.w.z. ze dichter naar 0 brengen). Als een gebruiker de specificiteit van de test zou willen verhogen, kan de gebruiker de drempels verhogen (d.w.z. ze verder van 0 brengen). Een gebruiker zal vaak een evenwicht moeten vinden tussen gevoeligheid en specificiteit, en dit evenwicht is vaak lab- en toepassingsspecifiek, daarom is het gemakkelijk als een gebruiker de drempelwaarden zelf kan veranderen.The parameter p as calculated in the above embodiments will then be compared to a threshold value to determine if there is a change compared to a reference amount (ie imbalance), for example with regard to the ratio of amounts of two chromosomal regions (or series of regions) ). The presence of aneuploidy and / or an increased number of said aneuploidy is an indicator of the presence and / or an increased risk of cancer. In one embodiment, the user will be able to define his / her own threshold value, either empirically based on experience or previous experiments, or for example based on standard statistical considerations. If a user wants to increase the sensitivity of the test, the user can lower the thresholds (i.e., bring them closer to 0). If a user would like to increase the specificity of the test, the user can raise the thresholds (i.e., move them further from 0). A user will often have to find a balance between sensitivity and specificity, and this balance is often lab and application specific, so it is easy if a user can change the threshold values themselves.

Op basis van de vergelijking met de drempelwaarde, kan een aneuploïdie aan- of afwezig worden gevonden. Dergelijke aanwezigheid is indicatief voor de aanwezigheid en/of een verhoogd risico voor een kanker.Based on the comparison with the threshold value, aneuploidy can be found present or absent. Such presence is indicative of the presence and / or an increased risk of cancer.

In een uitvoeringsvorm van de onderhavige uitvinding is vergelijking van parameter p met een drempelwaarde voldoende voor het bepalen van de aan- of afwezigheid van een aneuploïdie. In een andere uitvoeringsvorm wordt de genoemde aneuploïdie bepaald op basis van een vergelijking van parameter p met een drempelwaarde en een vergelijking van ten minste een van de secundaire parameters, kwaliteitsscore en/of eerste score met een drempelwaarde, waarbij voor elke score een overeenkomstige drempelwaarde wordt gedefinieerd of ingesteld.In an embodiment of the present invention, comparison of parameter p with a threshold value is sufficient to determine the presence or absence of an aneuploidy. In another embodiment, the said aneuploidy is determined on the basis of a comparison of parameter p with a threshold value and a comparison of at least one of the secondary parameters, quality score and / or first score with a threshold value, with a corresponding threshold value for each score. defined or set.

In een voorkeurdragende uitvoeringsvorm wordt de genoemde aanwezigheid/afwezigheid van een aneuploïdie gedefinieerd door een vergelijking van een parameter p met een vooraf gedefinieerde drempelwaarde, evenals door vergelijking van alle secundaire parameters en eerste scores zoals hierboven beschreven met de overeenkomstige drempelwaarden ervan.In a preferred embodiment, the said presence / absence of an aneuploidy is defined by comparing a parameter p with a predefined threshold value, as well as comparing all secondary parameters and first scores as described above with their corresponding threshold values.

De uiteindelijke beslissingsboom kan dus afhankelijk zijn van parameter p alleen, of gecombineerd met een van de secundaire parameters en/of kwaliteitsscore of eerste score zoals hierboven is beschreven.The final decision tree can thus depend on parameter p alone, or combined with one of the secondary parameters and / or quality score or first score as described above.

In een voorkeur dragende uitvoeringsvorm omvat de genoemde methodologie volgens de onderhavige uitvinding de volgende stappen: - multiplex sequencing van 50 bp enkel-uiteinde aflezingen (uitgevoerd door eindgebruiker) - uploaden van sequentieaflezingen - toewijzing van aflezingen aan een referentiegenoom - tellingaantal van aflezingen per stuk (een stuk heeft een grootte van 50 kb) - berekenen van GC-gehalte per stuk en corrigeren voor GC-gehalte - berekenen van genomische voorstelling (GR)-score per stuk. Voor stuk i is dit gelijk aanIn a preferred embodiment, said methodology according to the present invention comprises the following steps: - multiplex sequencing of 50 bp single-end readings (performed by end user) - uploading sequence readings - assignment of readings to a reference genome - count number of readings per piece ( a piece has a size of 50 kb) - calculate GC content per piece and correct for GC content - calculate genomic representation (GR) score per item. For item i this is equal to

het samenvoegen van de GR-waarden per venster (een venster bestaat uit 100 opeenvolgende vensters) berekenen van een Z-score per venster of per chromosoom, waarbij de Z-score is gebaseerd op de GR-score per chromosoom, vergeleken met de GR-scores in een reeks referentiemonsters.combining the GR values per window (a window consists of 100 consecutive windows) calculating a Z score per window or per chromosome, the Z score being based on the GR score per chromosome, compared to the GR score scores in a series of reference samples.

met i een chromosoom of een venster, μ Ref,i de gemiddelde of mediane GR-score voor de overeenkomstige stukken in de reeks referentiemonsters en σ Ref;i de standaardafwijking van de GR-scores voor de overeenkomstige stukken in de reeks referentiemonsters - berekenen van een ZofZ-score, waarbij de ZofZ-score is gebaseerd op de Z-score, gecorrigeerd door de mediaan (of het gemiddelde) van de Z-scores van een verzameling chromosomen omvattende doelchromosoom i en gedeeld door een factor die de variabiliteit van de Z-scores meet van een verzameling chromosomen die het doelchromosoom i omvat (standaardafwijking van een meer robuuste versie daarvan, zoals bijv. de mediane absolute afwijking of mad). - vergelijking van de Z-score met een drempelwaarde, en de ZofZ-score met een drempelwaarde, voor het voorspellen van de aanwezigheid of afwezigheid van een aneuploïdie.with i a chromosome or a window, μ Ref, i the mean or median GR score for the corresponding pieces in the set of reference samples and σ Ref; i the standard deviation of the GR scores for the corresponding pieces in the set of reference samples - calculation of a ZofZ score, where the ZofZ score is based on the Z score, corrected by the median (or average) of the Z scores of a set of chromosomes comprising target chromosome i and divided by a factor that affects the variability of the Z measures scores of a set of chromosomes comprising the target chromosome i (standard deviation of a more robust version thereof, such as, for example, the median absolute deviation or mad). - comparison of the Z score with a threshold value, and the ZofZ score with a threshold value, for predicting the presence or absence of aneuploidy.

In een andere voorkeurdragende uitvoeringsvorm vindt de genoemde voorspelling van de aanwezigheid of afwezigheid van een aneuploïdie plaats via een beslissingsboom die is gebaseerd op een parameter p en secundaire parameters. V Toolbox en kitIn another preferred embodiment, said prediction of the presence or absence of an aneuploidy takes place via a decision tree based on a parameter p and secondary parameters. V Toolbox and kit

De methodologieën zoals hierboven beschreven worden bij voorkeur allemaal door een computer geïmplementeerd. Daarom heeft de onderhavige uitvinding eveneens betrekking op een computerprogrammaproduct omvattende een door de computer leesbaar medium dat is gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van een bewerking voor het uitvoeren van analyse van een chromosomale of subchromosomale aneuploïdie in een biologisch monster dat is verkregen van een patiënt, waarbij het biologische monster nucleïnezuurmoleculen omvat.The methodologies as described above are preferably all implemented by a computer. Therefore, the present invention also relates to a computer program product comprising a computer-readable medium encoded with multiple instructions for controlling a computer system to perform an operation for performing analysis of a chromosomal or subchromosomal aneuploidy in a biological sample that is obtained from a patient, wherein the biological sample comprises nucleic acid molecules.

Met betrekking tot de bepaling van de aan- of afwezigheid van een aneuploïdie of genoombrede instabiliteit in een monster omvat de bewerking de stappen van: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor tellingen van aflezingen worden verkregen; - het normaliseren van de genoemde tellingen van aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score van de genoemde genormaliseerde aflezingen en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van het genormaliseerde aantal aflezingen voor een reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores.With regard to determining the presence or absence of an aneuploidy or genome-wide instability in a sample, the processing comprises the steps of: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample that is obtained from said pregnant woman; aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and a set of scores derived from said normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings for a series of chromosomes or chromosome segments comprising the chromosomal target segment or chromosome; - calculating a parameter p based on the said first score and the said set of scores.

In een voorkeurdragende uitvoeringsvorm stelt de genoemde parameter een verhouding voor tussen: * een eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de verzameling scores.In a preferred embodiment, said parameter represents a ratio between: * a first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the set of scores.

De genoemde bewerkingen kunnen worden uitgevoerd door een gebruiker of beroepskracht in een omgeving weg van de locatie waar het monster is afgenomen en/of de natte labprocedure, die de extractie is van de nucleïnezuren uit het biologische monster en de sequencing.Said operations can be performed by a user or professional in an environment away from the location where the sample was taken and / or the wet lab procedure, which is the extraction of the nucleic acids from the biological sample and the sequencing.

De genoemde bewerkingen kunnen worden geleverd aan de gebruiker door middel van aangepaste software die moet worden geïnstalleerd op een computer, en kan worden opgeslagen in de cloud.The aforementioned operations can be delivered to the user through custom software that must be installed on a computer, and can be stored in the cloud.

Na de vereiste of gewenste bewerking uitgevoerd te hebben, zal de beoefenaar of gebruiker een rapport of score krijgen, waarbij het genoemde rapport of de genoemde score informatie geeft over het kenmerk dat is geanalyseerd. Een rapport omvat bij voorkeur een link naar een patiënt of monster-ID dat is geanalyseerd. Het genoemde rapport of de genoemde score geeft informatie over de aan- of afwezigheid van een aneuploïdie in een monster, waarbij de genoemde informatie is verkregen op basis van een parameter die is berekend door de bovengenoemde methodologie. Het rapport kan ook informatie geven over de aard van de aneuploïdie (indien gedetecteerd, bijv. grote of kleine chromosomale afwijkingen) en/of de kwaliteit van het monster dat is geanalyseerd.After having performed the required or desired operation, the practitioner or user will receive a report or score, the said report or score giving information about the characteristic being analyzed. A report preferably includes a link to a patient or sample ID that has been analyzed. Said report or score provides information about the presence or absence of aneuploidy in a sample, said information being obtained based on a parameter calculated by the above methodology. The report can also provide information about the nature of the aneuploidy (if detected, eg major or minor chromosomal abnormalities) and / or the quality of the sample that has been analyzed.

Het zal duidelijk zijn voor een vakman dat de bovengenoemde informatie in één rapport kan worden voorgesteld aan een beoefenaar.It will be clear to a person skilled in the art that the above information can be presented to a practitioner in one report.

De bovengenoemde bewerkingen zijn bij voorkeur deel van een digitaal platform dat de moleculaire analyse van een monster toelaat door middel van verscheidene door de computer geïmplementeerde bewerkingen.The above operations are preferably part of a digital platform that permits the molecular analysis of a sample through various computer-implemented operations.

De onderhavige uitvinding omvat in het bijzonder ook een visualisatie-instrument, dat aan de gebruiker of beoefenaar toelaat de verkregen resultaten evenals de onbewerkte gegevens te visualiseren die in het systeem zijn ingegeven. In een uitvoeringsvorm omvatten de genoemde visualisaties een venster per chromosoom, dat het chromosoom toont dat is geanalyseerd, dat aflezingen per gebied en de scores en/of parameters die zijn berekend. Door aan de beoefenaar of gebruiker de berekende scores of parameter te tonen samen met de visuele voorstelling van de tellingen van aflezingen, kan een gebruiker een aanvullende controle of beoordeling van de verkregen resultaten uitvoeren. Door aan de gebruiker toe te laten de gegevens in te kijken, zullen gebruikers verbeterde beslissingsregels en drempels kunnen definiëren.In particular, the present invention also includes a visualization tool that allows the user or practitioner to visualize the results obtained as well as the raw data entered into the system. In one embodiment, said visualizations include a window per chromosome, showing the chromosome that has been analyzed, that readings per area and the scores and / or parameters that have been calculated. By showing the calculated scores or parameter to the practitioner or user together with the visual representation of the counts of readings, a user can perform an additional check or assessment of the results obtained. By allowing the user to view the data, users will be able to define improved decision rules and thresholds.

Bovendien wordt een aanvullende controle toegevoegd, aangezien de visuele gegevens per chromosoom aan de gebruiker toelaten voor elke chromosoom te evalueren of de geautomatiseerde classificatie juist is. Dit voegt een aanvullende veiligheidsparameter toe.In addition, an additional check is added, since the visual data per chromosome allows the user to evaluate for each chromosome whether the automated classification is correct. This adds an additional safety parameter.

In een voorkeurdragende uitvoeringsvorm wordt het genoemde platform en het genoemde visualisatie-instrument voorzien met algoritmen die rekening houden met het feit dat bepaalde gebieden meer aflezingen opleveren (omwille van een terugkerende technische afwijking die sommige gebieden van het genoom altijd over- of ondervertegenwoordigd maakt). Correctiemetingen kunnen worden gegeven voor deze oververtegenwoordiging door een vergelijking te maken met een referentiereeks (die idealiter wordt verwerkt met behulp van hetzelfde of een gelijkaardige protocol) en plotting van bijv. Z-scores of alternatieve scores die de kans op bepaalde observaties onder de veronderstelling van aneuploïdie voorstellen. Standaard visualisatie-instrumenten tonen enkel tellingen van aflezingen, en laten niet toe de terugkerende technische afwijking te corrigeren.In a preferred embodiment, said platform and said visualization instrument are provided with algorithms that take into account the fact that certain areas yield more readings (due to a recurring technical deviation that always makes some areas of the genome over- or under-represented). Correction measurements can be given for this overrepresentation by making a comparison with a reference series (which is ideally processed using the same or a similar protocol) and plotting of, for example, Z-scores or alternative scores that reduce the probability of certain observations under the assumption of propose aneuploidy. Standard visualization tools only show counts of readings, and do not allow to correct the recurring technical deviation.

Tot slot, op basis van de link tussen de verkregen sores en/of parameters en de visuele gegevens per chromosoom, kan een gebruiker of beoefenaar beslissen de drempelwaarde te veranderen die is gebruikt voor het definiëren van de aanwezigheid van een aneuploïdie. De gebruiker kan bijgevolg beslissen te streven naar een hogere gevoeligheid (bijv. minder stringent te zijn inzake de stijging/daling van de parameter of scores) of hogere specificiteit (bijv. door meer stringent te zijn inzake de stijging/daling van parameter of scores).Finally, based on the link between the obtained scores and / or parameters and the visual data per chromosome, a user or practitioner may decide to change the threshold value used to define the presence of aneuploidy. The user may therefore decide to aim for a higher sensitivity (e.g., to be less stringent about the rise / fall of the parameter or scores) or higher specificity (e.g., to be more stringent about the rise / fall of the parameter or scores) .

Het platform kan voorzien zijn van andere kenmerken, die een nauwkeurigere analyse bieden van de moleculaire gegevens die zijn verkregen van het biologische monster.The platform may be provided with other features that provide a more accurate analysis of the molecular data obtained from the biological sample.

Het platform volgens de onderhavige uitvinding is inherent compatibel met veel verschillende types NGS-bibliotheekbereidingskits en protocollen en NGS-sequencingplatform. Dit is een voordeel aangezien een gebruiker niet zal moeten investeren in speciaal NGS-sequencingplatform of NGS-bibliotheekbereidingskits die specifiek zijn voor een specifieke toepassing, maar de gebruiker kan in plaats daarvan het voorkeurdragende platform en de voorkeur dragende kit gebruiken. Bovendien biedt het aan een gebruiker een bepaalde graad van flexibiliteit met betrekking tot het materiaal dat moet worden gebruikt. Als nieuwere of goedkopere instrumenten of kits beschikbaar worden, zal een gebruiker gemakkelijk kunnen veranderen.The platform of the present invention is inherently compatible with many different types of NGS library preparation kits and protocols and NGS sequencing platform. This is an advantage since a user will not have to invest in special NGS sequencing platform or NGS library preparation kits specific to a specific application, but the user can use the preferred platform and preferred kit instead. Moreover, it offers a user a certain degree of flexibility with regard to the material to be used. If newer or cheaper instruments or kits become available, a user can easily change.

Zoals hierboven vermeld, is de onderhavige methodologie compatibel met celvrij DNA dat is geëxtraheerd uit verschillende soorten biologische monsters, waaronder bloed, speeksel en urine. Het gebruik van urine of speeksel in plaats van bloed zou een echt niet-invasief monstertype bieden en laat bijv. testen thuis en verzending van het monster naar het testlabo toe. Dit is duidelijk een extra voordeel vergeleken met andere werkwijzen voor het verkrijgen van monsters zoals het afnemen van bloed.As mentioned above, the present methodology is compatible with cell-free DNA extracted from various types of biological samples, including blood, saliva and urine. The use of urine or saliva instead of blood would provide a truly non-invasive sample type and allow, for example, testing at home and dispatch of the sample to the test lab. This is clearly an additional benefit compared to other methods of obtaining samples such as blood collection.

De uitvinding wordt verder beschreven door de volgende niet-limitatieve voorbeelden die de uitvinding verder illustreren, en die niet zijn bedoeld, en niet mogen worden geïnterpreteerd als zijnde een beperking van het bereik van de uitvinding.The invention is further described by the following non-limitative examples which further illustrate the invention, and which are not intended, and should not be construed as limiting the scope of the invention.

VoorbeeldenExamples

Bereiding en seauencina van het monsterPreparation and seauencina of the sample

1. Bloedafname, scheiding van plasma en extractie van celvrij DNA Eén proefbuisje (10 ml) van perifeer bloed wordt verzameld in Streck-proefbuisjes en bewaard bij 4°C. Het bloed wordt afgenomen via een standaard flebotomieprocedure.1. Blood collection, plasma separation and cell-free DNA extraction One test tube (10 ml) of peripheral blood is collected in Streck test tubes and stored at 4 ° C. The blood is collected via a standard phlebotomy procedure.

Het plasma (+/- 5 ml) wordt maximum 72 uur gescheiden na de afname van het bloed door de standaard dubbele centrifugatiemethode: • Het bloedmonster wordt gecentrifugeerd bij 2000xg gedurende 20 minuten (dit kan plaatsvinden bij kamertemperatuur), zonder het gebruik van de rem. • Het plasma wordt dan overgebracht naar hetzij drie 1,5 ml lage bindingsproefbuisjes, hetzij één enkel 5 ml lage bindingsproefbuisje. Een tweede centrifugatie bij 13000xg gebeurt gedurende 2 minuten (dit kan plaatsvinden bij kamertemperatuur). • Het plasma wordt overgebracht naar steriele 1,5 ml of 5 ml lage bindingsproefbuisjes voor opslag bij -20°C voorafgaand aan de extractie van celvrij DNA (cfDNA).The plasma (+/- 5 ml) is separated for a maximum of 72 hours after the blood has been collected by the standard double centrifugation method: • The blood sample is centrifuged at 2000xg for 20 minutes (this can take place at room temperature), without the use of the brake . The plasma is then transferred to either three 1.5 ml low binding test tubes or a single 5 ml low binding test tube. A second centrifugation at 13000xg takes place for 2 minutes (this can take place at room temperature). • The plasma is transferred to sterile 1.5 ml or 5 ml low binding test tubes for storage at -20 ° C prior to cell-free DNA (cfDNA) extraction.

De vaalgele coatingslaag kan optioneel worden bewaard voor latere tests. Genomisch DNA van de vaalgele coatinglaag kan onderzocht worden om kiemlijnafwijkingen te bevestigen of uit te sluiten.The pale yellow coating can optionally be saved for later testing. Genomic DNA from the pale yellow coating layer can be examined to confirm or rule out germline abnormalities.

Het celvrije DNA wordt geëxtraheerd uit het plasma met behulp van de QIAam Circulating Nucleic Acid Kit (Qiagen) volgens de aanbevelingen van de fabrikant, met een uiteindelijk elutievolume van 60 pl. De DNA-monsters worden bewaard bij -20°C wanneer ze niet onmiddellijk worden gebruikt voor bibliotheekbereiding. 2. cfDNA-kwantificerinaThe cell-free DNA is extracted from the plasma using the QIAam Circulating Nucleic Acid Kit (Qiagen) according to the manufacturer's recommendations, with a final elution volume of 60 µl. The DNA samples are stored at -20 ° C if they are not immediately used for library preparation. 2. cfDNA quantifiers

Het geëxtraheerde cfDNA wordt gekwantificeerd met behulp van een Qubit-fluorometer. De concentratie van het celvrije DNA bedraagt gewoonlijk 0,1-1 ng/pl. 3. Bibliotheekbereidina 25 pl van het geëxtraheerd cfDNA wordt gebruikt als startmateriaal voor bibliotheekbereiding.The extracted cfDNA is quantified using a Qubit fluorometer. The concentration of the cell-free DNA is usually 0.1-1 ng / µl. 3. Library preparation 25 µl of the extracted cfDNA is used as starting material for library preparation.

Tijdens de bibliotheekbereiding worden de DNA-monsters aangepast voor volgende-generatie sequencing. Adaptors worden toegevoegd aan de uiteinden van de DNA-fragmenten.During library preparation, the DNA samples are adapted for next-generation sequencing. Adapters are added to the ends of the DNA fragments.

De sequencingbibliotheken worden bereid met behulp van de TruSeq ChlP-bibliotheekbereidingskit (Illumina) met bepaalde aanpassingen van het protocol van de fabrikant door het verlagen van de reagensvolumes om de generatie van sequencingbibliotheken toe te laten met behulp van lage starthoeveelheden van DNA.The sequencing libraries are prepared using the TruSeq ChlP library preparation kit (Illumina) with certain modifications to the manufacturer's protocol by lowering the reagent volumes to allow the generation of sequencing libraries using low starting amounts of DNA.

Het protocol voor bibliotheekbereiding kan als volgt worden samengevat: (Opmerking: De korrelgebaseerde grootteselectie voor het verwijderen van grote DNA-fragmenten en het verwijderen van kleine DNA-fragmenten beschreven in het protocol wordt NIET gebruikt.)The library preparation protocol can be summarized as follows: (Note: The grain-based size selection for removing large DNA fragments and removing small DNA fragments described in the protocol is NOT used.)

Eindherstellina van de DNA-fraamenten: 1. Voeg 5 pl Hersuspensiebuffer en 20 μΙ eindherstellingsmix toe aan het 25 μΙ startmateriaal (totaal = 50 μΙ)Final repair of the DNA fractions: 1. Add 5 μl Resuspension buffer and 20 μΙ final repair mix to the 25 μΙ starting material (total = 50 μΙ)

De korrelgebaseerde grootteselectie voor het verwijderen van grote DNA-fragmenten en het verwijderen van kleine DNA-fragmenten beschreven in het protocol wordt NIET gebruikt.The grain-based size selection for removing large DNA fragments and removing small DNA fragments described in the protocol is NOT used.

2. Incubeer gedurende 30 minuten op 30°C 3. Voeg 80 μΙ onverdunde AMPure-korrels toe aan het 50 μΙ monstermengsel na eindherstelling. 4. Was de korrels tweemaal met 190 μΙ 80% EtOH. 5. Suspendeer de gedroogde pellet opnieuw met 10 pl hersuspensiebuffer. Breng 9 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje.2. Incubate for 30 minutes at 30 ° C. 3. Add 80 μΙ undiluted AMPure beads to the 50 μΙ sample mixture after final repair. 4. Wash the pellets twice with 190 μΙ 80% EtOH. 5. Re-suspend the dried pellet with 10 µl resuspension buffer. Transfer 9 μΙ of the supernatant layer to a new test tube.

Adenvlatie van de 3'-uiteinden 1. Voeg 6,25 μΙ A-staart mix toeAdenvlation of the 3 'ends 1. Add 6.25 μΙ A-tail mix

2. Verwarm gedurende 30 minuten bij 37°C + 5 minuten bij 70°C2. Heat for 30 minutes at 37 ° C + 5 minutes at 70 ° C

Liaatie van de geïndexeerde aepaard-uiteinde adaptors met het DNA 1. Adaptors worden l/2e verdund met hersuspensiebuffer => voeg 2,5 μΙ toe aan het monsterLiaation of the indexed horse-tail end adapters with the DNA 1. Adapters are diluted 1 / 2nd with resuspension buffer => add 2.5 μΙ to the sample

2. Voeg 1,25 μΙ ligatiemix toe (geen hersuspensiebuffer). Incubeer gedurende 30 minuten op 30°C 3. Voeg 2,5 μΙ stopligatiebuffer toe 4. Voeg 21 μΙ AMPure toe voor reiniging 5. Was de korrels tweemaal met 190 μΙ 80% EtOH. 6. Suspendeer de gedroogde pellet opnieuw in 27 μΙ hersuspensiebuffer. Breng 25 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje. 7. Voeg 25 μΙ AMPure toe voor reiniging 8. Was de korrels tweemaal met 190 μΙ 80% EtOH. 9. Suspendeer de gedroogde pellet opnieuw in 12,5 μΙ hersuspensiebuffer. Breng 10 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje.2. Add 1.25 μΙ ligation mix (no resuspension buffer). Incubate for 30 minutes at 30 ° C 3. Add 2.5 μΙ stop ligation buffer 4. Add 21 μΙ AMPure for cleaning 5. Wash the beads twice with 190 μΙ 80% EtOH. 6. Re-suspend the dried pellet in 27 μΙ resuspension buffer. Transfer 25 μΙ of the supernatant layer to a new test tube. 7. Add 25 μΙ AMPure for cleaning. 8. Wash the pellets twice with 190 μΙ 80% EtOH. 9. Re-suspend the dried pellet in 12.5 μΙ resuspension buffer. Transfer 10 μΙ of the supernatant layer to a new test tube.

Verrijken van DNA-fraamenten 1. Bereid de PCR-mix voor door 2,5 μΙ PCR Primer Cocktail en 12,5 μΙ PCR Master Mix te mengen voor elk monster. 2. PCR-condities: 98°C gedurende 30 seconden 15 cycli van:Enriching DNA fractions 1. Prepare the PCR mix by mixing 2.5 μΙ PCR Primer Cocktail and 12.5 μΙ PCR Master Mix for each sample. 2. PCR conditions: 98 ° C for 30 seconds 15 cycles of:

98°C gedurende 10 seconden 60°C gedurende 30 seconden 72°C gedurende 30 seconden 72°C gedurende 5 seconden houden op 4°C 3. Voeg 25 μΙ AMPure toe voor reiniging 4. Was de korrels tweemaal met 190 μΙ 80% EtOH. 5. Suspendeer de gedroogde pellet opnieuw in 32,5 μΙ hersuspensiebuffer. Breng 30 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje. 6. Gebruik 2 μΙ van het monster voor Qubit-kwantificering en 2 μΙ voor fragmentanalyse (zie volgende deel). 4. Kwaliteitscontrole van bibliotheek98 ° C for 10 seconds 60 ° C for 30 seconds 72 ° C for 30 seconds Keep 72 ° C for 5 seconds at 4 ° C 3. Add 25 μΙ AMPure for cleaning 4. Wash the pellets twice with 190 μΙ 80% EtOH . 5. Re-suspend the dried pellet in 32.5 μΙ resuspension buffer. Transfer 30 μΙ of the supernatant layer to a new test tube. 6. Use 2 μΙ of the sample for Qubit quantification and 2 μΙ for fragment analysis (see next section). 4. Quality control of library

Goede celvrije DNA-isolatie en NGS-bibliotheekbereiding worden getest door het analyseren van elke bibliotheek op de fragmentanalyser (Advanced Analytical Technologies Ine., Duitsland) voorafgaand aan sequencing, voor de beoordeling van: • de grootteverdeling (geschikte grootteprofiel bevestigen met behulp van concentratie, piekverhouding, piekhoogte, ...), • de kwaliteit van de bibliotheek. Monsters bevattende fragmenten met een hoog moleculair gewicht zullen worden ingedeeld als monsters die in aanmerking komen voor sequencing (geeft contaminatie aan met genomisch DNA).Good cell-free DNA isolation and NGS library preparation are tested by analyzing each library on the fragment analyzer (Advanced Analytical Technologies Ine., Germany) prior to sequencing, to assess: • size distribution (confirm appropriate size profile using concentration, peak ratio, peak height, ...), • the quality of the library. High molecular weight fragments containing samples will be classified as samples that are eligible for sequencing (indicates contamination with genomic DNA).

Typische bibliotheken vertonen een smalle grootteverdeling met een piek op ongeveer 300-350 bp.Typical libraries exhibit a narrow size distribution with a peak at about 300-350 bp.

Daarnaast wordt een Qubit-kwantificeringsstap uitgevoerd zodat de verrijkingsreactie zal plaatsvinden met de geschikte hoeveelheid van ingebracht DNA-materiaal. De concentratie van DNA bedraagt gewoonlijk 15-30 ng/pl. 5. Bibliotheken normaliseren en groeperenIn addition, a Qubit quantization step is performed so that the enrichment reaction will take place with the appropriate amount of inserted DNA material. The concentration of DNA is usually 15-30 ng / µl. 5. Normalize and group libraries

Monsters worden geïndexeerd tijdens bibliotheekbereiding en tot 24 monsters worden genormaliseerd en gegroepeerd in gelijke volumes voor multiplex sequencing over beide banen van een Illumina HiSeq2500 stroomcel. 6. NGS-runSamples are indexed during library preparation and up to 24 samples are normalized and grouped in equal volumes for multiplex sequencing across both lanes of an Illumina HiSeq2500 flow cell. 6. NGS run

Sequencing wordt uitgevoerd op de HiSeq 2500 (Illumina) in Snelle Runmodus waarbij 50 bp enkel-uiteinde aflezingen worden geproduceerd.Sequencing is performed on the HiSeq 2500 (Illumina) in Fast Run mode where 50 bp single-end readings are produced.

Detectie van een aneuploïdie in een biologisch monster: validatie van de methodologie * Mapping en filtering van de toegekende aflezingenDetection of aneuploidy in a biological sample: validation of the methodology * Mapping and filtering of the assigned readings

De 50 bp enkel-uiteinde sequentieaflezingen van een testmonster worden toegewezen aan het referentiegenoom GRCh37.75 met BWA-backtrack. Met Picard tools kunnen gedupliceerde aflezingen worden verwijderd en gebaseerd op de mappingkwaliteit kunnen aflezingen die verwijzen naar meerdere locaties worden genegeerd. Ook aflezingen die suboptimaal verwijzen naar meerdere locaties worden verwijderd. Om de variabiliteit van monsters te reduceren weerhouden we enkel de aflezingen die perfect overeenkomen met het referentiegenoom (d.w.z. er zijn geen mismatches en geen openingen toegelaten), hoewel dit eerder een optionele stap is. Tot slot kunnen ook aflezingen die in een intern opgestelde lijst van gebieden op de zwarte lijst vallen, worden verwijderd. Deze gebieden op de zwarte lijst omvatten gewone polymorfe CNV's, collapsed repeats, DAC zwarte-lijst gebieden gegenereerd voor het ENCODE-project en het ongedefinieerde segment van het referentiegenoom (d.w.z. d eNs). * Berekenen van genomische voorstellingThe 50 bp single-end sequence readings from a test sample are assigned to the reference genome GRCh37.75 with BWA backtrack. With Picard tools, duplicated readings can be deleted and based on mapping quality, readings that refer to multiple locations can be ignored. Readings that refer sub-optimally to multiple locations are also deleted. To reduce the variability of samples, we only retain the readings that perfectly match the reference genome (i.e., no mismatches and no openings are allowed), although this is rather an optional step. Finally, readings that are blacklisted in an internally compiled list of areas can also be deleted. These blacklisted areas include common polymorphic CNVs, collapsed repeats, DAC blacklisted areas generated for the ENCODE project and the undefined segment of the reference genome (i.e., the eNs). * Calculation of genomic representation

Het referentiegenoom is onderverdeeld in stukken van 50 kb en het aantal aflezingen van het testmonster wordt geteld per stuk. Deze tellingen van aflezingen worden gecorrigeerd volgens de GC-gehaltes van de stukken met lokaal gewogen spreidingsdiagramafvlakking (Loess-regressie). Deze GC-gecorrigeerde aflezingstellingen worden dan gedeeld door de totale som van alle autosomale GC-gecorrigeerde aflezingstellingen en vermenigvuldigd met 107. Dit wordt gedefinieerd als de genomische voorstellingen (GR) per stuk. Op deze per-stuk GR-waarden wordt een schuifvenster toegepast en de som van deze GR-waarden wordt bepaald voor alle opeenvolgende 100 stukken. De vensters worden elk in de tijd verschoven met 1 stuk (d.w.z. 50 kb). Op deze manier wordt een GR-waarde verkregen per venster van 5 Mb. Zo ook wordt voor elke autosoom de som van de per-stuk GR-waarden berekend, om een GR-waarde te verkrijgen voor elke autosoom in het testmonster. * Vergelijking met een referentiereeksThe reference genome is subdivided into 50 kb pieces and the number of readings from the test sample is counted per piece. These counts of readings are corrected according to the GC levels of the pieces with locally weighted scatter plot smoothing (Loess regression). These GC-corrected reading counts are then divided by the total sum of all autosomal GC-corrected reading counts and multiplied by 107. This is defined as the genomic representations (GR) per piece. A sliding window is applied to these per-piece GR values and the sum of these GR values is determined for all consecutive 100 pieces. The windows are each shifted in time by 1 piece (i.e., 50 kb). In this way a GR value is obtained per window of 5 Mb. Similarly, for each autosome, the sum of the piece GR values is calculated to obtain a GR value for each autosome in the test sample. * Comparison with a reference series

In een referentiereeks van 100 referentie monsters (een kleiner of groter aantal is ook mogelijk) worden de GR-waarden berekend voor alle autosomen en voor alle vensters van 50 Mb zoals hierboven is beschreven. Voor elk autosoom en venster van 5 Mb worden het gemiddelde μ en de standaardafwijking σ van de GR-scores berekend over alle referentiemonsters. Op deze manier kan een Z-score worden berekend voor elk venster en elk autosoom i in een testmonster, gedefinieerd alsIn a reference series of 100 reference samples (a smaller or larger number is also possible), the GR values are calculated for all autosomes and for all 50 Mb windows as described above. For each autosome and window of 5 Mb, the mean μ and the standard deviation σ of the GR scores are calculated over all reference samples. In this way, a Z score can be calculated for each window and every autosome i in a test sample, defined as

waarbij Gfy de GR-waarde in het testmonster is voor venster of autosoom i en μί; σ; het gemiddelde en de standaardafwijking, respectievelijk, van de GR-scores gemeten in de referentiemonsters voor venster of autosoom i.wherein Gfy is the GR value in the test sample for window or autosome i and μί; σ; the average and standard deviation, respectively, of the GR scores measured in the reference samples for window or autosome i.

Op basis van de 22 Z-scores van de autostomen in een testmonster is een ZZ2 score berekend voor elk autosoom alsBased on the 22 Z-scores of the car steams in a test sample, a ZZ2 score was calculated for each autosome as

waarbij de Z-score zt van autosoom i in het testmonster wordt vergeleken met de mediaan en de standaardafwijking (sd) van de 22 Z-scores verkregen vooralle 22 autosomen in het testmonster.wherein the Z score zt of autosome i in the test sample is compared with the median and the standard deviation (sd) of the 22 Z scores obtained for all 22 autosomes in the test sample.

Als alternatief, wordt een ZofZ-score berekend alsAlternatively, a ZofZ score is calculated as

waarbij de Z-score zt van chromosoom i in het testmonster wordt vergeleken met de mediaan en de mediane absolute afwijking (mad) van de 22 Z-scores verkregen voor alle 22 autosomen in het testmonster. De ZZ2- en ZofZ-scores kwantificeren de afwijking van de Z-score van het doelautosoom van? alle Z-scores die zijn geobserveerd in het testmonster. Deze robuuste versie van de Z-of-Z-scores maakt geen vooronderstellingen over de aneuploïdiestatus van het desbetreffende autosoom en de andere autosomen.wherein the Z score zt of chromosome i in the test sample is compared with the median and median absolute deviation (mad) of the 22 Z scores obtained for all 22 autosomes in the test sample. The ZZ2 and ZofZ scores quantify the deviation of the Z score of the target autosome from? all Z scores observed in the test sample. This robust version of the Z-or-Z scores makes no assumptions about the aneuploid status of the autosome and the other autosomes.

Op basis van de Z-scores berekend voor alle 5 Mb-vensters in het testmonster, wordt de BM-score van elk autostoom / berekend als de mediaan van de Z-scores over alle vensters in het doelautosoom:Based on the Z scores calculated for all 5 Mb windows in the test sample, the BM score of each car steam / is calculated as the median of the Z scores for all windows in the target autosome:

waar de mediaan van de Z-scores wordt berekend over alle vensters j op autosoom /'.where the median of the Z-scores is calculated over all windows j on autosome / '.

Deze BM-score geeft de grootte van de afwijking weer: aneuploïdieën zullen resulteren in hogere BM-waarden, terwijl kleinere, segmentele CNV's minder invloed zullen hebben op de mediaan van de Z-scores en resulteren in lagere BM-scores. Om een onderscheid te maken tussen afwijkingsgerelateerde BM-scores en verhoogde BM-waarden omwille van ruis in de gegevensreeks, of de aanwezigheid van genoombrede instabiliteit die indicatief zou kunnen zijn voor kanker, wordt de OM-score voor een autosoom / berekend als de mediaan van de Z-scores van alle vensters van de andere autosomen:This BM score reflects the magnitude of the deviation: aneuploidies will result in higher BM values, while smaller, segmental CNVs will have less influence on the median of the Z scores and result in lower BM scores. To distinguish between abnormal BM scores and elevated BM values due to noise in the data set, or the presence of genome-wide instability that could be indicative of cancer, the OM score for an autosome / is calculated as the median of the Z-scores of all windows of the other autosomes:

waarbij de mediaan wordt berekend over alle, absolute Z-scores voor 5 Mb vensters j die zich niet op autosoom / bevinden.the median being calculated over all, absolute Z-scores for 5 Mb windows j that are not on autosome.

Tot slot wordt voor elk testmonster een kwaliteitscore (QS) berekend alsFinally, for each test sample, a quality score (QS) is calculated as

met j over alle autosomen behalve voor de 2 autostomen met de hoogste en de laagste Z-score. Deze score zal testmonsters identificeren met een slechte kwaliteit die resulteren in onbetrouwbare aneuploïdie calling. Een sterk verhoogde QS-score kan ook verwijzen naar DNA-monsters bevattende ten minste een fractie van DNA dat afkomstig is van een tumor.with j over all autosomes except for the 2 car steams with the highest and lowest Z score. This score will identify test samples with poor quality that result in unreliable aneuploidy calling. A greatly increased QS score can also refer to DNA samples containing at least a fraction of DNA from a tumor.

Voor elk van de hierboven berekende parameters kan een drempelwaarde worden gedefinieerd. Op basis van standaard statistische overwegingen kan men een drempelwaarde van 2, 2,5 of 3 kiezen. In de context van de Z-score betekent dit dat de kans dat het testresultaat normaal is (d.w.z. de verkregen GR-score is gelijkaardig aan de GR-scores voor hetzelfde gebied in de referentiereeks) erg klein is. Om een test specifieker te maken, zou men de drempelwaarde kunnen verhogen. Om een test gevoeliger te maken, zou men de drempelwaarde kunnen verlagen. Deze drempelwaarden kunnen voor elk van de parameters worden bepaald, en kunnen voor elk van de parameters verschillen. Het is bijvoorbeeld denkbaar dat drempelwaarden voor BM en OM worden ingesteld op 1 terwijl ze voor de Z-score en ZZ-score op 3 worden ingesteld. Ook negatieve drempelwaarden kunnen worden gebruikt.A threshold value can be defined for each of the parameters calculated above. A threshold value of 2, 2.5 or 3 can be chosen based on standard statistical considerations. In the context of the Z score, this means that the probability that the test result is normal (i.e. the obtained GR score is similar to the GR scores for the same area in the reference series) is very small. To make a test more specific, the threshold value could be increased. To make a test more sensitive, the threshold value could be lowered. These threshold values can be determined for each of the parameters, and can differ for each of the parameters. For example, it is conceivable that threshold values for BM and OM are set to 1 while they are set to 3 for the Z score and ZZ score. Negative thresholds can also be used.

Geanalyseerd monster G vertoonde een QS-score van 27,526. De grafiek van de OM-waarden of de autosomen vertoonde extreme waarden (Figuur 1). Visuele inspectie van de grafieken van de individuele autosomen bevestigde dat dit monster zich abnormaal gedroeg (figuur 2). Dit type van algemeen sterk variërende patronen in de Z-scores is indicatief voor genoombrede instabiliteit.Sample G analyzed showed a QS score of 27.526. The graph of the OM values or the autosomes showed extreme values (Figure 1). Visual inspection of the graphs of individual autosomes confirmed that this sample behaved abnormally (Figure 2). This type of generally widely varying patterns in the Z scores is indicative of genome-wide instability.

Er wordt verondersteld dat de onderhavige uitvinding niet beperkt is tot enige uitvoeringsvorm die hierboven is beschreven en dat bepaalde wijzigingen kunnen worden toegevoegd aan het onderhavige voorbeeld zonder herwaardering van de bijgevoegde conclusies.It is believed that the present invention is not limited to any embodiment described above and that certain changes may be added to the present example without revaluing the appended claims.

Claims

Conclusions

A method for identifying the presence of tumor-derived cell-free DNA in a mammal, said method comprising: - providing the sequences of at least a segment of the nucleic acid molecules contained in a biological sample obtained from a patient, wherein said biological sample comprises cell-free DNA; - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and obtaining a set of scores of said normalized readings, wherein said first score is derived from said normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings for a set of chromosomes or chromosome segments containing the chromosomal target segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the said set of scores; and - comparing said parameter with a threshold value, wherein said threshold value is a requirement for the presence or absence of one or more aneuploidies of said target chromosome or chromosomal segment that is an indicator of the presence of tumor-derived cell-free DNA.

The method according to claim 1, characterized in that said number of readings is recalibrated to correct for GC content and / or total number of readings obtained from said sample.

The method according to claim 1 or 2, characterized in that said normalization occurs via comparison with data obtained from corresponding chromosomal segments or chromosomes from a reference series.

The method according to any one of claims 1 to 3, characterized in that said summary statistic is the average, the median, the standard deviation, the average absolute deviation or the median absolute deviation.

The method of any one of claims 1 to 4, wherein the sequencing is randomly performed on a segment of the nucleic acid molecules contained in the biological sample.

The method of any one of the preceding claims, wherein the biological sample is blood, plasma, serum, urine, transcervical fluid or saliva.

The method according to any one of the preceding claims, wherein said threshold value is determined using standard statistical considerations, or empirically determined using biological samples.

The method of any one of the preceding claims, wherein said first score is calculated as:

wherein i is a chromosome or chromosomal segment or the target chromosome or chromosomal target segment.

The method according to any one of the preceding claims, characterized in that said parameter p is calculated as:

wherein (Zj) represents a set of scores derived from chromosomes or chromosomal segments i, a, b, ... where i corresponds to the chromosomal target segment or chromosome.

The method of any one of the preceding claims, comprising the calculation of secondary parameters, wherein said secondary parameters are a requirement for the amount of said aneuploidy, if it is found to be present, and / or a measure of the quality of the monster.

The method of claim 10, wherein said secondary parameters are compared to a threshold value.

The method of any one of claims 10 or 11, wherein said presence or absence of an aneuploidy is determined by comparing said parameter with a threshold value and comparing one or more secondary parameters and corresponding threshold values.

The method according to any of the preceding claims 1 to 12, wherein said aneuploidy comprises aneuploidy of the entire chromosome, a loss, a gain, an amplification or a deletion of a substantial segment of an arm-level chromosome.

The method of claim 13, wherein said aneuploidy of the entire chromosome comprises a gain or a loss as shown in Table 1.

The method of claim 14, wherein said chromosomal target segments are substantially arm-level segments comprising a p-arm or a q-arm of one or more of the chromosomes 1-22, X and Y.

The method of claim 15, wherein said chromosomal target segment comprises one or more arms selected from the group consisting of 1q, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, 10q, 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q and / or 22q.

The method of claims 1 to 14, wherein said aneuploidy comprises an amplification or deletion of one or more arms selected from the group consisting of 1q, 3q, 4p, 4q, 5p, 5q, 6p, 6q, 7p, 7q, 8p, 8q, 9p, 9q, 10p, 10q, 12p, 12q, 13q, 14q, 16p, 17p, 17q, 18p, 18q, 19p, 19q, 20p, 20q, 21q, 22q.

The method of claims 1 to 17, wherein said chromosomal segments are segments comprising an area and / or a gene shown in Table 3 and / or Table 5 and / or Table 4 and / or Table 6.

The method of claims 1 to 17, wherein said aneuploidy comprises an amplification of a region and / or a gene shown in Table 3 and / or Table 5.

The method of claims 1 to 17, wherein said aneuploidy comprises a deletion of a region and / or a gene shown in Table 4 and / or Table 6.

The method of claims 1 to 20, wherein said chromosome segments are segments that are known to contain one or more oncogenes and / or one or more tumor-suppressing genes.

The method of claims 1 to 17, wherein said aneuploidy comprises an amplification of one or more regions selected from the group consisting of 20Q13, 19ql2, Iq21-lq23, 8pll-p12, MYC, ERBB2 (EGFR), CCIMD1 (Cyclin D1), FGFR1, FGFR2, HRAS, KRAS, MYB, MDM2, CCNE, IMRAS, WITH, ERBB1, CDK4, MYCB, ERBB2, AKT2, MDM2, BRAF, ARAF, CRAF, PIK3CA, AKT1, PTEIM, STK11, MAP2K1, ALK , ROSI, CTIMIMB1, TP53, SMAD4, FBX7, FGFR3, NOTCH1, ERBB4 and CDK4 and the like.

The method of any one of claims 1 to 22, wherein said cancer is a cancer selected from the group consisting of leukemia, ALL, brain cancer, breast cancer, colorectal cancer, differentiated liposarcoma, esophageal adenocarcinoma, esophageal squamous cell cancer, GIST, glioma, HCC, hepatocellular cancer, lung cancer, lung NSC, lung SC, medullobastoma, melanoma, MPD, myeloproliferative disorder, cervical cancer, ovarian cancer, prostate cancer and kidney cancer.

The method of any one of claims 1 to 23, wherein the detection of aneuploidies indicates a positive result and said method further comprises prescribing, initiating and / or changing a treatment of a human patient from whom the test sample was taken.

The method of claim 24, wherein said prescribing, initiating and / or changing a treatment of a human patient from whom the test sample was taken comprises prescribing and / or performing further diagnosis for determining the presence and / or or severity of a cancer.

The method of claim 25, wherein the further diagnostics comprises screening a sample of said patient for a cancer biomarker, and / or imaging said patient for a cancer.

A computer program product comprising a computer readable medium encoded with a plurality of instructions for controlling a computer system for performing an operation for performing the analysis of the presence of a cancer and / or an increased risk of a cancer in a mammal in a biological sample obtained from a patient, the biological sample containing nucleic acid molecules, the processing comprising the steps of: - receiving the sequences of at least one segment of the nucleic acid molecules contained in a biological sample that is obtained from a patient, wherein said biological sample comprises cell-free DNA; - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and obtaining a set of scores of said normalized readings, wherein said first score is derived from the normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized readings for a set of chromosomes or chromosomal segments that contain the chromosomal target segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the said set of scores; and - comparing said parameter with a threshold value, said threshold value being a requirement for the presence or absence of one or more aneuploidies in said target chromosome or chromosome segment that is an indicator of the presence and / or an increased risk of cancer .

The computer program product of claim 27, further comprising operations for calculating one or more secondary parameters, said secondary parameters being a requirement for the intensity of said aneuploidy, if found to be present, and / or a measure of the quality of the sample.

A kit comprising a computer program product according to any of claims 27 or 28 and a protocol for obtaining the sequences of at least a portion of the nucleic acid molecules contained in a biological sample, said biological sample comprising cell-free DNA.

A report comprising an estimate of the presence or absence of a chromosomal aneuploidy in a patient, said report comprising the parameter p, one or more secondary parameters and a comparison with a threshold value as defined in any one of claims 1 to 27 and a visualization of said readings per chromosome.