BR112019003704B1

BR112019003704B1 - METHOD FOR PERFORMING A GENETIC ANALYSIS ON A TARGET REGION OF DNA FROM A TEST SAMPLE

Info

Publication number: BR112019003704B1
Application number: BR112019003704-7A
Authority: BR
Inventors: Christopher K. Raymond; Lee P. Lim; Jennifer Hernandez
Original assignee: Resolution Bioscience, Inc
Priority date: 2016-08-25
Filing date: 2017-08-24
Publication date: 2025-07-29

Abstract

A presente invenção inclui composições e métodos úteis para a detecção de uma alteração mutacional, SNP, translocação, inversão, deleção, alteração no número de cópias ou outra variação genética dentro de uma amostra de DNA genômico celular ou DNA livre de células (cfDNA). Em algumas modalidades, as composições e métodos da presente invenção proporcionam um nível extremamente elevado de resolução que é particularmente útil na detecção de variações no número de cópias numa pequena fração do cfDNA total de uma amostra biológica (por exemplo, sangue).The present invention includes compositions and methods useful for detecting a mutational alteration, SNP, translocation, inversion, deletion, copy number change, or other genetic variation within a cellular genomic DNA or cell-free DNA (cfDNA) sample. In some embodiments, the compositions and methods of the present invention provide an extremely high level of resolution that is particularly useful in detecting copy number variations in a small fraction of the total cfDNA of a biological sample (e.g., blood).

Description

REFERENCE TO RELATED ORDERS

[0001] Este pedido reivindica prioridade para o Pedido de Patente ProvisórioUS 62/379,593, depositado em 25 de agosto de 2016, e o Pedido de Patente Provisório US 62/481,538, depositado em 4 de abril de 2017, cada um dos quais é aqui incorporado por referência em sua totalidade.[0001] This application claims priority to U.S. Provisional Patent Application 62/379,593, filed August 25, 2016, and U.S. Provisional Patent Application 62/481,538, filed April 4, 2017, each of which is incorporated herein by reference in its entirety.

LISTING OF SEQUENCES RELATING TO THE DECLARATION

[0002] A Listagem de Sequências associada com este pedido é proporcionadaem formato de texto em vez de uma cópia em papel, e é aqui incorporada por referência no relatório descritivo. O nome do arquivo de texto que contém a listagem de sequências é CLFK_005_02WO_ST25. O arquivo de texto tem 2.238 KB, foi criado em 24 de agosto de 2017 e está sendo submetido eletronicamente via EFS-Web.[0002] The Sequence Listing associated with this application is provided in text format rather than a paper copy, and is incorporated herein by reference into the specification. The name of the text file containing the sequence listing is CLFK_005_02WO_ST25. The text file is 2,238 KB, was created on August 24, 2017, and is being submitted electronically via EFS-Web.

TECHNICAL FIELD

[0003] A invenção refere-se genericamente a composições e métodos para aanálise genética quantitativa de amostras biológicas, por exemplo, biópsias de tecidos diretos ou sangue periférico. Em particular, a presente invenção refere-se a métodos para detecção de alteração do número de cópias específicas do alvo, bem como caracterização genética e análise de amostras biológicas.[0003] The invention relates generally to compositions and methods for the quantitative genetic analysis of biological samples, for example, direct tissue biopsies or peripheral blood. In particular, the present invention relates to methods for detecting target-specific copy number alteration, as well as genetic characterization and analysis of biological samples.

FUNDAMENTALS

[0004] Está ficando cada vez mais claro que a maioria, se não todos, doscânceres humanos mais comuns são doenças do genoma humano. Acredita-se que as mutações somáticas se acumulam durante o tempo de vida de um indivíduo, algumas das quais aumentam a probabilidade de que a célula em que elas se abrigam possa se transformar em um tumor. Com apenas a combinação errada de eventos mutacionais acumulados, um crescimento pré-cancerígeno perde as restrições que impedem a proliferação descontrolada e a massa celular resultante se torna um câncer. As constelações de mutações que são necessárias e suficientes para causar câncer são muitas vezes coletivamente referidas como "mutações condutoras". Um dos temas que surgiram da análise molecular recente e intensiva é que o câncer, antes considerado uma doença específica de tecido, é, de fato, um grupo de doenças relacionadas, cada uma com uma patologia molecular única. O projeto do genoma humano estabeleceu as bases para a análise de cânceres em todo o genoma.It is becoming increasingly clear that most, if not all, of the most common human cancers are diseases of the human genome. Somatic mutations are thought to accumulate over an individual's lifetime, some of which increase the likelihood that the cell they harbor will develop into a tumor. With just the wrong combination of accumulated mutational events, a precancerous growth loses the restraints that prevent uncontrolled proliferation, and the resulting cell mass becomes cancer. The constellations of mutations that are necessary and sufficient to cause cancer are often collectively referred to as "driver mutations." One of the themes emerging from recent intensive molecular analysis is that cancer, once considered a tissue-specific disease, is in fact a group of related diseases, each with a unique molecular pathology. The Human Genome Project laid the foundation for genome-wide analysis of cancers.

[0005] Mudanças no número de cópias de genes são um fator fundamentalpara a diversidade biológica. No contexto da evolução, a duplicação de genes e a divergência de funções é um motor bem reconhecido da diversidade de espécies. No contexto da doença humana, a perda de genes e a amplificação genética dentro das células somáticas são características de tecidos doentes, como o câncer. Certos agentes terapêuticos agem especificamente em células com estas mutações genômicas de ganho e/ou perda, no entanto, a identificação dessas variações no número de cópias é difícil porque muitas vezes essas mutações estão presentes apenas no DNA de células doentes ou cancerígenas e não são encontradas em outras células do corpo. Enquanto o tecido ou células doentes é a principal fonte do DNA mutado, a aquisição de DNA através de uma biópsia é invasiva, arriscada e muitas vezes não é possível. A observação de que células tumorais ou cancerígenas que estão morrendo libera pequenos pedaços do seu DNA para a corrente sanguínea, denominado DNA livre de células ou DNA circulante permitiu o desenvolvimento de testes genéticos que podem ser realizados com técnicas menos invasivas, como uma amostra de sangue. No entanto, apenas pequenas quantidades de DNA podem ser obtidas a partir do isolamento de DNA livre de células de uma amostra, e apenas uma porção do DNA total carregará a mutação associada à doença. Por exemplo, no contexto da genômica do câncer, as mutações do tumor com significado de diagnóstico são frequentemente encontradas apenas em frequências alélicas menores que são significativamente inferiores a 50%. Isto está em contraste com a genotipagem SNP convencional, onde as frequências alélicas são geralmente ~ 100%, 50% ou 0%.[0005] Changes in gene copy number are a fundamental driver of biological diversity. In the context of evolution, gene duplication and functional divergence are well-recognized drivers of species diversity. In the context of human disease, gene loss and gene amplification within somatic cells are hallmarks of diseased tissues, such as cancer. Certain therapeutic agents act specifically on cells with these genomic gain and/or loss mutations. However, identifying these copy number variations is difficult because these mutations are often present only in the DNA of diseased or cancerous cells and are not found in other cells in the body. While diseased tissue or cells are the primary source of mutated DNA, obtaining DNA through a biopsy is invasive, risky, and often impossible. The observation that dying tumor or cancer cells release small pieces of their DNA into the bloodstream, called cell-free DNA or circulating DNA, has enabled the development of genetic tests that can be performed using less invasive techniques, such as a blood sample. However, only small amounts of DNA can be obtained from isolating cell-free DNA from a sample, and only a portion of the total DNA will carry the disease-associated mutation. For example, in the context of cancer genomics, diagnostically significant tumor mutations are often found only at minor allele frequencies significantly below 50%. This is in contrast to conventional SNP genotyping, where allele frequencies are typically ~100%, 50%, or 0%.

[0006] Assim, existe uma necessidade de técnicas genômicas capazes dedetectar alterações no número de cópias genéticas em locais alvo específicos.[0006] Thus, there is a need for genomic techniques capable of detecting changes in the number of genetic copies at specific target sites.

BRIEF SUMMARY

[0007] Métodos de detecção de mutações raras no cfDNA foram descritosanteriormente na Publicação Internacional PCT WO 2016/028316. No entanto, essas técnicas ainda carecem da sensibilidade necessária para detectar as perdas mais raras de número de cópias em frequências alélicas muito pequenas. São aqui proporcionadas composições e métodos para a detecção da alteração do número de cópias específicas do alvo que são aplicáveis a vários tipos de amostras, incluindo biópsias diretas de tecidos, sangue periférico e, em particular, cfDNA. As composições e métodos aqui descritos são suficientemente sensíveis para detectar alterações no número de cópias que estão presentes apenas uma pequena fração do DNA total.[0007] Methods for detecting rare mutations in cfDNA have been previously described in PCT International Publication WO 2016/028316. However, these techniques still lack the sensitivity required to detect the rarest copy number losses at very small allele frequencies. Provided herein are compositions and methods for detecting target-specific copy number alteration that are applicable to various sample types, including direct tissue biopsies, peripheral blood, and in particular, cfDNA. The compositions and methods described herein are sufficiently sensitive to detect copy number alterations that are present in only a small fraction of the total DNA.

[0008] A presente invenção inclui, inter alia, composições e métodos que sãoúteis para a detecção de uma alteração mutacional, SNP, translocação, inversão, deleção, alteração no número de cópias ou outra variação genética dentro de uma amostra de DNA genômico celular (por exemplo, de uma amostra de biópsia de tecido) ou cfDNA (por exemplo, de uma amostra de sangue). Em particular, as composições e métodos da presente invenção proporcionam um nível extremamente elevado de resolução que é particularmente útil na detecção de variações no número de cópias numa pequena fração do cfDNA total de uma amostra biológica (por exemplo, sangue).[0008] The present invention includes, inter alia, compositions and methods that are useful for detecting a mutational alteration, SNP, translocation, inversion, deletion, copy number change, or other genetic variation within a sample of cellular genomic DNA (e.g., from a tissue biopsy sample) or cfDNA (e.g., from a blood sample). In particular, the compositions and methods of the present invention provide an extremely high level of resolution that is particularly useful in detecting copy number variations in a small fraction of the total cfDNA of a biological sample (e.g., blood).

[0009] Modalidades particulares são atraídas para um método para executaruma análise genética em uma região alvo de DNA de uma amostra de teste que inclui: (a) gerar uma biblioteca de DNA genômico, compreendendo uma pluralidade de fragmentos de biblioteca de DNA, em que cada um dos fragmentos de biblioteca de DNA compreende um fragmento de DNA genômico da amostra e teste e um adaptador; (b) contatar a biblioteca de DNA genômico com uma pluralidade de sondas de captura que se ligam especificamente a uma região alvo de DNA, formando complexos entre as sondas de captura e fragmentos de biblioteca de DNA compreendendo a região alvo de DNA; e (c) realizar uma análise genética quantitativa dos fragmentos de DNA genômico compreendendo a região alvo de DNA; em que o adaptador é um polinucleotídeo de DNA que compreende: uma região de amplificação, uma região de marcação da amostra, e uma região de âncora; em que a região de amplificação compreende uma sequência polinucleotídica capaz de servir como um sítio de reconhecimento de iniciador para amplificação por PCR; em que a etiqueta de amostra compreende uma sequência polinucleotídica que codifica uma identidade do fragmento de DNA da biblioteca única e codifica uma identidade da amostra de teste; em que a região de âncora compreende uma sequência polinucleotídica que codifica a identidade da amostra de teste e em que a região de âncora é capaz de se ligar ao fragmento de DNA genômico; e em que a análise genética é realizada para detectar uma alteração genética indicativa de um estado de doença.[0009] Particular embodiments are drawn to a method for performing a genetic analysis on a target DNA region of a test sample that includes: (a) generating a genomic DNA library comprising a plurality of DNA library fragments, wherein each of the DNA library fragments comprises a genomic DNA fragment from the test sample and an adapter; (b) contacting the genomic DNA library with a plurality of capture probes that specifically bind to a target DNA region, forming complexes between the capture probes and DNA library fragments comprising the target DNA region; and (c) performing a quantitative genetic analysis of the genomic DNA fragments comprising the target DNA region; wherein the adapter is a DNA polynucleotide comprising: an amplification region, a sample labeling region, and an anchor region; wherein the amplification region comprises a polynucleotide sequence capable of serving as a primer recognition site for PCR amplification; wherein the sample tag comprises a polynucleotide sequence that encodes an identity of the unique library DNA fragment and encodes an identity of the test sample; wherein the anchor region comprises a polynucleotide sequence that encodes the identity of the test sample and wherein the anchor region is capable of binding to the genomic DNA fragment; and wherein the genetic analysis is performed to detect a genetic alteration indicative of a disease state.

[0010] Em algumas modalidades, a alteração genética indicativa de umestado de doença é selecionada de uma variante de nucleotídeo único (SNV), uma inserção menor que 40 nucleotídeos de comprimento, uma deleção de uma região de DNA menor que 40 nucleotídeos de comprimento e/ou uma alteração no número de cópias. Em modalidades particulares, a alteração genética indicativa de um estado de doença é uma mudança no número de cópias. Em algumas modalidades, a amostra de teste é uma biópsia de tecido. Em várias modalidades, a biópsia de tecido é retirada de um tumor ou de um tecido suspeito de ser um tumor. Em certas modalidades, o DNA genômico é DNA livre de células (cfDNA) ou DNA celular. Em modalidades particulares, o DNA genômico é cfDNA é isolado da amostra de teste; e em que a amostra de teste é uma amostra biológica selecionada do grupo que consiste em: líquido amniótico, sangue, plasma, soro, sêmen, fluido linfático, líquido cefalorraquidiano, fluido ocular, urina, saliva, fezes, muco e suor.[0010] In some embodiments, the genetic alteration indicative of a disease state is selected from a single nucleotide variant (SNV), an insertion less than 40 nucleotides in length, a deletion of a region of DNA less than 40 nucleotides in length, and/or a copy number change. In particular embodiments, the genetic alteration indicative of a disease state is a copy number change. In some embodiments, the test sample is a tissue biopsy. In various embodiments, the tissue biopsy is taken from a tumor or tissue suspected of being a tumor. In certain embodiments, the genomic DNA is cell-free DNA (cfDNA) or cellular DNA. In particular embodiments, the genomic DNA is cfDNA that is isolated from the test sample; and wherein the test sample is a biological sample selected from the group consisting of: amniotic fluid, blood, plasma, serum, semen, lymphatic fluid, cerebrospinal fluid, ocular fluid, urine, saliva, feces, mucus and sweat.

[0011] Em certas modalidades, os fragmentos de DNA genômico são obtidosnas etapas que compreendem; (i) isolar DNA celular da amostra de teste; e (ii) fragmentar o DNA celular para obter os fragmentos de DNA genômico. Em modalidades particulares, a etapa (ii) é realizada contatando DNA celular com pelo menos uma enzima de digestão. Em algumas modalidades, a etapa (ii) é realizada através da aplicação de tensão mecânica ao DNA celular. Em certas modalidades, o estresse mecânico é aplicado sonicando o DNA celular.[0011] In certain embodiments, the genomic DNA fragments are obtained in the steps comprising; (i) isolating cellular DNA from the test sample; and (ii) fragmenting the cellular DNA to obtain the genomic DNA fragments. In particular embodiments, step (ii) is performed by contacting cellular DNA with at least one digestion enzyme. In some embodiments, step (ii) is performed by applying mechanical stress to the cellular DNA. In certain embodiments, the mechanical stress is applied by sonicating the cellular DNA.

[0012] Em modalidades particulares, a etiqueta de amostra compreende aindaum identificador de molécula único (UMI) que facilita a identificação do fragmento de DNA genômico único.[0012] In particular embodiments, the sample tag further comprises a unique molecule identifier (UMI) that facilitates identification of the unique genomic DNA fragment.

[0013] Em algumas modalidades, a região de amplificação tem entre 10 e 50nucleotídeos de comprimento. Em modalidades particulares, a região de amplificação tem entre 20 e 30 nucleotídeos de comprimento. Em certas modalidades, a região de amplificação tem 25 nucleotídeos de comprimento.[0013] In some embodiments, the amplification region is between 10 and 50 nucleotides in length. In particular embodiments, the amplification region is between 20 and 30 nucleotides in length. In certain embodiments, the amplification region is 25 nucleotides in length.

[0014] Em algumas modalidades, a etiqueta de amostra tem entre 5 e 50nucleotídeos de comprimento. Em modalidades particulares, a etiqueta de amostra tem entre 5 e 15 nucleotídeos de comprimento. Em certas modalidades, a etiqueta de amostra tem 8 nucleotídeos de comprimento. Em algumas modalidades, o multiplicador de UMI é adjacente ou contido na região de etiqueta de amostra.[0014] In some embodiments, the sample tag is between 5 and 50 nucleotides in length. In particular embodiments, the sample tag is between 5 and 15 nucleotides in length. In certain embodiments, the sample tag is 8 nucleotides in length. In some embodiments, the UMI multiplier is adjacent to or contained within the sample tag region.

[0015] Em certas modalidades, o multiplicador de UMI tem entre 1 e 5nucleotídeos de comprimento. Em modalidades particulares, o multiplicador de UMI tem 3 nucleotídeos de comprimento e compreende uma das 64 sequências nucleotídicas possíveis.[0015] In certain embodiments, the UMI multiplier is between 1 and 5 nucleotides in length. In particular embodiments, the UMI multiplier is 3 nucleotides in length and comprises one of 64 possible nucleotide sequences.

[0016] Em algumas modalidades, a região de âncora tem entre 1 e 50nucleotídeos de comprimento. Em modalidades particulares, a região de âncora tem entre 5 e 25 nucleotídeos de comprimento. Em certas modalidades, a região de âncora tem 10 nucleotídeos de comprimento.[0016] In some embodiments, the anchor region is between 1 and 50 nucleotides in length. In particular embodiments, the anchor region is between 5 and 25 nucleotides in length. In certain embodiments, the anchor region is 10 nucleotides in length.

[0017] Modalidades particulares da presente invenção são desenhadas amétodos onde a etapa de (a) gerar uma biblioteca de DNA genômico compreendendo uma pluralidade de fragmentos da biblioteca de DNA, compreende ligar os fragmentos de DNA genômico a uma pluralidade de adaptadores. Em certas modalidades, os fragmentos de DNA genômico são reparados na extremidade antes de ligar os fragmentos de DNA genômico com uma pluralidade de adaptadores. Em modalidades particulares, as regiões de amplificação de cada adaptador da pluralidade de adaptadores compreendem uma sequência nucleotídica idêntica.[0017] Particular embodiments of the present invention are designed as methods wherein the step of (a) generating a genomic DNA library comprising a plurality of DNA library fragments comprises ligating the genomic DNA fragments with a plurality of adapters. In certain embodiments, the genomic DNA fragments are end-repaired prior to ligating the genomic DNA fragments with a plurality of adapters. In particular embodiments, the amplification regions of each adapter of the plurality of adapters comprise an identical nucleotide sequence.

[0018] Em certas modalidades, a região da etiqueta de amostra de cadaadaptador da pluralidade de adaptadores compreende uma entre 2 e 1.000 sequências nucleotídicas. Em modalidades particulares, a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores compreende uma entre 50 e 500 sequências nucleotídicas. Em várias modalidades, a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores compreende uma entre 100 e 400 sequências nucleotídicas. Em algumas modalidades, a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores compreende uma entre 200 e 300 sequências nucleotídicas. Em certas modalidades, a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores tem 8 nucleotídeos de comprimento. Em algumas modalidades, cada sequência das sequências nucleotídicas é distinta de qualquer outra sequência das sequências de 240 nucleotídeos pela distância de Hamming de pelo menos dois.[0018] In certain embodiments, the sample tag region of each adapter of the plurality of adapters comprises one of between 2 and 1,000 nucleotide sequences. In particular embodiments, the sample tag region of each adapter of the plurality of adapters comprises one of between 50 and 500 nucleotide sequences. In various embodiments, the sample tag region of each adapter of the plurality of adapters comprises one of between 100 and 400 nucleotide sequences. In some embodiments, the sample tag region of each adapter of the plurality of adapters comprises one of between 200 and 300 nucleotide sequences. In certain embodiments, the sample tag region of each adapter of the plurality of adapters is 8 nucleotides in length. In some embodiments, each sequence of the nucleotide sequences is distinct from any other sequence of the 240 nucleotide sequences by a Hamming distance of at least two.

[0019] Em modalidades particulares, cada uma da pluralidade de adaptadorescompreende um multiplicador de UMI que é adjacente ou contido na região de etiqueta de amostra. Em algumas modalidades, cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente à região de etiqueta de amostra. Em certas modalidades, o multiplicador de UMI de cada adaptador da pluralidade de adaptadores tem entre 1 e 5 nucleotídeos de comprimento. Em algumas modalidades, o multiplicador de UMI de cada adaptador da pluralidade de adaptadores tem três nucleotídeos de comprimento.[0019] In particular embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region. In some embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to the sample tag region. In certain embodiments, the UMI multiplier of each adapter of the plurality of adapters is between 1 and 5 nucleotides in length. In some embodiments, the UMI multiplier of each adapter of the plurality of adapters is three nucleotides in length.

[0020] Em modalidades particulares, a região de etiqueta de âncora de cadaadaptador da pluralidade de adaptadores compreende uma das quatro sequências de nucleotídeos, e cada região de amostra de uma dada sequência é pareada para apenas uma das quatro regiões de âncora de uma dada sequência.[0020] In particular embodiments, the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences, and each sample region of a given sequence is paired to only one of the four anchor regions of a given sequence.

[0021] Em algumas modalidades, as regiões de amplificação de cadaadaptador de entre a pluralidade de adaptadores compreendem uma sequência de nucleotídeos idêntica; a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores tem 8 nucleotídeos de comprimento; a sequência nucleotídica de cada etiqueta de amostra é distinta de qualquer outra sequência nucleotídica das etiquetas de amostra da pluralidade de adaptadores pela distância de Hamming de pelo menos dois; cada um da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente ou contido dentro da região de etiqueta de amostra; o multiplicador de UMI de cada adaptador da pluralidade de adaptadores tem três nucleotídeos de comprimento; e o multiplicador de UMI de cada uma das sequências nucleotídicas possíveis é pareado com cada região de etiqueta de amostra da pluralidade de adaptadores; a região de etiqueta de âncora de cada adaptador da pluralidade de adaptadores compreende uma de quatro sequências nucleotídicas; e cada região de amostra de uma dada sequência é pareada com apenas uma das quatro regiões de âncora de uma determinada sequência.[0021] In some embodiments, the amplification regions of each adapter of the plurality of adapters comprises an identical nucleotide sequence; the sample tag region of each adapter of the plurality of adapters is 8 nucleotides in length; the nucleotide sequence of each sample tag is distinct from any other nucleotide sequence of the sample tags of the plurality of adapters by a Hamming distance of at least two; each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region; the UMI multiplier of each adapter of the plurality of adapters is three nucleotides in length; and the UMI multiplier of each of the possible nucleotide sequences is paired with each sample tag region of the plurality of adapters; the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences; and each sample region of a given sequence is paired with only one of the four anchor regions of a given sequence.

[0022] Modalidades particulares da presente invenção são desenhadas paraum método em que a etapa de ligar os fragmentos de DNA genômico com uma pluralidade de adaptadores compreende: (i) ligar um oligonucleotídeo compreendendo pelo menos uma porção de uma região de âncora de cada fragmento de DNA genômico, em que o oligonucleotídeo compreendendo pelo menos uma parte de uma região de âncora é um duplex de DNA compreendendo uma fita de ligação fosforilada de 5' duplexada com uma fita parceira, em que a fita parceira é bloqueada da ligação por modificação química na sua extremidade 3' e em que a fita de ligação está ligada ao fragmento de DNA genômico; (ii) contatar os fragmentos de DNA genômico ligados aos oligonucleotídeos que compreendem pelo menos uma porção da região de âncora com oligonucleotídeos de DNA que codificam sequências de adaptador de comprimento completo para cada sequência nucleotídica de adaptador da pluralidade de adaptadores; e (iii) contatar os fragmentos de DNA genômico e os oligonucleotídeos de DNA que codificam a sequência de adaptador de tamanho total com a polinucleotídeo quinase T4, Taq DNA-ligase e Bst polimerase de comprimento completo sob condições adequadas para ligação de DNA; ligando assim a pluralidade de adaptadores aos fragmentos de DNA genômico. Em algumas modalidades, os fragmentos de DNA genômico são cfDNA. Em certas modalidades, a região alvo de DNA é analisada quanto a uma alteração no número de cópias.[0022] Particular embodiments of the present invention are designed for a method wherein the step of ligating the genomic DNA fragments with a plurality of adapters comprises: (i) ligating an oligonucleotide comprising at least a portion of an anchor region of each genomic DNA fragment, wherein the oligonucleotide comprising at least a portion of an anchor region is a DNA duplex comprising a 5' phosphorylated linker strand duplexed with a partner strand, wherein the partner strand is blocked from ligation by chemical modification at its 3' end and wherein the linker strand is ligated to the genomic DNA fragment; (ii) contacting the genomic DNA fragments ligated with the oligonucleotides comprising at least a portion of the anchor region with DNA oligonucleotides encoding full-length adapter sequences for each adapter nucleotide sequence of the plurality of adapters; and (iii) contacting the genomic DNA fragments and the DNA oligonucleotides encoding the full-length adapter sequence with T4 polynucleotide kinase, Taq DNA ligase, and full-length Bst polymerase under conditions suitable for DNA ligation; thereby ligating the plurality of adapters to the genomic DNA fragments. In some embodiments, the genomic DNA fragments are cfDNA. In certain embodiments, the target region of DNA is analyzed for a copy number alteration.

[0023] Em modalidades particulares, a etapa (c) realizar uma análise genéticaquantitativa dos fragmentos de DNA genômico compreendendo a região alvo de DNA compreende purificar os complexos formados entre as sondas de captura e os fragmentos da biblioteca de DNA compreendendo a região alvo de DNA. Em certas modalidades, a etapa (c) compreende purificar os complexos formados entre as sondas de captura e os fragmentos da biblioteca de DNA compreendendo a região alvo de DNA, realizar a extensão do iniciador e/ou amplificação dos fragmentos de bibliotecas de DNA compreendendo a região de interesse a partir da biblioteca de DNA genômico. Em algumas modalidades, a etapa (c) compreende purificar os complexos formados entre as sondas de captura e os fragmentos da biblioteca de DNA compreendendo a região alvo de DNA, realizar a extensão do iniciador e amplificação dos fragmentos de bibliotecas de DNA compreendendo a região de interesse a partir da biblioteca de DNA genômico Em certas modalidades, a etapa (c) compreende sequenciar o DNA dos fragmentos da biblioteca de DNA compreendendo a região alvo do DNA para gerar uma pluralidade de leituras de sequenciamento.[0023] In particular embodiments, step (c) performing a quantitative genetic analysis of the genomic DNA fragments comprising the target DNA region comprises purifying the complexes formed between the capture probes and the DNA library fragments comprising the target DNA region. In certain embodiments, step (c) comprises purifying the complexes formed between the capture probes and the DNA library fragments comprising the target DNA region, performing primer extension and/or amplification of the DNA library fragments comprising the region of interest from the genomic DNA library. In some embodiments, step (c) comprises purifying the complexes formed between the capture probes and the DNA library fragments comprising the target DNA region, performing primer extension, and amplification of the DNA library fragments comprising the region of interest from the genomic DNA library. In certain embodiments, step (c) comprises sequencing the DNA from the DNA library fragments comprising the target DNA region to generate a plurality of sequencing reads.

[0024] Em algumas modalidades, a presente invenção é desenhada para ummétodo em que a análise genômica compreende determinar uma alteração do número de cópias de uma região de DNA de interesse, e em que a etapa (c), realiza uma análise genética quantitativa dos fragmentos de DNA genômico compreendendo a região alvo de DNA, compreende determinar um número de cópias da região de interesse presente na biblioteca de DNA genômico proveniente da amostra de teste, e compara com um número de cópias da região de interesse presente na biblioteca de DNA genômico derivada de uma amostra de referência, em que a amostra de referência compreende um número de cópias conhecido da região alvo de DNA.[0024] In some embodiments, the present invention is designed for a method in which the genomic analysis comprises determining a copy number alteration of a DNA region of interest, and in which step (c), performing a quantitative genetic analysis of the genomic DNA fragments comprising the target DNA region, comprises determining a copy number of the region of interest present in the genomic DNA library derived from the test sample, and comparing it with a copy number of the region of interest present in the genomic DNA library derived from a reference sample, in which the reference sample comprises a known copy number of the target DNA region.

[0025] Em algumas modalidades, determinar o número de cópias da regiãode interesse compreende sequenciar o DNA dos fragmentos de bibliotecas de DNA compreendendo a região alvo de DNA para gerar uma pluralidade de leituras de sequenciamento, em que cada leitura de sequenciamento compreende um elemento de identificação molecular único (UMIE). Em algumas modalidades, o UMIE inclui informações de sequenciamento do adaptador e pelo menos uma porção da sequência do DNA genômico. Em algumas modalidades, as leituras de sequenciamento compreendendo UMIEs idênticas são identificadas como uma sequência genômica única (UGS).[0025] In some embodiments, determining the copy number of the region of interest comprises sequencing DNA from fragments of DNA libraries comprising the target region of DNA to generate a plurality of sequencing reads, wherein each sequencing read comprises a unique molecular identification element (UMIE). In some embodiments, the UMIE includes sequencing information of the adapter and at least a portion of the genomic DNA sequence. In some embodiments, sequencing reads comprising identical UMIEs are identified as a unique genomic sequence (UGS).

[0026] Em algumas modalidades, os métodos de determinação do número decópias compreendem ainda determinar uma profundidade genômica bruta (RGD) para cada uma das sondas de captura em contato com a biblioteca de DNA genômico. Em algumas modalidades, determinar a RGD compreende determinar o número médio de UGSs associadas a cada sequência de sonda de captura dentro de um grupo de réplicas de amostra. Em algumas modalidades, as sondas de captura associadas a um número altamente variável de UGSs são identificadas como sondas com ruído e são removidas de outros cálculos. Em algumas modalidades, determinar a RGD compreende ainda calcular uma RGD para uma amostra, compreendendo calcular uma média numérica de todas as RGDs para todas as sondas de captura na amostra. Em algumas modalidades, os valores de RGD para sondas com ruído não são incluídos no cálculo de um RGD para uma amostra.[0026] In some embodiments, the methods of determining the copy number further comprise determining a raw genomic depth (RGD) for each of the capture probes contacted with the genomic DNA library. In some embodiments, determining the RGD comprises determining the average number of UGSs associated with each capture probe sequence within a group of sample replicates. In some embodiments, capture probes associated with a highly variable number of UGSs are identified as noisy probes and are removed from further calculations. In some embodiments, determining the RGD further comprises calculating an RGD for a sample, comprising calculating a numerical average of all RGDs for all capture probes in the sample. In some embodiments, RGD values for noisy probes are not included in the calculation of an RGD for a sample.

[0027] Em algumas modalidades, as RGDs para as sondas de captura sãonormalizadas em todas as amostras em um grupo experimental, convertendo a RGD para cada sonda de captura em uma contagem de leitura normalizada específica da sonda, compreendendo (i) multiplicar cada sonda de captura de RGD numa amostra por uma constante de normalização, em que a constante de normalização compreende qualquer número real; e (ii) dividir o produto de (i) pela RGD calculada para a amostra correspondente; ou (iii) dividir o produto de (i) por uma RGD média calculado a partir de um subconjunto de sondas. Em algumas modalidades, o subconjunto de sondas é um conjunto de sondas de controle.[0027] In some embodiments, the RGDs for the capture probes are normalized across all samples in an experimental group by converting the RGD for each capture probe into a probe-specific normalized read count, comprising (i) multiplying each capture probe RGD in a sample by a normalization constant, wherein the normalization constant comprises any real number; and (ii) dividing the product of (i) by the RGD calculated for the corresponding sample; or (iii) dividing the product of (i) by an average RGD calculated from a subset of probes. In some embodiments, the subset of probes is a set of control probes.

[0028] Em algumas modalidades, as contagens de leitura normalizadasespecíficas da sonda são convertidas num valor de número de cópias compreendendo (i) multiplicar as contagens de leitura normalizadas, específicas da sonda de sondas direcionadas para regiões autossômicas e/ou ligadas ao X por 2 em amostras derivadas de fêmeas; (ii) multiplicar as contagens de leitura normalizadas, específicas da sonda de sondas dirigidas para regiões ligadas a Y e/ou ligadas a X por 1 em amostras derivadas de machos; (iii) calcular a média dos produtos de (i) e/ou (ii) em todas as amostras de um experimento; e (iv) dividir o produto de (i) e/ou (ii) pela média de (iii). Em algumas modalidades, os valores aproximados de número de cópias para todas as sondas que direcionam um gene específico são calculados em média.[0028] In some embodiments, the probe-specific normalized read counts are converted to a copy number value comprising (i) multiplying the probe-specific, normalized read counts of probes targeting autosomal and/or X-linked regions by 2 in samples derived from females; (ii) multiplying the probe-specific, normalized read counts of probes targeting Y-linked and/or X-linked regions by 1 in samples derived from males; (iii) averaging the products of (i) and/or (ii) across all samples in an experiment; and (iv) dividing the product of (i) and/or (ii) by the average of (iii). In some embodiments, the approximate copy number values for all probes targeting a specific gene are averaged.

[0029] Em algumas modalidades, a presente invenção é desenhada para ummétodo para detecção altamente sensível de ganho de número de cópias e perda de número de cópias compreendendo (i) determinar uma RGD para uma sonda de captura; (ii) normalizar a RGD para a sonda de captura em todas as amostras em um grupo experimental, converter a RGD para a sonda de captura em uma contagem de leitura normalizada específica da sonda; (iii) calcular um valor de número de cópias aproximado para cada contagem de leitura normalizada específica da sonda; e (iv) calcular a média dos valores aproximados do número de cópias para todas as sondas que direcionam um gene específico.[0029] In some embodiments, the present invention is designed for a method for highly sensitive detection of copy number gain and copy number loss comprising (i) determining an RGD for a capture probe; (ii) normalizing the RGD for the capture probe across all samples in an experimental group, converting the RGD for the capture probe to a probe-specific normalized read count; (iii) calculating an approximate copy number value for each probe-specific normalized read count; and (iv) averaging the approximate copy number values for all probes targeting a specific gene.

[0030] Em algumas modalidades, a presente invenção é desenhada para ummétodo para medir a estabilidade cromossômica compreendendo (i) conceber e validar um conjunto de uma ou mais sondas de estabilidade cromossômica, em que as sondas de estabilidade cromossômica estão uniformemente distribuídas pelos cromossomas humanos; (ii) realizar sequenciamento direcionado em amostras de pacientes usando uma ou mais sondas de estabilidade cromossômica; (iii) determinar um valor de número de cópias aproximado para cada sonda cromossômica; (iv) determinar um fenótipo genômico de uma amostra do paciente, em que as flutuações nos valores de número de cópias de uma ou mais sondas cromossômicas na amostra do paciente indicam instabilidade genômica.[0030] In some embodiments, the present invention is designed for a method for measuring chromosome stability comprising (i) designing and validating a set of one or more chromosome stability probes, wherein the chromosome stability probes are uniformly distributed throughout human chromosomes; (ii) performing targeted sequencing on patient samples using one or more chromosome stability probes; (iii) determining an approximate copy number value for each chromosome probe; (iv) determining a genomic phenotype of a patient sample, wherein fluctuations in the copy number values of one or more chromosome probes in the patient sample indicate genomic instability.

[0031] Em algumas modalidades, a presente invenção é desenhada para ummétodo de tratamento de um câncer num sujeito em necessidade do mesmo, em que o sujeito foi identificado como tendo um genoma desestabilizado de acordo com o método da reivindicação 62, em que o método de tratamento do câncer compreende administrar uma quantidade farmaceuticamente eficaz de um inibidor de PARP.[0031] In some embodiments, the present invention is directed to a method of treating a cancer in a subject in need thereof, wherein the subject has been identified as having a destabilized genome according to the method of claim 62, wherein the method of treating the cancer comprises administering a pharmaceutically effective amount of a PARP inhibitor.

[0032] Em algumas modalidades, a presente invenção é desenhada para ummétodo em que a análise genômica compreende determinar uma alteração do número de cópias de uma região de DNA de interesse, e em que a etapa (c), realiza uma análise genética quantitativa dos fragmentos de DNA genômico compreendendo a região alvo de DNA, compreende determinar um número de cópias da região de interesse presente na biblioteca de DNA genômico proveniente da amostra de teste, e compara com um número de cópias da região de interesse presente na biblioteca de DNA genômico derivada de uma amostra de referência, em que a amostra de referência compreende um número de cópias conhecido da região alvo de DNA. Em algumas modalidades, a região de interesse é um gene ou uma porção do gene. Em modalidades particulares, o gene está associado a uma doença. Em certas modalidades, a doença é um câncer. Em várias modalidades, o gene é BRCA2, ATM, BRCA1, BRIP1, CHEK2, FANCA, HDAC2 e/ou PALB2.[0032] In some embodiments, the present invention is designed for a method wherein the genomic analysis comprises determining a copy number alteration of a DNA region of interest, and wherein step (c) performs a quantitative genetic analysis of the genomic DNA fragments comprising the target DNA region, comprises determining a copy number of the region of interest present in the genomic DNA library derived from the test sample, and comparing it with a copy number of the region of interest present in the genomic DNA library derived from a reference sample, wherein the reference sample comprises a known copy number of the target DNA region. In some embodiments, the region of interest is a gene or a portion of the gene. In particular embodiments, the gene is associated with a disease. In certain embodiments, the disease is a cancer. In various embodiments, the gene is BRCA2, ATM, BRCA1, BRIP1, CHEK2, FANCA, HDAC2, and/or PALB2.

[0033] Modalidades particulares são desenhadas para uma biblioteca deDNA genômico que compreende uma pluralidade de fragmentos de biblioteca de DNA, em que cada um dos fragmentos de biblioteca de DNA compreende um adaptador e um fragmento de DNA genômico; em que o adaptador é um polinucleotídeo de DNA que compreende: uma região de amplificação, uma região de etiqueta de amostra e uma região de âncora; em que a região de amplificação compreende uma sequência polinucleotídica capaz de servir como um sítio de reconhecimento de iniciadores para a amplificação por PCR; em que a etiqueta de amostra compreende uma sequência polinucleotídica que codifica uma identidade do fragmento de DNA de biblioteca única e codifica uma identidade da amostra de teste; e em que a região de âncora compreende uma sequência polinucleotídica que codifica a identidade da amostra de teste, e em que a região de âncora é capaz de ligar ao fragmento de DNA genômico. Em algumas modalidades, a etiqueta de amostra compreende ainda um identificador de molécula único (UMI), em que o UMI facilita a identificação do fragmento de DNA genômico único. Em modalidades particulares, a região de amplificação tem entre 10 e 50 nucleotídeos de comprimento. Em modalidades particulares, a região de amplificação tem 25 nucleotídeos de comprimento. Em modalidades particulares, a etiqueta de amostra tem entre 5 e 50 nucleotídeos de comprimento. Em certas modalidades, a etiqueta de amostra tem 8 nucleotídeos de comprimento. Em algumas modalidades, o multiplicador de UMI é adjacente ou contido na região de etiqueta de amostra. Em modalidades particulares, o multiplicador de UMI tem entre 1 e 5 nucleotídeos de comprimento. Em certas modalidades, a região de âncora tem entre 1 e 50 nucleotídeos de comprimento. Em algumas modalidades, a região de âncora tem 10 nucleotídeos de comprimento. Em modalidades particulares, as regiões de amplificação de cada adaptador da pluralidade de adaptadores compreendem uma sequência nucleotídica idêntica. Em algumas modalidades, cada sequência nucleotídica das etiquetas de amostra é distinta a partir de qualquer outra sequência das sequências nucleotídicas da amostra pela distância de Hamming de pelo menos dois. Em certas modalidades, cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente ou contido na região de etiqueta de amostra. Em modalidades particulares, cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente à região de etiqueta de amostra. Em algumas modalidades, a região de etiqueta de âncora de cada adaptador da pluralidade de adaptadores compreende uma das quatro sequências de nucleotídeos, e em que cada região de amostra de uma dada sequência é pareada para apenas uma das quatro regiões de âncora de uma dada sequência. Em algumas modalidades, o fragmento de DNA genômico é cfDNA.[0033] Particular embodiments are designed for a genomic DNA library comprising a plurality of DNA library fragments, wherein each of the DNA library fragments comprises an adapter and a genomic DNA fragment; wherein the adapter is a DNA polynucleotide comprising: an amplification region, a sample tag region, and an anchor region; wherein the amplification region comprises a polynucleotide sequence capable of serving as a primer recognition site for PCR amplification; wherein the sample tag comprises a polynucleotide sequence encoding an identity of the unique library DNA fragment and encoding an identity of the test sample; and wherein the anchor region comprises a polynucleotide sequence encoding the identity of the test sample, and wherein the anchor region is capable of binding to the genomic DNA fragment. In some embodiments, the sample tag further comprises a unique molecule identifier (UMI), wherein the UMI facilitates identification of the unique genomic DNA fragment. In particular embodiments, the amplification region is between 10 and 50 nucleotides in length. In particular embodiments, the amplification region is 25 nucleotides in length. In particular embodiments, the sample tag is between 5 and 50 nucleotides in length. In certain embodiments, the sample tag is 8 nucleotides in length. In some embodiments, the UMI multiplier is adjacent to or contained within the sample tag region. In particular embodiments, the UMI multiplier is between 1 and 5 nucleotides in length. In certain embodiments, the anchor region is between 1 and 50 nucleotides in length. In some embodiments, the anchor region is 10 nucleotides in length. In particular embodiments, the amplification regions of each adapter of the plurality of adapters comprise an identical nucleotide sequence. In some embodiments, each nucleotide sequence of the sample tags is distinct from any other sequence of the sample nucleotide sequences by a Hamming distance of at least two. In certain embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region. In particular embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to the sample tag region. In some embodiments, the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences, and wherein each sample region of a given sequence is matched to only one of the four anchor regions of a given sequence. In some embodiments, the genomic DNA fragment is cfDNA.

[0034] Em certas modalidades, as regiões de amplificação de cada adaptadorde entre a pluralidade de adaptadores compreendem uma sequência de nucleotídeos idêntica; a região da etiqueta de amostra de cada adaptador da pluralidade de adaptadores tem 8 nucleotídeos de comprimento; a região de etiqueta de amostra de cada adaptador da pluralidade de adaptadores compreende uma sequência nucleotídica que é distinta de qualquer outra sequência nucleotídica das etiquetas de amostra da pluralidade de adaptadores pela distância de Hamming de pelo menos dois; cada um da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente ou contido dentro da região de etiqueta de amostra, o multiplicador de UMI de cada adaptador da pluralidade de adaptadores tem três nucleotídeos de comprimento, e o multiplicador de UMI de cada uma das sequências nucleotídicas possíveis é pareado com cada uma das regiões de etiqueta de amostra da pluralidade de adaptadores, a região de etiqueta de âncora de cada adaptador da pluralidade de adaptadores compreende uma de quatro sequências nucleotídicas, e cada região de amostra de uma dada sequência é pareada com apenas uma das quatro regiões de âncora de uma determinada sequência. Em algumas modalidades, o fragmento de DNA genômico é cfDNA.[0034] In certain embodiments, the amplification regions of each adapter of the plurality of adapters comprises an identical nucleotide sequence; the sample tag region of each adapter of the plurality of adapters is 8 nucleotides in length; the sample tag region of each adapter of the plurality of adapters comprises a nucleotide sequence that is distinct from any other nucleotide sequence of the sample tags of the plurality of adapters by a Hamming distance of at least two; each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region, the UMI multiplier of each adapter of the plurality of adapters is three nucleotides in length, and the UMI multiplier of each of the possible nucleotide sequences is paired with each of the sample tag regions of the plurality of adapters, the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences, and each sample region of a given sequence is paired with only one of the four anchor regions of a given sequence. In some embodiments, the genomic DNA fragment is cfDNA.

[0035] Certas modalidades são desenhadas para uma pluralidade debibliotecas de DNA genômico, compreendendo mais do que uma biblioteca genômica aqui descrita. Em algumas modalidades, as sequências de ácido nucleico das regiões de etiqueta de amostra de uma biblioteca de DNA genômico pertencente à pluralidade de bibliotecas de DNA genômico são diferentes das sequências de ácido nucleico das regiões de etiqueta de amostra de outras bibliotecas de DNA genômico pertencentes à pluralidade de bibliotecas de DNA genômico. Em modalidades particulares, as sequências de ácido nucleico das regiões de amplificação de uma biblioteca de DNA genômico pertencente à pluralidade de bibliotecas de DNA genômico são idênticas às sequências de ácido nucleico das regiões de amplificação de outras bibliotecas de DNA genômico pertencentes à pluralidade de bibliotecas de DNA genômico.[0035] Certain embodiments are designed for a plurality of genomic DNA libraries, comprising more than one genomic library described herein. In some embodiments, the nucleic acid sequences of the sample tag regions of a genomic DNA library belonging to the plurality of genomic DNA libraries are different from the nucleic acid sequences of the sample tag regions of other genomic DNA libraries belonging to the plurality of genomic DNA libraries. In particular embodiments, the nucleic acid sequences of the amplification regions of a genomic DNA library belonging to the plurality of genomic DNA libraries are identical to the nucleic acid sequences of the amplification regions of other genomic DNA libraries belonging to the plurality of genomic DNA libraries.

[0036] Certas modalidades são desenhadas para um método para a análisegenética de uma região alvo de DNA de DNA livre de células (cfDNA) compreendendo: (a) gerar uma biblioteca de DNA como descrito aqui; (b) contatar a biblioteca de cfDNA com uma pluralidade de sondas de captura que se ligam especificamente a uma região alvo de DNA, formando assim complexos entre as sondas de captura e os fragmentos de biblioteca de DNA compreendendo a região alvo de DNA; e (c) realizar uma análise genética quantitativa dos fragmentos de cfDNA compreendendo a região alvo de DNA; realizando assim análise genética da região alvo de DNA.[0036] Certain embodiments are designed for a method for the genetic analysis of a DNA target region of cell-free DNA (cfDNA) comprising: (a) generating a DNA library as described herein; (b) contacting the cfDNA library with a plurality of capture probes that specifically bind to a DNA target region, thereby forming complexes between the capture probes and the DNA library fragments comprising the DNA target region; and (c) performing a quantitative genetic analysis of the cfDNA fragments comprising the DNA target region; thereby performing genetic analysis of the DNA target region.

[0037] Certas modalidades são dirigidas a um método de predizer,diagnosticar ou monitorar uma doença genética num sujeito, compreendendo: (a) obter uma amostra de teste do sujeito; (b) isolar o DNA genômico da amostra de teste; (c) gerar uma biblioteca de DNA compreendendo uma pluralidade de fragmentos de biblioteca de DNA, em que cada um dos fragmentos da biblioteca de DNA compreende um fragmento de DNA genômico da amostra de teste e um adaptador; (d) contatar a biblioteca de cfDNA com uma pluralidade de sondas de captura que se ligam especificamente a uma região alvo de DNA, formando assim complexos entre as sondas de captura e os fragmentos de biblioteca de DNA compreendendo a região alvo de DNA; e (e) realizar uma análise genética quantitativa de um ou mais loci genéticos alvo associados à doença genética na biblioteca de clones de cfDNA, em que a identificação ou detecção de uma ou mais lesões genéticas no um ou mais loci genéticos alvo é prognóstico para, diagnóstico ou monitora a progressão da doença genética. Em modalidades particulares, a análise genética quantitativa compreende sequenciamento de DNA para gerar uma pluralidade de leituras de sequenciamento.[0037] Certain embodiments are directed to a method of predicting, diagnosing, or monitoring a genetic disease in a subject, comprising: (a) obtaining a test sample from the subject; (b) isolating genomic DNA from the test sample; (c) generating a DNA library comprising a plurality of DNA library fragments, wherein each of the DNA library fragments comprises a genomic DNA fragment from the test sample and an adapter; (d) contacting the cfDNA library with a plurality of capture probes that specifically bind to a target DNA region, thereby forming complexes between the capture probes and the DNA library fragments comprising the target DNA region; and (e) performing a quantitative genetic analysis of one or more target genetic loci associated with the genetic disease in the cfDNA clone library, wherein the identification or detection of one or more genetic lesions at the one or more target genetic loci is prognostic for, diagnostic of, or monitors the progression of the genetic disease. In particular embodiments, quantitative genetic analysis comprises DNA sequencing to generate a plurality of sequencing reads.

[0038] Modalidades particulares são desenhadas para um conjunto deadaptadores que codificam uma identificação de um fragmento de DNA genômico único e uma identidade de uma amostra de teste, para uso na geração de uma biblioteca de DNA genômico, em que cada adaptador no referido conjunto de adaptadores é um polinucleotídeo de DNA que compreende: uma região de amplificação, uma região de etiqueta de amostra e uma região de âncora; em que a região de amplificação compreende uma sequência polinucleotídica capaz de servir como um sítio de reconhecimento de iniciadores para a amplificação por PCR; em que a etiqueta de amostra compreende uma sequência polinucleotídica que codifica a identidade do fragmento de DNA da biblioteca original e codifica a identidade da amostra de teste; e em que a região de âncora compreende uma sequência polinucleotídica que codifica a identidade da amostra de teste, e em que a região de âncora é capaz de ligar ao fragmento de DNA genômico. Em algumas modalidades, a etiqueta de amostra compreende ainda um identificador de molécula único (UMI), em que o UMI facilita a identificação do fragmento de DNA genômico único. Em várias modalidades, a região de amplificação tem entre 10 e 50 nucleotídeos de comprimento. Em certas modalidades, a região de amplificação tem 25 nucleotídeos de comprimento. Em modalidades particulares, a etiqueta de amostra tem entre 5 e 50 nucleotídeos de comprimento. Em algumas modalidades, a etiqueta de amostra tem 8 nucleotídeos de comprimento. Em modalidades particulares, o multiplicador de UMI é adjacente ou contido na região de etiqueta de amostra. Em algumas modalidades, o multiplicador de UMI tem entre 1 e 5 nucleotídeos de comprimento. Em modalidades particulares, a região de âncora tem entre 1 e 50 nucleotídeos de comprimento. Em algumas modalidades, a região de âncora tem 10 nucleotídeos de comprimento. Em certas modalidades, as regiões de amplificação de cada adaptador da pluralidade de adaptadores compreendem uma sequência nucleotídica idêntica.[0038] Particular embodiments are designed for a set of adapters encoding an identification of a unique genomic DNA fragment and an identity of a test sample, for use in generating a genomic DNA library, wherein each adapter in said set of adapters is a DNA polynucleotide comprising: an amplification region, a sample tag region, and an anchor region; wherein the amplification region comprises a polynucleotide sequence capable of serving as a primer recognition site for PCR amplification; wherein the sample tag comprises a polynucleotide sequence encoding the identity of the original library DNA fragment and encoding the identity of the test sample; and wherein the anchor region comprises a polynucleotide sequence encoding the identity of the test sample, and wherein the anchor region is capable of binding to the genomic DNA fragment. In some embodiments, the sample tag further comprises a unique molecule identifier (UMI), wherein the UMI facilitates identification of the unique genomic DNA fragment. In various embodiments, the amplification region is between 10 and 50 nucleotides in length. In certain embodiments, the amplification region is 25 nucleotides in length. In particular embodiments, the sample tag is between 5 and 50 nucleotides in length. In some embodiments, the sample tag is 8 nucleotides in length. In particular embodiments, the UMI multiplier is adjacent to or contained within the sample tag region. In some embodiments, the UMI multiplier is between 1 and 5 nucleotides in length. In particular embodiments, the anchor region is between 1 and 50 nucleotides in length. In some embodiments, the anchor region is 10 nucleotides in length. In certain embodiments, the amplification regions of each adapter of the plurality of adapters comprise an identical nucleotide sequence.

[0039] Em algumas modalidades, cada sequência nucleotídica das etiquetasde amostra é distinta de qualquer outra sequência nucleotídica das etiquetas de amostras do conjunto de adaptadores pela distância de Hamming de pelo menos dois. Em várias modalidades, cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente ou contido na região de etiqueta de amostra. Em modalidades particulares, cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que é adjacente à região de etiqueta de amostra.[0039] In some embodiments, each nucleotide sequence of the sample tags is distinct from any other nucleotide sequence of the sample tags of the set of adapters by a Hamming distance of at least two. In various embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region. In particular embodiments, each of the plurality of adapters comprises a UMI multiplier that is adjacent to the sample tag region.

[0040] Em algumas modalidades, a região de etiqueta de âncora de cadaadaptador da pluralidade de adaptadores compreende uma das quatro sequências de nucleotídeos, e em que cada região de amostra de uma dada sequência é pareada para apenas uma das quatro regiões de âncora de uma dada sequência. O conjunto de adaptadores, de acordo com a reivindicação 75, em que as regiões de amplificação de cada adaptador da pluralidade de adaptadores compreendem uma sequência nucleotídica idêntica; em que a região de etiqueta da amostra de cada adaptador tem 8 nucleotídeos de comprimento, em que cada sequência nucleotídica das etiquetas de amostra é distinta de qualquer outra sequência nucleotídica das etiquetas de amostra do conjunto de adaptadores pela distância de Hamming de, pelo menos, dois, em que cada uma da pluralidade de adaptadores compreende um multiplicador de UMI que está adjacente ou contido na região de etiqueta de amostra, em que o multiplicador de UMI de cada adaptador da pluralidade de adaptadores tem três nucleotídeos de comprimento, em que o multiplicador de UMI compreende uma das 64 sequências de nucleotídeos possíveis, e em que o multiplicador de UMI de cada uma das 64 sequências de nucleotídeos possíveis é pareado com cada uma das regiões de etiqueta de amostra da pluralidade de adaptadores, em que a região de etiqueta de âncora de cada adaptador da pluralidade de adaptadores compreende uma de quatro sequências nucleotídicas; e em que cada região de amostra de uma dada sequência é pareada com apenas uma das quatro regiões de âncora de uma determinada sequência.[0040] In some embodiments, the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences, and wherein each sample region of a given sequence is paired to only one of the four anchor regions of a given sequence. The set of adapters of claim 75, wherein the amplification regions of each adapter of the plurality of adapters comprise an identical nucleotide sequence; wherein the sample tag region of each adapter is 8 nucleotides in length, wherein each nucleotide sequence of the sample tags is distinct from any other nucleotide sequence of the sample tags of the set of adapters by a Hamming distance of at least two, wherein each of the plurality of adapters comprises a UMI multiplier that is adjacent to or contained within the sample tag region, wherein the UMI multiplier of each adapter of the plurality of adapters is three nucleotides in length, wherein the UMI multiplier comprises one of 64 possible nucleotide sequences, and wherein the UMI multiplier of each of the 64 possible nucleotide sequences is paired with each of the sample tag regions of the plurality of adapters, wherein the anchor tag region of each adapter of the plurality of adapters comprises one of four nucleotide sequences; and in which each sample region of a given sequence is paired with only one of the four anchor regions of a given sequence.

BRIEF DESCRIPTION OF THE VARIOUS VIEWS OF THE DRAWINGS

[0041] A FIG. 1 mostra a estrutura do ensaio de perda de número de cópias(CNL). Cada gene (linhas) exibe um valor de leitura único característico que é representado aqui por uma sombra. Cada amostra (colunas) é interrogada no mesmo painel de genes.[0041] FIG. 1 shows the structure of the copy number loss (CNL) assay. Each gene (rows) exhibits a characteristic unique read value that is represented here by a shadow. Each sample (columns) is interrogated on the same panel of genes.

[0042] A FIG. 2 mostra um diagrama que ilustra os acionadores do sinal doensaio CNL.[0042] FIG. 2 shows a diagram illustrating the CNL test signal drivers.

[0043] A FIG. 3 mostra um diagrama que ilustra as etapas de um ensaio CNLilustrativo realizado no DNA livre de células (cfDNA).[0043] FIG. 3 shows a diagram illustrating the steps of an illustrative CNL assay performed on cell-free DNA (cfDNA).

[0044] A FIG. 4A - 4E mostra diagramas de um adaptador de primeirageração ilustrativo (FIG. 4A e 4B) e um adaptador da presente invenção (FIGS. 4C-4E). A FIG. 4A mostra a concepção do adaptador de primeira geração. A FIG. 4B mostra que nos adaptadores de primeira geração, havia uma coleção de 249 etiquetas de sequência possíveis, cada 5 nucleotídeos (nt) de comprimento que está ligado a uma única sequência de âncora. A FIG. 4C mostra um diagrama de um adaptador de segunda geração. A FIG. 4D mostra um conjunto ilustrativo de adaptadores que são aplicados a uma amostra única que consiste em quatro conjuntos de sequências de etiqueta 8mer com cada conjunto tendo 60 membros. Cada conjunto de 60 etiquetas é específico para uma das quatro sequências de âncora. A FIG. 4E mostra uma sequência de DNA ilustrativa de um adaptador.[0044] FIG. 4A-4E show diagrams of an illustrative first-generation adapter (FIGs. 4A and 4B) and an adapter of the present invention (FIGS. 4C-4E). FIG. 4A shows the design of the first-generation adapter. FIG. 4B shows that in the first-generation adapters, there was a collection of 249 possible sequence tags, each 5 nucleotides (nt) in length that is linked to a single anchor sequence. FIG. 4C shows a diagram of a second-generation adapter. FIG. 4D shows an illustrative set of adapters that are applied to a single sample consisting of four sets of 8mer tag sequences with each set having 60 members. Each set of 60 tags is specific to one of the four anchor sequences. FIG. 4E shows an illustrative DNA sequence of an adapter.

[0045] As FIG. 5A - FIG. 5B mostram um diagrama que ilustra que deslocara posição do multiplicador de UMI na etiqueta de amostra pode aumentar o número de etiquetas de amostra únicas.[0045] FIGS. 5A - FIGS. 5B show a diagram illustrating that shifting the position of the UMI multiplier on the sample label can increase the number of unique sample labels.

[0046] As FIG. 6A e B mostram um diagrama que ilustra o processo deconstrução de bibliotecas genômicas para um ensaio CNL. A FIG. 6A mostra a etapa em que a sequência de âncora de 10 nt está ligada às extremidades 3' dos fragmentos genômicos. A FIG. 6B mostra a etapa em que os adaptadores genômicos de comprimento completo são ligados à sequência de âncora inicial.[0046] FIGS. 6A and B show a diagram illustrating the process of constructing genomic libraries for a CNL assay. FIG. 6A shows the step where the 10 nt anchor sequence is ligated to the 3' ends of the genomic fragments. FIG. 6B shows the step where the full-length genomic adapters are ligated to the initial anchor sequence.

[0047] A FIG. 7 mostra entradas de DNA em bibliotecas CNL. Imagens degel de agarose são mostradas com os tamanhos de marcadores (bp) indicados à esquerda.[0047] FIG. 7 shows DNA entries into CNL libraries. Agarose gel images are shown with marker sizes (bp) indicated on the left.

[0048] As FIG. 8A - FIG. 8C mostram gráficos de caixa e aparasconvencionais de cópias de genes medidos em oito amostras, conforme determinado por análise de CNL.[0048] FIGS. 8A - FIGS. 8C show conventional box and plot plots of gene copies measured in eight samples, as determined by CNL analysis.

[0049] As FIG. 9A - FIG. 9B mostram gráficos de valor P Logio quequantificam desvio significativo do normal em medições de CNL para amostras genômicas fragmentadas. As porcentagens de SNP no topo mostram as frequências alélicas menores de SNPs heterozigotos raros que estão presentes nas amostras de ΔATM e ΔBRCA2.[0049] FIGS. 9A-FIG. 9B show Logio P-value plots that quantify significant deviation from normal in CNL measurements for fragmented genomic samples. The SNP percentages at the top show the minor allele frequencies of rare heterozygous SNPs that are present in the ΔATM and ΔBRCA2 samples.

[0050] As FIG. 10A - FIG. 10B mostram gráficos de valor P Log10 quequantificam desvio significativo do normal em medições de CNL para amostras de cfDNA contaminadas com DNA genômico fragmentado. As porcentagens de SNP no topo mostram as frequências alélicas menores de SNPs heterozigotos raros que estão presentes nas amostras de ΔATM e ΔBRCA2.[0050] FIGS. 10A-FIG. 10B show Log10 P-value plots that quantify significant deviation from normal in CNL measurements for cfDNA samples contaminated with fragmented genomic DNA. The SNP percentages at the top show the minor allele frequencies of rare heterozygous SNPs that are present in the ΔATM and ΔBRCA2 samples.

[0051] As FIG. 11A - 11D ilustram a plataforma de captura híbridadirecionada. A FIG. 11A mostra a conversão de cfDNA numa biblioteca genômica pela adição de sequências adaptadoras que proporcionam sequências de amplificação por PCR de iniciador único universais, etiquetas de multiplexagem de amostras e identificadores moleculares únicos para cada clone genômico. A FIG. 11B mostra genoma amplificado desnaturado hibridizado com sondas de captura específicas do alvo e extensão do iniciador. A FIG. 11C mostra um esquema de sequenciamento de extremidade pareada assimétrica. A FIG. 11D mostra estatísticas de mapeamento para leituras 377.711.020 Illumina NextSeq a partir de uma execução de sequência de captura direcionada típica. 98,5% das leituras mapeiam para os alvos pretendidos. Após a desduplicação, 20,40% das leituras (77.053.048) são derivadas de clones genômicos únicos.[0051] FIGS. 11A-11D illustrate the targeted hybrid capture platform. FIG. 11A shows the conversion of cfDNA into a genomic library by the addition of adapter sequences that provide universal single-primer PCR amplification sequences, sample multiplexing tags, and unique molecular identifiers for each genomic clone. FIG. 11B shows denatured amplified genome hybridized with target-specific capture probes and primer extension. FIG. 11C shows an asymmetric paired-end sequencing scheme. FIG. 11D shows mapping statistics for 377,711,020 Illumina NextSeq reads from a typical targeted capture sequencing run. 98.5% of the reads map to the intended targets. After deduplication, 20.40% of the reads (77,053,048) are derived from unique genomic clones.

[0052] As FIG. 12A - FIG. 12H mostram sequências de oligonucleotídeosadaptadores dos Agrupamentos 1 - 3.[0052] FIGS. 12A - FIGS. 12H show linker oligonucleotide sequences from Clusters 1 - 3.

[0053] As FIG. 13A - FIG. 13H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 4 - 6.[0053] FIGS. 13A - FIGS. 13H show adaptor oligonucleotide sequences from Clusters 4 - 6.

[0054] As FIG. 14A - FIG. 14I mostram sequências oligonucleotídicasadaptadores dos Agrupamentos 7 - 9.[0054] FIGS. 14A - FIGS. 14I show adapter oligonucleotide sequences from Clusters 7 - 9.

[0055] As FIG. 15A - FIG. 15H mostram sequências oligonucleotídicasadaptadores dos Agrupamentos 10 - 12.[0055] FIGS. 15A - FIGS. 15H show adapter oligonucleotide sequences from Clusters 10 - 12.

[0056] As FIG. 16A - FIG. 16H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 13 - 15.[0056] FIGS. 16A - FIGS. 16H show adaptor oligonucleotide sequences from Clusters 13 - 15.

[0057] As FIG. 17A - FIG. 18H mostram sequências oligonucleotídicasadaptadores dos Agrupamentos 16 - 18.[0057] FIGS. 17A - FIGS. 18H show adapter oligonucleotide sequences from Clusters 16 - 18.

[0058] As FIG. 18A - FIG. 18H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 19 - 21.[0058] FIGS. 18A - FIGS. 18H show adaptor oligonucleotide sequences from Clusters 19 - 21.

[0059] As FIG. 19A - FIG. 19H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 22 - 24.[0059] FIGS. 19A - FIGS. 19H show adaptor oligonucleotide sequences from Clusters 22 - 24.

[0060] As FIG. 20A - FIG. 20H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 25 - 27.[0060] FIGS. 20A - FIGS. 20H show adaptor oligonucleotide sequences from Clusters 25 - 27.

[0061] As FIG. 21A - FIG. 21H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 28 - 30.[0061] FIGS. 21A - FIGS. 21H show adaptor oligonucleotide sequences from Clusters 28 - 30.

[0062] As FIG. 22A - FIG. 22H mostram sequências oligonucleotídicas deadaptadores dos Agrupamentos 31 - 32.[0062] FIGS. 22A - FIGS. 22H show adaptor oligonucleotide sequences from Clusters 31 - 32.

[0063] As FIG. 23A - 23C mostram sequenciamento direcionado do geneTP53. A FIG. 23A ilustra a exibição BedFile de sondas de captura. A FIG. 23B ilustra a profundidade de cobertura em cada posição base numa escala de 0 a 8000 leituras únicas. A FIG. 23C ilustra uma exibição do modelo do gene UCSC de variantes de splice conhecidas do TP53. As regiões retangulares mais espessas representam as regiões codificantes de aminoácidos para a proteína codificada por TP53.[0063] FIGS. 23A-23C show targeted sequencing of the TP53 gene. FIG. 23A illustrates the BedFile display of capture probes. FIG. 23B illustrates the depth of coverage at each base position on a scale of 0 to 8000 unique reads. FIG. 23C illustrates a display of the UCSC gene model of known splice variants of TP53. The thicker rectangular regions represent the amino acid coding regions for the protein encoded by TP53.

[0064] As FIG. 24A - 24C ilustram a densidade de leitura única bruta enormalizada para uma única sonda, TP53r10_1, em 16 amostras. A FIG. 24A ilustra o número de capturas de leituras únicas brutas pela sonda TP53r10_1 para 16 amostras independentes após a remoção de leituras redundantes por “desduplicação”. A FIG. 24B mostra a média global de leituras únicas em 2596 sondas de captura para todas as 16 amostras. A FIG. 24C mostra a profundidade de leitura única normalizada em 16 amostras (calculada como: [leituras únicas de amostra n da sonda TP53r10_1 x leituras únicas de constante + média global /sonda da amostra n ]).[0064] FIGS. 24A-24C illustrate the normalized raw unique read density for a single probe, TP53r10_1, across 16 samples. FIG. 24A illustrates the number of raw unique reads captured by the TP53r10_1 probe for 16 independent samples after removing redundant reads by “deduplication.” FIG. 24B shows the overall average of unique reads across 2596 capture probes for all 16 samples. FIG. 24C shows the normalized unique read depth across 16 samples (calculated as: [TP53r10_1 probe sample n unique reads x constant + overall average /sample n unique reads]).

[0065] A FIG. 25 mostra a consistência geral das contagens de leituras únicasnormalizadas para todas as 16 amostras dentro de qualquer dada sonda TP53, apesar da variação média significativa da profundidade entre as sondas. As contagens de leitura únicas normalizadas para todas as 16 amostras são mostradas como “pilares” de gráficos de barra bem espaçados; os resultados para todas as 45 sondas que direcionam TP53 são mostrados. Duas sondas que exibem um comportamento de contagem “ruidosa” são destacadas com setas. Contagens de tais sondas frequentemente aparecem como outliers na análise subsequente do número de cópias.[0065] FIG. 25 shows the overall consistency of normalized unique read counts for all 16 samples within any given TP53 probe, despite significant average depth variation between probes. Normalized unique read counts for all 16 samples are shown as well-spaced bar graph “pillars”; results for all 45 probes targeting TP53 are shown. Two probes that exhibit “noisy” counting behavior are highlighted with arrows. Counts from such probes often appear as outliers in subsequent copy number analysis.

[0066] A FIG. 26 ilustra a consistência amostra-a-amostra de contagens deleitura únicas sonda-por-sonda normalizada através de um painel amplo de 2596 sondas. Os gráficos de dispersão de três amostras representativas são mostrados. Cada ponto representa uma sonda diferente. O eixo x é a profundidade de leitura única média normalizada por sonda em 16 amostras. O eixo y é a profundidade de leitura única normalizada por sonda para três amostras individuais diferentes. As contagens de leitura únicas sonda-por-sonda consistentes suportam a análise quantitativa da variação da cópia cromossômica.[0066] FIG. 26 illustrates the sample-to-sample consistency of normalized probe-by-probe unique read counts across a large panel of 2596 probes. Scatterplots of three representative samples are shown. Each point represents a different probe. The x-axis is the average normalized unique read depth per probe across 16 samples. The y-axis is the normalized unique read depth per probe for three different individual samples. Consistent probe-by-probe unique read counts support quantitative analysis of chromosomal copy variation.

[0067] As FIG. 27A - 27C ilustram a análise do número de cópias de cfDNAde um doador saudável, feminino e masculino, e de um paciente com câncer de próstata em estágio avançado. A FIG. 27A mostra a análise de um cfDNA de uma doador saudável. O eixo x é uma série de sondas de controle que direcionam regiões de todos os 22 cromossomos autossômicos, uma série de sondas que direcionam o gene AR ligado o X e uma série de sondas que direcionam as regiões de codificação do gene TP53. O eixo Y mostra a ploidia calculada para cada sonda. Essa aproximação é calculada para cada sonda normalizando as contagens de leitura únicas observadas para uma série de amostras de controle cuja ploidia é conhecida ([contagem de leitura única para a sonda_Y da amostra _Z] x 2 + [contagem de leitura única média para a sonda_Y para múltiplas amostras de controle]). A FIG. 27B ilustra que o gene AR ligado a X exibe um número de cópias haploides em machos saudáveis. A FIG. 27C ilustra a análise do número de cópias de cfDNA de um paciente com câncer de próstata avançado e mostra evidência de aneuploidia muito significativa entre as sondas de controle, amplificação do gene AR e perda do gene TP53.[0067] FIGS. 27A-27C illustrate the copy number analysis of cfDNA from a healthy female and male donor and from a patient with advanced prostate cancer. FIG. 27A shows the analysis of cfDNA from a healthy donor. The x-axis is a series of control probes targeting regions of all 22 autosomal chromosomes, a series of probes targeting the X-linked AR gene, and a series of probes targeting the coding regions of the TP53 gene. The Y-axis shows the calculated ploidy for each probe. This approximation is calculated for each probe by normalizing the observed unique read counts to a series of control samples whose ploidy is known ([unique read count for probe_Y from sample _Z] x 2 + [average unique read count for probe_Y for multiple control samples]). FIG. 27B illustrates that the X-linked AR gene exhibits a haploid copy number in healthy males. FIG. 27C illustrates copy number analysis of cfDNA from a patient with advanced prostate cancer and shows evidence of highly significant aneuploidy among the control probes, amplification of the AR gene, and loss of the TP53 gene.

[0068] A FIG. 28 mostra a análise de aneuploidia do genoma completo deuma biblioteca de cfDNA de paciente de próstata em relação a uma amostra de controle. A ploidia aproximada para cada uma das 239 sondas de controle é mostrada classificada por cromossomo. As sondas do cromossomo 2 do paciente mostram uma perda de cópia consistente e a maioria das sondas do cromossomo 5 mostra ganho de cópia. Desvios significativos de ploidia aproximada são vistos por muitas, mas não todas, as sondas de controle do paciente.[0068] FIG. 28 shows whole-genome aneuploidy analysis of a prostate patient cfDNA library relative to a control sample. The approximate ploidy for each of the 239 control probes is shown sorted by chromosome. The patient chromosome 2 probes show consistent copy loss, and most of the chromosome 5 probes show copy gain. Significant deviations from approximate ploidy are seen for many, but not all, of the patient control probes.

[0069] A FIG. 29 mostra a validação analítica da detecção de perda denúmero de cópias. O DNA genômico da linha imortalizada NA02718 ( ΔATM monoalélica) e da NA09596 ( ΔBRCA2 monoalélica) foi adicionado ao DNA genômico “padrão ouro” de NA12878 a 16%, resultando no equivalente a uma frequência alélica menor de deleção bialélica de 8%. Após sequenciamento dirigido e análise CNV, calculou-se a média das ploidias sonda-por-sonda para os dois genes alvo. Dois genes de controle não perturbados, BRIP1 e HDAC2, são mostrados para comparação.[0069] FIG. 29 shows the analytical validation of copy number loss detection. Genomic DNA from the immortalized line NA02718 (monoallelic ΔATM) and NA09596 (monoallelic ΔBRCA2) was spiked into the 16% “gold standard” genomic DNA of NA12878, resulting in the equivalent of a biallelic deletion minor allele frequency of 8%. After targeted sequencing and CNV analysis, the probe-by-probe ploidies for the two target genes were averaged. Two unperturbed control genes, BRIP1 and HDAC2, are shown for comparison.

DETAILED DESCRIPTION A. OVERVIEW

[0070] A presente invenção inclui, inter alia, composições e métodos que sãoúteis para a detecção de uma alteração mutacional, SNP, translocação, inversão, deleção, alteração no número de cópias ou outra variação genética dentro de uma amostra de DNA genômico celular (por exemplo, de uma amostra de biópsia de tecido) ou cfDNA (por exemplo , de uma amostra de sangue). As composições e métodos da presente invenção são particularmente úteis na detecção de variações de número de cópias incrivelmente difíceis de detectar em cfDNA a partir de uma amostra biológica (por exemplo, sangue) com resolução requintada. Em particular, algumas modalidades da presente invenção são desenhadas para um método para detectar o número de cópias de uma região alvo de DNA a partir de uma amostra de teste, gerando uma biblioteca de DNA genômico constituída por fragmentos de DNA genômico ligados a um adaptador, capturar regiões alvo de DNA com uma pluralidade de sondas de captura, isolar os fragmentos da biblioteca de DNA compreendendo a região alvo de DNA e realizar uma análise genética quantitativa da região alvo de DNA para desse modo determinar o número de cópias da região alvo de DNA. Os adaptadores aqui descritos permitem a identificação do fragmento de DNA individual que está sendo sequenciado, bem como a identidade da amostra ou fonte do DNA genômico.[0070] The present invention includes, inter alia, compositions and methods that are useful for detecting a mutational alteration, SNP, translocation, inversion, deletion, copy number change, or other genetic variation within a sample of cellular genomic DNA (e.g., from a tissue biopsy sample) or cfDNA (e.g., from a blood sample). The compositions and methods of the present invention are particularly useful in detecting incredibly difficult-to-detect copy number variations in cfDNA from a biological sample (e.g., blood) with exquisite resolution. In particular, some embodiments of the present invention relate to a method for detecting the copy number of a target DNA region from a test sample by generating a genomic DNA library consisting of genomic DNA fragments ligated to an adapter, capturing target DNA regions with a plurality of capture probes, isolating fragments from the DNA library comprising the target DNA region, and performing a quantitative genetic analysis of the target DNA region to thereby determine the copy number of the target DNA region. The adapters described herein allow identification of the individual DNA fragment being sequenced, as well as the identity of the sample or source of the genomic DNA.

[0071] A presente invenção contempla, em partes, composições e métodospara detecção de mudanças no número de cópias específicas do alvo que são aplicáveis a vários tipos de amostras, incluindo, mas não se limitando a, biópsias teciduais diretas e sangue periférico. No contexto da genômica do câncer e, em particular, ensaios de DNA livre de células (cfdNA) para a análise de tumores sólidos, a quantidade de DNA do tumor é frequentemente uma fração muito pequena do DNA total. Além disso, a perda do número de cópias é difícil de detectar em ensaios de DNA genômico e, em particular, ensaios de DNA genômico nos quais a alteração do número de cópias pode estar apenas presente numa porção do DNA genômico total de uma amostra, por exemplo ensaios de cfDNA. Por exemplo, a maior parte do DNA livre de células extraído de um paciente com câncer será derivado de fontes normais e terá um número de cópias diploide (exceto para genes ligados a X em sujeitos do sexo masculino). Em um paciente com câncer, a fração de DNA derivada de tumores geralmente tem uma frequência alélica menor, como, por exemplo, um paciente no qual 2% do DNA circulante extraído do plasma é derivado do tumor. A perda de uma cópia de um gene supressor de tumor (por exemplo, BRCA1 no câncer de mama) significa que a menor frequência alélica para a ausência de fragmentos genômicos detectáveis é de 1%. Neste cenário, um ensaio de perda de número de cópias modificado deve ser capaz de discriminar entre 100 cópias (normal) e 99 cópias (perda genética heterozigótica). Assim, modalidades particulares contemplam que os métodos e composições da presente invenção permitem a detecção da alteração do número de cópias com resolução suficiente para detectar alterações no número de cópias em frequências alélicas menores, mesmo no contexto de cfDNA.[0071] The present invention contemplates, in part, compositions and methods for detecting target-specific copy number changes that are applicable to various sample types, including, but not limited to, direct tissue biopsies and peripheral blood. In the context of cancer genomics, and in particular, cell-free DNA (cfDNA) assays for the analysis of solid tumors, the amount of tumor DNA is often a very small fraction of the total DNA. Furthermore, copy number loss is difficult to detect in genomic DNA assays, and in particular, genomic DNA assays in which the copy number change may only be present in a portion of the total genomic DNA of a sample, e.g., cfDNA assays. For example, most of the cell-free DNA extracted from a cancer patient will be derived from normal sources and will have a diploid copy number (except for X-linked genes in male subjects). In a cancer patient, the tumor-derived DNA fraction generally has a minor allele frequency, such as a patient in whom 2% of circulating DNA extracted from plasma is tumor-derived. The loss of one copy of a tumor suppressor gene (e.g., BRCA1 in breast cancer) means that the minor allele frequency for the absence of detectable genomic fragments is 1%. In this scenario, a modified copy number loss assay must be able to discriminate between 100 copies (normal) and 99 copies (heterozygous gene loss). Thus, particular embodiments contemplate that the methods and compositions of the present invention allow for the detection of copy number alterations with sufficient resolution to detect copy number alterations at minor allele frequencies, even in the context of cfDNA.

[0072] Para atingir este nível de discriminação, a presente invençãoproporciona novas concepções de adaptadores de amostras. Os adaptadores da presente invenção são projetados para incluir recursos que são críticos para o desempenho bem- sucedido do ensaio de perda de número de cópias, incluindo (i) desempenho uniforme entre adaptadores; (ii) um elevado número de identificadores de moléculas únicos (UMIs); (iii) ligação de alta eficiência; e (iv) acomodação de multiplexação de amostras. Por exemplo, os adaptadores da presente invenção proporcionam o seguinte:[0072] To achieve this level of discrimination, the present invention provides novel sample adapter designs. The adapters of the present invention are designed to include features that are critical for successful copy number loss assay performance, including (i) uniform performance across adapters; (ii) a high number of unique molecule identifiers (UMIs); (iii) high-efficiency binding; and (iv) accommodation of sample multiplexing. For example, the adapters of the present invention provide the following:

[0073] Desempenho uniforme em todos os adaptadores: A análise debioinformática geralmente analisa o desempenho de sonda intra-amostra e o desempenho de sonda entre amostras. Assim, é contemplado que qualquer flutuação de desempenho entre os conjuntos de adaptadores nas amostras terá um impacto negativo na capacidade de detectar as sutis variações exigidas pela análise de CNL. Na presente invenção, esta uniformidade de desempenho é alcançada tendo múltiplas etiquetas de âncora que são todas representadas em cada conjunto de etiquetas de amostra, com as regiões de etiquetas de amostra fixas (que servem para identificar a amostra e os fragmentos genômicos) sendo selecionadas aleatoriamente para cada agrupamento e um multiplicador de UMI que aumenta as sequências de etiquetas de amostra únicas para identificar os fragmentos genômicos.[0073] Uniform performance across adapters: Bioinformatics analysis typically analyzes both intra-sample probe performance and inter-sample probe performance. Thus, it is contemplated that any performance fluctuation between adapter sets in samples will negatively impact the ability to detect the subtle variations required by CNL analysis. In the present invention, this uniformity of performance is achieved by having multiple anchor tags that are all represented in each sample tag set, with the fixed sample tag regions (which serve to identify the sample and genomic fragments) being randomly selected for each pool, and a UMI multiplier that increases the unique sample tag sequences to identify the genomic fragments.

[0074] Alto número de Identificadores de Moléculas Únicos (UMIs):Embora os adaptadores devam ser funcionalmente equivalentes de uma perspectiva de biologia molecular, eles devem possuir um número muito grande de etiquetas de sequência única (> 10.000) que aumentam a identificação de fragmentos genômicos únicos. Neste contexto, por "aumento", entende-se que cada fragmento do clone genômico tem um par particular de sítios de fragmentação correspondendo à posição na sequência genômica onde o DNA de fita dupla foi clivado. Este local de clivagem utilizado para diferenciar clones genômicos únicos uma vez que cada clone provavelmente possui um sítio de clivagem diferente. No entanto, em bibliotecas que possuem milhares de clones independentes, os fragmentos unicamente derivados possuem os mesmos sítios de clivagem. Os clones genômicos (isto é, fragmentos) que compartilham o mesmo sítio de clivagem podem ser classificados como únicos ou redundantes em relação a outras sequências de clones derivadas da mesma amostra. Ao anexar adaptadores que introduzem uma alta diversidade de etiquetas de sequência, diferentes clones genômicos que compartilham o mesmo sítio de clivagem têm maior probabilidade de serem identificados como únicos. Neste sistema, o UMI é criado por uma combinação da região da etiqueta de amostra com o multiplicador de UMI. A combinação do UMI e do sítio de clivagem cria um elemento identificador molecular único (UMIE), que facilita a classificação de leituras de sequência como leituras redundantes ou leituras únicas. Modalidades particulares contemplam que o multiplicador de UMI poderia compreender sequências mais longas ou mais curtas para aumentar ou diminuir a complexidade geral do UMI.[0074] High number of Unique Molecule Identifiers (UMIs): Although adapters must be functionally equivalent from a molecular biology perspective, they must possess a very large number of unique sequence tags (>10,000) that enhance the identification of unique genomic fragments. In this context, by "enhancement" we mean that each fragment of the genomic clone has a particular pair of fragmentation sites corresponding to the position in the genomic sequence where the double-stranded DNA was cleaved. This cleavage site is used to differentiate unique genomic clones since each clone likely has a different cleavage site. However, in libraries containing thousands of independent clones, uniquely derived fragments have the same cleavage sites. Genomic clones (i.e., fragments) that share the same cleavage site can be classified as unique or redundant relative to other clone sequences derived from the same sample. By attaching adapters that introduce a high diversity of sequence tags, different genomic clones that share the same cleavage site are more likely to be identified as unique. In this system, the UMI is created by combining the sample tag region with the UMI multiplier. The combination of the UMI and the cleavage site creates a unique molecular identifier element (UMIE), which facilitates the classification of sequence reads as redundant or unique reads. Particular embodiments contemplate that the UMI multiplier could comprise longer or shorter sequences to increase or decrease the overall complexity of the UMI.

[0075] Ligação de alta eficiência: os adaptadores devem se ligar a fragmentosgenômicos com alta eficiência. Na maioria das aplicações oncológicas, as quantidades de DNA celular disponível ou cfDNA são limitadas e, portanto, a conversão desses fragmentos genômicos em clones de bibliotecas genômicas deve ser altamente eficiente. Para se obter isso, em alguns aspectos da presente invenção, os sistemas de adaptadores aqui descritos convertem cerca de 25% a cerca de 50% ou mais dos fragmentos de entrada genômicos são convertidos em clones da biblioteca genômica.[0075] High-efficiency ligation: Adapters must ligate to genomic fragments with high efficiency. In most oncology applications, the amounts of available cellular DNA or cfDNA are limited, and therefore, the conversion of these genomic fragments into genomic library clones must be highly efficient. To achieve this, in some aspects of the present invention, the adapter systems described herein convert from about 25% to about 50% or more of the input genomic fragments into genomic library clones.

[0076] Acomodação de multiplexação de amostra: Em geral, deve haveragrupamentos de diferentes conjuntos de adaptadores em que cada adaptador exclusivo do conjunto é ligado a uma amostra diferente. Ao mesmo tempo, cada membro do conjunto de adaptadores deve possuir comportamento essencialmente idêntico (de uma perspectiva de contagem de sequência) a todos os outros membros em um conjunto. Para se obter isto, em algumas modalidades, as regiões de etiqueta de amostra têm uma distância de Hamming de 2 entre quaisquer outras combinações de etiqueta de amostra possíveis reduzindo a chance de uma leitura ser atribuída falsamente à amostra errada. Em algumas modalidades, cada conjunto de adaptadores é dividido em conjuntos que estão pareados com regiões de âncora específicas, permitindo uma redução adicional na possibilidade de um erro na desmultiplexação de amostras. Por exemplo, em uma etiqueta 8mer com uma distância de Hamming de 2, o número total de sequências possíveis é 16.384.[0076] Accommodating sample multiplexing: In general, there should be groupings of different adapter sets where each unique adapter in the set is ligated to a different sample. At the same time, each member of the adapter set should have essentially identical behavior (from a sequence count perspective) to all other members in a set. To achieve this, in some embodiments, the sample tag regions have a Hamming distance of 2 between any other possible sample tag combinations, reducing the chance of a read being falsely assigned to the wrong sample. In some embodiments, each adapter set is divided into sets that are paired with specific anchor regions, allowing for a further reduction in the possibility of an error in sample demultiplexing. For example, in an 8mer tag with a Hamming distance of 2, the total number of possible sequences is 16,384.

[0077] Numa modalidade particular, são proporcionados conjuntos pré-especificados de oligonucleotídeos adaptadores. Esses agrupamentos pré-especificados são usados para representar uma única amostra. Ou seja, cada sequência de adaptador em cada conjunto de oligonucleotídeos adaptadores X (16.384 no exemplo dado acima) é distinta de cada sequência de adaptador em todos os outros conjuntos utilizados para identificar outras amostras. Um versado na técnica reconhecerá que o número de conjuntos distintos pré- especificados que são possíveis para os oligonucleotídeos adaptadores dependerá do comprimento da etiqueta de amostra e/ou do multiplicador de UMI.[0077] In a particular embodiment, pre-specified sets of adapter oligonucleotides are provided. These pre-specified pools are used to represent a single sample. That is, each adapter sequence in each set of adapter oligonucleotides X (16,384 in the example given above) is distinct from each adapter sequence in all other sets used to identify other samples. One of skill in the art will recognize that the number of distinct pre-specified sets that are possible for the adapter oligonucleotides will depend on the length of the sample tag and/or the UMI multiplier.

[0078] Assim, em certas modalidades, os adaptadores compreendem umasequência, isto é, a etiqueta de amostra e o multiplicador de UMI adjacente e/ou englobado que representa ou identifica a amostra e identifica unicamente o fragmento genético. Isto está em contraste gritante com os sistemas atuais que são usados na técnica que usam uma etiqueta gerada aleatoriamente para identificar a sequência e um código de barras separado ou indexação do sequenciador para permitir a multiplexação.[0078] Thus, in certain embodiments, the adapters comprise a sequence, i.e., the sample tag and the adjacent and/or encompassed UMI multiplier that represents or identifies the sample and uniquely identifies the genetic fragment. This is in stark contrast to current systems used in the art that use a randomly generated tag to identify the sequence and a separate barcode or sequencer indexing to enable multiplexing.

[0079] Uma modalidade ilustrativa para detectar alterações no número decópias específicas do alvo dentro do DNA obtido a partir de uma amostra é mostrada na FIG. 3. Enquanto a FIG. 3 gera uma biblioteca de DNA a partir de cfDNA, este procedimento ilustrativo pode ser usado com DNA de outras fontes, por exemplo, DNA celular fragmentado. Como mostrado na FIG. 3, o cfDNA é coletado (painel superior). Em seguida, uma biblioteca genômica é gerada a partir de cfDNA, conjugando adaptadores de biblioteca genômica (círculos cinzentos) da presente invenção ao DNA genômico. Fragmentos de DNA genômico são capturados com sondas de captura (círculos pretos) que reconhecem a região genômica de interesse. O DNA genômico de interesse é sequenciado, e a análise dos dados é realizada para análise de perda de cópia e/ou caracterização do DNA genômico de interesse.[0079] An illustrative embodiment for detecting target-specific copy number changes within DNA obtained from a sample is shown in FIG. 3. While FIG. 3 generates a DNA library from cfDNA, this illustrative procedure can be used with DNA from other sources, e.g., fragmented cellular DNA. As shown in FIG. 3, cfDNA is collected (top panel). Next, a genomic library is generated from the cfDNA by conjugating genomic library adapters (gray circles) of the present invention to the genomic DNA. Genomic DNA fragments are captured with capture probes (black circles) that recognize the genomic region of interest. The genomic DNA of interest is sequenced, and data analysis is performed for copy loss analysis and/or characterization of the genomic DNA of interest.

[0080] A prática de modalidades particulares da invenção empregará, amenos que indicado especificamente em contrário, métodos convencionais de química, bioquímica, química orgânica, biologia molecular, microbiologia, técnicas de DNA recombinante, genética, imunologia e biologia celular que estão dentro da habilidade da técnica, muitos dos quais são descritos abaixo com o propósito de ilustração. Tais técnicas são explicadas por completo na literatura. Ver, por exemplo, Sambrook, et al., Molecular Cloning: A Laboratory Manual (3rd Edition, 2001); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Maniatis et al., Molecular Cloning: A Laboratory Manual (1982); Ausubel et al., Current Protocols in Molecular Biology (John Wiley and Sons, updated July 2008); Short Protocols in Molecular Biology: A Compendium of Methods from Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley- Interscience; Glover, DNA Cloning: A Practical Approach, vol. I & II (IRL Press, Oxford, 1985); Anand, Techniques for the Analysis of Complex Genomes, (Academic Press, New York, 1992); Transcription and Translation (B. Hames & S. Higgins, Eds., 1984); Perbal, A Practical Guide to Molecular Cloning (1984); e Harlow and Lane, Antibodies, (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1998).[0080] The practice of particular embodiments of the invention will employ, unless specifically indicated otherwise, conventional methods of chemistry, biochemistry, organic chemistry, molecular biology, microbiology, recombinant DNA techniques, genetics, immunology, and cell biology that are within the skill of the art, many of which are described below for purposes of illustration. Such techniques are fully explained in the literature. See, for example, Sambrook, et al., Molecular Cloning: A Laboratory Manual (3rd Edition, 2001); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Maniatis et al., Molecular Cloning: A Laboratory Manual (1982); Ausubel et al., Current Protocols in Molecular Biology (John Wiley and Sons, updated July 2008); Short Protocols in Molecular Biology: A Compendium of Methods from Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley-Interscience; Glover, DNA Cloning: A Practical Approach, vol. I & II (IRL Press, Oxford, 1985); Anand, Techniques for the Analysis of Complex Genomes, (Academic Press, New York, 1992); Transcription and Translation (B. Hames & S. Higgins, Eds., 1984); Perbal, A Practical Guide to Molecular Cloning (1984); and Harlow and Lane, Antibodies, (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1998).

B. DEFINITIONS

[0081] A menos que definido de outra forma, todos os termos técnicos ecientíficos neste documento têm o mesmo significado que tão comumente compreendido por aqueles versados comuns na técnica ao qual pertence a invenção. Embora qualquer métodos e materiais similares ou equivalentes para aqueles descritos neste documento, possam ser usados na prática ou teste da presente invenção, modalidades preferidas de composições, métodos e materiais são aqui descritas. Para os fins da presente invenção, os seguintes termos são definidos abaixo.[0081] Unless otherwise defined, all technical and scientific terms in this document have the same meaning as is commonly understood by those of ordinary skill in the art to which the invention belongs. Although any methods and materials similar or equivalent to those described herein may be used in the practice or testing of the present invention, preferred embodiments of compositions, methods, and materials are described herein. For purposes of the present invention, the following terms are defined below.

[0082] Os artigos “um,” “uma,” e “o/a” são usados aqui para se referir a umou mais de um (isto é a pelo menos um) do objeto gramatical do artigo. A título de exemplo, "um elemento" significa um elemento ou mais de um elemento.[0082] The articles “a,” “an,” and “the” are used here to refer to one or more than one (i.e., at least one) of the grammatical object of the article. By way of example, "an element" means one element or more than one element.

[0083] O uso da alternativa (por exemplo, “ou”) deve ser entendido comosignificando uma, ambas ou qualquer combinação das alternativas.[0083] The use of the alternative (e.g., “or”) should be understood to mean one, both, or any combination of the alternatives.

[0084] O termo “e/ou” deve ser entendido como significando uma ou ambasas alternativas.[0084] The term “and/or” should be understood as meaning one or both of the alternatives.

[0085] Tal como aqui utilizado, o termo "cerca de" ou "aproximadamente"refere-se a uma quantidade, nível, valor, número, frequência, porcentagem, dimensão, tamanho, quantidade, peso ou comprimento que varia em até 15%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2% ou 1% para uma quantidade de referência, nível, valor, número, frequência, porcentagem, dimensão, tamanho, quantidade, peso ou comprimento. Numa modalidade, o termo "cerca" ou "aproximadamente" refere-se a um intervalo de quantidade, nível, valor, número, frequência, porcentagem, dimensão, tamanho, quantidade, peso ou comprimento ± 15%, ± 10%, ± 9%, ± 8%, ± 7%, ± 6%, ± 5%, ± 4%, ± 3%, ± 2%, ou ± 1% sobre uma quantidade de referência, nível, valor, número, frequência, porcentagem, dimensão, tamanho, quantidade, peso ou comprimento.[0085] As used herein, the term "about" or "approximately" refers to an amount, level, value, number, frequency, percentage, dimension, size, quantity, weight, or length that varies by up to 15%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, or 1% from a reference amount, level, value, number, frequency, percentage, dimension, size, quantity, weight, or length. In one embodiment, the term "about" or "approximately" refers to a range of amount, level, value, number, frequency, percentage, dimension, size, quantity, weight, or length ± 15%, ± 10%, ± 9%, ± 8%, ± 7%, ± 6%, ± 5%, ± 4%, ± 3%, ± 2%, or ± 1% over a reference amount, level, value, number, frequency, percentage, dimension, size, quantity, weight, or length.

[0086] Ao longo deste relatório descritivo, a menos que o contexto exija ocontrário, as palavras “compreendem”, “compreende” e “compreendendo” serão entendidas como implicando a inclusão de uma etapa ou elemento declarado ou grupo de etapas ou elementos, mas não a exclusão de qualquer outra etapa ou elemento ou grupo de etapas ou elementos. Em modalidades particulares, os termos “inclui”, “tem”, “contém” e “compreende” são usados como sinônimos.[0086] Throughout this specification, unless the context otherwise requires, the words “comprise,” “comprises,” and “comprising” will be understood to imply the inclusion of a stated step or element or group of steps or elements, but not the exclusion of any other step or element or group of steps or elements. In particular embodiments, the terms “includes,” “has,” “contains,” and “comprises” are used synonymously.

[0087] Por “consistindo em” entende-se incluindo, e limitado a, o que seguea frase “consistindo em”. Assim, a frase “consistindo em” indica que os elementos listados são exigidos ou mandatórios, e que nenhum outro elemento pode estar presente.[0087] By “consisting of” is meant including, and limited to, what follows the phrase “consisting of.” Thus, the phrase “consisting of” indicates that the listed elements are required or mandatory, and that no other elements may be present.

[0088] Por “consistindo essencialmente em” entende-se incluindo quaisquerelementos listados após a frase e limitados a outros elementos que não interfiram ou contribuam para a atividade ou ação especificada na divulgação para os elementos listados. Assim, a frase “consistindo essencialmente em” indica que os elementos listados são exigidos ou mandatórios, mas que nenhum outro elemento é opcional e pode ou não estar presente dependendo se eles afetam ou não a atividade ou ação dos elementos listados.[0088] By “consisting essentially of” is meant to include any elements listed after the phrase and limited to other elements that do not interfere with or contribute to the activity or action specified in the disclosure for the listed elements. Thus, the phrase “consisting essentially of” indicates that the listed elements are required or mandatory, but that no other elements are optional and may or may not be present depending on whether or not they affect the activity or action of the listed elements.

[0089] Referência ao longo deste relatório descritivo para “a modalidade”,“uma modalidade”, “uma modalidade particular”, “uma modalidade relacionada”, “uma determinada modalidade”, “uma modalidade adicional” ou “uma outra modalidade” uma característica particular, estrutura ou característica descrita em conexão com a modalidade é incluída em pelo menos uma modalidade da presente invenção. Assim, as aparências das frases anteriores em vários locais ao longo deste relatório descritivo não são necessariamente todas referentes à mesma modalidade. Além disso, os recursos, estruturas ou características particulares podem ser combinados de qualquer maneira adequada em uma ou mais modalidades.[0089] Reference throughout this specification to “the embodiment,” “an embodiment,” “a particular embodiment,” “a related embodiment,” “a certain embodiment,” “an additional embodiment,” or “another embodiment” means that a particular feature, structure, or characteristic described in connection with the embodiment is included in at least one embodiment of the present invention. Thus, appearances of the preceding phrases in various places throughout this specification are not necessarily all referring to the same embodiment. Furthermore, the particular features, structures, or characteristics may be combined in any suitable manner in one or more embodiments.

[0090] Tal como aqui utilizado, o termo "isolado" significa material que ésubstancialmente ou essencialmente livre de componentes que normalmente o acompanham em seu estado nativo. Em modalidades particulares, o termo “obtido” ou “derivado” é usado como sinônimo de isolado.[0090] As used herein, the term "isolated" means material that is substantially or essentially free of components that normally accompany it in its native state. In particular embodiments, the term "obtained" or "derived" is used synonymously with isolated.

[0091] Tal como aqui utilizado, o termo "DNA" refere-se a ácidodesoxirribonucleico. Em várias modalidades, o termo DNA refere-se a DNA genômico, DNA recombinante, DNA sintético ou cDNA. Numa modalidade, DNA refere-se ao DNA genômico ou cDNA. Em modalidades particulares, o DNA compreende uma “região alvo”. As bibliotecas de DNA aqui contempladas incluem bibliotecas de DNA genômico e bibliotecas de cDNA construídas a partir de RNA, por exemplo, uma biblioteca de expressão de RNA. Em várias modalidades, as bibliotecas de DNA compreendem uma ou mais sequências e/ou etiquetas de DNA adicionais.[0091] As used herein, the term "DNA" refers to deoxyribonucleic acid. In various embodiments, the term DNA refers to genomic DNA, recombinant DNA, synthetic DNA, or cDNA. In one embodiment, DNA refers to genomic DNA or cDNA. In particular embodiments, the DNA comprises a "target region." DNA libraries contemplated herein include genomic DNA libraries and cDNA libraries constructed from RNA, e.g., an RNA expression library. In various embodiments, the DNA libraries comprise one or more additional DNA sequences and/or tags.

[0092] Os termos “locus genético alvo” e “região alvo de DNA” são aquiutilizados indistintamente e referem-se a uma região de interesse dentro de uma sequência de DNA. Em várias modalidades, análises genéticas direcionadas são realizadas no locus genético alvo. Em modalidades particulares, a região alvo de DNA é uma região de um gene que está associada a um estado genético particular, condição genética, doenças genéticas; teste fetal; mosaicismo genético, teste de paternidade; predizer a resposta ao tratamento medicamentoso; diagnosticar ou monitorar uma condição médica; perfilar microbioma; rastrear patógenos; ou monitorar o transplante de órgãos. Em outras modalidades, a região alvo de DNA é uma sequência de DNA que está associada a um cromossoma humano particular, tal como um cromossoma autossômico ou ligado a X particular, ou uma região do mesmo (por exemplo, uma região cromossômica única).[0092] The terms “target genetic locus” and “target DNA region” are used interchangeably herein and refer to a region of interest within a DNA sequence. In various embodiments, targeted genetic analyses are performed at the target genetic locus. In particular embodiments, the target DNA region is a region of a gene that is associated with a particular genetic state, genetic condition, genetic diseases; fetal testing; genetic mosaicism; paternity testing; predicting response to drug treatment; diagnosing or monitoring a medical condition; microbiome profiling; tracking pathogens; or monitoring organ transplantation. In other embodiments, the target DNA region is a DNA sequence that is associated with a particular human chromosome, such as a particular autosomal or X-linked chromosome, or a region thereof (e.g., a unique chromosomal region).

[0093] Tal como aqui utilizado, os termos "DNA circulante", "DNA livre decélulas circulantes" e "DNA livre de células" são frequentemente usados de maneira intercambiável e referem-se ao DNA que é DNA extracelular, DNA que foi extrudado das células ou DNA que foi liberado de células necróticas ou apoptóticas. Este termo é frequentemente usado em contraste com o "DNA genômico celular" ou "DNA celular", que são usados indistintamente neste documento e se referem ao DNA genômico que está contido dentro da célula (isto é, a nuclease) e é acessível somente a técnicas biológicas moleculares como aqueles aqui descritos, por lise ou de outro modo perturbando a integridade da célula.[0093] As used herein, the terms "circulating DNA", "circulating cell-free DNA", and "cell-free DNA" are often used interchangeably and refer to DNA that is extracellular DNA, DNA that has been extruded from cells, or DNA that has been released from necrotic or apoptotic cells. This term is often used in contrast to "cellular genomic DNA" or "cellular DNA", which are used interchangeably herein and refer to genomic DNA that is contained within the cell (i.e., the nuclease) and is accessible only to molecular biological techniques such as those described herein, by lysis or otherwise disrupting the integrity of the cell.

[0094] Um "sujeito", "indivíduo" ou "paciente", tal como aqui utilizado,inclui qualquer animal que exiba um sintoma de uma condição que possa ser detectada ou identificada com as composições aqui contempladas. Os sujeitos adequados incluem animais de laboratório (como camundongo, rato, coelho ou cobaia), animais de criação (como cavalos, vacas, ovelhas, porcos) e animais domésticos ou animais de estimação (como um gato ou cão). Em modalidades particulares, o sujeito é um mamífero. Em certas modalidades, o sujeito é um primata não humano e, em modalidades preferidas, o sujeito é um humano.[0094] A "subject," "individual," or "patient," as used herein, includes any animal that exhibits a symptom of a condition that can be detected or identified with the compositions contemplated herein. Suitable subjects include laboratory animals (such as a mouse, rat, rabbit, or guinea pig), farm animals (such as horses, cows, sheep, pigs), and domestic animals or pets (such as a cat or dog). In particular embodiments, the subject is a mammal. In certain embodiments, the subject is a non-human primate, and in preferred embodiments, the subject is a human.

[0095] Tal como aqui utilizado, o termo “pareado” quando utilizado emrelação a duas sequências polinucleotídicas diferentes ou regiões de DNA compreendendo sequências polinucleotídicas diferentes, significa que as duas sequências polinucleotídicas diferentes ou regiões de DNA compreendendo sequências polinucleotídicas diferentes estão presentes no mesmo polinucleotídeo. Por exemplo, se uma determinada região de etiqueta de DNA for dita pareada com uma região particular de amplificação de DNA, entende-se que a região de etiqueta de amostra e a etiqueta de amplificação estão presentes na mesma molécula de polinucleotídeo de DNA.[0095] As used herein, the term "paired" when used in relation to two different polynucleotide sequences or DNA regions comprising different polynucleotide sequences, means that the two different polynucleotide sequences or DNA regions comprising different polynucleotide sequences are present on the same polynucleotide. For example, if a particular DNA tag region is said to be paired with a particular DNA amplification region, it is understood that the sample tag region and the amplification tag are present on the same DNA polynucleotide molecule.

C. METHODS OF ANALYZING THE NUMBER OF COPIES

[0096] Em várias modalidades, é proporcionado um método para a análise donúmero de cópias de um DNA da região alvo de DNA. Em certas modalidades, a análise do número de cópias é realizada gerando uma biblioteca de DNA genômico de fragmentos da biblioteca de DNA que cada um contém fragmento de DNA genômico e um adaptador, isolando os fragmentos da biblioteca de DNA contendo as regiões alvo de DNA e realizando uma análise genética quantitativa da região alvo de DNA. Por “análise genética quantitativa” entende-se uma análise realizada por qualquer técnica biológica molecular que seja capaz de quantificar alterações em um DNA (por exemplo, um gene, locus genético, região alvo de interesse, etc.) incluindo mas não limitado a mutações de DNA , SNPs, translocações, exclusões e variações no número de cópias (CNVs). Em certas modalidades, a análise genética quantitativa é realizada por sequenciamento, por exemplo, sequenciamento de póxima geração.[0096] In various embodiments, a method is provided for analyzing the copy number of a DNA target region. In certain embodiments, the copy number analysis is performed by generating a genomic DNA library of DNA library fragments that each contain a genomic DNA fragment and an adapter, isolating the DNA library fragments containing the DNA target regions, and performing a quantitative genetic analysis of the DNA target region. By “quantitative genetic analysis” is meant an analysis performed by any molecular biological technique that is capable of quantifying changes in a DNA (e.g., a gene, genetic locus, target region of interest, etc.) including but not limited to DNA mutations, SNPs, translocations, deletions, and copy number variations (CNVs). In certain embodiments, the quantitative genetic analysis is performed by sequencing, e.g., next-generation sequencing.

[0097] O sequenciamento de DNA de próxima geração (NGS) é ideal paraduas aplicações de diagnóstico. A primeira é a determinação da sequência de DNA em grande escala. No contexto atual, essa capacidade permite a busca por variantes raras e acionáveis que orientam as decisões de tratamento eficazes. O segundo é contar o número de cópias do gene. A saída de milhões de sequências independentes pode permitir a medição precisa do número de cópias do gene em uma escala de todo o genoma. O surgimento de testes pré-natais não invasivos para trissomia fetal a partir de amostras de sangue materno é uma prova dessa capacidade. RNAseq, isto é, a tecnologia de expressão de genes usando NGS é outro exemplo, embora a entrada seja RNA (cDNA) em vez de DNA genômico. Comparações de métodos de captura atuais são descritas Samorodnitsky et al. J Mol Diagn. 2015 Jan;17(1):64-75.[0097] Next-generation DNA sequencing (NGS) is ideal for two diagnostic applications. The first is large-scale DNA sequence determination. In the current context, this capability allows the search for rare and actionable variants that guide effective treatment decisions. The second is gene copy number counting. The output of millions of independent sequences can enable accurate measurement of gene copy number on a genome-wide scale. The emergence of non-invasive prenatal testing for fetal trisomy from maternal blood samples is a testament to this capability. RNAseq, gene expression technology using NGS, is another example, although the input is RNA (cDNA) rather than genomic DNA. Comparisons of current capture methods are described in Samorodnitsky et al. J Mol Diagn. 2015 Jan;17(1):64-75.

[0098] A presente invenção estende a capacidade de contagem de NGS parao domínio dos métodos de captura híbrida direcionados. Os métodos descritos aqui são eficazes para a detecção da variação do número de cópias, pelo menos em parte, porque eles possuem as seguintes quatro qualidades:(a) Os presentes métodos diferenciam entre clones únicos e clones redundantes. O sequenciameto de NGS de fragmentos de biblioteca de DNA genômico amplificados resulta numa pluralidade de leituras de NGS individuais, cada uma compreendendo informação de sequência codificada por adaptador ligada a uma sequência genômica humana específica. Esses elementos definem a identidade de cada clone. Como as regiões genômicas capturadas são amplificadas por PCR, não é incomum que o mesmo clone seja encontrado várias vezes em uma análise subsequente da NGS. Grupos de leituras que são derivados de um único processo de clonagem e captura são denominados “leituras redundantes”. Duas ou mais leituras redundantes são identificadas como leituras redundantes com base nas informações de sequenciamento proporcionadas pelos elementos de identificação molecular únicos (UMIE). O UMIE refere-se à combinação da informação da sequência das etiquetas de adaptador e o início da sequência do DNA genômico. Duas ou mais leituras compreendendo UMIEs idênticos são identificadas como leituras redundantes. As leituras redundantes são agrupadas e uma única sequência de consenso representativa é montada a partir de famílias de leituras redundantes. Essa sequência de consenso é designada como “leitura única” ou “sequência genômica única” (UGS). Cada leitura única representa um clone separado da amostra de DNA original. O processo de identificação e agrupamento de famílias de clones redundantes e de geração de um único representante de leitura única dessa família é definido como “desduplicação”. Os adaptadores usados para criar bibliotecas genômicas possuem um repertório muito profundo de informações exclusivas de etiquetas de amostra (15.360 códigos por adaptador). Quando aplicado em conjunto com as coordenadas de mapeamento exato de cada clone genômico capturado (que pode abranger > 100 posições diferentes em relação a uma sonda de captura), cada clone exclusivo que é gerado em uma biblioteca genômica e subsequentemente recuperado por uma sonda de captura específica do alvo uma probabilidade extremamente alta de ser diferenciável de todos os outros clones exclusivos que abrangem o mesmo ambiente de captura. A capacidade de diferenciar entre clones únicos e clones redundantes é central para os métodos aqui descritos.(b) Os adaptadores usados para criar bibliotecas genômicas permitem a multiplexação de amostras sem criar variabilidade de adaptador para adaptador nas contagens de número de cópias. Uma base central da determinação do número de cópias é a análise simultânea de um conjunto de amostras que foram todas processadas em uma única execução de sequenciamento. Isso permite que controles positivos e negativos sejam incluídos junto com amostras clínicas. Uma questão importante com as iterações de design de adaptador anteriores induziu mudanças sutis nas contagens de cópias de genes entre amostras de controle idênticas, definindo um limiar de incerteza de sinal-ruído muito alto para ser clinicamente útil em ensaios de genotipagem de tumores sólidos baseados em sangue. A presente invenção ultrapassa esta questão e reduz substancialmente o limiar de sinal-ruído, de tal modo que a perda do gene de cópia única é detectável a uma frequência alélica menor de 2%. Este reconhecimento de sinal melhorado permite que os métodos da presente invenção tenham uma utilidade clinica significativa nos ensaios de DNA do tumor em circulação.(c) O método de captura híbrida direcionada proprietária usado aqui deve produzir uma cobertura de leitura altamente "uniforme" no alvo em todos os alvos. Os métodos que se baseiam na contagem de fragmentos genômicos únicos para estimar o número de cópias, tais como os aqui descritos, devem alcançar uma quase saturação em termos de encontrar todos os fragmentos únicos possíveis. A quase saturação só é alcançada por sobreamostragem, ou seja, reunindo mais leituras de sequenciamento do que o número de leituras únicas que serão finalmente encontradas. Para ser prático, escalável e econômico, as leituras exclusivas em uma biblioteca de captura híbrida direcionada devem exibir uniformidade suficiente para que sobreamostragem <10 vezes de leituras no alvo e, de preferência, a sobreamostragem < 4 vezes de leituras no alvo capturarão > 90% de leituras únicas no alvo em todos os locais alvo.(d) O método de captura híbrida direcionada (Ver Publicação de Patente U.S. 2014-0274731) deve ter altas taxas de captura no alvo. Para ser prático, escalável e econômico, em outras palavras, para ser uma característica distintiva da presente divulgação em relação a outra técnica no campo, o método deve alcançar > 90%, preferivelmente > 95% de leitura no alvo. Com taxas de mapeamento no alvo superiores a 95%, o requisito de sobreamostragem de 4 a 10 vezes de leituras no alvo e o requisito de sobreamostragem geral são iguais.[0098] The present invention extends the counting capability of NGS into the realm of targeted hybrid capture methods. The methods described herein are effective for detecting copy number variation, at least in part, because they possess the following four qualities: (a) The present methods differentiate between unique clones and redundant clones. NGS sequencing of amplified genomic DNA library fragments results in a plurality of individual NGS reads, each comprising adapter-encoded sequence information linked to a specific human genomic sequence. These elements define the identity of each clone. Because the captured genomic regions are amplified by PCR, it is not uncommon for the same clone to be found multiple times in a subsequent NGS analysis. Groups of reads that are derived from a single cloning and capture process are termed "redundant reads." Two or more redundant reads are identified as redundant reads based on the sequencing information provided by the unique molecular identification elements (UMIE). UMIE refers to the combination of sequence information from adapter tags and the start of the genomic DNA sequence. Two or more reads containing identical UMIEs are identified as redundant reads. Redundant reads are grouped together, and a single representative consensus sequence is assembled from families of redundant reads. This consensus sequence is referred to as a “unique read” or “unique genomic sequence” (UGS). Each unique read represents a separate clone from the original DNA sample. The process of identifying and grouping families of redundant clones and generating a single single-read representative of that family is defined as “deduplication.” The adapters used to create genomic libraries possess a very deep repertoire of unique sample tag information (15,360 codes per adapter). When applied in conjunction with the exact mapping coordinates of each captured genomic clone (which can span >100 different positions relative to a capture probe), each unique clone generated in a genomic library and subsequently recovered by a target-specific capture probe has an extremely high probability of being distinguishable from all other unique clones spanning the same capture environment. The ability to differentiate between unique clones and redundant clones is central to the methods described here. (b) Adapters used to create genomic libraries allow for multiplexing of samples without creating adapter-to-adapter variability in copy number counts. A central basis of copy number determination is the simultaneous analysis of a set of samples that were all processed in a single sequencing run. This allows positive and negative controls to be included alongside clinical samples. A major issue with previous adapter design iterations induced subtle changes in gene copy counts between identical control samples, setting a signal-to-noise uncertainty threshold too high to be clinically useful in blood-based solid tumor genotyping assays. The present invention overcomes this issue and substantially reduces the signal-to-noise threshold, such that single-copy gene loss is detectable at an allele frequency of less than 2%. This improved signal recognition allows the methods of the present invention to have significant clinical utility in circulating tumor DNA assays. (c) The proprietary targeted hybrid capture method used here should produce highly "uniform" on-target read coverage across all targets. Methods that rely on counting single genomic fragments to estimate copy number, such as those described here, should reach near saturation in finding all possible unique fragments. Near-saturation is only achieved by oversampling, i.e., gathering more sequencing reads than the number of unique reads that will ultimately be found. To be practical, scalable, and cost-effective, the unique reads in a targeted hybrid capture library must exhibit sufficient uniformity that <10-fold oversampling of on-target reads, and preferably <4-fold oversampling of on-target reads, will capture >90% of unique on-target reads across all target locations. (d) The targeted hybrid capture method (See U.S. Patent Publication 2014-0274731) must have high on-target capture rates. To be practical, scalable, and cost-effective, in other words, to be a distinguishing feature of the present disclosure over other art in the field, the method must achieve >90%, preferably >95%, on-target reads. With on-target mapping rates greater than 95%, the requirement for 4 to 10 times oversampling of on-target readings and the overall oversampling requirement are the same.

[0099] Em algumas modalidades, o número de cópias da região alvo de DNApresente na amostra é determinado pela análise genética quantitativa. Em algumas modalidades, o número de cópias da região alvo de DNA é determinado comparando a quantidade de cópias das regiões alvo de DNA presentes na amostra e comparando-as com as regiões alvo de DNA presentes numa ou mais amostras com número de cópias conhecido.[0099] In some embodiments, the copy number of the target DNA region present in the sample is determined by quantitative genetic analysis. In some embodiments, the copy number of the target DNA region is determined by comparing the copy number of the target DNA regions present in the sample and comparing them to the target DNA regions present in one or more samples with known copy number.

[00100] Modalidades particulares contemplam que as composições e métodosaqui descritos são particularmente úteis para detectar alterações no número de cópias numa amostra de DNA genômico, em que apenas uma parte do DNA genômico total da amostra tem uma alteração no número de cópias. Por exemplo, uma mutação tumoral significativa pode estar presente em uma amostra, por exemplo , uma amostra de DNA livre de células, que está presente em uma frequência alélica menor que é significativamente menor que 50% ( por exemplo, na faixa de 0,1% a > 20% ), em contraste com a genotipagem SNP convencional, em que as frequências alélicas são geralmente ~ 100%, 50% ou 0%. Um versado na técnica reconhecerá que as composições e métodos da presente invenção também são úteis na detecção de outros tipos de mutação, incluindo variantes de nucleotídeo único (SNVs), inserções curtas (por exemplo, menos de 40 pares de bases (bp)) e deleções (indels), e rearranjos genômicos incluindo fusões gênicas oncogênicas.[00100] Particular embodiments contemplate that the compositions and methods described herein are particularly useful for detecting copy number alterations in a genomic DNA sample, wherein only a portion of the total genomic DNA in the sample has a copy number alteration. For example, a significant tumor mutation may be present in a sample, e.g., a cell-free DNA sample, that is present at a minor allele frequency that is significantly less than 50% (e.g., in the range of 0.1% to >20%), in contrast to conventional SNP genotyping, wherein allele frequencies are generally ~100%, 50%, or 0%. One of skill in the art will recognize that the compositions and methods of the present invention are also useful in detecting other types of mutations, including single nucleotide variants (SNVs), short insertions (e.g., less than 40 base pairs (bp)) and deletions (indels), and genomic rearrangements including oncogenic gene fusions.

[00101] Em certas modalidades, as composições e/ou métodos da presenteinvenção aqui descritos são úteis para, capazes de, adequados e/ou capazes de detectar, identificar, observar e/ou revelar uma alteração no número de cópias de um ou mais regiões alvo de DNA presentes em menos que cerca de 20%, menos que cerca de 19%, menos que cerca de 18%, menos que cerca de 17%, menos que cerca de 16%, menos que cerca de 15%, menos que cerca de 14%, menos que cerca de 13%, menos que cerca de 12%, menos que cerca de 11%, menos que cerca de 10%, menos que cerca de 9%, menos que cerca de 8%, menos que cerca de 7%, menos que cerca de 6%, menos que cerca de 5%, menos que cerca de 4%, menos que cerca de 3%, menos que cerca de 2%, menos que cerca de 1%, menos que cerca de 0,5%, menos que cerca de 0,2% ou menos que cerca de 0,1% do DNA genômico total da amostra. Em algumas modalidades, os métodos da presente invenção são úteis para, capazes de, adequados para, e/ou capazes de detectar, identificar, observar e/ou revelar uma alteração no número de cópias de uma ou mais regiões alvo de DNA presentes entre cerca de 0,01% a cerca de 100%, cerca de 0,01% a cerca de 50% e ou cerca de 0,1% a cerca de 20% do DNA genômico total da amostra.[00101] In certain embodiments, the compositions and/or methods of the present invention described herein are useful for, capable of, suitable for, and/or able to detect, identify, observe, and/or reveal a copy number change of one or more target DNA regions present in less than about 20%, less than about 19%, less than about 18%, less than about 17%, less than about 16%, less than about 15%, less than about 14%, less than about 13%, less than about 12%, less than about 11%, less than about 10%, less than about 9%, less than about 8%, less than about 7%, less than about 6%, less than about 5%, less than about 4%, less than about 3%, less than about 2%, less than about 1%, less than about 0.5%, less than about 0.2%, or less than about 0.1% of the total genomic DNA of the sample. In some embodiments, the methods of the present invention are useful for, capable of, suitable for, and/or able to detect, identify, observe, and/or reveal a copy number change of one or more target DNA regions present in between about 0.01% to about 100%, about 0.01% to about 50%, and or about 0.1% to about 20% of the total genomic DNA of the sample.

[00102] Modalidades particulares são representadas pela estrutura conceitualque é ilustrada na FIG. 1. Na FIG. 1, cada gene é representado por uma linha e cada amostra de paciente é representada como uma coluna. Em qualquer amostra de DNA genômico, o número de fragmentos contados para cada gene individual terá alguma variabilidade, e para qualquer região do DNA de interesse, por exemplo , um gene, perturbações no número de cópias são detectadas como desvios significativos na contagem de fragmentos em relação às contagens normalizadas para a região alvo do DNA em outras amostras. Tal ensaio requer que o perfil de contagem de fragmentos gene-a-gene dentro de uma amostra seja reprodutível, e também requer que os perfis de contagem de amostra-por-amostra sejam altamente comparáveis. Ambos os requisitos do ensaio exigem uma excelente discriminação na contagem de sinal-ruído.[00102] Particular embodiments are represented by the conceptual framework illustrated in FIG. 1. In FIG. 1, each gene is represented by a row and each patient sample is represented as a column. In any genomic DNA sample, the number of fragments counted for each individual gene will have some variability, and for any region of DNA of interest, e.g., a gene, copy number perturbations are detected as significant deviations in the fragment count relative to the normalized counts for the target region of DNA in other samples. Such an assay requires that the gene-by-gene fragment count profile within a sample be reproducible, and also requires that the sample-by-sample count profiles be highly comparable. Both of these assay requirements require excellent discrimination in signal-to-noise counting.

[00103] Algumas modalidades contemplam que os elementos de ensaio quecontribuem para aumentar a razão de sinal para ruído são a entrada genômica, o número de sondas e a profundidade de sequenciamento, como ilustrado na FIG. 2.[00103] Some embodiments contemplate that the assay elements that contribute to increasing the signal-to-noise ratio are the genomic input, the number of probes, and the sequencing depth, as illustrated in FIG. 2.

[00104] Em modalidades particulares, um método para análise genética decfDNA compreende: gerar e amplificar uma biblioteca de cfDNA, determinar o número de equivalentes de genoma na biblioteca de cfDNA; e realizar uma análise genética quantitativa de um ou mais locais alvo genômicos.[00104] In particular embodiments, a method for genetic analysis of cfDNA comprises: generating and amplifying a cfDNA library, determining the number of genome equivalents in the cfDNA library; and performing a quantitative genetic analysis of one or more genomic target loci.

[00105] Modalidades particulares contemplam que qualquer um dos métodose composições aqui descritos são eficazes para uso para analisar, detectar, diagnosticar e/ou monitorar eficientemente estados genéticos, condições genéticas, doenças genéticas, mosaicismo genético, diagnósticos fetais, testes de paternidade, perfil do microbioma, rastreio de patógenos e monitoramento de transplante de órgãos usando DNA genômico, por exemplo, celular ou cfDNA, onde todos ou onde apenas uma porção do DNA genômico total da amostra tem uma característica de interesse, por exemplo , uma lesão genética, mutação, variante de nucleotídeo único (SNV). Em algumas modalidades, uma característica de interesse é uma característica genética associada a uma doença ou condição. Por exemplo, uma mutação tumoral significativa pode estar presente em uma amostra, por exemplo , uma amostra de cfDNA, que está presente em uma frequência alélica menor que é significativamente menor que 50% (por exemplo , na faixa de 0,1% a > 20% ), em contraste com a genotipagem SNP convencional, em que as frequências alélicas são geralmente ~ 100%, 50% ou 0%.[00105] Particular embodiments contemplate that any of the methods and compositions described herein are effective for use to efficiently analyze, detect, diagnose, and/or monitor genetic states, genetic conditions, genetic diseases, genetic mosaicism, fetal diagnostics, paternity testing, microbiome profiling, pathogen screening, and organ transplant monitoring using genomic DNA, e.g., cellular or cfDNA, where all or where only a portion of the total genomic DNA of the sample has a trait of interest, e.g., a genetic lesion, mutation, single nucleotide variant (SNV). In some embodiments, a trait of interest is a genetic trait associated with a disease or condition. For example, a significant tumor mutation may be present in a sample, e.g., a cfDNA sample, that is present at a minor allele frequency that is significantly less than 50% (e.g., in the range of 0.1% to >20%), in contrast to conventional SNP genotyping, where allele frequencies are usually ~100%, 50%, or 0%.

[00106] Em certas modalidades, as composições e/ou métodos da presenteinvenção aqui descritos são úteis para, capaz de, adequados para, e/ou capazes de detectar, identificar, observar e/ou revelar uma lesão genética de uma ou mais regiões alvo de DNA presentes em menos que cerca de 20%, menos que cerca de 19%, menos que cerca de 18%, menos que cerca de 17%, menos que cerca de 16%, menos que cerca de 15%, menos que cerca de 14%, menos que cerca de 13%, menos que cerca de 12%, menos que cerca de 11%, menos que cerca de 10%, menos que cerca de 9%, menos que cerca de 8%, menos que cerca de 7%, menos que cerca de 6%, menos que cerca de 5%, menos que cerca de 4%, menos que cerca de 3%, menos que cerca de 2%, menos que cerca de 1%, menos que cerca de 0.5%, menos que cerca de 0.2%, ou menos que cerca de 0.1% do DNA genômico total da amostra. Em algumas modalidades, os métodos da presente invenção são úteis para, capazes de, adequados para, e/ou capazes de detectar, identificar, observar e/ou revelar uma lesão genética de uma ou mais regiões alvo de DNA presentes entre cerca de 0,01% a cerca de 100%, cerca de 0,01% a cerca de 50% e ou cerca de 0,1% a cerca de 20% do DNA genômico total da amostra.[00106] In certain embodiments, the compositions and/or methods of the present invention described herein are useful for, capable of, suitable for, and/or capable of detecting, identifying, observing, and/or revealing a genetic lesion of one or more target DNA regions present in less than about 20%, less than about 19%, less than about 18%, less than about 17%, less than about 16%, less than about 15%, less than about 14%, less than about 13%, less than about 12%, less than about 11%, less than about 10%, less than about 9%, less than about 8%, less than about 7%, less than about 6%, less than about 5%, less than about 4%, less than about 3%, less than about 2%, less than about 1%, less than about 0.5%, less than about 0.2%, or less than about 0.1% of the total genomic DNA of the sample. In some embodiments, the methods of the present invention are useful for, capable of, suitable for, and/or capable of detecting, identifying, observing, and/or revealing a genetic lesion of one or more target DNA regions present in between about 0.01% to about 100%, about 0.01% to about 50%, and or about 0.1% to about 20% of the total genomic DNA of the sample.

1. GENERATING A DNA LIBRARY

[00107] Em modalidades particulares, métodos de análise genética aquicontemplados compreendem gerar uma biblioteca de DNA compreendendo o tratamento de cfDNA ou DNA genômico celular fragmentado com uma ou mais enzimas de reparação de extremidade para gerar DNA reparado na extremidade e ligar um ou mais adaptadores a cada extremidade do DNA reparado na extremidade para gerar a biblioteca de DNA. DNA genômico[00107] In particular embodiments, genetic analysis methods contemplated herein comprise generating a DNA library comprising treating cfDNA or fragmented cellular genomic DNA with one or more end repair enzymes to generate end-repaired DNA and ligating one or more adapters to each end of the end-repaired DNA to generate the DNA library. Genomic DNA

[00108] Em modalidades particulares, os métodos e composições aquicontemplados são concebidos para analisar, detectar, diagnosticar e/ou monitorizar de forma eficaz a alteração no número de cópias utilizando DNA genômico como um analito. Em certas modalidades, a análise do número de cópias é realizada gerando uma biblioteca de DNA genômico a partir do DNA genômico obtido a partir de uma amostra de teste, por exemplo, uma amostra biológica, tal como uma biópsia de tecido. Em certas modalidades, o DNA genômico está circulando ou DNA livre de células. Em algumas modalidades, o DNA genômico é DNA genômico celular.[00108] In particular embodiments, the methods and compositions contemplated herein are designed to effectively analyze, detect, diagnose, and/or monitor copy number alteration using genomic DNA as an analyte. In certain embodiments, the copy number analysis is performed by generating a genomic DNA library from genomic DNA obtained from a test sample, e.g., a biological sample such as a tissue biopsy. In certain embodiments, the genomic DNA is circulating or cell-free DNA. In some embodiments, the genomic DNA is cellular genomic DNA.

[00109] Em certas modalidades, o DNA genômico é obtido de uma amostrade tecido ou biópsia retirada de um tecido, incluindo mas não limitado a medula óssea, esôfago, estômago, duodeno, reto, cólon, íleo, pâncreas, pulmão, fígado, próstata, cérebro, nervos, tecido meníngeo, tecido renal, tecido endometrial, tecido cervical, mama, gânglio linfático, músculo e pele. Em certas modalidades, a amostra de tecido é uma biópsia de um tumor ou de um tumor suspeito. Em modalidades particulares, o tumor é cancerígeno ou suspeito de ser cancerígeno. Em modalidades particulares, a amostra de tecido compreende células cancerígenas ou células suspeitas de serem cancerígenas.[00109] In certain embodiments, the genomic DNA is obtained from a tissue sample or biopsy taken from a tissue, including but not limited to bone marrow, esophagus, stomach, duodenum, rectum, colon, ileum, pancreas, lung, liver, prostate, brain, nerves, meningeal tissue, kidney tissue, endometrial tissue, cervical tissue, breast, lymph node, muscle, and skin. In certain embodiments, the tissue sample is a biopsy of a tumor or a suspected tumor. In particular embodiments, the tumor is cancerous or suspected of being cancerous. In particular embodiments, the tissue sample comprises cancerous cells or cells suspected of being cancerous.

[00110] Os métodos para purificar o DNA genômico a partir de células ou deum tecido biológico constituído por células são bem conhecidos na técnica, e o versado na técnica reconhecerá procedimentos ideais ou kits comerciais dependendo do tecido e das condições em que o tecido é obtido. Algumas modalidades contemplam que a purificação do DNA celular a partir de um tecido irá requerer a ruptura celular ou lise celular para expor o DNA celular no interior, por exemplo, por métodos químicos e físicos, tais como misturar, moer ou sonicar a amostra de tecido; remover os lipídeos da membrana adicionando um detergente ou tensoativos que também servem na lise celular, remover opcionalmente proteínas, por exemplo adicionando uma protease; remover RNA, por exemplo, adicionando uma RNase; e purificação de DNA, por exemplo, de detergentes, proteínas, sais e reagentes utilizados durante a etapa de lise celular. A purificação de DNA pode ser realizada por precipitação, por exemplo com etanol ou isopropanol; por extração com fenol-clorofórmio.[00110] Methods for purifying genomic DNA from cells or biological tissue consisting of cells are well known in the art, and one skilled in the art will recognize ideal procedures or commercial kits depending on the tissue and the conditions under which the tissue is obtained. Some embodiments contemplate that purification of cellular DNA from a tissue will require cell disruption or cell lysis to expose the cellular DNA within, for example, by chemical and physical methods, such as mixing, grinding, or sonicating the tissue sample; removing membrane lipids by adding a detergent or surfactants that also serve in cell lysis; optionally removing proteins, for example, by adding a protease; removing RNA, for example, by adding an RNase; and purifying DNA, for example, from detergents, proteins, salts, and reagents used during the cell lysis step. DNA purification can be accomplished by precipitation, for example with ethanol or isopropanol; by phenol-chloroform extraction.

[00111] Em modalidades particulares, o DNA celular obtido a partir de tecidose/ou células é fragmentado antes e/ou durante a obtenção, geração, fabricação, formação e/ou produção de uma biblioteca de DNA genômico como aqui descrito. Um versado na técnica compreenderá que existem várias técnicas adequadas para a fragmentação de DNA e é capaz de reconhecer e identificar técnicas adequadas para fragmentar o DNA celular com o objetivo de gerar uma biblioteca de DNA genômico para sequenciamento de DNA, incluindo mas não limitado ao seguinte sequenciamento de geração. Certas modalidades contemplam que o DNA celular pode ser fragmentado em fragmentos de comprimento apropriado e/ou suficiente para gerar uma biblioteca por métodos incluindo, mas não limitados a fragmentação física, fragmentação enzimática e cisalhamento químico.[00111] In particular embodiments, cellular DNA obtained from tissues and/or cells is fragmented before and/or during the obtaining, generation, manufacturing, formation, and/or production of a genomic DNA library as described herein. One of skill in the art will understand that there are several suitable techniques for DNA fragmentation and is able to recognize and identify suitable techniques for fragmenting cellular DNA for the purpose of generating a genomic DNA library for DNA sequencing, including but not limited to next generation sequencing. Certain embodiments contemplate that cellular DNA may be fragmented into fragments of appropriate and/or sufficient length to generate a library by methods including, but not limited to, physical fragmentation, enzymatic fragmentation, and chemical shearing.

[00112] A fragmentação física pode incluir, mas não se limita a, cisalhamentoacústico, sonicação e cisalhamento hidrodinâmico. Em algumas modalidades, o DNA celular é fragmentado por fragmentação física. Em modalidades particulares, o DNA celular é fragmentado por cisalhamento acústico ou sonicação. Modalidades particulares contemplam que o cisalhamento acústico e a sonicação são métodos físicos comuns utilizados para cisalhar o DNA celular. O instrumento Covaris® (Woburn, MA) é um dispositivo acústico para romper o DNA em 100-5kb bp. A Covaris também fabrica tubos (gTubes) que processam amostras nos 6-20 kb para bibliotecas de pareamento. O Bioruptor® (Denville, NJ) é um dispositivo de sonicação utilizado para cisalhar a cromatina, o DNA e danificar os tecidos. Pequenos volumes de DNA podem ser cisalhados a 150-1kb de comprimento. Hydroshear da Digilab (Marlborough, MA) utiliza forças hidrodinâmicas para cisalhar o DNA. Nebulizadores (Life Tech, Grand Island, NY) também podem ser usados para atomizar líquidos usando ar comprimido, cisalhando DNA em fragmentos de 100-3kb em segundos. A nebulização é de baixo custo, mas o processo pode causar uma perda de cerca de 30% do DNA celular da amostra original. Em certas modalidades, o DNA celular é fragmentado por sonicação.[00112] Physical fragmentation may include, but is not limited to, acoustic shearing, sonication, and hydrodynamic shearing. In some embodiments, cellular DNA is fragmented by physical fragmentation. In particular embodiments, cellular DNA is fragmented by acoustic shearing or sonication. Particular embodiments contemplate that acoustic shearing and sonication are common physical methods used to shear cellular DNA. The Covaris® instrument (Woburn, MA) is an acoustic device for disrupting DNA at 100-5kb bp. Covaris also manufactures tubes (gTubes) that process samples in the 6-20 kb range for paired-end libraries. The Bioruptor® (Denville, NJ) is a sonication device used to shear chromatin, DNA, and tissue damage. Small volumes of DNA can be sheared at 150-1kb in length. Digilab's Hydroshear (Marlborough, MA) uses hydrodynamic forces to shear DNA. Nebulizers (Life Tech, Grand Island, NY) can also be used to atomize liquids using compressed air, shearing DNA into 100-3kb fragments in seconds. Nebulization is inexpensive, but the process can cause a loss of approximately 30% of the original sample's cellular DNA. In certain embodiments, cellular DNA is fragmented by sonication.

[00113] A fragmentação enzimática pode incluir, mas não está limitada a,tratamento com uma endonuclease de restrição, por exemplo , DNase I, ou tratamento com uma nuclease não específica. Em algumas modalidades, o DNA celular é fragmentado por fragmentação enzimática. Em modalidades particulares, o DNA celular é fragmentado por tratamento com uma endonuclease de restrição. Em algumas modalidades, o DNA celular é fragmentado por tratamento com uma nuclease não específica. Em certas modalidades, o DNA celular é fragmentado por tratamento com uma transposase. Certas modalidades contemplam que os métodos enzimáticos para cisalhar o DNA celular em pequenos pedaços incluem DNAse I, uma combinação de proteína de ligação à maltose (MBP) -T7 Endo I e uma nuclease não específica Vibrio vulnificus (Vvn) da New England Biolabs (Ipswich, MA) Tecnologia de etiquetação de Fragmentase e Nextera (Illumina, San Diego, CA). A combinação de nuclease não específica e T7 Endo sinergicamente funciona para produzir incisões e contraincisões inespecíficos, gerando fragmentos que desassociam 8 nucleotídeos ou menos do local da incisão. A etiquetação usa uma transposase para simultaneamente fragmentar e inserir adaptadores no DNA de fita dupla.[00113] Enzymatic fragmentation may include, but is not limited to, treatment with a restriction endonuclease, e.g., DNase I, or treatment with a non-specific nuclease. In some embodiments, cellular DNA is fragmented by enzymatic fragmentation. In particular embodiments, cellular DNA is fragmented by treatment with a restriction endonuclease. In some embodiments, cellular DNA is fragmented by treatment with a non-specific nuclease. In certain embodiments, cellular DNA is fragmented by treatment with a transposase. Certain embodiments contemplate that enzymatic methods for shearing cellular DNA into small pieces include DNAse I, a combination of maltose-binding protein (MBP)-T7 Endo I, and a non-specific nuclease Vibrio vulnificus (Vvn) from New England Biolabs (Ipswich, MA) Fragmentase Tagging Technology, and Nextera (Illumina, San Diego, CA). The combination of nonspecific nuclease and T7 Endo works synergistically to produce nonspecific nicks and counternicks, generating fragments that dissociate 8 nucleotides or less from the nick site. Tagging uses a transposase to simultaneously fragment and insert adapters into double-stranded DNA.

[00114] A fragmentação química pode incluir tratamento com calor e cátionmetálico divalente. Em algumas modalidades, o DNA genômico é fragmentado por fragmentação química. Modalidades particulares contemplam que o cisalhamento químico é mais vulgarmente utilizado para a ruptura de fragmentos longos de RNA em oposição ao DNA genômico. A fragmentação química é tipicamente realizada através da digestão pelo calor do DNA com um cátion metálico divalente (magnésio ou zinco). O comprimento dos fragmentos de DNA pode ser ajustado aumentando ou diminuindo o tempo de incubação.[00114] Chemical fragmentation may include treatment with heat and a divalent metal cation. In some embodiments, genomic DNA is fragmented by chemical fragmentation. Particular embodiments contemplate that chemical shearing is more commonly used for the disruption of long RNA fragments as opposed to genomic DNA. Chemical fragmentation is typically accomplished by heat digestion of the DNA with a divalent metal cation (magnesium or zinc). The length of the DNA fragments can be adjusted by increasing or decreasing the incubation time.

[00115] Em modalidades particulares, os métodos e composições aquicontemplados são concebidos para analisar, detectar, diagnosticar e/ou monitorizar de forma eficaz a alteração no número de cópias utilizando DNA livre de células (cfDNA) como um analito. A distribuição de tamanhos de cfDNA varia entre cerca de 150 bp e cerca de 180 bp de fragmentos. A fragmentação de cfDNA pode ser o resultado de atividade endonucleolítica e/ou exonucleolítica e apresenta um desafio formidável para a análise precisa, confiável e robusta de cfDNA. Outro desafio para a análise do cfDNA é a sua curta meia-vida na corrente sanguínea, da ordem de cerca de 15 minutos. Sem querer estar vinculado a qualquer teoria particular, a presente invenção contempla, em parte, que a análise de cfDNA é como uma “biópsia líquida” e é um instantâneo em tempo real dos processos biológicos atuais.[00115] In particular embodiments, the methods and compositions contemplated herein are designed to effectively analyze, detect, diagnose, and/or monitor copy number alteration using cell-free DNA (cfDNA) as an analyte. The size distribution of cfDNA ranges from about 150 bp to about 180 bp fragments. cfDNA fragmentation can be the result of endonucleolytic and/or exonucleolytic activity and presents a formidable challenge to accurate, reliable, and robust cfDNA analysis. Another challenge to cfDNA analysis is its short half-life in the bloodstream, on the order of about 15 minutes. Without wishing to be bound by any particular theory, the present invention contemplates, in part, that cfDNA analysis is like a “liquid biopsy” and is a real-time snapshot of current biological processes.

[00116] Além disso, porque o cfDNA não é encontrado nas células e pode serobtido de um número de fontes adequadas, incluindo, mas não limitado a, fluidos biológicos e amostras de fezes, não está sujeito às limitações existentes que afligem a próxima geração de análise de sequenciamento, como acesso aos tecidos analisados.[00116] Furthermore, because cfDNA is not found in cells and can be obtained from a number of suitable sources, including, but not limited to, biological fluids and stool samples, it is not subject to existing limitations that plague next-generation sequencing analysis, such as access to the analyzed tissues.

[00117] Exemplos ilustrativos de fluidos biológicos que são fontes adequadasdos quais para isolar cfDNA em modalidades particulares incluem, mas não estão limitados a líquido amniótico, sangue, plasma, soro, sêmen, fluido linfático, fluido espinal cerebral, fluido ocular, urina, saliva, muco, e suor. Em modalidades particulares, o fluido biológico é sangue ou plasma sanguíneo.[00117] Illustrative examples of biological fluids that are suitable sources from which to isolate cfDNA in particular embodiments include, but are not limited to, amniotic fluid, blood, plasma, serum, semen, lymph fluid, cerebral spinal fluid, ocular fluid, urine, saliva, mucus, and sweat. In particular embodiments, the biological fluid is blood or blood plasma.

[00118] Em certas modalidades, kits comercialmente disponíveis e outrosmétodos conhecidos do versado na técnica podem ser usados para isolar o cfDNA diretamente dos fluidos biológicos de um sujeito ou de uma amostra biológica previamente obtida e opcionalmente estabilizada, por exemplo, por congelamento e/ou adição agentes quelantes de enzima incluindo, mas não se limitando a, EDTA, EGTA ou outros agentes quelantes específicos para cátions divalentes.[00118] In certain embodiments, commercially available kits and other methods known to one of skill in the art can be used to isolate cfDNA directly from a subject's biological fluids or from a previously obtained and optionally stabilized biological sample, for example, by freezing and/or adding enzyme chelating agents including, but not limited to, EDTA, EGTA, or other chelating agents specific for divalent cations.

(a) Generating end-repaired cfDNA

[00119] Em modalidades particulares, a geração de uma biblioteca de DNAgenômico compreende o reparação de extremidade de cfDNA isolado ou DNA celular fragmentado. O cfDNA celular ou DNA fragmentado é processado por enzimas de reparação de extremidade para gerar o cfDNA reparado na extremidade com extremidades cegas, saliências 5' ou saliências 3'. Em algumas modalidades, as enzimas de reparação de extremidade podem render, por exemplo. Em algumas modalidades, o cfDNA ou DNA celular reparado na extremidade contém extremidades cegas. Em algumas modalidades, o DNA celular ou cfDNA reparado na extremidade é processado para conter extremidades cegas. Em algumas modalidades, as extremidades cegas do cfDNA ou DNA celular reparado na extremidade são adicionalmente modificadas para conter uma única saliência do par de bases. Em algumas modalidades, o cfDNA reparado na extremidade ou DNA celular contendo extremidades cegas podem ser adicionalmente processados para conter saliência de adenina (A) / timina (T). Em algumas modalidades, o cfDNA reparado na extremidade ou DNA celular contendo extremidades cegas podem ser adicionalmente processados para conter saliência de adenina (A) / timina (T) como a saliência de par de base único. Em algumas modalidades, o cfDNA de DNA reparado na extremidade ou DNA celular tem saliências 3' não modeladas. Em algumas modalidades, o cfDNA de DNA reparado na extremidade ou DNA celular é processado para conter saliências 3'. Em algumas modalidades, o cfDNA de DNA reparado na extremidade ou DNA celular é processado com transferase terminal (TdT) para conter saliências 3'. Em algumas modalidades, uma cauda G pode ser adicionada por TdT. Em algumas modalidades, o cfDNA celular ou DNA celular reparado na extremidade é processado para conter extremidades salientes utilizando digestão parcial com quaisquer enzimas de restrição conhecidas (por exemplo, com a enzima Sau3A e semelhantes.[00119] In particular embodiments, generating a genomic DNA library comprises end repairing isolated cfDNA or fragmented cellular DNA. The cellular cfDNA or fragmented DNA is processed by end repair enzymes to generate end-repaired cfDNA with blunt ends, 5' overhangs, or 3' overhangs. In some embodiments, end repair enzymes can yield, for example. In some embodiments, the end-repaired cfDNA or cellular DNA contains blunt ends. In some embodiments, the end-repaired cellular DNA or cfDNA is processed to contain blunt ends. In some embodiments, the blunt ends of the end-repaired cfDNA or cellular DNA are further modified to contain a single base pair overhang. In some embodiments, the end-repaired cfDNA or cellular DNA containing blunt ends can be further processed to contain an adenine (A)/thymine (T) overhang. In some embodiments, the end-repaired cfDNA or cellular DNA containing blunt ends can be further processed to contain adenine (A)/thymine (T) overhang as the single base pair overhang. In some embodiments, the end-repaired cfDNA or cellular DNA has untemplated 3' overhangs. In some embodiments, the end-repaired cfDNA or cellular DNA is processed to contain 3' overhangs. In some embodiments, the end-repaired cfDNA or cellular DNA is processed with terminal transferase (TdT) to contain 3' overhangs. In some embodiments, a G-tail can be added by TdT. In some embodiments, the end-repaired cfDNA or cellular DNA is processed to contain overhangs using partial digestion with any known restriction enzymes (e.g., with the enzyme Sau3A and the like).

(b) Attaching adapter molecules to the end-repaired cfDNA

[00120] Em modalidades particulares, gerar uma biblioteca de cfDNAcompreende ligar um ou mais adaptadores a cada extremidade do cfDNA reparado na extremidade. A presente invenção contempla, em parte, um módulo adaptador projetado para acomodar grandes números de equivalentes de genoma em bibliotecas de cfDNA. Os módulos adaptadores são configurados para medir o número de equivalentes de genoma presentes em bibliotecas de cfDNA e, por extensão, a sensibilidade de ensaios de sequenciamento utilizados para identificar mutações de sequência.[00120] In particular embodiments, generating a cfDNA library comprises ligating one or more adapters to each end of the end-repaired cfDNA. The present invention contemplates, in part, an adapter module designed to accommodate large numbers of genome equivalents in cfDNA libraries. The adapter modules are configured to measure the number of genome equivalents present in cfDNA libraries and, by extension, the sensitivity of sequencing assays used to identify sequence mutations.

[00121] Tal como aqui utilizado, os termos "adaptador" e "módulo adaptador"são usados para indiferentemente, e referem-se a um polinucleotídeo compreendendo que compreende pelo menos três elementos: uma região de amplificação, uma região de etiqueta de amostra e uma região de âncora. Em modalidades particulares, o adaptador compreende uma região de amplificação, uma região de etiqueta de amostra e uma região de âncora. Em algumas modalidades, o adaptador também compreende um identificador de molécula único (UMI). Em modalidades particulares, o adaptador compreende uma ou mais regiões de amplificação, uma ou mais regiões de etiqueta de amostra, uma ou mais UMIs e/ou uma ou mais regiões de âncora. Em algumas modalidades, o adaptador compreende, na ordem de 5' para 3', uma região de amplificação, uma região de etiqueta de amostra, uma UMI e uma região de âncora. Em modalidades particulares, o adaptador compreende, na ordem de 5' para 3', uma região de amplificação, uma região de etiqueta de amostra, um UMI e uma região de âncora. Em certas modalidades, o UMI está contido na região da etiqueta da amostra e o adaptador compreende, na ordem de 5' para 3', uma região de amplificação, uma região de etiqueta de amostra/UMI integrada e uma região âncora.[00121] As used herein, the terms "adapter" and "adapter module" are used interchangeably, and refer to a polynucleotide comprising at least three elements: an amplification region, a sample tag region, and an anchor region. In particular embodiments, the adapter comprises an amplification region, a sample tag region, and an anchor region. In some embodiments, the adapter also comprises a unique molecule identifier (UMI). In particular embodiments, the adapter comprises one or more amplification regions, one or more sample tag regions, one or more UMIs, and/or one or more anchor regions. In some embodiments, the adapter comprises, in the order of 5' to 3', an amplification region, a sample tag region, a UMI, and an anchor region. In particular embodiments, the adapter comprises, in the order of 5' to 3', an amplification region, a sample tag region, a UMI, and an anchor region. In certain embodiments, the UMI is contained within the sample tag region and the adapter comprises, in the order of 5' to 3', an amplification region, an integrated sample tag/UMI region, and an anchor region.

[00122] Tal como aqui utilizado, o termo “região de amplificação” refere-se aum elemento da molécula adaptadora que compreende uma sequência polinucleotídica capaz de servir como um local de reconhecimento de iniciadores para amplificação por PCR. Em modalidades particulares, um adaptador compreende uma região de amplificação que compreende uma ou mais sequências de reconhecimento de iniciadores para amplificação de um único iniciador de uma biblioteca de DNA genômico. Em algumas modalidades, a região de amplificação compreende uma, duas, três, quatro, cinco, seis, sete, oito, nove, dez ou mais sequências de reconhecimento de iniciadores para amplificação de um único iniciador de uma biblioteca de DNA genômico.[00122] As used herein, the term "amplification region" refers to an element of the adapter molecule that comprises a polynucleotide sequence capable of serving as a primer recognition site for PCR amplification. In particular embodiments, an adapter comprises an amplification region that comprises one or more primer recognition sequences for amplifying a single primer from a genomic DNA library. In some embodiments, the amplification region comprises one, two, three, four, five, six, seven, eight, nine, ten, or more primer recognition sequences for amplifying a single primer from a genomic DNA library.

[00123] Em algumas modalidades, a região de amplificação está entre 5 e 50nucleotídeos, entre 10 e 45 nucleotídeos, entre 15 e 40 nucleotídeos, ou entre 20 e 30 nucleotídeos de comprimento. Em algumas modalidades, a região de amplificação é de 10 nucleotídeos, 11 nucleotídeos, 12 nucleotídeos, 13 nucleotídeos, 14 nucleotídeos, 15 nucleotídeos, 16 nucleotídeos, 17 nucleotídeos, cerca de 18 nucleotídeos, 19 nucleotídeos, 20 nucleotídeos, 21 nucleotídeos, 22 nucleotídeos, 23 nucleotídeos, 24 nucleotídeos, 25 nucleotídeos, 26 nucleotídeos, 27 nucleotídeos, 28 nucleotídeos, 29 nucleotídeos, 30 nucleotídeos, 31 nucleotídeos, 32 nucleotídeos, 33 nucleotídeos, 34 nucleotídeos, 35 nucleotídeos, 36 nucleotídeos, 37 nucleotídeos, 38 nucleotídeos, 39 nucleotídeos ou 40 nucleotídeos ou mais. Em modalidades particulares, a região de amplificação tem 25 nucleotídeos de comprimento.[00123] In some embodiments, the amplification region is between 5 and 50 nucleotides, between 10 and 45 nucleotides, between 15 and 40 nucleotides, or between 20 and 30 nucleotides in length. In some embodiments, the amplification region is 10 nucleotides, 11 nucleotides, 12 nucleotides, 13 nucleotides, 14 nucleotides, 15 nucleotides, 16 nucleotides, 17 nucleotides, about 18 nucleotides, 19 nucleotides, 20 nucleotides, 21 nucleotides, 22 nucleotides, 23 nucleotides, 24 nucleotides, 25 nucleotides, 26 nucleotides, 27 nucleotides, 28 nucleotides, 29 nucleotides, 30 nucleotides, 31 nucleotides, 32 nucleotides, 33 nucleotides, 34 nucleotides, 35 nucleotides, 36 nucleotides, 37 nucleotides, 38 nucleotides, 39 nucleotides, or 40 or more nucleotides. In particular embodiments, the amplification region is 25 nucleotides in length.

[00124] Tal como aqui utilizado, o termo "etiqueta de amostra" ou região deetiqueta de amostra "é utilizado indistintamente e refere-se a um elemento do adaptador que compreende uma sequência polinucleotídica que identifica exclusivamente o fragmento de DNA particular assim como a amostra da qual derivou.[00124] As used herein, the term "sample tag" or "sample tag region" is used interchangeably and refers to an adapter element comprising a polynucleotide sequence that uniquely identifies the particular DNA fragment as well as the sample from which it was derived.

[00125] Em certas modalidades, a região de etiqueta de amostra está entre 3 e50 nucleotídeos, entre 3 e 25 nucleotídeos, ou entre 5 e 15 nucleotídeos de comprimento. Em algumas modalidades, a região de etiqueta de amostra é de 3 nucleotídeos, 4 nucleotídeos, 5 nucleotídeos, 6 nucleotídeos, 7 nucleotídeos, 8 nucleotídeos, 9 nucleotídeos, 10 nucleotídeos, cerca de 11 nucleotídeos, 12 nucleotídeos, 13 nucleotídeos, 14 nucleotídeos, 15 nucleotídeos, 16 nucleotídeos, 17 nucleotídeos, 18 nucleotídeos, 19 nucleotídeos, ou 20 nucleotídeos ou mais de comprimento.[00125] In certain embodiments, the sample tag region is between 3 and 50 nucleotides, between 3 and 25 nucleotides, or between 5 and 15 nucleotides in length. In some embodiments, the sample tag region is 3 nucleotides, 4 nucleotides, 5 nucleotides, 6 nucleotides, 7 nucleotides, 8 nucleotides, 9 nucleotides, 10 nucleotides, about 11 nucleotides, 12 nucleotides, 13 nucleotides, 14 nucleotides, 15 nucleotides, 16 nucleotides, 17 nucleotides, 18 nucleotides, 19 nucleotides, or 20 nucleotides or more in length.

[00126] Em certas modalidades, o adaptador compreende um multiplicador deUMI, em que o multiplicador UMI é de pelo menos 1, pelo menos 2, pelo menos 3, pelo menos 4, pelo menos 5, pelo menos 6, pelo menos 7, pelo menos 8, pelo menos 9, ou pelo menos 10 nucleotídeos de comprimento.[00126] In certain embodiments, the adapter comprises a UMI multiplier, wherein the UMI multiplier is at least 1, at least 2, at least 3, at least 4, at least 5, at least 6, at least 7, at least 8, at least 9, or at least 10 nucleotides in length.

[00127] Em certas modalidades, cada posição de nucleotídeo do multiplicadorde UMI pode compreender qualquer adenina, guanina, citosina ou timina. Assim, em algumas modalidades, um multiplicador de UMI compreendendo n número de nucleotídeos pode compreender qualquer uma das n4 possíveis sequências nucleotídicas. Em algumas modalidades, o multiplicador de UMI tem um nucleotídeo de comprimento e compreende uma de quatro sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem dois nucleotídeos de comprimento e compreende uma de dezesseis sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem três nucleotídeos de comprimento e compreende uma de 64 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem quatro nucleotídeos de comprimento e compreende uma de 256 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem cinco nucleotídeos de comprimento e compreende uma de 1.024 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem seis nucleotídeos de comprimento e compreende uma de 4.096 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem sete nucleotídeos de comprimento e compreende uma de 16.384 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem oito nucleotídeos de comprimento e compreende uma de 65.5336 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem nove nucleotídeos de comprimento e compreende uma de 262.144 sequências possíveis. Em algumas modalidades, o multiplicador de UMI tem dez ou mais nucleotídeos de comprimento e compreende uma de 1.048.576 de sequências possíveis.[00127] In certain embodiments, each nucleotide position of the UMI multiplier can comprise any of adenine, guanine, cytosine, or thymine. Thus, in some embodiments, a UMI multiplier comprising n number of nucleotides can comprise any of n4 possible nucleotide sequences. In some embodiments, the UMI multiplier is one nucleotide in length and comprises one of four possible sequences. In some embodiments, the UMI multiplier is two nucleotides in length and comprises one of sixteen possible sequences. In some embodiments, the UMI multiplier is three nucleotides in length and comprises one of 64 possible sequences. In some embodiments, the UMI multiplier is four nucleotides in length and comprises one of 256 possible sequences. In some embodiments, the UMI multiplier is five nucleotides in length and comprises one of 1,024 possible sequences. In some embodiments, the UMI multiplier is six nucleotides in length and comprises one of 4,096 possible sequences. In some embodiments, the UMI multiplier is seven nucleotides in length and comprises one of 16,384 possible sequences. In some embodiments, the UMI multiplier is eight nucleotides in length and comprises one of 65,5336 possible sequences. In some embodiments, the UMI multiplier is nine nucleotides in length and comprises one of 262,144 possible sequences. In some embodiments, the UMI multiplier is ten or more nucleotides in length and comprises one of 1,048,576 possible sequences.

[00128] Em modalidades particulares, o adaptador compreende ummultiplicador de UMI, em que o multiplicador de UMI é adjacente ou contido na região de etiqueta de amostra (FIG. 5A). Exemplos ilustrativos de multiplicadores de UMI adjacentes ou contidos dentro da etiqueta de amostra são mostrados na FIG. 5B. Na FIG. 5B, uma região de etiqueta de amostra de 8-mer é mostrada com um multiplicador de UMI adjacente (linhas superior e inferior) ou um multiplicador de UMI incorporado dentro da etiqueta de amostra (7 linhas intermediárias). Em algumas modalidades, esse adaptador compreende uma etiqueta de amostra que tem oito nucleotídeos de comprimento e um multiplicador de UMI que tem três nucleotídeos de comprimento e compreende uma de 64 sequências possíveis e em que o multiplicador de UMI é adjacente ou contido na região de etiqueta de amostra. Em algumas modalidades, processos idênticos ligam o adaptador de comprimento completo à outra extremidade dos fragmentos genômicos.[00128] In particular embodiments, the adapter comprises a UMI multiplier, wherein the UMI multiplier is adjacent to or contained within the sample tag region (FIG. 5A). Illustrative examples of UMI multipliers adjacent to or contained within the sample tag are shown in FIG. 5B. In FIG. 5B, an 8-mer sample tag region is shown with an adjacent UMI multiplier (top and bottom rows) or a UMI multiplier embedded within the sample tag (middle 7 rows). In some embodiments, such an adapter comprises a sample tag that is eight nucleotides in length and a UMI multiplier that is three nucleotides in length and comprises one of 64 possible sequences, and wherein the UMI multiplier is adjacent to or contained within the sample tag region. In some embodiments, identical processes ligate the full-length adapter to the other end of the genomic fragments.

[00129] Em modalidades particulares, um módulo adaptador compreende umaou mais sequências de âncora. Tal como aqui utilizado, uma “região de âncora” e “sequência de âncora” são usados indistintamente e referem-se a uma sequência de nucleotídeos que hibrida com um oligonucleotídeo parceiro. Em algumas modalidades, a região de âncora compreende as seguintes três propriedades: (1) cada sequência de âncora é parte de uma família de duas ou mais sequências de âncora que representam coletivamente cada uma das quatro bases de DNA possíveis em cada sítio dentro da extensão; esta característica, representação de base equilibrada, é útil para calibrar a chamada de base apropriada em leituras de sequenciamento em modalidades particulares; (2) cada sequência de âncoras é composta de apenas duas das quatro bases possíveis, e estas são especificamente escolhidas para ser um número igual ou igual a A + C ou um número igual de G + T; uma sequência de âncora formada a partir de apenas duas bases reduz a possibilidade de que a sequência de âncora participe na formação de estrutura secundária que impediria a função de adaptador adequada; e (3) porque cada sequência de âncora é composta por números iguais de A + C ou G + T, cada sequência de âncora compartilha aproximadamente a mesma temperatura de fusão e estabilidade duplex de qualquer outra sequência de âncora em um conjunto de quatro.[00129] In particular embodiments, an adapter module comprises one or more anchor sequences. As used herein, an “anchor region” and “anchor sequence” are used interchangeably and refer to a nucleotide sequence that hybridizes to a partner oligonucleotide. In some embodiments, the anchor region comprises the following three properties: (1) each anchor sequence is part of a family of two or more anchor sequences that collectively represent each of the four possible DNA bases at each site within the extension; this feature, balanced base representation, is useful for calibrating appropriate base calling in sequencing reads in particular embodiments; (2) each anchor sequence is composed of only two of the four possible bases, and these are specifically chosen to be an equal number of A+C or an equal number of G+T; an anchor sequence formed from only two bases reduces the possibility that the anchor sequence participates in the formation of secondary structure that would prevent proper adapter function; and (3) because each anchor sequence is composed of equal numbers of A + C or G + T, each anchor sequence shares approximately the same melting temperature and duplex stability as any other anchor sequence in a set of four.

[00130] Em algumas modalidades, as sequências de âncora têm entre 1 e 50nucleotídeos de comprimento. Em algumas modalidades, as sequências de âncora têm entre 4 e 40 nucleotídeos de comprimento. Em certas modalidades, a região de âncora tem entre 5 e 25 nucleotídeos de comprimento. Em modalidades, a região âncora é de pelo menos 4 nucleotídeos, pelo menos seis nucleotídeos, pelo menos 8 nucleotídeos, pelo menos 10 nucleotídeos, pelo menos 12 nucleotídeos, pelo menos 14 nucleotídeos, ou pelo menos 16 nucleotídeos de comprimento. Em modalidades particulares, a região de âncora tem 10 nucleotídeos de comprimento.[00130] In some embodiments, the anchor sequences are between 1 and 50 nucleotides in length. In some embodiments, the anchor sequences are between 4 and 40 nucleotides in length. In certain embodiments, the anchor region is between 5 and 25 nucleotides in length. In embodiments, the anchor region is at least 4 nucleotides, at least 6 nucleotides, at least 8 nucleotides, at least 10 nucleotides, at least 12 nucleotides, at least 14 nucleotides, or at least 16 nucleotides in length. In particular embodiments, the anchor region is 10 nucleotides in length.

[00131] Em modalidades particulares, uma etapa de ligação compreende aligação/ligando de um módulo adaptador para o cfDNA reparado na extremidade ou de DNA celular para gerar uma biblioteca de DNA genômico marcada. Em algumas modalidades, um único módulo adaptador é empregado. Em algumas modalidades, dois, três, quatro ou cinco módulos adaptadores são utilizados. Em algumas modalidades, um módulo adaptador de sequência idêntica é ligado a cada extremidade do DNA fragmentado e reparado na extremidade.[00131] In particular embodiments, a ligation step comprises ligating/ligating an adapter module to the end-repaired cfDNA or cellular DNA to generate a labeled genomic DNA library. In some embodiments, a single adapter module is employed. In some embodiments, two, three, four, or five adapter modules are utilized. In some embodiments, an adapter module of identical sequence is ligated to each end of the fragmented and end-repaired DNA.

[00132] Em algumas modalidades, uma pluralidade de espécies adaptadoras éanexada a um fragmento de DNA genômico celular ou livre de células reparado na extremidade. Cada um da pluralidade de adaptadores pode compreender uma ou mais regiões de amplificação para a amplificação da biblioteca de DNA ou cfDNA celular, uma ou mais regiões de etiqueta de exemplo para a identificação do cfDNA ou fragmento de DNA genômico celular e identificação da amostra individual; e uma ou mais sequências para sequenciamento de DNA.[00132] In some embodiments, a plurality of adapter species is attached to an end-repaired cellular or cell-free genomic DNA fragment. Each of the plurality of adapters may comprise one or more amplification regions for amplifying the cellular DNA or cfDNA library, one or more example tag regions for identifying the cfDNA or cellular genomic DNA fragment and identifying the individual sample; and one or more sequences for DNA sequencing.

[00133] Em algumas modalidades, uma pluralidade de espécies adaptadoras éligada a um fragmentos de DNA genômico celular ou livre de célula reparado na extremidade de uma amostra, e a pluralidade de adaptadores compreender todas as regiões de amplificação de uma sequência nucleotídica idêntica.[00133] In some embodiments, a plurality of adapter species is ligated to an end-repaired cellular or cell-free genomic DNA fragment of a sample, and the plurality of adapters all comprise amplification regions of an identical nucleotide sequence.

[00134] Em certas modalidades, o DNA genômico de uma amostra é ligadocom uma pluralidade de adaptadores que compreendem sequências de etiquetas de amostra que são todas diferentes de outras sequências de regiões de etiquetas de amostra em adaptadores que estão ligados a fragmentos de DNA genômico de outras amostras.[00134] In certain embodiments, genomic DNA from a sample is ligated with a plurality of adapters comprising sample tag sequences that are all different from other sample tag region sequences on adapters that are ligated to genomic DNA fragments from other samples.

[00135] Em modalidades particulares, uma pluralidade de espéciesadaptadoras está ligada a fragmentos de DNA genômico celular ou livre de células reparado na extremidade de uma amostra, e a pluralidade de adaptadores todos compreendem uma ou mais regiões de etiqueta de amostra compreendendo uma entre 2 e 10.000 sequências nucleotídicas, uma entre 5 e 5.000 sequências nucleotídicas, uma entre 25 e 1.000 sequências nucleotídicas, uma entre 50 e 500 sequências nucleotídicas, uma entre 100 e 400 sequências nucleotídicas ou uma entre 200 e 300 sequências nucleotídicas. Em algumas modalidades, a região de etiqueta de amostra de cada adaptador tem 8 nucleotídeos de comprimento e cada região de etiqueta de amostra da pluralidade de adaptadores compreende uma de 240 sequências nucleotídicas.[00135] In particular embodiments, a plurality of adapter species are ligated to end-repaired cellular or cell-free genomic DNA fragments of a sample, and the plurality of adapters all comprise one or more sample tag regions comprising one of between 2 and 10,000 nucleotide sequences, one of between 5 and 5,000 nucleotide sequences, one of between 25 and 1,000 nucleotide sequences, one of between 50 and 500 nucleotide sequences, one of between 100 and 400 nucleotide sequences, or one of between 200 and 300 nucleotide sequences. In some embodiments, the sample tag region of each adapter is 8 nucleotides in length, and each sample tag region of the plurality of adapters comprises one of 240 nucleotide sequences.

[00136] Em certas modalidades, uma pluralidade de espécies adaptadoras éligada a um fragmento de DNA celular genômico celular ou livre de células reparado na extremidade de uma amostra, e as regiões de etiqueta de amostra da pluralidade de adaptadores compreendem sequências nucleotídicas que são diferentes umas das outras por uma distância de Hamming de 1, 2, 3, 4 ou maior que 4. Em modalidades particulares, a distância de Hamming é 2.[00136] In certain embodiments, a plurality of adapter species are ligated to an end-repaired cellular, genomic, or cell-free cellular DNA fragment of a sample, and the sample tag regions of the plurality of adapters comprise nucleotide sequences that are different from each other by a Hamming distance of 1, 2, 3, 4, or greater than 4. In particular embodiments, the Hamming distance is 2.

[00137] Em modalidades particulares, as regiões de etiqueta de amostra dapluralidade de adaptadores que estão ligados a fragmentos de DNA genômico de uma amostra têm 8 nucleotídeos de comprimento e compreendem uma de 240 sequências nucleotídicas que são diferentes umas das outras por uma distância de Hamming de 2.[00137] In particular embodiments, the sample tag regions of the plurality of adapters that are ligated to genomic DNA fragments of a sample are 8 nucleotides in length and comprise one of 240 nucleotide sequences that are different from each other by a Hamming distance of 2.

[00138] Em certas modalidades, a região de etiqueta de amostra serve paraidentificar fragmentos de DNA genômicos individuais e para identificar a amostra individual, isto é, a fonte da biblioteca genômica. Por exemplo, quando as etiquetas de amostra de uma pluralidade de adaptadores ligados a uma amostra têm uma de 240 sequências possíveis, cada amostra é identificada como tendo uma de 240etiquetas possíveis, e cada amostra recebe um conjunto de 240 etiquetas que são distintas de qualquer outra amostra por distância de Hamming de dois (ou seja, duas mudanças de base são necessárias para alterar uma etiqueta em outra). Essas mesmas etiquetas são usadas para enumerar a diversidade de clones e, portanto, também servem como etiquetas de sequência, ou seja, para identificar fragmentos de DNA genômico. Para aumentar ainda mais a diversidade de possíveis etiquetas de sequência, multiplicadores de UMI podem ser adicionados. Por exemplo, um multiplicador de UMI pode ser adicionado à região adaptadora compreendendo 3 nucleotídeos consistindo nas 64 combinações possíveis de 3 bases. Além disso, a pluralidade de adaptadores pode compreender mais do que uma sequência de âncora. Por exemplo, uma pluralidade de adaptadores pode conter 4 diferentes sequências de âncora são usadas simultaneamente. Essas sequências de âncora também podem ser usadas durante a remoção múltipla de amostras para reduzir erros.[00138] In certain embodiments, the sample tag region serves to identify individual genomic DNA fragments and to identify the individual sample, i.e., the source of the genomic library. For example, when the sample tags of a plurality of adapters ligated to a sample have one of 240 possible sequences, each sample is identified as having one of 240 possible tags, and each sample is assigned a set of 240 tags that are distinct from any other sample by a Hamming distance of two (i.e., two base changes are required to change one tag into another). These same tags are used to enumerate clone diversity and therefore also serve as sequence tags, i.e., to identify genomic DNA fragments. To further increase the diversity of possible sequence tags, UMI multipliers can be added. For example, a UMI multiplier can be added to the adapter region comprising 3 nucleotides consisting of the 64 possible 3-base combinations. Furthermore, the plurality of adapters may comprise more than one anchor sequence. For example, a plurality of adapters may contain four different anchor sequences used simultaneously. These anchor sequences can also be used during multiple sample removal to reduce errors.

[00139] A FIG. 4 mostra uma comparação ilustrativa entre um adaptador deprimeira geração (FIG. 4A e 4B) e um adaptador da presente invenção (FIG. 4C - FIG. 4E). As FIG. 4A e FIG. 4B mostram um exemplo de adaptador de primeira geração que tem 40 nt de comprimento e consistia de uma sequência distinta de amplificação por PCR, etiqueta de sequência e etiqueta de amostra. Aqui, a amostra é identificada por uma sequência fixa (etiqueta de sequência) que está presente em todos os adaptadores que são usados para gerar uma biblioteca de DNA a partir da amostra. Os fragmentos genômicos individuais são identificados por sequências separadas e distintas (etiqueta de sequência). As FIG. 4C - FIG. 4E mostram um exemplo ilustrativo de um adaptador da presente invenção. A etiqueta de sequência é combinada com a etiqueta de amostra. Há uma sequência adicional de 3 nt, o multiplicador de UMI, consistindo nas 64 combinações possíveis de 3 bases. A sequência da âncora de 10 nt é uma das quatro sequências distintas.[00139] FIG. 4 shows an illustrative comparison between a first generation adapter (FIG. 4A and 4B) and an adapter of the present invention (FIG. 4C - FIG. 4E). FIGS. 4A and FIG. 4B show an example of a first generation adapter that is 40 nt in length and consisted of a distinct PCR amplification sequence, sequence tag, and sample tag. Here, the sample is identified by a fixed sequence (sequence tag) that is present in all adapters that are used to generate a DNA library from the sample. Individual genomic fragments are identified by separate and distinct sequences (sequence tag). FIGS. 4C - FIG. 4E show an illustrative example of an adapter of the present invention. The sequence tag is combined with the sample tag. There is an additional 3 nt sequence, the UMI multiplier, consisting of the 64 possible 3-base combinations. The 10 nt anchor sequence is one of four distinct sequences.

[00140] Assim, no exemplo ilustrativo (Ver FIG. 4C - FIG. 4E), um conjuntode adaptadores que são usados em conexão com uma única amostra compreende 240 sequências de etiqueta de amostra que podem ser divididas em quatro conjuntos de sequências de etiqueta de amostra com cada conjunto compreendendo 60 etiquetas (uma para cada nucleotídeo, A, C, T e G). Assim, cada conjunto de 60 etiquetas é específico para uma das quatro sequências de âncora. No total, um conjunto de 240 configurações possíveis de etiquetas de amostra é possível por amostra. Especificamente, neste cenário, as 240 sequências de etiquetas de amostra são divididas em quatro conjuntos de 60 sequências, com cada conjunto direcionado para uma região de âncora específica. Portanto, o ID da amostra envolve não apenas as informações de sequência de tag de oito amostras de nucleotídeos, mas também as informações de sequência de âncora associadas. Além disso, a posição das sequências dentro da leitura é fixa e, portanto, as etiquetas de amostra e as sequências de âncora devem ter uma posição fixa dentro de uma leitura de sequenciamento, a fim de passar filtros de inclusão para consideração a jusante. Além disso, a inclusão do multiplicador de UMI aumenta a diversidade de etiquetas de sequência de 240 para 240 x 64 = 15.360 etiquetas de sequência possíveis.[00140] Thus, in the illustrative example (See FIG. 4C - FIG. 4E), a set of adapters that are used in connection with a single sample comprises 240 sample tag sequences that can be divided into four sets of sample tag sequences with each set comprising 60 tags (one for each nucleotide, A, C, T, and G). Thus, each set of 60 tags is specific to one of the four anchor sequences. In total, a set of 240 possible sample tag configurations is possible per sample. Specifically, in this scenario, the 240 sample tag sequences are divided into four sets of 60 sequences, with each set targeting a specific anchor region. Therefore, the sample ID involves not only the tag sequence information of eight nucleotide samples, but also the associated anchor sequence information. Furthermore, the position of sequences within the read is fixed, and therefore, sample tags and anchor sequences must have a fixed position within a sequencing read in order to pass inclusion filters for downstream consideration. Furthermore, the inclusion of the UMI multiplier increases the sequence tag diversity from 240 to 240 x 64 = 15,360 possible sequence tags.

[00141] A ligação de um ou mais adaptadores aqui contemplados pode serrealizada por métodos conhecidos pelos versados na técnica. Em modalidades particulares, um ou mais adaptadores contemplados aqui são ligados a cfDNA reparado na extremidade que compreende extremidades cegas. Em certas modalidades, um ou mais adaptadores contemplados aqui são ligados ao cfDNA reparado na extremidade que compreende extremidades complementares apropriadas para o método de ligação empregado. Em certas modalidades, um ou mais adaptadores aqui contemplados são ligados ao cfDNA reparado na extremidade que compreende uma saliência 3'.[00141] Ligation of one or more adapters contemplated herein can be accomplished by methods known to those of skill in the art. In particular embodiments, one or more adapters contemplated herein are ligated to end-repaired cfDNA comprising blunt ends. In certain embodiments, one or more adapters contemplated herein are ligated to end-repaired cfDNA comprising complementary ends appropriate for the ligation method employed. In certain embodiments, one or more adapters contemplated herein are ligated to end-repaired cfDNA comprising a 3' overhang.

[00142] Em algumas modalidades, ligar os fragmentos de DNA genômico deuma pluralidade de adaptadores inclui as etapas de ligar os fragmentos de cfDNA reparado na extremidade ou DNA celular a um oligonucleotídeo contendo, pelo menos, uma porção de uma região âncora. Em algumas modalidades, o oligonucleotídeo contém a região de âncora completa. Em modalidades particulares, o oligonucleotídeo é um duplex de DNA compreendendo uma fita de ligação fosforilada 5' duplexada com uma fita parceira, em que a fita parceira é bloqueada da ligação por modificação química na sua extremidade 3' e em que a fita de ligação está ligada ao fragmento de DNA genômico. Em certas modalidades, os fragmentos de DNA ligados com pelo menos uma porção da região de âncora são então pareados com oligonucleotídeos de DNA que codificam as sequências adaptadoras de comprimento completo. Em modalidades particulares, uma ou mais polinucleotídeo quinases, uma ou mais DNA ligases e/ou uma ou mais DNA polimerases são adicionadas aos fragmentos de DNA genômico e aos oligonucleotídeos de DNA que codificam a sequência adaptadora de comprimento completo. Em algumas modalidades, a polinucleotídeo quinase é a polinucleotídeo quinase T4. Em algumas modalidades, a DNA ligase é Taq DNA ligase. Em certas modalidades, a DNA polimerase é Taq polimerase. Em modalidades particulares, a DNA polimerase é Bst polimerase de comprimento completo.[00142] In some embodiments, ligating the genomic DNA fragments of a plurality of adapters includes the steps of ligating the end-repaired cfDNA fragments or cellular DNA to an oligonucleotide containing at least a portion of an anchor region. In some embodiments, the oligonucleotide contains the complete anchor region. In particular embodiments, the oligonucleotide is a DNA duplex comprising a 5' phosphorylated linker strand duplexed with a partner strand, wherein the partner strand is blocked from ligation by chemical modification at its 3' end and wherein the linker strand is linked to the genomic DNA fragment. In certain embodiments, the DNA fragments ligated with at least a portion of the anchor region are then annealed to DNA oligonucleotides encoding the full-length adapter sequences. In particular embodiments, one or more polynucleotide kinases, one or more DNA ligases, and/or one or more DNA polymerases are added to the genomic DNA fragments and DNA oligonucleotides encoding the full-length adapter sequence. In some embodiments, the polynucleotide kinase is T4 polynucleotide kinase. In some embodiments, the DNA ligase is Taq DNA ligase. In certain embodiments, the DNA polymerase is Taq polymerase. In particular embodiments, the DNA polymerase is full-length Bst polymerase.

[00143] A FIG. 6 mostra um método ilustrativo para ligar uma pluralidade deadaptadores à extremidade 3' dos fragmentos de DNA reparados. Na primeira etapa, a sequência de âncora é anexada às extremidades 3' dos fragmentos genômicos. Nesta etapa, a porção de âncora é um dúplex de DNA na qual a “fita de ligação” fosforilada de 5' de dez nucleotídeos é duplexada com uma “fita parceiro” de oito nucleotídeos que é bloqueada da ligação por modificação química na sua extremidade 3'. O duplex de âncora é cego na extremidade fosforilada/bloqueada e pode, portanto, liga-se a fragmentos genômicos de extremidade cega. Na etapa seguinte, os conjuntos de oligonucleotídeos que codificam as sequências adaptadoras completas são fundidos com a sequência de âncora inicial. A ação combinada de T4 polinucleótido quinase, Taq DNA ligase e Bst polimerase de comprimento completo liga este oligonucleotídeo através de ligação como ilustrado para a fita superior e estende a sequência de âncora inicial por polimerização de DNA na fita de fundo para completar a sequência adaptadora de comprimento total. Podem ser utilizados processos idênticos para ligar adaptadores de comprimento total à extremidade 5' dos fragmentos genômicos.[00143] FIG. 6 shows an illustrative method for ligating a plurality of adapters to the 3' end of repaired DNA fragments. In the first step, the anchor sequence is attached to the 3' ends of the genomic fragments. In this step, the anchor moiety is a DNA duplex in which the ten-nucleotide 5' phosphorylated "linker strand" is duplexed with an eight-nucleotide "partner strand" that is blocked from ligation by chemical modification at its 3' end. The anchor duplex is blunt at the phosphorylated/blocked end and can therefore ligate to blunt-ended genomic fragments. In the next step, sets of oligonucleotides encoding the complete adapter sequences are annealed to the initial anchor sequence. The combined action of T4 polynucleotide kinase, Taq DNA ligase, and full-length Bst polymerase ligates this oligonucleotide through ligation as illustrated for the top strand and extends the initial anchor sequence by DNA polymerization on the bottom strand to complete the full-length adapter sequence. Identical procedures can be used to ligate full-length adapters to the 5' end of genomic fragments.

2. DNA LIBRARY AMPLIFICATION

[00144] Em modalidades particulares, os métodos de análise genética aquicontemplados compreendem a amplificação de uma biblioteca de DNA genômico, por exemplo , uma biblioteca de DNA celular ou uma biblioteca cfDNA, para gerar uma biblioteca de clone de DNA ou uma biblioteca de clones de DNA, por exemplo, uma biblioteca de clones de cfDNA ou uma biblioteca de clones de cfDNA, ou uma biblioteca de clone de DNA celular ou uma biblioteca de clones de DNA celular. Cada molécula da biblioteca de DNA compreende um adaptador ligado a cada extremidade de um fragmento de DNA reparado na extremidade, e cada adaptador compreende uma ou mais regiões de amplificação. Em algumas modalidades, adaptadores diferentes são ligados a diferentes extremidades do cfDNA reparado na extremidade. Em modalidades particulares, adaptadores diferentes são ligados a diferentes extremidades do DNA celular reparado na extremidade.[00144] In particular embodiments, the genetic analysis methods contemplated herein comprise amplifying a genomic DNA library, e.g., a cellular DNA library or a cfDNA library, to generate a DNA clone library or a library of DNA clones, e.g., a cfDNA clone library or a cfDNA clone library, or a cellular DNA clone library or a library of cellular DNA clones. Each molecule of the DNA library comprises an adapter ligated to each end of an end-repaired DNA fragment, and each adapter comprises one or more amplification regions. In some embodiments, different adapters are ligated to different ends of the end-repaired cfDNA. In particular embodiments, different adapters are ligated to different ends of the end-repaired cellular DNA.

[00145] Em algumas modalidades, o mesmo adaptador é ligado a ambas asextremidades do fragmento de DNA. A ligação do mesmo adaptador a ambas as extremidades do DNA reparado na extremidade permite a amplificação por PCR com uma única sequência de iniciadores. Em modalidades particulares, uma porção da biblioteca de adaptadores de cfDNA ligados será amplificada usando técnicas de PCR padrão com uma única sequência de iniciadores de amplificação de condução. Numa modalidade, a sequência de iniciador única tem cerca de 25 nucleotídeos, opcionalmente com uma Tm projetada de > 55°C sob condições de resistência iônica padrão.[00145] In some embodiments, the same adapter is ligated to both ends of the DNA fragment. Ligation of the same adapter to both ends of the end-repaired DNA allows for PCR amplification with a single primer sequence. In particular embodiments, a portion of the library of ligated cfDNA adapters will be amplified using standard PCR techniques with a single driving amplification primer sequence. In one embodiment, the single primer sequence is about 25 nucleotides, optionally with a designed Tm of >55°C under standard ionic strength conditions.

[00146] Em modalidades particulares, picogramas da biblioteca inicial deDNA genômico, por exemplo, uma biblioteca de DNA celular ou biblioteca de cfDNA, são amplificados em microgramas de clones de DNA, implicando uma amplificação de 10.000 vezes. A quantidade de produto amplificado pode ser medida utilizando métodos conhecidos na técnica, por exemplo, quantificação num instrumento Qubit 2.0 ou Nanodrop.[00146] In particular embodiments, picograms of the initial genomic DNA library, e.g., a cellular DNA library or cfDNA library, are amplified into micrograms of DNA clones, implying a 10,000-fold amplification. The amount of amplified product can be measured using methods known in the art, e.g., quantification on a Qubit 2.0 or Nanodrop instrument.

3. DETERMINING THE NUMBER OF GENOME EQUIVALENTS

[00147] Em várias modalidades, um método para análise genética de DNAgenômico compreende determinar o número de equivalentes do genoma na biblioteca de clones de DNA. Tal como aqui utilizado, o termo "equivalente do genoma" refere-se ao número de cópias do genoma em cada biblioteca. Um desafio importante encontrado pelas composições e métodos aqui contemplados é conseguir uma sensibilidade de ensaio suficiente para detectar e analisar mutações genéticas raras ou diferenças na sequência genética. Para determinar o valor de sensibilidade do ensaio numa base amostra por amostra, os números de sequências diferentes e distintas que estão presentes em cada amostra são medidos medindo o número de equivalentes do genoma que estão presentes numa biblioteca de sequenciamento. Para estabelecer a sensibilidade, o número de equivalentes do genoma deve ser medido para cada biblioteca de amostras.[00147] In various embodiments, a method for genetic analysis of genomic DNA comprises determining the number of genome equivalents in the DNA clone library. As used herein, the term "genome equivalent" refers to the number of genome copies in each library. A key challenge faced by the compositions and methods contemplated herein is achieving sufficient assay sensitivity to detect and analyze rare genetic mutations or differences in genetic sequence. To determine assay sensitivity on a sample-by-sample basis, the number of different and distinct sequences present in each sample is measured by measuring the number of genome equivalents present in a sequencing library. To establish sensitivity, the number of genome equivalents must be measured for each sample library.

[00148] O número de equivalentes do genoma pode ser determinado porensaio de qPCR ou utilizando a contagem baseada em bioinformática após a realização do sequenciamento. No fluxo do processo de amostras clínicas, a medição de qPCR dos equivalentes genômicos é utilizada como uma etapa de QC para bibliotecas de DNA, por exemplo, bibliotecas de cfDNA ou bibliotecas de DNA genômico. Estabelece uma expectativa para a sensibilidade do ensaio antes da análise da sequência e permite que uma amostra seja excluída da análise se a sua biblioteca de clones de DNA correspondente não tiver a profundidade necessária dos equivalentes do genoma. Por fim, a contagem baseada em bioinformática dos equivalentes genômicos também é usada para identificar os equivalentes do genoma - e, portanto, a sensibilidade do ensaio e as estimativas falsas negativas - para cada biblioteca de clones de DNA.[00148] The number of genome equivalents can be determined by qPCR assay or using bioinformatics-based counting after sequencing. In the clinical sample process flow, qPCR measurement of genomic equivalents is used as a QC step for DNA libraries, e.g., cfDNA libraries or genomic DNA libraries. It establishes an expectation for assay sensitivity prior to sequence analysis and allows a sample to be excluded from analysis if its corresponding DNA clone library does not have the required depth of genome equivalents. Finally, bioinformatics-based counting of genomic equivalents is also used to identify genome equivalents—and thus assay sensitivity and false negative estimates—for each DNA clone library.

[00149] O ensaio empírico de qPCR e os ensaios de contagem estatísticadevem estar bem correlacionados. Nos casos em que o sequenciamento não revela a profundidade da sequência em uma biblioteca de clones de DNA, o reprocessamento da biblioteca de clones de DNA e/ou sequenciamento adicional pode ser requerido.[00149] The empirical qPCR assay and statistical counting assays should be well correlated. In cases where sequencing does not reveal the sequence depth in a DNA clone library, reprocessing of the DNA clone library and/or additional sequencing may be required.

[00150] Numa modalidade, os equivalentes do genoma numa biblioteca declones de DNA celular ou cfDNA são determinados utilizando um ensaio quantitativo de PCR (qPCR). Numa modalidade particular, uma biblioteca padrão de concentração conhecida é usada para construir uma curva padrão e as medidas do ensaio qPCR são ajustadas à curva padrão resultante e um valor para equivalentes de genoma é derivado do ajuste. Os presentes inventores descobriram que um ensaio baseado em repetição de qPCR compreendendo um iniciador que hibrida especificamente com uma sequência comum no genoma, por exemplo, uma sequência de repetição, e outro iniciador que se liga ao sítio de ligação do iniciador no adaptador, mediu um aumento de 8 vezes nos equivalentes do genoma em comparação com os métodos usando apenas o iniciador específico do adaptador (presente em ambas as extremidades do clone de cfDNA). O número de equivalentes de genoma medidos pelos ensaios baseados em repetição proporciona um desempenho de biblioteca para biblioteca mais consistente e um melhor alinhamento entre estimativas de qPCR de equivalentes de genoma e equivalentes de etiqueta contados bioinformicamente em execuções de sequenciamento.[00150] In one embodiment, genome equivalents in a cellular DNA or cfDNA clone library are determined using a quantitative PCR (qPCR) assay. In a particular embodiment, a standard library of known concentration is used to construct a standard curve, and measurements from the qPCR assay are fitted to the resulting standard curve, and a value for genome equivalents is derived from the fit. The present inventors have discovered that a repeat-based qPCR assay comprising a primer that specifically hybridizes to a common sequence in the genome, e.g., a repeat sequence, and another primer that binds to the primer binding site on the adapter, measured an 8-fold increase in genome equivalents compared to methods using only the adapter-specific primer (present at both ends of the cfDNA clone). The number of genome equivalents measured by the repeat-based assays provides more consistent library-to-library performance and better alignment between qPCR estimates of genome equivalents and tag equivalents counted bioinformatically in sequencing runs.

[00151] Exemplos ilustrativos de repetições adequadas para utilização nosensaios equivalentes de genoma baseados em repetição aqui contemplados incluem, mas não se limitam a: elementos nucleares intercalados curtos (SINEs), por exemplo, repetições Alu; elementos nucleares intercalados longos (LINEs), por exemplo, LINE1, LINE2, LINE3; elementos de repetição de microssatélites, por exemplo, repetições curtas em tandem (STRs), repetições de sequência simples (SSRs); e repetições intercaladas de mamíferos (MIRs).[00151] Illustrative examples of repeats suitable for use in the repeat-based genome-wide equivalent assays contemplated herein include, but are not limited to: short interspersed nuclear elements (SINEs), e.g., Alu repeats; long interspersed nuclear elements (LINEs), e.g., LINE1, LINE2, LINE3; microsatellite repeat elements, e.g., short tandem repeats (STRs), simple sequence repeats (SSRs); and mammalian interspersed repeats (MIRs).

[00152] Numa modalidade, a repetição é uma repetição Alu.[00152] In one embodiment, the repetition is an Alu repetition.

4. QUANTITATIVE GENETIC ANALYSIS

[00153] Em várias modalidades, um método para análise genética de DNAgenômico, por exemplo, celular genômico ou cfDNA, compreende análise genética quantitativa de um ou mais loci genéticos alvo dos clones da biblioteca de DNA. A análise genética quantitativa compreende um ou mais de, ou todos, as seguintes etapas: capturar clones de DNA que compreendem um locus genético alvo; amplificação do locus genético alvo capturado; sequenciamento do locus genético alvo amplificado capturado; e análise bioinformática das leituras de sequência resultantes. Tal como aqui utilizado, os termos "clone de biblioteca de DNA" referem-se a um fragmento de biblioteca de DNA em que a combinação do adaptador e do fragmento de DNA genômico resulta em uma única sequência de DNA (por exemplo, uma sequência de DNA que pode ser distinguida da de outro clone de biblioteca de DNA).[00153] In various embodiments, a method for genetic analysis of genomic DNA, e.g., cellular genomic or cfDNA, comprises quantitative genetic analysis of one or more target genetic loci from DNA library clones. The quantitative genetic analysis comprises one or more of, or all of, the following steps: capturing DNA clones comprising a target genetic locus; amplifying the captured target genetic locus; sequencing the captured amplified target genetic locus; and bioinformatic analysis of the resulting sequence reads. As used herein, the terms "DNA library clone" refer to a DNA library fragment in which the combination of the adapter and the genomic DNA fragment results in a unique DNA sequence (e.g., a DNA sequence that can be distinguished from that of another DNA library clone).

(a) Capture of the target genetic locus

[00154] A presente invenção contempla, em parte, um módulo de sonda decaptura projetado para reter a eficiência e confiabilidade de sondas maiores, mas que minimiza a geração de sequência não informativa em uma biblioteca de DNA genômico que compreende fragmentos de DNA menores, por exemplo, uma biblioteca de clone de cfDNA. Uma “sonda de captura” ou “módulo de sonda de captura”, tal como aqui utilizado, é usado indistintamente e refere-se a um polinucleotídeo que compreende uma sequência de sonda de captura e uma sequência de cauda. Em modalidades particulares, a sequência de módulo de sonda de captura ou uma porção da mesma serve como um sítio de ligação ao iniciador de um ou mais iniciadores de sequenciamento.[00154] The present invention contemplates, in part, a capture probe module designed to retain the efficiency and reliability of larger probes, but which minimizes the generation of uninformative sequence in a genomic DNA library comprising smaller DNA fragments, e.g., a cfDNA clone library. A “capture probe” or “capture probe module,” as used herein, is used interchangeably and refers to a polynucleotide comprising a capture probe sequence and a tail sequence. In particular embodiments, the capture probe module sequence or a portion thereof serves as a primer binding site for one or more sequencing primers.

[00155] Em modalidades particulares, um módulo de sonda de capturacompreende uma sonda de captura. Tal como aqui utilizado, uma “sonda de captura” refere- se a uma região capaz de hibridizar com uma região alvo de DNA específica. Em algumas modalidades, as sondas de captura são utilizadas com biblioteca de DNA genômico construída a partir de DNA celular. Em modalidades particulares, as sondas de captura são utilizadas com biblioteca de DNA genômico construída a partir de cfDNA. Porque o tamanho médio de cfDNA é de cerca de 150 a cerca de 170 bp e é altamente fragmentado, certas modalidades são composições dirigidas e os métodos aqui contemplados compreendem utilizar sondas de captura de alta densidade e relativamente pequenas para interrogar regiões alvo de interesse de DNA. Em algumas modalidades, as sondas de captura são capazes de hibridizar com regiões-alvo de DNA que são distribuídas por todos os segmentos cromossômicos em uma densidade uniforme. Um conjunto de tais sondas de captura é referido aqui como “sondas de estabilidade cromossômica”. As sondas de estabilidade cromossômica são utilizadas para interrogar as variações do número de cópias numa escala de todo o genoma, de modo a proporcionar uma medição do número de cópias cromossômicas no genoma (por exemplo, ploidia cromossômica).[00155] In particular embodiments, a capture probe module comprises a capture probe. As used herein, a “capture probe” refers to a region capable of hybridizing to a specific DNA target region. In some embodiments, capture probes are used with genomic DNA libraries constructed from cellular DNA. In particular embodiments, capture probes are used with genomic DNA libraries constructed from cfDNA. Because the average size of cfDNA is about 150 to about 170 bp and is highly fragmented, certain embodiments are targeted compositions, and the methods contemplated herein comprise using relatively small, high-density capture probes to interrogate DNA target regions of interest. In some embodiments, the capture probes are capable of hybridizing to DNA target regions that are distributed throughout chromosome segments at a uniform density. A set of such capture probes is referred to herein as “chromosome stability probes.” Chromosome stability probes are used to interrogate copy number variations on a genome-wide scale to provide a measure of chromosome copy number in the genome (e.g., chromosome ploidy).

[00156] Uma preocupação particular com o uso de sondas de captura de altadensidade é que, em geral, as sondas de captura são projetadas usando “regras de sequência” específicas. Por exemplo, regiões de sequência redundante ou que exibem vieses de composição de base extremos são geralmente excluídas no projeto de sondas de captura. No entanto, os presentes inventores descobriram que a falta de flexibilidade nas regras de design de sonda de captura não afeta substancialmente o desempenho da sonda. Em contraste, as sondas de captura escolhidas estritamente por restrição posicional forneceram informações de sequência no alvo; exibem muito pouca captura de leitura fora de alvo e não mapeável; e produzir leituras uniformes, úteis, no destino, com apenas algumas exceções. Além disso, a alta redundância no espaçamento próximo da sonda mais do que compensa as eventuais sondas de captura de baixo desempenho.[00156] A particular concern with the use of high-density capture probes is that, in general, capture probes are designed using specific "sequence rules." For example, regions of redundant sequence or those exhibiting extreme base composition biases are typically excluded in capture probe design. However, the present inventors have found that a lack of flexibility in capture probe design rules does not substantially affect probe performance. In contrast, capture probes chosen strictly by positional constraint provided on-target sequence information; exhibit very little off-target and unmappable read capture; and produce uniform, useful, on-target reads, with only a few exceptions. Furthermore, the high redundancy in close probe spacing more than compensates for the occasional low-performing capture probe.

[00157] Em modalidades particulares, uma região alvo é direcionada por umapluralidade de sondas de captura, em que quaisquer dois ou mais sondas de captura são concebidas para se ligar à região alvo dentro de 10 nucleotídeos de cada uma, dentro de 15 nucleotídeos de cada uma, dentro de 20 nucleotídeos de cada uma, dentro de 25 nucleotídeos de cada uma, dentro de 30 nucleotídeos de cada uma, dentro de 35 nucleotídeos de cada uma, dentro de 40 nucleotídeos de cada uma, dentro de 45 nucleotídeos de cada uma, ou dentro de 50 nucleotídeos ou mais de cada uma, bem como todos os comprimentos de nucleotídeos intervenientes.[00157] In particular embodiments, a target region is targeted by a plurality of capture probes, wherein any two or more capture probes are designed to bind to the target region within 10 nucleotides of each, within 15 nucleotides of each, within 20 nucleotides of each, within 25 nucleotides of each, within 30 nucleotides of each, within 35 nucleotides of each, within 40 nucleotides of each, within 45 nucleotides of each, or within 50 nucleotides or more of each, as well as all intervening nucleotide lengths.

[00158] Numa modalidade, a sonda de captura é cerca de 25 nucleotídeos,cerca de 26 nucleotídeos, cerca de 27 nucleotídeos, cerca de 28 nucleotídeos, cerca de 29 nucleotídeos, cerca de 30 nucleotídeos, cerca de 31 nucleotídeos, cerca de 32 nucleotídeos, cerca de 33 nucleotídeos, cerca de 34 nucleotídeos, cerca de 35 nucleotídeos, cerca de 36 nucleotídeos, cerca de 37 nucleotídeos, cerca de 38 nucleotídeos, cerca de 39 nucleotídeos, cerca de 40 nucleotídeos, cerca de 41 nucleotídeos, cerca de 42 nucleotídeos, cerca de 43 nucleotídeos, cerca de 44 nucleotídeos, ou cerca de 45 nucleotídeos.[00158] In one embodiment, the capture probe is about 25 nucleotides, about 26 nucleotides, about 27 nucleotides, about 28 nucleotides, about 29 nucleotides, about 30 nucleotides, about 31 nucleotides, about 32 nucleotides, about 33 nucleotides, about 34 nucleotides, about 35 nucleotides, about 36 nucleotides, about 37 nucleotides, about 38 nucleotides, about 39 nucleotides, about 40 nucleotides, about 41 nucleotides, about 42 nucleotides, about 43 nucleotides, about 44 nucleotides, or about 45 nucleotides. nucleotides.

[00159] Numa modalidade, a sonda de captura é cerca de 100 nucleotídeos,cerca de 200 nucleotídeos, cerca de 300 nucleotídeos, cerca de 400 nucleotídeos, ou cerca de 100 nucleotídeos. Numa outra modalidade, a sonda de captura é cerca de 100 nucleotídeos a cerca de 500 nucleotídeos, cerca de 200 nucleotídeos a cerca de 500 nucleotídeos, cerca de 300 nucleotídeos a cerca de 500 nucleotídeos, ou cerca de 400 nucleotídeos a cerca de 500 nucleotídeos, ou qualquer intervalo interveniente do mesmo.[00159] In one embodiment, the capture probe is about 100 nucleotides, about 200 nucleotides, about 300 nucleotides, about 400 nucleotides, or about 100 nucleotides. In another embodiment, the capture probe is about 100 nucleotides to about 500 nucleotides, about 200 nucleotides to about 500 nucleotides, about 300 nucleotides to about 500 nucleotides, or about 400 nucleotides to about 500 nucleotides, or any intervening range thereof.

[00160] Numa modalidade particular, a sonda de captura é de 60 nucleotídeos.Numa outra modalidade, a sonda de captura é substancialmente menor que 60 nucleotídeos, mas hibrida comparativamente, assim como, ou melhor, do que uma sonda de captura de 60 nucleotídeos direcionando a mesma região alvo de DNA. Numa certa modalidades, a sonda de captura é de 40 nucleotídeos.[00160] In a particular embodiment, the capture probe is 60 nucleotides. In another embodiment, the capture probe is substantially shorter than 60 nucleotides, but hybridizes comparatively as well as, or better than, a 60 nucleotide capture probe targeting the same target DNA region. In certain embodiments, the capture probe is 40 nucleotides.

[00161] Em certas modalidades, um módulo de sonda de captura compreendeuma sequência final. Tal como aqui utilizado, o termo “sequência de cauda” refere-se a um polinucleotídeo na extremidade 5' do módulo de sonda de captura, que em modalidades particulares pode servir como um sítio de ligação ao iniciador. Em modalidades particulares, um iniciador de sequenciamento liga-se ao sítio de ligação do iniciador na região de cauda.[00161] In certain embodiments, a capture probe module comprises a tail sequence. As used herein, the term "tail sequence" refers to a polynucleotide at the 5' end of the capture probe module, which in particular embodiments can serve as a primer binding site. In particular embodiments, a sequencing primer binds to the primer binding site in the tail region.

[00162] Em modalidades particulares, a sequência de cauda é cerca de 5 acerca de 100 nucleotídeos, cerca de 10 a cerca de 100 nucleotídeos, cerca de 5 a cerca de 75 nucleotídeos, cerca de 5 a cerca de 50 nucleotídeos, cerca de 5 a cerca de 25 nucleotídeos, ou cerca de 5 a cerca de 20 nucleotídeos. Em certas modalidades, a terceira região é de cerca de 10 a cerca de 50 nucleotídeos, cerca de 15 a cerca de 40 nucleotídeos, cerca de 20 a cerca de 30 nucleotídeos ou cerca de 20 nucleotídeos, ou qualquer número interveniente de nucleotídeos.[00162] In particular embodiments, the tail sequence is about 5 to about 100 nucleotides, about 10 to about 100 nucleotides, about 5 to about 75 nucleotides, about 5 to about 50 nucleotides, about 5 to about 25 nucleotides, or about 5 to about 20 nucleotides. In certain embodiments, the third region is about 10 to about 50 nucleotides, about 15 to about 40 nucleotides, about 20 to about 30 nucleotides, or about 20 nucleotides, or any intervening number of nucleotides.

[00163] Em modalidades particulares, a sequência de cauda é cerca de 30nucleotídeos, cerca de 31 nucleotídeos, cerca de 32 nucleotídeos, cerca de 33 nucleotídeos, cerca de 34 nucleotídeos, cerca de 35 nucleotídeos, cerca de 36 nucleotídeos, cerca de 37 nucleotídeos, cerca de 38 nucleotídeos, cerca de 39 nucleotídeos, ou cerca de 40 nucleotídeos.[00163] In particular embodiments, the tail sequence is about 30 nucleotides, about 31 nucleotides, about 32 nucleotides, about 33 nucleotides, about 34 nucleotides, about 35 nucleotides, about 36 nucleotides, about 37 nucleotides, about 38 nucleotides, about 39 nucleotides, or about 40 nucleotides.

[00164] Em várias modalidades, o módulo de sonda de captura compreendeum membro específico de um par de ligação para permitir o isolamento e/ou a purificação de um ou mais fragmentos capturados de uma biblioteca de DNA genômico marcada e ou amplificada (por exemplo, uma biblioteca celular ou cfDNA) que hibrida com a sonda de captura. Em modalidades particulares, o módulo de sonda de captura é conjugado com biotina ou outro hapteno adequado, por exemplo, dinitrofenol, digoxigenina.[00164] In various embodiments, the capture probe module comprises a specific member of a binding pair to enable isolation and/or purification of one or more captured fragments from a labeled and/or amplified genomic DNA library (e.g., a cellular or cfDNA library) that hybridize to the capture probe. In particular embodiments, the capture probe module is conjugated to biotin or another suitable hapten, e.g., dinitrophenol, digoxigenin.

[00165] Em várias modalidades, o módulo de sonda de captura é hibridadocom uma biblioteca de DNA marcada e opcionalmente amplificada para formar um complexo. Em algumas modalidades, o módulo de sonda de captura multifuncional hibrida substancialmente com uma região alvo genômica específica na biblioteca de DNA.[00165] In various embodiments, the capture probe module is hybridized to a labeled and optionally amplified DNA library to form a complex. In some embodiments, the multifunctional capture probe module substantially hybridizes to a specific genomic target region in the DNA library.

[00166] As condições de hibridização ou hibridação podem incluir quaisquercondições de reação em que duas sequências nucleotídicas formam um complexo estável; por exemplo, a biblioteca de DNA marcada e o módulo de sonda de captura formam uma biblioteca de DNA marcada estável —complexo de módulo de sonda de captura. Tais condições de reação são bem conhecidas na técnica e os versados na técnica apreciarão que tais condições podem ser modificadas conforme apropriado, por exemplo, temperaturas de anelamento diminuídas com sondas de captura de comprimento mais curto, e dentro do âmbito da presente invenção. A hibridização substancial pode ocorrer quando a segunda região do complexo da sonda de captura exibe 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92% 91%, 90%, 89%, 88%, 85%, 80%, 75% ou 70% de identidade de sequência, homologia ou complementaridade com uma região da biblioteca de DNA marcada.[00166] Hybridization or hybridization conditions may include any reaction conditions in which two nucleotide sequences form a stable complex; for example, the labeled DNA library and the capture probe module form a stable labeled DNA library-capture probe module complex. Such reaction conditions are well known in the art, and those skilled in the art will appreciate that such conditions may be modified as appropriate, for example, decreased annealing temperatures with shorter length capture probes, and within the scope of the present invention. Substantial hybridization can occur when the second region of the capture probe complex exhibits 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92% 91%, 90%, 89%, 88%, 85%, 80%, 75%, or 70% sequence identity, homology, or complementarity to a region of the labeled DNA library.

[00167] Em modalidades particulares, a sonda de captura tem cerca de 40nucleotídeos e tem uma temperatura de anelamento ideal de cerca de 44°C a cerca de 47°C.[00167] In particular embodiments, the capture probe is about 40 nucleotides and has an optimal annealing temperature of about 44°C to about 47°C.

[00168] Em certas modalidades, os métodos aqui contemplados compreendemisolar uma biblioteca de cfDNA marcada - complexo de módulo de sonda de captura. Em modalidades particulares, os métodos para isolar complexos de DNA são bem conhecidos dos versados na técnica e quaisquer métodos considerados apropriados por um versado na técnica podem ser empregues com os métodos da presente invenção (Ausubel et al., Current Protocols in Molecular Biology, 2007-2012). Em modalidades particulares, os complexos são isolados utilizando técnicas de isolamento biotina—estreptavidina.[00168] In certain embodiments, the methods contemplated herein comprise isolating a labeled cfDNA library-capture probe module complex. In particular embodiments, methods for isolating DNA complexes are well known to those of skill in the art, and any methods considered appropriate by one of skill in the art can be employed with the methods of the present invention (Ausubel et al., Current Protocols in Molecular Biology, 2007-2012). In particular embodiments, the complexes are isolated using biotin-streptavidin isolation techniques.

[00169] Em modalidades particulares, a remoção das extremidades 3' de fitasimples dos fragmentos de biblioteca de DNA marcada isolada-complexo módulo de sonda de captura é contemplado. Em certas modalidades, os métodos compreendem o processamento enzimático de exonuclease 3'-5' da biblioteca de DNA marcada isolada- complexo de módulo de sonda de captura multifuncional para remover as extremidades 3' de fita simples.[00169] In particular embodiments, removal of the single-stranded 3' ends of the isolated labeled DNA library-capture probe module complex fragments is contemplated. In certain embodiments, the methods comprise enzymatically processing 3'-5' exonuclease of the isolated labeled DNA library-multifunctional capture probe module complex to remove the single-stranded 3' ends.

[00170] Em certas outras modalidades, os métodos compreendem realizar aextensão de DNA polimerase de 5'-3' da sonda de captura multifuncional utilizando os fragmentos de biblioteca de DNA marcada isolada como molde.[00170] In certain other embodiments, the methods comprise performing 5'-3' DNA polymerase extension of the multifunctional capture probe using the isolated labeled DNA library fragments as a template.

[00171] Em certas outras modalidades, os métodos compreendem criar umamolécula alvo de DNA marcada isolada por sonda de captura híbrida, por exemplo, uma molécula alvo de cfDNA marcada ou uma molécula alvo de DNA celular marcada, através da ação conjunta de uma 5' FLAP endonuclease, polimerização de DNA e fechamento de incisão por uma DNA ligase.[00171] In certain other embodiments, the methods comprise creating a hybrid capture probe-isolated labeled DNA target molecule, e.g., a labeled cfDNA target molecule or a labeled cellular DNA target molecule, through the joint action of a 5' FLAP endonuclease, DNA polymerization, and nick closure by a DNA ligase.

[00172] Pode-se utilizar uma variedade de enzimas para o processamentoenzimático de exonuclease de 3'-5' da biblioteca de DNA marcada isolada-complexo de módulo de sonda de captura multifuncional. Exemplos ilustrativos de enzimas adequadas, que exibem atividade enzimática de exonuclease de 3'-5', que podem ser empregadas em modalidades particulares incluem, mas não estão limitados a: T4 ou Exonucleases I, III, V (Ver também, Shevelev IV, Hübscher U., Nat Rev Mol Cell Biol. 3(5):364-76 (2002)). Em modalidades particulares, a enzima compreendendo a atividade de exonuclease de 3'-5' é a T4 polimerase. Em modalidades particulares, pode ser empregue uma enzima que exibe atividade enzimática de exonuclease de 3'-5' e é capaz de extensão de molde de iniciador, incluindo por exemplo T4 ou Exonucleases I, III, V. Id.[00172] A variety of enzymes may be utilized for the enzymatic 3'-5' exonuclease processing of the isolated labeled DNA library-multifunctional capture probe module complex. Illustrative examples of suitable enzymes, which exhibit 3'-5' exonuclease enzymatic activity, that may be employed in particular embodiments include, but are not limited to: T4 or Exonucleases I, III, V (See also, Shevelev IV, Hübscher U., Nat Rev Mol Cell Biol. 3(5):364-76 (2002)). In particular embodiments, the enzyme comprising the 3'-5' exonuclease activity is T4 polymerase. In particular embodiments, an enzyme may be employed that exhibits 3'-5' exonuclease enzymatic activity and is capable of primer template extension, including for example T4 or Exonucleases I, III, V. Id.

[00173] Em algumas modalidades, os métodos aqui contempladoscompreendem realizar sequenciamento e/ou PCR no complexo enzimaticamente processado de exonuclease de 3'-5' discutido supra e em qualquer outro lugar aqui. Em modalidades particulares, uma porção de cauda de uma molécula de sonda de captura é copiada de modo a gerar uma molécula de ácido nucleico híbrida. Numa modalidade, a molécula de ácido nucleico híbrida gerado compreende a região alvo capaz de hibridizar com o módulo de sonda de captura e o complemento da sequência de cauda de módulo de sonda de captura.[00173] In some embodiments, the methods contemplated herein comprise performing sequencing and/or PCR on the enzymatically processed 3'-5' exonuclease complex discussed supra and elsewhere herein. In particular embodiments, a tail portion of a capture probe molecule is copied so as to generate a hybrid nucleic acid molecule. In one embodiment, the generated hybrid nucleic acid molecule comprises the target region capable of hybridizing to the capture probe module and the complement of the capture probe module tail sequence.

[00174] Em uma determinada modalidade, a análise genética compreende a)hibridizar um ou mais módulos de sonda de captura para loci genéticos um ou mais alvos de uma pluralidade de clones de bibliotecas de DNA genômico, para formar um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA; b) isolar o um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA de a); c) processar enzimaticamente o um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA da etapa b); d) realizar PCR no complexo enzimaticamente processado de c) em que a porção de cauda da molécula de sonda de captura é copiada para gerar moléculas de ácido nucleico híbridas amplificadas, em que as moléculas de ácidos nucleicos híbridos amplificados compreendem uma sequência alvo no locus genômico alvo capaz de hibridizar com a sonda de captura e o complemento da sequência de cauda do módulo de sonda de captura; e e) realizar análise genética quantitativa sobre as moléculas de ácidos nucleicos híbridos amplificados a partir de d).[00174] In a certain embodiment, the genetic analysis comprises a) hybridizing one or more capture probe modules to one or more target genetic loci of a plurality of genomic DNA library clones, to form one or more capture probe module-DNA library clone complexes; b) isolating the one or more capture probe module-DNA library clone complexes from a); c) enzymatically processing the one or more capture probe module-DNA library clone complexes from step b); d) performing PCR on the enzymatically processed complex from c) wherein the tail portion of the capture probe molecule is copied to generate amplified hybrid nucleic acid molecules, wherein the amplified hybrid nucleic acid molecules comprise a target sequence at the target genomic locus capable of hybridizing to the capture probe and the complement of the tail sequence of the capture probe module; and e) performing quantitative genetic analysis on the amplified hybrid nucleic acid molecules from d).

[00175] Numa modalidade particular, são contemplados métodos paradeterminar o número de cópias de um local genético alvo específico compreendendo: a) hibridizar um ou mais módulos de sonda de captura para loci genéticos um ou mais alvos de uma pluralidade de clones de bibliotecas de DNA, para formar um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA; b) isolar o um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA de a); c) processar enzimaticamente o um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA da etapa b); d) realizar PCR no complexo enzimaticamente processado de c) em que a porção de cauda da molécula de sonda de captura é copiada para gerar moléculas de ácido nucleico híbridas amplificadas, em que as moléculas de ácidos nucleicos híbridos amplificados compreendem uma sequência alvo no locus genético alvo capaz de hibridizar com a sonda de captura e o complemento da sequência de cauda do módulo de sonda de captura; e) realizar amplificação por PCR das moléculas de ácidos nucleicos amplificados híbridos em d); e f) quantificar a reação de PCR em e), em que a quantificação permite uma determinação do número de cópias da região alvo específica.[00175] In a particular embodiment, methods are contemplated for determining the copy number of a specific target genetic locus comprising: a) hybridizing one or more capture probe modules to one or more target genetic loci of a plurality of DNA library clones to form one or more capture probe module-DNA library clone complexes; b) isolating the one or more capture probe module-DNA library clone complexes from a); c) enzymatically processing the one or more capture probe module-DNA library clone complexes from step b); d) performing PCR on the enzymatically processed complex from c) wherein the tail portion of the capture probe molecule is copied to generate amplified hybrid nucleic acid molecules, wherein the amplified hybrid nucleic acid molecules comprise a target sequence at the target genetic locus capable of hybridizing to the capture probe and the complement of the tail sequence of the capture probe module; e) perform PCR amplification of the hybrid amplified nucleic acid molecules in d); and f) quantify the PCR reaction in e), wherein quantification allows a determination of the copy number of the specific target region.

[00176] Numa modalidade, o processamento enzimático da etapa c)compreende realizar processamento enzimático de exonuclease de 3'-5 'em um ou mais complexos de módulo de sonda de captura-clone de biblioteca de DNA de b) usar uma enzima com atividade de exonuclease de 3'-5' para remover as extremidades 3' de fita simples; criar uma ou mais moléculas de módulo de sonda de captura híbrida-clone de biblioteca de cfDNA através da ação concertada de uma endonuclease 5’ FLAP, polimerização de DNA e fechamento de incisão por uma DNA ligase; ou realizar extensão da sonda de DNA polimerase de 5'-3' usando o clone de DNA isolado no complexo como molde.[00176] In one embodiment, the enzymatic processing of step c) comprises performing 3'-5' exonuclease enzymatic processing on one or more capture probe module-DNA library clone complexes of b) using an enzyme with 3'-5' exonuclease activity to remove single-stranded 3' ends; creating one or more hybrid capture probe module-cfDNA library clone molecules through the concerted action of a 5' FLAP endonuclease, DNA polymerization, and nick closure by a DNA ligase; or performing 5'-3' DNA polymerase probe extension using the DNA clone isolated in the complex as a template.

[00177] Numa modalidade, o processamento enzimático da etapa c)compreende realizar extensão da DNA polimerase de 5 '-3' da sonda de captura usando o clone de DNA isolado no complexo como um molde.[00177] In one embodiment, the enzymatic processing of step c) comprises performing 5'-3' DNA polymerase extension of the capture probe using the DNA clone isolated in the complex as a template.

[00178] Em modalidades particulares, a PCR pode ser realizada utilizandoquaisquer condições de reação de PCR convencionais bem conhecidas dos versados na técnica. Em certas modalidades, a reação de PCR em e) emprega dois iniciadores de PCR. Numa modalidade, a reação de PCR em e) emprega um primeiro iniciador de PCR que hibrida com uma repetição dentro do locus genético alvo. Numa modalidade particular, a reação de PCR em e) emprega um segundo iniciador de PCR que hibrida com as moléculas de ácido nucleico híbridas no locus genético alvo/junção da cauda. Em certas modalidades, a reação de PCR em e) emprega um primeiro iniciador de PCR que hibrida com o locus genético alvo e um segundo iniciador de PCR hibrida com as moléculas de ácido nucleico híbridas amplificadas na junção lócus/cauda genética alvo. Em modalidades particulares, o segundo iniciador hibrida com a junção locus/cauda genética alvo de tal modo que pelo menos um ou mais nucleotídeos do iniciador hibridam com o locus genético alvo e pelo menos um ou mais nucleotídeos do iniciador hibridam com a sequência de cauda.[00178] In particular embodiments, the PCR may be performed using any conventional PCR reaction conditions well known to those of skill in the art. In certain embodiments, the PCR reaction in e) employs two PCR primers. In one embodiment, the PCR reaction in e) employs a first PCR primer that hybridizes to a repeat within the target genetic locus. In a particular embodiment, the PCR reaction in e) employs a second PCR primer that hybridizes to the hybrid nucleic acid molecules at the target genetic locus/tail junction. In certain embodiments, the PCR reaction in e) employs a first PCR primer that hybridizes to the target genetic locus and a second PCR primer that hybridizes to the amplified hybrid nucleic acid molecules at the target genetic locus/tail junction. In particular embodiments, the second primer hybridizes to the target genetic locus/tail junction such that at least one or more nucleotides of the primer hybridize to the target genetic locus and at least one or more nucleotides of the primer hybridize to the tail sequence.

[00179] Em certas modalidades, as moléculas de ácido nucleico híbridasamplificados obtidas da etapa e) são sequenciadas e as sequências alinhadas horizontalmente, isto é, alinhadas entre si, mas não alinhadas a uma sequência de referência. Em modalidades particulares, as etapas a) a e) são repetidas uma ou mais vezes com um ou mais módulos de sonda de captura. Os módulos de sonda de captura podem ser os mesmos ou diferentes e projetados para direcionar as duas fitas de cfDNA de um locus genético alvo. Em algumas modalidades, quando as sondas de captura são diferentes, elas hibridam em sequências alvo sobrepostas ou adjacentes dentro de um locus genético alvo na biblioteca de clone de cfDNA marcada. Numa modalidade, uma estratégia de sonda de captura de alta densidade é utilizada em que uma pluralidade de sondas de captura hibrida com um locus genético alvo, e em que cada um da pluralidade de sondas de captura hibrida com o locus genético alvo dentro de cerca de 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 bp ou mais de qualquer outra sonda de captura que hibrida com o locus genético alvo numa biblioteca de clone de DNA marcada, incluindo todas as distâncias intervenientes.[00179] In certain embodiments, the amplified hybrid nucleic acid molecules obtained from step e) are sequenced and the sequences aligned horizontally, i.e., aligned with each other but not aligned to a reference sequence. In particular embodiments, steps a) to e) are repeated one or more times with one or more capture probe modules. The capture probe modules may be the same or different and designed to target both cfDNA strands of a target genetic locus. In some embodiments, when the capture probes are different, they hybridize to overlapping or adjacent target sequences within a target genetic locus in the labeled cfDNA clone library. In one embodiment, a high-density capture probe strategy is utilized in which a plurality of capture probes hybridize to a target genetic locus, and in which each of the plurality of capture probes hybridizes to the target genetic locus within about 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 bp or more of any other capture probe that hybridizes to the target genetic locus in a labeled DNA clone library, including all intervening distances.

[00180] Em algumas modalidades, o método pode ser realizado usando doismódulos de sondas de captura por locus genético alvo, em que um hibrida com a fita "Watson" (fita não codificante ou fita molde) a montante da região alvo e um hibrida com a fita "Crick" (fita codificante ou não molde) a jusante da região alvo.[00180] In some embodiments, the method may be performed using two capture probe modules per target genetic locus, wherein one hybridizes to the "Watson" strand (non-coding strand or template strand) upstream of the target region and one hybridizes to the "Crick" strand (coding strand or non-template strand) downstream of the target region.

[00181] Em modalidades particulares, os métodos aqui contemplados podemainda ser realizados várias vezes com qualquer número de módulos de sonda de captura, por exemplo 2, 3, 4, 5, 6, 7, 8, 9 ou 10 ou mais módulos de sonda de captura por locus genético alvo qualquer número dos quais hibridam com a fita de Watson ou Crick em qualquer combinação. Em algumas modalidades, as sequências obtidas podem ser alinhadas umas às outras, a fim de identificar qualquer uma de várias diferenças.[00181] In particular embodiments, the methods contemplated herein may further be performed multiple times with any number of capture probe modules, for example 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more capture probe modules per target genetic locus, any number of which hybridize to the Watson or Crick strand in any combination. In some embodiments, the obtained sequences may be aligned to each other in order to identify any of several differences.

[00182] Em certas modalidades, uma pluralidade de loci genéticos alvo sãointerrogados, por exemplo , 100, 200, 300, 400, 500, 600, 700, 800, 900, 1.000, 1.500, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 10.000, 50.000, 100.000, 500.000 ou mais em uma única reação, usando um ou mais módulos de sonda de captura.[00182] In certain embodiments, a plurality of target genetic loci are interrogated, e.g., 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 1,500, 2,000, 2,500, 3,000, 3,500, 4,000, 4,500, 5,000, 10,000, 50,000, 100,000, 500,000, or more in a single reaction, using one or more capture probe modules.

(b) Sequencing

[00183] Em modalidades particulares, a análise genética quantitativacompreende o sequenciamento de uma pluralidade de moléculas de ácido nucleico híbridas, como discutido noutro local, supra, para gerar profundidades de sequenciamento suficientes para obter uma pluralidade de leituras de sequenciamento únicas. Os termos “leituras únicas” ou “sequências genômicas exclusivas” (UGS) são usados indistintamente neste documento e são identificados pelo agrupamento de leituras redundantes individuais em conjunto em uma “família”. Leituras redundantes são leituras de sequência que compartilham um UMIE idêntico (por exemplo, compartilham o mesmo código de leitura e a mesma posição de início de sequenciamento de DNA dentro da sequência genômica) e são derivadas de um único evento de conexão e são, portanto, “irmãos” derivados da amplificação. Um único consenso representativo de uma família de leituras redundantes é levado adiante como uma leitura única ou UGS. Cada leitura única ou UGS é considerada um evento de ligação único. A soma das leituras exclusivas correspondentes a uma determinada sonda de captura é chamada de “profundidade genômica bruta” (RGD) para essa sonda de captura específica. Cada sonda de captura produz um conjunto de leituras únicas que são computacionalmente destiladas a partir do total de leituras por agrupamento em famílias. As leituras únicas de uma determinada amostra (por exemplo, profundidade genômica bruta para uma amostra) são então calculadas como a média de todas as leituras únicas observadas em uma base de sonda por sonda. Leituras únicas são importantes porque cada leitura única deve ser derivada de um único clone de DNA genômico. Cada leitura única representa a entrada e a análise de um equivalente haploide do DNA genômico. A soma das leituras únicas é a soma dos genomas haploides analisados. O número de genomas analisados, por sua vez, define a sensibilidade do ensaio de sequenciamento. Por meio de um exemplo não limitativo, se a contagem de leitura única média for de 100 equivalentes de genoma, então esse ensaio particular tem uma sensibilidade de ser capaz de detectar um mutante lido em 100, ou 1%. Qualquer observação menor que isso não é defensável.[00183] In particular embodiments, the quantitative genetic analysis comprises sequencing a plurality of hybrid nucleic acid molecules, as discussed elsewhere, supra, to generate sequencing depths sufficient to obtain a plurality of unique sequencing reads. The terms “unique reads” or “unique genomic sequences” (UGS) are used interchangeably herein and are identified by grouping individual redundant reads together into a “family.” Redundant reads are sequence reads that share an identical UMIE (e.g., share the same read code and the same DNA sequencing start position within the genomic sequence) and are derived from a single connection event and are therefore amplification-derived “siblings.” A single consensus representative of a family of redundant reads is carried forward as a unique read or UGS. Each unique read or UGS is considered a unique connection event. The sum of unique reads corresponding to a given capture probe is called the “raw genomic depth” (RGD) for that specific capture probe. Each capture probe produces a set of unique reads that are computationally distilled from the total reads by clustering into families. The unique reads for a given sample (i.e., raw genomic depth for a sample) are then calculated as the average of all observed unique reads on a probe-by-probe basis. Unique reads are important because each unique read must be derived from a single genomic DNA clone. Each unique read represents the input and analysis of a haploid equivalent of genomic DNA. The sum of the unique reads is the sum of the haploid genomes analyzed. The number of genomes analyzed, in turn, defines the sensitivity of the sequencing assay. By way of a non-limiting example, if the average unique read count is 100 genome equivalents, then this particular assay has a sensitivity of being able to detect a mutant read in 100, or 1%. Any observation less than this is not defensible.

[00184] Casos em que há uma mudança óbvia no número de cópias (porexemplo, ocorrências de sondas com ruído) são excluídos do conjunto de dados usado para calcular a média da amostra. Aqui, uma "sonda com ruído" refere-se a uma sonda que captura um número altamente variável de leituras únicas entre um grande conjunto de amostras idênticas (por exemplo, um número altamente variável de leituras únicas entre 12 - 16 amostras de réplicas). Em algumas modalidades, o número de leituras exclusivas associadas a uma sonda com ruído é aumentado em comparação com o número médio de leituras únicas para a amostra em 50% ou mais. Em algumas modalidades, o número de leituras únicas associadas a uma sonda com ruído é diminuído em comparação com o número médio de leituras únicas para a amostra em 50% ou mais. Em algumas modalidades, cerca de 2% a cerca de 4% das sondas utilizadas numa análise particular são identificadas como sondas com ruído e são excluídas dos cálculos para determinar o número médio de leituras únicas para uma dada amostra.[00184] Instances where there is an obvious change in copy number (e.g., occurrences of noisy probes) are excluded from the dataset used to calculate the sample mean. Here, a "noisy probe" refers to a probe that captures a highly variable number of unique reads among a large set of identical samples (e.g., a highly variable number of unique reads among 12-16 replicate samples). In some embodiments, the number of unique reads associated with a noisy probe is increased compared to the average number of unique reads for the sample by 50% or more. In some embodiments, the number of unique reads associated with a noisy probe is decreased compared to the average number of unique reads for the sample by 50% or more. In some embodiments, about 2% to about 4% of the probes used in a particular analysis are identified as noisy probes and are excluded from calculations to determine the average number of unique readings for a given sample.

[00185] Em algumas modalidades, as leituras de sequenciamento sãoidentificadas como “leituras no alvo” ou “leituras fora do alvo”. Leituras no alvo possuem uma sequência de DNA genômico que mapeia dentro da vizinhança de uma sonda de captura usada para criar a biblioteca genômica. Em algumas modalidades, em que cada sequência genômica está fisicamente ligada a uma sonda de captura específica e onde a sequência do segmento genômico e a sonda de captura são determinadas como uma informação unificada, uma leitura no alvo é definida como qualquer sequência genômica cujo início coordena mapas dentro de 400 bp, e mais geralmente dentro de 200 bp da extremidade 3' da sonda de captura correspondente. Leituras fora do alvo são definidas como tendo sequência genômica que se alinha ao genoma de referência em um local > 500 pares de bases (e mais frequentemente mapeando para cromossomos totalmente diferentes) em relação à sonda de captura.[00185] In some embodiments, sequencing reads are identified as “on-target reads” or “off-target reads.” On-target reads have a genomic DNA sequence that maps within the vicinity of a capture probe used to create the genomic library. In some embodiments, where each genomic sequence is physically linked to a specific capture probe and where the sequence of the genomic segment and the capture probe are determined as a unified piece of information, an on-target read is defined as any genomic sequence whose start coordinates map within 400 bp, and more generally within 200 bp, of the 3' end of the corresponding capture probe. Off-target reads are defined as having genomic sequence that aligns to the reference genome at a location >500 base pairs (and more often mapping to entirely different chromosomes) relative to the capture probe.

[00186] Em modalidades particulares, a análise genética quantitativacompreende o sequenciamento multiplex de moléculas de ácido nucleico híbridas derivadas de uma pluralidade de amostras.[00186] In particular embodiments, the quantitative genetic analysis comprises multiplex sequencing of hybrid nucleic acid molecules derived from a plurality of samples.

[00187] Em várias modalidades, a análise genética quantitativa compreendeobter um ou mais ou uma pluralidade de clones de bibliotecas de DNA marcadas, cada clone compreendendo uma primeira sequência de DNA e uma segunda sequência de DNA, em que a primeira sequência de DNA compreende uma sequência de um locus genético alvo e a segunda sequência de DNA compreende uma sequência de sonda de captura; realizar uma reação de sequenciamento de extremidade pareado no um ou mais clones e obter uma ou mais leituras de sequenciamento ou realizar uma reação de sequenciamento no um ou mais clones em que uma única leitura de sequenciamento longa superior a cerca de 100, 200, 300, 400, 500 ou mais nucleotídeos é obtida, em que a leitura é suficiente para identificar tanto a primeira sequência de DNA como a segunda sequência de DNA; e ordenar ou agrupar as leituras de sequenciamento de um ou mais clones de acordo com as sequências da sonda das leituras de sequenciamento.[00187] In various embodiments, the quantitative genetic analysis comprises obtaining one or more or a plurality of clones from labeled DNA libraries, each clone comprising a first DNA sequence and a second DNA sequence, wherein the first DNA sequence comprises a sequence of a target genetic locus and the second DNA sequence comprises a capture probe sequence; performing a paired-end sequencing reaction on the one or more clones and obtaining one or more sequencing reads, or performing a sequencing reaction on the one or more clones in which a single long sequencing read exceeding about 100, 200, 300, 400, 500, or more nucleotides is obtained, wherein the read is sufficient to identify both the first DNA sequence and the second DNA sequence; and ordering or grouping the sequencing reads from the one or more clones according to the probe sequences of the sequencing reads.

(c) Bioinformatics analysis

[00188] Em várias modalidades, a análise genética quantitativa compreendeainda a análise de bioinformática das leituras de sequenciamento. A análise de bioinformática exclui qualquer análise puramente mental realizada na ausência de uma composição ou método de sequenciamento. Em certas modalidades, a análise de bioinformática inclui, mas não está limitada a: alinhamentos de sequências; análise de equivalentes de genoma; análise de variante de nucleotídeo único (SNV); análise de variação no número de cópias de genes (CNV); medição do número de cópias cromossômicas; e detecção de lesões genéticas. Em modalidades particulares, a análise de bioinformática é útil para quantificar o número de equivalentes de genoma analisados na biblioteca de clones de cfDNA; para detectar o estado genético de um locus genético alvo; para detectar lesões genéticas em um locus genético alvo; e medir as flutuações do número de cópias dentro de um locus genético alvo.[00188] In various embodiments, the quantitative genetic analysis further comprises bioinformatics analysis of sequencing reads. Bioinformatics analysis excludes any purely mental analysis performed in the absence of a sequencing composition or method. In certain embodiments, bioinformatics analysis includes, but is not limited to: sequence alignments; genome equivalents analysis; single nucleotide variant (SNV) analysis; gene copy number variation (CNV) analysis; chromosomal copy number measurement; and detection of genetic lesions. In particular embodiments, bioinformatics analysis is useful for quantifying the number of genome equivalents analyzed in the cfDNA clone library; for detecting the genetic status of a target genetic locus; for detecting genetic lesions at a target genetic locus; and measuring copy number fluctuations within a target genetic locus.

[00189] Alinhamentos de sequência podem ser realizados entre as leituras desequência e uma ou mais sequências de DNA de referência humana. Em modalidades particulares, alinhamentos de sequenciamento podem ser usados para detectar lesões genéticas em um locus genômico alvo incluindo, mas não limitado à detecção de uma transição ou transversão nucleotídica, uma inserção ou deleção de nucleotídeos, um rearranjo genômico, uma mudança no número de cópias ou uma fusão genética. A detecção de lesões genéticas que são indicadores causais ou prognósticos pode ser útil no diagnóstico, prognóstico, tratamento e/ ou monitoramento de uma determinada condição genética ou doença.[00189] Sequence alignments can be performed between the sequence reads and one or more human reference DNA sequences. In particular embodiments, sequencing alignments can be used to detect genetic lesions at a target genomic locus, including, but not limited to, the detection of a nucleotide transition or transversion, a nucleotide insertion or deletion, a genomic rearrangement, a copy number change, or a gene fusion. Detection of genetic lesions that are causal or prognostic indicators can be useful in the diagnosis, prognosis, treatment, and/or monitoring of a particular genetic condition or disease.

[00190] Também são aqui contemplados métodos para a análise dealinhamento de sequências que pode ser realizada sem a necessidade de um alinhamento de uma sequência de referência, aqui referida como análise da sequência horizontal. Tal análise pode ser realizada em quaisquer sequências geradas pelos métodos aqui contemplados ou quaisquer outros métodos. Em modalidades particulares, a análise da sequência compreende realizar alinhamentos de sequências nas leituras obtidas pelos métodos aqui contemplados.[00190] Also contemplated herein are methods for sequence alignment analysis that can be performed without the need for an alignment of a reference sequence, referred to herein as horizontal sequence analysis. Such analysis can be performed on any sequences generated by the methods contemplated herein or any other methods. In particular embodiments, sequence analysis comprises performing sequence alignments on reads obtained by the methods contemplated herein.

[00191] Numa modalidade, os equivalentes do genoma numa biblioteca declones de cfDNA são determinados utilizando contagem baseada em bioinformática após a realização do sequenciamento. Cada leitura de sequenciamento é associada a uma sonda de captura particular e a coleção de leituras atribuída a cada sonda de captura é analisada em grupos. Dentro de um grupo, conjuntos de leituras individuais compartilham o mesmo código de leitura e a mesma posição inicial de sequência de DNA dentro da sequência genômica. Essas leituras individuais são agrupadas em uma "família" e um único consenso representativo dessa família é transmitido como uma "leitura única". Todas as leituras individuais que constituem uma família são derivadas de um único evento de ligação e, portanto, são “irmãos” derivados da amplificação um do outro. Cada leitura única é considerada um evento único de ligação e a soma de leituras únicas é considerada equivalente ao número de equivalentes de genoma analisados.[00191] In one embodiment, genome equivalents in a cfDNA clone library are determined using bioinformatics-based counting after sequencing. Each sequencing read is associated with a particular capture probe, and the collection of reads assigned to each capture probe is analyzed in groups. Within a group, sets of individual reads share the same read code and the same DNA sequence starting position within the genomic sequence. These individual reads are grouped into a "family," and a single consensus representative of that family is transmitted as a "unique read." All individual reads that constitute a family are derived from a single ligation event and are therefore "siblings" derived from amplification of one another. Each unique read is considered a unique ligation event, and the sum of unique reads is considered equivalent to the number of genome equivalents analyzed.

[00192] À medida que o número de clones exclusivos se aproxima do númerototal de combinações de sequências possíveis, a probabilidade determina que as mesmas combinações de código e de sítio de início serão criadas por eventos independentes e que esses eventos independentes serão agrupados de forma inadequada em famílias individuais. O resultado líquido será uma subestimativa dos equivalentes de genoma analisados, e as leituras mutantes raras podem ser descartadas como erros de sequenciamento porque elas se sobrepõem às leituras de tipo selvagem que possuem os mesmos identificadores.[00192] As the number of unique clones approaches the total number of possible sequence combinations, probability dictates that the same coding and start site combinations will be created by independent events, and that these independent events will be inappropriately clustered into individual families. The net result will be an underestimate of the genome equivalents analyzed, and rare mutant reads may be dismissed as sequencing errors because they overlap with wild-type reads that have the same identifiers.

[00193] Em modalidades particulares, para proporcionar uma análise precisapara bibliotecas de clones de cfDNA, o número de equivalentes do genoma analisados é de cerca de 1/10, cerca de 1/12, cerca de 1/14, cerca de 1/16, cerca de 1/18, cerca de 1/20 , cerca de 1/25 ou menos, o número de clones únicos possíveis. Deve ser entendido que o procedimento descrito acima é meramente ilustrativo e não limitativo.[00193] In particular embodiments, to provide accurate analysis for cfDNA clone libraries, the number of genome equivalents analyzed is about 1/10, about 1/12, about 1/14, about 1/16, about 1/18, about 1/20, about 1/25, or less, the number of possible unique clones. It should be understood that the procedure described above is merely illustrative and not limiting.

[00194] Em algumas modalidades, o número de equivalentes do genoma a seranalisado pode precisar de ser aumentado. Para expandir a profundidade dos equivalentes do genoma, pelo menos duas soluções são contempladas. A primeira solução é usar mais de um conjunto de adaptadores por amostra. Combinando adaptadores, é possível multiplicar o número total de clones possíveis e, portanto, expandir os limites confortáveis da entrada genômica. A segunda solução é expandir o código de leitura em 1, 2, 3, 4 ou 5 ou mais bases. O número de códigos de leitura possíveis que diferem em pelo menos 2 bases de qualquer outro código de leitura é dimensionado como 4(n-1) , onde n é o número de bases dentro de um código de leitura. Assim, em um exemplo não limitativo, se um código de leitura é de 5 nucleotídeos e 4(5-1) = 256; portanto, a inclusão de bases adicionais expande o repertório disponível por um fator de quatro para cada base adicional.[00194] In some embodiments, the number of genome equivalents to be analyzed may need to be increased. To expand the depth of genome equivalents, at least two solutions are contemplated. The first solution is to use more than one set of adapters per sample. By combining adapters, it is possible to multiply the total number of possible clones and therefore expand the comfortable limits of the genomic input. The second solution is to expand the read length by 1, 2, 3, 4, or 5 or more bases. The number of possible read lengths that differ by at least 2 bases from any other read length is scaled as 4(n-1), where n is the number of bases within a read length. Thus, in a non-limiting example, if a read length is 5 nucleotides and 4(5-1) = 256, then the inclusion of additional bases expands the available repertoire by a factor of four for each additional base.

[00195] Numa modalidade, a análise genética quantitativa compreende aanálise bioinformática de leituras de sequenciamento para identificar variantes de nucleotídeo único raras (SNV).[00195] In one embodiment, the quantitative genetic analysis comprises bioinformatic analysis of sequencing reads to identify rare single nucleotide variants (SNV).

[00196] O sequenciamento de próxima geração tem uma taxa de erro inerentede aproximadamente 0,02-0,02%, o que significa que de 1/200 a 1/500 chamadas de base estão incorretas. Para detectar variantes e outras mutações que ocorrem em frequências mais baixas do que isso, por exemplo, em frequências de 1 por 1.000 sequências, é necessário invocar estratégias de anotação molecular. Por meio de um exemplo não limitativo, a análise de 5.000 moléculas únicas usando tecnologia de captura de sequências direcionada geraria - em profundidades de sequenciamento> 50.000 leituras - uma coleção de 5.000 leituras únicas, com cada leitura única pertencente a uma "família" de leituras que todos possuem o mesmo código de leitura. Um SNV que ocorre dentro de uma família é um candidato a ser uma variante rara. Quando essa mesma variante é observada em mais de uma família, ela se torna uma candidata muito forte para ser uma variante rara que existe dentro da amostra inicial. Em contraste, variantes que ocorrem esporadicamente dentro das famílias provavelmente são erros de sequenciamento e variantes que ocorrem dentro de uma e apenas uma família são raras ou o resultado de uma alteração de base que ocorreu ex vivo (por exemplo, oxidação de um erro de base de DNA ou introduzido por PCR).[00196] Next-generation sequencing has an inherent error rate of approximately 0.02-0.02%, meaning that 1 in 200 to 1 in 500 base calls are incorrect. To detect variants and other mutations that occur at lower frequencies than this, for example, at frequencies of 1 in 1,000 sequences, it is necessary to invoke molecular annotation strategies. By way of a non-limiting example, the analysis of 5,000 unique molecules using targeted sequence capture technology would generate—at sequencing depths >50,000 reads—a collection of 5,000 unique reads, with each unique read belonging to a "family" of reads that all have the same read code. An SNV that occurs within a family is a candidate for being a rare variant. When that same variant is observed in more than one family, it becomes a very strong candidate for being a rare variant that exists within the initial sample. In contrast, variants that occur sporadically within families are likely sequencing errors, and variants that occur within one and only one family are either rare or the result of a base change that occurred ex vivo (e.g., oxidation of a DNA base error or introduced by PCR).

[00197] Numa modalidade, os métodos de detecção de SNVs incluemintroduzir 10 vezes mais entrada genômica (genomas ou equivalentes de genoma) como a sensibilidade alvo desejada do ensaio. Em um exemplo não limitativo, se a sensibilidade desejada for de 2% (2 em 100), então o alvo experimental é uma entrada de 2.000 genomas.[00197] In one embodiment, methods of detecting SNVs include inputting 10 times as much genomic input (genomes or genome equivalents) as the desired target sensitivity of the assay. In a non-limiting example, if the desired sensitivity is 2% (2 in 100), then the experimental target is an input of 2,000 genomes.

[00198] Em modalidades particulares, a análise bioinformática de dados desequenciamento é usada para detectar ou identificar SNV associada a um estado genético, condição ou doença, mosaicismo genético, testes fetais, testes de paternidade, previsão de resposta ao tratamento medicamentoso, diagnóstico ou monitoramento de uma condição médica, perfil do microbioma, rastreamento de patógenos, e monitoramento de transplantes de órgãos.[00198] In particular embodiments, bioinformatic analysis of desequencing data is used to detect or identify SNVs associated with a genetic state, condition, or disease, genetic mosaicism, fetal testing, paternity testing, predicting response to drug treatment, diagnosing or monitoring a medical condition, microbiome profiling, pathogen tracking, and organ transplant monitoring.

[00199] Em várias modalidades, um método para análise de determinação donúmero de cópias é proporcionado compreendendo obter uma ou mais ou uma pluralidade de clones, cada clone compreende uma primeira sequência de DNA e uma segunda sequência de DNA, em que a primeira sequência de DNA compreende uma sequência de um locus genético alvo e a segunda sequência de DNA compreende uma sequência de sonda de captura. Em modalidades relacionadas, uma reação de sequenciamento final pareado em um ou mais clones é realizada e uma ou mais leituras de sequenciamento são obtidas. Numa outra modalidade, uma reação de sequenciamento no um ou mais clones é realizada na qual é obtida uma única leitura de sequenciamento longa superior a cerca de 100 nucleotídeos, em que a leitura é suficiente para identificar a primeira sequência de DNA e a segunda sequência de DNA. As leituras de sequenciamento de um ou mais clones podem ser ordenadas ou agrupadas de acordo com a sequência da sonda das leituras de sequenciamento.[00199] In various embodiments, a method for copy number determination analysis is provided comprising obtaining one or more or a plurality of clones, each clone comprising a first DNA sequence and a second DNA sequence, wherein the first DNA sequence comprises a sequence of a target genetic locus and the second DNA sequence comprises a capture probe sequence. In related embodiments, a paired-end sequencing reaction on the one or more clones is performed and one or more sequencing reads are obtained. In another embodiment, a sequencing reaction on the one or more clones is performed in which a single long sequencing read of greater than about 100 nucleotides is obtained, wherein the read is sufficient to identify the first DNA sequence and the second DNA sequence. The sequencing reads from the one or more clones can be ordered or grouped according to the probe sequence of the sequencing reads.

[00200] Análises de número de cópias incluem, mas não estão limitadas a,análises que examinam o número de cópias de um gene particular ou mutação que ocorre em uma determinada amostra de DNA genômico e podem ainda incluir a determinação quantitativa do número de cópias de um dado gene ou sequência de em uma determinada amostra. Em modalidades particulares, a análise de número de cópias é usada para detectar ou identificar a amplificação do gene associado com estados genéticos, condições ou doenças, testes fetais, mosaicismo genético, testes de paternidade, previsão de resposta ao tratamento medicamentoso, diagnóstico ou monitoramento de uma condição médica, perfil do microbioma, rastreamento de patógenos, e monitoramento de transplantes de órgãos.[00200] Copy number analyses include, but are not limited to, analyses that examine the number of copies of a particular gene or mutation occurring in a given genomic DNA sample and may further include the quantitative determination of the number of copies of a given gene or sequence in a given sample. In particular embodiments, copy number analysis is used to detect or identify gene amplification associated with genetic states, conditions, or diseases, fetal testing, genetic mosaicism, paternity testing, predicting response to drug treatment, diagnosing or monitoring a medical condition, microbiome profiling, pathogen tracking, and organ transplant monitoring.

[00201] Em algumas modalidades, a análise do número de cópias é utilizadapara medir a instabilidade cromossômica. Em tais modalidades, conjuntos de sondas de captura que compreendem sondas de estabilidade cromossômica são usados para determinar as variações do número de cópias em uma densidade uniforme em todos os conjuntos de cromossomos. Análises de número de cópias são realizadas para cada sonda de estabilidade cromossômica e as sondas de estabilidade cromossômica são então ordenadas de acordo com seu alvo cromossômico. Isso permite a visualização de perdas ou ganhos no número de cópias em todo o genoma e pode servir como uma medida da estabilidade cromossômica.[00201] In some embodiments, copy number analysis is used to measure chromosomal instability. In such embodiments, capture probe sets comprising chromosome stability probes are used to determine copy number variations at a uniform density across all sets of chromosomes. Copy number analyses are performed for each chromosome stability probe, and the chromosome stability probes are then sorted according to their chromosomal target. This allows for the visualization of copy number losses or gains across the genome and can serve as a measure of chromosome stability.

[00202] Em modalidades particulares, a análise de bioinformática de dados desequenciamento é usada para detectar ou identificar uma ou mais sequências ou lesões genéticas em um locus alvo incluindo, mas não limitado à detecção de uma transição ou transversão nucleotídica, uma inserção ou deleção de nucleotídeos, um rearranjo genômico, uma mudança no número de cópias ou uma fusão genética. A detecção de lesões genéticas que são indicadores causais ou prognósticos pode ser útil no diagnóstico, prognóstico, tratamento e/ ou monitoramento de uma determinada condição genética ou doença. Numa modalidade, as lesões genéticas são associadas com estados genéticos, condições ou doenças, testes fetais, mosaicismo genético, testes de paternidade, previsão de resposta ao tratamento medicamentoso, diagnóstico ou monitoramento de uma condição médica, perfil do microbioma, rastreamento de patógenos, e monitoramento de transplantes de órgãos.[00202] In particular embodiments, bioinformatics analysis of desequencing data is used to detect or identify one or more genetic sequences or lesions at a target locus, including, but not limited to, the detection of a nucleotide transition or transversion, a nucleotide insertion or deletion, a genomic rearrangement, a copy number change, or a gene fusion. Detection of genetic lesions that are causal or prognostic indicators can be useful in the diagnosis, prognosis, treatment, and/or monitoring of a particular genetic condition or disease. In one embodiment, genetic lesions are associated with genetic states, conditions, or diseases, fetal testing, genetic mosaicism, paternity testing, predicting response to drug treatment, diagnosing or monitoring a medical condition, microbiome profiling, pathogen tracking, and organ transplant monitoring.

D. CLINICAL APPLICATIONS OF QUANTITATIVE CNL ASSESSMENTS

[00203] Em várias modalidades, a presente invenção contempla um métodopara detectar, identificar, predizer, diagnosticar ou monitorar uma condição ou doença em um sujeito, detectando uma alteração mutacional, SNP, translocação, inversão, deleção, alteração no número de cópias ou outra variação genética em uma região de interesse.E. APLICAÇÕES CLÍNICAS DA ANÁLISE GENÉTICA QUANTITATIVA[00203] In various embodiments, the present invention contemplates a method for detecting, identifying, predicting, diagnosing, or monitoring a condition or disease in a subject by detecting a mutational alteration, SNP, translocation, inversion, deletion, copy number change, or other genetic variation in a region of interest. E. CLINICAL APPLICATIONS OF QUANTITATIVE GENETIC ANALYSIS

[00204] Em várias modalidades, a presente invenção contempla um métodopara detectar, identificar, predizer, diagnosticar ou monitorar uma condição ou doença em um sujeito.[00204] In various embodiments, the present invention contemplates a method for detecting, identifying, predicting, diagnosing, or monitoring a condition or disease in a subject.

[00205] Em modalidades particulares, um método para detectar, identificar,predizer, diagnosticar ou monitorar um estado genético, condição ou doença em um sujeito compreende realizar uma análise genética quantitativa de um ou mais loci genéticos alvo em uma biblioteca de clone de DNA para detectar ou identificar uma mudança na sequência em um ou mais loci genéticos alvo. Em algumas modalidades, a alteração é uma alteração no número de cópias.[00205] In particular embodiments, a method for detecting, identifying, predicting, diagnosing, or monitoring a genetic state, condition, or disease in a subject comprises performing a quantitative genetic analysis of one or more target genetic loci in a DNA clone library to detect or identify a sequence change at one or more target genetic loci. In some embodiments, the change is a copy number change.

[00206] Numa modalidade, um método para detectar, identificar, predizer,diagnosticar ou monitorar um estado genético, condição ou doença compreende isolar ou obter DNA celular ou cfDNA a partir de uma amostra biológica de um sujeito; tratar o DNA celular ou cfDNA com uma ou mais enzimas de reparação de extremidade para gerar DNA reparado na extremidade; ligar um ou mais adaptadores a cada extremidade do DNA reparado na extremidade para gerar uma biblioteca de DNA genômico; amplificar a biblioteca de DNA para gerar uma biblioteca de clone de DNA; determinar o número de equivalentes do genoma na biblioteca de clone de DNA; e realizar uma análise genética quantitativa de um ou mais loci genéticos alvo em uma biblioteca de clone de DNA para detectar ou identificar uma mudança na sequência, por exemplo, um SNP, uma translocação, uma inversão, uma deleção ou uma alteração no número de cópias em um ou mais loci genéticos alvo.[00206] In one embodiment, a method for detecting, identifying, predicting, diagnosing, or monitoring a genetic state, condition, or disease comprises isolating or obtaining cellular DNA or cfDNA from a biological sample of a subject; treating the cellular DNA or cfDNA with one or more end repair enzymes to generate end-repaired DNA; ligating one or more adapters to each end of the end-repaired DNA to generate a genomic DNA library; amplifying the DNA library to generate a DNA clone library; determining the number of genome equivalents in the DNA clone library; and performing a quantitative genetic analysis of one or more target genetic loci in a DNA clone library to detect or identify a sequence change, e.g., a SNP, a translocation, an inversion, a deletion, or a copy number change, at one or more target genetic loci.

[00207] Numa modalidade, um método para detectar, identificar, predizer,diagnosticar ou monitorar um estado genético, condição ou doença selecionado do grupo que consiste em: doenças genéticas; mosaicismo genético; teste fetal; teste de paternidade; teste de paternidade; predizer a resposta ao tratamento medicamentoso; diagnosticar ou monitorar uma condição médica; perfilamento do microbioma; triagem de patógeno; e monitorização de transplante de órgão compreendendo isolar ou obter DNA genômico de uma amostra biológica de um sujeito; tratar o DNA com uma ou mais enzimas de reparação de extremidade para gerar DNA reparado na extremidade; ligar um ou mais adaptadores a cada extremidade do DNA reparado na extremidade para gerar uma biblioteca de DNA genômico; amplificar a biblioteca de DNA genômico para gerar uma biblioteca de clone de DNA; determinar o número de equivalentes do genoma na biblioteca de clone de DNA; e realizar uma análise genética quantitativa de um ou mais loci genéticos alvo em uma biblioteca de clone de DNA para detectar ou identificar uma transição ou transversão nucleotídica, uma inserção ou deleção de nucleotídeos, um rearranjo genômico, uma alteração no número de cópias ou uma fusão genética na sequência em um ou mais loci genéticos alvo.[00207] In one embodiment, a method for detecting, identifying, predicting, diagnosing, or monitoring a genetic state, condition, or disease selected from the group consisting of: genetic diseases; genetic mosaicism; fetal testing; paternity testing; parentage testing; predicting response to drug treatment; diagnosing or monitoring a medical condition; microbiome profiling; pathogen screening; and organ transplant monitoring comprising isolating or obtaining genomic DNA from a biological sample of a subject; treating the DNA with one or more end repair enzymes to generate end-repaired DNA; ligating one or more adapters to each end of the end-repaired DNA to generate a genomic DNA library; amplifying the genomic DNA library to generate a DNA clone library; determining the number of genome equivalents in the DNA clone library; and perform a quantitative genetic analysis of one or more target genetic loci in a DNA clone library to detect or identify a nucleotide transition or transversion, a nucleotide insertion or deletion, a genomic rearrangement, a copy number change, or a gene fusion in the sequence at one or more target genetic loci.

[00208] Exemplos ilustrativos de doenças genéticas que podem ser detectadas,identificadas, preditas, diagnosticadas ou monitoradas com as composições e métodos aqui contemplados incluem, mas não estão limitadas a câncer, doença de Alzheimer (APOE1), doença de Charcot-Marie-Tooth, Neuropatia ótica hereditária de Leber (LHON), síndrome de Angelman (UBE3A, proteína ubiquitina ligase E3A), síndrome de Prader-Willi (região no cromossomo 15), β-talassemia (HBB, β-globina), doença de Gaucher (tipo I) (GBA, Glucocerebrosidase), Fibrose cística (canal de cloreto epitelial CFTR), doença falciforme (HBB, β-globina), Doença de Tay-Sachs (HEXA, Hexosaminidase A), Fenilcetonúria (HAP, Hidrolisase de Fenilalanina), Hipercolesterolemia familiar (LDLR, receptor de lipoproteína de baixa densidade), doença renal policística em adultos (PKD1, policistina), doença de Huntington (HDD, Huntingtin), Neurofibromatose tipo I (gene supressor de tumor NF1, NF1), distrofia miotônica (DM, miotonina), esclerose tuberosa (TSC1, Tubererina), Acondroplasia (FGFR3, receptor do fator de crescimento de fibroblastos), Síndrome do X- frágil (FMR1, proteína de ligação ao RNA), distrofia muscular de Duchenne (DMD, distrofina), hemofilia A (F8C, fator VIII da coagulação sanguínea), síndrome de Lesch- Nyhan (HPRT1, hipoxantina guanina ribosiltransferase 1) e adrenoleucodistrofia (ABCD1).[00208] Illustrative examples of genetic diseases that may be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to, cancer, Alzheimer's disease (APOE1), Charcot-Marie-Tooth disease, Leber hereditary optic neuropathy (LHON), Angelman syndrome (UBE3A, ubiquitin protein ligase E3A), Prader-Willi syndrome (region on chromosome 15), β-thalassemia (HBB, β-globin), Gaucher disease (type I) (GBA, Glucocerebrosidase), Cystic fibrosis (epithelial chloride channel CFTR), sickle cell disease (HBB, β-globin), Tay-Sachs disease (HEXA, Hexosaminidase A), Phenylketonuria (PAH, Phenylalanine Hydrolysate), Familial hypercholesterolemia (LDLR, low-density lipoprotein receptor), adult polycystic kidney disease (PKD1, polycystin), Huntington's disease (HDD, Huntingtin), Neurofibromatosis type I (tumor suppressor gene NF1, NF1), myotonic dystrophy (DM, myotonin), tuberous sclerosis (TSC1, Tubererin), Achondroplasia (FGFR3, fibroblast growth factor receptor), Fragile X syndrome (FMR1, RNA-binding protein), Duchenne muscular dystrophy (DMD, dystrophin), hemophilia A (F8C, blood clotting factor VIII), Lesch-Nyhan syndrome (HPRT1, hypoxanthine-guanine ribosyltransferase 1), and adrenoleukodystrophy (ABCD1).

[00209] Exemplos ilustrativos de cânceres que podem ser detectados,identificados, previstos, diagnosticados ou monitorados com as composições e métodos contemplados aqui, incluem, mas não estão limitados a: Câncer de células B, por exemplo, mieloma múltiplo, melanomas, câncer de mama, câncer de pulmão (como carcinoma de pulmão de células não pequenas ou NSCLC), câncer de brônquios, câncer colorretal, câncer de próstata, câncer de pâncreas, câncer de estômago, câncer de ovário, câncer de bexiga urinária, câncer e cérebro ou do sistema nervoso central, câncer do sistema nervoso periférico, câncer de esôfago, câncer do colo do útero, uterino ou endometrial, câncer de cavidade oral ou faringe, câncer de fígado, câncer de rim, câncer de testículo, câncer do trato biliar, intestino delgado ou câncer de apêndice, câncer de glândula salivar, câncer da glândula tireoide, câncer da glândula adrenal, osteossarcoma, condrossarcoma, câncer de tecidos hematológicos, adenocarcinomas, tumores miofibroblásticos inflamatórios, tumor estromal gastrointestinal (GIST), câncer de cólon, mieloma múltiplo (MM), síndrome mielodisplásica (MDS), distúrbio mieloproliferativo (MPD), leucemia linfocítica aguda (ALL), leucemia mielocítica aguda (AML), leucemia mielocítica crônica (CML), leucemia linfocítica crônica (CLL), policitemia Vera, linfoma de Hodgkin, linfoma não Hodgkin (NHL), sarcoma de tecido mole, fibrossarcoma, mixossarcoma, lipossarcoma, sarcoma osteogênico, cordoma, angiossarcoma, endotelioarcoma, linfangiossarcoma, linfangioendotelioarcoma, sinovioma, mesotelioma, tumor de Ewing, leiomiossarcoma, rabdomiossarcoma, carcinoma de células escamosas, carcinoma basocelular, adenocarcinoma, carcinoma de glândula sudorípara, carcinoma de glândula sebácea, carcinoma papilar, adenocarcinomas papilares, carcinoma medular, carcinoma broncogênico, carcinoma de células renais, hepatoma, carcinoma do duto biliar, coriocarcinoma, seminoma, carcinoma embrionário, tumor de Wilms, carcinoma de bexiga, carcinoma epitelial, glioma, astrocitoma, meduloblastoma, craniofaringioma, ependimoma, pinealoma, hemangioblastoma, neuroma acústico, oligodendroglioma, meningioma, neuroblastoma, retinoblastoma, linfoma folicular, linfoma difuso de grandes células B, linfoma de células do manto, carcinoma hepatocelular, câncer de tireoide, câncer gástrico, câncer de cabeça e pescoço, câncer de pequenas células, trombocitemia essencial, metaplasia mieloide agnogênica, síndrome hipereosinofílica, mastocitose sistêmica, hipereosinofilia familiar, leucemia crônica eosinofílica, cânceres neuroendócrinos, tumores carcinoides, e semelhantes.[00209] Illustrative examples of cancers that may be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to: B-cell cancer, e.g., multiple myeloma, melanomas, breast cancer, lung cancer (such as non-small cell lung carcinoma or NSCLC), bronchus cancer, colorectal cancer, prostate cancer, pancreatic cancer, stomach cancer, ovarian cancer, urinary bladder cancer, brain or central nervous system cancer, peripheral nervous system cancer, esophageal cancer, cervical, uterine, or endometrial cancer, oral cavity or pharyngeal cancer, liver cancer, kidney cancer, testicular cancer, biliary tract cancer, small bowel, or appendix cancer, salivary gland cancer, thyroid gland cancer, adrenal gland cancer, osteosarcoma, chondrosarcoma, hematologic tissue cancer, adenocarcinomas, inflammatory myofibroblastic tumors, gastrointestinal stromal tumor (GIST), colon cancer, multiple myeloma (MM), myelodysplastic syndrome (MDS), myeloproliferative disorder (MPD), acute lymphocytic leukemia (ALL), acute myelocytic leukemia (AML), chronic myelocytic leukemia (CML), chronic lymphocytic leukemia (CLL), polycythemia vera, Hodgkin's lymphoma, non-Hodgkin's lymphoma (NHL), soft tissue sarcoma, fibrosarcoma, myxosarcoma, liposarcoma, osteogenic sarcoma, chordoma, angiosarcoma, endothelioarcoma, lymphangiosarcoma, lymphangioendothelioarcoma, synovioma, mesothelioma, Ewing's tumor, leiomyosarcoma, rhabdomyosarcoma, squamous cell carcinoma, basal cell carcinoma, adenocarcinoma, gland carcinoma sweat gland carcinoma, sebaceous gland carcinoma, papillary carcinoma, papillary adenocarcinomas, medullary carcinoma, bronchogenic carcinoma, renal cell carcinoma, hepatoma, bile duct carcinoma, choriocarcinoma, seminoma, embryonal carcinoma, Wilms tumor, bladder carcinoma, epithelial carcinoma, glioma, astrocytoma, medulloblastoma, craniopharyngioma, ependymoma, pinealoma, hemangioblastoma, acoustic neuroma, oligodendroglioma, meningioma, neuroblastoma, retinoblastoma, follicular lymphoma, diffuse large B-cell lymphoma, mantle cell lymphoma, hepatocellular carcinoma, thyroid cancer, gastric cancer, head and neck cancer, small cell cancer, essential thrombocythemia, agnogenic myeloid metaplasia, hypereosinophilic syndrome, systemic mastocytosis, familial hypereosinophilic, chronic eosinophilic leukemia, neuroendocrine cancers, carcinoid tumors, and similar.

[00210] Numa modalidades, a lesão genética é uma lesão anotada na base dedados Cosmic (as lesões e dados de sequência estão disponíveis online e pode ser descarregada na seção Cancer Gene Census do site Cosmic) ou uma lesão anotada no Atlas do Genoma do Câncer (as lesões e dados de sequência estão disponíveis on-line e podem ser baixados do site The Cancer Genome Atlas).[00210] In one embodiment, the genetic lesion is a lesion annotated in the Cosmic database (lesions and sequence data are available online and can be downloaded from the Cancer Gene Census section of the Cosmic website) or a lesion annotated in The Cancer Genome Atlas (lesions and sequence data are available online and can be downloaded from The Cancer Genome Atlas website).

[00211] Exemplos ilustrativos de genes que abrigam uma ou mais lesõesgenéticas associadas com câncer que pode ser detectado, identificado, previsto, diagnosticado, ou monitorado com as composições e métodos contemplados neste documento incluem, mas não estão limitados a ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, AKT1, AKT2, AKT3, ALDH4A1, ALK, APC, AR, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRAF, BRCA1, BRCA2, Clorf144, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2A, CDKN2B, CDKN2C, CEBPA, CHEK1, CHEK2, CRKL, CRLF2, CTNNB1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DNMT3A, DOT1L, DPYD, EGFR, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, EPHX1, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FCGR3A, FGFR1, FGFR2, FGFR3, FGFR4, FLT1, FLT3, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GSTP1, GUCY1A2, HOXA3, HRAS, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, ITPA, JAK1, JAK2, JAK3, JUN, KDR, KIT, KRAS, LRP1B, LRP2, LTK, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MET, MITF, MLH1, MLL, MPL, MRE11A, MSH2, MSH6, MTHFR, MTOR, MUTYH, MYC, MYCL1, MYCN, NF1, NF2, NKX2-1, NOTCH1, NPM1, NQO1, NRAS, NRP2, NTRK1, NTRK3, PAK3, PAX5, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTEN, PTPN11, PTPRD, RAF1, RARA, RB1, RET, RICTOR, RPTOR, RUNX1, SLC19A1, SLC22A2, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOD2, SOX10, SOX2, SRC, STK11, SULT1A1, TBX22, TET2, TGFBR2, TMPRSS2, TNFRSF14, TOP1, TP53, TPMT, TSC1, TSC2, TYMS, UGT1A1, UMPS, USP9X, VHL, e WT1.[00211] Illustrative examples of genes harboring one or more genetic lesions associated with cancer that can be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to, ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, AKT1, AKT2, AKT3, ALDH4A1, ALK, APC, AR, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRAF, BRCA1, BRCA2, Clorf144, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2A, CDKN2B, CDKN2C, CEBPA, CHEK1, CHEK2, CRKL, CRLF2, CTNNB1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DNMT3A, DOT1L, DPYD, EGFR, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, EPHX1, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FCGR3A, FGFR1, FGFR2, FGFR3, FGFR4, FLT1, FLT3, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GSTP1, GUCY1A2, HOXA3, HRAS, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, ITPA, JAK1, JAK2, JAK3, JUN, KDR, KIT, KRAS, LRP1B, LRP2, LTK, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MET, MITF, MLH1, MLL, MPL, MRE11A, MSH2, MSH6, MTHFR, MTOR, MUTYH, MYC, MYCL1, MYCN, NF1, NF2, NKX2-1, NOTCH1, NPM1, NQO1, NRAS, NRP2, NTRK1, NTRK3, PAK3, PAX5, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTEN, PTPN11, PTPRD, RAF1, RARA, RB1, RET, RICTOR, RPTOR, RUNX1, SLC19A1, SLC22A2, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOD2, SOX10, SOX2, SRC, STK11, SULT1A1, TBX22, TET2, TGFBR2, TMPRSS2, TNFRSF14, TOP1, TP53, TPMT, TSC1, TSC2, TYMS, UGT1A1, UMPS, USP9X, VHL, and WT1.

[00212] Em modalidades particulares, a lesão genética compreende umatransição ou transversão nucleotídica, uma inserção ou deleção de nucleotídeos, um rearranjo genômico, uma alteração no número de cópias ou uma fusão genética.[00212] In particular embodiments, the genetic lesion comprises a nucleotide transition or transversion, a nucleotide insertion or deletion, a genomic rearrangement, a copy number alteration, or a gene fusion.

[00213] Em uma modalidade, a lesão genética é uma fusão genética que fundea região codificante 3' do gene ALK a outro gene.[00213] In one embodiment, the genetic lesion is a genetic fusion that fuses the 3' coding region of the ALK gene to another gene.

[00214] Em uma modalidade, a lesão genética é uma fusão genética que fundea região codificante 3' do gene ALK com o gene EML4.[00214] In one embodiment, the genetic lesion is a genetic fusion that fuses the 3' coding region of the ALK gene with the EML4 gene.

[00215] Exemplos ilustrativos de condições adequadas para testes fetais quepodem ser detectados, identificados, preditos, diagnosticados ou monitorados com as composições e métodos aqui contemplados incluem, mas não estão limitados a: Síndrome de Down (Trissomia 21), Síndrome de Edwards (Trissomia 18), Síndrome de Patau (Trissomia 13), Síndrome de Klinefelter (XXY), Síndrome Triplo X, Síndrome XYY, Trissomia 8, Trissomia 16, Síndrome de Turner (XO), Translocação Robertsoniana, Síndrome DiGeorge e Síndrome de Wolf-Hirschhorn.[00215] Illustrative examples of conditions suitable for fetal testing that may be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to: Down Syndrome (Trisomy 21), Edwards Syndrome (Trisomy 18), Patau Syndrome (Trisomy 13), Klinefelter Syndrome (XXY), Triple X Syndrome, XYY Syndrome, Trisomy 8, Trisomy 16, Turner Syndrome (XO), Robertsonian Translocation, DiGeorge Syndrome, and Wolf-Hirschhorn Syndrome.

[00216] Exemplos ilustrativos de alelos adequados para testes de paternidadeque podem ser detectados, identificados, preditos, diagnosticados ou monitorados com as composições e métodos aqui contemplados incluem, mas não estão limitados a 16 ou mais de: D20S1082, D6S474, D12ATA63, D22S1045, D10S1248, D1S1677 , D11S4463, D4S2364, D9S1122, D2S1776, D10S1425, D3S3053, D5S2500, D1S1627, D3S4529, D2S441, D17S974, D6S1017, D4S2408, D9S2157, Amelogenina, D17S1301,D1GATA113, D18S853, D20S482 e D14S1434.[00216] Illustrative examples of alleles suitable for paternity testing that can be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to, 16 or more of: D20S1082, D6S474, D12ATA63, D22S1045, D10S1248, D1S1677, D11S4463, D4S2364, D9S1122, D2S1776, D10S1425, D3S3053, D5S2500, D1S1627, D3S4529, D2S441, D17S974, D6S1017, D4S2408, D9S2157, Amelogenin, D17S1301,D1GATA113, D18S853, D20S482 and D14S1434.

[00217] Exemplos ilustrativos de genes adequados para predizer a resposta aotratamento de drogas que podem ser detectados, identificados, preditos, diagnosticados, ou monitorados com as composições e métodos contemplados neste documento incluem, mas não estão limitados a uma ou mais do sequência de genes: ABCB1 (Cassete de ligação de ATP, subfamília B (MDR/TAP), membro 1), ACE (enzima conversora de angiotensina I), ADH1A (álcool desidrogenase 1A (classe I), polipeptídeo alfa), ADH1B (álcool desidrogenase IB (classe I), polipeptídeo beta), ADH1C (álcool desidrogenase 1C (classe I), polipeptídeo gama), ADRB1 (adrenérgico, beta-1, receptor), ADRB2 (adrenérgico, beta-2, receptor, superfície), AHR (receptor de hidrocarboneto de aril), ALDH1A1 (família de aldeído desidrogenase 1, membro A1), ALOX5 (araquidonato 5-lipoxigenase), BRCA1 (câncer de mama 1, início precoce), COMT (catecol-O-metiltransferase), CYP2A6 (citocromo P450, família 2, subfamília A, polipeptídeo 6), CYP2B6 (citocromo P450, família 2, subfamília B, polipeptídeo 6), CYP2C9 (citocromo P450, família 2, subfamília C, polipeptídeo 9), CYP2C19 (citocromo P450, família 2, subfamília C, polipeptídeo 19), CYP2D6 (citocromo P450, família 2, subfamília D, polipeptídeo 6), CYP2J2 (citocromo P450, família 2, subfamília J, polipeptídeo 2), CYP3A4 (citocromo P450, família 3, subfamília A, polipeptídeo 4), CYP3A5 (citocromo P450, família 3, subfamília A, polipeptídeo 5), DPYD (di-hidropirimidina desidrogenase), DRD2 (receptor dopaminérgico D2), F5 (fator de coagulação V), GSTP1 (glutationa S-transferase pi), HMGCR (3-hidroxi- 3-metilglutaril-Coenzima A redutase), KCNH2 (canal de ativação de voltagem de potássio, subfamília H (relacionada a eag), membro 2) , KCNJ11 (canal de retificação interna de potássio, subfamília J, membro 11), MTHFR (5,10-metilenotetra-hidrofolato redutase (NADPH)), NQO1 (NAD (P) H desidrogenase, quinona 1), P2RY1 (receptor purinérgico P2Y, proteína G acoplada, 1), P2RY12 (receptor purinérgico P2Y, proteína G acoplada, 12), PTGIS (prostaglandina I2 (prostaciclina) sintase), SCN5A (canal de sódio, com bloqueio de voltagem, tipo V, alfa (síndrome do QT longo 3)), SLC19A1 (família de transportadores de soluto 19 (transportador de folato), membro 1), SLCO1B1 (transportador de ânion orgânico transportador soluto, membro 1B1), SULT1A1 (família sulfotransferase, citosólico, 1A, preferindo fenol, membro 1), TPMT (tiopurina S- metiltransferase), TYMS (timidilato sintetase), UGT1A1 (família da UDP glucuronosiltransferase 1, polipeptídeo A1), VDR (receptor da vitamina D (1,25-di-hidroxivitamina D3)), VKORC1 (complexo da vitamina K epóxido redutase, subunidade 1).[00217] Illustrative examples of genes suitable for predicting response to drug treatment that can be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to, one or more of the following gene sequences: ABCB1 (ATP-binding cassette, subfamily B (MDR/TAP), member 1), ACE (angiotensin I converting enzyme), ADH1A (alcohol dehydrogenase 1A (class I), alpha polypeptide), ADH1B (alcohol dehydrogenase IB (class I), beta polypeptide), ADH1C (alcohol dehydrogenase 1C (class I), gamma polypeptide), ADRB1 (adrenergic, beta-1, receptor), ADRB2 (adrenergic, beta-2, receptor, surface), AHR (aryl hydrocarbon receptor), ALDH1A1 (aldehyde dehydrogenase family 1, member A1), ALOX5 (arachidonate 5-lipoxygenase), BRCA1 (breast cancer 1, early onset), COMT (catechol-O-methyltransferase), CYP2A6 (cytochrome P450 family 2, subfamily A, polypeptide 6), CYP2B6 (cytochrome P450 family 2, subfamily B, polypeptide 6), CYP2C9 (cytochrome P450 family 2, subfamily C, polypeptide 9), CYP2C19 (cytochrome P450 family 2, subfamily C, polypeptide 19), CYP2D6 (cytochrome P450 family 2, subfamily D, polypeptide 6), CYP2J2 (cytochrome P450 family 2, subfamily J, polypeptide 2), CYP3A4 (cytochrome P450 family 3, subfamily A, polypeptide 4), CYP3A5 (cytochrome P450 family 3, subfamily A, polypeptide 5), DPYD (dihydropyrimidine dehydrogenase), DRD2 (dopamine D2 receptor), F5 (coagulation factor V), GSTP1 (glutathione S-transferase 1I), HMGCR (3-hydroxy-3-methylglutaryl-Coenzyme A reductase), KCNH2 (potassium voltage-gated channel, subfamily H (EAG-related), member 2), KCNJ11 (potassium inwardly rectifying channel, subfamily J, member 11), MTHFR (5,10-methylenetetrahydrofolate (NADPH) reductase), NQO1 (NAD(P)H dehydrogenase, quinone 1), P2RY1 (P2Y purinergic receptor, G-protein coupled, 1), P2RY12 (P2Y purinergic receptor, G-protein coupled, 12), PTGIS (prostaglandin I2 (prostacyclin) synthase), SCN5A (sodium channel, voltage-gated, type V, alpha (long QT syndrome 3)), SLC19A1 (solute transporter family 19 (folate transporter), member 1), SLCO1B1 (solute carrier organic anion transporter, member 1B1), SULT1A1 (sulfotransferase family, cytosolic, 1A, phenol-preferring, member 1), TPMT (thiopurine S-methyltransferase), TYMS (thymidylate synthetase), UGT1A1 (UDP glucuronosyltransferase family 1, polypeptide A1), VDR (vitamin D receptor (1,25-dihydroxyvitamin D3)), VKORC1 (vitamin K epoxide reductase complex, subunit 1).

[00218] Exemplos ilustrativos de condições médicas que podem serdetectados, identificados, preditos, diagnosticados ou monitorados com as composições e métodos aqui contemplados incluem, mas não estão limitados a: acidente vascular cerebral, ataque isquêmico transitório, traumatismo cranioencefálico, cardiopatia, ataque cardíaco, angina, aterosclerose e hipertensão arterial.[00218] Illustrative examples of medical conditions that may be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to: stroke, transient ischemic attack, traumatic brain injury, heart disease, heart attack, angina, atherosclerosis, and high blood pressure.

[00219] Exemplos ilustrativos de agentes patogênicos que podem serpesquisados com as composições e métodos aqui contemplados incluem, mas não estão limitados a: fungos de bactérias e vírus.[00219] Illustrative examples of pathogens that may be screened for with the compositions and methods contemplated herein include, but are not limited to: bacteria fungi and viruses.

[00220] Exemplos ilustrativos de espécies bacterianas que podem serrastreadas com as composições e métodos aqui contemplados incluem, mas não se limitam a: uma Mycobacterium spp., uma Pneumococcus spp., uma Escherichia spp., uma Campylobacter spp., uma Corynebacterium spp., uma Clostridium spp., uma Streptococcus spp., uma Staphylococcus spp., uma Pseudomonas spp., uma Shigella spp., uma Treponema spp., ou uma Salmonella spp.[00220] Illustrative examples of bacterial species that may be screened with the compositions and methods contemplated herein include, but are not limited to: a Mycobacterium spp., a Pneumococcus spp., an Escherichia spp., a Campylobacter spp., a Corynebacterium spp., a Clostridium spp., a Streptococcus spp., a Staphylococcus spp., a Pseudomonas spp., a Shigella spp., a Treponema spp., or a Salmonella spp.

[00221] Exemplos ilustrativos de espécies de fungos que pode ser rastreadaspara com as composições e métodos aqui contemplados incluem, mas não estão limitados a: uma Aspergillis spp., uma Blastomyces spp., uma Candida spp., uma Coccicioides spp., uma Cryptococcus spp., dermatophytes, uma Tinea spp., uma Trichophyton spp., uma Microsporum spp., uma Fusarium spp., uma Histoplasma spp., uma Mucoromycotina spp., uma Pneumocystis spp., uma Sporothrix spp., uma Exserophilum spp., ou uma Cladosporium spp.[00221] Illustrative examples of fungal species that may be screened for with the compositions and methods contemplated herein include, but are not limited to: an Aspergillis spp., a Blastomyces spp., a Candida spp., a Coccicioides spp., a Cryptococcus spp., dermatophytes, a Tinea spp., a Trichophyton spp., a Microsporum spp., a Fusarium spp., a Histoplasma spp., a Mucoromycotina spp., a Pneumocystis spp., a Sporothrix spp., an Exserophilum spp., or a Cladosporium spp.

[00222] Exemplos ilustrativos de vírus que podem ser rastreados para com ascomposições e métodos aqui contemplados incluem, mas não estão limitados a: Influenza A, como H1N1, H1N2, H3N2 e H5N1 (gripe aviária), Influenza B, Influenza C, Hepatite A, Hepatite B, Hepatite C, Hepatite D, Hepatite E, Rotavírus, qualquer vírus do grupo de vírus Norwalk, adenovírus entéricos, parvovírus, vírus da dengue, varíola, mononegavirales, lyssavírus, como o vírus da raiva, vírus do morcego de Lagos, Vírus Mokola, Duvenhage, vírus do morcego Europeu 1 & 2 e vírus do morcego Australiano, Efemovírus,Vesiculovírus, Vírus da Estomatite Vesicular (VSV), Herpesvírus como o vírus Herpes simplex tipos 1 e 2, varicela zoster, citomegalovírus, Vírus Epstein-Bar (EBV), herpesvírus humanos (HHV), herpesvírus humano tipo 6 e 8, vírus da leucemia murina de Moloney (M- MuLV), vírus do sarcoma murino de Moloney (MoMSV), Vírus do sarcoma murino Harvey (HaMuSV), vírus do tumor mamário murino (MuMTV), vírus da leucemia do macaco gibão (GaLV), vírus da leucemia felina (FLV), spumavírus, vírus da leucemia murina Friend, Vírus da Célula-tronco de Murino (MSCV) e Vírus do Sarcoma de Rous (RSV), HIV (vírus da imunodeficiência humana; incluindo HIV tipo 1 e HIV tipo 2), vírus visna-maedi (VMV), o vírus da artrite-encefalite caprina (CAEV), vírus da anemia infecciosa equina (EIAV), vírus da imunodeficiência felina (FIV), vírus da imunodeficiência bovina (BIV) e vírus da imunodeficiência símia (SIV), vírus do papiloma, vírus gama-herpesvírus murino, Arenavírus, como vírus da febre hemorrágica argentina, vírus da febre hemorrágica boliviana, vírus da febre hemorrágica associado ao vírus Sabia, vírus da febre hemorrágica venezuelana, vírus da febre Lassa, vírus Machupo, vírus da coriomeningite linfocítica (LCMV), Bunyaviridiae, como o vírus da febre hemorrágica da Crimeia-Congo, Hantavírus, febre hemorrágica com síndrome renal causando vírus, vírus da febre do Vale do Rift, Filoviridae (filovírus) incluindo febre hemorrágica Ebola e febre hemorrágica Marburg, Flaviviridae incluindo vírus da doença de Kaysanur Forest, vírus da febre hemorrágica Omsk, Encefalite transmitida por carraças que causa vírus e Paramyxoviridae, tais como vírus Hendra e Nipah, varíola major e variola minor (varíola), alfavírus, tais como o vírus da encefalite equina venezuelana, vírus da encefalite equina oriental, vírus da encefalite equina ocidental, coronavírus associado à SARS (SARS-CoV), Vírus do Nilo Ocidental e qualquer vírus causador de encefalite.[00222] Illustrative examples of viruses that may be screened for with the compositions and methods contemplated herein include, but are not limited to: Influenza A, such as H1N1, H1N2, H3N2, and H5N1 (avian flu), Influenza B, Influenza C, Hepatitis A, Hepatitis B, Hepatitis C, Hepatitis D, Hepatitis E, Rotavirus, any virus of the Norwalk group of viruses, enteric adenoviruses, parvoviruses, dengue virus, smallpox, mononegavirales, lyssaviruses such as rabies virus, Lagos bat virus, Mokola virus, Duvenhage virus, European bat virus 1 & 2, and Australian bat virus, Ephemoviruses, Vesiculoviruses, Vesicular Stomatitis Virus (VSV), Herpesviruses such as Herpes simplex virus types 1 and 2, varicella zoster, cytomegalovirus, Epstein-Barr virus (EBV), human herpesviruses (HHV), human herpesvirus types 6 and 8, Moloney murine leukemia virus (M-MuLV), Moloney murine sarcoma virus (MoMSV), Harvey murine sarcoma virus (HaMuSV), murine mammary tumor virus (MuMTV), gibbon ape leukemia virus (GaLV), feline leukemia virus (FLV), spumavirus, Friend murine leukemia virus, Murine Stem Cell Virus (MSCV), and Rous sarcoma virus (RSV), HIV (human immunodeficiency virus; including HIV type 1 and HIV type 2), visna-maedi virus (VMV), caprine arthritis-encephalitis virus (CAEV), equine infectious anemia virus (EIAV), feline immunodeficiency virus (FIV), immunodeficiency virus bovine immunodeficiency virus (BIV) and simian immunodeficiency virus (SIV), papillomavirus, murine gammaherpesvirus, Arenaviruses such as Argentine hemorrhagic fever virus, Bolivian hemorrhagic fever virus, Sabia virus-associated hemorrhagic fever virus, Venezuelan hemorrhagic fever virus, Lassa fever virus, Machupo virus, lymphocytic choriomeningitis virus (LCMV), Bunyaviridiae such as Crimean-Congo hemorrhagic fever virus, Hantavirus, hemorrhagic fever with renal syndrome causing viruses, Rift Valley fever virus, Filoviridae (filoviruses) including Ebola hemorrhagic fever and Marburg hemorrhagic fever, Flaviviridae including Kaysanur Forest disease virus, Omsk hemorrhagic fever virus, Tick-borne encephalitis causing viruses, and Paramyxoviridae such as Hendra and Nipah viruses, variola major and variola minor (smallpox), alphaviruses such as Venezuelan equine encephalitis virus, Eastern equine encephalitis virus, Western equine encephalitis virus, SARS-associated coronavirus (SARS-CoV), West Nile virus, and any virus that causes encephalitis.

[00223] Exemplos ilustrativos de genes adequados para monitorar umtransplante de órgão num receptor de transplante que pode ser detectado, identificado, predito, diagnosticado ou monitorado com as composições e métodos aqui contemplados incluem, mas não estão limitados a, um ou mais dos seguintes genes: HLA-A, HLA-B, HLA- C, HLA-DR, HLA-DP e HLA-DQ.[00223] Illustrative examples of genes suitable for monitoring an organ transplant in a transplant recipient that can be detected, identified, predicted, diagnosed, or monitored with the compositions and methods contemplated herein include, but are not limited to, one or more of the following genes: HLA-A, HLA-B, HLA-C, HLA-DR, HLA-DP, and HLA-DQ.

[00224] Em modalidades particulares, é utilizada uma análise debioinformática para quantificar o número de equivalentes de genoma analisados na biblioteca de clones de cfDNA; detectar variantes genéticas em um locus genético alvo; detectar mutações dentro de um locus genético alvo; detectar fusões genéticas dentro de um locus genético alvo; ou medir flutuações no número de cópias dentro de um locus genético alvo.[00224] In particular embodiments, a bioinformatics analysis is used to quantify the number of genome equivalents analyzed in the cfDNA clone library; detect genetic variants at a target genetic locus; detect mutations within a target genetic locus; detect genetic fusions within a target genetic locus; or measure copy number fluctuations within a target genetic locus.

F. COMPLEMENTARY DIAGNOSIS

[00225] Em várias modalidades, é proporcionado um diagnósticocomplementar para uma doença genética, compreendendo: isolar ou obter DNA genômico a partir de uma amostra biológica de um sujeito; tratar o DNA com uma ou mais enzimas de reparação final para gerar DNA reparado na extremidade; ligar um ou mais adaptadores a cada extremidade do DNA reparado na extremidade para gerar uma biblioteca de DNA; amplificar a biblioteca de DNA para gerar uma biblioteca de clones de DNA; determinar o número de equivalentes do genoma na biblioteca de clone de DNA; e realizar uma análise genética quantitativa de um ou mais biomarcadores associados à doença genética na biblioteca de clone de DNA, em que a detecção ou falha na detecção de pelo menos um ou mais biomarcadores indica se o sujeito deve ser tratado para a doença genética. Em algumas modalidades, o DNA é cfDNA. Em modalidades particulares, o DNA é DNA celular.[00225] In various embodiments, a complementary diagnostic for a genetic disease is provided, comprising: isolating or obtaining genomic DNA from a biological sample of a subject; treating the DNA with one or more end repair enzymes to generate end-repaired DNA; ligating one or more adapters to each end of the end-repaired DNA to generate a DNA library; amplifying the DNA library to generate a DNA clone library; determining the number of genome equivalents in the DNA clone library; and performing a quantitative genetic analysis of one or more biomarkers associated with the genetic disease in the DNA clone library, wherein detection or failure to detect at least one or more biomarkers indicates whether the subject should be treated for the genetic disease. In some embodiments, the DNA is cfDNA. In particular embodiments, the DNA is cellular DNA.

[00226] Tal como aqui utilizado, o termo "diagnóstico acompanhante" refere-se a um teste de diagnóstico que está ligado a uma terapia anticâncer em particular. Numa modalidade particular, os métodos diagnósticos compreendem detectar a lesão genética em um biomarcador associado com uma amostra biológica, permitindo assim a identificação imediata dos pacientes, deve ou não ser tratada com a terapia anticâncer.[00226] As used herein, the term "companion diagnostic" refers to a diagnostic test that is linked to a particular anticancer therapy. In a particular embodiment, the diagnostic methods comprise detecting the genetic lesion in a biomarker associated with a biological sample, thus allowing the immediate identification of whether or not patients should be treated with the anticancer therapy.

[00227] A terapia anticâncer inclui, mas não se limita a cirurgia, radiação,quimioterapêuticos, drogas anticâncer e imunomoduladores.[00227] Anticancer therapy includes, but is not limited to, surgery, radiation, chemotherapeutics, anticancer drugs, and immunomodulators.

[00228] Exemplos ilustrativos de drogas anticâncer incluem, mas não estãolimitados a: agentes alquilantes, tais como tiotepa e ciclofosfamida (CYTOXAN™); sulfonatos de alquil, tais como bussulfano, improssulfano e pipossulfano; aziridinas, tais como benzodopa, carboquona, meturedopa e uredopa; etileniminas e metilamelaminas, incluindo altretamina, trietilenomelamina, trietilenofosforamida, trietilenotiofosforamida e retoma de trimetilolomelamina; mostardas de nitrogênio, como clorambucil, clornafazina, colofosfamida, estramustina, ifosfamida, mecloretamina, cloridrato de óxido de mecloretamina, melfalano, novembichina, fenesterina, prednimustina, trofosfamida, mostarda de uracil; nitrosureas, tais como carmustina, clorozotocina, fotemustina, lomustina, nimustina, ranimustina; antibióticos, tais como aclacinomisinas, actinomicina, authramicina, azaserina, bleomicinas, cactinomicina, caliqueamicina, carabicina, carminomicina, carzinofilina, cromomicinas, dactinomicina, daunorrubicina, detorubicina, 6-diazo-5-oxo-L- norleucina, doxorrubicina e as suas formulações peguiladas, epirubicina, esorubicina, idarrubicina, marcelomicina, mitomicinas, ácido micofenólico, nogalamicina, olivomicinas, peplomicina, potfiromicina, puromicina, quelamicina, rodorubicina, estreptomicina, estreptozocina, tubercidina, ubenimex, zinostatina, zorubicina; antimetabolitos, tais como metotrexato e 5-fluorouracila (5-FU); análogos do ácido fólico, tais como denopterina, metotrexato, pteropterina, trimetrexato; análogos de purina, tais como fludarabina, 6- mercaptopurina, tiamiprina, tioguanina; análogos de pirimidina, tais como ancitabina, azacitidina, 6-azauridina, carmofur, citarabina, didesoxiuridina, doxifluridina, enocitabina, floxuridina, 5-FU; androgênios, tais como calusterona, propionato de dromostanolona, epitiostanol, mepitiostano, testolactona; anti-adrenais, tais como aminoglutetimida, mitotano, trilostano; reabastecedor de ácido fólico, tal como ácido frolínico; aceglatona; glicosídeo de aldofosfamida; ácido aminolevulínico; amsacrina; bestrabucil; bisantrene; edatraxato; defofamina; demecolcina; diaziquona; elformitina; acetato de eliptínio; etoglucida; nitrato de gálio; hidroxiureia; lentinana; lonidamina; mitoguazona; mitoxantrona; mopidamol; nitracrina; pentostatina; fenamet; pirarubicina; ácido podofilínico; 2-etil-hidrazida; procarbazina; PSK®; razoxano; sizofirano; espirogermânio; ácido tenuazônico; triaziquona; 2, 2',2”-tricloridrilamina; uretano; vindesina; dacarbazina; manomona; mitobronitol; mitolactol; pipobromana; gacitosina; arabinosídeo (“Ara-C”); ciclofosfamida; tiotepa; taxoides, por exemplo, paclitaxel (TAXOL®, Bristol-Myers Squibb Oncology, Princeton, N.J.) e doxetaxel (TAXOTERE®., Rhne-Poulenc Rorer, Antony, France); clorambucil; gemcitabina; 6-tioguanina; mercaptopurina; metotrexato; análogos de platina tais como cisplatina e carboplatina; vinblastina; platina; etoposídeo (VP-16); ifosfamida; mitomicina C; mitoxantrona; vincristina; vinorelbina; navelbina; novantrona; teniposídeo; aminopterina; xeloda; ibandronato; CPT-11; inibidor da topoisomerase RFS 2000; difluorometilomitina (DMFO); derivados de ácido retinoico, tais como Targretin™ (bexaroteno), Panretin™ (alitretinoína); ONTAK™ (denileucina diftitox); esperamicinas; capecitabina; e sais, ácidos ou derivados farmaceuticamente aceitáveis de qualquer um dos anteriores. Também incluídos nesta definição estão os agentes anti-hormonais que atuam para regular ou inibir a ação hormonal em cânceres, como anti-estrogênios, incluindo por exemplo tamoxifeno, raloxifeno, inibidores da aromatase 4(5)-imidazóis, 4- hidroxitamoxifeno, trioxifeno, keoxifeno, LY117018, onapristona e toremifeno (Fareston); e antiandrogênios, tais como flutamida, nilutamida, bicalutamida, leuprolide e goserelina; e sais, ácidos ou derivados farmaceuticamente aceitáveis de qualquer um dos anteriores.[00228] Illustrative examples of anticancer drugs include, but are not limited to: alkylating agents, such as thiotepa and cyclophosphamide (CYTOXAN™); alkyl sulfonates, such as busulfan, improsulfan, and piposulfan; aziridines, such as benzodopa, carboquone, meturedopa, and uredopa; ethylenimines and methylamelamines, including altretamine, triethylenemelamine, triethylenephosphoramide, triethylenethiophosphoramide, and trimethylolomelamine retum; nitrogen mustards, such as chlorambucil, chlornaphazine, cholophosphamide, estramustine, ifosfamide, mechlorethamine, mechlorethamine oxide hydrochloride, melphalan, novembichin, phenesterine, prednimustine, trofosfamide, uracil mustard; nitrosureas, such as carmustine, chlorozotocin, fotemustine, lomustine, nimustine, ranimustine; antibiotics, such as aclacinomysins, actinomycin, authramycin, azaserine, bleomycins, cactinomycin, calicheamicin, carabicin, carminomycin, carzinophylline, chromomycins, dactinomycin, daunorubicin, detorubicin, 6-diazo-5-oxo-L-norleucine, doxorubicin and its pegylated formulations, epirubicin, esorubicin, idarubicin, marcelomycin, mitomycins, mycophenolic acid, nogalamycin, olivomycins, peplomycin, potfiromycin, puromycin, chelamycin, rhodorubicin, streptomycin, streptozocin, tubercidin, ubenimex, zinostatin, zorubicin; antimetabolites such as methotrexate and 5-fluorouracil (5-FU); folic acid analogues such as denopterin, methotrexate, pteropterin, trimetrexate; purine analogues such as fludarabine, 6-mercaptopurine, thiamin, thioguanine; pyrimidine analogues such as ancitabine, azacitidine, 6-azauridine, carmofur, cytarabine, dideoxyuridine, doxifluridine, enocitabine, floxuridine, 5-FU; androgens such as calusterone, dromostanolone propionate, epitiostanol, mepitiostane, testolactone; antiadrenals such as aminoglutethimide, mitotane, trilostane; folic acid replenishers such as phrolininic acid; aceglaton; aldophosphamide glycoside; aminolevulinic acid; amsacrine; bestrabucil; bisantrene; edatraxate; defofamine; demecolcine; diaziquone; elformitin; elliptinium acetate; etoglucid; gallium nitrate; hydroxyurea; lentinan; lonidamine; mitoguazone; mitoxantrone; mopidamol; nitracrine; pentostatin; fenamet; pirarubicin; podophyllinic acid; 2-ethylhydrazide; procarbazine; PSK®; razoxane; sizofirane; spirogermanium; tenuazonic acid; triaziquone; 2, 2',2”-trichlorohydrylamine; urethane; vindesine; dacarbazine; mannomone; mitobronitol; mitolactol; pipobromane; gamma-cytosine; arabinoside (“Ara-C”); cyclophosphamide; thiotepa; taxoids, e.g., paclitaxel (TAXOL®, Bristol-Myers Squibb Oncology, Princeton, N.J.) and doxetaxel (TAXOTERE®, Rhne-Poulenc Rorer, Antony, France); chlorambucil; gemcitabine; 6-thioguanine; mercaptopurine; methotrexate; platinum analogs such as cisplatin and carboplatin; vinblastine; platinum; etoposide (VP-16); ifosfamide; mitomycin C; mitoxantrone; vincristine; vinorelbine; navelbine; novantrone; teniposide; aminopterin; xeloda; ibandronate; CPT-11; topoisomerase inhibitor RFS 2000; difluoromethylomitin (DMFO); retinoic acid derivatives such as Targretin™ (bexarotene), Panretin™ (alitretinoin); ONTAK™ (denileukin diftitox); esperamycins; capecitabine; and pharmaceutically acceptable salts, acids, or derivatives of any of the foregoing. Also included in this definition are antihormonal agents that act to regulate or inhibit hormonal action in cancers, such as antiestrogens, including for example tamoxifen, raloxifene, aromatase inhibitors 4(5)-imidazoles, 4-hydroxytamoxifen, trioxifen, keoxifen, LY117018, onapristone, and toremifene (Fareston); and antiandrogens such as flutamide, nilutamide, bicalutamide, leuprolide and goserelin; and pharmaceutically acceptable salts, acids or derivatives of any of the foregoing.

[00229] Exemplos ilustrativos de imunomoduladores incluem, mas não estãolimitados a: ciclosporina, tacrolimus, tresperimus, pimecrolimus, sirolimus, verolimus, laflunimus, laquinimod e imiquimod, bem como análogos, derivados, sais, íons e complexos dos mesmos.[00229] Illustrative examples of immunomodulators include, but are not limited to: cyclosporine, tacrolimus, tresperimus, pimecrolimus, sirolimus, verolimus, laflunimus, laquinimod, and imiquimod, as well as analogs, derivatives, salts, ions, and complexes thereof.

[00230] Em algumas modalidades, uma droga anticâncer pode incluir uminibidor da poli-ADP ribose polimerase (PARP). Exemplos ilustrativos de inibidores de PARP incluem, mas não estão limitados a, olaparibe (AZD-2281), rucaparibe (AG014699 ou PF-01367338, niraparibe (MK-4827), talazoparibe (BMN-673) veliparibe (ABT-888), CEP 9722 , E7016, BGB-290, 3-aminobenzamida.[00230] In some embodiments, an anticancer drug may include a poly-ADP ribose polymerase (PARP) inhibitor. Illustrative examples of PARP inhibitors include, but are not limited to, olaparib (AZD-2281), rucaparib (AG014699 or PF-01367338, niraparib (MK-4827), talazoparib (BMN-673) veliparib (ABT-888), CEP 9722, E7016, BGB-290, 3-aminobenzamide.

[00231] Todas as publicações, pedidos de patentes e patentes emitidas citadasneste relatório descritivo são aqui incorporadas por referência como se cada publicação individual, pedido de patente ou patente emitida fosse especificamente e individualmente indicada para ser incorporada por referência. Em particular, todo o conteúdo da Publicação Internacional PCT WO 2016/028316 é especificamente incorporado por referência.[00231] All publications, patent applications, and issued patents cited in this specification are incorporated herein by reference as if each individual publication, patent application, or issued patent were specifically and individually indicated to be incorporated by reference. In particular, the entire contents of PCT International Publication WO 2016/028316 are specifically incorporated by reference.

[00232] Embora a invenção anterior tenha sido descrita com algum detalhe pormeio de ilustração e exemplo para fins de clareza de compreensão, será prontamente evidente para um versada na técnica à luz dos ensinamentos desta invenção que certas alterações e modificações podem ser feito sem sair do espírito ou âmbito das reivindicações anexas. Os exemplos seguintes são proporcionadaos apenas a título de ilustração e não como limitação. Os versados na técnica reconhecerão prontamente uma variedade de parâmetros não críticos que podem ser alterados ou modificados para produzir resultados essencialmente semelhantes.[00232] Although the foregoing invention has been described in some detail by way of illustration and example for purposes of clarity of understanding, it will be readily apparent to one skilled in the art in light of the teachings of this invention that certain changes and modifications may be made without departing from the spirit or scope of the appended claims. The following examples are provided by way of illustration only and not by way of limitation. Those skilled in the art will readily recognize a variety of non-critical parameters that may be changed or modified to produce essentially similar results.

EXAMPLES Example 1: Copy number analysis of samples containing mixtures of fragmented genomic DNA

[00233] Misturas meticulosas de DNA genômico fragmentado foram geradascontendo DNA derivado de amostras de ΔATM ou ΔBRCA2 humano imortalizadas adicionadas a uma amostra de gDNA humano de tipo selvagem fragmentada. A vantagem deste tipo de amostra é que a composição pode ser cuidadosamente controlada e a disponibilidade da amostra é essencialmente ilimitada.[00233] Meticulous mixtures of fragmented genomic DNA were generated containing DNA derived from immortalized human ΔATM or ΔBRCA2 samples added to a fragmented wild-type human gDNA sample. The advantage of this type of sample is that the composition can be carefully controlled and the availability of the sample is essentially unlimited.

[00234] O DNA genômico de fêmea humana do tipo selvagem foi purificadoa partir de amostras de sangue completo doadas por um voluntário saudável. DNA genômico isolado de uma célula imortalizada abrigando uma deleção heterozigótica cobrindo todo o gene ATM (NA09596, ΔATM) e uma amostra separada contendo uma deleção heterozigótica de BRCA2 (NA02718, ΔBRCA2) foram obtidos do repositório Coriell. É importante ressaltar que essas amostras pareciam ter uma ploidia normalmente normal em todo o restante dos genomas. A amostra de ΔATM foi derivada de um doador masculino e, portanto, também hemizigótica no número de cópias do gene AR ligado ao X. O DNA livre de células (cfDNA) foi obtido de amostras de plasma de doadores saudáveis de origem feminina ou masculina. Para construção de biblioteca, DNA genômico foi sonicado em um ajuste de 200 bp com um instrumento Covaris, em seguida, tamanho adicional selecionado usando uma purificação de grânulo de DNA “de dois lados”. As amostras de DNA de entrada na biblioteca são mostradas na FIG. 7.[00234] Wild-type human female genomic DNA was purified from whole blood samples donated by a healthy volunteer. Genomic DNA isolated from an immortalized cell harboring a heterozygous deletion covering the entire ATM gene (NA09596, ΔATM) and a separate sample containing a heterozygous deletion of BRCA2 (NA02718, ΔBRCA2) were obtained from the Coriell repository. Importantly, these samples appeared to have largely normal ploidy throughout the remainder of their genomes. The ΔATM sample was derived from a male donor and therefore also hemizygous for the X-linked AR gene copy number. Cell-free DNA (cfDNA) was obtained from plasma samples from healthy donors of either female or male origin. For library construction, genomic DNA was sonicated to a 200 bp setting with a Covaris instrument, then further size selected using a “double-sided” DNA bead purification. The input DNA samples in the library are shown in FIG. 7.

[00235] Combinações apropriadas de amostras fragmentadas e cfDNA forammisturadas a percentagens definidas, reparadas na extremidade e convertidas em bibliotecas genômicas. Aproximadamente 500 ng de cada biblioteca foram combinados em conjuntos de oito amostras e hibridados com o agrupamento de sonda da próstata com perda de número de cópias (CNL) que continha 2304 sondas de DNA. Após o processamento da amostra, cada conjunto de oito amostras foi sequenciado em um instrumento Illumina NextSeq NGS para uma profundidade de ~ 480 milhões de leituras de filtro de passagem; isso corresponde a 60 milhões de leituras/amostra. Aproximadamente 95% das leituras possuíam identificadores de identificação de amostra legítimos e estavam alinhados ao genoma de referência humana e, destes, ~ 98% mapeados para os locus alvo pretendido. A profundidade global de sequenciamento, medida como o número de leituras por entrada de genoma por sonda (calculada como leituras no alvo (60 milhões) dividida pela profundidade média do genoma (2500) e dividida pela contagem de sonda (2400)) foi de aproximadamente 10 leituras por genoma por sonda. Uma representação gráfica da análise da perda do número de cópias é mostrada na FIG. 1. As perturbações do número de cópias são destacadas por setas. (Amostra 1, 5% de DNA macho em DNA fêmea; amostra 2, 5% de ΔATM DNA(macho) no DNA fêmea; amostra 3, 5% de DNA ΔBRCA2 (fêmea) no DNA fêmea; amostra 4, DNA fêmea puro).[00235] Appropriate combinations of fragmented samples and cfDNA were mixed to defined percentages, end-repaired, and converted to genomic libraries. Approximately 500 ng of each library was combined into pools of eight samples and hybridized to the copy number loss (CNL) prostate probe pool containing 2304 DNA probes. After sample processing, each pool of eight samples was sequenced on an Illumina NextSeq NGS instrument to a depth of ~480 million pass-filter reads; this corresponds to 60 million reads/sample. Approximately 95% of the reads had legitimate sample ID identifiers and aligned to the human reference genome, and of these, ~98% mapped to the intended target loci. The overall sequencing depth, measured as the number of reads per genome input per probe (calculated as on-target reads (60 million) divided by the average genome depth (2500) and divided by the probe count (2400)) was approximately 10 reads per genome per probe. A graphical representation of the copy number loss analysis is shown in Fig. 1. Copy number perturbations are highlighted by arrows. (Sample 1, 5% male DNA in female DNA; sample 2, 5% ΔATM DNA (male) in female DNA; sample 3, 5% ΔBRCA2 DNA (female) in female DNA; sample 4, pure female DNA).

[00236] O chamador da CNL identifica as leituras redundantes e as condensaem uma única leitura de consenso que é então quantificada em cada local da sonda. Esta informação foi ainda condensada em médias de número de cópias gene a gene. Finalmente, uma significância estatística foi atribuída aos desvios detectados em cada medição de CNL; isso é mostrado graficamente como o valor P de log10de significância estatística.[00236] The CNL caller identifies redundant reads and condenses them into a single consensus read that is then quantified at each probe site. This information was further condensed into gene-by-gene copy number averages. Finally, a statistical significance was assigned to the deviations detected in each CNL measurement; this is shown graphically as the log10 P-value of statistical significance.

[00237] A FIG. 8 mostra gráficos de número de cópias para os genes AR (FIG.8B) e ATM (FIG. 8C) em bibliotecas genômicas fragmentadas e misturadas. Como a amostra de ΔATM é de macho, o gene AR (ligado a X, hemizigoto) e o gene ATM exibiram o comportamento de CNL. Como antecipado, a magnitude da variação de cópia medida foi modesta. A análise estatística mostrada na FIG. 9B demonstra que a flutuação da cópia observada foi estatisticamente significativa. Além disso, muito pouca flutuação significativa foi observada nos genes remanescentes que foram previstos para exibir características de cópia uniformes. Estes valores se correlacionaram bem com as frequências previstas para as várias misturas genômicas. A FIG. 10 mostra que a flutuação de cópia estatisticamente significativa foi também prontamente observada em amostras que eram principalmente cfDNA com insinuações menores de qualquer cfDNA do sexo oposto ou adições menores de gDNA fragmentado. Estes valores se correlacionaram bem com as frequências previstas para as várias misturas genômicas. Os resultados observados com o gDNA fragmentado e com o cfDNA foram comparáveis, demonstrando assim a integridade do ensaio e sugerindo que a integridade se traduzirá em amostras clínicas.[00237] FIG. 8 shows copy number plots for the AR (FIG. 8B) and ATM (FIG. 8C) genes in fragmented and mixed genomic libraries. Because the ΔATM sample is male, the AR gene (X-linked, hemizygous) and the ATM gene exhibited CNL behavior. As anticipated, the magnitude of the measured copy variation was modest. The statistical analysis shown in FIG. 9B demonstrates that the observed copy fluctuation was statistically significant. Furthermore, very little significant fluctuation was observed in the remaining genes that were predicted to exhibit uniform copy characteristics. These values correlated well with the predicted frequencies for the various genomic mixtures. FIG. 10 shows that statistically significant copy fluctuation was also readily observed in samples that were primarily cfDNA with minor hints of either cfDNA from the opposite sex or minor additions of fragmented gDNA. These values correlated well with the predicted frequencies for the various genomic mixtures. The results observed with fragmented gDNA and cfDNA were comparable, demonstrating the integrity of the assay and suggesting that this integrity will translate to clinical samples.

[00238] Estes dados demonstram a capacidade do sistema de ensaio paradetectar alterações subtis no número de cópias do gene até frequências alélicas menores de 2%. Embora o foco dos exemplos demonstrados seja sobre perda de número de cópias, a tecnologia é igualmente adequada para a detecção de ganhos no número de cópias, incluindo aumentos na cópia de genes que ocorrem através de duplicações de braços cromossômicos e amplificações focais. Este ensaio mantém ainda a capacidade de detectar outros tipos de variantes genômicas, incluindo SNVs, indels e fusões genéticas (rearranjos cromossômicos). É importante ressaltar que esses dados demonstram que o método pode ser aplicado ao DNA genômico derivado do plasma, mas também ao DNA genômico derivado de outras fontes, como tecidos e outras fontes corporais.[00238] These data demonstrate the assay system's ability to detect subtle gene copy number changes down to allele frequencies of less than 2%. While the focus of the examples demonstrated is on copy number loss, the technology is equally suitable for detecting copy number gains, including increases in gene copy number that occur through chromosome arm duplications and focal amplifications. This assay also maintains the ability to detect other types of genomic variants, including SNVs, indels, and gene fusions (chromosomal rearrangements). Importantly, these data demonstrate that the method can be applied to genomic DNA derived from plasma, but also to genomic DNA derived from other sources, such as tissues and other bodily sources.

Example 2: cfDNA copy number analysis of healthy donors and a cancer patient

[00239] O exemplo a seguir ilustra a maneira pela qual as característicasmoleculares adicionadas durante a construção da biblioteca genômica e o processamento pós-hibridização são usadas para gerar a análise do número de cópias. O DNA foi extraído do plasma de dezesseis doadores saudáveis e um paciente com câncer de próstata resistente à castração usando o kit de extração de ácidos nucleicos circulantes Qiagen (Qiagen, Hilden, Alemanha). O rendimento do DNA de fita dupla foi quantificado utilizando um fluorômetro Qubit (Thermo Fisher, Waltham, MA) e o correspondente kit de quantificação de hsDNA. A análise do tamanho foi realizada utilizando eletroforese em gel em géis de agarose a 2% com marcadores de PCR como padrões de tamanho (New England Biolabs, Ipswich, MA). Aproximadamente 40 - 100 ng de cfDNA, dependendo do rendimento de cfDNA da amostra, foi usado para construção de biblioteca.[00239] The following example illustrates how molecular features added during genomic library construction and post-hybridization processing are used to generate copy number analysis. DNA was extracted from the plasma of sixteen healthy donors and one patient with castration-resistant prostate cancer using the Qiagen Circulating Nucleic Acid Extraction Kit (Qiagen, Hilden, Germany). Double-stranded DNA yield was quantified using a Qubit fluorometer (Thermo Fisher, Waltham, MA) and the corresponding hsDNA quantification kit. Size analysis was performed using gel electrophoresis on 2% agarose gels with PCR markers as size standards (New England Biolabs, Ipswich, MA). Approximately 40-100 ng of cfDNA, depending on the cfDNA yield of the sample, was used for library construction.

[00240] As características básicas da construção da biblioteca são ilustradasna FIG. 11A - 11C. O cfDNA foi desfosforilado primeiro e depois reparado para extremidades cegas em um processo de duas etapas. Sequências de âncora de 10 nt curtas consistindo em uma fita de ligação fosforilada e uma fita de parceiro inerte foram então ligadas ao cfDNA. Os oito oligonucleotídeos utilizados para criar o conjunto de quatro sequências de âncora são mostrados na Tabela 1.Tabela 1: Oligonucleotídeos âncora de ligação*[3-d(A, C, G, ou T)-Q] indica uma base modificada na qual o grupo hidroxil reside na posição 2' do anel de ribose**/5Phos/ indica a adição química de um grupo fosfato 5' à posição base 5'[00240] The basic features of library construction are illustrated in FIG. 11A-11C. The cfDNA was first dephosphorylated and then repaired to blunt ends in a two-step process. Short 10 nt anchor sequences consisting of a phosphorylated linker strand and an inert partner strand were then ligated to the cfDNA. The eight oligonucleotides used to create the set of four anchor sequences are shown in Table 1. Table 1: Ligation Anchor Oligonucleotides *[3-d(A, C, G, or T)-Q] indicates a modified base in which the hydroxyl group resides at the 2' position of the ribose ring**/5Phos/ indicates the chemical addition of a 5' phosphate group to the base's 5' position

[00241] As estruturas do adaptador foram completadas pela adição desequências adaptadoras de comprimento total que se ligaram à sequência da âncora. Trinta e dois conjuntos de sequências de adaptador, cada um composto por 240 membros, são mostrados na FIG. 12 - FIG. 22. Estes adaptadores foram ligados ao cfDNA e estendidos através das ações concertadas de polinucleotídeo quinase, DNA polimerase e DNA ligase para gerar bibliotecas genômicas. Como uma etapa de controle de qualidade pré- sequenciamento, as bibliotecas genômicas resultantes foram quantificadas por qPCR para profundidade de cobertura. As bibliotecas genômicas foram então amplificadas e hibridadas para conjuntos de sonda dirigidos a genes específicos (FIG. 11B). Após a hibridação, utilizou-se a extensão do iniciador da sonda para copiar as sequências genômicas captadas e a informação codificada no adaptador fixado (FIG. 11C). Um exemplo de análise de pós- sequenciamento utilizando software de análise de última geração padrão é mostrado na FIG. 11D. Esta análise foi realizada em uma sequência de sequenciamento que continha 32 amostras (28 amostras de pacientes com câncer e 4 controles do tipo selvagem) e exibe a distribuição geral das leituras de sequenciamento.[00241] The adapter structures were completed by the addition of full-length adapter sequences that ligated to the anchor sequence. Thirty-two sets of adapter sequences, each consisting of 240 members, are shown in FIG. 12 - FIG. 22. These adapters were ligated to cfDNA and extended through the concerted actions of polynucleotide kinase, DNA polymerase, and DNA ligase to generate genomic libraries. As a pre-sequencing quality control step, the resulting genomic libraries were quantified by qPCR for depth of coverage. The genomic libraries were then amplified and hybridized to probe sets targeting specific genes (FIG. 11B). Following hybridization, probe primer extension was used to copy the captured genomic sequences and the information encoded in the attached adapter (FIG. 11C). An example of post-sequencing analysis using standard state-of-the-art analysis software is shown in FIG. 11D. This analysis was performed on a sequencing run that contained 32 samples (28 cancer patient samples and 4 wild-type controls) and displays the overall distribution of the sequencing reads.

[00242] Uma característica central da plataforma de captura híbridadirecionada aqui descrita é que ela proporciona vários tipos de informação genômica. Uma função essencial das sondas de captura é proporcionar detecção de mutação entre as regiões alvo em uma alta profundidade de cobertura. Esta função é governada pelo contexto da sequência, densidade e colocação das sondas de captura e é ilustrada na FIG. 23 com o gene TP53 (as sequências da sonda TP53 são mostradas na Tabela 2 abaixo). De igual importância, o ensaio de plataforma de captura híbrida alvo gerou uma leitura de igual profundidade de cobertura em regiões onde não foram detectadas mutações significativas. Esses dados são críticos para médicos e pacientes, pois adicionam significância estatística nos casos em que não foram detectadas mutações deletérias.Tabela 2: Sondas de TP53 [00242] A central feature of the targeted hybrid capture platform described herein is that it provides multiple types of genomic information. An essential function of the capture probes is to provide mutation detection across target regions at a high depth of coverage. This function is governed by the sequence context, density, and placement of the capture probes and is illustrated in FIG. 23 with the TP53 gene (TP53 probe sequences are shown in Table 2 below). Of equal importance, the targeted hybrid capture platform assay generated a readout of equal depth of coverage in regions where no significant mutations were detected. This data is critical to clinicians and patients as it adds statistical significance in cases where no deleterious mutations were detected. Table 2: TP53 Probes

[00243] A ligação da sonda de captura com sequência genômica capturada(FIG. 11C) também facilitou a medição da profundidade genômica em cada local da sonda. O número de leituras únicas associadas a cada sonda de captura utilizada na experiência foi medido (FIG. 24). Os dados mostrados na FIG. 24 foram derivados de um ensaio de sequenciação em que foram analisadas 16 amostras de cfDNA do doador saudável. A profundidade das leituras únicas encontradas em cada amostra numa localização de sonda no gene TP53 foi calculada (contagens de leitura únicas Raw mostradas na FIG. 24A). Cada amostra compreendeu uma profundidade de biblioteca única, conforme refletido na ampla distribuição amostra a amostra de leituras exclusivas. A média global da profundidade de leitura única em todas as 2596 sondas de captura na experiência também foi calculada (FIG. 24B). Significativamente, a normalização da profundidade de leitura observada no local da sonda única exibida na FIG. 24C pela profundidade de leitura única global medida para todas as sondas revelou uma densidade uniforme de leituras únicas normalizadas. Estes dados indicam que o desempenho de captura de uma sonda específica escolhida para análise foi uniforme de amostra para amostra e proporcional à profundidade genômica de cada biblioteca individual.[00243] Ligation of the capture probe with captured genomic sequence (FIG. 11C) also facilitated measurement of genomic depth at each probe location. The number of unique reads associated with each capture probe used in the experiment was measured (FIG. 24). The data shown in FIG. 24 were derived from a sequencing run in which 16 healthy donor cfDNA samples were analyzed. The depth of unique reads found in each sample at a probe location in the TP53 gene was calculated (Raw unique read counts shown in FIG. 24A). Each sample comprised a unique library depth, as reflected in the broad sample-to-sample distribution of unique reads. The overall average of the unique read depth across all 2596 capture probes in the experiment was also calculated (FIG. 24B). Significantly, the normalization of read depth observed at the unique probe location shown in FIG. 24C analysis of the global single-read depth measured for all probes revealed a uniform density of normalized single-reads. These data indicate that the capture performance of a specific probe chosen for analysis was uniform from sample to sample and proportional to the genomic depth of each individual library.

[00244] Esta mesma função de normalização foi aplicada às sondasespecíficas de 45 TP53 mostradas na FIG. 23 (dados de normalização mostrados na FIG. 25). Considerando que a FIG. 23 mostra a contribuição agregada de todas as sondas para a profundidade de sequenciamento das regiões de codificação TP53, a FIG. 25 mostra a profundidade normalizada recuperada por cada sonda individual. A profundidade normalizada recuperada por cada sonda individual foi geralmente consistente de amostra para amostra para qualquer dada sonda, mas algo variável quando uma sonda foi comparada com outra. Vários fatores determinaram as diferenças nas profundidades de captura pós- normalização observadas entre as sondas, sendo a mais significativa a colocação de sondas em relação umas às outras e a proximidade das sondas às regiões de repetição genômica. Nem todas as sondas exibiram comportamento de captura uniforme; duas sondas cujo desempenho de captura não era consistente são destacadas por setas na FIG. 25. No entanto, esses dados indicam que essas sondas são raras e facilmente identificadas. Como tal, e eles podem ser excluídos da análise do número de cópias a jusante.[00244] This same normalization function was applied to the 45 TP53-specific probes shown in FIG. 23 (normalization data shown in FIG. 25). Whereas FIG. 23 shows the aggregate contribution of all probes to the sequencing depth of the TP53 coding regions, FIG. 25 shows the normalized depth recovered by each individual probe. The normalized depth recovered by each individual probe was generally consistent from sample to sample for any given probe, but somewhat variable when one probe was compared to another. Several factors determined the differences in post-normalization capture depths observed between probes, the most significant being the placement of probes relative to each other and the proximity of probes to genomic repeat regions. Not all probes exhibited uniform capture behavior; two probes whose capture performance was not consistent are highlighted by arrows in FIG. 25. However, these data indicate that these probes are rare and easily identified. As such, they can be excluded from downstream copy number analysis.

[00245] O desempenho de captura uniforme exibido pelas sondas dedirecionamento 45 TP53 na FIG. 25 é uma característica geral da plataforma de captura híbrida alvo aqui descrita. Na FIG. 26, a profundidade de captura média para cada sonda num painel de 2596 sondas de captura foi calculada para todas as 16 bibliotecas normais de cfDNA que foram perfiladas nesta experiência. A média foi então comparada individualmente com três amostras representativas usando análise de gráfico de dispersão. Cada ponto representa uma sonda diferente e sua posição no gráfico é uma comparação da média no eixo- e a amostra individual no eixo y. A distribuição diagonal apertada da maioria das sondas refletiu o desempenho de captura de leitura exclusivo altamente correlacionado da maioria das sondas (correlação R2 > 0,95 para todos os três gráficos). É importante ressaltar que a consistência da profundidade de sequenciamento sonda-por-sonda suporta o uso da plataforma de captura híbrida alvo na medição do número de cópias.[00245] The uniform capture performance exhibited by the 45 TP53 targeting probes in FIG. 25 is a general characteristic of the target hybrid capture platform described herein. In FIG. 26, the average capture depth for each probe in a panel of 2596 capture probes was calculated for all 16 normal cfDNA libraries that were profiled in this experiment. The average was then compared individually to three representative samples using scatterplot analysis. Each point represents a different probe, and its position on the graph is a comparison of the average on the y-axis and the individual sample on the y-axis. The tight diagonal distribution of most probes reflected the highly correlated unique read capture performance of most probes (R2 correlation > 0.95 for all three graphs). Importantly, the consistency of probe-by-probe sequencing depth supports the use of the target hybrid capture platform in copy number measurement.

[00246] Com relação ao número de cópias, o tratamento mais direto dos dadosda sonda é normalizar ainda mais os valores da profundidade genômica ajustada que ocorrem nos cromossomos autossômicos para um valor médio diploide de “2”. O mesmo é verdadeiro para valores de sonda que ocorrem em fêmeas para locus ligados ao X. Para regiões ligadas a X e ligadas a Y em machos normais, os valores médios da cópia são apropriadamente ajustados para “1”. Essa transformação numérica foi aplicada a um conjunto de sondas de controle cromossômicas (239 sondas que direciona locos selecionados em todos os 22 cromossomos autossômicos, Tabela 3), um conjunto de 199 sondas que direcionam o gene AR ligado a X e as 45 sondas específicas de TP53 considerados em detalhes acima (FIG. 27A e 27B). Cada ponto representa o valor de uma sonda individual. Com a exceção de sondas “com ruído” pouco frequentes, a grande maioria das contagens de sondagens individuais em regiões consideradas diploides possuía valores que eram aproximadamente “2”. As sondas para o gene AR em um homem saudável flutuaram com um valor médio próximo ao “1” esperado.Tabela 3: Sondas de Controle Cromossômico [00246] With respect to copy number, the most straightforward treatment of the probe data is to further normalize the adjusted genomic depth values that occur on autosomal chromosomes to a diploid mean value of “2”. The same is true for probe values that occur in females for X-linked loci. For both X-linked and Y-linked regions in normal males, the mean copy values are appropriately adjusted to “1”. This numerical transformation was applied to a set of chromosomal control probes (239 probes targeting selected loci on all 22 autosomal chromosomes, Table 3), a set of 199 probes targeting the X-linked AR gene, and the 45 TP53-specific probes considered in detail above (FIGs. 27A and 27B). Each dot represents the value of an individual probe. With the exception of infrequent “noisy” probes, the vast majority of individual probe counts in regions considered diploid had values that were approximately “2.” Probes for the AR gene in a healthy male fluctuated with a mean value close to the expected “1.” Table 3: Chromosome Control Probes

[00247] Significativamente, quando a mesma análise foi aplicada ao cfDNAcoletado da fração de plasma sanguíneo de um paciente com câncer de próstata resistente à castração usando amostras saudáveis como controles de normalização, três características proeminentes emergiram (FIG. 27C). Primeiro, todas as sondas de controle exibiram comportamento de contagem com ruído. Segundo, as contagens de todas as sondas AR foram significativamente elevadas de um valor normal de “1” para um valor amplificado de aproximadamente “5”. A amplificação do gene AR é consistentemente observada em pacientes com câncer de próstata avançado. Terceiro, as contagens da sonda TP53, enquanto mais fortemente agrupada, possuem um valor médio muito mais próximo de “1” do que o valor esperado de “2”. Isso provavelmente refletiu a inativação de um ou ambos os alelos de TP53 pela perda do número de cópias na fração de DNA circulante derivada do tecido tumoral.Significantly, when the same analysis was applied to cfDNA collected from the blood plasma fraction of a patient with castration-resistant prostate cancer using healthy samples as normalization controls, three prominent features emerged (FIG. 27C). First, all control probes exhibited noisy counting behavior. Second, the counts of all AR probes were significantly elevated from a normal value of “1” to an amplified value of approximately “5.” AR gene amplification is consistently observed in patients with advanced prostate cancer. Third, the counts of the TP53 probe, while more tightly clustered, have a mean value much closer to “1” than the expected value of “2.” This likely reflected inactivation of one or both TP53 alleles by copy number loss in the circulating DNA fraction derived from tumor tissue.

[00248] Estes dados indicaram que os métodos da presente invençãocompreendem três aspectos importantes de cariotipagem. Nomeadamente, os métodos aqui descritos detetam aneuploidia cromossômica generalizada, cópia de aumentos de genes alvo específicos e perdas de cópia nos mesmos genes alvo específicos. Estes resultados indicam ainda que os métodos e plataformas aqui descritos podem orientar o uso de terapias de precisão, uma vez que todas as três anomalias genômicas ocorrem com frequência no câncer.[00248] These data indicated that the methods of the present invention encompass three important aspects of karyotyping. Namely, the methods described herein detect widespread chromosomal aneuploidy, copy increases of specific target genes, and copy losses in the same specific target genes. These results further indicate that the methods and platforms described herein may guide the use of precision therapies, since all three genomic anomalies occur frequently in cancer.

[00249] A aneuploidia cromossômica generalizada para amostras de pacientescom câncer de próstata resistente à castração (pontos azuis) em relação a um controle saudável (pontos marrons) foi medida (FIG. 28). Nesta análise, a ploidia aproximada para todas as 239 sondas de controle usadas no experimento foi ordenada de acordo com seus alvos cromossômicos. Para alguns cromossomos (por exemplo, cromossomo 1 e cromossomo 22), um valor de ploidia similar de “2” foi observado entre as amostras de pacientes e controles. Em outros casos, o desvio entre as duas amostras foi observado. O grau de informação sobre a ploidia genômica global proporcionada por estas experiências foi limitado pelo número e densidade das sondas de controle utilizadas. No entanto, estes dados indicam que pode ser utilizado um painel de sonda mais denso, cobrindo todos os segmentos cromossômicos com densidade uniforme - em conjunto com as características únicas adicionais da presente invenção. Tais análises fornecerão uma resolução mais alta, a medição do número de cópias cromossômicas em todo o genoma.[00249] The generalized chromosomal aneuploidy for samples from patients with castration-resistant prostate cancer (blue dots) relative to a healthy control (brown dots) was measured (FIG. 28). In this analysis, the approximate ploidy for all 239 control probes used in the experiment was ordered according to their chromosomal targets. For some chromosomes (e.g., chromosome 1 and chromosome 22), a similar ploidy value of "2" was observed between the patient and control samples. In other cases, deviation between the two samples was observed. The degree of information about global genomic ploidy provided by these experiments was limited by the number and density of the control probes used. However, these data indicate that a denser probe panel, covering all chromosome segments with uniform density, can be utilized—in conjunction with the additional unique features of the present invention. Such analyses will provide a higher resolution, genome-wide measurement of chromosome copy number.

[00250] Estes dados destacam ainda as capacidades da presente invençãocomo um guia para a terapia de precisão. Por exemplo, os tumores que possuem deficiências genômicas na reparação de recombinação homóloga apresentam frequentemente ploidias cromossômicas altamente desestabilizadas, e os pacientes com tais tumores são bons candidatos para inibidores do complexo enzimático PARP (ver Popova et al., Genome Biol. 2009;10(11):R128). Ao contrário da maioria dos ensaios de sequenciamento que procuram genotipar um tumor, os ensaios aqui descritos utilizam sequenciamento para detectar a ploidia cromossômica desestabilizada como um fenótipo tumoral, mesmo se as mutações causais que conduzem este fenótipo permanecem ocultas da análise dirigida.[00250] These data further highlight the capabilities of the present invention as a guide to precision therapy. For example, tumors that have genomic deficiencies in homologous recombination repair often exhibit highly destabilized chromosome ploidies, and patients with such tumors are good candidates for inhibitors of the PARP enzyme complex (see Popova et al., Genome Biol. 2009;10(11):R128). Unlike most sequencing assays that seek to genotype a tumor, the assays described herein utilize sequencing to detect destabilized chromosome ploidy as a tumor phenotype, even if the causal mutations driving this phenotype remain hidden from targeted analysis.

[00251] A capacidade de detectar a perda de genes no DNA alterado detumores sólidos é especialmente significativa. A mutação e deleção de genes supressores de tumor é um evento frequente nos genomas do câncer; além disso, indivíduos com perda germinativa de genes supressores de tumor são especialmente vulneráveis ao desenvolvimento de câncer mais tarde na vida. O valor diagnóstico de um ensaio de perda de número de cópias de biópsia líquida (CNL) é diretamente proporcional à sua sensibilidade. Para determinar o limite inferior de detecção para a invenção aqui descrita, as linhas imortalizadas descritas no Exemplo 1 foram sistematicamente diluídas na linhagem celular de referência "genoma-em-uma garrafa", NA12878. Uma linha teve uma exclusão de cópia única (perda monoalélica) de ATM, a outra uma exclusão de cópia única de BRCA2. O experimento incluiu quatro amostras de controle de NA12878 puro e oito amostras de ponta contendo 16% de cada linha de deleção monoalélica (FIG. 29). Para fins de relato, isso corresponde a uma frequência alélica menor de 8% de perda bialélica. Valores médios para todas as sondas dirigidas a genes específicos e dois genes de controle adicionais, não eliminados, são mostrados na FIG. 29. A perda de cópia de ATM e BRCA2 foi confinada apenas a amostras de pico. O tratamento computacional adicional dos dados revelou perda segura de cópias de deleções bialélicas até 2% de frequências alélicas menores. Esta sensibilidade indicou que a presente invenção não requeria considerações especializadas para incluir rotineiramente chamadas de perda de cópias em ensaios padrão de genotipagem baseados em sangue.The ability to detect gene loss in the altered DNA of solid tumors is particularly significant. Mutation and deletion of tumor suppressor genes is a frequent event in cancer genomes; furthermore, individuals with germline loss of tumor suppressor genes are particularly vulnerable to developing cancer later in life. The diagnostic value of a liquid biopsy copy number loss (CNL) assay is directly proportional to its sensitivity. To determine the lower limit of detection for the invention described herein, the immortalized lines described in Example 1 were systematically diluted into the "genome-in-a-bottle" reference cell line, NA12878. One line had a single-copy deletion (monoallelic loss) of ATM, the other a single-copy deletion of BRCA2. The experiment included four pure NA12878 control samples and eight spike samples containing 16% of each monoallelic deletion line (FIG. 29). For reporting purposes, this corresponds to a minor allele frequency of 8% biallelic loss. Average values for all gene-specific probes and two additional, non-deleted control genes are shown in FIG. 29. Copy loss of ATM and BRCA2 was confined to peak samples only. Further computational processing of the data revealed reliable copy loss of biallelic deletions up to 2% minor allele frequencies. This sensitivity indicated that the present invention did not require specialized considerations to routinely include copy loss calls in standard blood-based genotyping assays.

[00252] Estes dados demonstram a utilização de dados de captura genômicaespecíficos da sonda para a análise do número de cópias, incluindo o ganho do número de cópias e a perda do número de cópias dos loci genômicos alvo. Adicionalmente, foi demonstrado que a invenção aqui descrita possui a capacidade sensível para detectar variantes, inserções e deleções de nucleotídeo único, variando de nucleotídeos únicos a muitos milhares de pares de bases, e fusões genéticas resultantes do rearranjo cromossômico por processos mutacionais aberrantes. (Ver Publicação PCT WO 2016/028316; e Publicação de Patentes US 2014-0274731). Todos esses processos mutacionais podem contribuir para a transformação do tecido normal em cânceres neoplásicos e, à medida que as terapias de precisão continuam a surgir, o diagnóstico preciso dessas assinaturas genômicas doentes se tornará uma característica cada vez mais indispensável da medicina de precisão.[00252] These data demonstrate the use of probe-specific genomic capture data for copy number analysis, including copy number gain and copy number loss, of targeted genomic loci. Additionally, the invention described herein has been demonstrated to have the sensitive ability to detect single nucleotide variants, insertions, and deletions, ranging from single nucleotides to many thousands of base pairs, and gene fusions resulting from chromosomal rearrangement by aberrant mutational processes. (See PCT Publication WO 2016/028316; and US Patent Publication 2014-0274731). All of these mutational processes can contribute to the transformation of normal tissue into neoplastic cancers, and as precision therapies continue to emerge, accurate diagnosis of these diseased genomic signatures will become an increasingly indispensable feature of precision medicine.

Claims

1. A method for performing a genetic analysis on a target DNA region from a test sample comprising a plurality of genomic DNA fragments, wherein the method comprises: (i) generating a genomic DNA library by contacting the test sample with a set of adapters, wherein each adapter of the set of adapters comprises a sample tag region selected from a set of unique sample tag regions, wherein the set is selected from a plurality of sets, and wherein the selected set is unique to the test sample; wherein the genomic DNA library comprises a plurality of DNA library fragments and at least two unique sample tag regions; wherein each of the DNA library fragments comprises a genomic DNA fragment from the test sample ligated to an adapter; (ii) contacting the genomic DNA library with a plurality of capture probes that specifically bind to the target DNA region, thereby forming complexes between the capture probes and DNA library fragments comprising the target DNA region; and(iii) performing a quantitative genetic analysis of the genomic DNA fragments comprising the target DNA region; wherein the adapter is a DNA polynucleotide comprising: (iv) an amplification region, (v) a sample tag region, (vi) a unique molecule identifier (UMI) multiplier, and (vii) an anchor region; wherein the amplification region comprises a polynucleotide sequence capable of serving as a primer recognition site for PCR amplification; wherein the sample tag region identifies a unique DNA library fragment and identifies the test sample; wherein the UMI multiplier is adjacent to or contained within the sample tag region; wherein the sample tag region and the UMI multiplier create a UMI that represents or identifies the test sample and uniquely identifies the DNA library fragment; and wherein the anchor region comprises a polynucleotide sequence that is capable of binding to the genomic DNA fragment.

2. The method of claim 1, wherein the method identifies a genetic alteration indicative of a disease state selected from a single nucleotide variant (SNV), an insertion less than 40 nucleotides in length, a deletion of a region of DNA less than 40 nucleotides in length, and/or a copy number change.

3. The method of claim 1 or 2, wherein the test sample is a tissue biopsy, optionally wherein the tissue biopsy is taken from a tumor or tissue suspected of being a tumor.

4. The method of any one of claims 1 to 3, wherein the genomic DNA fragments are cell-free DNA (cfDNA) or cellular DNA.

5. Method according to claim 1 or 2, characterized in that the genomic DNA fragments are cfDNA isolated from the test sample; and in which the test sample is a biological sample selected from the group consisting of: amniotic fluid, blood, plasma, serum, semen, lymphatic fluid, cerebrospinal fluid, ocular fluid, urine, saliva, feces, mucus and sweat.

6. Method according to any one of claims 1 to 4, characterized in that the genomic DNA fragments are obtained by the steps comprising (i) isolating cellular DNA from the test sample; (ii) fragmenting the cellular DNA to obtain the genomic DNA fragments.

7. The method of claim 6, wherein step (ii) is performed by contacting the cellular DNA with at least one digestion enzyme or by applying mechanical stress to the cellular DNA, optionally where the mechanical stress is applied by sonicating the cellular DNA.

8. The method of any one of claims 1 to 7, wherein the amplification region is 10 to 50, 20 to 30, or 25 nucleotides in length.

9. The method of any one of claims 1 to 8, wherein the sample tag region is 5 to 50, 5 to 15, or 8 nucleotides in length.

10. The method of any one of claims 1 to 9, wherein the UMI multiplier is 1 to 5 nucleotides in length, or wherein the UMI multiplier is 3 nucleotides in length and comprises one of 64 possible nucleotide sequences.

11. The method of any one of claims 1 to 10, wherein the anchor region is 1 to 50, 5 to 25, or 10 nucleotides in length.

12. The method of any one of claims 1 to 11, wherein step (a) comprises ligating a first adapter to one end of a test sample genomic DNA fragment and ligating a second adapter to the other end of the genomic DNA fragment; optionally wherein the genomic DNA fragment is end-repaired prior to ligating the first and second adapters.

13. The method of any one of claims 1 to 12, wherein the amplification region of each adapter of the adapter set is identical to the amplification region of all other adapters of the adapter set.

14. The method of any one of claims 1 to 13, wherein the set of sample tag regions comprises 2 to 1,000, 50 to 500, 100 to 400, 200 to 300, or 240 single sample tag region sequences.

15. The method of any one of claims 1 to 14, wherein each sample tag region of the set of sample tag regions is 8 nucleotides in length.

16. The method of any one of claims 1 to 15, wherein each single sample tag region sequence is distinct from any other single sample tag region sequence by a Hamming distance of at least two.

17. The method of any one of claims 1 to 16, wherein the anchor region of each adapter of the adapter set comprises one of four sequences, and wherein each sample tag region of a given sequence is paired with only one of the four anchor regions of a given sequence.

18. The method of any one of claims 1 to 17, wherein the amplification region of each adapter of the set of adapters comprises an identical nucleotide sequence; wherein each sample tag region of the set of sample tag regions is 8 nucleotides in length, wherein each unique sample tag region sequence is distinct from any other unique sample tag region sequence by a Hamming distance of at least two, wherein the UMI multiplier of each adapter of the set of adapters is three nucleotides in length, and wherein the UMI multiplier of a given sequence is paired with a sample tag region of a given sequence, wherein the anchor region of each adapter of the set of adapters comprises one of four nucleotide sequences, and wherein each sample tag region of a given sequence is paired with only one of four anchor regions of a given sequence.

19. The method of any one of claims 1 to 18, wherein the step of ligating each of the first and second adapters to the genomic DNA fragment comprises: (i) ligating an oligonucleotide comprising at least a portion of an anchor region to the genomic DNA fragment, wherein the oligonucleotide is part of a DNA duplex comprising a 5' phosphorylated linker strand duplexed with a partner strand, wherein the partner strand is blocked from binding to the genomic DNA fragment by chemical modification at its 3' end, and wherein the linker strand is ligated to the genomic DNA fragment; and(ii) contacting the genomic DNA fragment ligated to the linker strand with a DNA oligonucleotide encoding a full-length adapter sequence, a T4 polynucleotide kinase, a Taq DNA ligase, and a full-length Bst polymerase under conditions suitable for DNA ligation; thereby ligating each of the first and second adapters to the genomic DNA fragment.

20. The method of any one of claims 1 to 19, wherein the target DNA region is analyzed for a change in copy number.

21. Method according to any one of claims 1 to 20, characterized in that step (c) comprises purifying the complexes formed between the capture probes and the DNA library fragments comprising the target DNA region.

22. The method of claim 21, wherein step (c) comprises performing primer extension and/or amplification of DNA library fragments comprising the target DNA region.

23. The method of claim 21 or 22, wherein step (c) comprises sequencing DNA from fragments of the DNA library comprising the target DNA region to generate a plurality of sequencing reads.

24. The method of any one of claims 1 to 23, wherein the genomic analysis comprises determining a copy number change in a DNA region of interest, and wherein step (c) comprises: (i) determining a copy number of the region of interest present in the genomic DNA library derived from the test sample, and (ii) comparing the copy number determined in step (i) with a copy number of the region of interest present in a genomic DNA library derived from a reference sample, wherein the reference sample comprises a known copy number of the target DNA region.

25. The method of claim 24, wherein determining the copy number of the region of interest comprises sequencing DNA from DNA library fragments comprising the target DNA region to generate a plurality of sequencing reads, wherein each sequencing read comprises a unique molecular identification element (UMIE); wherein the UMIE comprises sequencing information of the adapter and at least a portion of the genomic DNA fragment sequence; wherein sequencing reads comprising identical UMIEs are identified as a unique genomic sequence (UGS).

26. The method of claim 24 or 25, further comprising determining a gross genomic depth (RGD) for each of the capture probes contacted with the genomic DNA library.

27. The method of claim 26, wherein determining the RGD comprises determining the average number of UGSs associated with each capture probe sequence within a group of sample replicates; optionally wherein capture probes associated with a highly variable number of UGSs are identified as noisy probes and are removed from further calculations.

28. The method of claim 27, further comprising calculating an RGD for a sample, comprising calculating a numerical average of all RGDs for all capture probes in the sample; optionally wherein RGD values for noisy probes are not included in the calculation of an RGD for a sample.

29. The method of any one of claims 26 to 28, wherein the RGDs for the capture probes are normalized across all samples in an experimental group by converting the RGD for each capture probe to a probe-specific normalized read count comprising: (i) multiplying each capture probe RGD in a sample by a normalization constant, wherein the normalization constant comprises any real number; and (ii) dividing the product of (i) by the RGD calculated for the corresponding sample; or (iii) dividing the product of (i) by an average RGD calculated from a subset of probes; optionally wherein the subset of probes is a set of control probes.

30. The method of claim 29, wherein the probe-specific normalized read counts are converted to a copy number value comprising: (i) multiplying the probe-specific normalized read counts of probes targeting autosomal and/or X-linked regions by 2 in samples derived from females; (ii) multiplying the probe-specific normalized read counts of probes targeting Y-linked and/or X-linked regions by 1 in samples derived from males; (iii) averaging the products of (i) and/or (ii) across all samples in an experiment; and (iv) dividing the product of (i) and/or (ii) by the average of (iii); optionally wherein the approximate copy number values for all probes targeting a particular gene are averaged.