[go: up one dir, main page]

DE69936379T2 - Verfahren zur genotypisierung und dna-analyse - Google Patents

Verfahren zur genotypisierung und dna-analyse Download PDF

Info

Publication number
DE69936379T2
DE69936379T2 DE69936379T DE69936379T DE69936379T2 DE 69936379 T2 DE69936379 T2 DE 69936379T2 DE 69936379 T DE69936379 T DE 69936379T DE 69936379 T DE69936379 T DE 69936379T DE 69936379 T2 DE69936379 T2 DE 69936379T2
Authority
DE
Germany
Prior art keywords
snp
rcg
pcr
genomic
allele
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69936379T
Other languages
English (en)
Other versions
DE69936379D1 (de
Inventor
John E. Marlboro LANDERS
Barbara Cambridge JORDAN
David E. Cambridge HOUSMAN
Alain Cambridge CHAREST
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Massachusetts Institute of Technology
Original Assignee
Massachusetts Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Massachusetts Institute of Technology filed Critical Massachusetts Institute of Technology
Application granted granted Critical
Publication of DE69936379D1 publication Critical patent/DE69936379D1/de
Publication of DE69936379T2 publication Critical patent/DE69936379T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

  • Bereich der Erfindung
  • Die vorliegende Erfindung betrifft Verfahren, die mit dem Genotypisieren assoziiert sind. Insbesondere betrifft die Erfindung Verfahren des Nachweisens von Einzel-Nukleotid-Polymorphismen und von Genomen mit verminderter Komplexität für die Verwendung in Genotypisierungsverfahren sowie verschiedene Verfahren des Genotypisierens, des Fingerprinting und der genomischen Analyse. Die Beschreibung der Erfindung beschreibt auch Produkte und Kits wie Panels („panels") von Einzel-Nukleotid-Polymorphismus-Allel-spezifischen Oligonukleotiden, Genomen mit verminderter Komplexität und Datenbanken für die Verwendung in den Verfahren der Erfindung.
  • Hintergrund der Erfindung
  • Die genomische DNA variiert außer bei identischen Geschwistern signifikant von Individuum zu Individuum. Viele menschliche Krankheiten entstehen aus genomischen Variationen. Die genetische Vielfalt unter Menschen und anderen Lebensformen erklärt die erblichen Variationen, die in der Krankheitsanfälligkeit beobachtet werden. Krankheiten, die aus solchen genetischen Variationen entstehen, schließen die Huntington-Krankheit, zystische Fibrose, Duchenne-Muskeldystrophie und bestimmte Formen von Brustkrebs ein. Jede dieser Krankheiten ist mit einer einzelnen Genmutation assoziiert. Krankheiten wie multiple Sklerose, Diabetes, Parkinson, Alzheimer-Krankheit und Bluthochdruck sind viel komplexer. Diese Krankheiten können aufgrund von polygenetischen (mehrere Gen-Einflüsse) oder multifaktoriellen (mehrere Gen- und Umwelteinflüsse) Ursachen vorliegen. Viele der Variationen im Genom resultieren nicht in einem Krankheitsmerkmal. Wie oben beschrieben, kann jedoch eine einzelne Mutation in einem Krankheitsmerkmal resultieren.
  • Die Fähigkeit, das menschliche Genom zu scannen, um die Lokalisation von Genen zu identifizieren, die der Pathologie solcher Krankheiten zugrunde liegen oder damit assoziiert sind, ist ein enorm schlagkräftiges Mittel in der Medizin und menschlichen Biologie.
  • Einige Typen von Sequenzvariationen, einschließlich Insertionen und Deletionen, Unterschiede in der Zahl der wiederholten Sequenzen und Einzel-Basenpaar-Unterschiede, resultieren in einer genomischen Vielfalt. Einzel-Basenpaar-Unterschiede, als Einzel-Nukleotid-Polymorphismen (SNPs) bezeichnet, sind der häufigste Typ der Variation im menschlichen Genom (sie treten ungefähr 1 in 103 Basen auf). Ein SNP ist eine genomische Position, an der mindestens zwei oder mehrere alternative Nukleotid-Allele in einer relativ hohen Häufigkeit (mehr als 1%) in einer Population auftreten. SNPs sind für das Untersuchen einer Sequenzvariation gut geeignet, da sie relativ stabil sind (d.h. sie zeigen niedrige Mutationsraten) und weil Einzel-Nukleotid-Variationen für vererbte Merkmale verantwortlich sein können.
  • Polymorphismen, die zum Beispiel unter Verwendung einer Mikrosatellitenbasierende Analyse identifiziert wurden, sind für eine Vielzahl von Zwecken verwendet worden. Die Verwendung von genetischen Kopplungsstrategien, um die Lage von einzelnen Mendel-Faktoren zu identifizieren, ist in vielen Fällen erfolgreich gewesen (Benomar et al. (1995), Nat. Genet., 10:84-8; Blanton et al. (1991), Genomics, 11:857-69). Die Identifizierung von chromosomalen Lagen von Tumor-Suppressor-Genen ist im Allgemeinen durch Untersuchung des Verlusts der Heterozygotie in menschlichen Tumoren erreicht worden (Cavenee et al. (1983), Nature, 305:779-784; Collins et al. (1996), Proc. Natl. Acad. Sci. USA, 93:14771-14775; Koufos et al. (1984), Nature, 309:170-172; und Legius et al. (1993), Nat. Genet., 3:122-126). Zusätzlich ist die Verwendung von genetischen Markern, um auf die chromosomale Lage von Genen zu schließen, die zu komplexen Merkmalen wie Typ I-Diabetes (Davis et al. (1994), Nature, 371:130-136; Todd et al. (1995), Proc. Natl. Acad. Sci. USA, 92:8560-8565), beitragen, ein Schwerpunkt der Forschung in der menschlichen Genetik geworden.
  • Obwohl ein wesentlicher Fortschritt im Identifizieren der genetischen Basis von vielen menschlichen Krankheiten gemacht worden ist, werden derzeitige Methodiken, die verwendet werden, um diese Information zu entwickeln, durch unerschwingliche Kosten und die ausgedehnte Menge der erforderlichen Arbeit, um eine Genotyp-Information aus großen Probenpopulationen zu erhalten, limitiert. Diese Einschränkungen machen die Identifizierung von komplexen Genmutationen, die zu Störungen wie Diabetes beitragen, extrem schwierig. Techniken für das Scannen des menschlichen Genoms, um die Lage von Genen zu identifizieren, die in Krankheitsvorgänge involviert sind, begannen in den frühen 1980ern mit der Verwendung der Restriktionsfragment-Längenpolymorphismus (RFLP)-Analyse (Botstein et al. (1980), Am. J. Hum. Genet., 32:314-31; Nakamura et al. (1987), Science, 235:1616-22). Die RFLP-Analyse involviert das Southern-Blotverfahren und andere Techniken. Das Southern-Blotverfahren ist sowohl teuer als auch zeitaufwändig, wenn es an großen Zahlen von Proben wie jenen durchgeführt wird, die benötigt werden, um einen komplexen Genotyp zu identifizieren, der mit einem bestimmten Phänotyp assoziiert ist. Einige dieser Probleme wurden mit der Entwicklung der auf Polymerase-Kettenreaktion (PCR)-basierenden Mikrosatellitenmarker-Analyse vermieden. Mikrosatellitenmarker sind einfache Sequenz-Längenpolymorphismen (SSLPs), die aus Di-, Tri- und Tetra-Nukleotidwiederholungen bestehen.
  • Andere Typen der genomischen Analyse basieren auf der Verwendung von Markern, die mit hypervariablen Regionen der DNA hybridisieren, die eine multiallelische Variation und eine hohe Heterozygotie haben. Die variablen. Regionen, die für das Fingerprinting der genomischen DNA nützlich sind, sind Tandem-Wiederholungen einer kurzen Sequenz, die als Mini-Satellit bezeichnet wird. Der Polymorphismus beruht auf allelischen Unterschieden in der Zahl der Wiederholungen, die als ein Ergebnis von mitotischen oder meiotischen ungleichen Austauschen oder durch DNA-Rutschen („slippage") während der Replikation entstehen können.
  • Das am häufigsten verwendete Verfahren zum Genotypisieren involviert Weber-Marker, die reichlich vorhandene, eingestreute repetitive DNA-Sequenzen sind, im Allgemeinen in der Form von (dC-dA)n (dG-dT)n. Weber-Marker zeigen einen Längenpolymorphismus und sind daher für das Identifizieren von Individuen im Vaterschafts- und forensischen Testen sowie für das Kartieren von Genen, die in genetische Krankheiten involviert sind, nützlich. Im Weber-Verfahren der Genotypisierung werden im Allgemeinen 400 Weber- oder Mikrosatelliten-Marker verwendet, um jedes Genom unter Verwendung der PCR zu scannen. Unter Verwendung dieser Verfahren werden, wenn 5000 individuelle Genome gescannt werden, 2 Millionen PCR-Reaktionen durchgeführt (5000 Genome × 400 Marker). Die Zahl der PCR-Reaktionen kann durch Multiplexierung reduziert werden, in der zum Beispiel vier verschiedene Sätze von Primer gleichzeitig in einer einzelnen PCR zur Reaktion kommen, wodurch die Gesamtzahl der PCR für das bereitgestellte Beispiel auf 500 000 reduziert wird. Die 500 000 PCR-Gemische werden durch Polyacrylamid-Gelelektrophorese (PAGE) aufgetrennt. Wenn die Proben auf einem 96-Bahnen-Gel laufen, müssen 5200 Gele gefahren werden, um alle 500 000 PCR-Reaktionsgemische zu analysieren. Die PCR-Produkte können durch ihre Position auf den Gelen identifiziert werden, und die Unterschiede in der Länge der Produkte können durch Analysieren der Gele bestimmt werden. Ein Problem mit diesem Typ der Analyse ist, dass er dazu tendiert, dass ein „Gestotter" auftritt, was ein verschmiertes Ergebnis bewirkt und es schwer macht, die Daten zu interpretieren und zu bewerten.
  • Neuere Fortschritte im Genotypisieren basieren auf automatisierten Technologien, die DNA-Chips wie das Affymetrix HuSNP ChipTM-Analysesystem ausnutzen. Der HuSNP ChipTM ist ein Wegwert- bzw. eine Wegwert-Anordnung von DNA-Molekülen auf einem Chip (400 000 pro Träger vom einem halben Zoll im Quadrat). Die einzelsträngigen DNA-Moleküle, die an den Träger gebunden sind, sind in einem geordneten Array von Molekülen, die bekannte Sequenzen aufweisen, vorhanden, wobei manche derselben komplementär zu einem Allel eines SNP-enthaltenden Teils eines Genoms sind. Wenn dieselbe Genomuntersuchung von 5000 Individuen, die oben beschrieben ist, unter Verwendung des Affymetrix HuSNP ChipTM-Analysesystems durchgeführt wird, würden ungefähr 5000 Genchips, die 1000 oder mehr SNPs pro Chip haben, benötigt werden. Vor dem Scannen des Chips würden die genomischen DNA-Proben durch PCR in einer ähnlichen Weise wie beim konventionellen Mikrosatelliten-Genotypisieren amplifiziert werden. Das Gen-Chip-Verfahren ist auch teuer und zeitaufwändig.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung betrifft Verfahren zum Identifizieren von Punkten von genetischer Vielfalt in Genomen eines breiten Spektrums von Tierarten, wie in den angefügten Ansprüchen gezeigt. Insbesondere betrifft die Erfindung ein Hochleistungsverfahren der Genotypisierung von SNPs in einem Genom (z.B. einem menschlichen Genom) unter Verwendung von Genomen mit verminderter Komplexität (RCGs) und in manchen beispielhaften Ausführungsformen unter Verwendung von SNP-Allel-spezifischen Oligonukleotiden (SNP-ASO) und spezifischen Hybridisierungsreaktionen, die zum Beispiel auf einer Oberfläche durchgeführt werden. Das Verfahren des Genotypisierens wird in manchen Aspekten der Erfindung durch Scannen eines RCG auf das Vorhandensein oder Nicht-Vorhandensein eines SNP-Allels erreicht. Unter Verwendung dieses Verfahrens können Zehntausende von Genomen von einer Spezies gleichzeitig auf das Vorhandensein oder Nicht-Vorhandensein von jedem Allel eines SNP getestet werden. Die Verfahren können automatisiert werden, und die Ergebnisse können unter Verwendung eines Mikroarray-Scanners oder von anderen Nachweis/Aufzeichnungs-Instrumenten aufgezeichnet werden.
  • Die Erfindung umspannt einige Verbesserungen gegenüber Verfahren des Stands der Technik. Zum Beispiel kann ein Genom-weites Scannen von Tausenden von Individuen zu einem Bruchteil der Kosten und Zeit durchgeführt werden, die durch viele Genotypisierungsverfahren im Stand der Technik benötigt werden.
  • In einem Aspekt ist die Erfindung ein Verfahren zum Nachweis des Vorliegens eines SNP-Allels in einer genomischen Probe. In einem Aspekt schließt das Verfahren das Herstellen eines RCG aus einer genomischen Probe und Analysieren des RCG auf das Vorliegen des SNP-Allels ein. In manchen Aspekten wird die Analyse unter Verwendung einer Hybridisierungsreaktion durchgeführt, die ein SNP-Allel-spezifisches Oligonukleotid (SNP-ASO) involviert, das komplementär zu einem bestimmten Allel des SNP und dem RCG ist. Wenn das Allel des SNP in der genomischen Probe vorhanden ist, dann hybridisiert das SNP-ASO mit dem RCG.
  • In manchen Aspekten ist das Verfahren ein Verfahren zum Bestimmen eines Genotyps eines Genoms, wodurch der Genotyp durch das Vorhandensein oder Nicht-Vorhandensein von Allelen des SNP im RCG identifiziert wird. In anderen Aspekten ist das Verfahren ein Verfahren zum Charakterisieren eines Tumors, in dem das RCG von einem Genom isoliert wird, das von einem Tumor eines Individiuums erhalten wird, und in dem der Tumor durch das Vorhandensein oder Nicht-Vorhandensein eines Allels des SNP im RCG charakterisiert wird.
  • In anderen Aspekten ist das Verfahren ein Verfahren zum Bestimmen der Allelfrequenz für einen SNP und umfasst weiterhin das Bestimmen der Zahl von beliebig ausgewählten Genomen aus einer Population, die jedes Allel des SNP einschließt, um die Allelfrequenz des SNP in der Population zu bestimmen.
  • In manchen Ausführungsformen wird die Hybridisierungsreaktion auf einer Oberfläche ausgeführt, und das RCG oder das SNP-ASO wird auf der Oberfläche immobilisiert. In noch anderen Ausführungsformen wird das SNP-ASO mit einer Vielzahl von RCG in individuellen Reaktionen hybridisiert.
  • In anderen Aspekten schließt das Verfahren das Durchführen einer Hybridisierungsreaktion, die ein RCG und eine Oberfläche involviert, die ein SNP-ASO darauf immobilisiert hat, das Wiederholen der Hybridisierung mit einer Vielzahl von RCG von der Vielzahl von Genomen und Bestimmen des Genotyps, basierend darauf, ob das SNP-ASO mit mindestes einigen der RCG hybridisiert, ein.
  • Das RCG kann ein PCR-abstammendes RCG sein. Die Beschreibung bezieht sich jedoch auch auf ein natürliches RCG. In manchen Ausführungsformen wird das RCG durch Durchführen einer degenerierten Oligonukleotid-Priming-PCR (DOP-PCR) unter Verwendung eines degenerierten Oligonukleotid-Primers hergestellt, der eine Tag-(N)x-TARGET-Nukleotidsequenz hat, worin die TARGET-Nukleotidsequenz mindestens 7 TARGET-Nukleotide einschließt und worin x eine ganzen Zahl von 0 bis 9 ist und worin N irgendein Nukleotid ist. In verschiedenen Ausführungsformen schließt die TARGET-Nukleotidsequenz 8, 9, 10, 11 oder 12 Nukleotidreste ein. In anderen Ausführungsformen ist x eine ganzen Zahl von 3 bis 9 (z.B. 6, 7, 8 oder 9). Vorzugsweise wird das Verfahren der Genotypisierung durchgeführt, um Genotypen an mehr als einem Locus zu bestimmen. In anderen Ausführungsformen wird das RCG durch Durchführen einer DOP-PCR unter Verwendung eines degenerierten Oligonukleotid-Primers durchgeführt, der eine Tag-(N)x-TARGET-Nukleotidsequenz hat, worin die TARGET-Nukleotidsequenz weniger als 7 TARGET-Nukleotidreste einschließt und worin x eine ganzen Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist.
  • Die Verfahren können auf einer Unterlage durchgeführt werden. Vorzugsweise ist die Unterlage eine feste Unterlage wie ein Glasträger, eine Membran wie eine Nitrocellulosemembran usw.
  • In noch anderen Ausführungsformen wird das RCG durch eingestreute Wiederholungssequenz-PCR (IRS-PCR), zufällig geprimte PCR (AP-PCR), Adapter-PCR oder mehrfach geprimte DOP-PCR hergestellt. In manchen Aspekten der Erfindung schließt das PCR-hergestellte RCG spezifisch RCG aus, die durch IRS-PCR hergestellt werden.
  • In einer bevorzugten Ausführungsform sind die Verfahren nützlich für das Bestimmen eines Genotyps, der mit einem spezifischen Phänotyp assoziiert oder verknüpft ist, und die unterschiedlichen, isolierten Genome oder RCG sind mit einem gemeinsamen Phänotyp assoziiert.
  • Die SNP-ASO, die gemäß den Verfahren der Erfindung verwendet werden, sind Polynucleotide, die ein Allel von zwei möglichen Nukleotiden an der polymorphen Stelle einschließen. In einer Ausführungsform ist das SNP-ASO aus etwa 10 bis 50 Nukleotiden zusammengesetzt. In einer bevorzugten Ausführungsform ist das SNP-ASO aus etwa 10 bis 25 Nukleotiden zusammengesetzt.
  • Gemäß einer Ausführungsform ist das SNP-ASO markiert. Die Verfahren können optionell auch eine Zugabe eines Überschusses von nicht-markiertem SNP-ASO einschließen, in dem der polymorphe Nukleotidrest einem anderen Allel des SNP entspricht und der während des Hybridisierungsschritts zugefügt wird. Zusätzlich kann eine parallele Reaktion durchgeführt werden, in der das Markieren der zwei SNP-ASO umgekehrt wird. Die Markierung auf dem SNP-ASO in einer Ausführungsform ist ein radioaktives Isotop. In dieser Ausführungsform können die markierten, hybridisierten Produkte auf der Oberfläche einem Röntgenfilm exponiert werden, um ein Signal auf dem Film zu produzieren, das den radioaktiv markierten Hybridisierungsprodukten entspricht. In einer anderen Ausführungsform wird das SNP-ASO mit einem fluoreszierenden Molekül markiert. In dieser Ausführungsform können die markierten hybridisierten Produkte auf der Oberfläche einem automatisierten Fluoreszenzaufzeichnungsgerät exponiert werden, um ein Ausgabesignal zu erzeugen, das den fluoreszierenden markierten Hybridisierungsprodukten entspricht.
  • Gemäß einer Ausführungsform ist das RCG markiert. Die Markierung auf dem RCG in einer Ausführungsform ist ein radioaktives Isotop. In dieser Ausführungsform können die markierten hybridisierten Produkte auf der Oberfläche einem Röntgenfilm exponiert werden, um ein Signal auf dem Film zu produzieren, das den radioaktiv markierten Hybridisierungsprodukten entspricht. In einer anderen Ausführungsform ist das RCG mit einem fluoreszierenden Molekül markiert. In dieser Ausführungsform können die markierten hybridisierten Produkte auf der Oberfläche einem automatisierten Fluoreszenzaufzeichnungsgerät exponiert werden, um ein Ausgabesignal zu erzeugen, das den fluoreszierend markierten Hybridisierungsprodukten entspricht.
  • In einer Ausführungsform ist eine Vielzahl von verschiedenen SNP-ASO an die Oberfläche angeheftet. In einer anderen Ausführungsform schließt die Vielzahl mindestens 500 verschiedene SNP-ASO ein. In noch einer anderen Ausführungsform schließt die Vielzahl mindestens 1000 ein.
  • In einer anderen Ausführungsform wird eine Vielzahl von SNP-ASO mit fluoreszierenden Molekülen markiert, wobei jedes SNP-ASO mit einem spektralverschiedenen fluoreszierenden Molekül markiert wird. In verschiedenen Ausführungsformen ist die Zahl der spektral unterschiedlichen fluoreszierenden Moleküle zwei, drei, vier, fünf, sechs, sieben oder acht.
  • In noch einer anderen Ausführungsform wird die Vielzahl der RCG mit fluoreszierenden Molekülen markiert, wobei jedes RCG mit einem spektral unterschiedlichen fluoreszierenden Molekül markiert wird. Alle RCG, die ein spektral unterschiedliches fluoreszierendes Molekül haben, können mit einer einzigen Unterlage hybridisiert werden. In verschiedenen Ausführungsformen ist die Zahl der spektral unterschiedlichen fluoreszierenden Moleküle zwei, drei, vier, fünf, sechs, sieben oder acht.
  • Gemäß anderen Aspekten umspannt die Erfindung Verfahren zum Charakterisieren eines Tumors durch Bewerten des Verlustes der Heterozygotie, Bestimmen der Allelfrequenz für einen SNP, Herstellen eines genomischen Musters für ein individuelles Genom und Herstellen eines genomischen Klassifizierungscodes für ein Genom.
  • In einem Aspekt schließt das Verfahren für das Charakterisieren eines Tumors das Isolieren der genomischen DNA von Tumorproben, die von einer Vielzahl von Individuen erhalten werden, das Herstellen einer Vielzahl von RCG von der genomischen DNA, Durchführen einer Hybridisierungsreaktion, die ein SNP-ASO und die Vielzahl von RCG (z.B. immobilisiert auf einer Oberfläche) involviert, und Identifizieren des Vorliegens eines SNP-Allels in der genomischen DNA ein, basierend darauf, ob das SNP-ASO mit mindestens einigen der RCG hybridisiert, um den Tumor zu charakterisieren. Ein oder mehrere RCG oder ein oder mehrere der SNP-ASO können auf einer Oberfläche immobilisiert werden.
  • In einem anderen Aspekt ist die Erfindung ein Verfahren, das ein genomisches Muster für ein individuelles Genom herstellt. Das Verfahren schließt in einem Aspekt das Herstellen einer Vielzahl von RCG, Analysieren der RCG auf das Vorliegen von einem oder mehreren SNP-Allelen und Identifizieren eines genomischen Musters von SNP für jedes RCG durch Bestimmen des Vorhandenseins oder Nicht-Vorhandenseins von SNP-Allelen darin ein. In manchen Ausführungsformen involviert die Analyse das Durchführen einer Hybridisierungsreaktion, die ein Panel von SNP-ASO (z.B. solchen, wo jedes komplementär zu einem Allel eines SNP ist) und die Vielzahl von RCG involviert. Das genomische Muster kann durch Bestimmen des Vorhandenseins oder Nicht-Vorhandenseins eines SNP-Allels für jedes RCG durch Nachweisen, ob die SNP-ASO mit den RCGs hybridisieren, identifiziert werden. In einer Ausführungsform wird eine Vielzahl von SNP-ASO mit der Unterlage hybridisiert, und jedes SNP-ASO des Panels wird mit einer anderen Unterlage als das andere SNP-ASO hybridisiert.
  • In manchen Ausführungsformen ist das genomische Muster ein genomischer Klassifizierungscode, der aus dem Muster der SNP-Allele für jedes RCG hergestellt wird. In anderen Ausführungsformen wird der genomische Klassifizierungscode auch aus der Allelfrequenz der SNP hergestellt. In noch anderen Ausführungsformen ist das genomische Muster ein visuelles Muster. Das genomische Muster kann in physikalischer oder elektronischer Form vorliegen.
  • In einem anderen Aspekt schließt die Erfindung ein Verfahren für das Herstellen eines genomischen Musters für ein individuelles Genom ein. Das Verfahren schließt das Identifizieren eines genomischen Musters von SNP-Allelen für jedes RCG durch Bestimmen des Vorhandenseins oder Nicht-Vorhandenseins der ausgewählten SNP-Allele darin ein.
  • Ein Verfahren zum Herstellen eines genomischen Klassifizierungscodes für ein Genom wird in einem anderen Aspekt der Erfindung geliefert. Das Verfahren schließt das Herstellen eines RCG, Analysieren des RCG auf das Vorliegen von einem oder mehreren SNP-Allelen (z.B. solchen von bekannter Allelfrequenz), Identifizieren eines genomischen Musters der SNP-Allele für das RCG durch Bestimmen des Vorhandenseins oder Nicht-Vorhandenseins von SNP-Allelen darin und Herstellen eines genomischen Klassifizierungscodes für das RCG ein, basierend auf dem Vorhandensein oder Nicht-Vorhandensein (und optionell der Allelfrequenz) der SNP-Allele. In manchen Ausführungsformen involviert die Analyse das Durchführen einer Hybridisierungsreaktion, die das RCG und ein Feld von SNP-ASO (die z.B. korrespondierend zu SNP-Allelen von bekannter Allelfrequenz entsprechen) involviert, wobei jedes davon zu einem Allel eines SNP komplementär ist. Das genomische Muster wird basierend darauf identifiziert, ob jedes SNP-ASO mit dem RCG hybridisiert.
  • Das Verfahren zum Bestimmen der Allelfrequenz für ein SNP schließt in einem anderen Aspekt das Herstellen einer Vielzahl von RCG von verschiedenen, isolierten Genomen, Durchführen einer Hybridisierungsreaktion, die ein RCG und eine Oberfläche involviert, die ein SNP-ASO darauf immobilisiert hat, Wiederholen der Hybridisierung mit jedem der Vielzahl von RCG und Bestimmen der Zahl der RCG ein, die jedes Allel des SNP einschließen, um die Allelfrequenz des SNP zu bestimmen. In anderen Ausführungsformen werden die RCG auf der Oberfläche immobilisiert.
  • In einem anderen Aspekt schließt das Verfahren zum Herstellen eines genomischen Musters für ein individuelles Genom das Herstellen einer Vielzahl von RCG, Durchführen einer Hybridisierungsreaktion, die ein RCG und eine Oberfläche involviert, die ein SNP-ASO darauf immobilisiert hat, Wiederholen des Hybridisierungsschritts mit jedem der Vielzahl von RCG und Identifizieren eines genomischen Musters von SNP für jedes RCG durch Bestimmen des Vorliegens von SNP darin ein, basierend darauf, ob jedes SNP-ASO mit jedem RCG hybridisiert.
  • Das Verfahren zum Herstellen eines genomischen Klassifizierungscodes für ein Genom schließt in einem anderen Aspekt das Herstellen eines RCGs, Durchführen einer Hybridisierungsreaktion, die ein RCG und ein Panel von SNP-ASO (z.B. immobilisiert auf einer Oberfläche) involviert, Identifizieren eines genomischen Musters von SNP für das RCG durch Bestimmen des Vorliegens von SNP darin, basierend darauf, ob jedes SNP-ASO mit dem RCG hybridisiert, und Herstellen eines genomischen Klassifizierungscodes für das RCG ein, basierend auf den Identitäten der SNP, die mit dem RCG hybridisieren, den Identitäten der SNP, die nicht mit dem RCG hybridisieren, und optionell auch basierend auf der Allelfrequenz der SNP. In einer Ausführungsform wird jedes SNP-ASO des Panels auf einer getrennten Oberfläche immobilisiert. In einer anderen Ausführungsform wird mehr als ein SNP-ASO des Panels auf derselben Oberfläche immobilisiert, wobei jedes SNP-ASO auf einem unterschiedlichen Gebiet der Oberfläche immobilisiert wird.
  • In einer Ausführungsform wird der genomische Klassifizierungscode als ein oder mehrere Computer-lesbare Signale auf einem Computer-lesbaren Medium codiert.
  • Die Beschreibung der vorliegenden Erfindung beschreibt auch Zusammensetzungen. Die Zusammensetzung ist eine Vielzahl von RCGs, die auf einer Oberfläche immobilisiert sind, worin die RCGs durch ein Verfahren hergestellt werden, das den Schritt des Durchführens der DOP-PCR unter Verwendung eines DOP-Primers, der eine Tag-(N)x-TARGET-Nukleotidsequenz hat, einschließt, wobei die TARGET-Nukleotidsequenz mindestens 7 Nukleotidreste einschließt, wobei x eine ganze Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist. Die TARGET-Nukleotidsequenz kann 8, 9, 10, 11 oder 12 Nukleotidreste einschließen, und x ist eine ganze Zahl von 3 bis 9 (z.B. 6, 7, 8 oder 9).
  • Die Zusammensetzung ist ein Panel von SNP-ASOs, die auf einer Oberfläche immobilisiert sind, worin die SNPs durch ein Verfahren identifiziert werden, das das Herstellen eines Satzes von Primern von einem RCG, Durchführen einer PCR unter Verwendung des Satzes von Primern an einer Vielzahl von isolierten Genomen, um DNA-Produkte zu ergeben, Isolieren und optionell Sequenzieren der DNA-Produkte und Identifizieren eines SNPs, basierend auf den Sequenzen der PCR-Produkte, einschließt. Die Vielzahl der isolierten Genome schließt mindestens vier isolierte Genome ein.
  • Die Beschreibung der vorliegenden Erfindung beschreibt auch einen Kit. Der Kit schließt einen Behälter, der einen Satz von PCR-Primern für das Vermindern der Komplexität eines Genoms beherbergt, und einen Behälter, der einen Satz von SNP-ASOs beherbergt, ein. Die SNPs, die den SNP-ASO des Kits entsprechen, sind z.B. in einem RCG vorhanden, das unter Verwendung der PCR-Primer des Kits mit einer Häufigkeit von mindestens 50% hergestellt wird.
  • Der Satz von PCR-Primern sind Primer für die DOP-PCR. Vorzugsweise hat der degenerierte Oligonukleotid-Primer eine Tag-(N)x-TARGET-Nukleotidsequenz, worin die TARGET-Nukleotidsequenz mindestens 7 Nukleotidreste einschließen kann, worin x eine ganze Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist. Die TARGET-Nukleotidsequenz kann 8, 9, 10, 11 oder 12 Nukleotidreste einschließen, und x eine ganze Zahl von 3 bis 9 ist (z.B. 6, 7, 8 oder 9).
  • In noch anderen Ausführungsformen wird das RCG durch IRS-PCR, AP-PCR oder Adapter-PCR hergestellt.
  • Die SNP-ASOs der Erfindung sind Polynukleotide, die eines der alternativen Nukleotide an einem polymorphen Nukleotidrest eines SNPs einschließen. In einer Ausführungsform ist das SNP-ASO aus etwa 10 bis 50 Nukleotidresten zusammengesetzt. In einer bevorzugten Ausführungsform ist das SNP-ASO aus etwa 10 bis 25 Nukleotidresten zusammengesetzt. In einer anderen Ausführungsform sind die SNP-ASOs mit einem fluoreszierenden Molekül markiert.
  • Die Zusammensetzung, die in der Beschreibung der vorliegenden Erfindung beschrieben wird, schließt eine Vielzahl von RCGs, die auf einer Oberfläche immobilisiert sind, ein, worin die RCGs aus einer Vielzahl von DNA-Fragmenten zusammengesetzt sind, wobei jedes DNA-Fragment ein Tag-(N)x-TARGET-Nukleotid einschließt, worin die TARGET-Nukleotidsequenz in allen DNA-Fragmenten eines jeden RCGs identisch ist, worin die TARGET-Nukleotidsequenz mindestens 7 Nukleotidreste einschließt, worin x eine ganze Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist. Die TARGET-Nukleotidsequenz kann 8, 9, 10, 11 oder 12 Nukleotidreste einschließen, x ist eine ganze Zahl von 3 bis 9 (z.B. 6, 7, 8 oder 9).
  • In einem Aspekt ist die Erfindung ein Verfahren zum Identifizieren eines SNPs. Das Verfahren schließt das Herstellen eines Satzes von Primern von einem RCG, worin das RCG aus einem ersten Satz von PCR-Produkten zusammengesetzt ist, PCR-Amplifizieren einer Vielzahl von isolierten Genomen unter Verwendung des Satzes von Primern, um einen zweiten Satz von PCR-Produkten zu ergeben, Isolieren und optionell Sequenzieren der PCR-Produkte und Identifizieren eines SNPs ein, basierend auf den Sequenzen von einem Satz oder beiden Sätzen von PCR-Produkten. In einer Ausführungsform ist die Vielzahl von isolierten Genomen ein Pool von Genomen. Vorzugsweise sind die isolierten Genome RCGs. RCGs können auf eine Vielfalt von Wegen hergestellt werden, aber es wird in manchen Aspekten bevorzugt, dass das RCG durch DOP-PCR hergestellt wird.
  • In einer Ausführungsform wird das Verfahren des Herstellens des Satzes von Primern mindestens durch: Herstellen eines RCGs, Separieren des ersten Satzes von PCR-Produkten in individuelle PCR-Produkte, Bestimmen der Nukleotidsequenz von jedem Ende von mindestens einem der PCR-Produkte und Herstellen von Primern für die Verwendung im folgenden PCR-Schritt, basierend auf der Sequenz der Enden des PCR-Produkts (der PCR-Produkte), hergestellt.
  • Der Satz von PCR-Produkten kann durch jedes Mittel aufgetrennt werden, das auf dem Fachgebiet für das Auftrennen von Polynukleotiden bekannt ist. In einer bevorzugten Ausführungsform wird der Satz von PCR-Produkten durch Gelelektrophorese aufgetrennt. Vorzugsweise werden eine oder mehrere Genbanken von Segmenten des Gels hergestellt, das einige PCR-Produkte enthält, und Clone werden aus der Genbank isoliert, wobei jeder Clon ein PCR-Produkt von der Genbank einschließt. In anderen Ausführungsformen wird der Satz von PCR-Produkten durch Hochdruck-Flüssigchromatographie oder Säulenchromatographie aufgetrennt.
  • Das RCG, das verwendet wird, um Primer oder PCR-Produkte für das Identifizieren von SNPs herzustellen, kann durch PCR-Verfahren hergestellt werden. Vorzugsweise wird das RCG durch Durchführen einer DOP-PCR unter Verwendung eines degenerierten Oligonukleotid-Primers, der eine Tag-(N)x-TARGET-Nukleotidsequenz hat, hergestellt, worin die TARGET-Nukleotidsequenz mindestens 7 TARGET-Nukleotidreste einschließt, worin x eine ganze Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist. In verschiedenen Ausführungsformen schließt die TARGET-Nukleotidsequenz 8, 9, 10, 11 oder 12 Nukleotidreste ein. In anderen Ausführungsformen ist x eine ganze Zahl von 3-9 (z.B. 6, 7, 8 oder 9). in anderen Ausführungsformen wird das RCG durch Durchführen einer DOP-PCR unter Verwendung eines degenerierten Oligonukleotid-Primers, der eine Tag-(N)x-TARGET-Nukleotidsequenz hat, hergestellt, worin die TARGET-Nukleotidsequenz weniger als 7 TARGET-Nukleotidreste einschließt, worin x eine Ganzzahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist.
  • In noch anderen Ausführungsformen wird das RCG durch IRS-PCR, AP-PCR oder Adapter-PCR hergestellt.
  • In einer bevorzugten Ausführungsform der Erfindung ist der Satz von Primern aus einer Vielzahl von Polynukleotiden zusammengesetzt, wobei jedes Polynukleotid eine Tag-(N)x-TARGET-Nukleotidsequenz einschließt, worin TARGET in jedem Polynukleotid in dem Satz von Primern dieselbe Sequenz ist. Die Sequenz von (N)x ist in jedem Primer innerhalb eines Satzes von Primern verschieden. In manchen Ausführungsformen schließt der Satz von Primern mindestens 43, 44, 45, 46, 47, 48 oder 49 verschiedene Primer im Satz ein.
  • Die Beschreibung der vorliegenden Erfindung beschreibt ein Verfahren zum Herstellen eines RCGs unter Verwendung der DOP-PCR. Das Verfahren schließt den Schritt des Durchführens einer degenerierten DOP-PCR unter Verwendung eines degenerierten Oligonukleotid-Primers ein, der eine (N)x-TARGET-Nukieotidsequenz hat, worin die TARGET-Nukleotidsequenz mindestens 7 TARGET-Nukleotidreste einschließt und worin x eine ganze Zahl von 0 bis 9 ist und worin N irgendein Nukleotidrest ist. Die TARGET-Nukleotidsequenz kann 8, 9, 10, 11 oder 12 Nukleotidreste einschließen, und x ist eine ganze Zahl von 3 bis 9 (z.B. 6, 7, 8 oder 9).
  • Der Tag kann 6 Nukleotidreste einschließen. Vorzugsweise wird das RCG in einer Genotypisierungs-Vorgehensweise verwendet. Das RCG wird analysiert, um einen Polymorphismus nachzuweisen. Der Analyseschritt kann unter Verwendung der Massenspektroskopie durchgeführt werden.
  • In einem anderen Aspekt ist die Erfindung ein Verfahren zum Bewerten, ob ein Individuum ein Risiko für das Entwickeln einer Krankheit aufweist. Das Verfahren schließt die Schritte des Verwendens der Verfahren der Erfindung, um ein Vielzahl von SNPs zu identifizieren, die in mindestens zum Beispiel 10% der Genome auftreten, die von Individuen erhalten wurden, die von der Krankheit befallen sind, und Bestimmen, ob ein oder mehrere jener SNPs in dem Individuum auftreten, ein. In dem Verfahren werden die betroffenen Individuen mit den nicht betroffenen Individuen verglichen. Alleine aus der Beobachtung, dass es einen Unterschied zwischen betroffenen und nicht-betroffenen Individuen gibt, kann eine wichtige Information erzeugt werden.
  • In anderen Aspekten ist die Erfindung ein Verfahren zum Identifizieren eines Satzes von einem oder mehreren SNPs, die mit einer Krankheit oder einem Krankheitsrisiko assoziiert sind. Das Verfahren schließt die Schritte des Herstellens von individuellen RCGs, die von Individuen erhalten wurden, die von einer Krankheit betroffen sind, unter Verwendung desselben Satzes von Primern, um jedes RCG herzustellen, und Vergleichen der SNP-Allelfrequenz, die in jenen RCGs identifiziert wurden, mit derselben genetischen SNP-Allelsequenz in normalen (d.h. nicht betroffenen) Individiuen ein, um einen SNP zu identifizieren, der mit der Krankheit assoziiert ist. In anderen Aspekten ist die Erfindung ein Verfahren zum Identifizieren eines Satzes von SNPs, die zufällig durch das Genom verteilt sind. Der Satz von SNPs wird als ein Panel von genetischen Markern verwendet, um ein Genom-weites Scannen für eine Kopplungsanalyse durchzuführen.
  • Ein Computer-lesbares Medium, das Computer-lesbare Signale darauf gespeichert hat, wird bereitgestellt und auch in der Beschreibung der vorliegenden Erfindung beschrieben. Die Signale definieren eine Datenstruktur von einer oder mehreren Datenkomponenten. Jede Datenkomponente schließt ein erstes Datenelement, das einen genomischen Klassifizierungscode definiert, der ein entsprechendes Genom identifiziert, ein. Jeder genomische Klassifizierungscode klassifiziert das entsprechende Genom basierend auf einem oder mehreren Einzel-Nukleotid-Polymorphismen (Polymorphismus) des entsprechenden Genoms.
  • Der genomische Klassifizierungscode kann ein einzigartiger Identifizierer des entsprechenden Genoms sein.
  • Darüber hinaus kann der genomische Klassifizierungscode auf einem Muster der Einzel-Nukleotid-Polymorphismen des entsprechenden Genoms basieren, wo das Muster auf das Vorhandensein oder Nicht-Vorhandensein eines jeden Einzel-Nukleotid-Polymorphismus hinweist.
  • Darüber hinaus kann jede Datenkomponente auch ein oder mehrere Datenelement(e) einschließen, wobei jedes Datenelement eine Eigenschaft des entsprechenden Genoms definiert.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein schematisches Flussdiagramm, das ein Verfahren gemäß der Erfindung zum Identifizieren von SNPs darstellt.
  • 2 zeigt Daten, die den Vorgang des Identifizierens eines SNPs darstellen: (a) stellt ein Gel dar, in dem genomische Inter-Alu-PCR-DNA-Produkte, die vom 8C-Primer (der die Nukleotidsequenz SEQ ID NO:3 hat) hergestellt wurden, aufgetrennt wurden; (b) stellt ein Gel dar, in dem Insertionen von den Genbank-Clonen aufgetrennt wurden; und (c) stellt einen Filter dar, der zwei positive oder passende Clone hat.
  • 3 stellt die Ergebnisse eines Genotypisierungs- und Kartierungsexperiments dar: (a) stellt Hybridisierungsergebnisse dar, die unter Verwendung von G-Allel-ASO erhalten wurden; (b) stellt Hybridisierungsergebnisse dar, die unter Verwendung von A-Allel-ASO erhalten wurden; (c) ist ein Stammbaum der CEPH-Familie #884 mit Genotypen, die von (a) und (b) abgefasst wurden; und (d) ist eine Karte von Chromosom 3q21-23.
  • 4 ist ein schematisches Flussdiagramm, das ein Verfahren gemäß der Erfindung für das Nachweisen von SNPs darstellt.
  • 5 ist ein Blockdiagramm eines Computersystems für das Speichern und Manipulieren von genomischer Information.
  • 6A ist ein Beispiel einer Aufzeichnung für die Speicherinformation über ein Genom und/oder von Genen oder SNPs innerhalb des Genoms.
  • 6B ist ein Beispiel einer Aufzeichnung für das Speichern einer genomischen Information.
  • 6C ist ein Beispiel einer Aufzeichnung für das Speichern einer Information über Gene oder SNPs innerhalb eines Genoms.
  • 7 ist ein Flussdiagramm eines Verfahrens für das Nachweisen, ob eine genomische Information eines Probengenoms wie SNPs mit jener eines anderen Genoms übereinstimmt.
  • 8 zeigt Ergebnisse, die von einer Hybridisierungsreaktion erhalten wurden, die RCGs involviert, die durch DOP-PCR und SNP-ASOs hergestellt wurden, die auf einer Oberfläche in einem Mikroarray-Format immobilisiert wurden.
  • Kurze Beschreibung der Sequenzen
    Figure 00160001
  • Detaillierte Beschreibung der Erfindung
  • Die Erfindung betrifft in manchen Aspekten Genotypisierungs-Verfahren, die den Nachweis von einem oder mehreren Einzel-Nukleotid-Polymorphismen (SNPs) in einem Genom mit verminderter Komplexität (RCG) involvieren, das vom Genom eines Individiuums hergestellt wurde. Die Erfindung schließt Verfahren des Identifizierens von SNPs ein, die mit einer Krankheit oder mit einer Anfälligkeit für eine Krankheit assoziiert sind. Die Erfindung schließt weiterhin Verfahren zum Screenen von RCGs ein, die von einem oder mehreren Individuen in einer Population hergestellt wurden. Solch ein Screenen kann zum Beispiel verwendet werden, um zu bestimmen, ob das Individuum von einer Störung betroffen ist oder wahrscheinlich davon betroffen sein wird, um Allelfrequenzen in der Population zu bestimmen oder um Grade der Wechselbeziehung zwischen Indviduen in der Population zu bestimmen. Zusätzliche Aspekte und Details der Verfahren der Erfindung sind in den folgenden Abschnitten beschrieben.
  • Die Erfindung involviert einige Entdeckungen, die zu neuen Fortschritten auf dem Gebiet der Genotypisierung geführt haben. Die Erfindung basiert auf der Entwicklung von Hochleistungsverfahren für das Analysieren der genomischen Vielfalt. Die Verfahren kombinieren die Verwendung von SNPs, Verfahren zum Vermindern der Komplexität von Genomen und Hochleistungs-Screeningverfahren. Wie im Hintergrund der Erfindung diskutiert, basieren viele Verfahren für das Genotypisieren im Stand der Technik auf der Verwendung von hypervariablen Markern wie den Weber-Markern, die vorwiegend Unterschiede in der Zahl der Wiederholungen nachweisen. Die Verwendung eines Hochleistungs-SNP-Analyseverfahrens ist angesichts des Weber-Marker-System aus einigen Gründen vorteilhaft. Zum Beispiel werden die Ergebnisse eines Weber-Analysesystems in der Form eines Gels dargelegt, das schwer zu lesen ist und durch einen Fachmann bewertet werden muss. Das Hochleistungs-SNP-Analyseverfahren der Erfindung liefert ein binäres Ergebnis, das auf das Vorhandensein oder Nicht-Vorhandensein des SNPs im Probengenom hinweist. Zusätzlich erfordert das Verfahren der Erfindung signifikant weniger Arbeit und ist beträchtlich kostengünstiger durchzuführen. Wie im Hintergrund der Erfindung beschrieben, erfordert das Weber-System das Durchführen von 500 0000 PCR-Reaktionen und die Verwendung von 5200 Gelen, um 5000 Genome zu analysieren. Dieselbe Untersuchung, durchgeführt unter Verwendung der Verfahren der Erfindung, könnte ohne die Verwendung von Gelen durchgeführt werden. Zusätzlich sind SNPs nicht Spezies-spezifisch, und daher können die Verfahren der Erfindung an verschiedenen Spezies durchgeführt werden und sind nicht auf Menschen limitiert. Es ist mühsamer, eine Inter-Spezies-Analyse unter Verwendung von Weber-Markern als unter Verwendung der Verfahren der Erfindung durchzuführen.
  • Manche Verfahren aus dem Stand der Technik verwenden SNPs für das Genotypisieren, aber das Hochleistungs-Verfahren der Erfindung hat auch Vorteile gegenüber diesen Verfahren. Affymetrix nutzt ein HuSNP-ChipTM-System aus, das für das Analysieren von Nukleinsäuren ein geordnetes Array von SNPs auf einer Oberfläche immobilisiert hat. Dieses System ist jedoch für das Durchführen von großen Untersuchungen wie der oben beschriebenen 5000 Genom-Untersuchung unerschwinglich teuer.
  • Die Erfindung ist für das Identifizieren von Polymorphismen in einem Genom nützlich. Eine andere Verwendung für die Erfindung involviert die Identifikation von Polymorphismen, die mit einer Vielzahl von verschiedenen Genomen assoziiert sind. Die verschiedenen Genome können von Populationen isoliert werden, die durch ein gewisses phänotypisches Charakteristikum, familiären Ursprung, physikalische Nähe, Rasse, Klasse usw. in Beziehung stehen. In anderen Fällen werden die Genome zufällig aus Populationen ausgewählt, sodass sie keine Beziehung zueinander haben, außer, dass sie aus derselben Population ausgewählt wurden. In einer bevorzugten Ausführungsform wird das Verfahren durchgeführt, um den Genotyp (z.B. SNP-Gehalt) von Individuen zu bestimmen, die ein bestimmtes phänotypisches Charakteristikum wie eine genetische Krankheit oder ein anderes genetisches Merkmal haben. Andere Verwendungen für die Verfahren der Erfindung involvieren die Identifizierung oder Charakterisierung eines Individuums wie beim Vaterschafts- und Mutterschafts-Testen, bei Einwanderungs- und Erbschafts-Streitigkeiten, Züchtungstests in Tieren, beim Zygositätstesten in Zwillingen, bei Tests auf Inzucht bei Menschen und Tieren, bei der Bewertung einer Transplantat-Tauglichkeit wie bei Knochenmark-Transplantationen, bei der Identifizierung von menschlichen und tierischen Überresten, bei der Qualitätskontrolle von kultivierten Zellen und dem forensischen Testen wie der forensischen Analyse von Samenproben, Blutflecken und anderen biologischen Materialien. Die Verfahren der Erfindung können auch verwendet werden, um den genetischen Aufbau eines Tumors durch Testen des Verlusts der Heterozygotie zu charakterisieren oder um die Allelfrequenz eines bestimmten SNPs zu bestimmen. Zusätzlich können die Verfahren verwendet werden, um einen genomischen Klassifizierungscode für ein Genom durch Identifizieren des Vorhandensein oder Nicht-Vorhandenseins von jedem eines Panels von SNPs im Genom herzustellen und um die Allelfrequenz der SNPs zu bestimmen. Jede dieser Verwendungen wird hierin detaillierter diskutiert.
  • Die Genotypisierungsverfahren der Erfindung basieren auf der Verwendung von RCGs, die reproduzierbar produziert werden können. Diese RCGs werden verwendet, um SNPs zu identifizieren, und können individuell auf das Vorhandensein oder Nicht-Vorhandensein der SNP-Allele gescreent werden.
  • In machen Aspekten basiert die Erfindung auf dem Ergebnis, dass die Komplexität des Genoms unter Verwendung von verschiedenen PCR- und anderen Genom-Komplexitäts-Verminderungsverfahren vermindert werden kann und dass RCGs, die unter Verwendung von solchen Verfahren gemacht werden, auf das Vorliegen von SNPs gescannt werden können. Ein Problem mit der Verwendung von SNP-ASOs, um ein gesamtes Genom zu screenen (d.h. ein Genom, dessen Komplexität nicht vermindert worden ist), ist, dass das Signal-zu-Störungs (S/N)-Verhältnis aufgrund der hohen Komplexität des Genoms und der relativen Häufigkeit des Auftretens einer bestimmten SNP-spezifischen Sequenz innerhalb des gesamten Genoms hoch ist. Wenn ein gesamtes Genom eines komplexen Organismus als das Ziel für eine Allel-spezifische Oligonukleotid-Hybridisierung verwendet wird, repräsentiert die Ziel-Sequenz (z.B. etwa 17 Nukleotidreste), die nachgewiesen werden soll, nur z.B. ungefähr einen 108-109 I Teil in 108 der DNA-Probe (z.B. für ein NP-ASO etwa 17 Nukleotide). Es ist gemäß der Erfindung entdeckt worden, dass die Komplexität des Genoms in einer wiederholbaren Weise vermindert werden kann und dass das resultierende RCG für das Identifizieren des Vorliegens von SNPs im gesamten Genom und für Genotypisierungs-Verfahren nützlich ist. Die Verminderung in der Komplexität ermöglicht das Genotypisieren von mehreren SNPs nach dem Durchführen einer einzigen PCR-Reaktion, was die Zahl der experimentellen Manipulationen, die durchgeführt werden müssen, reduziert. Das RCG ist eine verlässliche Repräsentation einer spezifischen Unterfraktion des gesamten Genoms und kann analysiert werden, als ob es ein Genom von beträchtlich niedrigerer Komplexität wäre.
  • RCGs werden von isolierten Genomen hergestellt. Ein „isoliertes Genom", wie hierin verwendet, ist genomische DNA, die von einem Individiuum isoliert wird, und kann die gesamte genomische DNA einschließen. Zum Beispiel kann ein isoliertes Genom ein RCG sein, oder es kann eine gesamte genomische DNA-Probe sein. Genomische DNA ist eine Population von DNA, die die gesamte genetische Komponente einer Spezies umfasst, ausschließlich, wo anwendbar, mitochondriale und Chloroplasten-DNA. Natürlich können die Verfahren der Erfindung verwendet werden, um auch mitochondriale, Chloroplasten- usw. DNA zu analysieren. In Abhängigkeit von der bestimmten Spezies des Individuums kann die genomische DNA in der Komplexität variieren. Zum Beispiel können Spezies, die relativ niedrig auf der evolutionären Skala sind, wie Bakterien, eine genomische DNA haben, die signifikant weniger komplex ist als Spezies, die höher auf der evolutionären Skala sind. Bakterien wie E. coli haben ungefähr 2,4 × 109 Gram pro Mol des haploiden Genoms, und bakterielle Genome, die eine Größe von weniger als etwa 5 Millionen Basenpaaren (5 Megabasen) haben, sind bekannt. Die Genome von einer dazwischen-liegenden Komplexität wie jene von Pflanzen, zum Beispiel Reis, haben eine Genomgröße von ungefähr 700-1000 Megabasen. Die Genome von der höchsten Komplexität wie Mais oder Menschen haben eine Genomgröße von ungefähr 109-1011. Menschen haben ungefähr 7,4 × 1012 Gramm pro Mol des haploiden Genoms.
  • Wie hierin verwendet, bezeichnet ein Indvidiuum jeden Typ von DNA-enthaltendem Organismus und schließt zum Beispiel Bakterien, Viren, Pilze, Tiere, einschließlich Vertebraten und Nicht-Vertebraten, und Pflanzen ein.
  • Wie hierin verwendet, ist ein „RCG" eine reproduzierbare Fraktion eines isolierten Genoms, die aus einer Vielzahl von DNA-Fragmenten zusammengesetzt ist. Das RCG kann aus zufälligen oder nicht-zufälligen Segmenten oder willkürlichen oder nicht-willkürlichen Segmenten zusammengesetzt sein. Der Begriff „reproduzierbare Fraktion" bezeichnet einen Teil des Genoms, der weniger als das gesamte natürliche Genom umspannt. Wenn eine reproduzierbare Fraktion zweimal oder öfter unter Verwendung derselben experimentellen Bedingungen produziert wird, schließen die produzierten Fraktionen in jeder Wiederholung mindestens 50% derselben Sequenzen ein. In manchen Ausführungsformen schließen die Fraktionen mindestens 70%, 80%, 90%, 95%, 97% oder 99% derselben Sequenzen ein, abhängig davon, wie die Fraktionen produziert werden. Zum Beispiel, wenn ein RCG durch PCR produziert wird, kann ein anderes RCG unter identischen experimentellen Bedingungen hergestellt werden, das mindestens mehr als 90% der Sequenzen im ersten RCG hat. Andere Verfahren zum Herstellen eines RCGs wie Größenselektion werden noch als reproduzierbar angesehen, produzieren aber oft weniger als 99% derselben Sequenzen.
  • Eine „Vielzahl" von Elementen, wie durch die gesamte Anmeldung hindurch verwendet, bezeichnet 2 oder mehr des Elements. Ein „DNA-Fragment" ist eine Polynukleotidsequenz, die von einem Genom an irgendeinem Punkt entlang des Genoms erhalten wurde, und umfasst jede Sequenz der Nukleotide. Die DNA-Fragmente der Erfindung können gemäß einem von zwei Typen von Mechanismen hergestellt werden, und es gibt daher zwei Typen von RCGs, PCR-hergestellte RCGs und natürliche RCGs.
  • PCR-hergestellte RCGs werden zufällig geprimt. Das heißt, alle der Polynukleotidfragmente in dem PCR-hergestellten RCG haben alle gemeinsame Sequenzen am oder nahe dem 5'- und 3'-Ende des Fragments (Wenn ein Tag im Primer verwendet wird, sind alle der 5'- und 3'-Enden identisch. Wenn kein Tag verwendet wird, haben die 5'- und 3'-Enden eine Reihe von N's, gefolgt von der TARGET-Sequenz (wenn in einer 5'- zu 3'-Richtung gelesen wird). Die TARGET-Sequenz ist in jedem Primer identisch, mit der Ausnahme von mehrfach-geprimter DOP-PCR), aber die verbleibenden Nukleotide in den Fragmenten haben keine Sequenzbeziehung zu einander. Daher schließt jedes Polynukleotidfragment in einem RCG eine gemeinsame 5'- und 3'-Sequenz ein, die durch die konstante Region des Primers, der verwendet wird, um das RCG herzustellen, bestimmt wird. Zum Beispiel, wenn das RCG unter Verwendung einer DOP-PCR hergestellt wird (unten detaillierter beschrieben), würde jedes Polynukleotidfragment nahe dem 5'- oder 3'-Ende Nukleotide haben, die durch die „TARGET-Nukleotidsequenz" bestimmt werden. Die TARGET-Nukleotidsequenz ist eine Sequenz, die willkürlich ausgewählt wird, aber die in einem Satz oder einer Untersatz (z.B. mehrfachgeprimte DOP-PCR) von Primern konstant ist. Daher kann jedes Polynukleotidfragment dieselbe Nukleotidsequenz nahe dem 5'- und 3'-Ende haben, die aus derselben TARGET-Nukleotidsequenz hervorgeht. In manchen Fällen kann mehr als ein Primer verwendet werden, um das RCG herzustellen. Wenn mehr als ein Primer verwendet wird, würde jedes Mitglied des RCGs ein 5'- und 3'-Ende mit mindestens einem anderen Mitglied des RCGs gemeinsam haben, und bevorzugter würde jedes Mitglied des RCGs ein 5'- und 3'-Ende mit mindestens 5% der anderen Mitglieder des RCGs gemeinsam haben. Zum Beispiel, wenn ein RCG unter Verwendung einer DOP-PCR mit 2 verschiedenen Primern, die verschiedene TARGET-Nukleotidsequenzen haben, hergestellt wird, könnte eine Population, die vier Sätze von PCR-Produkten enthält, die gemeinsame Enden haben, hergestellt werden. Ein Satz von PCR-Produkten könnte hergestellt werden, der die TARGET-Nukleotidsequenz des ersten Primers an den oder sowohl nahe der 5'- als auch 3'-Enden hat, und ein anderer Satz könnte hergestellt werden, der die TARGET-Nukleotidsequenz des zweiten Primers an oder sowohl nahe der 5'- als auch 3'-Enden hat. Ein anderer Satz von PCR-Produkten könnte hergestellt werden, der die TARGET-Nukleotidsequenz des zweiten Primers am oder nahe des 5'-Ende(s) und die TARGET-Nukleotidsequenz des ersten Primers am oder nahe des 3'-Ende(s) aufweist. Ein vierter Satz von PCR-Produkten könnte hergestellt werden, der die TARGET-Nukleotidsequenz des zweiten Primers am oder nahe des 3'-Ende(s) und die TARGET-Nukleotidsequenz des ersten Primers am oder nahe des 5'-Ende(s) aufweist. Die PCR-hergestellten Genome sind aus synthetischen DNA-Fragmenten zusammengesetzt.
  • Die DNA-Fragmente der natürlichen RCGs haben willkürliche Sequenzen. Das heißt, dass jedes der Polynukleotidfragmente im natürlichen RCG nicht notwendigerweise eine Sequenzbeziehung zu einem anderen Fragment desselben RCGs hat. Diese Sequenzen werden basierend auf anderen Eigenschaften wie Größe oder Sekundärcharakteristika ausgewählt. Diese Sequenzen werden als natürliche RCGs bezeichnet, weil sie vielmehr aus natürlichen Nukleinsäure-Präparaten hergestellt sind, als dass sie synthetisiert werden. Daher sind sie natürliche, nicht-synthetische DNA-Fragmente. Die Fragmente des natürlichen RCGs können eine gewisse Sequenzbeziehung zueinander teilen (z.B. wenn durch Restriktionsenzyme produziert). In manchen Ausführungsformen teilen sie keine Sequenzbeziehung miteinander.
  • In manchen bevorzugten Ausführungsformen schließt das RCG eine Vielzahl von DNA-Fragmenten im Größenbereich von ungefähr 200 bis 2000 Nukleotidresten ein. In einer bevorzugten Ausführungsform schließt ein RCG von 95 bis 0,05% des intakten natürlichen Genoms ein. Die Fraktion des isolierten Genoms, das im RCG der Erfindung vorliegt, repräsentiert höchstens 90% des isolierten Genoms und enthält in bevorzugten Ausführungsformen weniger als 50%, 40%, 30%, 20%, 10%, 5% oder 1% des Genoms. Ein RCG schließt vorzugsweise zwischen 0,05 und 1% des intakten natürlichen Genoms ein. In einer bevorzugten Ausführungsform umspannt das RCG 10% oder weniger eines intakten natürlichen Genoms eines komplexen Organismus.
  • Die genomische DNA kann aus einer Gewebeprobe, einem gesamten Organismus oder einer Probe von Zellen isoliert werden. Zusätzlich sind die isolierten Genome der Erfindung vorzugsweise im Wesentlichen frei von Proteinen, die mit PCR- oder Hybridisierungsvorgängen interferieren, und sind auch im Wesentlichen frei von Proteinen, die DNA schädigen, wie Nucleasen. Vorzugsweise sind die isolierten Genome auch frei von nicht-Protein-Inhibitoren einer Polymerase-Funktion (z.B. Schwermetallen) und nicht-Protein-Inhibitoren der Hybridisierung, wenn die PCR-hergestellten RCGs gebildet werden. Proteine können von den isolierten Genomen durch viele Verfahren, die auf dem Fachgebiet bekannt sind, entfernt werden. Zum Beispiel können Proteine unter Verwendung einer Protease wie Proteinase K oder Pronase durch Verwenden eines starken Detergens wie Natriumdodecylsulfat (SDS) oder Natriumlaurylsarcosinat (SLS), um die Zellen zu lysieren, von denen die isolierten Genome erhalten werden, oder beides entfernt werden. Lysierte Zellen können mit Phenol oder Chloroform extrahiert werden, um eine wässrige Phase zu produzieren, die Nukleinsäure, einschließlich der isolierten Genome, enthält, die mit Ethanol präzipitiert werden kann.
  • Einige Verfahren können verwendet werden, um ein PCR-hergestelltes RCG herzustellen, einschließlich IRS-PCR, AP-PCR, DOP-PCR, mehrfach-geprimte PCR und Adapter-PCR. Hybridisierungsbedingungen für bestimmte PCR-Verfahren werden im Zusammenhang mit dem Primertyp und der Primerlänge ausgewählt, um einen Satz von DNA-Fragmenten zu produzieren, der ein Prozentsatz des Genoms ist, wie oben definiert. PCR-Verfahren sind in vielen Bezugnahmen beschrieben worden, siehe z.B. US-Patent Nr. 5,104,792 ; 5,106,727 ; 5,043,272 ; 5,487,985 ; 5,597,694 ; 5,731,171 ; 5,599,674 ; und 5,789,168 . Grundlegende PCR-Verfahren sind z.B. in Saiki et al., Science, 230: 1350 (1985) und den US Pat. Nr. 4,683,195 , 4,683,202 (beide am 18. Jul. 1987 erteilt) und US Pat. Nr. 4,800,159 (am 24. Jan. 1989 erteilt) beschrieben worden. In manchen Aspekten der Erfindung schließt das PCR-hergestellte RCG spezifisch RCGs aus, die durch IRS-PCR hergestellt werden.
  • Die hierin beschriebenen PCR-Verfahren werden gemäß den PCR-Verfahren durchgeführt, die auf dem Fachgebiet wohlbekannt sind. Zum Beispiel beschreibt das US Patent Nr. 5,333,675 , erteilt an Mullis et al., einen Apparat und ein Verfahren zum Durchführen einer automatisierten PCR. Im Allgemeinen resultiert das Durchführen eines PCR-Verfahrens in einer Amplifikation einer ausgewählten Region der DNA durch Bereitstellen von zwei DNA-Primern, wobei jeder davon komplementär zu einem Teil von einem Strang in der ausgewählten Region der DNA ist. Der Primer wird in der Anwesenheit von Desoxyribonukleotid-Triphosphaten (dATP, dCTP, dGTP und dTTP) und einem Ketten-Erweiterungsenzym wie DNA-Polymerase an einen Matrizen-Strang der Nukleinsäure hybridisiert. Die Primer werden mit den getrennten Strängen hybridisiert, was DNA-Moleküle bildet, die einzelsträngig sind, mit der Ausnahme der Region, die mit dem Primer hybridisiert ist, wo sie doppelsträngig sind. Die doppelsträngigen Regionen werden durch die Wirkung des Ketten-Erweiterungsenzyms (z.B der DNA-Polymerase) erweitert, um ein erweitertes doppelsträngiges Molekül zwischen den ursprünglichen zwei Primern zu bilden. Die doppelsträngigen DNA-Moleküle werden getrennt, um Einzelstränge zu bilden, die dann mit den Primern erneut hybridisiert werden können. Der Vorgang wird für eine Reihe von Zyklen wiederholt, um eine Serie von DNA-Strängen herzustellen, die dieselbe Nukleotidsequenz zwischen den und einschließlich der Primer haben.
  • Ketten-Erweiterungsenzyme sind auf dem Fachgebiet wohlbekannt und schließen zum Beispiel die E. coli-DNA-Polymerase I, das Klenow-Fragment der E. coli-DNA-Polymerase I, die T4-DNA-Polymerase, T7-DNA-Polymerase, die rekombinante modifizierte T7-DNA-Polymerase, die reverse Transkriptase und andere Enzyme ein. Hitzestabile Enzyme werden besonders bevorzugt, weil sie in einer automatisierten Thermocycler-Ausrüstung nützlich sind. Hitzestabile Polymerasen schließen zum Beispiel DNA-Polymerasen, isoliert von Bacillus stearothermophilus (Bio-Rad), Thermus thermophilus (Finzyme, ATCC Nummer 27634), Thermus-Spezies (ATCC Nummer 31674), Thermus aquaticus-Stamm TV11518 (ATCC-Nummer 25105), Sulfolobus acidocaldarius, beschrieben durch Bukhrashuili et al., Biochem. Biophys. Acta., 1008:102-07 (1909), Thermus filiformus (ATCC Nummer 43280), Taq-DNA-Polymerase, kommerziell erhältlich von Perkin-Elmer-Cetus (Norwalk, Connecticut), Promega (Madison, Wis.) und Stratagene (La Jolla, Calif.), und AmpliTagTM-DNA-Polymerase, eine rekombinante Thermus equitus-Taq-DNA-DNA-Polymerase, erhältlich von Perkin-Elmer-Cetus und beschrieben im US Patent Nr. 4,889,818 , ein.
  • Vorzugsweise sind die PCR-basierenden RCG-Herstellungsverfahren, die gemäß der Erfindung durchgeführt werden, automatisiert und werden unter Verwendung von Thermocyclern durchgeführt. Viele Typen von Thermocyclern sind auf dem Fachgebiet wohlbekannt. Zum Beispiel liefert M.J. Research (Watertown, MA) einen Thermocycler, der eine Peltier-Hitzepumpe hat, um eine präzise gleichförmige Temperaturkontrolle in den Thermocyclern bereitzustellen; DeltaCycler-Thermocycler von Ericomp (San Diego, CA) basieren auch auf Peltierbasierend und schließen eine automatische Temperaturanstieg/-abfall(„ramp")-Kontrolle, Zeit/Temperatur-Extensionsprogrammieren und eine Wahl der Röhrchen- oder Mikroplatten-Konfigurationen ein. Der RoboCyclerTM von Stratagene (La Jolla, CA) inkorporiert Roboter, um schnelle Temperatur-Übergänge während des Zyklus und eine Gleichförmigkeit von Vertiefung zu Vertiefung zwischen den Proben zu produzieren; und ein besonders bevorzugter Cycler ist der Perkin-Elmer-Applied Biosystems (Foster City, CA)-ABI PrismTM 877 Integrated Thermo-Cycler, der durch eine programmierbare Schnittstelle betätigt wird, die das Handhaben von Flüssigkeiten und Vorgänge beim Thermocyclus für das Sequenzieren fluoreszierender DNA und PCR-Reaktionen automatisiert. Die Perkin-Elmer-Applied Biosystems-Maschine ist spezifisch für Hochleistungs-Genotypisierungs-Projekte gestaltet und automatisiert die Genotypisierungsschritte, einschließlich des PCR-Produkt-Poolens, vollständig.
  • Die degenerierte Oligonukleotid-geprimte PCR (DOP-PCR) involviert die Verwendung eines einzigen Primersatzes, in dem jeder Primer des Satzes typischerweise aus 3 Teilen zusammengesetzt ist. Ein DOP-PCR-Primer, wie hierin verwendet, kann die folgende Struktur haben:
    5'Tag-(N)x-TARGET 3'
  • Die „TARGET"-Nukleotidsequenz schließt mindestens 5 willkürlich ausgewählte Nukleotidreste ein, die für jeden Primer des Satzes dieselben sind. X ist eine ganze Zahl von 0 bis 9, und N ist irgendein Nukleotidrest. Der Wert von x ist vorzugsweise derselbe für jeden Primer eines DOP-PCR-Primersatzes. In anderen Ausführungsformen schließt die TARGET-Nukleotidsequenz mindestens 6 oder 7 und vorzugsweise mindestens 8, 9 oder 10 willkürlich ausgewählte Nukleotide ein. Der Tag ist optional.
  • Ein "TARGET-Nukleotid", das hierin verwendet werden kann, wird willkürlich ausgewählt. Ein Satz von Primern wird verwendet, um ein bestimmtes RCG herzustellen. Jeder Primer in dem Satz schließt dieselbe TARGET-Nukleotidsequenz wie die anderen Primer ein. Natürlich können Sätze von Primern, die verschiedene TARGET-Sequenzen haben, kombiniert werden.
  • Der Tag, wie hierin verwendet, ist eine Sequenz, die für das Verarbeiten des RCGs nützlich, aber nicht notwendig ist. Der Tag hybridisiert während der anfänglichen Runde der genomischen PCR-Amplifizierung im Gegensatz zu den anderen Sequenzen im Primer nicht notwendigerweise mit der genomischen DNA. In späteren Amplifizierungsrunden hybridisiert der Tag mit der PCR-amplifizierten DNA. Daher trägt der Tag nicht zu der Sequenz bei, die anfänglich durch den Primer erkannt wird. Da der Tag nicht an der anfänglichen Hybridisierungsreaktion mit der genomischen DNA teilnimmt aber in den Primer-Extensionsvorgang involviert ist, schließen die PCR-Produkte, die gebildet werden (d.h. die reproduzierbaren DNA-Fragmente), die Tagsequenz ein. Daher sind die Endprodukte DNA-Fragmente, die eine Sequenz haben, die identisch zu einer Sequenz ist, die im Genom gefunden wird, mit Ausnahme der Tagsequenz. Der Tag ist nützlich, weil er in späteren Runden der PCR die Verwendung einer höheren Anlagerungstemperatur erlaubt, als sie andernfalls mit kürzeren Oligonukleotiden verwendet werden könnte. Die willkürlich ausgewählte Sequenz ist am 3'-Ende des Primers positioniert. Diese Sequenz, obwohl willkürlich ausgewählt, ist dieselbe für jeden Primer in einem Satz von DOP-PCR-Primern. Von 0 bis 9 Nukleotidreste („N” in der obigen Formel) sind am 5'-Ende der TARGET-Sequenz in den DOP-PCR-Primern der Erfindung gelegen. Jeder dieser Reste kann unabhängig aus natürlich vorkommenden oder künstlichen Nukleotidresten ausgewählt werden. Als Beispiel kann jeder „N"-Rest ein Inosin- oder Methylcytosin-Rest sein. In der Formel ist „x" eine ganze Zahl, die von 0 bis 9 sein kann, und ist vorzugsweise von 3 bis 9 (z.B. 3, 4, 5, 6, 7, 8 oder 9). Jeder Satz von DOP-PCR-Primern der Erfindung kann daher bis zu 4x einzigartige Primer enthalten (d.h. 1, 4, 16, 64, ..., 262144 Primer für x = 0, 1, 2, 3, ...9). Schließlich kann eine Basenpaar-Tag am 5'-Ende des Primers positioniert sein. Dieser Tag kann optional eine Restriktionsenzym-Stelle einschließen. Im Allgemeinen wird das Einschließen einer Tagsequenz in den DOP-PCR-Primern der Erfindung bevorzugt, ist aber nicht nötig.
  • Die anfänglichen Runden der DOP-PCR werden vorzugsweise bei einer niedrigen Temperatur durchgeführt, angesichts dessen, dass die Spezifität der Reaktion nur durch die 3'-TARGET-Nukleotidsequenz bestimmt wird. Eine langsame Temperaturanstieg/-abfallzeit während dieser Zyklen versichert, dass die Primer sich nicht von der Matrize ablösen, bevor sie erweitert werden. Die folgenden Runden werden bei einer höheren Anlagerungstemperatur durchgeführt, weil in den folgenden Runden das 5'-Ende des DOP-PCR-Primers (der Tag) in der Lage ist, zu der Primer-Anlagerung beizutragen. Ein PCR-Zyklus, der unter niedrigen Stringenz-Hybridisierungsbedingungen durchgeführt wird, findet im Allgemeinen bei etwa 35°C bis etwa 55°C statt.
  • Da die DOP-PCR eine zufällig ausgewählte Sequenz involviert, werden die resultierenden PCR-Produkte aus Genomsequenzen hergestellt, die willkürlich durch das gesamte Genom verteilt sind, und werden im Allgemeinen nicht in den spezifischen Stellen des Genoms angehäuft sein. Zusätzlich kann die Bildung von neuen Sätzen von DOP-PCR-amplifizierten DNA-Fragmenten leicht durch Ändern der Sequenz, Länge oder von beiden der Primer erreicht werden. RCGs, die eine größere oder geringere Komplexität haben, können durch Auswählen von DOP-PCR-Primern, die kürzere beziehungsweise längere TARGET- und (N)x-Nukleotidsequenzen haben, hergestellt werden. Dieser Ansatz kann auch mit mehreren DOP-PCR-Primern wie im „mehrfach geprimten DOP-PCR"-Verfahren (unten beschrieben) verwendet werden. Schließlich ist die Verwendung von willkürlich ausgewählten Sequenzen der DOP-PCR nützlich in vielen Spezies, weil die willkürlich ausgewählten Sequenzen nicht speziesspezifisch sind, wie bei manchen Formen der PCR, die die Verwendung einer spezifischen bekannten. Sequenz erfordern.
  • Ein anderes Verfahren für das Herstellen eines PCR-hergestellten RCGs involviert eingestreute Wiederholungssequenz-PCR (IRS-PCR). Säuger-Chromosomen schließen sowohl wiederholte als auch einzigartige Sequenzen ein. Manche der wiederholten Sequenzen sind kurze eingestreute Wiederholungssequenzen (IRS's), und andere sind lange IRS's. Eine Hauptfamilie von kurzen IRS's, die in Menschen gefunden wird, schließt Alu-Wiederholdungssequenzen ein. Die Amplifizierung unter Verwendung eines einzelnen Alu-Primers wird erfolgen, wann immer zwei Alu-Elemente in umgekehrter Orientierung zu einander auf gegenüberliegenden Strängen liegen. Es wird angenommen, dass es ungefähr 900 000 Alu-Wiederholungen in einem menschlichen haploiden Genom gibt. Ein anderer Typ einer IRS-Sequenz ist das L1-Element (am häufigsten ist L1Hs), das in 104-105 Kopien in einem menschlichen Genom vorhanden ist. Da die L1-Sequenz im Genom weniger reichlich exprimiert wird als die Alu-Sequenz, werden bei der Amplifizierung unter Verwendung eines L1-Primers weniger Amplifizierungs-Produkte produziert. In einer IRS-PCR wird ein Primer verwendet, der eine Homologie zu einer Wiederholungssequenz hat, die auf den gegenüberliegenden Strängen im Genom der Spezies, die analysiert werden soll, vorliegt. Wenn zwei Wiederholungselemente, die die Primersequenz haben, in einer Kopf-an-Kopf-Art in einem limitierten Abstand (ungefähr 2000 Nukleotidreste) vorhanden sind, kann die Sequenz zwischen den Wiederholungen amplifiziert werden. Das Verfahren hat den Vorteil, dass die Komplexität der resultierenden PCR-Produkte dadurch kontrolliert werden kann, wie homolog der gewählte Primer mit der Wiederholungs-Konsensussequenz ist (das heißt, je homologer der Primer mit der Wiederholungs-Konsensussequenz ist, umso komplexer wird das PCR-Produkt sein).
  • Im Allgemeinen hat ein IRS-PCR-Primer eine Sequenz, in der zu mindestens ein Teil des Primers mit der Konsensus-Nukleotidsequenz einer IRS des Individiuums homolog ist (z.B. 50%, 75%, 90%, 95% oder mehr identisch dazu).
  • In Säuger-Genomen sind kleine eingestreute Wiederholungssequenzen (SINES) in extrem hoher Kopienzahl vorhanden und sind oft so konfiguriert, dass eine Einzelkopie-Sequenz von zwischen 500 Nukleotidresten und 1000 Nukleotidresten zwischen zwei Wiederholungen liegt, die in einer Kopf-an-Kopf- oder Schwanz-an-Schwanz-Weise orientiert sind. Genomische DNA-Sequenzen, die diese Konfiguration haben, sind Substrate für die Alu-PCR in menschlicher DNA und die B1- und B2-PCR in der Maus. Die präzise Anzahl der Produkte, die in einer spezifischen Alu-, B1- oder B2-PCR-Reaktion repräsentiert wird, hängt von der Wahl des Primers ab, der für die Reaktion verwendet wird. Diese Variation in der Produkt-Komplexität erfolgt aufgrund der Variation in der Sequenz unter der großen Anzahl von repräsentativen Sequenzen der IRS-Familie in jeder Spezies. Eine detaillierte Untersuchung dieser Variation wurde durch Britten (Britten, R.J. (1994), Proc. Natl. Acad. Sci. USA, 91:5992-5996) beschrieben. In der Britten-Untersuchung wurde die Sequenz-Variation für jeden Nukleotidrest der Alu-Konsenssequenz für 1574 menschliche Alu-Sequenzen analysiert. Die Komplexität von Alu-PCR-Produkten, die durch Amplifizierung unter Verwendung eines Alu-PCR-Primers hergestellt wurden, kann zu einem signifikanten Maß basierend auf dem Grad, zu dem die Nukleotidsequenz des Primers mit den Konsensus-Nukleotidsequenzen übereinstimmt, vorhergesagt werden. Als eine allgemeine Regel werden Alu-PCR-Produkte fortschreitend weniger komplex, wenn die Primersequenz von der Alu-Konsensussequenz abweicht. Weil zwei hybridisierte Primer an jeder Stelle, für die eine Alu-PCR erreicht werden soll, benötigt werden, ist es vorhersagbar, dass eine lineare Variation der Zahl der genomischen Stellen, an die ein Primer binden kann, in der Komplexität der PCR-Produkte reflektiert werden wird, die grob proportional zum Quadrat der Primerbindungs-Wirksamkeit ist. Diese Vorhersage entspricht experimentellen Ergebnissen, die die Synthese von Alu-PCR-Produkten erlauben, die einen breiten Bereich von Produkt-Komplexitätswerten haben. Daher sollte, wenn es wünschenswert ist, die Zahl der PCR-Produkte, die unter Verwendung der Alu-PCR erhalten wurden, zu vermindern, die Primersequenz so gestaltet werden, dass sie durch ein vorhersagbares Ausmaß von der Alu-Konsenssequenz abweicht.
  • Ein anderes Verfahren zum Herstellen eines RCGs involviert die willkürlich geprimte PCR (AP-PCR). Die AP-PCR nutzt kurze Oligonukleotide als PCR-Primer aus, um einen diskreten Untersatz von Teilen eines Genoms von hoher Komplexität zu amplifizieren. Für die AP-PCR ist die Primersequenz willkürlich und wird ohne Wissen der Sequenz der Ziel-Nukleinsäuren, die amplifiziert werden sollen, ausgewählt. Der willkürliche Primer ist gewöhnlich 50-60% G+C. Das AP-PCR-Verfahren ist ähnlich zum DOP-PCR Verfahren, das oben beschrieben ist, außer dass der AP-PCR-Primer aus nur den willkürlich ausgewählten Nukleotiden und nicht den 5'-flankierenden degenerierten Resten oder dem Tag (d.h. dem Nx-Rest, der für die DOP-PCR-Primer beschrieben ist) besteht. Das Genom kann unter Verwendung eines einzelnen willkürlichen Primers oder einer Kombination von zwei oder mehreren willkürlichen Primern geprimt werden, wobei jeder eine andere, aber optional verwandte Sequenz hat.
  • Die AP-PCR wird unter niedrigen Stringenz-Hybridisierungsbedingungen durchgeführt, was die Hybridisierung des Primers mit Zielen erlaubt, mit denen der Primer einen wesentlichen Grad einer Fehlpaarung zeigen kann. Ein PCR-Zyklus, der unter niedrigen Stringenz-Hybridisierungsbedingungen durchgeführt wird, findet im Allgemeinen bei etwa 35°C bis etwa 55°C statt. Fehlpaarungen beziehen sich auf nicht komplementäre Nukleotidbasen im Primer im Vergleich zu der Matrize, mit der er hybridisiert wird.
  • AP-PCR-Verfahren sind früher in Kombination mit der Gelelektrophorese verwendet worden, um Genotypen zu bestimmen. AP-PCR-Produkte werden im Allgemeinen auf einem Hoch-Auflösungs-Polyacrylamid-Gel fraktioniert, und das Vorhandensein oder Nicht-Vorhandensein von spezifischen Banden wird verwendet, um einen spezifischen Locus zu genotypisieren. Im Allgemeinen ist der Unterschied zwischen dem Vorhandensein oder Nicht-Vorhandensein einer Bande eine Folge eines Einzel-Nukleotid-DNA-Sequenz-Unterschieds in einer der Primer-Bindungsstellen für eine bestimmte Einzelkopie-Sequenz.
  • Die Produkt-Komplexität, die unter Verwendung eines Primers oder eines Primer-Satzes erhalten wird, kann durch einige Verfahren bestimmt werden. Zum Beispiel kann die Produkt-Komplexität unter Verwendung einer PCR-Amplifikation eines Panels von menschlichen künstlichen Hefechromosom (YAC)-DNA-Proben von einer CEPH 1-Genbank bestimmt werden. Alle dieser YACs tragen ein menschliches DNA-Segment von einer Länge von ungefähr 300-400 Kilobasenpaaren Länge. Die Produkt-Komplexität für jeden Primer-Satz kann durch Vergleichen der Zahl der Banden, die pro YAC produziert werden, wenn es auf einem Agarosegel analysiert wird, mit einem IRS-PCR-Produkt von bekannter Komplexität abgeleitet werden. Zusätzlich kann die Elektrophorese auf Polyacrylamid-Gelen für Produkte von relativ niedriger Komplexität die Produkt-Komplexität im Vergleich zu einem. Standard etablieren. Alternativ ist ein wirksamer Weg, um die Komplexität des Produkts zu schätzen, eine Wieder- Anlagerungsreaktion unter Verwendung der Resistenz gegen eine S1-Nucleasekatalysierte Degradierung durchzuführen, um die Rate der Wiederanlagerung des intern markierten, denaturierten, doppelsträngigen DNA-Produkts zu bestimmen. Ein Vergleich mit den Wiederanlagerungsraten von Standards von bekannter Komplexität erlaubt ein genaues Schätzen der Produkt-Komplexität. Jedes dieser drei Verfahren kann für die IRS-PCR verwendet werden. Die zweiten und dritten Verfahren sind am besten für die AP-PCR und DOP-PCR, die im Gegensatz zur IRS-PCR nicht selektiv menschliche DNA aus einer rohen YAC-DNA-Präparation amplifizieren werden.
  • Die Komplexität der PCR-Produkte, die durch AP-PCR hergestellt werden, kann durch Auswählen der Primersequenz-Länge, der Zahl der Primer in einem Primersatz oder manche Kombination von diesen reguliert werden. Durch das Auswählen der geeigneten Kombination kann die AP-PCR auch verwendet werden, um die Komplexität eines Genoms für die SNP-Identifizierung und Genotypisierung, wie hierin beschrieben, zu vermindern. AP-PCR-Marker sind verschieden von Alu-PCR-Primern, haben eine andere genomische Verteilung und können daher ein IRS-PCR-Genom-Komplexitäts-verminderndes Verfahren komplementieren. Die Verfahren können in Kombination verwendet werden, um eine komplementäre Information von Genom-Scans zu produzieren.
  • Ein PCR-Verfahren zum Herstellen von RCGs ist ein Adapter-Linker-Amplifizierungs-PCR-Verfahren (vorher beschrieben in z.B. Saunders et al., Nuc. Acids Res., 17 9027 (1990); Johnson, Genomics, 6: 243 (1990) und der PCT-Anmeldung WO90/00434 , veröffentlicht am 9. Aug., 1990). In diesem Verfahren wird die genomische DNA unter Verwendung eines Restriktionsenzyms verdaut, und ein Satz von Linkern wird an die Enden der resuitierenden DNA-Fragmente ligiert. Die PCR-Amplifikation der genomischen DNA wird unter Verwendung eines Primers erreicht, der mit der Adapter-Linkersequenz binden kann. Zwei mögliche Variationen dieser Vorgehensweise, die verwendet werden können, um die Komplexität des Genoms zu limitieren, sind (a) ein Restriktionsenzym zu verwenden, das einen Satz von Fragmenten produziert, die in der Länge variieren, sodass nur ein Untersatz (z.B. jene, die kleiner als eine PCR-amplifizierbare Länge sind) amplifiziert wird; und (b) die genomische DNA unter Verwendung eines Restriktionsenzyms zu verdauen, das einen Überhang einer zufälligen Nukleotidsequenz produziert (z.B. AlwN1 erkennt CAGNNNCTG, SEQ ID NO: 1 und zwischen NNN und CTG spaltet). Adapter werden konstruiert, um sich an nur einen Untersatz der Produkte anzulagern. Zum Beispiel würden im Fall von AlwN1 Adapter, die einen spezifischen 3-Nukleotidrest-Überhang haben (der der zufälligen 3-Basenpaar-Sequenz entspricht, die durch den Restriktionsenzym-Verdau produziert wurde), verwendet werden, um eine (43) 64-fache Verminderung in der Komplexität zu ergeben. Fragmente, die eine Überhangsequenz haben, die komplementär zum Adapter-Überhang ist, sind die einzigen, die amplifiziert werden.
  • Ein anderes Verfahren zum Herstellen von RCGs basiert auf der Entwicklung von natürlichen RCGs. Einige Verfahren können verwendet werden, um natürliche RCGs herzustellen, einschließlich DNA-Fragment-Größenselektion, Isolieren einer Fraktion der DNA von einer Probe, die denaturiert worden ist und die sich wieder aneinander lagern konnte, pH-Auftrennung, Auftrennung basierend auf der Sekundärstruktur usw.
  • Die Größenselektion kann verwendet werden, um ein RCG durch Auftrennen von Polynukleotiden in einem Genom in verschiedene Fraktionen herzustellen, worin jede Fraktion Polynukleotide einer ungefähr der gleichen Größe enthält. Eine oder mehrere Fraktionen können ausgewählt und als das RCG verwendet werden. Die Zahl der ausgewählten Fraktionen wird vom Verfahren, das verwendet wird, um das Genom zu fragmentieren und die Stücke des Genoms zu fraktionieren, sowie von der Gesamtzahl der Fraktionen abhängen. Um die Komplexität des RCGs zu erhöhen, werden mehrere Fraktionen ausgewählt. Ein Verfahren des Herstellens eines RCGs involviert das Fragmentieren eines Genoms in Stücke von willkürlicher Größe und Auftrennen der Stücke auf einem Gel (oder durch HPLC oder ein anderes Größenfraktionierungs-Verfahren). Ein Teil des Gels wird ausgeschnitten, und die DNA-Fragmente, die in dem Teil enthalten sind, werden isoliert. Typischerweise können Restriktionsenzyme verwendet werden, um DNA-Fragmente auf eine reproduzierbare Weise zu produzieren.
  • Die Auftrennung, basierend auf der Sekundärstruktur, kann in einer ähnlichen Weise zur Größenselektion erreicht werden. Unterschiedliche Fraktionen eines Genoms, die eine Sekundärstruktur haben, können auf einem Gel aufgetrennt werden. Eine oder mehrere Fraktionen werden aus dem Gel ausgeschnitten, und die DNA-Fragmente werden daraus isoliert.
  • Ein anderes Verfahren zum Bilden eines natürlichen RCGs involviert das Isolieren einer Fraktion der DNA aus einer Probe, die denaturiert worden ist und die sich wieder aneinander lagern konnte. Eine genomische DNA-Probe wird denaturiert, und den denaturierten Nukleinsäure-Molekülen wird erlaubt, sich unter ausgewählten Bedingungen wiederaneinanderzulagern. Manche Bedingungen ermöglichen es der DNA mehr als andere Bedingungen, wieder aneinandergelagert zu werden. Diese Bedingungen sind Fachleuten wohlbekannt. Entweder können die wiederaneinandergelagerten oder die verbleibenden denaturierten Fraktionen isoliert werden. Es ist wünschenswert, die kleinere dieser zwei Fraktionen auszuwählen, um das RCG herzustellen. Die Wiederanlagerungs-Bedingungen, die in der bestimmten Reaktion verwendet werden, bestimmen, welche Fraktion die kleinere Fraktion ist. Variationen dieses Verfahrens können auch verwendet werden, um RCGs herzustellen. Zum Beispiel kann, sobald einem Teil der Fraktion erlaubt wird, sich wiederaneinanderzulagern, die doppelsträngige DNA entfernt werden (z.B. unter Verwendung der Säulen-Chromatographie), der verbleibenden DNA kann dann erlaubt werden, sich teilweise wiederaneinanderzulagern, und die wiederaneinandergelagerte Fraktion kann isoliert und verwendet werden. Diese Variation ist für das Entfernen von Wiederholungselementen der DNA, die sich schnell wiederaneinanderlagern, besonders nützlich.
  • Die Menge des isolierten Genoms, das im Verfahren des Herstellens von RCGs verwendet wird, wird abhängig von der Komplexität des anfänglich isolierten Genoms variieren. Genome mit niedriger Komplexität wie bakterielle Genome, die eine Größe von weniger als etwa 5 Millionen Basenpaare (5 Megabasen) haben, werden normalerweise in einer Menge von ungefähr 10 Picogramm bis etwa 250 Nanogramm verwendet. Ein mehr bevorzugter Bereich ist von 30 Picogramm bis etwa 7,5 Nanogramm, und noch mehr bevorzugt etwa 1 Nanogramm. Genome von mittlerer Komplexität wie Pflanzen (zum Beispiel Reis, der eine Genomgröße von ungefähr 700-1000 Megabasen hat) können in einem Bereich von ungefähr 0,5 Nanogramm bis 250 Nanogramm verwendet werden. Mehr bevorzugt liegt die Menge zwischen 1 Nanogramm und 50 Nanogramm. Genome von der höchsten Komplexität (wie Mais oder Menschen, die eine Genomgröße von ungefähr 3000 Megabasen haben) können in einer Menge von ungefähr 1 Nanogramm bis 250 Nanogramm verwendet werden (z.B. für eine PCR).
  • Zusätzlich zu den oben beschriebenen DOP-PCR-Verfahren können PCR-hergestellte RCGs unter Verwendung der DOP-PCR, die mehrere Primer involviert und die hierin als „mehrfach geprimte DOP-PCR" bezeichnet wird, hergestellt werden. Eine mehrfach geprimte DOP-PCR involviert die Verwendung von mindestens zwei Primern, die ähnlich zu den Einzel-Primern, die oben diskutiert sind, angeordnet sind und typischerweise aus 3 Teilen zusammengesetzt sind. Ein mehrfach geprimter DOP-PCR-Primer, wie hierin verwendet, hat die folgende Struktur:
    Tag-(N)x-TARGET2
  • Die TARGET2-Nukleotidsequenz schließt mindestens 5 und vorzugsweise mindestens 6 TARGET-Nukleotidreste ein, x ist eine ganze Zahl von 0-9, und N ist irgendein Nukleotidrest.
  • Die Sequenz, die willkürlich ausgewählt und am 3'-Ende des Primers positioniert ist, kann in einer mehrfach geprimten DOP-PCR manipuliert werden, um ein anderes Endprodukt als für die DOP-PCR zu produzieren, da die Verwendung von zwei oder mehreren Sätzen von Primern einen weiteren Grad der Vielfalt zufügt, was daher abhängig von den gewählten Primern ein RCG oder amplifiziertes Genom produziert. Jeder der mindestens zwei Sätze von Primern der mehrfach geprimten DOP-PCR hat eine andere TARGET-Sequenz. Ähnlich zu dem Einzelprimer der DOP-PCR wird ein Satz von Primern für jeden der mindestens zwei Primer hergestellt, und jeder Primer in einem einzelnen Satz hat dieselbe TARGET-Sequenz wie die anderen Primer des Satzes. Diese TARGET-Sequenz wird an ihrem 5'-Ende durch 0 bis 9 Nukleotidreste („N"s) flankiert. Der Satz von N's wird sich von Primer zu Primer in einem Satz von Primern unterscheiden. Ein Satz von Primern kann bis zu 4x verschiedene Primer einschließen, wobei jeder Primer eine einzigartige (N)x-Sequenz hat. Schließlich kann ein Tag am 5'-Ende positioniert werden.
  • Die Beschreibung der vorliegenden Erfindung beschreibt, dass Verfahren zum Identifizieren von SNPs unter Verwendung vielmehr von RNA-Genomen als RCGs durchgeführt werden können. RNA-Genome unterscheiden sich von RCGs dadurch, dass sie von RNA anstatt von DNA hergestellt werden. Ein RNA-Genom kann zum Beispiel eine cDNA-Präparation sein, die durch reverse Transkription von RNA, die von Zellen eines Individiuums erhalten wurde (z.B. von menschlichen Ovar-Karzinomzellen), gemacht wurde. So kann ein RNA-Genom aus DNA-Sequenzen zusammengesetzt sein, solange die DNA von RNA stammt. RNA kann auch direkt verwendet werden.
  • Das Genotypisieren und andere Verfahren der Erfindung können auch unter Verwendung eines RNA-Genotypisierungsverfahrens durchgeführt werden. Das Verfahren involviert vielmehr die Verwendung von RNA als DNA als die Quelle der Nukleinsäure für das Genotypisieren. Die RNA wird revers transkribiert (z.B. unter Verwendung einer reversen Transkriptase), um cDNA für die Verwendung als ein RNA-Genom zu produzieren. Das RNA-Verfahren hat mindestens einen Vorteil gegenüber den auf DNA basierenden Verfahren. SNPs in den codierenden Regionen (cSNPs) sind wahrscheinlicher direkt in nachweisbare Phänotypen involviert und sind daher mit größerer Wahrscheinlichkeit in Bezug darauf aussagefähig, wie solche Phänotypen beeinflusst werden können. Darüber hinaus, da dieses Verfahren nur einen reversen Transkriptionsschritt erfordern kann, ist es offen für eine Hochleistungs-Analyse. Ein reverser Transkriptase-Primer, der nur einen Untersatz von RNA-Spezies bindet (z.B. ein dT-Primer, der einen 3-Basen-Anker hat, z.B. TTTTTTTTTTCAG; SEQ ID NO: 2), kann verwendet werden, um die Komplexität des RNA-Genoms weiter zu vermindern (48-fach unter Verwendung des dt-3-Basen-Anker-Primers). Im RNA-Genotypisierungsverfahren der Erfindung kann die RNA/cDNA-Probe an eine Oberfläche angehaftet sein und mit einem SNP-ASO hybridisiert werden.
  • In einem anderen Aspekt schließt die Erfindung ein Verfahren zum Identifizieren eines SNPs ein. Genomische Fragmente, die SNPs einschließen, können gemäß der Erfindung durch Herstellen eines Satzes von Primern von einem RCG (z.B. ist ein RCG aus einem Satz von PCR-Produkten zusammengesetzt), Durchführen einer PCR unter Verwendung des Satzes von Primern, um eine Vielzahl von isolierten Genomen zu amplifizieren, um DNA-Produkte zu produzieren, und Identifizieren von SNPs, die in den DNA-Produkten eingeschlossen sind, hergestellt werden. Das Vorliegen eines SNPs im DNA-Produkt kann unter Verwendung von Verfahren wie dem direkten Sequenzieren, d.h. unter Verwendung der Didesoxy-Kettenterminierung von Maxam Gilbert (siehe z.B. Sambrook et al., „Molecular Cloning: A Laboratory Manual", Cold Spring Harbor Laboratory, 1989, New York; oder Zyskind et al., Recombinant DNA Laboratory Manual, Acad. Press, 1988), denaturierender Gradienten-Gelelektrophorese, um eine unterschiedliche Sequenz abhängig von den Schmelzeigenschaften und der elektrophoretischen Wanderung der SNPs-enthaltenden DNA-Fragmente zu identifizieren (siehe z.B. Erlich, Hrsg., PCR-Technology, Principles and applications for DNA Amplification, Freemann and Co., NY, 1992), und Konformationsanalyse, um Sequenzen basierend auf Unterschieden in den elektrophoretischen Wanderungsmustern von einzelsträngigen DNA-Produkten zu unterscheiden (siehe z.B. Orita et al., Proc. Natl. Acad. Sci. 86, 2766-2770, 1989), identifiziert werden. In bevorzugten Ausführungsformen werden die SNPs basierend auf den Sequenzen der Polymerase-Kettenreaktions-Produkte, die unter Verwendung von Sequenzierungsverfahren identifiziert wurden, identifiziert.
  • Ein „Einzel-Nukleotid-Polymorphismus" oder „SNP", wie hierin verwendet, ist ein einzelnes Basenpaar (d.h. ein Paar von komplementären Nukleotidresten auf gegenüberliegenden genomischen Strängen) innerhalb einer DNA-Region, in dem die Identitäten der gepaarten Nukleotidreste von Individuum zu Individuum variieren. Am variablen Basenpaar im SNP treten zwei oder mehrere alternative Basenpaarungen in einer relativ hohen Häufigkeit (mehr als 1%) in einer Individuen- (z.B. menschlichen) Population auf.
  • Eine „polymorphe Region" ist eine Region oder ein Segment der DNA, wobei die Nukleotidsequenz davon von Individuum zu Individuum variiert. Die zwei DNA-Stränge, die außer an der variablen Position zueinander komplementär sind, werden als Allele bezeichnet. Ein Polymorphismus ist allelisch, weil manche Mitglieder einer Spezies ein Allel haben und andere Mitglieder ein variantes Allel haben, und manche haben beide. Wenn nur eine variante Sequenz existiert, wird ein Polymorphismus als ein di-allelischer Polymorphismus bezeichnet. Es gibt drei mögliche Genotypen in einer di-allelischen polymorphen DNA in einem diploiden Organismus. Diese drei Genotypen entstehen, weil es möglich ist, dass die DNA eines diploiden Individuums für ein Allel homozygot, homozygot für das andere Allel oder heterozygot (d.h. es hat eine Kopie von jedem Allel) sein kann. Wenn andere Mutationen vorliegen, ist es möglich, tri-allelische oder Polymorphismen von höherer Ordnung zu haben. Diese Polymorphismen mit mehreren Mutationen produzieren kompliziertere Genotypen.
  • SNPs sind für das Untersuchen von Sequenzvariation gut geeignet, weil sie relativ stabil sind (d.h. sie zeigen niedrige Mutationsraten) und weil es scheint, dass SNPs für vererbte Merkmale verantwortlich sein können. Diese Eigenschaften machen SNPs als genetische Marker für das Identifizieren von Krankheits assoziierten Genen besonders nützlich. SNPs sind auch für solche Zwecke wie Kopplungsuntersuchungen in Familien, Bestimmen eines Kopplungs-Ungleichgewichts in isolierten Populationen, Durchführen einer Assoziationsanalyse von Patienten und Kontrollen und Untersuchungen über den Verlust der Heterozygotie in Tumoren nützlich.
  • Ein beispielhaftes Verfahren für das Identifizieren von SNPs wird in den Beispielen unten präsentiert. Kurz, die DOP-PCR wird unter Verwendung von genomischer DNA, die von einem Individuum erhalten wird, durchgeführt, Die Produkte werden auf einem Agarose-Gel aufgetrennt. Die Produkte werden aufgrund der ungefähren Länge in ungefähr 8 Segmente aufgetrennt, die Größen von etwa 400-1000 Basenpaaren haben, und Genbanken werden von jedem der Segmente hergestellt. Dieser Ansatz verhindert, dass die Genbank durch ein oder zwei reichlich vorhandene Produkte dominiert wird. Eine Plasmid-DNA wird von individuellen Kolonien isoliert, die Teile der Genbank enthalten. Insertionen werden isoliert, und die Enden der Insertionen werden unter Verwendung von Vektor-Primern sequenziert. Ein neuer Satz von Primern wird dann basierend auf diesen Insertionssequenzen synthetisiert, um zu ermöglichen, dass eine PCR unter Verwendung eines RCGs durchgeführt wird, das von einem oder mehreren Individuen oder von einem Pool von Individuen erhalten wurde. Die DNA-Produkte, die durch die PCR hergestellt wurden, werden sequenziert und auf das Vorliegen von zwei Nukleotidresten an einer Stelle inspiziert, einem Hinweis, dass ein Polymorphismus an jener Position in einem der Allele existiert.
  • Ein „Primer", wie hierin verwendet, ist ein Polynukleotid, das mit einer Ziel-Nukleinsäure hybridisiert, zu der es komplementär ist, und in der Lage ist, als ein Initiator der Nukleinsäure-Synthese unter Bedingungen für die Primer-Extension zu wirken. Primer-Extensionsbedingungen schließen eine Hybridisierung zwischen dem Primer und der Matrize, das Vorliegen von freien Nukleotiden, ein Ketten-Erweiterungsenzym, z.B. eine DNA-Polymerase, und eine geeignete Temperatur und einen geeigneten pH-Wert ein.
  • Ein Satz von Primern kann durch zu mindestens die folgenden Schritte hergestellt werden: Herstellen eines RCGs, zusammengesetzt aus einem Satz von PCR-Produkten, Auftrennen des Satzes von PCR-Produkten in individuelle PCR-Produkte, Bestimmen der Sequenz von jedem Ende von mindestens einem der PCR- Produkte und Herstellen des Satzes von Primern für die Verwendung im folgenden PCR-Schritt, basierend auf der Sequenz der Enden des/der Insertion(en).
  • Ein „Satz von PCR-Produkten", wie hierin verwendet, ist eine Vielzahl von synthetischen Polynukleotidsequenzen, wobei jede Polynukleotidsequenz verschieden von einer anderen ist, mit Ausnahme einer Ausdehnung von Nukleotiden in den 5'- und 3'-Regionen der Polynukleotide, die in jedem Polynukleotid identisch sind. Diese Regionen entsprechen mit den Primern, die verwendet werden, um das RCG herzustellen, und die Sequenz in diesen Regionen variiert abhängig davon, welcher Primer verwendet wird. Wenn ein DOP-PCR-Primer verwendet wird, hat die Sequenz, die in jedem Primer variiert, vorzugsweise eine Sequenz Nx, worin x 5-12 ist und N irgendein Nukleotid ist. Ein Satz von DNA-Produkten ist verschieden von einem „Satz von PCR-Produkten", wie hierin verwendet, und bezieht sich auf eine DNA, die durch PCR unter Verwendung von spezifischen Primern, die einen spezifischen Locus amplifizieren, hergestellt wird.
  • Sobald die Sequenz eines Primers bekannt ist, kann der Primer von einer Nukleinsäure-Präparation gereinigt werden, die ihn einschließt, oder er kann synthetisch hergestellt werden. Zum Beispiel können Nukleinsäurefragmente von Nukleinsäuresequenzen in Genomen, Plasmiden oder anderen Vektoren durch ortsspezifische Spaltung usw. isoliert werden. Alternativ können die Primer durch chemische de novo-Synthese wie durch Verwenden von synthetischen Phosphotriester- oder Phosphodiester-Verfahren wie jenen, die im US Patent Nr. 4,356,270 ; Itakura et al. (1989), Ann. Rev. Biochem., 53:323-56; und Brown et al. (1979), Meth. Enzymol., 68:109, beschrieben sind, hergestellt werden. Primer können auch unter Verwendung einer rekombinanten Technologie wie jener, die in Sambrook, „Molecular Cloning: A Laboratory Manual", Cold Spring Harbor Laboratory, S. 390-401 (1982) beschrieben ist, hergestellt werden.
  • Der Begriff „Nukleotidrest" bezeichnet eine einzelne monomere Einheit einer Nukleinsäure wie DNA oder RNA. Der Begriff „Basenpaar" bezeichnet zwei Nukleotidreste, die komplementär zueinander sind und zu einer Wasserstoffbrückenbindung miteinander in der Lage sind. Traditionelle Basenpaare sind G:C und T:A. Die Buchstaben G, C, T, U und A bezeichnen (Desoxy)Guanosin, (Desoxy)Cytidin, (Desoxy)Thymidin, Uridin beziehungsweise (Desoxy)Adenosin. Der Begriff „Nukleinsäuren", wie hierin verwendet, bezeichnet eine Klasse von Molekülen, einschließlich einzelsträngiger und doppelsträngiger Desoxyribonukleinsäure (DNA, Ribonukleinsäure (RNA) und Polynukleotide. In den Verfahren der Erfindung verwendete Nukleinsäuren schließen natürlich vorkommende und synthetische Nukleinsäuren, Nukleinsäure-Analoge, modifizierte Nukleinsäuren, Nukleinsäuren, die modifizierte Nukleotide enthalten, modifizierte Nukleinsäure-Analoge und Gemische von irgendwelchen von diesen ein.
  • SNPs, die in den hierin beschriebenen Genotypisierungsverfahren identifiziert oder nachgewiesen wurden, können auch durch andere Verfahren, die auf dem Fachgebiet bekannt sind, identifiziert werden. Viele Verfahren sind für das Identifizieren von SNPs beschrieben worden (siehe z.B. WO95/12607 , Borstein, et al., Am. J. Hum. Genet, 32:314-331 (1980), usw.). In manchen Ausführungsformen wird es bevorzugt, dass die SNPs unter Verwendung desselben Verfahrens identifiziert werden, das danach für die Genotyp-Analyse verwendet werden wird.
  • Wie oben kurz diskutiert, sind die SNPs und RCGs der Erfindung für eine Vielfalt von Zwecken nützlich. Zum Beispiel sind die SNPs und RCGs nützlich für das Durchführen der Genotypisierungsanalyse; zum Identifizieren eines Individiuums wie im Vaterschafts- oder Mutterschaftstesten, in Einwanderungs- und Erbschafts-Streitigkeiten, in Züchtungstests in Tieren, im Zygositätstesten bei Zwillingen, in Tests auf Inzucht in Menschen und Tieren; in der Bewertung einer Transplantat-Tauglichkeit wie bei Knochenmark-Transplantationen; in der Identifizierung von menschlichen und tierischen Überresten; in der Qualitätskontrolle von kultivierten Zellen, im forensischen Testen wie der forensischen Analyse von Samenproben, Blutflecken und anderen biologischen Materialien; in der Charakterisierung des genetischen Aufbaus eines Tumors durch Testen auf den Verlust der Heterozygotie; in der Bestimmung der Allelfrequenz eines bestimmten SNPs; und im Herstellen eines genomischen Klassifizierungscodes für ein Genom durch Identifizieren des Vorhandenseins oder Nicht-Vorhandenseins von jedem eines Panels von SNPs im Genom eines Individiuums und optional Bestimmen der Allelfrequenz der SNPs.
  • Eine bevorzugte Verwendung der Erfindung ist ein Hochleistungsverfahren des Genotypisierens. „Genotypisieren" ist der Vorgang der Identifizierung des Vorhandenseins oder Nicht-Vorhandenseins von spezifischen genomischen Sequenzen in der genomischen DNA. Getrennte Genome können von Individuen von Populationen isoliert werden, die durch ein gewisses phänotypisches Charakteristikum, durch den familiären Ursprung, durch die physikalische Nähe, durch die Rasse, durch die Klasse usw. in Beziehung stehen, um Polymorphismen zu identifizieren (z.B. solche, die mit einer Vielzahl von getrennten Genomen assoziiert sind), die mit dem Phänotyp, der Familie, der Lage, Rasse, Klasse usw. korreliert sind. Alternativ können getrennte Genome zufällig von Populationen isoliert werden, sodass sie außer ihrem Ursprung in der Population keine Beziehung zu einander haben. Die Identifizierung von Polymorphismen in solchen Genomen weist auf das Vorhandensein oder Nicht-Vorhandensein der Polymorphismen in der Population als Ganzes hin, ist aber nicht notwendigerweise mit einem bestimmten Phänotyp korreliert.
  • Obwohl das Genotypisieren oft verwendet wird, um einen Polymorphismus zu identifizieren, der mit einem bestimmten phänotypischen Merkmal assoziiert ist, ist diese Korrelation nicht notwendig. Das Genotypisieren erfordert nur, dass ein Polymorphismus vorhanden ist, der in einer codierenden Region liegen kann oder nicht. Wenn das Genotypisieren verwendet wird, um ein phänotypisches Charakteristikum zu identifizieren, wird angenommen, dass der Polymorphismus das phänotypische Merkmal, das charakterisiert wird, beeinflusst. Ein Phänotyp kann wünschenswert, schädlich oder in manchen Fällen neutral sein.
  • Polymorphismen, die gemäß den Verfahren der Erfindung identifiziert werden, können zu einem Phänotyp beitragen. Manche Polymorphismen treten in einer Protein-codierenden Sequenz auf und können daher die Proteinstruktur beeinflussen, wodurch ein beobachteter Phänotyp bewirkt wird oder dazu beigetragen wird. Andere Polymorphismen treten außerhalb der Protein-codierenden Sequenz auf, beeinflussen aber die Expression des Gens. Noch andere Polymorphismen treten lediglich nahe von Genen von Interesse auf und sind als Marker jenes Gens nützlich. Ein einzelner Polymorphismus kann mehr als ein phänotypisches Charakteristikum verursachen oder dazu beitragen, und gleichermaßen kann ein einzelnes phänotypisches Charakteristikum aufgrund von mehr als einem Polymorphismus vorhanden sein. Im Allgemeinen korrelieren mehrere Polymorphismen in einem Gen mit demselben Phänotyp. Zusätzlich kann dadurch, ob ein Individuum heterozygot oder homozygot für einen bestimmten Polymorphismus ist, das Vorhandensein oder Nicht-Vorhandensein eines bestimmten phänotypischen Merkmals beeinflusst werden.
  • Eine phänotypische Korrelation wird durch Identifizieren einer experimentellen Population von Individuen, die ein phänotypisches Charakteristikum zeigt, und einer Kontrollpopulation, die jenes phänotypische Charakteristikum nicht zeigt, durchgeführt. Es wird gesagt, dass Polymorphismen, die in der experimentellen Population von Individuen auftreten, die ein phänotypisches Charakteristikum teilen, und die nicht in derselben Kontrollpopulation auftreten, Polymorphismen sind, die mit einem phänotypischen Merkmal korreliert sind. Sobald ein Polymorphismus als mit einem phänotypischen Merkmal korreliert identifiziert worden ist, können Genome von Individuen, die das Potenzial haben, ein phänotypisches Merkmal oder Charakteristikum zu entwickeln, gescreent werden, um das Auftreten oder Nicht-Auftreten des Polymorphismus in den Genomen der Individuen zu bestimmen, um zu etablieren, ob jene Individuen wahrscheinlich letztendlich das phänotypische Charakteristikum entwickeln. Diese Typen von Analysen Werder im Allgemeinen an Individuen mit einem Risiko für das Entwickeln einer bestimmten Störung wie der Huntington-Krankheit oder Brustkrebs ausgeführt.
  • Ein phänotypisches Merkmal umspannt jeden Typ eines genetischen Krankheit, Zustands oder Charakteristikums, deren(dessen) Vorhandensein oder Nicht-Vorhandensein in einem Individuum positiv bestimmt werden kann. Phänotypische Merkmale, die genetische Krankheiten oder Zustände sind, schließen multifaktorielle Krankheiten, von denen eine Komponente genetisch sein kann (z.B. infolge des Auftretens eines SNPs in einem Individuum), und eine Prädisposition für eine solche Krankheit ein. Diese Krankheiten schließen solche wie Asthma, Krebs, Autoimmun-Krankheiten, Entzündung, Blindheit, Geschwüre, Herz- oder kardiovaskuläre Krankheiten, Nervensystem-Störungen und die Anfälligkeit für eine Infektion durch pathogene Mikroorganismen oder Viren ein, sind aber nicht darauf limitiert. Autoimmun-Krankheiten schließen rheumatoide Arthritis, multiple Sklerose, Diabetes, systemischen Lupus erythematodes und die Basedow-Krankheit ein, sind aber nicht darauf limitiert. Krebsarten schließen Krebsarten der Blase, des Gehirns, der Brust, des Kolons, des Ösophagus, der Niere, des hämatopoietischen Systems, z.B. Leukämie, der Leber, der Lunge, der Mundhöhle, des Ovars des Pankreas, der Prostata, der Haut, des Magens und des Uterus ein, sind aber nicht darauf limitiert. Ein phänotypisches Charakteristikum schließt jede andere Eigenschaft eines Individuums als eine Krankheit oder Störung ein, dessen Vorhandensein oder Nicht- Vorhandensein nachgewiesen werden kann. Solche Charakteristika können in manchen Fällen mit dem Auftreten eines SNPs in einem Individuum assoziiert sein, das das Charakteristikum zeigt. Beispiele der Charakteristika schließen die Anfälligkeit für Drogen- oder andere therapeutische Behandlungen, das Auftreten, die Größe, Farbe (z.B. von blühenden Pflanzen), die Stärke, Geschwindigkeit (z.B. eines Rennpferdes), die Haarfarbe usw. ein, sind aber nicht darauf limitiert. Viele Beispiele von phänotypischen Merkmalen, die mit einer genetischen Variation assoziiert sind, sind beschrieben worden, siehe z.B. US-Patent Nr. 5,908,978 (das die Assoziation der Krankheitsresistenz in bestimmten Spezies von Pflanzen identifiziert, die mit genetischen Variationen assoziiert ist) und US-Patent Nr. 5,942,392 (das genetische Marker beschreibt, die mit der Entwicklung der Alzheime-Krankheit assoziiert sind).
  • Die Identifizierung von Assoziationen zwischen genetischen Variationen (z.B. des Auftretens von SNPs) und phänotypischen Merkmalen ist für viele Zwecke nützlich. Zum Beispiel ist die Identifizierung einer Korrelation zwischen dem Vorliegen eines SNP-Allels in einem Individuum und der schlussendlichen Entwicklung einer Krankheit durch das Individuum besonders nützlich für das Verabreichen von frühen Behandlungen oder die Einführung von Änderungen des Lebensstils (z.B. Reduzieren von Cholesterin oder fetthaltigen Lebensmitteln, um eine kardiovaskuläre Krankheit in Individuen zu vermeiden, die eine größere Prädisposition als normal für eine solche Krankheit haben) oder das genaue Überwachen eines Patienten auf die Entwicklung von Krebs oder einer anderen Krankheit. Sie kann auch im pränatalen Screenen nützlich sein, um zu identifizieren, ob ein Fötus von einer schweren Krankheit betroffen ist oder prädisponiert ist, eine schwere Krankheit zu entwickeln. Zusätzlich ist dieser Typ von Information nützlich für das Screenen von Tieren oder Pflanzen, die zum Zweck des Verstärkens oder Zeigens von erwünschten Charakteristika gezüchtet werden.
  • Ein Verfahren zum Bestimmen eines Genotyps, der mit einer Vielzahl von Genomen assoziiert ist, ist das Screenen auf das Vorhandensein oder Nicht-Vorhandensein eines SNPs in einer Vielzahl von RCGs. Zum Beispiel kann ein solches Screenen unter Verwendung einer Hybridisierungsreaktion durchgeführt werden, einschließlich eines SNP-ASOs und der RCGs. Entweder das SNP-ASO oder die RCGs können optionell auf einer Oberfläche immobilisiert werden. Der Genotyp wird basierend darauf bestimmt, ob das SNP-ASO mit mindestens manchen der RCGs hybridisiert. Andere Verfahren zum Bestimmen eines Genotyps involvieren Verfahren, die nicht auf einer Hybridisierung basieren, einschließlich, aber nicht limitiert auf massenspektrometrische Verfahren. Verfahren zum Durchführen der Massenspektrometrie unter Verwendung von Nukleinsäure-Proben sind beschrieben worden. Siehe z.B. US-Patent Nr. 5,885,775 . Die Komponenten des RCGs können durch Massenspektrometrie analysiert werden, um das Vorhandensein oder Nicht-Vorhandensein eines SNP-Allels im RCG zu identifizieren.
  • Ein „SNP-ASO", wie hierin verwendet, ist ein Oligonukleotid, das ein von zwei alternativen Nukleotiden an einer polymorphen Stelle in seiner Nukleotidsequenz einschließt. In manchen Ausführungsformen wird es bevorzugt, dass das Oligonukleotid nur einen einzelnen fehlgepaarten Nukleotidrest, nämlich den polymorphen Rest, im Vergleich zu einem Allel eines SNPs einschließt. In anderen Fällen kann das Oligonukleotid jedoch zusätzliche Nukleotid-Fehlpaarungen wie neutrale Basen enthalten oder kann Nukleotid-Analoge einschließen. Dies wird unten detaillierter beschrieben. In bevorzugten Ausführungsformen ist das SNP-ASO aus etwa 10 bis 50 Nukleotidresten zusammengesetzt. In mehr bevorzugten Ausführungsformen ist es aus etwa 10 bis 25 Nukleotidresten zusammengesetzt.
  • Oligonukleotide können von kommerziellen Quellen wie Genosys, Inc., Houston, Texas, gekauft werden oder können alternativ auf einem Applied Biosystems-381A-DNA-Synthesegerät oder einem äquivalenten Typ von Maschine de novo synthetisiert werden.
  • Die Oligonukleotide können durch irgendein Verfahren, das auf dem Fachgebiet bekannt ist, markiert werden. Ein bevorzugtes Verfahren ist das End-Markieren, das durchgeführt werden kann, wie in Maniatis et al., „Molecular Cloning: A Laboratory Manual", Cold Spring Harbor Laboratories, Cold Spring Harbor, New York (1982), beschrieben.
  • Es ist möglich, dass in Organismen, die ein relativ nicht-komplexes Genom haben, nur ein minimaler Komplexitäts-Verminderungsschritt nötig ist, und die genomische DNA direkt oder minimal vermindert analysiert werden kann. Dies ist besonders nützlich für das Screenen von Gewebeisolaten, um das Vorliegen eines Bakteriums nachzuweisen oder um die Bakterien zu identifizieren. Zusätzlich ist es möglich, dass nach der Entwicklung von bestimmten technischen Fortschritten (z.B. einer stringenteren Hybridisierung, einer empfindlicheren Nachweisausrüstung) sogar komplexe Genome keinen ausgedehnten Komplexitäts-Verminderungsschritt benötigen.
  • Vorzugsweise wird ein automatisiertes Genotypisieren vorgenommen. Im Allgemeinen wird die genomische DNA einer gut charakterisierten Gruppe von Subjekten wie der CEPH-Familien unter Verwendung der PCR mit geeigneten Primern verarbeitet, um RCGs zu produzieren. Die DNA wird für das Genotypisieren auf eine oder mehrere Oberflächen (z.B. mehrere Glasträger) aufgetupft. Dieser Vorgang kann unter Verwendung eines Mikroarray-Tupfapparats durchgeführt werden, der mehr als 1000 Proben in einem Quadratzentimeter-Bereich oder mehr als 10000 Proben auf einem typischen Mikroskop-Objektträger auftupfen kann. Jeder Träger wird mit einem fluoreszierend markierten Allel-spezifischen SNP-Oligonukleotid unter TMAC-Bedingungen hybridisiert, die analog zu jenen sind, die unten beschrieben werden. Der Genotyp eines jeden Individuums kann durch Nachweisen des Vorhandenseins oder Nicht-Vorhandenseins eines Signals für einen ausgewählten Satz von SNP-ASOs bestimmt werden. Ein Schema des Verfahrens ist in 4 gezeigt.
  • Sobald die Komplexität der genomischen DNA, die von einem Individuum erhalten wurde, vermindert worden ist, können die resultierenden genomischen DNA-Fragmente an eine feste Unterlage angeheftet werden, um durch Hybridisierung analysiert zu werden. Die RCG-Fragmente können an den Träger durch jedes Verfahren zum Anheften von DNA auf eine Oberfläche angeheftet werden. Verfahren zum Immobilisieren von Nukleinsäuren sind ausführlich beschrieben worden, z.B. in den US-Patenten Nr. 5,679,524 ; 5,610,287 ; 5,919,626 ; und 5,445,934 . Zum Beispiel können DNA-Fragmente auf poly-L-Lysin-beschichtete Glasträger aufgetupft und dann durch UV-Bestrahlung vernetzt werden. Ein zweites bevorzugteres Verfahren, das entwickelt worden ist, involviert das Einschließen einer 5'-Aminogruppe an jedem der DNA-Fragmente des RCGs. Die DNA-Fragmente werden auf Silan-beschichtete Träger in der Anwesenheit von NaOH getupft, um die Fragmente kovalent an den Träger anzuheften. Dieses Verfahren ist vorteilhaft, weil eine kovalente Bindung zwischen den Fragmenten und der Oberfläche gebildet wird. Ein anderes Verfahren zum Erreichen der DNA-Fragment-Immobilisierung ist, RCG-Fragmente auf eine Nylonmembran aufzutupfen. Andere Verfahren zum Binden der DNA an Oberflächen sind möglich und sind Fachleuten wohlbekannt. Zum Beispiel kann das Anheften an Aminoalkyl-beschichtete Träger verwendet werden. Detailliertere Verfahren werden in den Beispielen, nachstehend, beschrieben.
  • Die Oberfläche, an die die Oligonukleotid-Arrays konjugiert sind, ist vorzugsweise eine starre oder halbstarre Unterlage, die optionell geeignete Lichtabsorptions- oder lichttransmittierende Charakteristika für die Verwendung bei einer kommerziell erhältlichen Nachweisausstattung haben kann. Substrate, die allgemein verwendet werden und die geeignete Lichtabsorptions- oder lichttransmittierende Charakteristika haben, schließen Glas, Si, Ge, GaAs, GaP, SiO2, SiN4, modifiziertes Silicium und Polymere wie (Poly)Tetraflourethylen, (Poly)Vinylidendifluorid, Polystyrol, Polycarbonat oder Kombinationen davon ein, sind aber nicht darauf limitiert. Zusätzlich kann die Oberfläche der Unterlage nicht-beschichtet oder mit einer Vielfalt an Materialien beschichtet sein. Beschichtungen schließen Polymere, Plastikarten, Harze, Polysaccharide, Silika oder auf Silika basierende Materialien, Kohlenstoff, Metalle, anorganische Gläser und Membranen ein, sind aber nicht darauf limitiert.
  • In einer Ausführungsform werden die SNP-ASOs unter Standard-Hybridisierungsbedingungen mit RCGs hybridisiert, die kovalent an eine Oberfläche konjugiert sind. Kurz, SNP-ASOs werden an ihren 5'-Enden markiert. Ein Hybridisierungsgemisch, das die SNP-ASOs und optionell ein isostabilisierendes Mittel, Denaturierungsmittel oder einen Renaturierungs-Beschleuniger enthält, wird mit einem Array von RCGs, die auf der Oberfläche immobilisiert sind, in Kontakt gebracht, und das Gemisch und die Oberfläche werden unter geeigneten Hybridisierungsbedingungen inkubiert. Die SNP-ASOs, die nicht hybridisieren, werden durch Waschen des Arrays mit einem Waschgemisch (wie einem Hybridisierungspuffer) entfernt, um nur hybridisierte SNP-ASOs an der Oberfläche angeheftet zu lassen. Nach dem Waschen wird der Nachweis der Markierung (z.B. eines fluoreszierenden Moleküls) durchgeführt. Zum Beispiel kann ein Bild der Oberfläche eingefangen werden (z.B. unter Verwendung eines Fluoreszenzmikroskops, das mit einer CCD-Kamera und automatisierten Objekttisch („stage")-Fähigkeiten, Phosphoabbildungsgerät usw. ausgestattet ist). Die Markierung kann auch unter Verwendung eines Mikroarray-Scanners (z.B. von einem, der durch Genetic Microsystems gemacht wird) oder anstelle dessen detailliert dargestellt werden. Ein Mikroarray-Scanner liefert eine Bildanalyse, die in ein binäres (d.h. +/-) Signal für jede Probe unter Verwendung von zum Beispiel einer von einigen verfügbaren Software-Anwendungen (z.B. NIH image, ScanAnalyze usw.) in einem Datenformat konvertiert werden kann. Das hohe Signal/Geräusch-Verhältnis für diese Analyse ermöglicht es, dass die Bestimmung von Daten in dieser Weise geradlinig und leicht zu automatisieren ist. Diese Daten, sobald sie exportiert sind, können manipuliert werden, um ein Format herzustellen, das direkt durch menschliche Genetik-Anwendungen (wie CRI-MAP und LINKAGE durch Software) analysiert werden kann. Zusätzlich können die Verfahren zwei oder mehrere fluoreszierende Farbstoffe verwenden, die spektral unterschieden werden können, um die Zahl der zu analysierenden Proben zu reduzieren. Wenn zum Beispiel vier fluoreszierende Farbstoffe, die spektrale Unterschiede haben (z.B. die ABI-Prism-Farbstoffe 6-FAM, HEX, NED, ROX), verwendet werden, dann können vier Hybridisierungsreaktionen unter einer einzigen Hybridisierungsbedingung ausgeführt werden. In anderen Ausführungsformen, die unten detaillierter beschrieben werden, werden die SNP-ASOs an eine Oberfläche konjugiert und mit RCGs hybridisiert.
  • Die Bedingungen für eine optimale Hybridisierung werden unten in den Beispielen beschrieben. Im Allgemeinen ist das SNP-ASO in einem Hybridisierungsgemisch in einer Konzentration von etwa 0,005 Nanomol pro Liter SNP-ASO-Hybridisierungsgemisch bis etwa 50 nM SNP-ASO pro ml Hybridisierungsgemisch vorhanden. Mehr bevorzugt ist die Konzentration von 0,5 Nanomol pro Liter bis 1 Nanomol pro Liter. Eine bevorzugte Konzentration für die Radioaktivität sind 0,66 Nanomol pro Liter. Das Gemisch schließt vorzugsweise auch ein hybridisierungoptimierendes Mittel ein, um die Signalunterscheidung zwischen genomischen Sequenzen, die identisch komplementär zum SNP-ASO sind und jenen zu verbessern, die ein einzelnes fehlgepaartes Nukleotid enthalten (sowie alle neutralen Basen- usw. Austausche). Isostabilisierende Mittel sind Verbindungen wie Betaine und niedrigere Tetraalkylammonium-Salze, die die Sequenzabhängigkeit der DNA-Wärmeschmelz-Übergänge reduzieren. Diese Typen von Verbindungen erhöhen auch die Unterscheidung zwischen gepaarten und fehlgepaarten SNPs/Genomen. Ein denaturierendes Mittel kann auch in das Hybridisierungsgemisch eingeschlossen werden. Ein denaturierendes Mittel ist eine Zusammensetzung, die die Schmelztemperatur von doppelsträngigen Nukleinsäuremolekülen im Allgemeinen durch Reduzieren von Wasserstoffbrückenbindungen zwischen Basen oder Verhindern der Hydration von Nukleinsäuremolekülen senkt. Denaturierende Mittel sind auf dem Fachgebiet wohlbekannt und schließen zum Beispiel DMSO, Formaldehyd, Glycerin, Harnstoff, Formamid und chaotrope Salze ein. Die Hybridisierungsbedingungen sind im Allgemeinen jene, die üblicherweise auf dem Fachgebiet verwendet werden, wie jene, die in Sambrook et al., „Molecular Cloning: A Laboratory Manual", (1989), 2. Aufl., Cold Spring Harbor, NY; Berger und Kimmel, „Guide to Molecular Cloning Techniques", Methods in Enzymology, (1987), Band 152, Academic Press, Inc., San Diego, CA; und Young und Davis, (1983), PNAS (USA) 80:1194, beschrieben sind.
  • Im Allgemeinen liegen die Inkubationstemperaturen für die Hybridisierung von Nukleinsäuren im Bereich von etwa 20°C bis 75°C. Für Sonden von 17 Nukleotidresten oder länger ist ein bevorzugter Temperaturbereich für die Hybridisierung von etwa 50°C bis 54°C. Die Hybridisierungstemperatur für längere Sonden ist vorzugsweise von etwa 55°C bis 65°C und ist für kürzere Sonden weniger als 52°C. Die Rehybridisierung kann in einer Vielfalt von Zeitrahmen durchgeführt werden. Vorzugsweise wird die Hybridisierung von SNP und RCGs für mindestens 30 Minuten durchgeführt.
  • Vorzugsweise sind entweder das SNP-ASO oder das RCG oder beide markiert. Die Markierung kann direkt an das SNP-ASO oder das RCG während der Synthese des Oligonukleotids oder während der Herstellung von RCG-Fragmenten angefügt werden. Zum Beispiel wird eine PCR-Reaktion, die unter Verwendung von markierten Primern oder markierten Nukleotiden durchgeführt wird, ein markiertes Produkt produzieren. Markierte Nukleotide (z.B. Fluorescein-markiertes CTP) sind kommerziell erhältlich. Verfahren für das Anheften von Markierungen an Nukleinsäuren sind Fachleuten wohlbekannt und schließen zusätzlich zum PCR-Verfahren zum Beispiel eine Nick-Translation und End-Markierung ein.
  • Markierungen, die für die Verwendung in den Verfahren der vorliegenden Erfindung geeignet sind, schließen jeden Typ von Markierung ein, der durch Standardmittel nachweisbar ist, einschließlich spektroskopischer, photochemischer, biochemischer, elektrischer, optischer oder chemischer Verfahren. Bevorzugte Typen von Markierungen schließen fluoreszierende Markierungen wie Fluorescein ein. Eine fluoreszierende Markierung ist eine Verbindung, umfassend mindestens ein Fluorophor. Kommerziell erhältliche fluoreszierende Markierungen schließen zum Beispiel Fluorescein-Phosphoramidide wie Fluoreprime (Pharmacia, Piscataway, NJ), Fluoredite (Millipore, Redford, MA), FAM (ABI, Foster City, CA), Rhodamin, Polymethadin-Farbstoff-Derivat, Phosphore, Texas-Rot, grün-fluoreszierendes Protein, CY3 und CY5 ein. Polynukleotide können mit einem oder mehreren spektral unterschiedlichen fluoreszierenden Markierungen markiert werden. „Spektral unterschiedliche" fluoreszierende Markierungen sind Markierungen, die voneinander basierend auf einem oder mehreren ihrer charakteristischen Absorptionsspektren, Emissionsspektren, Fluoreszenz-Lebenszeiten oder dergleichen unterschieden werden können. Spektral verschiedene fluoreszierende Markierungen haben den Vorteil, dass sie in Kombination im („Multiplexverfahren") verwendet werden können. Radionuklide wie 3H, 125I, 35S, 14C oder 32P sind auch nützliche Markierungen gemäß den Verfahren der Erfindung. Eine Vielzahl von radioaktiv unterscheidbaren Radionukliden kann verwendet werden. Solche Radionuklide können zum Beispiel basierend auf dem Typ der Strahlung (z.B. α-, β- oder δ-Strahlung), die durch die Radionuklide emittiert werden, unterschieden werden. Das 32P-Signal kann unter Verwendung eines Phosphoabbildungsgeräts, der derzeit eine Auflösung von ungefähr 50 Mikron hat, nachgewiesen werden. Andere bekannte Techniken wie Chemiluminiszenz oder Kolorimetrie (enzymatische Farbreaktion) können auch verwendet werden.
  • Durch Verwenden von spektral verschiedenen fluoreszierenden Sonden ist es möglich, mehr als einen Locus durch ein einzelnes Hybridisierungsgemisch zu analysieren. Der Begriff „Multiplexen" bezeichnet die Verwendung eines Satzes von verschiedenen fluoreszierenden Markierungen in einem einzigen Test. Solche fluoreszierenden Markierungen sind auf dem Fachgebiet ausführlich beschrieben worden, wie die fluoreszierenden Markierungen, die in der veröffentlichten PCT-Patentanmeldung WO 98/31834 beschrieben sind.
  • Fluoreszierende Primer sind ein bevorzugtes Verfahren des Markierens von Polynukleotiden. Der fluoreszierende Tag ist für mehr als ein Jahr stabil. Radioaktiv markierte Primer sind für einen kürzeren Zeitraum stabil. Zusätzlich können fluoreszierende Primer in Kombination verwendet werden, wenn sie spektral verschieden sind, wie oben diskutiert. Dies ermöglicht es, dass mehrere Hybridisierungen in einem einzigen Hybridisierungsgemisch nachgewiesen werden können. Als ein Ergebnis wird die Gesamtzahl der Reaktionen, die für ein Genomweites Scannen erforderlich sind, vermindert. Zum Beispiel werden für die Analyse von 1000 Loci 2000 Hybridisierungen benötigt (1000 Loci × 2 Polymorphismen/Locus). Die Verwendung von vier fluoreszierend markierten Oligonukleotiden wird diese Zahl vierfach reduzieren, und so werden nur 500 Hybridisierungen benötigt werden.
  • Um den Genotyp eines Individuums an einem SNP-Locus zu bestimmen, ist es wünschenswert, eine SNP-Allel-spezifische Oligonukleotid-Hybridisierung anzuwenden. Vorzugsweise werden zwei Hybridisierungsgemische für jeden Locus hergestellt (oder sie können zusammen durchgeführt werden). Das erste Hybridisierungsgemisch enthält ein markiertes (z.B. radioaktiv oder fluoreszierend) SNP-ASO (typischerweise 17-21 Nukleotidreste lang, zentriert um den polymorphen Rest). Um die Spezifität zu erhöhen, wird ein 20-50-facher Überschuss von nicht-markierten Oligonukleotiden, die einem anderen Allel entsprechen (hierin als ein „komplementäres SNP-ASO" bezeichnet), in das Hybridisierungsgemisch eingeschlossen. Die Verwendung des nicht-markierten komplementären SNP-ASOs kann durch Verwenden eines SNP-ASOs vermieden werden, das eine neutrale Base enthält, wie oben beschrieben. Im zweiten Hybridisierungsgemisch ist das SNP-ASO, das im ersten Gemisch markiert war, nicht markiert, und das nicht-markierte SNP-ASO ist anstelle dessen markiert. Die Hybridisierung wird in der Anwesenheit eines Hybridisierungspuffers durchgeführt. Die Schmelztemperatur der Oligonukleotide kann empirisch für jedes Experiment bestimmt werden. Das Paar von 2 Oligonukleotiden, die unterschiedlichen Allelen desselben SNPs entsprechen (die SNP-ASOs und das komplementäre SNP-ASO), werden hierin als ein Paar von Allel-spezifischen Oligonukleotiden (ASOs) bezeichnet. Weitere experimentelle Details, die das Selektieren und Herstellen von SNP-ASOs betreffen, werden im Beispiele-Abschnitt unten bereitgestellt.
  • Zusätzlich zu dem oben beschriebenen Verfahren können einige andere Verfahren der Allel-spezifischen Hybridisierung für die Hybridisierung von SNP-ASOs mit RCGs verwendet werden. Ein Verfahren ist, die Unterscheidung von SNPs in einer DNA-Hybridisierung mittels künstlicher Fehlpaarungen zu erhöhen. Künstliche Fehlpaarungen werden in Oligonukleotid-Sonden unter Verwendung einer neutralen Base wie des Basen-Analogs 3-Nitropyrrol inseriert. Eine signifikante Erhöhung der Unterscheidung wird im Allgemeinen erhalten, wobei eine starke Abhängigkeit der Erhöhung von den Abständen zwischen den Fehlpaarungen besteht.
  • Im Allgemeinen basieren die oben beschriebenen Verfahren auf der Konjugierung von genomischen DNA-Fragmenten (d.h. einem RCG) an eine feste Unterlage. Die Hybridisierungsanalyse kann auch mit dem SNP-ASO, das an die Unterlage konjugiert ist (z.B. in einem Array), durchgeführt werden. Der Oligonukleotid-Array wird mit einem oder mehreren RCGs hybridisiert. Das Anheften der SNP-ASOs oder RCGs an die Unterlage kann durch jedes Verfahren, das auf dem Fachgebiet bekannt ist, durchgeführt werden. Viele Verfahren zum Anheften von Oligonukleotiden an Oberflächen in Arrays sind beschrieben worden, siehe z.B. die veröffentlichte PCT-Patentanmeldung WO97/29212 , US-Patente Nr. 4,588,682 ; 5,667,976 ; und 5,760,130 . Andere Verfahren schließen zum Beispiel das Verwenden von Arrays aus Metall-Nadeln ein. Zusätzlich können RCGs durch die Verfahren, die in den Beispielen unten offenbart werden, an die Oberfläche angeheftet werden.
  • Ein „Array", wie hierin verwendet, ist ein Satz von Molekülen, die in einer spezifischen Ordnung in Bezug auf eine Oberfläche angeordnet sind. Vorzugsweise ist der Array aus Polynukleotiden (z.B. entweder SNP-ASOs oder RCGs) zusammengesetzt, die an die Oberfläche geheftet sind. Oligonukleotid-Arrays können verwendet werden, um Nukleinsäureproben auf eine Ziel-Nukleinsäure zu screenen, die mit einem nachweisbaren Marker markiert sein kann. Ein fluoreszierendes Signal, das aus der Hybridisierung zwischen einer Ziel-Nukleinsäure und einem Substrat-gebundenen Oligonukleotid resultiert, liefert Informationen in Bezug auf die Identität der Ziel-Nukleinsäure durch Bezugnahme auf die Lokalisation des Oligonukleotids in dem Array auf dem Substrat. Solch ein Hybridisierungstest kann Tausende von Signalen herstellen, die unterschiedliche Signalstärken zeigen. Diese Signale entsprechen bestimmten Oligonukleotiden des Arrays. Unterschiedliche Signalstärken werden basierend auf der Menge der markierten Ziel-Nukleinsäure, die mit einem Oligonukleotid des Arrays hybridisiert, entstehen. Diese Menge kann im Gegenzug durch den Anteil von AT-reichen Regionen und GC-reichen Regionen im Oligonukleotid (was die Hitzestabilität bestimmt) beeinflusst werden. Die relativen Mengen der hybridisierten Ziel-Nukleinsäure können auch durch zum Beispiel die Zahl der verschiedenen Sonden, die auf dem Substrat angeordnet werden, die Länge der Ziel-Nukleinsäure und den Grad der Hybridisierung zwischen fehlgepaarten Resten beeinflusst werden. Oligonukleotid-Arrays haben in manchen Ausführungsformen eine Dichte von mindestens 500 Eigenschaften pro Quadratzentimeter, aber können in der Praxis viel niedrigere Dichten haben. Eine Eigenschaft, wie hierin verwendet, ist ein Bereich eines Substrats, auf dem Oligonukleotide, die eine einzelne Sequenz haben, immobilisiert sind.
  • Die Beschreibung der vorliegenden Erfindung betrifft Oligonukleotid-Arrays, die durch jedes Verfahren, das auf dem Fachgebiet bekannt ist, produziert werden können. Viele solche Arrays sind kommerziell erhältlich, und viele Verfahren zum Produzieren derselben sind beschrieben worden. Ein bevorzugtes Verfahren zum Produzieren von Arrays schließt die räumlich-gerichtete Oligonukleotidsynthese ein. Ein räumlich gerichtete Oligonukleotidsynthese kann unter Verwendung einer Lichtgerichteten Oligonukleotidsynthese, Mikrolithographie, Anwendung durch Tintenstrahl, Mikrokanal-Ablagerung an eine bestimmten Stelle und Sequestrierung mit physikalischen Barrieren durchgeführt werden. Jedes dieser Verfahren ist auf dem Fachgebiet wohlbekannt und ist ausführlich beschrieben worden. Zum Beispiel ist das Licht-gelenkte Oligonukleotidsynthese-Verfahren in den US-Patenten Nr. 5,143,854 ; 5,489,678 ; und 5,571,639 ; und den PCT-Anmeldungen, die die Veröffentlichungsnummern WO90/15070 ; WO92/10092 ; und WO94/12305 haben, offenbart worden. Diese Technik involviert eine Modifikation der Oberfläche der festen Unterlage mit Linkern und photolabilen schützenden Gruppen unter Verwendung einer photolitographischen Maske, um reaktive (z.B. Hydroxyl-) Gruppen in den beleuchteten Regionen zu produzieren. Ein 3'-O-Phosphoramidaktiviertes Desoxynukleotid, das eine 5'-Hydroxyl-geschützte Gruppe hat, wird auf die Oberfläche aufgetragen, sodass eine Kopplung an den Stellen erfolgt, die Licht ausgesetzt werden. Das Substrat wird abgespült, und die Oberfläche wird mit einer zweiten Maske beleuchtet, und ein anderes aktiviertes Desoxyribonukleotid wird der Oberfläche präsentiert. Der Zyklus wird wiederholt, bis der erwünschte Satz von Produkten erhalten wird. Nachdem der Zyklus beendet ist, können die Nukleotide mit Kappenstrukturen versehen werden. Ein anderes Verfahren involviert das mechanische Schützen von Teilen der Oberfläche und das selektive Schutzgruppen entfernen/Koppeln von Materialien an die exponierten Teile der Oberfläche, wie das Verfahren, beschrieben in US Patent Nr. 5,384,261 . Das mechanische Mittel wird im Allgemeinen als eine Maske bezeichnet. Andere Verfahren für die Array-Herstellung sind in den veröffentlichten PCT-Patentanmeldungen WO97/39151 , WO98/20967 und WO98/10858 , die einen automatisierten Apparat für die chemische Synthese von molekularen Arrays beschreiben, US Patent Nr. 5,143,854 , Fodor et al., Science (1991), 251:767-777 und Kozal et al., Nature Medicine, Bd. 2, S. 753-759 (1996), beschrieben.
  • Das Hybridisieren eines SNP-ASOs mit einem Array von RCGs (oder Hybridisieren eines RCGs mit einem Array von SNP-ASO) wird von einem Nachweis der Hybridisierung gefolgt. Ein Teil der Genotypisierungsverfahren, die hierin beschrieben sind, ist festzustellen, ob ein positives oder negatives Signal für jede Hybridisierung für ein Individuum besteht, und dann basierend auf dieser Information den Genotyp für den entsprechenden SNP-Locus festzustellen. Dieser Schritt ist relativ geradlinig, aber variiert in Abhängigkeit von dem Verfahren des Nachweises. Im Wesentlichen können alle der hierin beschriebenen Nachweisverfahren (fluoreszierend, radioaktiv usw.) auf eine digitale Bilddatei z.B. unter Verwendung eines Mikroarray-Aufzeichnungsgeräts oder eines Phosphoabbildungsgeräts reduziert werden. Derzeit gibt es einige Software-Produkte, die ein Gitter auf einem Bild überlagern und den Signalstärkewert für jedes Element des Gitters bestimmen werden. Diese Werte können in ein Computerprogramm wie das Microsoft Corporation-Tabellenkalkulations-Programm, genannt Microsoft ExcelTM, importiert werden, mit dem eine einfache Analyse durchgeführt werden kann, um jedem Signal einen manipulierbaren Wert (z.B. 1 oder 0 oder + oder -) zuzuteilen. Sobald dies durchgeführt ist, kann der Genotyp eines Individuums in Form des Hybridisierungsmusters von RCG-Fragmenten, die vom Individuum erhalten wurden mit einem ausgewählten SNP-ASO, das mit Krankheits-assoziierten SNPs entspricht, beschrieben werden.
  • Der Array, der markierte SNP-ASOs (oder markierte RCGs) daran hybridisiert hat, kann unter Verwendung einer automatisierten Ausstattung analysiert werden. Eine automatisierte Ausstattung für das Analysieren von Arrays kann eine Exzitations-Strahlungsquelle, die eine Strahlung bei einer ersten Wellenlänge emittiert, ein optisches Nachweisgerät und eine Plattform für das Sichern der Oberfläche, die den Array stützt, einschließen. Die Exzitationsquelle emittiert eine Exzitationsstrahlung, die auf mindestens ein Gebiet des Arrays fokussiert ist und die die Emission von fluoreszierenden Markierungen induziert. Das Signal tritt vorzugsweise in der Form einer Strahlung auf, die eine andere Wellenlänge als die Exzitationsstrahlung hat. Die emittierte Strahlung wird durch ein Nachweisgerät gesammelt, das ein Signal herstellt, das proportional zu der Menge der Strahlung ist, die darauf erkannt wird. Der Array kann dann bewegt werden, sodass ein anderer Bereich der Strahlungsquelle exponiert werden kann, um ein Signal zu produzieren. Sobald jeder Bereich des Arrays gescannt worden ist, wird ein zweidimensionales Bild des Arrays erhalten. Vorzugsweise wird das Bewegen des Arrays unter Verwendung einer automatisierten Ausrüstung wie einem Vielachsen-Verschiebetisch wie dem einen, der den Array bei einer konstanten Geschwindigkeit bewegt, erreicht. In alternativen Ausführungsformen kann der Array stationär bleiben, und Instrumente können ausgenutzt werden, um das Scannen des Lichts über den stationären Array zu bewirken.
  • Ein Typ von Nachweisverfahren schließt ein CCD-Bildgebungssystem ein, z.B. wenn die Nukleinsäuren mit fluoreszierenden Sonden markiert sind. Andere Nachweisgeräte sind Fachleuten wohlbekannt und werden auch oder alternativ verwendet. CCD-Bildgebungssysteme für die Verwendung mit einem Array-Nachweis sind beschrieben worden. Zum Beispiel kann ein Photodioden-Nachweisgerät auf der gegenüberliegenden Seite des Arrays von der Exzitationsquelle platziert werden. Alternativ kann eine CCD-Kamera anstelle des Photodioden-Nachweisgeräts verwendet werden, um den Array abzubilden. Ein Vorteil des Verwendens dieser Systeme ist die schnelle Aufzeichnungszeit. Im Allgemeinen kann ein gesamter 50 × 50 Zentimeter-Array in etwa 30 Sekunden oder weniger unter Verwendung einer Standardausrüstung aufgezeichnet werden. Wenn eine leistungsfähigere Ausrüstung und wirksame Farbstoffe verwendet werden, kann die Aufzeichnungszeit auf weniger als 5 Sekunden reduziert werden.
  • Sobald die Daten z.B. als ein zweidimensionales Bild erhalten werden, kann ein Computer verwendet werden, um die Daten in ein gezeigtes Bild zu transformieren, das abhängig von der Intensität der Lichtemission an einer bestimmten Stelle in der Farbe variiert. Jeder Typ von kommerzieller Software, der diesen Typ von Datenanalyse durchführen kann, kann verwendet werden. Im Allgemeinen involviert die Datenanalyse die Schritte des Nachweisens der Intensität der emittierten Fluoreszenz als eine Funktion der Position auf dem Substrat, das Entfernen der Ausreißer und das Berechnen der relativen Bindungsaffinität. Das Vorhandensein, Nicht-Vorhandensein oder die Intensität des Signals, das einer Markierung entspricht, oder mehrere dieser Aspekte werden verwendet, um das Vorhandensein oder Nicht-Vorhandensein eines SNPs zu bewerten, das der Markierung im RCG entspricht. Das Vorhandensein und Nicht-Vorhandensein von einem oder mehreren SNPs in einem RCG kann verwendet werden, um einen Genotyp zum Individuum zuzuordnen. Zum Beispiel zeigt das Folgende die Genotyp-Analyse von 3 Individuen an einem bestimmten Locus, an dem ein A/G-Polymorphismus auftritt:
    Individuum SNP 1-Allel „A" SNP 1-Allel „G" Genotyp
    Larry + - A/A
    Moe - + G/G
    Curly + + A/G
  • Wie oben erwähnt, kann die SNP-Analyse verwendet werden, um zu bestimmen, ob ein Individuum ein bestimmtes phänotypisches Merkmal hat oder entwickeln wird und ob das Vorhandensein oder Nicht-Vorhandensein eines spezifischen Allels mit einem bestimmten phänotypischen Merkmal korreliert. Um festzustellen, welche SNPs mit einem bestimmten phänotypischen Merkmal in Beziehung stehen, werden genomische Proben von einer Gruppe von Individuen isoliert, die das bestimmte phänotypische Merkmal zeigen, und die Proben werden auf das Vorliegen von gemeinsamen SNPs analysiert. Die genomische Probe, die von jedem Individuum erhalten wurde, wird verwendet, um ein RCG herzustellen. Diese RCGs werden unter Verwendung von Panels von SNPs in einem Hochleistungsverfahren der Erfindung gescreent, um festzustellen, ob das Vorhandensein oder Nicht-Vorhandensein eines bestimmten Allels mit dem Phänotyp assoziiert ist. In manchen Fällen kann es möglich sein, die Wahrscheinlichkeit, dass ein bestimmtes Individuum den in Beziehung stehenden Phänotyp zeigen wird, vorherzusagen. Wenn ein bestimmtes polymorphes Allel in 30% der Individuen, die Alzheimer-Krankheit entwickeln, vorhanden ist, dann hat ein Individuum, das jenes Allel hat, eine höhere Wahrscheinlichkeit des Entwickelns der Alzheimer-Krankheit. Die Wahrscheinlichkeit kann auch von einigen Faktoren abhängen, wie davon, ob Individuen, die nicht von der Alzheimer-Krankheit betroffen sind, dieses Allel aufweisen, und ob andere Faktoren mit der Entwicklung der Alzheimer-Krankheit assoziiert sind. Dieser Typ der Analyse kann für das Bestimmen einer Wahrscheinlichkeit, dass ein bestimmter Phänotyp gezeigt werden wird, nützlich sein. Um die vorhersagende Fähigkeit dieses Typs der Analyse zu erhöhen, können mehrere SNPs, die mit einem bestimmten Phänotyp assoziiert sind, analysiert werden. Obwohl Werte berechnet werden können, ist es genug herauszufinden, dass ein Unterschied existiert.
  • Es ist auch möglich, SNPs zu identifizieren, die mit einer bestimmten Krankheit segregieren. Mehrere polymorphe Stellen können nachgewiesen und untersucht werden, um eine physikalische Kopplung zwischen ihnen oder zwischen einem Marker (SNP) und einem Phänotyp zu identifizieren. Beide davon sind nützlich für das Kartieren eines genetischen Locus, der mit einem phänotypischen Merkmal verknüpft oder assoziiert ist, auf eine chromosomale Position wodurch ein oder mehrere Gene aufgedeckt werden, die mit dem phänotypischen Merkmal assoziiert sind. Wenn zwei polymorphe Stellen zufällig segregieren, dann sind sie entweder auf getrennten Chromosomen oder sind in Bezug zu einander auf demselben Chromosom entfernt genug, dass sie nicht co-segregieren. Wenn zwei Stellen mit einer signifikanten Häufigkeit co-segregieren, dann sind sie miteinander auf demselben Chromosom gekoppelt. Diese Typen der Kopplungsanalyse sind nützlich für das Entwickeln von genetischen Karten. Siehe z.B. Lander et al., PNAS (USA) 83, 7353-7357 (1986), Lander et al., Genetics 121, 185-199 (1989). Die Erfindung ist auch für das Identifizieren von polymorphen Stellen nützlich, die nicht segregieren, d.h. wenn ein Geschwister eine chromosomale Region hat, die eine polymorphe Stelle einschließt, und ein anderes Geschwister jene Region nicht hat.
  • Die Kopplungssanalyse wird oft an Familienmitgliedern durchgeführt, die hohe Raten eines bestimmten Phänotyps zeigen, oder an Patienten, die an einer bestimmten Krankheit leiden. Biologische Proben werden von jedem Individiuum, das ein phänotypisches Merkmal zeigt, sowie von Individuen isoliert, die das phänotypische Merkmal nicht zeigen. Alle diese Proben werden verwendet, um individuelle RCGs herzustellen, und das Vorhandensein oder Nicht-Vorhandensein von polymorphen Markern wird unter Verwendung von Panels von SNPs bestimmt. Die Daten können analysiert werden, um zu bestimmen, ob die verschiedenen SNPs mit dem phänotypischen Merkmal assoziiert sind und ob irgendwelche SNPs mit dem phänotypischen Merkmal segregieren oder nicht.
  • Verfahren zum Analysieren der Kopplungssdaten sind in vielen Bezugnahmen beschrieben worden, einschließlich Thompson & Thompson, Genetics in Medicine (5. Auflage), W.B. Saunders Co., Philadelphia, 1991; und Strachan, „Mapping the Human Genome" in the Human Genome (Bios Scientific Publishers Ltd., Oxford) Kapitel 4, und zusammengefasst in der veröffentlichten PCT-Patentanmeldung WO98/18967 durch Affymetrix, Inc. Die Kopplungssanalyse, die das Berechnen des Log-Werts der Odds-Werte (LOD-Werte) involviert, offenbart die Wahrscheinlichkeit der Kopplung zwischen einem Marker und einem genetischen Locus an einer Rekombinations-Fraktion im Vergleich zu dem Wert, wenn der Marker und ein genetischer Locus nicht gekoppelt sind. Die Rekombinations-Fraktion weist auf die Wahrscheinlichkeit hin, dass Marker verknüpft sind. Computerprogramme und mathematische Tabellen sind für das Berechnen von LOD-Werten von verschiedenen Rekombinations-Fraktionswerten beziehungsweise das Bestimmen der Rekombinations-Fraktion basierend auf einem bestimmten LOD-Wert entwickelt worden. Siehe z.B. Lathrop, PNAS, USA 81, 3443-3446 (1984); Smith et al., Mathematical Tables for Research Workers in Human Genetics (Churchill, London, 1961); Smith, Ann. Hum. Genet. 32, 127-1500 (1968). Die Verwendung von LOD-Werten für das genetische Kartieren von phänotypischen Merkmalen wird in der veröffentlichten PCT-Patentanmeldung WO98/18967 durch Affymetrix, Inc. beschrieben. Im Allgemeinen weist ein positiver LOD-Zahlenwert darauf hin, dass zwei genetische Loci gekoppelt sind, und ein LOD-Wert von +3 oder mehr ist ein starker Hinweis, dass zwei Loci gekoppelt sind. Ein negativer Wert legt nahe, dass die Kopplung weniger wahrscheinlich ist.
  • Die Verfahren der Erfindung sind auch nützlich für das Bewerten des Verlustes der Heterozygotie in einem Tumor. Der Verlust der Heterozygotie in einem Tumor ist für das Bestimmen des Status des Tumors nützlich, z.B. ob der Tumor ein aggressiver metastatischer Tumor ist. Das Verfahren wird im Allgemeinen durch Isolieren der genomischen DNA von einer Tumorprobe, die von einer Vielzahl von Individuen erhalten wird, die Tumoren desselben Typs haben, sowie von normalem (d.h. nicht-krebsartigem) Gewebe durchgeführt, das von denselben Individuen erhalten wird. Diese genomischen DNA-Proben werden verwendet, um RCGs herzustellen, die mit einem SNP-ASO zum Beispiel unter Verwendung der hierin beschriebenen Oberflächen-Array-Technologie hybridisiert werden können. Das Fehlen eines SNP-Allels in dem RCG, das von dem Tumor hergestellt wurde, im Vergleich zu dem RCG, das von normalem Gewebe hergestellt wurde, weist darauf hin, ob ein Verlust der Heterozygotie aufgetreten ist. Wenn ein SNP-Allel mit einem metastatischen Status eines Krebses assoziiert ist, kann das Fehlen des SNP-Allels mit seinem Vorhandensein oder Nicht-Vorhandensein in einer nicht-metastatischen Tumorprobe oder einer normalen Gewebeprobe verglichen werden. Eine Datenbank von SNPs, die in normalen und Tumorgeweben auftreten, kann hergestellt werden, und ein Auftreten von SNPs in einer Probe eines Patienten kann für diagnostische oder prognostische Zwecke mit der Datenbank verglichen werden.
  • Es ist nützlich, in der Lage zu sein, nicht metastatische primäre Tumore von metastatischen Tumoren zu unterscheiden, da die Metastase ein Hauptgrund des Behandlungsversagens in Krebspatienten ist. Wenn eine Metastase früh nachgewiesen werden kann, kann sie aggressiv behandelt werden, um das Fortschreiten der Krankheit zu verlangsamen. Eine Metastase ist ein komplexer Vorgang, der das Ablösen von Zellen von einem primären Tumor, die Bewegung der Zellen durch den Kreislauf und das schlussendliche Kolonialisieren von Tumorzellen an lokalen oder entfernten Gewebestellen involviert. Zusätzlich ist es wünschenswert, in der Lage zu sein, eine Prädisposition für das Entwickeln eines bestimmten Krebs festzustellen, sodass eine Überwachung und frühe Behandlung initiiert werden kann. Viele Krebsarten und Tumore sind mit genetischen Veränderungen assoziiert. Zum Beispiel ist eine ausführliche cytogenetische Analyse von hämatologischen Malignitäten wie Lymphomen und Leukämien beschrieben worden, siehe z.B. Solomon et al., Science 254, 1153-1160, 1991. Viele feste Tumore haben komplexe genetische Anomalitäten, die einer komplexeren Analyse bedürfen.
  • Feste Tumore schreiten von der Tumorgenese durch ein metastatisches Stadium und in ein Stadium fort, in dem einige genetische Aberrationen auftreten können, z.B. Smith et al., Breast Cancer Res. Terat., 18 Ergänz. 1, S5-14, 1991. Es wird angenommen, dass genetische Aberrationen den Tumor so verändern, dass er zum nächsten Stadium fortschreiten kann, d.h. durch Verleihen von proliferativen Vorteilen, der Fähigkeit, eine Arzneistoff-Resistenz oder eine verstärkte Angiogenese, Proteolyse oder metastatische Fähigkeit zu entwickeln. Diese genetischen Aberrationen werden als „Verlust der Heterozygotie" bezeichnet. Der Verlust der Heterozygotie kann durch eine Deletion oder Rekombination verursacht werden, die in einer genetischen Mutation resultiert, die eine Rolle im Tumorfortschreiten spielt. Es wird angenommen, dass der Verlust der Heterozygotie für Tumorsuppressor-Gene eine Rolle im Tumorfortschreiten spielt. Zum Beispiel wird angenommen, dass Mutationen im Retinoblastom-Tumorsuppressor-Gen, das im Chromosom 13q14 liegt, das Fortschreiten von Retinoblastomen, Osteosarkomen, kleinzelligem Lungenkrebs und Brustkrebs verursacht. Ebenso ist gezeigt worden, dass der kurze Arm von Chromosom 3 mit Krebs wie kleinzelligem Lungenkrebs, Nierenkrebs und Ovar-Krebsarten assoziiert ist. Zum Beispiel ist die ulzerative Colitis eine Krankheit, die mit einem erhöhten Risiko für Krebs assoziiert ist, der mutmaßlich ein Fortschreiten über mehrere Schritte involviert, wobei gehäufte genetische Veränderungen involviert ( US-Patent Nr. 5,814,444 ). Es ist gezeigt worden, dass Patienten, die von einer ulzerativen Colitis von langer Dauer betroffen sind, ein erhöhtes Risiko für Krebs zeigen, und dass ein früher Marker der Verlust der Heterozygotie einer Region des distalen kurzen Arms von Chromosom 8 ist. Diese Region ist die Stelle eines mutmaßlichen Tumorsuppressor-Gens, das auch mit Prostata- und Brustkrebs in Verbindung gebracht werden kann. Der Verlust der Heterozygotie kann leicht durch routinemäßiges Durchführen der Verfahren der Erfindung an Patienten nachgewiesen werden, die von ulzerativer Colitis betroffen sind. Ähnliche Analysen können unter Verwendung von Proben durchgeführt werden, die von anderen Tumoren erhalten werden, von denen bekannt ist oder angenommen wird, dass sie mit einem Verlust an Heterozygotie assoziiert sind.
  • Die Verfahren der Erfindung sind für das Untersuchen des Verlustes der Heterozygotie besonders vorteilhaft, weil Tausende von Tumorproben zur selben Zeit gescreent werden können. Zusätzlich können die Verfahren verwendet werden, um neue Regionen des Verlusts zu identifizieren, die früher nicht in Tumoren identifiziert worden sind.
  • Die Verfahren der Erfindung sind für das Herstellen eines genetischen Musters für ein individuelles Genom eines Individiuums nützlich. Das genomische Muster eines Genoms weist auf das Vorhandensein oder Nicht-Vorhandensein von Polymorphismen, zum Beispiel SNPs, in einem Genom hin. Die genomische DNA ist einzigartig für jedes individuelle Individiuum (außer bei identischen Zwillingen). Dementsprechend ist die Wahrscheinlichkeit des Herstellens eines einzigartigen genomischen Musters für das Individuum, von dem die Probe isoliert wurde, umso höher, je mehr Polymorphismen, die für ein bestimmtes Genom eines Individiuums analysiert werden, vorhanden sind. Das genomische Muster kann für eine Vielfalt von Zwecken verwendet werden, wie für die Identifizierung im Bezug auf forensische Analyse oder Populationsidentifizierung oder Vaterschafts- oder Mutterschafts-Testen. Das genomische Muster kann auch für Klassifizierungszwecke verwendet werden sowie, um Muster von Polymorphismen in verschiedenen Populationen von Individuen zu identifizieren.
  • Genomische Muster können für viele Zwecke verwendet werden, einschließlich forensischer Analyse und Vaterschafts- oder Mutterschafts-Testen. Die Verwendung der genomischen Information für eine forensische Analyse ist in vielen Bezugnahmen beschrieben worden, siehe z.B. National Research Council, The Evaluation of Forensic DNA Evidence (EDS Pollard et al., National Academy Press, DC, 1996). Die forensische Analyse von DNA basiert auf dem Bestimmen des Vorhandenseins oder Nicht-Vorhandenseins von Allelen von polymorphen Regionen in einer genomischen Probe. Je mehr Polymorphismen, die analysiert werden, umso höher ist die Wahrscheinlichkeit des Identifizierens des korrekten Individuums, von dem die Probe isoliert wurde.
  • Wenn eine biologische Probe wie Blut oder Sperma an einem Tatort gefunden wird, kann die DNA isoliert werden und RCGs können hergestellt werden. Dieses RCG kann mit einem Panel von SNPs gescreent werden, um ein genomisches Muster herzustellen. Das genomische Muster kann mit einem genomischen Muster, das von einem Verdächtigen produziert wurde, abgeglichen oder mit einer Datenbank von genomischen Mustern verglichen werden, die erstellt worden ist. Vorzugsweise sind die SNPs, die in der Analyse verwendet werden, jene, in denen die Häufigkeit der polymorphen Variation (Allelfrequenz) bestimmt worden ist, sodass eine statistische Analyse verwendet werden kann, um die Wahrscheinlichkeit zu bestimmen, dass das Probengenom dem Genom des Verdächtigen oder einem Genom in der Datenbank entspricht. Die Wahrscheinlichkeit, dass zwei Individuen an einer bestimmten genetischen Stelle dieselbe polymorphe oder allelische Form haben, wird im Detail in der veröffentlichten PCT-Patentanmeldung WO98/18967 beschrieben, deren gesamte Inhalte hiermit durch Bezugnahme eingeschlossen sind. Kurz, diese Wahrscheinlichkeit, definiert als P(ID), kann bestimmt werden durch die Gleichung: P(ID) = (x2)2 + (2xy)2 + (y2)2,wobei x und y in der Gleichung die Häufigkeit repräsentieren, dass ein Allel A oder B in einem haploiden Genom auftreten wird.
  • Die Berechnung kann auf mehrere polymorphe Formen an einem Locus ausgedehnt werden. Die Vorhersagbarkeit steigt mit der Zahl der getesteten polymorphen Formen. In einem Locus von n Allelen wird eine binomische Expansion verwendet, um P(ID) zu berechnen. Die Wahrscheinlichkeiten von jedem Locus können multipliziert werden, um die kumulative Wahrscheinlichkeit der Identität zu liefern, und davon kann die kumulative Wahrscheinlichkeit der Nicht-Identität für eine bestimmte Zahl von Loci berechnet werden. Dieser Wert weist auf die Wahrscheinlichkeit hin, dass zufällige Individuen dieselben Loci haben. Derselbe Typ der quantitativen Analyse kann verwendet werden, um zu bestimmen, ob ein Individiuum ein Elternteil eines bestimmten Kindes ist. Dieser Typ von Information ist im Vaterschafts-Testen, in Tierzucht-Untersuchungen und in der Identifizierung von Babies oder Kindern, deren Identität, z.B. durch Adoption oder ungenügende Aufzeichnungen in einem Spital oder durch Trennung von Familien durch Vorfälle wie Erdbeben oder Krieg durcheinander gebracht worden ist, nützlich.
  • Das genomische Muster kann verwendet werden, um einen genomischen Klassifizierungscode (GNC) herzustellen. Der GNC kann durch ein oder mehrere Datensignale repräsentiert und als Teil einer Datenstruktur auf einem Computerlesbaren Medium, zum Beispiel einer Datenbank, gespeichert werden. Die gespeicherten GNCs können verwendet werden, um die Individuen, für die die GNCs hergestellt wurden, zu charakterisieren, zu klassifizieren oder zu identifizieren. Jedes GNC kann durch Repräsentieren des Vorhandenseins oder Nicht-Vorhandenseins von jedem Polymorphismus mit einem Computer-lesbaren Signal hergestellt werden. Diese Signale können dann zum Beispiel durch Durchführen einer Funktion auf den Signalen codiert werden.
  • Dementsprechend können GNCs als Teil eines Klassifizierungs- oder Identifizierungssystems für Individuen wie zum Beispiel Menschen, Pflanzen oder Tiere verwendet werden. Wie oben diskutiert, je mehr Polymorphismen, die für ein bestimmtes Genom eines Individiums analysiert werden, desto höher ist die Wahrscheinlichkeit des Herstellens eines einzigartigen genomischen Musters für das Individuum, von dem die Probe isoliert wurde und desto höher ist folglich die Wahrscheinlichkeit, dass der GNC ein Individuum eindeutig identifiziert. In solch einem System kann eine Datenstruktur eine Vielzahl von Eingaben, zum Beispiel Datenaufzeichnungen oder Tabelleneingaben einschließen, wobei jede Eingabe ein Individuum identifiziert. Jede Eingabe kann den GNC, der für das Individuum hergestellt wurde, sowie andere einschließen. Der GNC oder Teile davon können dann in einer Index-Datenstruktur, zum Beispiel einer anderen Tabelle, gespeichert werden. Ein Teil eines GNC kann katalogisiert werden, sodass jeder GNC weiter durch einen Teil seines genomischen Musters im Gegensatz zu nur dem gesamten genomischen Muster klassifiziert werden kann.
  • Die Datenstrukturen können dann durchsucht werden, um ein Individuum zu identifizieren, das ein Verbrechen begangen hat. Zum Beispiel, wenn eine biologische Probe von dem Individuum (wie Blut) von einem Tatort gewonnen wird, kann der GNC des Individuums durch die hierin beschriebenen Verfahren hergestellt, und eine Datenbank von Aufzeichnungen, einschließlich GNCs, durchsucht werden, bis eine Übereinstimmung gefunden ist. Daher können die GNCs verwendet werden, um Individuen in einer Gruppe wie Soldaten im Militär, Rinder in einer Herde oder ein Produkt einer spezifischen Anbaupflanze zu klassifizieren. Zum Beispiel kann das Militär eine Datenbank herstellen, die den GNC jedes Soldaten enthält, und die Datenbank könnte verwendet werden, um, wenn nötig, den Soldaten zu identifizieren. Ebenso könnte eine Datenbank hergestellt werden, wo Aufzeichnungen und Indizes der Datenbank die GNCs von individuellen Tieren in einer Herde von Rindern einschließt, sodass verlorene oder gestohlene Tiere später identifiziert und zum richtigen Besitzer zurückgegeben werden könnten.
  • Der Code kann optionell in einen Strichcode oder eine andere von menschenlesbare oder maschinenlesbare Form konvertiert werden. Zum Beispiel kann jede Linie eines Strichcodes auf das Vorhandensein eines spezifischen Polymorphismus oder von Gruppen von spezifischen Polymorphismen für ein bestimmtes Individium hinweisen.
  • Zusätzlich ist es nützlich, die Gattung, Spezies oder eine andere taxonomische Klassifizierung, zu der ein Organismus gehört, identifizieren zu können. Die Verfahren der Erfindung können dies in einer Weise mit hohem Durchsatz erreichen. Die taxonomische Identifizierung ist für das Bestimmen des Vorhandenseins und der Identität eines pathogenen Organismus wie eines Virus, von Bakterien, Protozoen oder multizellulären Parasiten in einer Gewebeprobe nützlich. In den meisten Spitälern werden Bakterien und andere pathogene Organismen basierend auf der Morphologie, Bestimmung von Nahrungsbedürfnissen oder Fermentierungsmustern, Bestimmung einer Antibiotikum-Resistenz, dem Vergleich von Isoenzym-Mustern oder der Bestimmung der Empfindlichkeit gegenüber Bakteriophagen-Stämmen identifiziert. Diese Typen von Verfahren benötigen im Allgemeinen 48 bis 72 Stunden, um den pathogenen Organismus zu identifizieren. In neuerer Zeit sind Verfahren zum Identifizieren von pathogenen Organismen auf die Genotyp-Analyse zum Beispiel unter Verwendung von RFLPs gerichtet worden. Die RFLP-Analyse ist unter Verwendung von Hybridisierungsverfahren (wie Southern-Blots) und PCR-Tests durchgeführt worden.
  • Die Information, die gemäß den Verfahren der Erfindung hergestellt wurde, und insbesondere die GNCs können in eine Datenstruktur, zum Beispiel eine Datenbank auf einem Computer-lesbarem Medium eingeschlossen werden, in dem die Information mit einer anderen Information betreffend die Genome oder Individuen oder Typen von Individuen, von denen die Genome erhalten werden, korreliert werden. 5 zeigt eine Computersystem 100 zum Speichern und Manipulieren von genomischer Information. Das Computersystem 100 schließt eine genomische Datenbank 102 ein, die eine Vielzahl von Aufzeichnungen 104a-n einschließt, die Information speichern, die einer Vielzahl von Genomen entspricht. Jede der Aufzeichnungen 104a-n kann genetische Information über jedes Genom oder ein RCG, das daraus hergestellt wird, speichern. Die Genome, für die die Information in der genomischen Datenbank 102 gespeichert wird, können jede Art von Genomen von jedem Typ von Individuum sein. Zum Beispiel können die Genome verschiedene Genome von individuellen Mitgliedern einer Spezies, insbesondere von Klassen der Individuen, d.h. Militär, Gefangene usw. repräsentieren.
  • Ein Beispiel des Formats einer Aufzeichnung 200 in der genomischen Datenbank 102 (d.h. eine der Aufzeichnungen 104a-n) ist in 6A gezeigt. Wie in 6A gezeigt, schließt die Aufzeichnung 200 ein Genom-Identifinationsmittel (Genom ID) 202 ein, der das Genom identifiziert, das der Aufzeichnung 200 entspricht. Wenn genügend Polymorphismen des Genoms analysiert wurden, um das spektrale Muster herzustellen (so, dass die Möglichkeit groß ist, dass der GNC das Genom eindeutig identifiziert), oder wenn eine Gruppe, zu der das Genom gehört, wenig genug Mitglieder hat, dann könnte der GNC des Genoms als die Genom ID 202 dienen. Die Aufzeichnung 202 kann auch die genomischen Informationsfelder 204a-n einschließen. Die genomische Information kann jede Information sein, die mit dem Genom, das durch die Genom ID 202 identifiziert wird, assoziert ist, zum Beispiel ein GNC, ein Teil eines GNC, das Vorhandensein oder Nicht-Vorhandensein eines bestimmten SNPs, eine genetische Eigenschaft (Genotyp), einer physikalischen Eigenschaft (Phänotyp), ein Name, ein taxonomisches Identifikationsmittel, einer Klassifizierung des Genoms, eine Beschreibung des Individuums, von dem das Genom genommen wurde, einer Krankheit des Individuums, eine Mutation, eine Farbe usw. Jedes Informationsfeld 204a-n kann als eine Eingabe in eine Index-Datenstruktur verwendet werden, die eine ähnliche Struktur zur Aufzeichnung 200 hat. Zum Beispiel kann jede Eingabe der Index-Datenstruktur ein indiziertes Informationsfeld als ein erstes Datenelement und eine oder mehrere Genom IDs 202 als zusätzliche Elemente einschließen, sodass alle Elemente, die eine gemeinsame Eigenschaft teilen, in einer gemeinsamen Datenstruktur gespeichert sind. Das Format der Aufzeichnung 200, das in 6A gezeigt ist, ist lediglich ein Beispiel eines Formats, das verwendet werden kann, um Genome in der genomischen Datenbank 102 zu repräsentieren. Die Menge der für jede Aufzeichnung 200 gespeicherten Information, die Anzahl der Aufzeichnungen 200 und die Anzahl der indizierten Felder können variieren.
  • Weiterhin kann jedes Informationsfeld 204a-n an sich ein oder mehrere Felder selbst einschließen, und jedes dieser Felder kann selbst mehrere Felder usw. einschließen. Bezugnehmend auf 6B ist eine Ausführungsform des Informationsfelds 204a gezeigt. Das Informationsfeld 204a schließt eine Vielzahl von Feldern 206a-m für das Speichern von mehr Information über die Information ein, die durch das Informationsfeld 204a repräsentiert ist. Obwohl die folgende Beschreibung sich auf die Felder 206a-m der Gen-ID 204a bezieht, ist eine solche Beschreibung gleich anwendbar auf die Informationsfelder 204b-n. Wenn zum Beispiel das Informationsfeld 204a einen GNC des Genoms repräsentierte, das mit der Genom-ID 202 entspricht, dann kann jedes der Felder 206a-m einen Teil des GNC, einen bestimmten SNP des genomischen Musters, von dem der GNC hergestellt wurde, eine Gruppe solcher SNPs, eine Beschreibung des GNCs, eine Beschreibung eines der SNPs usw. repräsentieren.
  • Die Felder 206a-m der Gen-ID 204a können jede Art von Wert speichern, der in einem Computer-lesbaren Medium gespeichert werden kann, wie zum Beispiel einen binären Wert, einen hexadezimalen Wert, eine integralen dezimalen Wert oder einen Schwebepunkt-Wert.
  • Ein Benutzer kann eine Anfrage an die genomische Datenbank 102 durchführen, um nach der genomischen Information von Interesse, zum Beispiel nach allen Genomen, die einen GNC haben, der mit dem GNC eines Mordverdächtigen übereinstimmt, zu suchen. In einem anderen Beispiel kann es bekannt sein, dass eine biologische Probe eine bestimmte Sequenz enthält. Jene Sequenz kann mit Sequenzen in der Datenbank verglichen werden, um eine Information zu identifizieren, z.B. von welchem Individuum die Probe isoliert wurde oder ob die genetische Sequenz einem bestimmten phänotypischen Merkmal entspricht. Zum Beispiel kann der Benutzer die genomische Datenbank 102 nach genetischen Übereinstimmungen durchsuchen, um ein Individuum, Genotypen, die mit einem bestimmten Phänotyp korrelieren, Genotypen, die mit verschiedenen Klassen von Individuen assoziiert sind, usw. zu identifizieren. Bezugnehmend auf 5 kann ein Benutzer eine Benutzereingabe 106 bereitstellen, die auf genomische Information hinweist, nach der eine Anfrage-Benutzerschnittstelle 108 durchsucht werden soll. Die Benutzereingabe 106 kann zum Beispiel auf einen SNP hinweisen, nach dem unter Verwendung einem Standardcharakter-basierenden Vermerks gesucht werden soll. Die Anfrage-Benutzerschnittstelle 108 kann zum Beispiel eine graphische Benutzerschnittstelle (GUI) bereitstellen, die es dem Benutzer erlaubt, aus einer Liste von Typen von zugänglicher genetischer Information unter Verwendung eines Eingabeinstruments wie eines Keyboards oder einer Maus auszuwählen.
  • Die Anfrage-Benutzerschnittstelle 108 stellt basierend auf der Benutzereingabe 106 eine Suchanfrage 110 her. Eine Suchmaschine 112 erhält die Suchanfrage 110 und stellt basierend auf der Suchanfrage eine Maske 114 her. Beispiel-Formate der Maske 114 und Wege, in denen die Maske 114 verwendet werden kann, um zu bestimmen, ob die genomische Information, die durch die Maske 114 beschrieben ist, mit der genomischen Information von Genomen in der genomischen Datenbank 102 übereinstimmt, werden unten detaillierter in Bezug auf 7 beschrieben. Die Suchmaschine 112 bestimmt, ob die genomische Information, die durch die Maske 114 beschrieben wird, mit der genomischen Information von Genomen übereinstimmt, die in der genomischen Datenbank 102 gespeichert ist. Als ein Ergebnis der Suche stellt die Suchmaschine 112 Suchergebnisse 116 her, die darauf hinweisen, ob die genomische Datenbank 102 Genome einschließt, die die genomische Information haben, die durch die Maske 114 beschrieben ist. Die Suchergebnisse 116 können auch darauf hinweisen, welche Genome in der genomischen Datenbank 102 die genomische Information haben, die durch die Maske 114 beschrieben ist.
  • Wenn zum Beispiel die Benutzereingabe 106 eine Sequenz eines Gens, einen GNC oder einen SNP beschreibt, können die Suchergebnisse 116 darauf hinweisen, welche Genome in der genomischen Datenbank 102 die spezifizierte Sequenz, den GNC oder SNP einschließen. Wenn die Benutzereingabe 106 eine bestimmte genetische Information betreffend ein Genom (z.B. genug, um ein Individuum zu identifizieren) beschreibt, können die Suchergebnisse 116 darauf hinweisen, welches individuelle Genom, das in der genomischen Datenbank 102 aufgelistet ist, mit der bestimmten Information übereinstimmt, wodurch das Individuum identifiziert wird, von dem die Probe genommen wurde. In ähnlicher Weise können die Suchergebnisse 166, wenn die Benutzereingabe 106 genetische Sequenzen beschreibt, die nicht ausreichend sind, um das Individuum spezifisch zu identifizieren, noch immer ausreichend sein, um eine Klasse von Individuen zu identifizieren, die Genome in der genomischen Datenbank 102 haben, die mit der genetischen Sequenz übereinstimmen. Zum Beispiel können die Suchergebnisse darauf hinweisen, dass die genomische Information von Genomen von allen kaukasischen Männern mit der spezifischen genetischen Sequenz übereinstimmt.
  • 7 illustriert einen Vorgang 300, der durch die Suchmaschine 112 verwendet werden kann, um die Suchergebnisse 116 herzustellen. Die Suchmaschine 112 erhält die Suchanfrage 110 von der Anfrage-Benutzerschnittstelle 108 (Schritt 302). Die Suchmaschine 112 stellt die Maske 114 her, die basierend auf der Suchanfrage 110 hergestellt wurde (Schritt 304). Die Suchmaschine 112 führt unter Verwendung der Maske 114 eine binäre Operation auf einer oder mehreren der Aufzeichnungen 104a-n in der genomischen Datenbank 102 durch (Schritt 306). Die Suchmaschine 112 stellt basierend auf den Ergebnissen der binären Operation, die im Schritt 306 durchgeführt wurden, die Suchergebnisse 116 her (Schritt 308).
  • Ein Computersystem für das Umsetzen des Systems 100 der 5 als ein Computerprogramm schließt typischerweise eine Haupteinheit ein, die sowohl mit einem Ausgabeinstrument, das einem Benutzer die Information zeigt, als auch einem Eingabeinstrument, das die Eingabe von einem Benutzer erhält, verbunden ist. Die Haupteinheit schließt im Allgemeinen einen Prozessor ein, der durch einen Zwischenverbindungsmechanismus mit einem Speichersystem verbunden ist. Das Eingabeinstrument und Ausgangsinstrument werden auch durch den Zwischenverbindungsmechanismus mit dem Prozessor und dem Speichersystem verbunden.
  • Ein oder mehrere Ausgabeinstrumente können mit dem Computersystem verbunden sein. Beispielhafte Ausgabeinstrumente schließen eine Kathodenstrahl-Röhren (CRT)-Anzeige, Flüssigkristall-Anzeigen (LCD), Drucker, Kommunikationsinstrumente wie ein Modem und eine Audio-Ausgabe ein. Ein oder mehrere Eingabeinstrumente können mit dem Computersystem verbunden sein. Beispielhafte Eingabeinstrumente schließen ein Keyboard, einen Tastenblock, einen Trackball, eine Maus, einen Schreiber und ein Tablett-Kommunikationsinstrument und Daten-Eingabeinstrumente wie Sensoren ein.
  • Das Computersystem kann ein Mehrzweck-Computersystem sein, das unter Verwendung einer Computer-Programmiersprache wie zum Beispiel C++, Java oder einer anderen Sprache wie einer Skriptsprache oder Assemblersprache programmierbar ist. Das Computersystem kann auch eine speziell programmierte Hardware für einen speziellen Zweck einschließen, wie zum Beispiel einen anwendungsspezifischen integrierten Schaltkreis (ASIC). In einem Mehrzweck-Computersystem ist der Prozessor typischerweise ein kommerziell erhältlicher Prozessor, von dem die Serie x86-, Celeron- und Pentium-Prozessoren, erhältlich von Intel, und ähnliche Instrumente von AMD und Cyrix, die 680X0-Serien-Mikroprozessoren, erhältlich von Motorola, der PowerPC-Mikroprozessor von IBM und die Alpha-Serien-Prozessoren von Digital Equipment Corporation Beispiele sind. Viele andere Prozessoren sind erhältlich. Solch ein Mikroprozessor führt ein Programm aus, genannt ein Betriebssystem, von dem Windows NT, Linux, UNIX, DOS, VMS und OS8 Beispiele sind, das die Ausführung von anderen Computerprogrammen kontrolliert und Planung, Entwanzung, Eingabe/Ausgabe-Kontrolle, Buchführung, Erfassung, Speicherzuteilung, Datenmanagement und Speicher-Management und Kommunikationskontrolle und in Beziehung stehende Bedienungen bereitstellt. Der Prozessor und das Betriebssystem definieren eine Computer-Plattform, für die Anwendungsprogramme in Programmierungssprachen auf hoher Ebene geschrieben werden.
  • Ein Speichersystem schließt typischerweise ein Computer-lesbares und schreibbares, nichtflüchtiges Aufzeichnungsmedium ein, von dem eine Magnetdiskette, ein Flash-Speicher und ein Band Beispiele sind. Die Diskette kann entfernbar, wie zum Beispiel eine Diskette oder eine Lese/Schreib-CD, oder permanent sein, bekannt als Harddrive. Eine Diskette hat eine Reihe von Spuren, in denen Signale typischerweise in binärer Form gespeichert werden, d.h. einer Form, die als eine Sequenz von Eins und Nullen interpretiert wird. Solche Signale können ein Anwendungsprogramm, um durch den Mikroprozessor ausgeführt zu werden, oder eine auf der Diskette gespeicherte Information definieren, die durch das Anwendungsprogramm verarbeitet werden soll. Typischerweise bewirkt der Prozessor in der Operation, dass Daten von dem nicht-flüchtigen Aufzeichnungsmedium in ein integriertes Kreislauf-Speicherelement gelesen werden, das typischerweise ein flüchtiger, zufälliger Zugriffsspeicher wie ein dynamischer zufälliger Zugriffsspeicher (DRAM) oder ein statischer Speicher (SRAM) ist. Das integrierte Schaltkreis-Speicherelement ermöglicht einen schnelleren Zugriff zu der Information durch den Prozessor, als ihn die Diskette ermöglicht. Der Prozessor manipuliert im Allgemeinen die Daten im integrierten Schaltkreisspeicher und kopiert dann die Daten auf die Diskette, nachdem die Verarbeitung beendet ist. Eine Vielfalt von Mechanismen ist für das Managen der Datenbewegung zwischen der Diskette und dem integrierten Schaltkreis-Speicherelement bekannt, und die Erfindung ist nicht auf einen bestimmten Mechanismus limitiert.
  • Zusätzlich kann das Computersystem, auf das hierin Bezug genommen wird, ein Multiprozessor-Computersystem sein oder kann mehrere Computer einschließen, die über ein Computer-Netzwerk verbunden sind. Es sollte selbstverständlich sein, dass jedes Modul (z.B. 108, 112) in 5 ein getrenntes Modul eines Computerprogramms sein kann oder ein getrenntes Computerprogramm sein kann.
  • Solche Module können auf getrennten Computern betriebsbereit sein. Daten (z.B. 102, 106, 110, 114 und 116) können in einem Speichersystem gespeichert werden oder zwischen Computersystemen übertragen werden. Die verschiedenen Elemente des Systems können entweder individuell oder in Kombination als ein Computerprogramm-Produkt ausgeführt werden, das greifbar in einem Maschinenlesbaren Speicherinstrument für die Ausführung durch einen Computer-Prozessor verkörpert wird. Verschiedene Schritte des Vorgangs, zum Beispiel die Schritte 302, 304, 306 und 308 von 7, können durch einen Computer-Prozessor durchgeführt werden, der ein Programm ausführt, das greifbar auf einem Computer-lesbaren Medium verkörpert wird, um Funktionen durch Tätigen der Eingabe und Herstellen einer Ausgabe durchzuführen. Computer-Programmiersprachen, die für das Anwenden eines solchen Systems geeignet sind, schließen verfahrenstechnische Programmiersprachen, Objekt-orientierte Programmiersprachen und Kombinationen der beiden ein.
  • Eine Zusammensetzung, auf die hierin Bezug genommen wird, ist eine Vielzahl von RCGs, die auf einer Oberfläche immobilisiert sind, wobei die Vielzahl von RCGs durch DOP-PCR hergestellt wird. Eine andere Zusammensetzung ist ein Panel von SNP-ASOs, die auf einer Oberfläche immobilisiert sind, worin die SNPs durch Verwenden von RCGs, wie oben beschrieben, identifiziert werden.
  • Die Beschreibung der vorliegenden Erfindung betrifft Kits, die ein Behältnis, das einen Satz von PCR-Primern zum Vermindern der Komplexität eines Genoms enthält, und ein Behältnis, das einen Satz von SNP-ASOs beherbergt, erhalten.
  • Die Beschreibung der vorliegenden Erfindung betrifft auch Zusammensetzungen, wobei eine davon eine Vielzahl von RCGs ist, die auf einer Oberfläche immobilisiert sind, wobei die Vielzahl von RCGs durch DOP-PCR hergestellt wird. Eine andere Zusammensetzung ist ein Panel von SNP-ASOs, die auf einer Oberfläche immobilisiert sind, worin die SNPs durch Verwenden von RCGs, wie oben beschrieben, identifiziert werden.
  • Hierin werden auch Kits beschrieben, die ein Behältnis, das einen Satz von PCR-Primern für das Vermindern der Komplexität eines Genoms beherbergt, und ein Behältnis erhalten, das einen Satz von SNP-ASOs beherbergt, insbesondere worin die SNPs mit einer Häufigkeit von mindestens 50 oder 55% in einem RCG, das unter Verwendung des Primersatzes gemacht wurde, vorhanden sind. In manchen Kits sind der Satz von PCR-Primern Primer für die DOP-PCR, und vorzugsweise hat der DOP-PCR-Primer die hierin beschriebene Tag-(N)x-TARGET-Struktur, d.h. worin das TARGET mindestens 7 willkürlich ausgewählte Nukleotidreste einschließt, worin x eine ganze Zahl von 3 bis 9 ist und worin jedes N irgendein Nukleotidrest ist und worin Tag ein Polynukleotid ist, wie oben beschrieben. Darüber hinaus können die SNPs in dem Kit an eine Oberfläche wie einen Träger angeheftet werden.
  • SNPs, die gemäß den Verfahren der Erfindung unter Verwendung des B1 5'-rev Primers identifiziert wurden, schließen die folgenden ein:
    Figure 00700001
    Figure 00710001
    Figure 00720001
    Figure 00730001
    Figure 00740001
    Figure 00750001
    Figure 00760001
    Figure 00770001
    Figure 00780001
    Figure 00790001
    Figure 00800001
    Figure 00810001
    Figure 00820001
    Figure 00830001
    Figure 00840001
    Figure 00850001
    Figure 00860001
  • Andere SNPs, identifiziert unter Verwendung des BJ1 DOP-PCR-Primers, schließen ein:
    Figure 00880001
    Figure 00890001
    Figure 00900001
  • Die Erfindung umspannt auch eine Zusammensetzung, umfassend eine Vielzahl von RCGs, die auf einer Oberfläche immobilisiert sind, worin die RCGs aus einer Vielzahl von DNA-Fragmenten zusammengesetzt sind, wobei jedes DNA-Fragment eine (N)x-TARGET-Polynukleotidstruktur, wie oben beschrieben, einschließt, d.h. worin der TARGET-Teil in allen DNA-Fragmenten von jedem RCG identisch ist, der Teil mindestens 7 Nukleotidreste einschließt, worin x eine ganze Zahl von 0 bis 9 ist und worin jedes N irgendein Nukleotidrest ist. Vorzugsweise schließt der TARGET-Teil mindestens 8 Nukleotidreste ein.
  • In anderen Aspekten schließt die Erfindung ein Verfahren zum Durchführen einer DOP-PCR ein. Die DOP-PCR-Technik im Stand der Technik wurde ursprünglich entwickelt, um das gesamte Genom in Fällen zu amplifizieren, wo die DNA in geringer Menge vorhanden war. Dieses Verfahren wird unter Verwendung eines Primersatzes erreicht, worin jeder Primer einen willkürlich ausgewählten Teil von sechs Nukleotidresten an seinem 3'-Ende hat. Die Komplexität des resultierenden Produkts ist aufgrund der kurzen Länge äußerst hoch und resultiert in der Amplifizierung des Genoms. Durch Erhöhen der Länge des willkürlich ausgewählten DOP-PCR-Primers von 6 Nukleotide auf 7 und vorzugsweise 8 oder mehr Nukleotidreste wird die Komplexität des Genoms signifikant vermindert.
  • Beispiele
  • Beispiel 1: Identifizierung und Isolierung von SNPs
  • Es wird geschätzt, dass SNPs mit hoher Allelfrequenz im menschlichen Genom einmal pro Kilobase oder weniger vorkommen (Cooper et al., 1985). Ein Verfahren zum Identifizieren dieser SNPs ist in 1 illustriert. Wie in 1 gezeigt, wurde eine inter-Alu-PCR an Genomen durchgeführt, die von drei nicht verwandten Individuen isoliert wurden. Die PCR-Produkte wurden cloniert, und eine Mini-Genbank wurde von jedem der drei Individuen erstellt. Die Genbank-Cloninsertionen wurden PCR-amplifiziert und auf Nylonfilter getupft. Die Clone wurden durch Hybridisierung in zwei Sätze von identischen Clonen von jedem Individuum für insgesamt 6 Clone pro übereinstimmenden Clonsatz zur Übereinstimmung gebracht. Diese Sätze von Clonen wurden sequenziert, und die Sequenzen wurden verglichen, um SNPs zu identifizieren. Dieses Verfahren des Identifizierens von SNPs hat einige Vorteile gegenüber PCR-Amplifizierungsverfahren im Stand der Technik. Zum Beispiel wird eine Sequenz von höherer Qualität von der clonierten DNA erhalten, als sie vom Zyklussequenzieren von PCR-Produkten erhalten wird. Zusätzlich repräsentiert jede Sequenz vielmehr ein spezifisches Allel, als dass sie potenziell eine Heterozygote repräsentiert. Schließlich werden Sequenzierungs-Unklarheiten, Taq-Polymerase-Fehler und andere Quellen eines Sequenzfehlers besonders bei einer einmaligen Repräsentation der Sequenz durch Anwenden eines Algorithmus vermindert, der erfordert, dass dieselbe Variantensequenz in mindestens 2 der 6 getesteten Clone besteht.
  • Im Allgemeinen kann das Alu-PCR-Verfahren zum Identifizieren von SNPs unter Verwendung einer genomischen DNA durchgeführt werden, die von unabhängigen Individuen, nicht verwandt oder verwandt, erhalten wurde. Kurz, eine Alu-PCR wird durchgeführt, die ein Produkt ergibt, das eine geschätzte Komplexität von ungefähr 100 verschiedenen genomischen Einzelkopie-DNA-Sequenzen und eine durchschnittliche Sequenzlänge von zwischen etwa 500 Basenpaaren und 1 Kilobasenpaaren hat. Die PCR-Produkte werden cloniert, und eine Mini-Genbank wird von jedem Individuum erstellt. Ungefähr 800 Clone werden von jeder Genbank ausgewählt und in eine Schale mit 96 Vertiefungen transferiert. Filterkopien von jeder Platte werden mit PCR-Sonden von individuellen Clonen hybridisiert, die von einer der Genbanken ausgewählt wurden, um einen übereinstimmenden Clonsatz von 6 Clonen, 2 von jedem Individuum, zu erzeugen. Viele Sätze von Clonen können von diesen Genbanken isoliert werden. Die Clone können sequenziert und verglichen werden, um SNPs zu identifizieren.
  • Verfahren
  • Ein Alu-Primer, bezeichnet als Primer 8C, wurde gestaltet, um ein Alu-PCR-Produkt zu produzieren, das eine Komplexität von ungefähr 100 unabhängigen Produkten hat. Der Primer 8C (der die Nucleotidsequenz CTT GCA GTG AGC CGA GATC; SEQ ID NO: 3 hat) ist komplementär zu den Basenpaaren 218-237 der Alu-Konsensussequenz (Britten et al., 1994). Um jedoch die Komplexität des Produkts zu vermindern, wurde das letzte Basenpaar des Primers ausgewählt, um dem Basenpaar 237 der Konsensussequenz zu entsprechen, einem Nukleotid, von dem gezeigt worden ist, dass es unter Alu- Sequenzen hoch-variabel ist. Der Primer 8C produziert daher ein Produkt, das eine niedrigere Komplexität als jenes hat, das unter Verwendung von Alu-Primern produziert wird, die ein Segment der Alu-Sequenz zur Übereinstimmung zu bringen, in dem es eine geringe Variation in der Nukleotidsequenz unter Alu-Familienmitgliedern gibt.
  • Vorläufige Experimente wurden durchgeführt, um die Komplexität des Produkts zu schätzen, das durch Alu-PCR-Reaktion mit dem Primer 8C auf den CEPH Mega Yacs produziert wird. Diese vorläufigen Experimente bestätigten, dass der Primer 8C eine geringere Zahl an Alu-PCR-Produkten als andere Alu-PCR-Primer produziert, wobei weniger variable Sequenzen in der Alu-Konsensussequenz in eine enge Übereinstimmung gebracht werden.
  • Drei Genbanken von Alu-PCR-Produkten wurden aus inter-Alu-PCR-Reaktionen produziert, die genomische DNA involvieren, die von drei nicht verwandten CEPH-Individuen, bezeichnet 201, 1701 und 2301, stammt. Die Reaktionen wurden bei einer Anlagerungstemperatur von 58°C für 32 Zyklen unter Verwendung des Alu-Primers 8C durchgeführt. Jeder Satz von PCR-Reaktionsprodukten wurde durch Phenol:Chloroform-Extraktion, gefolgt von Ethanol-Präzipitation, gereinigt. Die Produkte wurden in den T-Vektor pCR2.1 (Invitrogen) cloniert; in den E. coli-Stamm DH10B Electromax auf Ampicillin-enthaltenden LB-Agarplatten durch Elektroporation eingebracht. 768 Kolonien wurden von jeder der drei Genbanken in acht Platten eines Formats mit 96 Vertiefungen, enthaltend LB+ Ampicillin, gepickt und über Nacht gezüchtet. Am folgenden Tag wurde ein gleiches Volumen von Glycerin zugefügt, und die Platten wurden bei -80°C gelagert. Eine anfängliche Erfassung der gepickten Clone wies auf eine durchschnittliche Insertionsgröße von zwischen 500 Basenpaaren und 1 Kilobasenpaar hin.
  • Um übereinstimmende Clone in jeder Genbank zu identifizieren, wurde 1 Mikroliter einer Über-Nacht-Kultur, die von jeder Genbank-Plattenvertiefung gemacht wurde, einer PCR-Amplifizierung unter Verwendung von Vektor-abstammenden Primern unterzogen. Amplifizierte Insertionen wurden auf HybondTM N+-Filter (Amersham) unter Verwendung eines Wiederholungsinstruments mit 96 Nadeln getupft, sodass jeder Filter 384 Produkte, die in doppelter Ausführung vorhanden waren, hatte. Die DNA wurde einer Alkali-Denaturierung durch Standardverfahren unterzogen und durch Backen bei 80°C für 2 Stunden fixiert. Individuelle Insertionen, die von der Genbank stammen, wurden durch zufälliges Hexamer-Primen radioaktiv markiert und als Sonden gegen die drei Genbanken verwendet (6 Filter pro Sonde). Die Hybridisierung wurde über Nacht bei 42°C in Puffer, enthaltend 50% Formamid, ausgeführt, wie in Sambrook et al. beschrieben. Am folgenden Tag wurden die Filter in 2X Standard-Kochsalzcitrat (SSC), 0,1% SDS bei Zimmertemperatur für 15 Minuten gewaschen, gefolgt von 2 Waschschritten in 0,1X SSC, 0,1% SDS bei 65°C für je 45 Minuten. Die Filter wurden dann über Nacht einem Kodak-X-OMAT-Röntgenfilm ausgesetzt. Ergebnisse
  • 2 zeigt die Daten, die für die Identifizierung von SNPs erhalten wurden. Die Ergebnisse der Gelelektrophorese von genomischen inter-Alu-PCR-DNA-Produkten, die unter Verwendung des 8C-Primers hergestellt wurden, sind in 2A gezeigt. Mini-Genbanken wurden von den genomischen Alu-PCR-DNA-Produkten hergestellt. Kolonien wurden von den Genbanken gepickt, und Insertionen wurden amplifiziert. Die Insertionen wurden durch Gelelektrophorese aufgetrennt, um zu zeigen, dass jede eine einzelne Insertion war. Das Gel ist in 2B gezeigt. Sobald die individuell amplifizierten Insertionen auf HybondTM N+-Filter aufgetupft waren, wurden die Insertionen durch zufälliges Hexamer-Priming radioaktiv markiert und als Sonden der gesamten Bestandteile gegen die drei Mini-Genbanken verwendet. Einer der Filter, der 2 positive oder übereinstimmende Clone hat, ist in 2C gezeigt.
  • Die Ergebnisse des Screenens von 330 Basenpaaren von genomischer DNA durch das Verfahren mit den übereinstimmenden Clonen führte zu der Identifizierung von 6 SNPs, 4 in Einzelkopie-DNA, 2 in der flankierenden Alu-Sequenz. Diese Beobachtungen waren konsistent mit der projizierten Rate der SNP-Ströme von 1 Hochfrequenz-SNP pro 1000 Basenpaare oder weniger. Die Einzelkopie-SNPs, die identifiziert wurden, sind unten in Tabelle 1 präsentiert. Tabelle 1
    CEPH Individuum 1 2 3 4
    201 taagtGtacaa (SEQ ID NO. 5) cccacGgagaa (SEQ ID NO. 7) aattgCttccc (SEQ ID NO. 9) aaattCaatgt (SEQ ID NO. 11)
    taagtGtacaa (SEQ ID NO. 5) cccacGgagaa (SEQ ID NO. 7) aattgCttccc (SEQ ID NO. 9) aaattCaatgt.. (SEQ ID NO. 11)
    1701 taagtAtacaa (SEQ ID NO. 6) cccacAgagaa (SEQ ID NO. 8) aattgCttccc (SEQ ID NO. 9) aaattCaatgt.. (SEQ ID NO. 11)
    taagtGtacaa (SEQ ID NO. 5) cccacGgagaa (SEQ ID NO. 7) aattgTttccc (SEQ ID NO. 10) aaattCaatgt.. (SEQ ID NO. 11)
    2301 taagtGtacaa (SEQ ID NO. 5) cccacAgagaa (SEQ ID NO. 8) aattgCttccc (SEQ ID NO. 9) aaattAaatgt.. (SEQ ID. NO. 12)
    taagtGtacaa (SEQ ID NO. 5) cccacGgagaa (SEQ ID NO. 7) aattgTttccc (SEQ ID NO. 10) aaattCaatgt.. (SEQ ID NO. 11)
  • Um die Identitäten der SNPs, die in Tabelle I gezeigt sind, zu bestätigen, wurden spezifische Primer synthetisiert, die die Amplifizierung von jedem Einzelkopie-Locus ermöglichten. Zyklussequenzieren wurde dann an den PCR-Produkten von jedem der drei nicht-verwandten Individuen durchgeführt, und die Stelle des mutmaßlichen SNPs wurde untersucht. In allen Fällen war der Genotyp des Individuums, der durch Zyklus-Sequenzieren abgeleitet wurde, übereinstimmend mit dem Genotyp, der im übereistimmenden Clonsatz beobachtet wurde.
  • Beispiel 2: Allel-spezifische Oligonukleotid-Hybridisierung an Alu-PCR-SNPs
  • Verfahren
  • Eine Inter-Alu-PCR wurde unter Verwendung von genomischer DNA durchgeführt, die von 136 Mitgliedern von 8 CEPH-Familien (Nummern 102, 884, 1331, 1332, 1347, 1362, 1413 und 1416) unter Verwendung des 8C-Alu-Primers, wie oben beschrieben, erhalten wurde. Die Produkte von diesen Reaktionen wurden durch Alkali-Behandlung (10-fache Zugabe von 0,5 M NaOH, 2,0 M NaCl, 25 mM EDTA) denaturiert und auf mehrere HybondTM N+ Filter (Amersham) unter Verwendung eines Punktblot-Apparats mit 96 Vertiefungen (Schleicher und Schull) Punkt-geblottet. Für jeden SNP wurde ein Satz von zwei Allel-spezifischen Oligonukleotiden, der aus zwei 17-Rest-Oligonukleotiden besteht, die an dem polymorphen Nukleotidrest zentriert sind, synthetisiert. Jeder Filter wurde mit 1 Picomol 32P-Kinase-markierten, Allel-spezifischen Oligonukleotiden und einem 50-fachen Überschuss von nicht-markiertem Kompetitor-Oligonukleotid, das komplementär zum gegenüberliegenden Allel ist, hybridisiert (Shuber et al., 1993). Die Hybridisierungen wurden über Nacht bei 52°C in 10 ml TMAC-Puffer (3,0 M TMAC, 0,6% SDS, 1 mM EDTA, 10 mM NaPO4, pH 6,8, 5X Denhardt-Lösung, 40 Mikrogramm/Milliliter Hefe-RNA) durchgeführt. Die Blots wurden für 20 Minuten bei Zimmertemperatur in TMAC-Waschpuffer (3 M TMAC, 0,6% SDS, 1 mM EDTA, 10 mM Na3PO4, pH 6,8), gefolgt von 20 Minuten bei 52°C (52°C-52°C ist optimal), gewaschen. Die Blots wurden dann einem Kodak-X-OMAT AR-Röntgenfilm für 8-24 Stunden exponiert, und die Genotypen wurden durch das Hybridisierungsmuster bestimmt.
  • Ergebnisse
  • Die Ergebnisse des Genotypisierens und Kartierens sind in 3 gezeigt. Um die Karten-Lokalisation des SNPs zu bestimmen, wurden die Genotyp-Daten, die von den CEPH-Familien Nummer 884 und 1347 bestimmt wurden, mit der CEPH-Genotyp-Datenbank, Version 8.1 (HTTP:\\www.cephb.fr/cephdb/) durch Berechnen eines 2 Punkt-Lod-Werts unter Verwendung des Computer-Softwareprogramms MultiMap, Version 2.0, das auf einem Sparc Ultra I-Computer läuft, verglichen. Diese Analyse offenbarte eine Verbindung zum Marker D3S1292 mit einem Lod-Wert von 5,419 bei einem Theta-Wert von 0,0. Um diese Lokalisation zu bestätigen, wurde eine PCR-Amplifizierung des CCRSNP1-Markers auf dem GeneBridge 4-Strahlungshybrid-Panel (Research Genetics) durchgeführt. Diese Analyse platzierte den Marker CCRSNP1 bei 4,40 cR von D3S3445 mit einem LOD-Wert von mehr als 15,0. Integrierte Karten von der genetischen Lokalisations-Datenbank (Collins et al., 1996) wiesen darauf hin, dass die Lagen der durch diese zwei unabhängigen Verfahren identifizierten Marker überlappend sind. Diese Ergebnisse unterstützen das Kartieren sogar von Polymorphismen mit geringer Häufigkeit durch zwei Punktkopplungen mit Markern, die früher bei CEPH-Familien etabliert wurden.
  • Von den Punkt-Blots, die von jeder CEPH-Familien-PCR erhalten wurden, waren zwei Familien informativ an diesem SNP-Locus, nämlich die Familien Nummer 884 und 1347. Der Punkt-Blot ist in 3A gezeigt. Linien sind um die Signale gezeichnet, die die CEPH-Familie 884 auf dem Punkt-Blot, der in den 3A und 3B gezeigt ist, repräsentieren. Allel-spezifische Oligonukleotid-Hybridisierungen wurden auf den Filtern, die in den 3A und 3B gezeigt sind, unter TMAC-Puffer-Bedingungen mit einem G-Allel-spezifischen Oligonukleotid (3A) und einem A-Allel-spezifischen Oligonukleotid (3B) durchgeführt. Der Stanmmbaum der CEPH-Familie Nummer 884 mit den Genotypen, wie von dem Filter, der in den 3A und 3B gezeigt ist, bewertet, ist in 3C gezeigt. Die DNA war für ein Individuum in diesem Stammbaum nicht erhältlich, und jenes Quadrat ist freigelassen. Das Kartieren von CCRSNP1 wurde durch zwei unabhängige Verfahren durchgeführt. Zuerst wurden die Genotyp-Daten von den informativen CEPH-Familien Nummer 884 und 1347 mit der CEPH-Genotyp-Datenbank, Version 8,1, durch Berechnen eines Zwei-Punkt-Lod-Werts verglichen. Zweitens wurde eine PCR-Amplifizierung des CCRSNP1-Markers auf dem GeneBridge 4-Strahlungshybrid-Panel durchgeführt. Die höchsten. Lod-Werte, die durch diese Analysen bestimmt wurden, waren D3S1292 beziehungsweise D3S3445, wie in 3D gezeigt.
  • Der Prozentsatz der SNPs, die unter Verwendung der oben beschriebenen Verfahren nachgewiesen werden, ist abhängig von der Zahl der Chromosomen, die getestet wurden, sowie von der Allelfrequenz.
  • Beispiel 3: Bestätigung der SNP-Identität
  • Allel-spezifische Oligonukleotide werden basierend auf Standardprotokollen (Shuber et al., 1997) synthetisiert. Kurz, Polynukleotide von 17 Basen, die sich an der polymorphen Stelle zentrieren, werden für jedes Allel eines SNP synthetisiert. Die Hybridisierung von IRS- oder DOP-PCR-Produkten, die an eine Membran fixiert sind, wurde durchgeführt mit DNA-Punkten, gefolgt von einer Hybridisierung an Endmarkierte Allel-spezifische Oligonukleotide unter TMAC-Puffer-Bedingungen. Es ist bekannt, dass diese Bedingungen den Beitrag von AT- und GC-Basenpaaren zur Schmelztemperatur ausgleichen, wodurch eine gleichförmige Temperatur für die Hybridisierung von Allel-spezifischen Oligonukleotiden unabhängig von der Nukleotid-Zusammensetzung bereitgestellt wird.
  • Unter Verwendung dieser Methodik werden Genotypen von CEPH-Vorläufern und ihrer Nachkommen bestimmt. Die Mendelsche Trennung von jedem SNP-Marker bestätigt seine Identität als einen SNP-Marker und die erwachsene Schätzung seiner relativen Allelfrequenz und daher seine wahrscheinliche Nützlichkeit als einen genetischer Marker. Marker, die komplexe Trennungsmuster ergeben oder sehr niedrige Allelfrequenzen bei CEPH-Vorfahren zeigen, werden für eine weitere Analyse beiseitegelegt, und die verbleibenden Marker werden weiter charakterisiert.
  • Beispiel 4: Entwicklung einer detaillierten Information über die Kartenposition und Allelfrequenz für jeden SNP
  • Zwei komplementäre Verfahren werden verwendet, um für jeden Marker eine genetische Kartenposition zu etablieren. Jeder Marker wird an einer Reihe von CEPH-Familien genotypisiert. Das Ergebnis wird unter Verwendung von MultiMap (Matise et al., 1993, wie oben beschrieben) oder einer anderen geeigneten Software mit der CEPH-Datenbank verglichen, um durch Kopplung die wahrscheinlichste Position des SNP-Markers zu bestimmen.
  • Allelfrequenzen werden durch Hybridisierung mit dem weltweiten Standardpanel, den das US-NIH derzeit für Forscher für die Standardisierung eines Allelfrequenz-Vergleichs verfügbar macht, bestimmt. Die Allel-spezifische Oligonukleotid-Methodik, die für das genetische Kartieren verwendet wird, wird verwendet, um die Allelfrequenz zu bestimmen.
  • Beispiel 5: Entwicklung eines Systems zum Bewerten des Genotyps unter Verwendung von SNPs
  • Nach der Identifizierung eines Satzes von SNPs wird ein automatisiertes Genotypisieren durchgeführt. Genomische DNA eines gut charakterisierten Satzes von Individuen wie der CEPH-Familien wird unter Verwendung von geeigneten Primern PCR-amplifiziert. Diese DNA-Proben dienen als das Substrat für die System-Entwicklung. Die DNA wird für das Genotypisieren auf mehrere Glasträger getupft. Dieser Vorgang kann unter Verwendung eines Mikroarray-Tupfapparats ausgeführt werden, der mehr als 1000 Proben in einem 1 Quadratzentimeter-Bereich oder mehr als 10000 Proben auf einem typischen Mikroskop-Objektträger platzieren kann. Jeder Träger wird mit einem fluoreszierend markierten Allel-spezifischen Oligonukleotid unter TMAC-Bedingungen, die zu jenen, die oben beschrieben sind, analog sind, hybridisiert. Der Genotyp von jedem Individuum wird durch das Vorhandensein oder Nicht-Vorhandensein eines Signals für einen ausgewählten Satz von Allel-spezifischen Oligonukleotiden bestimmt. Ein Schema des Verfahrens ist in 4 gezeigt.
  • Die PCR-Produkte werden an den Träger unter Verwendung von Verfahren für das Anheften von DNA an eine Oberfläche, die auf dem Fachgebiet bekannt sind, angeheftet. Zum Beispiel können PCR-Produkte auf poly-L-Lysin-beschichtete Glasträger getupft und durch UV-Bestrahlung vor der Hybridisierung vernetzt werden. Ein zweites mehr bevorzugtes Verfahren, das gemäß der Erfindung entwickelt worden ist, involviert die Verwendung von Oligonukleotiden, die eine 5'-Aminogruppe für jede der oben beschriebenen PCR-Reaktionen haben. Die PCR-Produkte werden auf Silan-beschichtete Träger in der Anwesenheit von NaOH getupft, um die Produkte kovalent an den Träger anzuheften. Dieses Verfahren ist vorteilhaft, da eine kovalente Bindung gebildet wird, die eine stabile Anheftung an die Oberfläche produziert.
  • SNP-ASOs werden unter TMAC-Hybridisierungsbedingungen hybridisiert, wobei die RCGs kovalent an die Oberfläche konjugiert sind. Die Allel-spezifischen Oligonukleotide werden an ihren 5'-Enden mit einem fluoreszierenden Farbstoff (z.B. Cy3) markiert. Nach dem Waschen wird der Nachweis der fluoreszierenden Oligonukleotide auf eine von zwei Arten durchgeführt. Die Fluoreszabbildungen können unter Verwendung eines Fluoreszenz-Mikroskops, das mit einer CCD-Kamera und automatisierten Objekttisch-Fähigkeiten ausgestattet ist, eingefangen werden. Alternativ können die Daten unter Verwendung eines Mikroarray-Scanners (z.B. einem, der durch Genetic Microsystems hergestellt wird) erhalten werden. Ein Mikroarray-Scanner liefert eine Bildgebungsanalyse, die unter Verwendung einer von einigen erhältlichen Software-Anwendungen (z.B. NIH image, ScanAnalyze usw.) in ein digitales (z.B. +/-) Signal für jede Probe konvertiert werden kann. Das hohe Signal/Geräusch-Verhältnis dieser Analyse ermöglicht, dass die Bestimmung der Daten auf diese Art geradlinig und automatisiert ist. Diese Daten können, sobald sie exportiert sind, manipuliert werden, um mit einem Format übereinzustimmen, das durch eine von einigen menschlichen Genetik-Anwendungen wie der CRI-MAP- und LINKAGE-Software analysiert werden kann. Zusätzlich können die Verfahren die Verwendung von zwei oder mehreren fluoreszierenden Farbstoffen oder anderen Markierungen involvieren, die spektral unterschieden werden können, um die Zahl der Proben zu reduzieren, die analysiert werden müssen. Wenn zum Beispiel vier fluoreszierende, spektral verschiedene Farbstoffe (z.B. die ABI Prism-Farbstoffe 6-FAM, HEX, NED, ROX) verwendet werden, dann können vier Hybridisierungsreaktionen in einem einzigen Hybridisierungsgemisch durchgeführt werden.
  • Beispiel 6: Verminderung der Genom-Komplexität unter Verwendung der IRS-PCR oder DOP-PCR
  • Der anfängliche Schritt des oben beschriebenen SNP-Identifizierungsverfahrens und des Genotypisierungs-Ansatzes ist, die Komplexität der genomischen DNA in einer reproduzierbaren Weise zu vermindern. Der Zweck dieses Schrittes in Bezug auf das Genotypisieren ist, das Genotypisieren von mehreren SNPs unter Verwendung der Produkte einer einzelnen PCR-Reaktion zu ermöglichen. Unter Verwendung des IRS-PCR-Ansatzes wurde ein PCR-Primer synthetisiert, der eine Homologie zu einer repetitiven Sequenz trägt, die im Genom der zu analysierenden Spezies vorhanden ist (z.B. einer Alu-Sequenz in Menschen).
  • Wenn zwei Wiederholungselemente, die die Primersequenz tragen, in einer Kopf-an-Kopf-Weise in einem limitierten Abstand (ungefähr 2 Kilobasenpaare) vorhanden sind, kann die Sequenz zwischen den Wiederholungen amplifiziert werden. Das Verfahren hat den Vorteil, dass die Komplexität der resultierenden PCR dadurch kontrolliert werden kann, wie nahe der gewählte Nukleotidsequenz-Primer zu der Konsensus-Nukleotidsequenz des Wiederholungselements ist (das heißt, je näher der Wiederholungskonsensussequenz, desto komplexer ist das PCR-Produkt).
  • Im Detail wurde eine 50 Mikroliter-Reaktion für jede Probe wie folgt angesetzt:
    destilliertes, de-ionisiertes H2O (ddH2O) 30,75
    10X PCR-Puffer 5 μl
    (500 mM KCl, 100 mM Tris-HCl, pH 8,3, 15 mM MgCl2 μM, 0,1% Gelatine)
    1,25 mM dNTPs 7,5 μl
    20 μm Primer 8C 1,5 μl
    Taq-Polymerase (1,25 Einheiten) 0,25 μl
    Matrize (50 ng genomische DNA in ddH2O) 5,0 μl
    50 μl gesamt
  • Die PCR-Reaktion wurde zum Beispiel in einem Perkin Elmer 9600 Thermocycler unter den folgenden Bedingungen durchgeführt:
    1 min 94°C
    30 sec 94°C
    45 sec 58°C 32 Zyklen
    90 sec 72°C
    10 min 72°C
    Halten 4°C
  • Ein Aliquot des Reaktionsgemisches wurde auf einem Agarosegel aufgetrennt, um eine erfolgreiche Amplifizierung zu bestätigen.
  • Die RCGs wurden auch unter Verwendung der DOP-PCR mit dem folgenden Primer (CTC GAG NNN NNN AAG CGA TG) (SEQ ID NO: 4) (wobei N irgendein Nukleotid ist) durchgeführt. Die DOP-PCR verwendet einen einzelnen Primer, der typischerweise aus 3 Teilen zusammengesetzt ist, hierin bezeichnet als tag-(N)x-TARGET. Der TARGET-Teil ist ein Polynukleotid, das mindestens 7 und vorzugsweise mindestens 8 willkürlich ausgewählte Nukleotidreste umfasst, x ist eine Ganzzahl von 0 bis 9, und N ist irgendein Nukleotidrest. Tag ist ein Polynukleotid, wie oben beschrieben.
  • Die anfänglichen Runden der DOP-PCR wurden bei einer niedrigen Temperatur durchgeführt, weil die Spezifität der Reaktion vorwiegend durch die Nukleotidsequenz des TARGET-Teils und der Nx-Reste bestimmt wird. Ein langsame Temperaturanstiegs-/-abfallzeit während dieser Zyklen stellt sicher, dass sich die Primer nicht vor der Kettenextension von der Matrize lösen. Nachfolgende Amplifizierungsrunden wurden bei einer höheren Anlagerungstemperatur ausgeführt, aufgrund der Tatsache, dass das 5'-Ende des DOP-PCR-Primers auch zur Primeranlagerung beitragen kann.
  • Das DOP-PCR-Verfahren wurde unter Verwendung eines Reaktionsgemisches durchgeführt, das die folgenden Bestandteile umfasst:
    destilliertes, de-ionisiertes H2O 24 μl
    10X PCR-Puffer 5 μl
    1,25 mM dNTPs 8 μl
    20 μM Primer DOP-BJ1 (SEQ ID NO. 4) 7,5 μl
    Taq-Polymerase 0,5 μl
    (1,25 Einheiten)
    Matrize 5,0 μl
    (50 ng genomische DNA in destilliertem, de-ionisiertem H2O) 50 μl
  • Die PCR-Reaktion wurde zum Beispiel in einem Perkin Elmer 9600 Thermocycler unter Verwendung der folgenden Reaktionsbedingungen durchgeführt:
    1 min 94°C
    1 min 94°C
    1,5 min 45°C 5 Zyklen
    2 min Absenkenzu 72°C
    3 min 72°C
    1 min 94°C
    1,5 min 58°C 35 Zyklen
    3 min 72°C
    10 min 72°C
    Halten 4°C
  • Beispiel 7: Anheftung der PCR-Produkte an eine feste Unterlage
  • Sobald die Komplexität der genomischen DNA von einem Individuum vermindert worden ist, kann sie an eine feste Unterlage angeheftet werden, um die Hybridisierungsanalyse zu ermöglichen. Ein Verfahren des Anheftens von DNA an eine feste Unterlage involviert das Tupfen von PCR-Produkten auf eine Nylonmembran. Dieses Protokoll wurde wie folgt durchgeführt: Nach Beendigung der PCR-Reaktion (typischerweise in einem 50 μl-Reaktionsgemisch) wurden eine 10-fache Menge an denaturierender Lösung (500 mM NaOH, 2,0 M NaCl, 25 mM EDTA) und eine kleine Menge (5 μl) Tusche zugefügt. 60 Mikroliter des Produkts wurden auf eine vorbefeuchtete HybondTM N+-Membran (Amersham) unter Verwendung eines Punktblot-Apparats für 96 Vertiefungen von Schleicher und Schüll aufgetragen. Die Membran wurde sofort entfernt und mit der DNA-Seite nach oben für 2 Minuten auf ein Whatmann-3 MM-Papier platziert, das mit 2X SSC gesättigt war. Die Filter wurden luftgetrocknet, und die DNA wurde durch Backen in einem 80°C-Ofen für 2 Stunden an die Membran fixiert. Die Membranen wurden dann für die Hybridisierung verwendet.
  • Ein anderes Verfahren zum Anheften von Nukleinsäuren an eine Unterlage involviert die Verwendung von Mikroarrays. Dieses Verfahren heftet genaue Mengen von PCR-Produktproben an einen Glasträger an. Die Zahl der Proben, die getupft werden kann, ist mehr als 1000/cm2, und daher können mehr als 10000 Proben gleichzeitig auf einem Glasträger analysiert werden. Um dies zu erreichen, wurden vorgereinigte Glasträger in ein Gemisch von 80 ml trockenem Xylol, 32 ml 96% 3-Glycidoxypropyltrimethoxysilan und 160 μl 99% N-Ethyldiisopropylamin bei 80°C über Nacht platziert. Die Träger wurden für 5 Minuten in Ethylacetat gespült und bei 80°C für 30 Minuten getrocknet. Ein gleiches Volumen von 0,8 M NaOH (0,6 M NaOH und 0,6-0,8 M KOH funktionieren auch) wurde direkt zu dem PCR-Produkt (das eine 5'-Aminogruppe enthielt, die in den PCR-Primer inkorporiert war) zugefügt, und die Bestandteile wurden gemischt. Die resultierende Lösung wurde unter feuchten Bedingungen auf einen Glasträger getupft. Bei der frühesten Gelegenheit wurde der Träger über Nacht bei 37°C in einer feuchten Kammer platziert. Am nächsten Tag wurde der Träger aus der feuchten Kammer entfernt und bei 37°C für eine weitere Stunde gehalten. Der Träger wurde in einem 80°C Ofen für 2,5 Stunden inkubiert und dann für 5 Minuten in 0,1% SDS gewaschen. Der Träger wurde für zusätzliche 5 Minuten in ddH2O gewaschen und luftgetrocknet. Das Anheften an den Träger wurde durch OilGreen-Färbung (erhalten von Molecular Probes), die spezifisch einzelsträngige DNA bindet, überwacht.
  • Beispiel 8: Hybridisierung unter Verwendung von Allel-spezifischen Oligonukleotiden für jeden SNP
  • Um den Genotyp eines Individuums an einem ausgewählten SNP-Locus zu bestimmen, wendeten wir Allel-spezifische Oligo-Hybridisierungen an. Unter Verwendung dieses Verfahrens wurden 2 Hybridisierungsreaktionen an jedem Locus durchgeführt. Die erste Hybridisierungsreaktion involvierte ein markiertes (radioaktiv oder fluoreszierend) SNP-ASO (typischerweise 17 Nukleotidreste), das um ein Allel des SNP zentriert und komplementär dazu war. Um die Spezifität zu erhöhen, wurde ein 20- bis 50-facher Überschuss an nicht-markiertem SNP-ASO, das komplementär zu dem gegenüberliegenden Allel des SNPs ist, in das Hybridisierungsgemisch eingeschlossen. Für die zweite Hybridisierung wurde die Allel-Spezifität der vorher markierten und nicht-markierten SNP-ASOs umgekehrt. Die Hybridisierung erfolgte in der Anwesenheit eines TMAC-Puffers, der die Eigenschaft hat, dass Oligonukleotide derselben Länge dieselbe Anlagerungstemperatur haben.
  • Insbesondere wurde für die Analyse von jedem SNP ein Paar von SNP-Allel-spezifischen Oligos (SNP-ASOs), bestehend aus zwei 17-Meren, die um das polymorphe Nukleotid zentriert waren, synthetisiert. Jeder Filter wurde mit 20 pMol 33P-markierter, Kinase-markiertem SNP-ASO (0,66 pMol/ml) und einem 50-fachen Überschuss eines nicht-markierten Kompetitor-Oligonukleotids, das zum anderen Allel des SNPs komplementär war, hybridisiert. Die Hybridisierung wurde über Nacht bei 52°C in 10 ml TMAC-Puffer (3,0 M TMAC, 0,6% SDS, 1 mM EDTA, 10 mM NaPO4 6,8, 5X Denhardt-Lösung, 40 μg/ml Hefe-RNA) durchgeführt. Die Blots wurden für 20 Minuten bei Zimmertemperatur in TMAC-Waschpuffer (3 M TMAC, 0,6% SDS, 1 mM EDTA, 10 mM Na3PO4, pH 6,8) gewaschen, gefolgt von 20 Minuten Waschen bei 52°C. Die Blots wurden einem Kodak X-OMAT AR-Röntgenfilm für 8-24 Stunden exponiert, und die Genotypen wurden durch Analysieren des Hybridisierungsmusters bestimmt.
  • Beispiel 9: Bewerten des Hybridisierungsmusters für jede Probe, um den Genotyp zu bestimmen
  • Die Hybridisierung der SNP-ASOs (2 für jeden Locus) mit den IRS-PCR- oder DOP-PCR-Produkten von einigen Individuen ist durchgeführt worden. Der finale Schritt in diesem Vorgang ist zu bestimmen, ob ein positives oder negatives Signal für jede Hybridisierung für ein Individuum vorliegt, und dann, basierend auf dieser Information, den Genotyp für diesen bestimmten Locus festzustellen. Im Wesentlichen können alle der hierin beschriebenen Nachweisverfahren auf eine digitale Bildgebungsdatei reduziert werden, zum Beispiel unter Verwendung eines Mikroarray-Aufzeichnungsgeräts und unter Verwendung eines Phosphoabbildungsgeräts. Derzeit gibt es einige Software-Produkte, die ein Gitter auf das Bild überlagern und den Signalstärke-Wert an jedem Element des Gitters bestimmen werden. Diese Werte werden in ein Tabellenkalkulations-Programm wie Microsoft ExcelTM importiert, und eine einfache Analyse wird durchgeführt, um jedem Signal einen +- oder -Wert zuzuteilen. Sobald dies erreicht ist, kann der Genotyp eines Individuums durch sein Muster der Hybridisierung an die SNP-Allele, die an einem bestimmten Locus vorhanden sind, bestimmt werden.
  • Beispiel 10: Genomische Analyse unter Verwendung der DOP-PCR
  • Genomische DNA, die von ungefähr 40 Individuen isoliert wurde, wurde einer DOP-PCR unter Verwendung des Primers BJ1 (CTC GAG NNN NNN AAG CGA TG) (SEQ ID NO: 4) unterzogen. 100 Mikroliter des DOP-PCR-Gemisches wurden durch Zugabe von 10 Mikroliter 3 M Natriumacetat (pH 5,2) und 110 Mikroliter Isopropanol präzipitiert und bei -20°C für mindestens 1 Stunde gelagert. Die Proben wurden in einer Mikrozentrifuge für 30 Minuten abzentrifugiert, und der Überstand wurde entfernt. Die Pellets wurden mit 70% Ethanol gespült und wieder für 30 Minuten abzentrifugiert. Der Überstand wurde entfernt, und die Pellets wurden über Nacht bei Zimmertemperatur luftgetrocknet.
  • Die Pellets wurden dann in 12 Mikroliter destilliertem Wasser resuspendiert und bei -20°C gelagert, bis sie durch die Zugabe von 3 Mikroliter 2 N NaOH/50 mM EDTA denaturiert wurden, und bei 37°C für 20 Minuten und dann für 15 Minuten bei Zimmertemperatur belassen. Die Proben wurden dann unter Verwendung eines Genetic Microsystems GMS417-Mikroarraygeräts auf Nylon-beschichtete Glasträger getupft. Nach Beenden des Tupfens wurden die Träger für 2 Stunden in einen 80°C-Vacuumofen platziert und dann bei Zimmertemperatur gelagert. Ein Satz von 2 Allel-spezifischen SNP-ASOs, bestehend aus zwei 17-Meren, die um einen polymorphen Nukleotidrest zentriert waren, wurde synthetisiert. Jeder Träger wurde für 1 Stunde in Hyb-Puffer (3 M TMAC/0,5% SDS/1 mM EDTA/10 mM NaPO4/5X Denhardt-Lösung/40 μg/ml Hefe-RNA) vorhybridisiert, gefolgt von einer Hybridisierung mit 0,66 Picomol pro Milliliter mit 33P-markierter Kinase markiertem SNP-ASO und einem 50-fachen Überschuss von kaltem Kompetitor-SNP-ASO des gegenüberliegenden Allels in Hyb-Puffer. Die Hybridisierungen wurden über Nacht bei 52°C ausgeführt. Die Träger wurden zweimal für 30 Minuten bei Zimmertemperatur in TMAC-Waschpuffer (3 M TMAC, 0,6% SDS, 1 mM EDTA, 10 mM NaPO4, pH 6,8), gefolgt von 20 Minuten bei 54°C, gewaschen. Die Träger wurden einem Kodak-BioMax MR-Röntgenfilm exponiert. Die Ergebnisse sind in 8 gezeigt. Die Genotypen wurden durch die Hybridisierungsmuster, die in 8 gezeigt sind, in der die Loci angezeigt sind, bestimmt.
  • Die vorangehende geschriebene Beschreibung wird als ausreichend angesehen, um einem Fachmann die Ausführung der Erfindung zu ermöglichen. Die vorliegende Erfindung ist im Rahmen nicht durch die bereitgestellten Beispiele limitiert, da die Beispiele als Illustrationen von verschiedenen Aspekten der Erfindung beabsichtigt sind, und andere funktionell äquivalente Ausführungsformen liegen im Rahmen der Erfindung. Verschiedene Modifikationen der Erfindung zusätzlich zu jenen, die hierin gezeigt und beschrieben werden, werden für Fachleute aus der vorangehenden Beschreibung offensichtlich werden und liegen im Rahmen der angehängten Ansprüche. Die Vorteile und Aufgaben der Erfindung werden nicht notwendigerweise durch jede Ausführungsform der Erfindung umspannt.
  • Alle Bezugnahmen, Patente und Patent-Veröffentlichungen, die in dieser Anmeldung genannt sind, sind hierin durch Bezugnahme in ihrer Gänze eingeschlossen.

Claims (46)

  1. Verfahren zum Nachweis des Vorhandenseins oder des Nicht-Vorhandenseins eines Einzel-Polynukleotid-Polymorphismus (SNP)-Allels in einer genomischen Probe, umfassend: Herstellung eines durch PCR mit Zufallsprimern erzeugten Genoms mit verminderter Komplexität (RCG) aus der genomischen Probe, Analyse des RCG durch Hybridisierung des RCG und eines SNP-ASO zur Bestimmung des Vorhandenseins oder Nicht-Vorhandenseins eines SNP-Allels, wobei das SNP-ASO komplementär zu dem SNP-Allel ist, wobei das SNP-Allel in der genomischen Probe vorhanden ist, falls das SNP-ASO mit dem RCG hybridisiert und wobei das Vorhandensein oder Nicht-Vorhandensein des SNP-Allels zur Charakterisierung der genomischen Probe verwendet wird, und Identifizierung eines Genotyps der genomischen Probe, wobei der Genotyp durch das Vorhandensein oder Nicht-Vorhandensein der Allele des SNP im RCG identifiziert wird.
  2. Verfahren nach Anspruch 1, wobei das RCG an einer Oberfläche immobilisiert ist.
  3. Verfahren nach Anspruch 1, wobei das SNP-ASO an einer Oberfläche immobilisiert ist.
  4. Verfahren nach Anspruch 1, wobei das SNP-ASO einzeln mit einer Vielzahl von RCGs hybridisiert wird.
  5. Verfahren nach Anspruch 1, wobei das SNP-ASO eine Vielzahl von SNP- ASOs ist, wobei mindestens ein Teil davon markiert ist.
  6. Verfahren nach Anspruch 5, wobei während des Hybridisierungsschrittes ein Überschuss an nicht-markiertem SNP-ASO zugegeben wird, wobei das nicht-markierte Oligonukleotid komplementär zu einem anderen Allel desselben SNP ist als das markierte SNP-ASO.
  7. Verfahren nach Anspruch 5, weiterhin umfassend die Durchführung einer parallelen Hybridisierungsreaktion, wobei das RCG mit einem markierten SNP-ASO hybridisiert wird, wobei das Oligonukleotid komplementär zu einem anderen Allel desselben SNP ist als das markierte SNP-ASO.
  8. Verfahren nach Anspruch 7, wobei die beiden SNP-ASOs unterschiedlich markiert sind.
  9. Verfahren nach Anspruch 5, wobei ein Überschuss an nicht-markiertem SNP-ASO während der Hybridisierung vorhanden ist.
  10. Verfahren nach Anspruch 5, wobei die Markierung ein radioaktives Isotop ist.
  11. Verfahren nach Anspruch 10, wobei ferner das RCG einem Film exponiert wird, wodurch ein Signal auf dem Film erzeugt wird, das den radioaktiv markierten Hybridisierungsprodukten entspricht, falls das SNP in dem RCG vorhanden ist.
  12. Verfahren nach Anspruch 5, wobei die Markierung ein fluoreszierendes Molekül ist.
  13. Verfahren nach Anspruch 12, wobei man ferner das RCG einem automatischen Fluoreszenzaufzeichnungsgerät exponiert, wodurch ein Leistungssignal erzeugt wird, das den durch Fluoreszenz markierten Hybridisierungsprodukten entspricht, falls das SNP in dem RCG vorhanden ist.
  14. Verfahren nach Anspruch 5, wobei die Vielzahl der SNP-ASOs mit fluoreszierenden Molekülen markiert sind, wobei jedes SNP-ASO mit einem spektral unterschiedlichen fluoreszierenden Molekül markiert ist. 15. Verfahren nach Anspruch 14, wobei die Anzahl von SNP-ASOs mit spektral unterschiedlichen fluoreszierenden Molekülen mindestens zwei ist.
  15. Verfahren nach Anspruch 14, wobei die Anzahl von spektral unterschiedlichen fluoreszierenden Molekülen ausgewählt ist aus der Gruppe bestehend aus drei, vier und acht.
  16. Verfahren nach Anspruch 1, wobei eine Vielzahl von RCGs mit fluoreszierenden Molekülen markiert sind, wobei jedes RCG mit einem spektral unterschiedlichen fluoreszierenden Molekül markiert ist und wobei alle RCGs ein spektral unterschiedliches fluoreszierendes Molekül aufweisen.
  17. Verfahren nach Anspruch 1, wobei das RCG hergestellt wird durch Ausführen einer Polymerase-Kettenreaktion mit degenerierten Oligonukleotidprimern unter Verwendung eines degenerierten Oligonukleotidprimers mit einer Tag-(N)x-Ziel (TARGET)-Nukleotidsequenz, wobei die TARGET-Nukleotidsequenz weniger als 7 TARGET-Nukleotidreste einschließt, wobei x eine ganze Zahl von 0 bis 9 ist, wobei jedes N irgendein Nukleotidrest ist und wobei der Tag ein Polynukleotid mit 0 bis etwa 20 Nukleotiden ist.
  18. Verfahren nach Anspruch 18, wobei die TARGET-Nukleotidsequenz mindestens 5 Nukleotidreste einschließt.
  19. Verfahren nach Anspruch 18, wobei die TARGET-Nukleotidsequenz mindestens 6 Nukleotidreste einschließt.
  20. Verfahren nach Anspruch 1, wobei das RCG markiert ist.
  21. Verfahren nach Anspruch 3, wobei eine Vielzahl von verschiedenen SNP-ASOs an die Oberfläche angeheftet sind.
  22. Verfahren nach Anspruch 1, wobei das RCG durch Durchführung multipler geprimter DOP-PCRs hergestellt wird.
  23. Verfahren nach Anspruch 1, umfassend: Isolierung genomischer Proben aus Tumorproben, die aus einer Vielzahl von Personen erhalten wurden, und Herstellung von RCGs aus jeder genomischen Probe, wobei der Analyseschritt die Durchführung einer Hybridisierungsreaktion mit einem SNP-ASO und den RCGs umfasst, wobei das SNP-ASO komplementär zu einem Allel eines SNP ist, und wobei das Verfahren ferner die Charakterisierung der Tumorproben auf der Grundlage umfasst, ob das SNP-ASO mit mindestens einigen der RCGs hybridisiert, wobei das Allel des SNPs dann in den genomischen Proben der Tumorproben vorkommt, wenn das SNP-Oligonukleotid mit mindestens einigen der RCGs hybridisiert.
  24. Verfahren nach Anspruch 1, wobei die genomische Probe aus einem Einzelgenom stammt und wobei das Verfahren ferner die Erzeugung eines genomischen Musters für das Einzelgenom auf der Grundlage des Vorhandenseins oder Nicht-Vorhandenseins der SNP-Allele umfasst.
  25. Verfahren nach Anspruch 25, wobei die Analyse des RCG eine Hybridisierung des RCG mit einer Gruppe von SNP-ASOs einschließt, von denen jedes komplementär zu einem Allel eines SNP ist, wie auch die Identifizierung des genomischen Musters durch Bestimmung der Fähigkeit des RCG, mit jedem SNP-ASO zu hybridisieren.
  26. Verfahren nach Anspruch 25, wobei das genomische Muster ein genomischer Identifizierungscode ist, der durch das Muster von SNP-Allelen für jedes RCG erzeugt wird.
  27. Verfahren nach Anspruch 25, wobei das genomische Muster ein visuelles Muster ist.
  28. Verfahren nach Anspruch 25, wobei das genomische Muster ein digitales Muster ist.
  29. Verfahren nach einem der Ansprüche 1 bis 4, wobei die genomische Probe aus einem Tumor erhalten wird.
  30. Verfahren nach Anspruch 30, wobei eine Vielzahl von RCGs aus genomischen Proben hergestellt werden, die aus einer Vielzahl von Personen isoliert worden sind und wobei die Vielzahl von RCGs auf das Vorhandensein des SNP hin analysiert werden.
  31. Verfahren nach Anspruch 1, wobei das Vorhandensein oder Nicht-Vorhandensein des SNP-Allels in einer Vielzahl von genomsichen Proben analysiert wird, die zufällig aus einer Population ausgewählt worden sind, wobei das Verfahren ferner die Bestimmung der Allel-Frequenz des SNP-Allels in der Population umfasst und zwar durch Vergleich der Anzahl von genomischen Proben, in denen das Allel nachgewiesen wird mit der Anzahl der analysierten genomischen Proben.
  32. Verfahren nach Anspruch 1, wobei das RCG durch auf eingestreute repetitive Elemente beruhender Polymerase-Kettenreaktion (IRS-PCR) hergestellt wird.
  33. Verfahren nach Anspruch 1, wobei das RCG durch willkürlich geprimte Polymerase-Kettenreaktion (AP-PCR) hergestellt wird.
  34. Verfahren nach Anspruch 1, wobei die RCG durch Adapter-Polymerase-Kettenreaktion hergestellt wird.
  35. Verfahren nach Anspruch 1, wobei das SNP-ASO aus 10 bis 50 Nukleotidresten zusammengesetzt ist.
  36. Verfahren nach Anspruch 36, wobei das SNP-ASO aus 10 bis 25 Nukleotidresten zusammengesetzt ist.
  37. Verfahren nach Anspruch 1, wobei der Analyseschritt umfasst: Herstellung eines Satzes von Primern aus dem durch PCR mit Zufallsprimern erzeugten RCG, wobei das RCG einen Satz von Polymerase-Kettenreaktionsprodukten umfasst, Durchführung einer PCR unter Verwendung des Satzes von Primern mit mindestens einem isolierten Genom der genomischen Probe, wodurch ein Satz an DNA-Produkten erzeugt wird, und Identifizierung des SNP-Allels in dem Satz von DNA-Produkten.
  38. Verfahren nach Anspruch 38, wobei die isolierten Genome RCGs sind.
  39. Verfahren nach Anspruch 39, wobei das RCG durch DOP-PCR hergestellt wird.
  40. Verfahren nach Anspruch 38, wobei der Schritt der Herstellung eines Satzes an Primern durch mindestens die folgenden Schritte durchgeführt wird: Herstellung eines RCG und Auftrennung des Satzes an PCR-Produkten im RCG in einzelne PCR-Produkte, Bestimmung der Sequenz von jedem Ende von mindestens einem der PCR-Produkte, und Herstellung von Primern zur Verwendung in einem nachfolgenden PCR-Schritt basierend auf der Sequenz der Enden der Insertionen.
  41. Verfahren nach Anspruch 1 oder 41, wobei das RCG durch Durchführung von DOP-PCR unter Verwendung eines degenerierten Oligonukleotidprimers mit einer Tag-(N)x-Ziel (TARGET)-Nukleotidsequenz hergestellt wird, wobei die TARGET-Nukleotidsequenz mindestens 7 TARGET-Nukleotidreste einschließt und wobei x eine ganze Zahl von 0 bis 9 ist, wobei jedes N irgendein Nukleotidrest ist und wobei jeder Tag ein Polynukleotid mit 0 bis etwa 20 Nukleotideresten ist.
  42. Verfahren nach Anspruch 42, wobei die TARGET-Nukleotidsequenz mindestens 8 Nukleotidreste einschließt.
  43. Verfahren nach Anspruch 38, wobei das RCG durch Ausführen einer DOP-PCR hergestellt wird, und zwar unter Verwendung eines degenerierten Oligonukleotidprimers mit einer Tag-(N)x-Ziel (TARGET)-Nukleotidsequenz, wobei die TARGET-Nukleotidsequenz weniger als 7 TARGET-Nukleotidreste einschließt und wobei x eine ganze Zahl von 0 bis 9 ist, wobei jedes N irgendein Nukleotidrest ist und wobei jeder Tag ein Polynukleotid mit 0 bis etwa 20 Nukleotidresten ist.
  44. Verfahren nach Anspruch 42, wobei die TARGET-Nukleotidsequenz mindestens 8 Nukleodidreste einschließt.
  45. Verfahren nach Anspruch 45, weiterhin umfassend die Verwendung des RCG in einem Genotypisierungs-Verfahren.
  46. Verfahren nach Anspruch 1, umfassend die Schritte (a) Herstellung von einzelnen RCGs, die aus kranken Personen erhalten worden sind unter Verwendung desselben Satzes von Primern zur Herstellung von jedem RCG; und (b) Vergleich der einzelnen genetischen Loci in den RCGs mit denselben einzelnen genetischen Loci in gesunden Personen, wodurch die Identifizierung der mit der Krankheit assoziierten SNPs ermöglicht wird.
DE69936379T 1998-09-25 1999-09-24 Verfahren zur genotypisierung und dna-analyse Expired - Lifetime DE69936379T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10175798P 1998-09-25 1998-09-25
US101757P 1998-09-25
PCT/US1999/022283 WO2000018960A2 (en) 1998-09-25 1999-09-24 Methods and products related to genotyping and dna analysis

Publications (2)

Publication Number Publication Date
DE69936379D1 DE69936379D1 (de) 2007-08-09
DE69936379T2 true DE69936379T2 (de) 2008-02-28

Family

ID=22286255

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69936379T Expired - Lifetime DE69936379T2 (de) 1998-09-25 1999-09-24 Verfahren zur genotypisierung und dna-analyse

Country Status (7)

Country Link
EP (1) EP1056889B1 (de)
JP (1) JP2002525127A (de)
AT (1) ATE365811T1 (de)
AU (1) AU6163399A (de)
CA (1) CA2306446A1 (de)
DE (1) DE69936379T2 (de)
WO (1) WO2000018960A2 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
US6596487B2 (en) 2000-03-10 2003-07-22 Ana-Gen Technologies, Inc. Mutation detection using denaturing gradients
AU6052001A (en) 2000-03-29 2001-10-08 Ct For The Applic Of Molecular Methods for genotyping by hybridization analysis
US20040014056A1 (en) * 2000-05-02 2004-01-22 Jorg Hager Identification of genetic markers
US6828098B2 (en) 2000-05-20 2004-12-07 The Regents Of The University Of Michigan Method of producing a DNA library using positional amplification based on the use of adaptors and nick translation
DK1290444T3 (da) * 2000-06-14 2010-01-18 Vistagen Inc Toxicitetstypisering under anvendelse af lever-stamceller
DE10029914A1 (de) * 2000-06-19 2002-01-03 Epigenomics Ag Verfahren zur hochparallelen Analyse von Polymorphismen
US6913879B1 (en) 2000-07-10 2005-07-05 Telechem International Inc. Microarray method of genotyping multiple samples at multiple LOCI
WO2002044410A1 (en) * 2000-11-28 2002-06-06 Genaissance Pharmaceuticals, Inc. Drug target isogenes: polymorphisms in the interleukin 3 (colony-stimulating factor, multiple) gene
WO2002051857A1 (en) * 2000-12-21 2002-07-04 Genaissance Pharmaceuticals, Inc. Drug target isogenes: polymorphisms in the neuropeptide y gene
US7110885B2 (en) 2001-03-08 2006-09-19 Dnaprint Genomics, Inc. Efficient methods and apparatus for high-throughput processing of gene sequence data
US6777187B2 (en) 2001-05-02 2004-08-17 Rubicon Genomics, Inc. Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates
US6632611B2 (en) 2001-07-20 2003-10-14 Affymetrix, Inc. Method of target enrichment and amplification
US6872529B2 (en) 2001-07-25 2005-03-29 Affymetrix, Inc. Complexity management of genomic DNA
WO2003045979A2 (en) 2001-11-29 2003-06-05 Therakos, Inc. Methods for pretreating a subject with extracorporeal photopheresis and/or apoptotic cells
AUPS115502A0 (en) * 2002-03-18 2002-04-18 Diatech Pty Ltd Assessing data sets
US8725418B2 (en) 2002-03-25 2014-05-13 Janssen Pharmaceutica, N.V. Data mining of SNP databases for the selection of intragenic SNPs
WO2005027719A2 (en) 2003-09-12 2005-03-31 Perlegen Sciences, Inc. Methods and systems for identifying predisposition to the placebo effect
FR2877013A1 (fr) 2004-10-27 2006-04-28 Assist Publ Hopitaux De Paris Indentification d'une mutation de jak2 impliquee dans la polyglobulie de vaquez
US9388457B2 (en) 2007-09-14 2016-07-12 Affymetrix, Inc. Locus specific amplification using array probes
US9074244B2 (en) 2008-03-11 2015-07-07 Affymetrix, Inc. Array-based translocation and rearrangement assays
WO2015045741A1 (ja) * 2013-09-26 2015-04-02 東洋鋼鈑株式会社 ハイブリダイゼーション用バッファー組成物及びハイブリダイゼーション方法
CN110643717B (zh) * 2019-10-28 2023-04-14 东北农业大学 一种预示和鉴定公鸡心脏生长发育的分子标记方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997031327A1 (en) * 1996-02-26 1997-08-28 Motorola Inc. Personal human genome card and methods and systems for producing same
EP0941366A2 (de) * 1996-11-06 1999-09-15 Whitehead Institute For Biomedical Research Biallelische marker

Also Published As

Publication number Publication date
EP1056889B1 (de) 2007-06-27
EP1056889A2 (de) 2000-12-06
JP2002525127A (ja) 2002-08-13
WO2000018960A2 (en) 2000-04-06
ATE365811T1 (de) 2007-07-15
WO2000018960A3 (en) 2000-09-08
AU6163399A (en) 2000-04-17
CA2306446A1 (en) 2000-04-06
DE69936379D1 (de) 2007-08-09

Similar Documents

Publication Publication Date Title
DE69936379T2 (de) Verfahren zur genotypisierung und dna-analyse
US6703228B1 (en) Methods and products related to genotyping and DNA analysis
DE69929542T2 (de) Komplexitätsmanagement und analyse genomischer dna
EP1609875B9 (de) DNS "Typing" mit kurzen tandem-repetitiven Polimorphismen und Identifikation von kurzen polimorphen Tandem-Wiederholungen
DE69507646T2 (de) Mikrosatelliteverbindung für detektion genetisches polymorphismen
DE69531831T2 (de) Verfahren mit einer hohen umsatzrate für das auffinden von sequenzen oder genetischen veränderungen in nukleinsäuren
DE69920032T2 (de) Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist
US6821724B1 (en) Methods of genetic analysis using nucleic acid arrays
DE69833758T2 (de) Verfahren zur erkennung von genpolymorphismen und allelexpression unter verwendung von sondenchips
US9388460B2 (en) Complexity management of genomic DNA
DE69421277T2 (de) NUKLEINSäURE-SEQUENZANALYSE DURCH DIE METHODE DER PARALLELEN PRIMEREXTENSION
EP1759011A1 (de) Nachweis chromosomaler störungen
DE69605803T2 (de) Nachweis von fehlpaarungen durch spaltung mit resolvase auf einem festträger
US20080076130A1 (en) Molecular haplotyping of genomic dna
Caylor Nonrandom X chromosome inactivation detection
WO1999058721A1 (en) Multiplex dna amplification using chimeric primers
EP1546394B1 (de) Verfahren zum nachweis von snps auf polydimensionalen microarrays
DE602005005333T2 (de) Verfahren zum Nachweis von homologen Sequenzen, welche sich durch eine Base unterscheiden, auf einem Mikroarray
Armour DNA typing
O’Leary et al. 3 Blots, dots, amplification, and sequencing
DE19917871A1 (de) Verfahren zur Sequenzierung von Nukleinsäure-Polymeren
WO2009143590A2 (en) Insertion sequence detection protocol

Legal Events

Date Code Title Description
8364 No opposition during term of opposition