Verfahren und Vorrichtung zur Korrelationsanalyse von Datenfolgen Method and device for correlation analysis of data sequences
Die Erfindung betrifft Verfahren zur Bearbeitung von Datenfolgen, insbesondere zur---- Korrelationsanalyse von Datenfolgen, um Positionen von miteinander korrelierten Daten in verschiedenen Datenfolgen zu erfassen, wie z. B. Verfahren zur Kompression von Datenfolgen, zur Identifikation von bedeutungstragenden Positionen in Datenfolgen und/oder zur Klassifikation von Datenfolgen mittels Korrelationsanalysen, Vorrichtungen zur Durchführung der Verfahren und Anwendungen der Verfahren.The invention relates to methods for processing data sequences, in particular for ---- correlation analysis of data sequences in order to detect positions of correlated data in different data sequences, such as. B. methods for compressing data sequences, for identifying significant positions in data sequences and / or for classifying data sequences by means of correlation analyzes, devices for carrying out the methods and applications of the methods.
In allen Bereichen von Forschung und Technik fallen Daten an, die in Form von Symbolen mit technischem Bedeutungsinhalt (z. B. Alphabete aus Zahlen, Buchstaben, Benennungen von Substanzen oder Systemzuständen, oder dgl.) Informationen über einen technischen Aufbau, eine chemische Reaktion, ein biologisches System, einen physikalischen Zustand oder dgl. gegeben sind. Die Daten fallen in der Regel in einer bestimmten Reihenfolge an, die sich beispielsweise aus einer zeitlichen Reihenfolge, einer geometrischen Anordnung oder auch einem zahlenmäßigen Systemparameter ergibt. Datenfolgen können eindimensional (z. B. Zeitreihen von Messwerten, biologische Substanzfrequenzen) sein. Sie können aber auch mehrdimensional sein: dies ist offensichtlich bei Grauwertmatrizen in der Bildverarbeitung, aber auch beispielsweise bei DNA-Sequenzen gegeben. Letztere werden zu mehrdimensionalen Datenfolgen, wenn man zu jeder Nukleinsäure ihre Strukturparameter abspeichert. Die zur Verfügung stehenden Datenmengen wachsen durch sich erweiternde Mess- und Speichermöglichkeiten ständig. Beispielsweise liegen in der Gentechnik umfangreiche biologisch relevante Informati-
onen in Form von Datenfolgen, z. B. als DNA-Sequenzen, Proteinsequenzen, kodierte Umweltdaten, kodierte Phänotypen, Bandenmuster einer gelelektrophoretischen Analyse, Haplotypen, oder Kombinationen aus diesen, vor. Es besteht ein Interesse an Verfahren, um die anwendungsabhängig wichtigeren von den weniger wichtigen Daten zu trennen oder die Daten nach vorgegebenen Gesichtspunkten zu klassifizieren. Dies ist sowohl für eine effektive Handhabung der Daten in Datenverarbeitungsanlagen (Speicherbedarf, Rechenzeiten und dgl.) als auch für die Auswertung der Daten (Mustererkennung, Gewinnung neuer Systemparameter oder dgl.) von Bedeutung. Speziell in der Bioinformatik sollen in Datenfolgen biologisch bedeutungstragender Symbole, die relevanten Positionen und/oder Gruppen von Positionen und deren Assoziation zu äußeren Ausprägungen oder Um- weltbedingungen des betrachteten biologischen Systems erkannt werden. Es besteht ein besonderes Interesse an der Charakterisierung des Verhaltens von komplexen Systemen, zu denen mehrere Datenfolgen, z. B. in Bezug auf innere Systemzustände und äußere Systembedingungen, vorliegen. Bisher sind keine effektiven Verfahren zur Verarbeitung von Datenfolgen komplexer Systeme, insbesondere zur Erfassung von Korrelationen zwischen bedeutungstragenden Positionen in den Datenfolgen, verfügbar.In all areas of research and technology, data is collected that is in the form of symbols with technical meaning (e.g. alphabets made up of numbers, letters, names of substances or system states, or the like) information about a technical structure, a chemical reaction, a biological system, a physical state or the like. The data are generally obtained in a specific order, which results, for example, from a chronological order, a geometric arrangement or even a numerical system parameter. Data sequences can be one-dimensional (e.g. time series of measured values, biological substance frequencies). However, they can also be multidimensional: this is obviously the case with gray-scale matrices in image processing, but also, for example, with DNA sequences. The latter become multidimensional data sequences if you store their structural parameters for each nucleic acid. The amount of data available is constantly growing due to expanding measurement and storage options. For example, there is extensive biologically relevant information in genetic engineering. onen in the form of data sequences, e.g. B. as DNA sequences, protein sequences, encoded environmental data, encoded phenotypes, band patterns of a gel electrophoretic analysis, haplotypes, or combinations thereof. There is an interest in methods to separate the more important data from the less important data or to classify the data according to given criteria. This is important both for the effective handling of the data in data processing systems (storage requirements, computing times and the like) and for the evaluation of the data (pattern recognition, acquisition of new system parameters or the like). Especially in bioinformatics, the relevant positions and / or groups of positions and their association with external characteristics or environmental conditions of the biological system under consideration are to be recognized in data sequences of symbols with biological significance. There is a particular interest in characterizing the behavior of complex systems, to which several data sequences, e.g. B. with respect to internal system states and external system conditions. So far, no effective methods for processing data sequences of complex systems, in particular for recording correlations between significant positions in the data sequences, have been available.
Herkömmliche Verfahren zur Analyse und Klassifizierung von Datenfolgen basieren auf einer nur positionsweisen Untersuchung der Daten und einer darauf additiv aufbauenden Berechnung. Solche herkömmlichen Techniken sind beispielsweise in von M. J. Bishop et al. in "DNA and Protein Sequence Analysis" Oxford 1997, dargestellt. Sie sind jedoch nicht in der Lage, die Bedeutung von Positionen in den Datenfolgen zu erkennen, wenn diese sich erst aus dem Kontext einer oder mehrerer anderer, unter Umständen in der Datenfolge weit auseinander liegender Positionen ergibt, und führen deshalb durch die Vernachlässigung oder gar Unterschlagung solcher Positionen bei jeder auf der Unterscheidung wichtiger bzw. unwichtiger Positionen beru-
henden Datenkompression und Klassifikation zu fehlerhaften Ergebnissen.Conventional methods for analyzing and classifying data sequences are based on an examination of the data only in positions and a calculation based on it. Such conventional techniques are described, for example, in MJ Bishop et al. in "DNA and Protein Sequence Analysis" Oxford 1997. However, they are unable to recognize the meaning of positions in the data sequences if this only results from the context of one or more other positions, which may be far apart in the data sequence, and therefore lead through neglect or even embezzlement of such positions based on the distinction between important and unimportant positions data compression and classification to erroneous results.
Die Aufgabe der Erfindung ist es, verbesserte Verfahren zur Untersuchung von Datenfolgen anzugeben, die sich insbesondere dadurch auszeichnen, dass die Daten nicht nur mit hoher Effektivität, sondern derart verarbeitet und gegebenenfalls reduziert werden können, dass Fehler vermieden werden, die auf einer Nichtberücksichtigung von bestehenden Abhängigkeiten zwischen den Positionen in den Datenfolgen beruhen. Das verbesserte Verfahren soll insbesondere auch eine zuverlässige Klassifikation von Daten ermöglichen. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Umsetzung der Verfahren und neue Anwendungen anzugeben.The object of the invention is to provide improved methods for examining data sequences which are distinguished in particular by the fact that the data can be processed and possibly reduced not only with high effectiveness, but in such a way that errors are avoided which are based on non-consideration of existing ones Dependencies between positions in the data strings are based. In particular, the improved method should also enable reliable classification of data. The object of the invention is also to provide devices for implementing the methods and new applications.
Diese Aufgaben werden mit Verfahren, Computerprogrammprodukten und Vorrichtungen mit den Merkmalen gemäß den Patentansprüchen 1, 14 bzw. 15 gelöst. Vorteilhafte Ausführungsformen und Anwendungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.These tasks are solved with methods, computer program products and devices with the features according to patent claims 1, 14 and 15, respectively. Advantageous embodiments and applications of the invention result from the dependent claims.
Die Grundidee der Erfindung ist es, Zusammenhänge oder Wechselwirkungen (Interdependenzen) zwischen einzelnen Positionen verschiedener Datenfolgen durch eine Korrelationsanalyse mit den folgenden Schritten zu erfassen. Zunächst wird in der Gesamtheit aller Datenfolgen für alle Paare von Positionen mit einem vorgegebenem Korrelationsmaß jeweils, ein Korrelationswert ermittelt. Die Datenfolgen können als Vektoren aufgefasst werden, deren Komponenten durch die Daten gebildet werden. Auf alle Komponentenpaare wird das Korrelationsmaß zur Ermittlung des jeweiligen Korrelationswertes angewendet. Um die ermittelten Korrelationswerte in Bezug auf ihre Signifikanz beurteilen zu können, werden zum Vergleich syste bezogene Referenzwerte oder ggf. Si ulationskorrelationswerte bzw. aus diesen gewonnene repräsentative Referenzwerte herangezogen. Die Ermittlung
von Simulationskorrelations- bzw. Referenzwerten erfolgt anwendungsabhängig ein- oder mehrmalig vor oder nach der Ermittlung der paarweisen Korrelationswerte. Durch Vergleich der Korrelationswerte insbesondere mit den zu den entsprechenden Positionspaaren gehörenden Referenzwerten kann im Rahmen eines einfachen Schwellwertverfahrens festgestellt werden, ob der jeweilige Korrelationswert oder ein davon abgeleiteter Positi- onsgewichtungswert so hoch ist, dass die zugehörigen Daten bzw. Positionen einer Gruppe von korrelierten Daten bzw. Positionen zugeordnet werden oder nicht. Die genannten Schritte können analog auch auf Tripel oder höhere n-Tupel von Positionen angewendet werden.The basic idea of the invention is to determine relationships or interactions (interdependencies) between individual positions of different data sequences by means of a correlation analysis with the following steps. First of all, a correlation value is determined in the entirety of all data sequences for all pairs of positions with a predetermined correlation measure. The data sequences can be understood as vectors, the components of which are formed by the data. The correlation measure for determining the respective correlation value is applied to all component pairs. In order to be able to assess the correlation values ascertained with regard to their significance, system-related reference values or possibly correlation values or representative reference values obtained therefrom are used for the comparison. The investigation Depending on the application, simulation correlation or reference values occur one or more times before or after the pairwise correlation values are determined. By comparing the correlation values, in particular with the reference values belonging to the corresponding position pairs, a simple threshold value procedure can be used to determine whether the respective correlation value or a position weighting value derived from it is so high that the associated data or positions of a group of correlated data or Positions are assigned or not. The steps mentioned can also be applied analogously to triples or higher n-tuples of positions.
Je nach dem Ergebnis des Schwellwertverfahrens wird zu jeder Datenfolge (mindestens) eine abgeleitete Datenfolge erzeugt, die durch die korrelierten Positionen der Ausgangsdatenfolgen gebildet wird. Auf der Basis des Vergleichs der Korrelationswerte mit den Simulationskorrelationswerten oder den repräsentativen Referenzwerten können auch differenziertere Klassifikationen innerhalb der Gruppen der korrelierten bzw. nicht- korrelierten Daten vorgenommen werden.Depending on the result of the threshold value method, a derived data sequence (at least) is generated for each data sequence, which is formed by the correlated positions of the output data sequences. On the basis of the comparison of the correlation values with the simulation correlation values or the representative reference values, more differentiated classifications can also be carried out within the groups of the correlated or non-correlated data.
Die Ermittlung und Bewertung paarweiser Korrelationswerte besitzt den Vorteil, dass die weitere Verarbeitung der abgeleiteten Datenfolgen sowie die oft zeit- und kostenaufwendige Erzeugung eventuell weiterer zum betrachteten Datensatz gehörender Datenfolgen je nach dem interessierenden Gesichtspunkt auf den relevanten Teil der Datenfolge beschränkt werden kann. Das erfindungsgemäße Verfahren ergibt eine Datenkompression, die Speicher- und Rechenzeiten sowie Arbeitszeit und -kosten spart. Des Weiteren ergibt sich als besonderer Vorteil, dass zwischen Datenfolgen, die zu einem System gehören, jedoch ganz verschiedene Datentypen enthalten, Assoziationen zwischen verschiedenen Positionen bestimmt werden können. Beispielsweise können die Datenfolgen jeweils DNA-Sequenzen, relevante Um-
'eltdaten und auch die zugehörigen Phänotypen in geeignet kodierter Form enthalten. Die erfindungsgemäß ermittelten Assoziationen liefern Zusammenhänge zwischen Gruppen von DNA- Positionen, Umwelteinflüssen und Phänotypen und damit wiederum neue Informationen als Ausgangspunkt für eine Bewertung oder Veränderung des betrachteten biologischen Systems.The determination and evaluation of pairwise correlation values has the advantage that the further processing of the derived data sequences as well as the often time-consuming and costly generation of possibly further data sequences belonging to the considered data record can be limited to the relevant part of the data sequence depending on the point of interest of interest. The method according to the invention results in a data compression which saves storage and computing times as well as working time and costs. Furthermore, there is a particular advantage that associations between different positions can be determined between data sequences that belong to a system but contain completely different data types. For example, the data sequences can each have DNA sequences, relevant changes ' old data and the associated phenotypes in a suitable coded form. The associations determined according to the invention provide relationships between groups of DNA positions, environmental influences and phenotypes and thus in turn new information as a starting point for an evaluation or change in the biological system under consideration.
Die genannten Vorteile spielen nicht nur in der Auswertung biologisch relevanter Daten eine Rolle. Es ergeben sich allgemein eine Vereinfachung und Beschleunigung von Arbeiten wie z. B. der Laboranalyse biologischer Sequenzen, der automatisierten Bilderkennung oder der Überwachung technischer Anlagen, und der anwendungsrelevanten Interpretation der Datenfolgen. In komplexen technischen Anlagen können Korrelationen zwischen Systemzuständen zuverlässig erfasst und in Bezug auf die Steuerung von Prozessparametern oder die Abgabe von Warnsignalen verwendet werden. Bevorzugte Anwendungen der Erfindung ergeben sich somit neben der Informationsverarbeitung an technischen Anlagen vor allem in der Molekularbiologie, der Medizin, der Biologie, der Veterinärmedizin, der Agrarwirtschaff und der Ökobiologie.The advantages mentioned play a role not only in the evaluation of biologically relevant data. There is generally a simplification and acceleration of work such. B. laboratory analysis of biological sequences, automated image recognition or the monitoring of technical systems, and the application-relevant interpretation of the data sequences. In complex technical systems, correlations between system states can be reliably recorded and used in relation to the control of process parameters or the issuing of warning signals. In addition to information processing in technical systems, preferred applications of the invention thus arise above all in molecular biology, medicine, biology, veterinary medicine, agriculture and ecobiology.
Gegenstand der Erfindung ist auch ein Computerprogrammprodukt, das zur Kompression von Datenfolgen, Erfassung von Mustern in Datenfolgen und/oder Erfassung von Klassen in Datenfolgen nach dem erfindungsgemäßen Verfahren eingerichtet ist.The invention also relates to a computer program product which is set up for compressing data sequences, capturing patterns in data sequences and / or capturing classes in data sequences according to the inventive method.
Gegenstand der Erfindung ist ferner eine Korrelatorvorrichtung zur. Verarbeitung von Datenfolgen nach dem erfindungsgemäßen Verfahren. Eine Korrelatorvorrichtung umfasst insbesondere eine Speichereinrichtung zur Speicherung der zu bearbeitenden Datenfolgen, eine Recheneinrichtung zur Ermittlung von Korrelationswerten, Simulationskorrelationswerten und Referenzwerten, und eine Vergleichereinrichtung zur Bewertung der Korre-
lationswerte und zur Erfassung der Positionen von korrelierten bzw. nicht-korrelierten Daten.The invention further relates to a correlator device for. Processing of data sequences according to the inventive method. A correlator device comprises, in particular, a storage device for storing the data sequences to be processed, a computing device for determining correlation values, simulation correlation values and reference values, and a comparator device for evaluating the correction values. lation values and for recording the positions of correlated or non-correlated data.
Weitere Einzelheiten und Vorteile der Erfindung werden im Folgenden anhand einer Darstellung des erfindungsgemäßen Grundkonzepts der Korrelationsanalyse, einer Verfahrensdarstellung und eines Beispiels verdeutlicht. Die Erläuterung bezieht sich auf die Verarbeitung biologisch relevanter Informationen. Die Erfindung ist jedoch nicht auf diese Anwendung beschränkt, sondern auch in allen anderen technischen Gebieten zur Verarbeitung von Datenfolgen anwendbar.Further details and advantages of the invention are illustrated below with the aid of a representation of the basic concept of the correlation analysis according to the invention, a method representation and an example. The explanation relates to the processing of biologically relevant information. However, the invention is not limited to this application, but can also be used in all other technical fields for processing data sequences.
Prinzipien der erfindungsgemäßen KorrelationsanalysePrinciples of the correlation analysis according to the invention
Dem erfindungsgemäßen Verfahren liegen die folgenden Erkenntnisse der Erfinder zu Grunde. Die einzelnen Positionen der betrachteten Menge von Datenfolgen sind mehr oder weniger "verrauscht". Einige Positionen sind in (nahezu) allen Datenfolgen identisch besetzt, während andere Positionen hochvariabel sind. Zum Zwecke der Klassifikation oder Zuordnung unterschiedlicher Funktionsausprägungen zu den Datenfolgen sind die konstanten Positionen unbrauchbarer. Es sind vielmehr die variablen Positionen, an denen die zu klassifizierenden Datenfolgen nicht übereinstimmen, zu betrachten. Unter Funktionsausprägung wird hier und im folgenden allgemein ein Zusammenhang zwischen Datenfolgen und Systembedingungen verstanden, der in der Regel in der einen oder anderen- Richtung kausal interpretiert wird. Eine Änderung der Systembedingungen kann eine Änderung der in der Datenfolge festgehaltenen Messwerte verursachen. Andererseits kann eine Änderung z. B. in einer Gensequenz zu einer Änderung des Phänotypen führen. Dabei kann die Funktionsausprägung in geeignet kodierter Form selbst Bestandteil der Datenfolge sein.
Es sind zwei prinzipiell verschiedene Qualitäten der Variabilität einer Position in einer Datenfolge unterscheidbar. Einerseits kann eine Position hochvariabel sein, weil eine Änderung der Besetzung keine Auswirkung auf die Ausprägung der Funktion hat. Andererseits kann eine hohe Variabilität gegeben sein, weil die jeweilige Position mit unterschiedlichen Funktionsausprägungen assoziiert ist. Da die Funktionsausprägung einer Datenfolge durch spezifische Besetzung einer Kombination mehrerer, im allgemeinen nicht benachbarter Positionen bestimmt wird, ist davon auszugehen, dass die in Zusammenhang mit der betrachteten Funktion bedeutungstragenden Positionen voneinander abhängig besetzt sind und korreliert veränderlich sind ("synchron rauschen"), während die zufällig rauschenden Positionen eher unabhängig von jeder anderen Position besetzt sind.The inventive method is based on the following findings by the inventors. The individual positions of the considered set of data sequences are more or less "noisy". Some positions are occupied identically in (almost) all data sequences, while other positions are highly variable. The constant positions are unusable for the purpose of classifying or assigning different functional characteristics to the data sequences. Rather, the variable positions at which the data sequences to be classified do not match are to be considered. Here and in the following, the expression of the function is generally understood to mean a connection between data sequences and system conditions, which is generally interpreted causally in one direction or another. A change in the system conditions can cause a change in the measured values recorded in the data sequence. On the other hand, a change e.g. B. lead to a change in the phenotype in a gene sequence. The function expression in a suitably coded form can itself be part of the data sequence. Two fundamentally different qualities of the variability of a position in a data sequence can be distinguished. On the one hand, a position can be highly variable because a change in the staffing has no effect on the extent of the function. On the other hand, there can be a high degree of variability because the respective position is associated with different functional characteristics. Since the functional form of a data sequence is determined by the specific occupation of a combination of several, generally not adjacent positions, it can be assumed that the positions that are significant in connection with the function under consideration are occupied from one another and are correlatedly variable ("synchronous noise"), while the randomly rushing positions tend to be occupied independently of any other position.
Die Erfinder haben ferner festgestellt, dass das synchrone Rauschen der bedeutungstragenden Positionen nicht nur auf Datenpaare beschränkt ist, sondern auch größere Gruppen von Daten an bestimmten Positionen betreffen. Das erfindungsgemäße Verfahren ist nun darauf gerichtet, die im Zusammenhang mit einer betrachteten Funktion stehende Bedeutung der einzelnen Positionen in einer Menge von Datenfolgen zu quantifizieren und auf dieser Grundlage die Datenfolgen Kompressions-, Klas- sifizierungs- und/oder Vorhersageprozeduren zu unterziehen. Datenkompression bedeutet, dass in der weiteren Verarbeitung der Datenfolgen nur die relevanten Positionen oder Positionsgruppen in Betracht gezogen werden.The inventors have also found that the synchronous noise of the significant positions is not only limited to pairs of data, but also affects larger groups of data at certain positions. The method according to the invention is now directed towards quantifying the meaning of the individual positions in a set of data sequences which is related to a function under consideration and to subject the data sequences to compression, classification and / or prediction procedures on this basis. Data compression means that only the relevant positions or position groups are taken into account in the further processing of the data sequences.
Die durch die erfindungsgemä e Korrelationsanalyse gewonnene Information kann auch unmittelbar zur Klassifikation benutzt werden. Die Datenfolgen, die an den Positionen einer Gruppe stark voneinander abhängiger, verrauschter Positionen (zumindest nahezu) dieselben Besetzungen besitzen, werden zu einer Teilklasse zusammengefasst . Von den vielen theoretisch mögli-
c'hen Besetzungen an diesen Positionen kommen wegen der gegenseitigen Abhängigkeiten nur wenige, die jeweilige Teilklasse charakterisierenden Muster vor.The information obtained by the correlation analysis according to the invention can also be used directly for classification. The data sequences that have the same occupations (at least almost) at the positions of a group of highly dependent, noisy positions are combined into a subclass. Of the many theoretically possible c 'hen cast at these positions come because of the interdependencies are only few, the respective sub-class characterizing pattern.
Besitzt nun die so konstruierte Klassifikation die Eigenschaft, dass jeweils in einer Teilklasse zusammengefasste Positionsfolgen sich in ihrer Funktionsausprägung nicht oder nur unwesentlich unterscheiden, so hat man eine Korrelation mit der betrachteten Funktion gefunden, die im Hinblick auf die betrachtete Funktion auch Vorhersagen zukünftiger Systemzustände möglich macht. Sind zusätzlich zu den ursprünglich betrachteten Datenfolgen weitere Datenfolgen gegeben und besitzen diese an den ausgezeichneten Positionskombinationen bekannte, d. h. im Rahmen der Klassifikation ermittelte Besetzungen, so können diese Positionskombinationen mit der entsprechenden Funktionsausprägung in Beziehung gebracht werden. Anwendungsabhängig kann vorgesehen sein, dass derartige Vorhersagen durch zusätzliche Verfahren oder Informationen vali- diert werden.If the classification constructed in this way has the property that position sequences combined in a subclass do not differ or differ only slightly in terms of their function, a correlation with the function under consideration has been found, which also makes it possible to predict future system states with regard to the function under consideration , Are there additional data sequences in addition to the originally considered data sequences and do they have known positions at the excellent combinations? H. Occupations determined as part of the classification, these combinations of positions can be related to the corresponding function. Depending on the application, it can be provided that such predictions are validated by additional methods or information.
Die technische Anwendung der erfindungsgemäßen Korrelationsanalyse ergibt sich aus der Datenkompression, bei der in Bezug auf eine bestimmte Funktion die wichtigen Datenpositionen erkannt und weiter verarbeitet werden, der Mustererkennung bzw. Klassifikation, bei der Kombinationen von Positionsbesetzungen an den erkannten wichtigen Positionen ermittelt werden, die relevante Teilklassen der betrachteten Da enfolgen beschreiben, der Assoziation von Mustern in den Positionsfolgen zu Ausprägungen der betrachteten Funktionen und der Vorhersage von Funktionsausprägungen in neuen Datenfolgen.
Durchführung der erfindungsgemäßen KorrelationsanalyseThe technical application of the correlation analysis according to the invention results from the data compression, in which the important data positions are recognized and further processed in relation to a specific function, the pattern recognition or classification, in which combinations of position assignments at the identified important positions are determined, the relevant one Describe subclasses of the considered sequences, the association of patterns in the position sequences to the expressions of the considered functions and the prediction of functional expressions in new data sequences. Carrying out the correlation analysis according to the invention
1. Schritt: Bereitstellung der DatenStep 1: Provision of the data
In einem ersten Schritt werden die interessierenden Daten für die erfindungsgemäße Korrelationsanalyse bereitgestellt, z. B. auf eine Korrelatorvorrichtung übertragen. Anwendungsabhängig werden zunächst die Daten gemessen oder erfasst, über eine Schnittstelle in die Korrelatorvorrichtung eingegeben, zwischengespeichert und zu Datenfolgen zusammengestellt. Dieser Teilschritt ist nicht zwingend notwendig, die Datenfolgen können bereits bspw. als Messwertfolgen vorliegen. Anschließend werden die Datenfolgen zur Bildung einer Menge von Folgen, die einander entsprechende Daten an jeweils derselben Position besitzen und die alle die gleiche Länge besitzen, formatiert. Falls die zunächst bereitgestellten Daten zu Datenfolgen mit verschiedenen Längen führen, wie dies beispielsweise bei Datenfolgen zur Beschreibung eines Phänotyps der Fall sein kann, entstehen in der entsprechenden Datenfolge Lücken. Zur Formatierung werden die Lücken aufgefüllt oder die entsprechenden Positionen in den übrigen Datenfolgen (z.B. Gensequenzen) gestrichen. Das Auffüllen erfolgt beispielsweise mit einem gesonderten "Lücke"- oder "gap"-Symbol, mit dem an dieser Position häufigsten Wert oder - bei numerischen Daten - mit einem Durchschnittswert .In a first step, the data of interest are provided for the correlation analysis according to the invention, e.g. B. transferred to a correlator device. Depending on the application, the data are first measured or recorded, input into the correlator device via an interface, temporarily stored and compiled into data sequences. This sub-step is not absolutely necessary, the data sequences can already exist as measured value sequences, for example. The data sequences are then formatted to form a set of sequences which have corresponding data in the same position and which all have the same length. If the data initially provided lead to data sequences with different lengths, as can be the case, for example, with data sequences to describe a phenotype, gaps arise in the corresponding data sequence. For formatting, the gaps are filled or the corresponding positions in the other data sequences (e.g. gene sequences) are deleted. The filling is carried out, for example, with a separate "gap" or "gap" symbol, with the most frequent value at this position or - in the case of numerical data - with an average value.
Die Datenfolgen basieren gegebenenfalls auf jeweils verschiedenen Symbolvorräten oder "Alphabeten" und liegen beispielsweise in gespeicherter Form vor.The data sequences are possibly based on different symbol stocks or "alphabets" and are available, for example, in a stored form.
2. Schritt: Ermittlung von Korrelationswerten und PositionsgewichtungenStep 2: Determination of correlation values and position weightings
Je nach der Aufgabenstellung wird eine problemrelevante Methode zur Berechnung der Abhängigkeiten zwischen je zwei Positio-
rien verschiedener Datenfolgen verwendet. Die paarweisen gegenseitigen Abhängigkeiten (Korrelationswerte) werden in einem ersten Teilschritt durch ein Korrelationsmaß entsprechend der gewählten Methode ermittelt. Im Folgenden werden beispielhaft zwei Korrelationsmaße, nämlich die Transinformation und die Vorhersagbarkeit, illustriert. Die Erfindung ist jedoch nicht auf diese Maße beschränkt, sondern mit allen Methoden umsetzbar, die allgemein geeignet sind, Assoziationen oder Korrelationen zwischen Positionen durch Angabe von quantitativen Korrelationswerten zu charakterisieren. Verschiedene solche Methoden sind an sich bekannt und basieren beispielsweise auf χ2- Tests oder lehrbuchbekannten Algorithmen.Depending on the task, a problem-relevant method for calculating the dependencies between two positions different data sequences. The mutual dependencies (correlation values) in pairs are determined in a first sub-step by means of a correlation measure in accordance with the chosen method. Two correlation measures, namely the trans information and the predictability, are illustrated below as examples. However, the invention is not limited to these dimensions, but can be implemented with all methods which are generally suitable for characterizing associations or correlations between positions by specifying quantitative correlation values. Various such methods are known per se and are based, for example, on χ 2 tests or algorithms known in textbooks.
(a) TransInformation(a) TransInformation
Die Transinformation ist ein auf der Shannon" sehen Entropie basierendes Korrelationsmaß, das aus der Informationstheorie zur Charakterisierung der Kombination zweier Signale an sich bekannt ist (siehe z. B. H. Rohling "Einführung in die Infor- ations- und Codierungstheorie", Stuttgart, 1995) . Der Korrelationswert Transinformation wird wie folgt gebildet. Sind Ai das Alphabet für die Position i und Aj das Alphabet für die Position j, pi bzw. pj die zugehörigen Häufigkeitsverteilungen und ij die gemeinsame Häufigkeitsverteilung der beiden Positionen, so ist die Transinformation T (ij) der Positionen i und j gemäß der folgenden Gleichung gegeben.The transinformation is a correlation measure based on the Shannon "see entropy", which is known per se from information theory for characterizing the combination of two signals (see, for example, BH Rohling "Introduction to the information and coding theory", Stuttgart, 1995). The correlation value transinformation is formed as follows: If Ai is the alphabet for position i and Aj is the alphabet for position j, pi and pj the associated frequency distributions and i j is the common frequency distribution of the two positions, then the transinformation T (ij) of positions i and j according to the following equation.
T(i,j) - ∑ py(a,b)log—l—,
aeATÄAj Py(a,b)T (i, j) - ∑ p y (a, b) log — l—, aeATÄA j Py (a, b)
Die Transinformation T ergibt sich als Summe der Entropien für die einzelnen Positionen, vermindert um die Entropie des Posi- tionenpaares. Die Transinformation ist in der Informationstheorie ein gebräuchliches Maß für die Beschreibung der gegenseitigen Beeinflussung zweier Signale. Sie ist minimal, wenn be-
trachtete Positionen statistisch unabhängig sind, und maximal, wenn beide Positionen gleichverteilt und sich gegenseitig in eindeutiger Weise bestimmend sind.The transinformation T is the sum of the entropies for the individual positions, minus the entropy of the position pair. In information theory, transinformation is a common measure for describing the mutual influence of two signals. It is minimal if intended positions are statistically independent, and maximum if both positions are equally distributed and are mutually unambiguous.
Das Korrelationsmaß Transinformation liefert für jedes Positionenpaar eine Zahl, die die Korrelation beschreibt. Aus dem quantitativen Wert allein ist die Korrelation ohne Zusatzinformationen nicht bewertbar, da die Größe von T auch von der Zahl der Symbole in den Datenfolgen abhängt. Je mehr Symbole die Alphabete umfassen, desto größere T-Werte treten auf. Die Bewertung erfolgt im dritten Schritt .(siehe unten) .The correlation measure Transinformation provides a number for each pair of positions that describes the correlation. The correlation cannot be assessed from the quantitative value alone without additional information, since the size of T also depends on the number of symbols in the data sequences. The more symbols the alphabets contain, the larger T values occur. The assessment takes place in the third step (see below).
(b) Vorhersagbarkeit(b) predictability
Die Vorhersagbarkeit ist ein neu entwickeltes, gerichtetes Maß für Korrelationen zwischen verschiedenen Positionen, das davon abhängt, ob bei zwei betrachteten Positionen die eine aus der anderen ableitbar oder vorhersagbar ist. Der Korrelationswert Vorhersagbarkeit ist ein quantitatives Maß für die Aussage "falls an Position i ein a, dann an Position j ein b". Das Maß Vorhersagbarkeit ergibt sich aus den folgenden Überlegungen. Für jedes aeA; sei fi (a) eAj der am häufigsten mit einem a an Position i einhergehende "Buchstabe" an Position j . Falls- es mehrere häufigste Buchstaben gibt, so wird einer von ihnen beliebig ausgewählt, da das Ergebnis der Ermittlung der Vorhersagbarkeit nicht von dieser Auswahl unter den häufigsten Buchstaben abhängt. Ist N die Anzahl aller Da-.tenfolgen und nij (a) die Anzahl derjenigen Datenfolgen unter ihnen, die an Position i ein a und an Position j ein fij (a) besitzen, so ist die Vorhersagbarkeit V(i,j) der Position j durch Position i durch die folgende Gleichung gegeben.Predictability is a newly developed, directed measure of correlations between different positions, which depends on whether in two considered positions one is derivable or predictable from the other. The correlation value predictability is a quantitative measure for the statement "if an a at position i, then a b at position j". The measure of predictability results from the following considerations. For each aeA ; let fi (a) eA j be the most common "letter" at position j associated with a at position i. If there are several most common letters, one of them is chosen arbitrarily, since the result of the determination of the predictability does not depend on this selection from the most common letters. If N is the number of all data sequences and ni j (a) the number of those data sequences among them that have an a at position i and a fij (a) at position j, then the predictability V (i, j) is Position j by position i given by the following equation.
Dabei ist H(j) die Entropie H(j) = - 2 j(b)logPj(D) • Dif≥ Vorher- beAj sagbarkeit ist die mit der Entropie -der vorherzusagenden Position gewichtete Anteil derjenigen Datenfolgen, bei denen die Vorhersage der Position j richtig ist, falls man aus der Kenntnis der Besetzung von Position i auf die jeweils am häufigsten damit einhergehende Besetzung von Position j schließt. Here, H (j) is the entropy H (j) = - 2 j ( b ) lo gP j ( D ) • Dif ≥ PredeterminationA j is the proportion of the data sequences in which the Prediction of position j is correct, if one concludes from the knowledge of the occupation of position i that the most frequently associated occupation of position j.
Schließlich werden in einem weiteren Teilschritt aus den paarweise für alle Positionen der Datenfolgen ermittelten Korrelationswerten Positionsgewichtungen bestimmt. Für jede Position der Datenfolgen werden alle zugehörigen Korrelationswerte einer Summation (gleichbedeutend einer Mittelwertbildung) oder einer Maximumsbildung unterzogen, so dass sich jeweils als quantitativer Parameter die Positionsgewichtung ergibt, die zusätzlich zu den Korrelationswerten als eine Form der Informationsverdichtung ausgegeben bzw. gespeichert wird. Hierdurch werden diejenigen Positionen stark gewichtet, die - im Falle der Summation - im Mittel zu' allen anderen Positionen eine starke Abhängigkeit besitzen bzw. - im Falle der Maximumsbildung - zu mindestens einer anderen Position.Finally, in a further sub-step, position weightings are determined from the correlation values determined in pairs for all positions of the data sequences. For each position of the data sequences, all associated correlation values are subjected to a summation (synonymous with averaging) or a maximum formation, so that the position weighting results in each case as a quantitative parameter, which is output or stored in addition to the correlation values as a form of information compression. In this way those positions are heavily weighted, which - have on average for 'all other positions a strong dependence and - - in the case of summing in the case of maximum generation - at least one other position.
Bereits nach diesem Schritt kann anwendungsabhängig eine erste Reduzierung der Datenfolge durch Streichung aller Positionen erfolgen, deren Wert der Positionsgewichtung Null beträgt oder so niedrig ist, dass eine Korrelation mit anderen Positionen ausscheidet. Hierzu erfolgt beispielsweise ein Vergleich mit vorbestimmten systembezogenen Referenzwerten.Even after this step, depending on the application, the data sequence can be reduced by deleting all positions whose position weighting value is zero or so low that a correlation with other positions is ruled out. For this purpose, for example, a comparison is made with predetermined system-related reference values.
3. Schritt: " Ermittlung von Referenzwerten für die statistische Bewertung der PositionsgewichtungenStep 3: " Determination of reference values for the statistical evaluation of the position weights
Die mit dem Korrelationsmaß gelieferten quantitativen Werte zur Charakterisierung der gegenseitigen Abhängigkeit zwischen Positionen können in Bezug auf ihre statistische Signifikanz
durch ein Simulationsverfahren bewertet werden. Die Durchführung des Simulationsverfahrens ist kein zwingendes Merkmal der Erfindung. Anwendungsabhängig kann darauf verzichtet werden, falls beispielsweise Zusatzinformationen über das betrachtete System vorliegen oder wenn die ermittelten Korrelationen ohne weiteres dahingehend beurteilt werden können, ob sie im System technisch oder biologisch sinnvoll sind.The quantitative values supplied with the correlation measure for characterizing the interdependency between positions can be in relation to their statistical significance can be evaluated by a simulation method. The implementation of the simulation method is not a mandatory feature of the invention. Depending on the application, this can be dispensed with if, for example, additional information about the system under consideration is available or if the determined correlations can be easily assessed as to whether it makes technical or biological sense in the system.
Das Simulationsverfahren u fasst die Erzeugung einer großen Anzahl von randomisierten Referenzdatensätzen (sogenannte "Shuffles") - Die Referenzdatensätze bestehen jeweils aus derselben Anzahl an Datenfolgen wie der betrachtete Datensatz, besitzen alle dieselbe Länge wie die gegebenen Datenfolgen und gehen auf folgende Weise aus diesen hervor: Stellt man sich die einzelnen Datenfolgen des gegebenen Datensatzes zeilenweise untereinander geschrieben vor, so werden die Daten innerhalb der Spalten, also die jeweils an derselben Position stehenden Daten untereinander zufällig vertauscht. Derartige positionsinterne Vertauschungen verändern das Rauschen der Positionen nicht, brechen jedoch gegebene Abhängigkeiten auf und schaffen möglicherweise neue Abhängigkeiten. Für jeden Referenzdatensatz wird wie bei Schritt 2 das Korrelationsmaß zur quantitativen Bewertung gegenseitiger Abhängigkeiten angewendet. Es ergeben sich eine Vielzahl von Simulationskorrelati- onswerten für alle Paare von Positionen jedes betrachteten „Shuffles".The simulation method u includes the generation of a large number of randomized reference data records (so-called "shuffles") - the reference data records each consist of the same number of data sequences as the data record under consideration, all have the same length as the given data sequences and result from them in the following way: If one imagines the individual data sequences of the given data record written line by line, the data within the columns, that is, the data at the same position, are randomly interchanged. Such intra-position swaps do not change the noise of the positions, but break up existing dependencies and possibly create new dependencies. As for step 2, the correlation measure is used for the quantitative evaluation of mutual dependencies for each reference data record. A large number of simulation correlation values result for all pairs of positions of each “shuffles” considered.
Es wird für jeden Referenzdatensatz des Si ulations erfahrens die jeweils maximale auftretende Abhängigkeit zwischen zwei Positionen bestimmt. Ferner wird für jeden Referenzdatensatz die maximale Positionsgewichtung entsprechend dem für den gegebenen Datensatz gewählten Verfahren bestimmt. Jeweils Mittelwert und Varianz dieser beiden Werte, über alle Referenzdatensätze ermittelt, werden als repräsentative Referenzwerte für den späteren Vergleich mit den für die betrachteten Daten
folgen berechneten Korrelationswerten und Positionsgewichtungen ausgegeben oder gespeichert.The maximum dependency that occurs between two positions is determined for each reference data record of the simulation process. Furthermore, the maximum position weighting is determined for each reference data record in accordance with the method selected for the given data record. The mean and variance of these two values, determined over all reference data sets, are used as representative reference values for later comparison with those for the data under consideration following calculated correlation values and position weightings output or saved.
4. Schritt: Erfassung der Positionen von miteinander korrelierten DatenStep 4: Acquisition of the positions of correlated data
In einem ersten Teilschritt werden Abhängigkeitsgruppen von Positionen ermittelt. Hierzu werden die paarweisen Abhängigkeiten der Positionen mit einem vorbestimmten Schwellwert verglichen. Der Schwellwert ist beispielsweise (wie bei Entscheidungen über statistische Signifikanz üblich) die Summe aus Mittelwert und Varianz der in Schritt 3 bestimmten maximalen Abhängigkeit in den Referenzdatensätzen. Alternativ kann als Schwellwert eine anwendungsabhängig eingestellte Größe verwendet werden, die auf Zusatzinformationen, Erfahrungswerten oder dgl. basiert. Die Bestimmung von korrelierten Positionen erfolgt vorzugsweise durch Bildung von Abhängigkeitsgruppen der Positionen nach dem folgenden Schema.In a first sub-step, dependency groups on positions are determined. For this purpose, the paired dependencies of the positions are compared with a predetermined threshold value. The threshold value is, for example (as is customary in decisions about statistical significance) the sum of the mean and variance of the maximum dependency in the reference data records determined in step 3. Alternatively, an application-dependent variable can be used as the threshold value, which is based on additional information, empirical values or the like. Correlated positions are preferably determined by forming dependency groups of the positions according to the following scheme.
Gruppen von Positionen, deren paarweise Abhängigkeiten voneinander sämtlich über dem Schwellwert liegen, werden als sogenannte Cliquen zusammengefasst . Falls die Mehrzahl der Korre- lationswerte über dem Schwellwert liegen, eine kleine Anzahl von Positionspaaren jedoch geringere Korrelationswerte ergeben, so werden die zugehörigen Positionen in Gruppen zusammengefasst, die als "Beinahe-Cliquen" bezeichnet werden. Bei der Definition einer "Beinahe-Clique" kann ein- zweiter, niedrigerer Schwellwert als Mindestgröße für diejenigen Korrelationswerte berücksichtigt werden, die den Schwellwert für eine Clique nicht erreichen. Als schwächste Form einer Abhängigkeits- gruppe werden Positionen, die lediglich mittelbar voneinander stark abhängig sind, als "Komponenten" zusammengefasst. Dabei ist eine mittelbare Abhängigkeit der Positionen i und q dann gegeben, wenn es Positionen j, k, ... q derart gibt, dass die Positionenpaare (i, j), (j, k) , ... , (p, q) jeweils über dem
S'chwellwert liegende Korrelationswerte besitzen. Ein hoher Korrelationswert für das Positionenpaar (i, q) muss jedoch nicht notwendigerweise vorliegen.Groups of positions whose paired dependencies on each other are all above the threshold are summarized as so-called cliques. If the majority of the correlation values are above the threshold value, but a small number of pairs of positions result in lower correlation values, the associated positions are combined in groups which are referred to as "near cliques". When defining an "almost clique", a second, lower threshold value can be taken into account as the minimum size for those correlation values which do not reach the threshold value for a clique. As the weakest form of a dependency group, positions that are only indirectly dependent on each other are summarized as "components". There is an indirect dependency of the positions i and q if there are positions j, k, ... q such that the position pairs (i, j), (j, k), ..., (p, q ) above each S 'chwellwert lying correlation values have. However, a high correlation value for the position pair (i, q) does not necessarily have to be present.
Zum Zwecke der Verkürzung der Datenfolgen und damit der Datenkompression können alle außerhalb der Abhängigkeitsgruppen liegenden Positionen gestrichen (gelöscht) werden. Es bleiben dann nur die relevanten für die weitere Verarbeitung gewünschten Daten bestehen.For the purpose of shortening the data sequences and thus the data compression, all positions outside the dependency groups can be deleted (deleted). Then only the relevant data required for further processing remains.
In einem weiteren Teilschritt werden die Abhängigkeitsgruppen ausgegeben bzw. gespeichert. Den Positionen der Datenfolgen wird eine Information zugeordnet, wonach sie zu einer der genannten Abhängigkeitsgruppen gehören oder nicht. Es werden abgeleitete Datenfolgen gebildet, die ausschließlich die korrelierten Positionen umfassen. Die abgeleiteten Datenfolgen werden anwendungsabhängig an eine Schnittstelle zu einem weiteren Auswertungs- oder Diagnosegerät gegeben, gespeichert, angezeigt oder anderweitig dargestellt.In a further sub-step, the dependency groups are output or saved. The positions of the data sequences are assigned information that they belong to one of the dependency groups mentioned or not. Derived data sequences are formed that only include the correlated positions. Depending on the application, the derived data sequences are sent to an interface to another evaluation or diagnostic device, stored, displayed or otherwise displayed.
5. Schritt: Bestimmung von Teilklassen der DatenfolgenStep 5: Determination of sub-classes of the data sequences
Auf der Grundlage der bei Schritt 4 ermittelten Abhängigkeitsgruppen werden anschließend Teilklassen der gegebenen Menge von Datenfolgen ermittelt. Die Abhängigkeitsgruppen bilden bestimmte Muster, d. h. Kombinationen von Positionsbesetzungen. Die Teilklassen und die sie charakterisierenden Muster innerhalb der Datenfolgen werden ausgegeben bzw. gespeichert.Subclasses of the given set of data sequences are then determined on the basis of the dependency groups determined in step 4. The dependency groups form certain patterns, i. H. Combinations of positions. The subclasses and the patterns that characterize them within the data sequences are output or stored.
Im Ergebnis sind die für die weitere Bearbeitung, Anzeige oder Auswertung relevanten Datenfolgen in ihrer Anzahl durch Auswahl jeweils einer repräsentativen Datenfolge je Teilklasse reduziert worden.
6. Schritt: VorhersageAs a result, the number of data sequences relevant for further processing, display or evaluation has been reduced by selecting a representative data sequence for each subclass. Step 6: prediction
Die Vorhersage u fasst die Bearbeitung einer oder mehrerer neuer Datenfolgen entsprechend den Schritten 1 bis 5 und den Vergleich der bei Schritt 5 für die neuen Datenfolgen ermittelten Muster mit den Mustern der vorher verarbeiteten Datenfolgen. Wenn Übereinstimmungen charakteristischer Muster gegeben sind, so wird den jeweiligen Positionen der neuen Datenfolgen die entsprechend für die zuerst verarbeiteten Datenfolgen ermittelte Teilklasse zugeordnet bzw. die entsprechende Zugehörigkeit zu dieser Teilklasse vorhergesagt.The prediction u summarizes the processing of one or more new data sequences in accordance with steps 1 to 5 and the comparison of the patterns determined for the new data sequences in step 5 with the patterns of the previously processed data sequences. If characteristic patterns match, then the respective positions of the new data sequences are assigned the subclass determined for the data sequences processed first, or the corresponding affiliation to this subclass is predicted.
Beispiel 1. Schritt:Example Step 1:
Das erfindungsgemäße Verfahren wird an einem konstruierten Beispiel erläutert Es werden 16 Positionsfolgen der Länge 9 betrachtet, die in Position 8 über dem Alphabet "1,2,3...", in Position 9 über dem Alphabet "+,-", sonst über dem Alphabet "A,C,G,T" gebildet sind. Es handelt sich bspw. um DNA- Sequenzen der Länge 7 mit einem in der angehängten Position 8 codierten Umwelteinfluss und einem in Position 9 vermerkten Vorhandensein einer phänotypischen Eigenschaft.The method according to the invention is explained using a constructed example. 16 position sequences of length 9 are considered, which are in position 8 above the alphabet "1,2,3 ...", in position 9 above the alphabet "+, -", otherwise via the alphabet "A, C, G, T" are formed. These are, for example, DNA sequences of length 7 with an environmental influence coded in the attached position 8 and a presence of a phenotypic property noted in position 9.
Position 1 2 3 4 5 6 7 8 9Position 1 2 3 4 5 6 7 8 9
Folge 1 : G A A A A A A 3 +Episode 1: G A A A A A A 3 +
Folge 2 : T C A T C C A 3 +Episode 2: T C A T C C A 3 +
Folge 3 A T A C T C G 2 -Episode 3 A T A C T C G 2 -
Folge 4 : A A A C A A G 2 +Episode 4: A A A C A A G 2 +
Folge 5 C C A G C C T 1 -Episode 5 C C A G C C T 1 -
Folge 6 G G A A G G A 3 +Episode 6 G G A A G G A 3 +
Folge 7 C G A G G A T 1 -Episode 7 C G A G G A T 1 -
Folge 8 G T A A T C A 3 +Episode 8 G T A A T C A 3 +
Folge 9 G T A A T C A 3 +Episode 9 G T A A T C A 3 +
Folge 10 A G A C G G G 2 +Episode 10 A G A C G G G 2 +
Folge 11 C T A G T T T 1 -Episode 11 C T A G T T T 1 -
Folge 12 T T A T T T A 3 -Episode 12 T T A T T T A 3 -
Folge 13 : C A A G A G T 1 -Episode 13: C A A G A G T 1 -
Folge 14 : G C A A C T A 3 +Episode 14: G C A A C T A 3 +
Folge 15 : T G A T G A A 3 -Episode 15: T G A T G A A 3 -
Folge 16 : A C A C C T G 2 +
2'. Schritt:Episode 16: ACACCTG 2 + 2 ' . Step:
Die paarweisen Abhängigkeiten zwischen den Positionen werden als Korrelationswert TransInformation berechnet:The pairwise dependencies between the positions are calculated as the correlation value TransInformation:
Pos.i Pos. j T(i,j) Pos.i Pos. j T(i,i)Pos.i Pos. J T (i, j) Pos.i Pos. J T (i, i)
1 2 0,0551 3 7 0,00001 2 0.0551 3 7 0.0000
1 3 0,0000 3 8 0,00001 3 0.0000 3 8 0.0000
1 4 1,3705 3 9 0,00001 4 1.3705 3 9 0.0000
1 5 0,0551 4 5 0,05511 5 0.0551 4 5 0.0551
1 6 0,0551 4 6 0,05511 6 0.0551 4 6 0.0551
1 7 1,0397 4 7 1,03971 7 1.0397 4 7 1.0397
1 8 1,0397 4 8 1,03971 8 1.0397 4 8 1.0397
1 9 0,4254 4 9 0,42541 9 0.4254 4 9 0.4254
2 3 0,0000 5 6 0,69432 3 0.0000 5 6 0.6943
2 4 0,0551 5 7 0,01692 4 0.0551 5 7 0.0169
2 5 1,3705 5 8 0,01692 5 1.3705 5 8 0.0169
2 6 0,6943 5 9 0,04182 6 0.6943 5 9 0.0418
2 7 0,0169 6 7 0,01692 7 0.0169 6 7 0.0169
2 8 0,0169 6 8 0,01692 8 0.0169 6 8 0.0169
2 9 0,0418 6 9 0,00912 9 0.0418 6 9 0.0091
3 4 0,0000 7 8 1,03973 4 0.0000 7 8 1.0397
3 5 0,0000 7 9 0,26363 5 0.0000 7 9 0.2636
3 6 0,0000 8 9 0,26363 6 0.0000 8 9 0.2636
Ein Wert der Transinformation von 0 bedeutet stochastische Unabhängigkeit im üblichen Sinne. Diese liegt insbesondere vor, wenn eine der betrachteten Positionen konstant ist, wie hier die Daten in Position 3. Die stärksten Abhängigkeiten in dem Beispiel bestehen zwischen den Positionen 1 und 4 bzw. zwischen den Positionen 2 und 5 : Während die Positionen 2 und 5 identisch besetzt sind, also offensichtlich im höchsten Maße voneinander abhängig sind, so bestimmen sich auch die Positionen 1 und 4 gegenseitig eindeutig - ein "G" an Position 1 ist stets mit einem "A" an Position 4 verbunden, ein "T" mit einem "T", ein "A" mit "C" und ein "C" mit einem "G".A value of the transinformation of 0 means stochastic independence in the usual sense. This is particularly the case if one of the positions considered is constant, as is the data in position 3 here. The strongest dependencies in the example exist between positions 1 and 4 or between positions 2 and 5: While positions 2 and 5 are identical Positions 1 and 4 are mutually unambiguously determined - a "G" at position 1 is always connected with an "A" at position 4, a "T" with a " T ", an" A "with" C "and a" C "with a" G ".
Anschließend folgt die durch Summenbildung bestimmte Positionsgewichtung:
Pos. GewichtThen follows the position weighting determined by totaling: Pos. Weight
1 4,04061 4.0406
2 2,25062 2.2506
3 0,00003 0.0000
4 4,04064 4.0406
5 2,25065 2.2506
6 1,54176 1.5417
7 3,43347 3.4334
8 3,43348 3.4334
9 1,47079 1.4707
Die Positionen 1 und 4 sind im Sinne dieser Gewichtung von größter Bedeutung, da alle anderen Positionen von ihnen durchschnittlich am stärksten abhängig sind.Positions 1 and 4 are of the greatest importance in terms of this weighting, since all other positions depend on them most on average.
3. Schritt:3rd step:
Die Überprüfung der statistischen Relevanz mittels Simulation ergibt: 100 „Shuffles" besitzen durchschnittlich eine maximale Abhängigkeit zweier Positionen voneinander von 0,5941 bei einer Varianz von 0,0870; für die Positionspaare mit einer stärkeren Abhängigkeit als 0,5941 + 0,0870 = 0,6811 ist die statistische Relevanz gegeben.The verification of the statistical relevance by means of simulation shows: 100 "shuffles" have an average maximum dependency of two positions on one another of 0.5941 with a variance of 0.0870; for the position pairs with a greater dependence than 0.5941 + 0.0870 = 0 , 6811 the statistical relevance is given.
4. Schritt:4th step:
Wählt man als Schwellwert 0,5941 + 2 • 0,0870 = 0,7681, betrachtet also nur diejenigen Positionspaare mit einer Transinformation, die um mindestens zwei Varianzen größer als der zu erwartenden maximalen ist, so findet man zwei Cliquen: die Gruppe der Positionen 1,4,7,8 (je zwei dieser vier Positionen besitzen eine über der gewählten Schwelle liegende Transinformation) und die Gruppe der Positionen 2,5.If one chooses the threshold value 0.5941 + 2 • 0.0870 = 0.7681, ie only considers those position pairs with a transinformation that is at least two variances larger than the expected maximum, two cliques are found: the group of positions 1,4,7,8 (two of these four positions each have a transinformation above the selected threshold) and the group of positions 2.5.
5. An den Positionen 1,4,7,8 kommen folgende Muster innerhalb der Menge von Positionsfolgen vor:
Position 1 4 7 85. At positions 1,4,7,8 the following patterns occur within the set of position sequences: Position 1 4 7 8
Folge 1 G A A 3Episode 1 G A A 3
Folge 2 T T A 3Episode 2 T T A 3
Folge 3 A C G 2Episode 3 A C G 2
Folge 4 A C G 2Episode 4 A C G 2
Folge 5 : C G T 1Episode 5: C G T 1
Folge 6 G A A 3Episode 6 G A A 3
Folge 7 C G T 1Episode 7 C G T 1
Folge 8 G A A 3Episode 8 G A A 3
Folge 9 G A A 3Episode 9 G A A 3
Folge 10 A C G 2Episode 10 A C G 2
Folge 11 C G T 1Episode 11 C G T 1
Folge 12 T T A 3Episode 12 T T A 3
Folge 13 : C G T 1Episode 13: C G T 1
Folge 14 : G A A 3Episode 14: G A A 3
Folge 15 : T T A 3Episode 15: T T A 3
Folge 16 A C G 2Episode 16 A C G 2
Dies führt zur Einteilung der Menge in vier Teilklassen:This leads to the division of the quantity into four subclasses:
Teilklasse 1 (zum Muster "GAA3") : Folgen 1,6,8,9,14Subclass 1 (for model "GAA3"): Follow 1,6,8,9,14
Teilklasse 2 (zum Muster "TTA3") : Folgen 2,12,15Subclass 2 (for the pattern "TTA3"): episodes 2, 12, 15
Teilklasse 3 (zum Muster "ACG2") : Folgen 3,4,10,16Subclass 3 (for the pattern "ACG2"): episodes 3,4,10,16
Teilklasse 4 (zum Muster "CGT1") : Folgen 5,7,11,13Subclass 4 (for the pattern "CGT1"): episodes 5,7,11,13
Hier ist zu bemerken, dass die Klassifizierung nach den an den Positionen 2,5 vorkommenden Mustern zu einer anderen Einteilung geführt hätte:It should be noted here that the classification according to the patterns occurring at positions 2.5 would have led to a different classification:
Teilklasse 1 (zum Muster "AA") : Folgen 1,4,13Subclass 1 (for the pattern "AA"): episodes 1,4,13
Teilklasse 1 (zum Muster "CC") : Folgen 2,5,14,16Subclass 1 (for the pattern "CC"): Follow 2,5,14,16
Teilklasse 1 (zum Muster "TT") : Folgen 3,8,9,11,12Subclass 1 (for the pattern "TT"): Follow 3,8,9,11,12
Teilklasse 1 (zum Muster "GG") : Folgen 6,7,10,15Subclass 1 (for the pattern "GG"): episodes 6,7,10,15
Wahlweise können zu allen in Schritt 4 gefundenen Positionsgruppen die jeweils implizierte Klassifizierung ausgegeben werden, um dann unter Ausnutzung zusätzlicher Informationen zu entscheiden, welche auf das Problem bezogen am geeignetsten ist. Es ist auch möglich, eine gemeinsame Partitionierung zu konstruieren — je nach' Zielsetzung etwa die gröbste Partitionierung, die feiner als alle gefundenen ist, oder die feinste unter den gröberen.
6. Schritt:Optionally, the respective implied classification can be output for all position groups found in step 4, in order to then use additional information to decide which is most suitable in relation to the problem. It is also possible to construct a common partitioning - depending on the 'objective about the coarsest partition that is finer than any found, or the finest among the coarser. 6th step:
Schließlich wird für die nicht zu den ursprünglichen Positionsfolgen gehörende Folge "GGAATTC3" ein "+" für die in Position 9 codierte Funktion, also das Vorhandensein der betrachteten phänotypischen Eigenschaft, vorhergesagt, da ihr Muster "GAA3" an den Positionen 1,4,7,8 mit dem die Teilklasse 1 charakterisierenden Muster übereinstimmt und jede Positionsfolge aus dieser Teilklasse ein "+" an Position 9 besitzt.Finally, for the sequence "GGAATTC3" not belonging to the original position sequences, a "+" is predicted for the function coded in position 9, that is to say the presence of the phenotypic property under consideration, since its pattern "GAA3" at positions 1,4,7 , 8 matches the pattern characterizing subclass 1 and each position sequence from this subclass has a "+" at position 9.
Vorrichtung zur KorrelationsanalyseCorrelation analysis device
Eine erfindungsgemäße Korrelatorvorrichtung umfasst eine Formatierungseinrichtung zur Bereitstellung einer Vielzahl von Datenfolgen gleicher Länge, eine Recheneinrichtung zur Bestimmung der Korrelationswerte zwischen allen Positionspaaren der Datenfolgen und der daraus abgeleiteten Positionsgewichtungen, eine Vergleichereinrichtung zum Vergleich der Positionsgewichtungen mit vorbestimmten Referenzwerten und zur Ermittlung von korrelierten Positionen, und eine Einrichtung zur Anzeige, Ausgabe oder Speicherung von abgeleiteten Datenfolgen, die durch die korrelierten Positionen gebildet werden. Die verschiedenen Komponenten der Korrelatorvorrichtung werden vorzugsweise durch eine Datenverarbeitungsanlage, z. B. einen Computer, implementiert.
A correlator device according to the invention comprises a formatting device for providing a plurality of data sequences of the same length, a computing device for determining the correlation values between all position pairs of the data sequences and the position weights derived therefrom, a comparator device for comparing the position weights with predetermined reference values and for determining correlated positions, and one Device for displaying, outputting or storing derived data sequences which are formed by the correlated positions. The various components of the correlator device are preferably controlled by a data processing system, e.g. B. implemented a computer.