RU2015153453A - Способ и устройство для детектирования хромосомных структурных аномалий - Google Patents
Способ и устройство для детектирования хромосомных структурных аномалий Download PDFInfo
- Publication number
- RU2015153453A RU2015153453A RU2015153453A RU2015153453A RU2015153453A RU 2015153453 A RU2015153453 A RU 2015153453A RU 2015153453 A RU2015153453 A RU 2015153453A RU 2015153453 A RU2015153453 A RU 2015153453A RU 2015153453 A RU2015153453 A RU 2015153453A
- Authority
- RU
- Russia
- Prior art keywords
- read
- sequences
- clusters
- range
- lib
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 16
- 210000000349 chromosome Anatomy 0.000 claims 10
- 238000012163 sequencing technique Methods 0.000 claims 7
- 239000012634 fragment Substances 0.000 claims 6
- 230000002759 chromosomal effect Effects 0.000 claims 5
- 238000001914 filtration Methods 0.000 claims 5
- 230000002159 abnormal effect Effects 0.000 claims 4
- 230000005856 abnormality Effects 0.000 claims 2
- 239000006185 dispersion Substances 0.000 claims 2
- 230000002547 anomalous effect Effects 0.000 claims 1
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 230000005945 translocation Effects 0.000 claims 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
Claims (46)
1. Способ детектирования хромосомных структурных аномалий, включающий:
получение результата секвенирования всего генома целевого индивидуума или целевых индивидуумов, причем результат секвенирования включает множество пар прочтений, каждая пара прочтений состоит из двух последовательностей прочтений, расположенных, соответственно, с двух концов исследуемого хромосомного фрагмента, и каждую пару прочтений получают отдельно от положительных и отрицательных нитей соответствующего хромосомного фрагмента или как от положительной, так и от отрицательной нити соответствующего хромосомного фрагмента;
выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, причем набор аномальных соответствий включает первый тип пар прочтений, описываемый тем, что две последовательности прочтений в первом типе пары прочтений соответствуют, соответственно, различным хромосомам референсной последовательности;
кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений, причем каждый кластер содержит последовательности прочтений одного конца из группы пар прочтений, а соответствующие последовательности прочтений другого конца принадлежат к другому кластеру;
фильтрацию кластеров, получаемых из кластеризации, включающую вычисление компактности каждого кластера и отфильтровывание кластеров, имеющих компактность, не удовлетворяющую заранее заданному требованию в отношении R-va, и кластеров, парных им; и
получение отфильтрованных итоговых кластеров, содержащих первый тип пар прочтений, для определения наличия хромосомной структурной аномалии транслокационного типа.
2. Способ по п. 1, в котором
фильтрация кластеров, получаемых из кластеризации, дополнительно содержит:
вычисление линейной корреляции двух парных кластеров и фильтрацию парных кластеров, которые имеют линейную корреляцию, не удовлетворяющую заранее заданному требованию в отношении R-li; и/или
выравнивание парных кластеров с заранее заданным контрольным набором, содержащим множество нормальных образцов, и фильтрацию парных кластеров, которые имеют число попаданий нормальных образцов, достигающее заранее заданного порога V-con.
3. Способ по п. 1, дополнительно содержащий:
поиск итоговых кластеров, содержащих первый тип пар прочтений, если две соседние последовательности прочтений имеют противоположные положения в соответствующих парах прочтений, причем диапазон между положениями, которым соответствуют две последовательности прочтений, принимают в качестве диапазона граничных точек; и, если такие последовательности прочтений не существуют, получение положения самой внутренней последовательности прочтения и принятие диапазона, полученного посредством распространения внутрь от данного положения на заранее заданную длину, в качестве диапазона граничных точек.
4. Способ по п. 1, в котором
набор аномальных соответствий дополнительно содержит второй тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений второго типа соответствуют одной и той же хромосоме референсной последовательности, но длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, является отрицательной; и
дополнительно получают отфильтрованные итоговые кластеры, содержащие второй тип пар прочтений, для определения наличия хромосомной структурной аномалии типа тандемного повтора.
5. Способ по п. 4, дополнительно содержащий:
поиск итоговых кластеров, содержащих второй тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наибольшее расстояние в парных кластерах, в качестве диапазона наличия повтора и принятие диапазона, полученного посредством соответствующего распространения наружу от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.
6. Способ по п. 1, в котором
набор аномальных соответствий дополнительно содержит третий тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений третьего типа соответствуют одной и той же хромосоме референсной последовательности, но длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, больше, чем библиотечный размер L-lib, а отклонение выше заранее заданного порога V-lib, причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib; и
дополнительно получают отфильтрованные итоговые кластеры, содержащие третий тип пар прочтений, для определения наличия хромосомной структурной аномалии делеционного типа.
7. Способ по п. 6, дополнительно содержащий:
поиск итоговых кластеров, содержащих третий тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наименьшее расстояние в парных кластерах, в качестве диапазона наличия делеции, и принятие диапазона, полученного посредством соответствующего распространения внутрь от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.
8. Способ по любому из пп. 1-7, в котором
выравнивание результата секвенирования с референсной последовательностью дополнительно содержит:
получение набора нормальных соответствий, причем набор нормальных соответствий включает пары прочтений, описываемые тем, что две последовательности прочтений в паре прочтений соответствуют одной и той же хромосоме референсной последовательности, и отношение положительных и отрицательных нитей соответствующих им положений согласуется с этим отношением в паре прочтений, и длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, отклоняется от библиотечного размера L-lib, использованного при секвенировании, на величину, меньшую заранее заданного порога V-lib, причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib; и
статистическое вычисление числа RPU прочтений в наборе нормальных соответствий на единицу длины и получение вариации RPU по сравнению со средним значением для облегчения определения наличия структурных аномалий, причем для вариации RPU по сравнению со средним значением указывают, предпочтительно, превосходит ли вариация RPU заранее заданный порог V-rm, и V-rm составляет, предпочтительно, 10-30% и, более предпочтительно, 20%.
9. Способ по любому из пп. 1-7, в котором
выравнивание результата секвенирования с референсной последовательностью дополнительно содержит
получение набора несоответствий, который включает последовательности прочтений, которые не могут соответствовать референсной последовательности, и включает в себя последовательности парных несоответствующих прочтений или последовательности несоответствующих прочтений одного конца; и
после получения итоговых кластеров способ дополнительно содержит
получение последовательностей прочтений одного конца в диапазоне, установленном вокруг определенного диапазона граничных точек, извлечение парных им последовательностей прочтений из набора несоответствий в качестве последовательности для заполнения брешей, разрезание всех последовательностей для заполнения брешей на N секций, причем N составляет, предпочтительно, 2, выравнивание еще раз подпоследовательностей, полученных после разрезания последовательностей для заполнения брешей, с референсной последовательностью и подгонку области граничных точек в соответствии с результатом нормального соответствия.
10. Способ по любому из пп. 1-7, в котором
во время вычисления компактности каждого кластера 5-25% последовательностей прочтений, расположенных с двух концов кластера, исключают из вычисления; и/или
когда компактность указана с помощью дисперсии, R-va устанавливают таким образом, что ранги дисперсий во всех кластерах находятся в пределах нижнего интервала 2-10% и, предпочтительно, 5%.
11. Способ по п. 2, в котором
во время вычисления линейной корреляции двух парных кластеров линейную корреляцию указывают с помощью коэффициента корреляции, и R-li устанавливают таким образом, что ранги коэффициентов корреляции во всех кластерах находятся в пределах верхнего интервала 2-10% и, предпочтительно, 5%; и/или
отношение V-con к числу нормальных образцов в контрольном наборе составляет 3-10% и, предпочтительно, 5-6%.
12. Способ по п. 1, в котором
библиотечный размер L-lib, использованный при секвенировании, больше или равен 300 п.о. и, предпочтительно, 500 п.о. или 5 т.п.о., и/или
длина последовательностей прочтений больше или равна 25 п.о. и, предпочтительно, находится в пределах ±10% от 50 п.о.
13. Устройство для детектирования хромосомных структурных аномалий, содержащее:
узел ввода данных, выполненный с возможностью ввода данных;
узел вывода данных, выполненный с возможностью вывода данных;
узел хранения, выполненный с возможностью хранения данных и содержащий выполняемую программу; и
процессор в информационном соединении с узлом ввода данных, узлом вывода данных и узлом хранения и выполненный с возможностью выполнения выполняемой программы, причем выполнение программы включает в себя осуществление способа по любому из пп. 1-12.
14. Машиночитаемая среда для хранения, выполненная с возможностью хранения программы, выполняемой компьютером, причем выполнение программы включает осуществление способа по любому из пп. 1-12.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2013/075622 WO2014183270A1 (zh) | 2013-05-15 | 2013-05-15 | 一种检测染色体结构异常的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2015153453A true RU2015153453A (ru) | 2017-06-20 |
RU2654575C2 RU2654575C2 (ru) | 2018-05-21 |
Family
ID=51897591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015153453A RU2654575C2 (ru) | 2013-05-15 | 2013-05-15 | Способ и устройство для детектирования хромосомных структурных аномалий |
Country Status (8)
Country | Link |
---|---|
US (1) | US11004538B2 (ru) |
EP (1) | EP2998407B2 (ru) |
CN (1) | CN104302781B (ru) |
ES (1) | ES2766860T5 (ru) |
HU (1) | HUE047501T2 (ru) |
PL (1) | PL2998407T5 (ru) |
RU (1) | RU2654575C2 (ru) |
WO (1) | WO2014183270A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2799778C1 (ru) * | 2019-09-30 | 2023-07-11 | Иллюмина Сингапур Пте. Лтд. | Способ определения показателя, коррелированного с вероятностью того, что два мутированных прочтения последовательности происходят от одной и той же содержащей мутации последовательности |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11004538B2 (en) | 2013-05-15 | 2021-05-11 | Bgi Genomics Co., Ltd. | Method and device for detecting chromosomal structural abnormalities |
CN107075564A (zh) * | 2014-12-10 | 2017-08-18 | 深圳华大基因研究院 | 确定肿瘤核酸浓度的方法和装置 |
CN107077533B (zh) * | 2014-12-10 | 2021-07-27 | 深圳华大生命科学研究院 | 测序数据处理装置和方法 |
CN107077538B (zh) * | 2014-12-10 | 2020-08-07 | 深圳华大生命科学研究院 | 测序数据处理装置和方法 |
CN107688727B (zh) * | 2016-08-05 | 2020-07-14 | 深圳华大基因股份有限公司 | 生物序列聚类和全长转录组中转录本亚型识别方法和装置 |
CN107058465B (zh) * | 2016-10-14 | 2021-10-01 | 南方科技大学 | 一种利用单倍体测序技术检测染色体平衡易位的方法 |
CN106845155B (zh) * | 2016-12-29 | 2021-11-16 | 安诺优达基因科技(北京)有限公司 | 一种用于检测内部串联重复的装置 |
CN106709276A (zh) * | 2017-01-21 | 2017-05-24 | 深圳昆腾生物信息有限公司 | 一种基因变异成因分析方法及系统 |
CN109280702A (zh) * | 2017-07-21 | 2019-01-29 | 深圳华大基因研究院 | 确定个体染色体结构异常的方法和系统 |
CN108830044B (zh) * | 2018-06-05 | 2020-06-26 | 序康医疗科技(苏州)有限公司 | 用于检测癌症样本基因融合的检测方法和装置 |
CN109887547B (zh) * | 2019-03-06 | 2020-10-02 | 苏州浪潮智能科技有限公司 | 一种基因序列比对滤波加速处理方法、系统及装置 |
CN111583996B (zh) * | 2020-04-20 | 2023-03-28 | 西安交通大学 | 一种模型非依赖的基因组结构变异检测系统及方法 |
CN112687341B (zh) * | 2021-03-12 | 2021-06-04 | 上海思路迪医学检验所有限公司 | 一种以断点为中心的染色体结构变异鉴定方法 |
CN114743594B (zh) * | 2022-03-28 | 2023-04-18 | 深圳吉因加医学检验实验室 | 一种用于结构变异检测的方法、装置和存储介质 |
CN115910199B (zh) * | 2022-11-01 | 2023-07-14 | 哈尔滨工业大学 | 一种基于比对框架的三代测序数据结构变异检测方法 |
CN115831223B (zh) * | 2023-02-20 | 2023-06-13 | 吉林工商学院 | 一种挖掘近源物种间染色体结构变异的分析方法及系统 |
CN118335196A (zh) * | 2024-06-13 | 2024-07-12 | 安诺优达基因科技(北京)有限公司 | 一种微小染色体组装鉴定装置、方法及其应用 |
CN118969073A (zh) * | 2024-10-21 | 2024-11-15 | 烟台大学 | 基于等位基因感知的插入或缺失变异检测方法、系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7943304B2 (en) * | 2005-01-12 | 2011-05-17 | Ramesh Vallabhaneni | Method and apparatus for chromosome profiling |
CN101561845A (zh) * | 2008-12-12 | 2009-10-21 | 深圳华大基因研究院 | 一种染色体同线性同源区域的检测方法和系统 |
WO2011143231A2 (en) * | 2010-05-10 | 2011-11-17 | The Broad Institute | High throughput paired-end sequencing of large-insert clone libraries |
CN101914628B (zh) * | 2010-09-02 | 2013-01-09 | 深圳华大基因科技有限公司 | 检测基因组目标区域多态性位点的方法 |
AU2011348267A1 (en) | 2010-12-23 | 2013-08-01 | Sequenom, Inc. | Fetal genetic variation detection |
CN103270175B (zh) * | 2011-01-20 | 2015-06-24 | 深圳华大基因科技有限公司 | 检测转基因外源片段插入位点的方法和系统 |
CN102409099A (zh) * | 2011-11-29 | 2012-04-11 | 浙江大学 | 一种利用测序技术分析猪乳腺组织基因表达差异的方法 |
CN102789553B (zh) * | 2012-07-23 | 2015-04-15 | 中国水产科学研究院 | 利用长转录组测序结果装配基因组的方法及装置 |
US11004538B2 (en) | 2013-05-15 | 2021-05-11 | Bgi Genomics Co., Ltd. | Method and device for detecting chromosomal structural abnormalities |
-
2013
- 2013-05-15 US US14/890,989 patent/US11004538B2/en active Active
- 2013-05-15 PL PL13884613.4T patent/PL2998407T5/pl unknown
- 2013-05-15 WO PCT/CN2013/075622 patent/WO2014183270A1/zh active Application Filing
- 2013-05-15 ES ES13884613T patent/ES2766860T5/es active Active
- 2013-05-15 HU HUE13884613A patent/HUE047501T2/hu unknown
- 2013-05-15 RU RU2015153453A patent/RU2654575C2/ru active
- 2013-05-15 EP EP13884613.4A patent/EP2998407B2/en active Active
- 2013-05-15 CN CN201380004734.0A patent/CN104302781B/zh active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2799778C1 (ru) * | 2019-09-30 | 2023-07-11 | Иллюмина Сингапур Пте. Лтд. | Способ определения показателя, коррелированного с вероятностью того, что два мутированных прочтения последовательности происходят от одной и той же содержащей мутации последовательности |
RU2799778C9 (ru) * | 2019-09-30 | 2023-08-04 | Иллюмина Сингапур Пте. Лтд. | Способ определения показателя, коррелированного с вероятностью того, что два мутированных прочтения последовательности происходят от одной и той же содержащей мутации последовательности |
Also Published As
Publication number | Publication date |
---|---|
US11004538B2 (en) | 2021-05-11 |
HUE047501T2 (hu) | 2020-04-28 |
EP2998407A4 (en) | 2017-01-11 |
PL2998407T5 (pl) | 2023-01-30 |
CN104302781B (zh) | 2016-09-14 |
ES2766860T3 (es) | 2020-06-15 |
US20160085911A1 (en) | 2016-03-24 |
EP2998407B1 (en) | 2019-12-04 |
WO2014183270A1 (zh) | 2014-11-20 |
RU2654575C2 (ru) | 2018-05-21 |
EP2998407B2 (en) | 2022-11-30 |
PL2998407T3 (pl) | 2020-05-18 |
ES2766860T5 (es) | 2023-02-23 |
CN104302781A (zh) | 2015-01-21 |
EP2998407A1 (en) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2015153453A (ru) | Способ и устройство для детектирования хромосомных структурных аномалий | |
Antich et al. | To denoise or to cluster, that is not the question: optimizing pipelines for COI metabarcoding and metaphylogeography | |
O’Reilly et al. | Trauma registries in developing countries: a review of the published experience | |
PH12019501965A1 (en) | Method and device for constructing scoring model and evaluating user credit | |
RU2018119771A (ru) | Сопоставление больниц из обезличенных баз данных здравоохранения без очевидных квазиидентификаторов | |
JP2013246818A (ja) | 時系列データ内のアノマリを検出するための方法 | |
RU2017107750A (ru) | Вычислительный анализ биологических данных с применением многообразия и гиперплоскости | |
WO2013019869A3 (en) | Data fingerpringting for copy accuracy assurance | |
JP2015536661A5 (ru) | ||
Slocum | Decision making using id3 algorithm | |
JP2015532495A5 (ru) | ||
WO2016141045A3 (en) | Detection and visualization of temporal events in a large-scale patient database | |
Degnan et al. | The probability distribution of ranked gene trees on a species tree | |
JP2013517561A5 (ru) | ||
MX2019004234A (es) | Metodo, medio y sistema para detectar virus de papa en una imagen de cultivo. | |
RU2015103735A (ru) | Устройство и способ для автоматического регулирования фильтра | |
JP2016099674A (ja) | 薬剤探索装置、薬剤探索方法およびプログラム | |
JP2013182330A5 (ru) | ||
Barbas et al. | Hepatic and pancreatic resection in patients with end-stage renal disease: a propensity analysis | |
RU2015138144A (ru) | Клеточно-связанные продукты активации комплемента в качестве диагностических биомаркеров волчанки в доклинической стадии | |
US9665795B2 (en) | Method and apparatus for identifying root cause of defect using composite defect map | |
CN105306297A (zh) | 基于双参数Tsallis熵对的网络流量异常检测方法 | |
RU2014132560A (ru) | Способ анализа изменений геометрии облученного топлива | |
PIERAZZO | Natural Image Denoising and inherent limits | |
BIANCHINI | Analysis of the applicability of miRNA clusters as phylogenetic markers, through the development of a method to identify the sequences that best predict a cladogram |