RU2015153453A

RU2015153453A - Способ и устройство для детектирования хромосомных структурных аномалий

Info

Publication number: RU2015153453A
Application number: RU2015153453A
Authority: RU
Inventors: Чуаньчунь ЯН
Original assignee: БиДжиАй Дженомикс Ко., Лтд.
Priority date: 2013-05-15
Filing date: 2013-05-15
Publication date: 2017-06-20
Also published as: US11004538B2; HUE047501T2; EP2998407A4; PL2998407T5; CN104302781B; ES2766860T3; US20160085911A1; EP2998407B1; WO2014183270A1; RU2654575C2; EP2998407B2; PL2998407T3; ES2766860T5; CN104302781A; EP2998407A1

Claims

1. Способ детектирования хромосомных структурных аномалий, включающий:

получение результата секвенирования всего генома целевого индивидуума или целевых индивидуумов, причем результат секвенирования включает множество пар прочтений, каждая пара прочтений состоит из двух последовательностей прочтений, расположенных, соответственно, с двух концов исследуемого хромосомного фрагмента, и каждую пару прочтений получают отдельно от положительных и отрицательных нитей соответствующего хромосомного фрагмента или как от положительной, так и от отрицательной нити соответствующего хромосомного фрагмента;

выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, причем набор аномальных соответствий включает первый тип пар прочтений, описываемый тем, что две последовательности прочтений в первом типе пары прочтений соответствуют, соответственно, различным хромосомам референсной последовательности;

кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений, причем каждый кластер содержит последовательности прочтений одного конца из группы пар прочтений, а соответствующие последовательности прочтений другого конца принадлежат к другому кластеру;

фильтрацию кластеров, получаемых из кластеризации, включающую вычисление компактности каждого кластера и отфильтровывание кластеров, имеющих компактность, не удовлетворяющую заранее заданному требованию в отношении R-va, и кластеров, парных им; и

получение отфильтрованных итоговых кластеров, содержащих первый тип пар прочтений, для определения наличия хромосомной структурной аномалии транслокационного типа.

2. Способ по п. 1, в котором

фильтрация кластеров, получаемых из кластеризации, дополнительно содержит:

вычисление линейной корреляции двух парных кластеров и фильтрацию парных кластеров, которые имеют линейную корреляцию, не удовлетворяющую заранее заданному требованию в отношении R-li; и/или

выравнивание парных кластеров с заранее заданным контрольным набором, содержащим множество нормальных образцов, и фильтрацию парных кластеров, которые имеют число попаданий нормальных образцов, достигающее заранее заданного порога V-con.

3. Способ по п. 1, дополнительно содержащий:

поиск итоговых кластеров, содержащих первый тип пар прочтений, если две соседние последовательности прочтений имеют противоположные положения в соответствующих парах прочтений, причем диапазон между положениями, которым соответствуют две последовательности прочтений, принимают в качестве диапазона граничных точек; и, если такие последовательности прочтений не существуют, получение положения самой внутренней последовательности прочтения и принятие диапазона, полученного посредством распространения внутрь от данного положения на заранее заданную длину, в качестве диапазона граничных точек.

4. Способ по п. 1, в котором

набор аномальных соответствий дополнительно содержит второй тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений второго типа соответствуют одной и той же хромосоме референсной последовательности, но длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, является отрицательной; и

дополнительно получают отфильтрованные итоговые кластеры, содержащие второй тип пар прочтений, для определения наличия хромосомной структурной аномалии типа тандемного повтора.

5. Способ по п. 4, дополнительно содержащий:

поиск итоговых кластеров, содержащих второй тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наибольшее расстояние в парных кластерах, в качестве диапазона наличия повтора и принятие диапазона, полученного посредством соответствующего распространения наружу от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.

6. Способ по п. 1, в котором

набор аномальных соответствий дополнительно содержит третий тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений третьего типа соответствуют одной и той же хромосоме референсной последовательности, но длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, больше, чем библиотечный размер L-lib, а отклонение выше заранее заданного порога V-lib, причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib; и

дополнительно получают отфильтрованные итоговые кластеры, содержащие третий тип пар прочтений, для определения наличия хромосомной структурной аномалии делеционного типа.

7. Способ по п. 6, дополнительно содержащий:

поиск итоговых кластеров, содержащих третий тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наименьшее расстояние в парных кластерах, в качестве диапазона наличия делеции, и принятие диапазона, полученного посредством соответствующего распространения внутрь от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.

8. Способ по любому из пп. 1-7, в котором

выравнивание результата секвенирования с референсной последовательностью дополнительно содержит:

получение набора нормальных соответствий, причем набор нормальных соответствий включает пары прочтений, описываемые тем, что две последовательности прочтений в паре прочтений соответствуют одной и той же хромосоме референсной последовательности, и отношение положительных и отрицательных нитей соответствующих им положений согласуется с этим отношением в паре прочтений, и длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, отклоняется от библиотечного размера L-lib, использованного при секвенировании, на величину, меньшую заранее заданного порога V-lib, причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib; и

статистическое вычисление числа RPU прочтений в наборе нормальных соответствий на единицу длины и получение вариации RPU по сравнению со средним значением для облегчения определения наличия структурных аномалий, причем для вариации RPU по сравнению со средним значением указывают, предпочтительно, превосходит ли вариация RPU заранее заданный порог V-rm, и V-rm составляет, предпочтительно, 10-30% и, более предпочтительно, 20%.

9. Способ по любому из пп. 1-7, в котором

выравнивание результата секвенирования с референсной последовательностью дополнительно содержит

получение набора несоответствий, который включает последовательности прочтений, которые не могут соответствовать референсной последовательности, и включает в себя последовательности парных несоответствующих прочтений или последовательности несоответствующих прочтений одного конца; и

после получения итоговых кластеров способ дополнительно содержит

получение последовательностей прочтений одного конца в диапазоне, установленном вокруг определенного диапазона граничных точек, извлечение парных им последовательностей прочтений из набора несоответствий в качестве последовательности для заполнения брешей, разрезание всех последовательностей для заполнения брешей на N секций, причем N составляет, предпочтительно, 2, выравнивание еще раз подпоследовательностей, полученных после разрезания последовательностей для заполнения брешей, с референсной последовательностью и подгонку области граничных точек в соответствии с результатом нормального соответствия.

10. Способ по любому из пп. 1-7, в котором

во время вычисления компактности каждого кластера 5-25% последовательностей прочтений, расположенных с двух концов кластера, исключают из вычисления; и/или

когда компактность указана с помощью дисперсии, R-va устанавливают таким образом, что ранги дисперсий во всех кластерах находятся в пределах нижнего интервала 2-10% и, предпочтительно, 5%.

11. Способ по п. 2, в котором

во время вычисления линейной корреляции двух парных кластеров линейную корреляцию указывают с помощью коэффициента корреляции, и R-li устанавливают таким образом, что ранги коэффициентов корреляции во всех кластерах находятся в пределах верхнего интервала 2-10% и, предпочтительно, 5%; и/или

отношение V-con к числу нормальных образцов в контрольном наборе составляет 3-10% и, предпочтительно, 5-6%.

12. Способ по п. 1, в котором

библиотечный размер L-lib, использованный при секвенировании, больше или равен 300 п.о. и, предпочтительно, 500 п.о. или 5 т.п.о., и/или

длина последовательностей прочтений больше или равна 25 п.о. и, предпочтительно, находится в пределах ±10% от 50 п.о.

13. Устройство для детектирования хромосомных структурных аномалий, содержащее:

узел ввода данных, выполненный с возможностью ввода данных;

узел вывода данных, выполненный с возможностью вывода данных;

узел хранения, выполненный с возможностью хранения данных и содержащий выполняемую программу; и

процессор в информационном соединении с узлом ввода данных, узлом вывода данных и узлом хранения и выполненный с возможностью выполнения выполняемой программы, причем выполнение программы включает в себя осуществление способа по любому из пп. 1-12.

14. Машиночитаемая среда для хранения, выполненная с возможностью хранения программы, выполняемой компьютером, причем выполнение программы включает осуществление способа по любому из пп. 1-12.