[go: up one dir, main page]

JP6027608B2 - 核酸配列データのアセンブリに関する方法 - Google Patents

核酸配列データのアセンブリに関する方法 Download PDF

Info

Publication number
JP6027608B2
JP6027608B2 JP2014514171A JP2014514171A JP6027608B2 JP 6027608 B2 JP6027608 B2 JP 6027608B2 JP 2014514171 A JP2014514171 A JP 2014514171A JP 2014514171 A JP2014514171 A JP 2014514171A JP 6027608 B2 JP6027608 B2 JP 6027608B2
Authority
JP
Japan
Prior art keywords
sequence
nucleic acid
assembly
data
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014514171A
Other languages
English (en)
Other versions
JP2014529109A (ja
Inventor
クマル,スニル
シン,ランディープ
ディミトロヴァ,ネヴェンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2014529109A publication Critical patent/JP2014529109A/ja
Application granted granted Critical
Publication of JP6027608B2 publication Critical patent/JP6027608B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本発明は、核酸断片リード(reads)を含む核酸配列データの、連続するヌクレオチド配列セグメントへのアセンブリに関する方法に関し:(a)複数の核酸断片リードから複数の核酸配列データを得るステップ;(b)前記複数の核酸配列データを参照配列に整列するステップ;(c)ステップ(b)のアライメント出力内で、1つ以上のギャップ又は前記参照配列と非アセンブリの又は不整合の領域を検出するステップ;(d)前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸配列のデノボ配列アセンブリを実行するステップ;及び(e)連続するヌクレオチド配列セグメントを得るために、ステップ(b)のアライメント出力及びステップ(d)のアセンブリ出力を組み合わせるステップ;のステップを含む。本発明は更に、ギャップ又は非アセンブリの領域の検出が、ベースクオリティ(base quality)、包括度〔カバレッジ〕、周囲領域の複雑度、(complexity)又は不整合長さフィルタ又は閾値を手段に与えることによって実行される方法に関する。また、従来の多型、突然変異又は一時的変異(modification)に関する疾患、リピート(repeat)、低mapability領域(mapability region)、CPGアイランド、又はある生物物理学特徴を有する領域に関連する核酸配列データのマスキング(masking out)が考えられる。さらに、核酸配列データのアセンブリに関する対応するプログラム要素又はコンピュータプログラム及び核酸断片リードを含む核酸配列データを、連続するヌクレオチド配列セグメントに翻訳する配列アセンブリシステムが供される。
次世代又は超高スループット配列決定法の導入に伴って、配列データの量が非常に増大し、一方、配列情報を得るためのコスト及びこの情報の提供に必要とされる時間は、劇的に減少してきており、かつ、将来更に減少するであろう。次世代配列決定アプローチの臨床応用と同様に研究が、トランスクリプトーム解析及びゲノムアノテーションに影響を及ぼしており、RNAスプライス同定、SNPディスカバリ又はゲノムメチル化解析を可能にし、及び疾患の原因を同定し、及び個人デースでのゲノムパターンに関するスクリーニングのための方法を供する。
次世代シークエンス解析(NGS)は、現在、Roche/454、Illumina/Solex及びABI SOLiDシステムを含む一握りのプラットフォームだけに基づいている。内在する技術は、シークエンス解析が始まる前のテンプレート増幅ステップに頼っている。結果として、リード長さは、伝統的なSangerベースの技術と比較して短くなる:一方、ダイ−デオキシターミネーター法は、650−800bpまでのリード長さを提供し、NGS法は、35−400bpのリード長さを有する(Baoら,Journal of human Genetics,4月28日(2011),p.1−9)。さらに、NGSプラットフォームから得られた生データは、標準化されておらず、リード長さ、誤差、マッチング閾値等に違いを示す。したがって、NGS法の実行は、配列情報の量及び複雑度(complexity)の増大を付随する。
しかしながら、シークエンスリードは、内在している連続的なゲノム配列の再構築で意味をなすだけであるので、NGSシークエンス解析機の出力は、本質的にそれだけでは役に立たない。さらに、例えば臨床的なセットアップでの、NGSの日常的な使用に関して、高い配列精度及び興味のあるゲノムサブセットを選択する適切な方法は、重要である。ゲノム解読のメディカルカウンセリングの実用化へのより高い融合において、得られた情報が実際に真実であり、個人の原ゲノムを表すということを保証するために、遺伝学者の増大する責任があるであろう。
したがって、NGS法から誘導できるように、核酸配列データの正確かつ省時間整列及びアセンブリを可能にする方法に関する必要性がある。
本発明は、この必要性に対処し、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリを可能にする手段及び方法を提供する。上記目的は、具体的には、(a)複数の核酸断片リードから複数の核酸配列データを得るステップ;(b)前記複数の核酸配列データを参照配列に整列するステップ;(c)ステップ(b)のアライメント出力内で、1つ以上のギャップ又は前記参照配列と非アセンブリの又は不整合の領域を検出するステップ;(d)前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸配列データのデノボ(de novo)配列アセンブリを実行するステップ;及び(e)連続するヌクレオチド配列セグメントを得るために、ステップ(b)のアライメント出力及びステップ(d)のアセンブリ出力を組み合わせるステップ;のステップを含む方法によって達成される。
本方法は、参照配列アライメントが実行されるときに通常発生するバイアスを、デノボアセンブリステップを使用することによって克服することができるという利点を供する。さらに、参照配列アライメント、多型長さ検出及び具体的には全アセンブリにおける非整列配列のフィッティングの間に作り出されるギャップを埋めることと関連する典型的な問題が、デノボアセンブリを介してこれらの情報ギャップ又は破損を閉じるときに解決され得る。同時に、デノボアセンブリ法から知られるアノーテーション問題が、参照配列ラインメントで開始し、それがギャップ又は非アセンブリの領域を発見するときに、それはデノボアライメントに切り替わる、例えば、それが再び参照アライメントを検出するまで。これにより、非常に増大したシークエンス正確性で、全アセンブリ又は連続するヌクレオチド配列セグメントを生成する。実際に、結果的にアセンブリされたシークエンスは、参照ゲノムよりむしろ個々のゲノムを表し、バイアス問題に係る参照配列を避ける。現在述べられた方法は、したがって、とりわけ遺伝医学における多大な関連事項を有すると思われ、それは複雑な遺伝性疾患の遺伝的基礎を決定するときに役に立ち得る。
本発明の好ましい実施形態において、上記述べられた複数の核酸配列データは、統一されたフォーマットに変換される。
本発明の他の好ましい実施形態において、本明細書で上記述べられたステップ(c)の検出は、フィルタ又は閾値を手段に与えること(implementing)によって実行される。
更に好ましい実施形態において、前記フィルタ又は閾値は、ベースクオリティ、包括度、周囲領域の複雑度、又は不整合長さフィルタ又は閾値である。
本発明の他の好ましい実施形態において、上記述べられた整列ステップ(b)の前に、従来の多型、高可変領域、疾患関連突然変異又は一時的変異、リピート、低mapability領域、CPGアイランド、又は特定の生物物理学的特徴を有する領域に関連する核酸配列データのマスキングが実行される。
特に好ましい実施形態において、前記のマスキングされた核酸配列データは、本明細書で上記されたステップ(d)のデノボ配列アセンブリにさらされる。
本発明の他の好ましい実施形態において、上記適宜されたステップ(b)は、参照アライメントアルゴリズムで実行される。前記参照アライメントアルゴリズムの特に好ましい実施形態は、BFAST、ELAND、GenomeMapper、Gmap、MAQ、MOSAIK、PASS、SeqMap、SHRiMP、SOAP、SSAHA又はCLDである。更により好ましいものは、Bowtie又はBWAである。
本発明の更に他の好ましい実施形態において、上記定義されたステップ(c)は、デノボアセンブリアルゴリズムで実行される。前記デノボアセンブリの特に好ましい実施形態において、アルゴリズムは、AAPATHS、Edena、EULER−SR、MIRA2、SEQAN、SHARCGS、SSAKE、SOAPdenovo、VCAKEである。更により好ましいものは、ABySS又はVelvetである。
更に好ましい実施形態において、本明細書で上記述べられた参照配列は、本質的に完全な原核生物の、真核性の、又はウイルスのゲノム配列又はそれらの一部分である。本発明の特に好ましい実施形態において、前記参照配列は、ヒトゲノム配列、動物ゲノム配列、植物ゲノム配列、細菌ゲノム配列又はそれらの一部分である。
本発明の更に好ましい実施形態において、前記参照配列は、核酸配列データがアセンブリされる、有機体に系統発生学的に関連する、群又は分類群から選択される。
本発明の更に他の好ましい実施形態において、前記参照配列は、エクソン配列、プロモータ配列、エンハンサ配列、転写因子結合部位、又はそれらの如何なる集団又は副集団を含む群から選択される、制御力を有するゲノムサブポーションである。
更に好ましい実施形態において、前記参照配列は、配列組成パラメータに基づく、又は生物物理学的核酸特徴に基づく、仮想配列である。本発明の特に好ましい実施形態において、前記組成パラメータは、モノマー、ダイマー及び/又はトリマーの存在である。本発明の更に好ましい実施形態において、前記生物物理学的核酸特徴は、スタッキング・エネルギー(stacking energy、プロペラツイスト(propeller twist)の存在、核酸の曲げ性、二本鎖の安定性、破壊エネルギー(disrupt energy)の量、自由エネルギーの量、DNA変性の存在又はDNA曲げ剛性である。
更なる側面において、本発明は、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリに関するプログラム要素又はコンピュータプログラムに関し、プロセッサによって実行されるときに、本明細書で上記定義されたような方法のステップを実行するように適合されている。
更に他の側面において、本発明は、核酸断片リードを含む核酸配列データを連続するヌクレオチド配列セグメントに変換するシークエンスアセンブリシステムに関し、コンピュータプロセッサ、メモリ及びデータ記憶装置を含み、前記メモリは、プログラミング命令を有し、本明細書で上記定義されたプログラム要素又はコンピュータプログラムを実行する。
本発明の好ましい実施形態において、前記シークエンスアセンブリシステムは、シーケンサーデバイスに関連付けられる又は接続される。更に好ましい実施形態において、前記シークエンスアセンブリシステムは、医療上決定支援システムである。特に好ましい実施形態において、前記医療上決定支援システムは、診断決定支援システムである。
図1は、参照及びデノボシークエンス及びアライメント手順に関する概略図を供する。参照配列アライメント及びアセンブリは、参照配列に対するリードマッピングを示す。デノボアセンブリは、AbySSアルゴリズムを使用して、ABySS−Explorerビューからの抜粋に基づく、コンティグの発生を示し、エッジはコンティグを表し、ノードは、隣接するコンティグ間の共通の(k−1)−merを表す。ラベルは、SETコンティグID(s)に対応する。コンティグ長さ及び包括度は、各々、エッジの長さ及び厚さによって示される。矢印及びエッジの弧形状は、コンティグの方向を示し、ノードの極性は、隣接するコンティグ間の共通の(k−1)−merの逆相補鎖(reverse complements)を区別する。 図2は、異なるシークエンスファイルフォーマットの例を示す。描かれているものは、qseqフォーマット(マシン、ラン及び属性(quality)情報を有するIllumina装置からのシークエンスリード出力)、fastqフォーマット(Illuminaリード名、シークエンス及びqseqファイルから導かれている属性)及びBWAアライナの出力であるSAMフォーマット(シークエンスアライメント/マッピング)である。SAMフォーマットは、参照に対してリードアライメント情報の保存を可能にする。 図3は、本発明に係るアライメント及びアセンブリステップに関する概略図を示す。それは、参照アライメント及びデノボアセンブリを組み合わせる総合的な方法を示す。先ず、リードが参照配列に整列された(aligned)。リードが、重複方法で、以前のリードと引き続き前記参照にマッチングしていない、N/A/T/G/Cの(例えばユーザーが定義されるサイズ、例えば:10塩基より多く)ギャップが同定されるどこでも、デノボアセンブリが開始されるであろう。前記参照に対する次のリードマッチングが同定されるまで、デノボコンティグ形成があるであろう。このデノボコンティグは、その後、中間のコンセンサスで合併され、最終的なコンセンサス配列を与えるであろう。 図4は、本発明に係る参照配列アライメント及びデノボアセンブリの組み合わせの方法ステップのプロセスチャートを示す。 図5は、参照アライメント及びデノボアセンブリの組み合わせ、続いて本発明に係る方法を使用した、AVPR1A遺伝子におけるGT多型の正確な長さの決定を示す。最初に、解析されたサンプルに関して、AVPR1遺伝子を抽出するために、参照ゲノムを用いたリードが整列された。RS3が高度に多型部位であり、臨床表現型と関連しているので、この染色体に同調していた(falling in)リードのデノボアセンブリが実行され、続いて、コンティグを作り出した。コンティグを得た後、ゆっくりとした(relaxed)シークエンスアライメント(ミスマッチ及びギャップを許す)が実行され、デノボコンティグを参照コンセンサスと合併した。得られたコンセンサス配列は、解析されたサンプルに関する真の多型リピート(repeat)を示した。 図6は、AVPR1A遺伝子の参照シークエンスアセンブリとデノボアセンブリとの間の直接比較を示す。リードは、参照に整列され、デノボアセンブリが実行された。参照から作り出したコンセンサスは、その後、ClustanWを使用して、デノボコンティグに整列された。示されているものは、デノボ表示している異なる繰り返し中身と比べた、参照から偏りがある(biased)、GTリピートでの違いである。
発明者らは、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリを許可する手段及び方法を発見した。
本発明は、特定の実施形態に関して述べられるが、この記載は、制限する意味で解釈されない。
本発明の例示的な実施形態を詳細に述べる前に、本発明を理解するために重要な定義が与えられる。
本明細書で及び添付の特許請求の範囲で使用されるような、「a」及び「an」の単数形はまた、コンテクストが明確にそうでないことを述べていないなら、各々の複数を含む。
本発明のコンテクストにおいて、専門用語「約」及び「およそ」は、正確性の区間を意味し、当業者はそれでも問題になっている特徴の技術的効果を請け負うことを理解するであろう。前記専門用語は、通常、示された数値から±20%、好ましくは±15%、より好ましくは±10%、更に好ましくは±5%のずれを示す。
理解されるべきことは、専門用語「含む」は制限しない。本発明の目的において、専門用語「から構成される」は、専門用語「を含む」の好ましい実施形態であると考えられる。もしこの後、ある群が、少なくともある数の実施形態を含むように定義されるなら、これはまた、好ましくはこれらの実施形態のみから構成される群を包含もするよう意図される。
さらに、発明の詳細な説明及び特許請求の範囲における、専門用語「第1の」、「第2の」、「第3の」又は「(a)」、「(b)」、「(c)」、「(d)」等及び同類のものは、同様の要素間を区別するために使用され、順次的な又は実際の順番を述べるためには必要とされない。理解されるべきことは、そのように使用される専門用語は適切な状況下で互いに交換でき、本明細書で述べられる本発明の実施形態は、本明細書で述べられる又は説明されるものとは他の順番で運用可能であるということである。
専門用語「第1の」、「第2の」、「第3の」又は「(a)」、「(b)」、「(c)」、「(d)」等が、方法又は使用のステップに関連する場合、ステップ間で時間が存在しない又は時間間隔干渉がなく、即ち、本明細書上記又は下記にそうでないと記載されていないなら、ステップは同時に実行されても良いし、係るステップ間で秒、分、時間、日、週、月又は年でさえの時間間隔があっても良い。
理解されるべきは、本発明は、本明細書で述べられる特定の方法論、プロトコル、試薬等に制限されず、これらは変わり得るということである。また理解されるべきは、本明細書で使用される専門用語は、特定の実施形態だけを述べる目的であり、本発明の範囲を制限する意図はなく、これは、添付の特許請求の範囲によってのみ制限されるであろうということである。そうでないと定義されないなら、本明細書で使用される全ての技術的及び科学的専門用語は、当業者によって共通に理解される同じ意味を有する。
上記述べられたように、本発明は、一側面において、核酸断片リードを含む核酸配列データの、連続するヌクレオチド配列セグメントへのアセンブリに関する方法に関し:(a)複数の核酸断片リードから複数の核酸配列データを得るステップ;(b)前記複数の核酸配列データを参照配列に整列するステップ;(c)ステップ(b)のアライメント出力内で、1つ以上のギャップ又は前記参照配列と非アセンブリの又は不整合の領域を検出するステップ;(d)前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸配列データのデノボ配列アセンブリを実行するステップ;及び(e)連続するヌクレオチド配列セグメントを得るために、ステップ(b)のアライメント出力及びステップ(d)のアセンブリ出力を組み合わせるステップ;のステップを含む。
本明細書で使用される核酸配列データの、専門用語「アセンブリ」は、単独で又は独立して供される配列データの、連続するヌクレオチド配列セグメントへの配列を参照する。本明細書で使用される専門用語「連続するヌクレオチド配列セグメント」は、現在クレーム化された方法の出力を参照し、コヒーレントで、冗長でなく、好ましくはエラーのない又は実施的にエラーのない配列関係である。本明細書で使用される「配列セグメント」は、約50リードよりも多い、より多い情報コンテキストを含む、如何なる拡大解釈(stretch)であっても良い。好ましくは、配列セグメントは、全ゲノム、染色体全体、染色体腕、染色体の1つ以上のサブポーション、関連シークエンスの結合体(conjunction)、例えばエキソーム、トランスクリプトーム関連シークエンス、オープンリーディングフレームの結合体、イントロン、トランスポゾン配列、反復配列(repeat)、転写因子結合部位といったレギュローム関連配列、メチル化結合タンパク質部位、ヒストン3リジン4モノ・ジ・及びトリ・メチル化等を発生するより高い確率を有する特定の領域等である。本明細書で使用される「核酸断片リード」は、配列データの単一の、短い連続情報ピース又はストレッチを参照する。リードは、如何なる適切な長さを有しても良く、好ましくは約30ヌクレオチドから約1000ヌクレオチドまでの間の長さを有する。前記長さは、一般的に、それを得るために使用されるシークエンシング技術に依存する。特定の実施形態において、リードはまた、より長くても良く、例えば2から10kb又はそれより多くても良い。本発明は、一般的に、如何なるリード又はリード長さをも考えており、現在利用可能なリード長さに制限されるよう理解され、この領域における更なる発展、例えば長いリードシークエンシング手法の発展等も含む。
方法の第1のステップにおいて、複数の核酸断片リードから、複数の核酸配列データが得られ得る。本明細書で使用される「核酸配列データ」は、当業者に知られる核酸分子上の如何なる配列情報であっても良い。配列データは、好ましくは、DNA又はRNA配列、修飾核酸、一本鎖又は二本鎖配列、また或いは核酸配列へと変換する必要があるアミノ酸配列上の情報を含む。配列データは更に、シークエンシング機上の情報、取得の日付、リード長さ、シークエンシングの方向性、シークエンシングされた物のオリジン(origin)、隣接する配列又はリード、リピートの存在又は当業者に知られる他の如何なる適切なパラメータを含む。配列データは、当業者に知られる如何なる適切なフォーマット、アーカイブ、コーディング又はドキュメントで存在しても良い。次の表1で描かれ、更に説明されるように、データは、例えば、FASTQ、Qseq、CSFASTA、BED、WIG、EMBL、Phred、GFF、SAM、SRF、SFF又はABI−ABIFのフォーマットであっても良い。
Figure 0006027608
Figure 0006027608
好ましくは、データ又はデータセットは、1つのデータフォーマットで存在し、より好ましくは統一されたデータフォーマットで存在し、例えばPhred/Phrap又は修正されたフォーマットのいずれかで、それらのベースクオリティを添えた、fastqフォーマットで存在する。更に好ましいことは、データフォーマットは、配列リード及びその関連するベースクオリティをカバーすることである。
本発明の特に好ましい実施形態において、複数の配列データは、単一のフォーマットへと変換されても良い。係る変換は、当業者によって知られる如何なる適切な変換ツール、例えば、IlluminaフォーマットをSangerフォーマットへと変換することができる、いくつかの整列アルゴリズムによって使用され得る、標準的な変換ツール又は表1で示されるあるフォーマットを表1で示される別のフォーマットへと変換することができる又は当業者に知られる如何なる他の同等なツールによって実施されても良い。変換は、少なくとも最小量の重要データが維持されるように実行されても良い。係る最小量のデータは、例えば、配列それ自身、ラン情報、ペアエンド用ライブラリ情報、メートペア用ライブラリ情報、シングルエンドライブラリ情報及びベースQC値を含み得る。配列データが変換され得る好ましいフォーマットは、デノボアセンブリアルゴリズム同様に、参照配列整列アルゴリズムによって認識される、如何なる適切なフォーマットである。好ましい例は、fastqフォーマットである。あるいは、配列データはまた、cfasta/SCARFフォーマットへと変換されても良い。本発明は更に、参照配列アライメント及びデノボアセンブリ手順の両方によって使用することができる、如何なる更なる、例えば新しく定義された又は発展されたフォーマットを考えている。
データは、1つのデータセット内でシングルエントリ又はマルチエントリを含み得る。データはまた、1つ以上のデータセット又は複数のデータセットを含んでも良い。本明細書で使用される専門用語「複数の」は、したがって、1つ以上の起点又はソースからくる1つ以上のデータセットを参照する。データセット又はデータは、例えば、同じフォーマットを有しても良く、及び/又は、同じ起点由来、例えば同じシークエンシング機、同じ患者又は対象、であっても良く、又は、同じシークエンシング技術で得られても良く、又は、それらは異なるフォーマットを有していても良く、及び/又は、異なる起点由来、例えば異なるシークエンシング機又は異なる患者又は対象、であっても良く、又は、異なるシークエンシング技術で得られても良い。
本明細書で使用される専門用語「複数の核酸断片リードから配列データを得る」は、核酸シークエンシング反応の実行によって、対象又は対象の群の配列情報を決定するプロセスを参照する。本発明は、1つの他の実施形態において、例えば、データベース、他のシークエンシング計画、研究所、アーカイブ等由来の以前に得られた配列データを使用する。別の他の実施形態において、本発明はまた、ステップ(a)の肝要な部分として、配列データを得るステップを考えている。
配列決定のための方法は、一般的に、当業者に知られている。好ましいものは、次世代シークエンシング方法又は高スループットシークエンシング方法である。例えば、対象の、対象の群の、又は母集団のゲノム配列は、Massively Parallel Signature Sequencing(MPSS)を使用することによって得られても良い。想定されているシークエンシング方法の例は、例えばRoche 454 Genome Sequencerに基づく、パイロシークエンシング、具体的には454パイロシークエンシングである。この方法は、オイル性溶液中の水滴内のDNAを増幅し、各々の液滴は、その後クローン性コロニーを形成する、シングルプライマー被覆ビーズに付着された、シングルDNAテンプレートを含む。パイロシークエンシングは、新生DNAに加えられた各々のヌクレオチドの検出のための光を発生するルシフェラーゼを使用し、結合されたデータは、シークエンスリードを作り出すために使用される。また別の想定されている例は、可逆ダイターミネーターに基づく、例えば、Illumina Genome Analyzer技術を使用することによる、Illumina又はSoloxaシークエンシングである。DNA分子は、通常、スライド上でプライマーに結合され、増幅され、局所的なクローン性コロニーが形成される。結果として、一度に1タイプのヌクレオチドが加えられ得、非結合性のヌクレオチドが洗い流される。結果として、蛍光ラベル化されたヌクレオチドのイメージが撮られ得、染料はDNAから科学的に除去され、次のサイクルを許可する。更に他の例は、ライゲーションによってシークエンシングを行うApplied BiosystemsのSoLiD技術の使用である。この方法は、シークエンシング位置によりラベル化される、固定の長さの、全ての可能性があるオリゴヌクレオチドのプールの使用に基づいている。係る折具ヌクレオチドは、アニールされ、ライゲーションされる。結果として、配列をマッチングするための、DNAリガーゼによる優先的なライゲーションが、通常、その位置でのヌクレオチドの情報信号をもたらす。DNAは、通常、エマルジョンPCRによって増幅されるので、同じDNA分子のコピーだけを各々含む、結果のビーズは、スライドガラス上に位置され得、Illuminaシークエンシングに同等な量及び長さの配列をもたらす。更なる方法は、HelicosのHeliscope技術に基づき、ここで断片は、アレイに縛られたpolyTオリゴマーによって取得される。各々のシークエンシングサイクルで、ポリメラーゼ及び単一蛍光ラベル化されたヌクレオチドが加えられ、アレイがイメージ化される。蛍光タグは実質的に除去され、サイクルが繰り返される。本発明の方法内に含まれるシークエンシング技術の更なる例は、ハイブリダイゼーション、ナノポアの使用によるシークエンシング、顕微鏡ベースのシークエンシング技術、microfluidic Sanger sequencing又はマイクロチップベースのシークエンシング法によるシークエンシングである。本発明はまた、例えば、配列決定の正確性の更なる改善、又は有機体のゲノム配列の決定に要する時間等の、これらの技術の更なる発展を想定する。ゲノム配列又はサブゲノム配列又はそれらの如何なる部分(例えば単一の核酸断片リード)は、如何なる適切な質又は正確性で得られても良い。好ましくは、得られるゲノム配列又はサブゲノム配列又はその一部は、全ての10,000塩基で、全ての50,000塩基で、全ての75,000塩基で、全ての100,000塩基で、わずか1つのエラーを有し得る。より好ましくは、得られるゲノム配列又はサブゲノム配列又はその一部は、全ての150,000塩基で、全ての200,000塩基で、全ての250,000塩基で、わずか1つのエラーを有し得る。更に特定の実施形態において、得られるゲノム配列又はサブゲノム配列又はその一部は、少なくとも約2x、3x、4x、5x、7x、10x、15x、20x、25x、30x、35x、40x又はそれより多くの、1倍体ゲノムあたりの平均リード深さ、又は2xと50xとの間又はそれより多くの如何なる他の平均深さを有し得る。本発明はまた、シークエンシング技術での改良による、より高い包括度を有する配列の合成又は使用を想定する。本発明はしたがって、如何なる許容誤差又はカバレッジ限界によって縛られず、その代わり、適切な現代のシークエンシング技術によって利用可能で、合成され、及び得られる配列情報の実施に焦点を当てている。方法の第2のステップにおいて、複数の核酸配列データが、参照配列に整列される。本明細書で使用される専門用語「参照配列に整列する」は、核酸断片リード情報及びそれらの配列の、既に存在しているゲノム又はサブゲノム配列との比較を参照し、好ましくは続いて、予め存在しているゲノム又はサブゲノム配列によって供される足場(scaffold)内に、前記の配列リードストレッチが配置される。本明細書で使用される「参照配列」は、如何なる適切な予め存在してる配列であっても良く、ストレッチをカバーし、新しく得られた配列データ又は核酸断片リードに同一又は同様である。
本発明の好ましい実施形態において、参照配列は、本質的に完全な原核生物のゲノム配列である。本発明の更に好ましい実施形態において、参照配列は、本質的に完全な真核生物のゲノム配列である。本発明の更に他の好ましい実施形態において、前記参照配列は、本質的に完全なウイルスのゲノム配列である。原核生物のゲノム配列の例は、NCBIのMicrobial genome project databaseから供される又は得られるような、バクテリアのゲノム配列である。更なる詳細は、McNeil LKらの、The National Microbial Pathogen Database Resource (NMPDR): a genomics platform based on subsystem annotation, Nucleic Acids Res., 2007; 35 (Database issue): D347−53から得ることができ、その全内容は参照することにより本明細書に組み込まれる。真核生物のゲノム配列の例は、NCBIのBioProject又はGenomeProject database、例えば、http://www.ncbi.nlm.nih.gov/bioprojectで供されるデータベースから供され又は得られ、また、1000Genomes project(http://www.necbi.nlm.nih.gov/bioproject/61209)又はENCODE project(http://www.ncbi.nlm.nih.gov/bioproject/30707)からのデータを含んでも良く、その全内容は参照することによって本明細書に組み込まれる。ウイルスゲノム配列の例は、NCBIのviral genome resources databaseから、又はBelshaw RらのThe RNA Virus Database, Nucleic Acids Res., 2009; 37 (Database issue): D431−D435から供される又は得られ、その全内容は参照することにより本明細書に組み込まれる。特に好ましいものは、動物ゲノム配列、例えばネコ、イヌ、ヒツジ、畜牛、ブタ、トリ、サル、ラット又はマウス等の家畜のゲノム配列である。更に好ましい実施形態において、ゲノム配列は、例えば、コーン、ポテト、小麦、ソルガム、ライス、綿、大麦、キャノーラ、キュウリ、大豆、ピーチ、トマト、パパイヤ又はシロイヌナズナ又はブラキボディウム等といった研究モデル植物等といった、農作物又は果物の、植物ゲノム配列である。更なる詳細及び参照配列情報は、例えば、PlantGDBdatabaseの如何なる適切なデータベースから得られ得る。特に好ましいものはヒトゲノム配列である。例は、特定集団ゲノム配列であり、例えばカナダ人ゲノム配列、アフリカ人ゲノム配列、アジア人ゲノム配列等である。更なる例は、特定対象ゲノム配列又はそのコンセンサス配列を含み、例えば個人のゲノム配列の結合体(conjunction)を含むマスター参照配列である。更なる詳細及び参照配列情報は、例えば、UCSC genome database又はNCBI human genome resources databaseである如何なる適切なデータベースから得られても良い。これらのゲノム配列は、本質的に完全であり得、上記定義された本質的に完全な、原核生物の、真核生物の又はウイルスのゲノムのサブポーションを含む。
本明細書で使用される専門用語「本質的に完全(な)」は、本来存在するゲノムの全ての部分上での配列情報の存在を参照する。例えば、ゲノム配列は、冗長シークエンス(redundant sequences)、リピート、テロメア配列などを含んでも良い。例えばゲノム配列の約99%、98%、97%、95%、90%、85%、80%又は75%が、本質的に完全なゲノムに含まれ得る。更なる実施形態において、参照配列は、リピート、テロメア配列、トランスポゾン配列、冗長シークエンス等の、いくつかのシークエンス要素を含まないかもれしれない。
本質的に完全なゲノムの「サブポーション」は、例えば、全ゲノム配列の如何なる割合であっても良く、例えば、10%、20%、30%、40%、60%、60%、70%、75%等又はその間の如何なる値であっても良い。サブポーションは、また、単染色体配列、染色体腕、1つより多い染色体の組み合わせ、単相染色体セットなどであっても良い。
本発明の更に好ましい実施形態において、本明細書で上記述べられた参照配列は、核酸データがアセンブリされ得る、有機体に系統発生的に同族の、群又は分類群から選択されても良い。一般的に、系統発生的に同族の有機体は、少なくとも約50%、60%、70%、80%、90%又は95%の全ゲノム同一性を有し得る。系統発生的に同属の有機体は、例えば、解析されるヒト配列リードに関連して、サルであっても良く、又は逆もまた同様であり;解析される小麦又はコーンリードに関連して大麦であっても良く、又は逆もまた同様であり;解析される大腸菌配列リードに関連してコリネバクテリウム・グルタミクムであっても良く、又は逆もまた同様である。更なる実施形態において、系統発生的に同属の有機体から得られる参照配列は、全ゲノム配列のサブポーションを含み得、例えば、本明細書で上記定義されるような、いくつかの染色体、染色体のコンビネーション、染色体腕、ゲノムの一部等を含む。
本発明の更に他の好ましい実施形態において、前記参照配列は、制御力を有するゲノムのサブポーションを含み得る。本明細書で使用される専門用語「制御力」は、転写の、エピジェネティックな、構造的な、有糸分裂の、減数分裂を起こす、組み換えの又は当業者に知られる如何なる他の従来の制御に伴うゲノムの如何なる部分を参照する。制御力を有するゲノムのサブポーションの例は、エクソン配列、プロモータ配列、エンハンサ配列及び転写因子結合部位である。更に想定されていることは、それらの如何なる集団又は副集団である。
したがって、参照配列は、好ましくは、ゲノム内に存在する全てのエクソン上のデータを含んでも良く、好ましくは本明細書で上記述べられたゲノムを含み、より好ましくはヒトゲノムを含む。参照配列は、更なる実施形態において、いくつかのエクソン、例えば、遺伝的又は生化学的経路要素のエクソン、特定の染色体、染色体腕上に又はゲノムの特定の領域内に存在するエクソン等、上の情報を含んでも良い。
あるいは又はさらに、参照配列は、ゲノム、好ましくは本明細書で上記述べられたゲノム、より好ましくはヒトゲノム、内に存在する全てのプロモータ配列上のデータを含んでも良い。参照配列は、更なる実施形態において、いくつかのプロモータ配列上の情報を含んでも良い。例えば、遺伝的又は生化学的経路要素の特定のプロモータ配列、特定の染色体、染色体腕上に、又はゲノムの特定の領域内に存在する遺伝子のプロモータ配列等、上の情報を含んでも良い。
あるいは又はさらに、参照配列は、ゲノム、好ましくは本明細書で上記されたゲノム、より好ましくはヒトゲノム、内に存在する全てのエンハンサ配列上のデータを含んでも良い。更なる実施形態において、参照配列は、複数のエンハンサ配列、例えば、遺伝的又は生化学的経路要素の特定のエンハンサ配列、特定の染色体、染色体腕上、又はゲノムの特定の領域内に存在する遺伝子のエンハンサ配列等上の情報を含んでも良い。
あるいは又はさらに、参照配列は、ゲノム、好ましくは本明細書で上記されたゲノム、より好ましくはヒトゲノム内に存在する全ての転写因子結合部位上のデータを含んでも良い。参照配列は、更なる実施形態において、マイクロRNA、ノンコーディングRNA又はいくつかの転写因子結合部位、例えば遺伝的又は生科学的経路要素の特定の転写因子結合部位、特定の染色体、染色体腕上に又はゲノムの特定の領域内に存在する遺伝子の転写因子結合部位等、上の情報を含んでも良い。
本発明の更に他の実施形態において、前記参照配列は、仮想配列である。本明細書で使用される専門用語「仮想配列」は、ヌクレオチド同定パラメータに主として基づいてないが、ゲノム又はそのサブポーションと関連する1つ以上の異なるパラメータを大抵は含む配列を参照する。これらのパラメータは、互いに関連していても良く、又は他の非ヌクレオチド同定パラメータと関連していても良く、又は、特定の実施形態において、(複数の)ヌクレオチド同定パラメータと関連していても良い。仮想配列の構成のために使用され得るパラメータの例は、配列組成パラメータである。係る「配列組成パラメータ」は、遺伝的情報それ自体を構成することなく、ゲノム配列の組成に寄与する因子を含む。好ましい例は、ヌクレオチドモノマー、2、3、4、5、6、7、8、9、10又はそれより多くのA、C、T又はGのストレッチ;又はヌクレオチドダイマー又は2、3、4、5、6、7、8、9、10又はそれより多くのヌクレオチドダイマーのストレッチ、例えばAT、AC、AG、TC、TG等;又はヌクレオチドトリマー又は2、3、4、5、6、7、8、9、10又はそれより多くのヌクレオチドとリマーのストレッチ、例えばATC、TCG、ACG、ACC、AGG、TCC、TGG等である。
さらに、仮想配列の構成のために使用され得るパラメータの他の例は、生物物理学的核酸パラメータである。係る「生物物理学的核酸パラメータ」は、核酸形態又は構造に寄与する因子、好ましくは核酸配列誘因と関連する化学的に測定可能である又は物理的に測定可能である値を含む。係るパラメータの例は、stacking energy、propeller twistの存在、核酸の曲げ性、核酸二本鎖の安定性、特定の核酸断片又はモチーフと関連する破壊エネルギー(disrupt energy)、特定の核酸断片又はモチーフと関連する自由エネルギー、二本鎖核酸変性、例えばDNA変性の程度、及び/又は核酸曲げ剛性、例えばDNA曲げ剛性である。
対応するパラメータ又は値は、いくつかの適切なフォーマットで、例えば、従来のゲノム配列参照に結合されて、特定の染色体アイデンティファイアに結合されて等で、仮想参照配列内に存在し得る。
本明細書で定義される本発明に係る方法のステップ(b)に係る参照配列に対する整列は、好ましい実施形態において、適切な参照配列アライメントアルゴリズムで又はそれにもとづいて実行され得る。係るアルゴリズムの好ましい例は、アルゴリズム、BFAST、ELAND、GenomeMapper、GMAP、MAQ、MOSAIK、PASS、SeqMap、SHRiMP、SOAP、SSAHA又はCLDを含む。特に好ましいものは、アルゴリズムBowtie又はBWAの使用である。更に想定されるのは、これらのアルゴリズムの1つ以上の組み合わせである。例えば、参照アライメントは、先ず、除機アルゴリズムの1つで実行されても良く、続いて、別のこれらのアルゴリズムによって繰り返されても良い。両方の手順の結果は、比較され、適切に組み合わされても良い。一般的に、最小数の不整合リード又は非整列リードを示す、連続するヌクレオチド配列を使用することが好ましい。
これらのアルゴリズムを実施する詳細及び方法は、当業者に知られているであろう、又は適切な文献ソースから、例えば、Baoらの、Journal of Human Genetics, 28 April 2011, p. 1−9から得ることができ、その全内容は参照することにより本明細書に組み込まれる。本発明は更に、本明細書で述べられた参照配列に対するアライメントの主目的が満たされる限り、これらのアルゴリズム、又はまだ利用可能でないアルゴリズムを含む、異なるスキーム又はアルゴリズムに関するロジックに続く参照アライメントアルゴリズムの最適化された又は更には開発されたバージョンの使用を想定する。
本発明の特定の実施形態において、本発明に係る方法のステップ(b)は、1度、2度又は何回か繰り返されても良い。配列アライメントの反復は、異なる参照配列、例えば、同じ種又は種属の異なる対象から得られる密接に関連する参照配列に基づいて、最初に使用された断片リードを用いて実行されても良い。あるいは、ステップ(b)の反復は、方法ステップ(b)の第1のランの結果に基づいて実行されても良く、方法ステップ(b)の第2のランに関する第2の参照配列に加え、更なるテンプレート又は参照配列が使用される。
方法の第3のステップにおいて、ギャップ又は参照配列と非アセンブリ又は不整合の領域が検出され得る。本明細書で使用される専門用語「ギャップ」、「非アセンブリの領域」及び「不整合の領域」は、本明細書で定義された参照配列、好ましくはゲノム又はサブゲノムの参照配列と重複部分を示さない、新しくアセンブリされた配列内のポイント又は領域を参照する。重複部分を示さない係るポイント又は領域は、如何なる適切なサイズであっても良く、例えば、約10ヌクレオチドから数千、一万又はそれより多いヌクレオチドのサイズであっても良い。サイズは、使用される参照配列に依存して変わっても良い。ギャップの検出に関して、本明細書で定義される方法ステップ(b)の参照配列の反復は、例えば、1つ以上の異なる参照配列に基づいて、実行されても良い。
方法ステップ(b)を1度、又は特定の実施形態において、2度又はそれより多い回数で実行した後に、ギャップ又はポイント又は非アセンブリの領域又は不整合の領域の存在で、参照配列に対する核酸データの整列が停止され得又は休止され得、デノボ配列アセンブリが、更なる方法ステップ(d)で実行され得る。本発明の特定の実施形態において、参照配列に対する配列データのアライメントは、デノボアセンブリステップとは独立に、参照配列の領域と重複部分を示す、ゲノムの更なる部分に関して実行されても良い。係る断片化された参照アライメント手順の結果は、ギャップ又は不整合又は非アセンブリの領域によって中断された、整列された配列の存在である。あるいは、いくつかの実施形態において、前記ギャップは、本明細書で述べられたデノボアセンブリアルゴリズムの助けにより、埋められても良い。
デノボアセンブリは、したがって、前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸断片リード又は配列データで実行され得る。専門用語「前記ギャップ又は非アセンブリの前記領域にマッピングしている」は、前記リードの少なくとも1つ、即ち、最初のリード部分が参照配列アライメントで得られた配列又は配列セグメントと部分的な重複を示し、また、参照配列で表現されない配列ストレッチを示すことを意味する。更なるリードは、前記最初のリードと部分的に重複し得、デノボアセンブリアルゴリズムの助けにより、全ギャップ又は非アセンブリ又は不整合の全領域に及ぶ連続した配列内に配列され得る。特定の実施形態において、リードアセンブリの各ラウンドにおいてまたはリードアセンブリの第2、第3、第4、第5、第10、第15、第20、第30回目などごとラウンドにおいて、参照配列との比較又はマッチングは、ギャップの端部を検出するため実行され得る。更なる実施形態において、ギャップは、両方の方向から、即ち、5’及び3’方向から閉じられても良い。この実施形態において、対方向の配列との重複に関するチェックが実行されても良い。
本発明のいくつかの実施形態において、ギャップは連続して閉じられても良く、例えば、参照配列アライメントアルゴリズムは、ギャップに遭遇するまで実行されても良い。結果として、デノボアセンブリステップが実行され、続いて、新しくアセンブリされたストレッチの参照配列と比較される。参照配列との重複に遭遇する場合、方法は、例えば更なるギャップに遭遇するまで、参照配列アライメントステップ(b)で続けられる。一連のステップは、全ての又は本質的に全ての配列データ、例えば、95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、99.8%、99.9%、99.99%又は100%が配列されるまで、又は核酸断片リードが、連続するヌクレオチド配列セグメントに配列されるまで、実行される。
本発明の更に他の好ましい実施形態において、ギャップは、例えば、参照配列に対する全ての配列データの同時のアライメントが終わった後に、デノボアセンブリ手順によって同時に閉じられても良い。係る同時の閉鎖は、全てのギャップで又は対ギャップのサブポーションで実行されても良い。
本明細書で定義される本発明に係る方法のステップ(d)に係るデノボアセンブリは、好ましい実施形態において、適切なデノボアセンブリアルゴリズムを用いて又はそれに基づいて実行されても良い。係るアルゴリズムの好ましい例は、アルゴリズムAAPATHS、Edena、EULER−SR、MIRA2、SEQAN、SHARCGS、SSAKE、SOAPdenovo、VCAKEを含む。特に好ましいものは、アルゴリズムAbySS又はVelvetの使用である。更に想定されることは、これらのアルゴリズムの1つ以上の組み合わせである。例えば、デノボアセンブリは、先ず、記載されたアルゴリズムの1つで実行され、続いて、これらのアルゴリズムの異なるものによって反復されても良い。配列データが配列され得ない場合、又はギャップが満たされ得ない場合、デノボアセンブリの遂行は、1つ以上の異なるアルゴリズムで実行されても良い。
これらのアルゴリズムを実施する詳細及び方法は、当業者に知られているだろう又は適切な文献ソース、例えば、SimpsonらABySS: a parallel assembler for short read sequence data, Genome Research, 2009, 19: 1117−1123又はZerbinoらVelvet: Algorithms for de novo short read assembly using de Bruijn graphs, Genome Research, 2008, 18: 821−829から得ることができ、その全内容は参照することにより本明細書内に組み込まれる。本発明は更に、本明細書で述べられた参照配列へと導くことなくデノボアセンブリの主目的が満たされる限り、これらのアルゴリズムの、又はまだ利用可能でないアルゴリズムを含む、異なるスキーム又はアルゴリズムに関するロジックに続く、デノボアセンブリアルゴリズムの最適化された又は更に発展されたバーションの使用を想定する。
本方法の最後のステップ(e)において、ステップ(b)の参照アライメント及びステップ(e)のデノボアセンブリのアライメント出力が組み合わされる。この組み合わせは、通常、連続するヌクレオチド配列セグメントをもたらす、又は例えば個々の染色体、又は、例えば、配列データの起源の領域に係る、個々の部分のゲノムを表現する、連続するヌクレオチドセグメントをもたらす。係る組み合わせは、連続して実行されても良く、例えば、ギャップがデノボアセンブリによって満たされた後に、組み合わされた配列セグメントが作り出され得、続いて、更なるギャップの次の充填等である。あるいは、組み合わせは、同時に実行されても良く、例えば1つ以上のギャップが同時に充填される時である。係る実施形態において、更なるアライメントステップが付け加えられても良く、本発明に係る方法のステップ(b)で得られる、参照配列での、ギャップのシークエンスの配列につながる。
結果である連続するヌクレオチド配列セグメントは、如何なる適切なフォーマットで、格納又は保管されても良い。好ましいストレージフォーマットは、fasta又はgbkフォーマットである(ゲノム注釈を有する)。あるいは、セグメントは、variant callinといった更なるプロセスで重要である、追加の品質情報を有する、SAM又はBAMフォーアットで格納されても良い。
本発明の更に他の特定の実施形態において、連続するヌクレオチド配列セグメント上の情報は、迅速に検索できる形態で格納され得る。ゲノム情報の格納は、例えば、コンピュータハードドライブ、モバイルストレージデバイス又は同様のものといった、例えば、適切な記憶媒体上の利用可能なスペースに制限されても良い。特に好ましいものは、1)階層的な、及び/又は2)特定のシークエンシング情報をエンコードする、及び/又は追加的に3)患者データ、イメージ、記録等へのリンクを含む、格納構造である。本明細書で使用される専門用語「迅速に検索できる」は、配列情報が、情報に容易にアクセスできる及び/又は格納された情報の複雑でない抽出が可能である形態で供されることを意味する。本発明によって想定される格納形態は、適切なデータベース格納、リスト、番号付けられたドキュメント及び/又は、例えば絵文字、図形のアライメント、比較方式等のグラフ形態での格納である。本発明の特定の実施形態において、情報は、遺伝子の発現、トランスクリプトーム解析結果、プロテオーム解析結果、SNP解析結果等に関する更なる情報と組み合わされても良く、及び/又は記録媒体から検索され、続いて、例えば如何なる適切なモニタ、携帯端末、コンピュータデバイス又は同様のもの上に表示されても良い。
本発明の更に特定の実施形態において、1つ以上のギャップ又は非アセンブリの領域又は不整合の領域の検出又は定義は、フィルタ又は閾値を手段に与えることによって実行されても良い。本明細書で使用される専門用語「フィルタ又は閾値を手段に与える」は、配列データ又は核酸断片リードを、前記配列データが、ギャップ又は非アセンブリの領域又は不整合の領域を意味するかどうかを決定するために、所定の値又は所定の設定された(複数の)値と比較するステップを参照する。対応するフィルタ又は閾値は、例えば、本明細書で地祇された参照配列アライメントアルゴリズムの助けにより、本明細書で定義された参照配列アライメントを介して整列され得る、配列データ又は配列リードと、一方で、例えば、本明細書で定義されたデノボアセンブリアルゴリズムの助けにより、本明細書で定義されたデノボアセンブリによってより効率的にアセンブリされる、配列データ又は配列リードと、の間の区別を可能にする、如何なる適切な値を有する又は表し得る。特定の実施形態において、フィルタ又は閾値は、ギャップ又は非アセンブリ又は不整合の領域の予測を可能にするために設定されても良い。それによって先を見越したデノボアセンブリを実行することができる。
本発明の特定の実施形態において、フィル又は閾値、したがって、受け入れ可能なベースクオリティ及び受け入れ不能なベースクオリティを示す配列データ間で区別するために実装され得る。本明細書で使用される専門用語「受け入れ可能なベースクオリティ」は、約20及びそれより高いPhred(と同種の)品質スコアのことをいう。Phred(と同種の)品質スコアは、−10log10(e)であるQスコアであり、eは、塩基判定〔ベース・コール〕(base call)が間違いである推定された確率である。この方法は、通常、シークエンシングデータの正確性を測定するために使用される。より高い品質スコアは、塩基が誤って判定される、より小さい確率を意味する。したがって、20の品質スコアは、100における1のエラー割合を意味し、99%の対応する判定精度を有する。本発明の更なる特定の実施形態において、フィルタ又は閾値は、受け入れ可能な包括度〔カバレッジ〕及び受け入れ不能な包括度を示す配列データ間で区別するために、実装されても良い。本明細書で使用される専門用語「受け入れ可能な包括度」は、約20及びそれより大きい包括度をいう。したがって、アライメントにおけるベースをカバーするリードの数は、約20又はそれより多い。
本発明の更なる特定の実施形態において、フィルタ又は閾値が、周囲領域の受け入れ可能な高い複雑度及び周囲領域の中程度ないし低い複雑度を示す配列データ間で区別するために実装され得る。本明細書で使用される専門用「周囲領域の高い複雑度」は、例えば、繰り返されたダイマー、トリマーの存在、トランスポゾン残部又はトランスポゾンから得られた反復配列の存在等の、反復配列ストレッチの存在についていう
本発明の更に他の特定の実施形態において、フィルタ又は閾値、ミスマッチの受け入れ可能な長さ及びミスマッチの受け入れ不能な長さを示す配列データ間で区別するために実装され得る。本明細書で使用される専門用語「ミスマッチの受け入れ可能な長さ」は、参照配列に対するリードの完全なマッチングを許可しない、ギャップについていう。対応するマッチングは、約70%及びそれより多い、連続の及び不連続のマッチングであっても良い。したがって、本明細書で上記定義された参照配列アライメントの中断又はギャップの定義のために、対応するフィルタ又は閾値が使用されても良い。ギャップの定義に際して、本発明の方法のステップ(d)に係るデノボ配列アセンブリの動作が実行され得る。
本発明の更に特定の好ましい実施形態において、本発明に係る方法のステップ(b)の参照配列アライメントに関する入力として使用され得る核酸断片リード又は配列データの複雑度及び/又は量は、低減され得る。本明細書で使用される専門用語「複雑度」は、ゲノム配列中に存在する情報の変動性、ゲノム配列中に存在する配列情報の余剰性(redundancy)及び従来の染色体領域、遺伝子又は突然変異の増大した可能性のスポットカバレージ、及び当業者に知られる遺伝的可変性の更なるパラメータの量を参照する。
本明細書で使用される「ゲノム配列の量」は、利用可能な配列データを、利用可能なデータの特定の部分又はサブポーションに、制限するパラメータを参照し、例えば、利用可能な配列データを、特定のゲノム部分、特定の染色体、特定の染色体領域、遺伝子、遺伝的要素、イントロン、エクソン、疾患関連領域又は遺伝子、生化学的経路、遺伝的相互作用パターン、成長因子、栄養素、ホルモン、細胞ストレス、転写因子誘導の存在に依存する発現パターン等に制限する。
本発明のいくつかの実施形態において、配列データの複雑度及び/又は量を低減することによって、それ故の配列データのいくつかのアスペクト又は部分は、本発明の一部になることからマスクされる又は除外される、また或いは、利用可能な配列データ又は配列情報は、いくつかのアスペクトに関してフィルタされる又はいくつかのアスペクトに集中される。これらのアスペクトは、好ましくは、特定のゲノム部分内の、特定の染色体、特定の染色体領域上の局在、特定の遺伝子、遺伝的要素、イントロン、エクソン、疾患関連領域又は遺伝子の存在、特定の生化学的経路との関連、特定の遺伝的相互作用パターンとの関連、成長因子、栄養素、ホルモン、細胞ストレス、転写因子誘導の存在に依存する特定の発現パターンとの関連、等であり得る。したがって、例えば、本発明に係る方法に関して使用され得る配列データは、具体的に、唯一の特定の遺伝子、一染色体、一戦勝九対領域等に関してフィルタリングされても良い。更なるフィルタ又はフォーカスパラメータは、疾患、疾患の群、疾患に関する傾向上の従来のデータと結合されても良く、例えばフィルタパラメータは、特定の疾患、疾患の群又は疾患に関する傾向と関連する、ゲノム修飾に関する全ての情報を含んでも良い。したがって、本発明の更なる特定の実施形態において、配列データの量は、ゲノム領域、全遺伝子、エクソン(エキソーム配列)、転写因子結合部位、DNAメチル化−結合−タンパク質結合部位、短い又は長いノンコーディングRNAを含んでも良い遺伝子間領域等に低減され得、それらは臨床的に関連がある又は重要であると知られている又は考えられており、ヒト間、異なる人類間、又は母集団間、ヒト又は動物性別間、ヒトの年齢グループ間、例えば、新生児と大人との間、ヒトと他の有機体等の間、同じ類の動物間、異なる類、種、種属又は分類の動物間、植物類、植物種等の間で、可変であり得る又は高く可変であり得、又はそれらは、疾患又は病気で可変である又は高く可変であると知られている又は考えられている。係るゲノム領域、遺伝子、エクソン、結合部位等は、当業者に知られているであろう又は適切な教材又は情報保存場所から得ることができ、例えば、UCSC genome browserから又はNCBIから得ることができる。配列データの複雑度及び/又は量の低減は、例えば、S. Kurtz、 A. Phillippy、A.L. Delcher、M. Smoot、M. Shumway、C. Antonescu及びS.L. Salzberg, 2004, “Versatile and open software for comparing large genomes”, Genome Biology, 5:R12, Schusterら、2010, Nature 463(18), 943−947又はFujimotoら2010, Nature Genetics, 42, 931−936といった、適切な教材又は科学誌で述べられる方法に基づき得、その全内容は参照することによって本明細書に組み込まれる。ゲノム配列の複雑度及び/又は量の低減に関して更に想定されている方法は、Ashleyら2010, The Lancet, 375, 1525−1535から得ることができ、その全内容は参照することにより本明細書に組み込まれる。
更に特定の実施形態において、配列データの複雑度及び/又は量の低減は、薬物反応表現型に関するPharmacogenomic Knowledge Base(PharmGKB)、locus−specific mutation database(LSMD)又はhuman mitochondrial genome polymorphism database(mtSNP)によって供される情報に基づき得る。また想定されることは、配列データに関する母集団ベースのフィルタの使用である。したがって、もし例えば、特定の母集団、種属、年齢群等に関して知られている確率変数SNPがあるなら、この確率変数は、本発明の目的のために関連するように又はフィルタされるように、記録される又は特定されなくても良い。特定の実施形態において、係る確率変数は、−母集団、種属、年齢群等に関して特異的又は典型的であるけれども−、もし確率変数が重要な/臨床的な機能的意味を示すなら、本発明の目的に関連があるものとして考えられ、特定されても良い。全母集団で現れ得る、SNPの機能的に重要な分類の例は、代謝し、薬物を排出する役に立つ、CYP関連遺伝子内にある。いくつかの薬物は、例えば白色人種でない、異なる母集団で、異なる、例えばより低い用量で耐性があると知られているので、CYP関連遺伝子の確率変数は、患者の母集団所属又は患者の種属に関連して、フィルタされ、ソートされ、分類され、及び/又は評価され得る。係るフィルタリングは、例えば、PharmGKBデータベース内で供される情報に基づいて実行され得る。
これらの様態は、更に好ましい実施形態において、方法が実行される前に、例えば、疾患に関連する従来のゲノムのサイン(signature)又は多形性部位及び参照配列へのそのマッピングに関連する文献から得られる情報に基づいて、個々に定義され得る。
更なる実施形態において、方法ステップは、閾値及び/又はフィルタ値はまた、特定の位置、例えば、特定の疾患、特定のゲノム、特定の有機体又は如何なる他の特徴、に個別化する又は適合しても良い。これは、例えば、ユーザーに、マスク、閾値、参照配列等を定義する可能性を供することによって実行されても良い。
したがって、上記概説された実施形態により、当業者は、特定の分子又は医薬的疑問又は問題と関連するゲノムのセクター又は特定のデータセットに、アセンブリ及びアライメントプロセスを整備することができる。したがって、フィルタリングされた配列データセットは、本発明に係る方法、具体的には、ステップ(b)で定義された参照配列アライメントステップに開始され得る。続いて、本明細書で定義されたギャップ又は非アセンブリの領域と遭遇したときに、ステップ(d)に係る下記のデノボアセンブリが実行され得る。
本発明の更なる実施形態において、配列データの複雑度及び/又は量を低減することにより、配列データのいくつかのアスペクト又は部分は、種々の適切なパラメータに係る本方法のステップ(b)の参照配列アライメントを始めることから、マスキングされる又は除外されるが、本方法の別のステップに関して実質的に使用されても良く、又は本発明の方法のステップ(b)又はステップ(e)の両方に関して使用されても良い。これらのアスペクトは、好ましくは、遺伝子間領域の存在するところであり、多型の存在するところであり、イントロン又はエクソンの存在するところであり、転位性因子の存在するところであり、反復成分の存在するところであり、従来の突然変異のスポット又は領域の存在するところである。本コンテクストで特に好ましいものは、従来の多型、高可変領域、疾患関連突然変異又は一時的変異、配列リピート、低mapability領域、CPGアイランド又は特定の生物物理学的特徴を有する領域に関する核酸配列データのマスキングである。
本明細書で使用される専門用語「従来の多型」は、配列データ中の、一本鎖ヌクレオチド多型、又はダイマー又はトリマー多型の存在を参照する。例えば、多型部位(例えば多型リピートを含むよう知られている)又は異なる一方鎖ヌクレオチド多型に関連すると知られている配列データの存在は、配列データのマスキングにつながり得る。
本明細書で使用される専門用語「高可変領域」は、高可変性であると知られている配列ストレッチ、例えば、トランスポゾン成分、Alu配列、DNA−指紋検査法に関して従来使用される成分、等の存在に関連する。例えば、高可変領域に関係すると知られている配列データの存在は、配列データのマスキングにつながり得る。
専門用語「疾患関連突然変異又は一時的変異」は、疾患の一因となり得る、ゲノムの如何なる従来の変異に関連する。好ましいものは、より大きいDNA再配列、欠失、挿入又は他の突然変異を含む、配列変異に基づく疾患である。いくつかの実施形態において、疾患関連突然変異又は一時的変異の存在に関係があると知られる配列データの存在は、配列データのマスキングにつながり得る。更なる実施形態において、対応して確認された配列データピースは、識別され得、参照配列アライメントに含められ得、更にデノボアセンブリに関して使用され得る。デノボアセンブリされた配列は、続いて、参照アライメントと比較され得る。両方のアライメント手順において違いが起こった場合、別のアルゴリズムを有する追加の多配列アライメントが実行され得、両方のアライメントの結果は、フランキング配列を考慮に入れて結合され得る。
本明細書で使用される「配列リピート(反復)」は、当業者に知られる配列の如何なる反復、例えば、逆方向反復、順方向反復(non−inverted repeat)、ダイマー又トリマー反復の存在、遺伝子又はゲノム領域のコピーの存在、偽遺伝子、全染色体領域又は腕の再配列の存在等、を参照する。
本明細書で使用される専門用語「低mapability領域」は、平均配列リードよりもより低い包括度で存在する配列を参照する。例えば、リードの包括度が、平均包括度と比較して50%、100%、150%、200%、300%、400%、500%又はそれより多くの倍数で低減されるなら、低mapability領域が存在し得る。いくつかの実施形態において、低mapability領域の存在に関係していると知られる配列データの存在は、配列データのマスキングにつながり得る。更なる実施形態において、対応して確認された配列データピースは、識別され得、参照配列アライメントに含められ得、更にデノボアセンブリに関して使用され得る。デノボアセンブリされた配列は、続いて、参照アライメントと比較され得る。両方のアライメント手順において違いが起こった場合、別のアルゴリズムを有する追加の多配列アライメントが実行され得、両方のアライメントの結果は、フランキング配列を考慮に入れて結合されるであろう。
本明細書で使用される専門用語「CPGアイランド」は、通常、長さで300−3000塩基対であり、プロモータの近くで高頻度である、高頻度のCpG部位を含む配列を参照する。いくつかの実施形態において、CPGアイランドの存在に関係していると知られる配列データの存在は、配列データのマスキングにつながり得る。更なる実施形態において、対応して確認された配列データピースは、識別され得、参照配列アライメントに含められ得、更にデノボアセンブリに関して使用され得る。デノボアセンブリされた配列は、続いて、参照アライメントと比較され得る。両方のアライメント手順において違いが起こった場合、別のアルゴリズムを有する追加の多配列アライメントが実行され得、両方のアライメントの結果は、フランキング配列を考慮に入れて結合されるであろう。
本明細書で使用される専門用語「特定の生物物理学的特徴」は、プロペラツイストの存在、核酸の高い又は低い程度の曲げ性、二本鎖の安定性の高い又は低い程度、核酸断片又はリードの関連する破壊エネルギーの高い又は低い量、核酸断片又はリードと関連する自由エネルギーの高い又は低い量、DNA変性の高い又は低い程度、又は、DNA曲げ剛性の高い又は低い程度を参照する。本明細書で使用される専門用語「高い又は低い程度」又は「高い又は低い量」は、核酸断片に関して、具体的には、もし計算されるなら、本明細書で定義される単一の核酸リードに関して、典型的である、平均又は標準値と異なる、核酸の状態を参照する。係る相違は、約5%、10%、15%、20%、25%、30%、35%又はそれより多くの相違であっても良い。いくつかの実施形態において、本明細書で定義される特定の生物物理学的特徴の存在と関係すると知られる配列データの存在は、配列データのマスキングにつながり得る。更なる実施形態において、対応して確認された配列データピースは、識別され得、参照配列アライメントに含められ得、更にデノボアセンブリに関して使用され得る。デノボアセンブリされた配列は、続いて、参照アライメントと比較され得る。両方のアライメント手順において違いが起こった場合、別のアルゴリズムを有する追加の多配列アライメントが実行され得、両方のアライメントの結果は、フランキング配列を考慮に入れて結合されるであろう。
本明細書で使用される専門用語「多配列アライメント」は、3以上の生物学的配列、例えば、DNA、RNA、タンパク質等のアライメントを参照する。多配列アライメントの性能に関して、如何なる適切なアルゴリズムが使用されても良く、例えば、多配列間の類似性を比較し、識別できるアルゴリズムである。アルゴリズムは、好ましくは、ギャップアライメントヒューリスティクスを使用しても良い。多配列アライメントに関する好ましいアルゴリズムは、ClustalWである。
上記定義された配列特徴は、例えば、対応して定義されたスコア、又は閾値決定によって、又は、他の実施形態において、従来のパターン又は配列モチーフの特定の検出によって実施されても良い。全てのこれらの場合において、本明細書で定義されたモチーフ又は特徴の検出は、配列データのマスキングに寄与し得る。さらに、マスキングされた配列データは、別のアセンブリ又はアライメントプロセスに関して識別されても良い。
本発明の更に好ましい実施形態において、配列データのマスキングは、配列の保存に基づき得、例えば、保存性スコアによって実施され得る。例えば、ゲノムの高保存性領域は、参照配列アライメント手順が開始され得、一方、低保存性は、デノボアセンブリに関する配列データを認識し得る。
本発明の更に好ましい実施形態において、本明細書で定義される核酸配列データの前記マスキングは、本発明のステップ(d)に係るデノボ配列アセンブリにさらされ得る。例えば、従来の多型、高可変領域、疾患関連突然変異又は一時的変異、配列リピート、低mapability領域、CPGアイランド、又は本明細書で上記定義された特定の生物物理学的特徴を有する領域に関連する核酸配列データは、デノボ配列アセンブリに関して直接使用されても良い。更なる実施形態において、これらのデータは、デノボアセンブリ及び参照配列アライメントの両方に関して使用されても良い。
本発明の特定の実施形態において、次の方法ステップが実行される:アルゴリズムは、ショートリスト形式で供され、並列して実行するよう構成され得、本明細書で上記定義される、標準的な、好ましくは統一されたフォーマットで、データ上に実行されるであろう次のステップを含む:
(1)参照配列アライメントが開始される。
(2)ギャップが検出される又は参照アセンブリが中断される場所が確認される又は前記参照と整合しない多リード中のi塩基が確認される。このステップを実行するために、ベースクオリティ及び包括度の閾値が定義される。この閾値を通過するリードが、ギャップ又はブレイクを定義するために考慮されるであろう。追加的に又は代替的に、参照とのリードの不整合の長さが、ギャップ又はブレイクに関するポイントを定義するよう設定されても良い。
(3)従来報告されている多型のランドマーク(SNP/indel/CNV等)が、ゲノム中のそれらの特定の領域で厳重に検査するために、アライナに渡す(hand)前に供される。
(4)ギャップ/ブレイク/不整合が定義されると、デノボアライメントが作動し始めるであろう。
(5)デノボアライメントは、ギャップの領域に関して実行される。ここで繰り返して言うが、ベースクオリティ及び包括度の閾値が、良好なアセンブリを決定するために設定される。これは、リード塩基が参照塩基と整合し始める次のポイントまで続けられるであろう。
(6)このステップが確認されると、参照アライメントは、前方のその領域から再び実行される。
(7)これらのステップは、全部のアセンブリが終わるまで繰り返される。
(8)続いて、アライメント結果が、SNP/indel/当該アライメント結果から呼び出している他の確率変数に関して容易であるフォーマットで、例えばSAM又はBAMフォーマットで、格納される。
更に好ましい実施形態において、図4で描かれる全ての方法ステップが実行され得る。あるいは、更なる実施形態において、これらのステップのサブセットが、配列データの質、いくつかのステップを実行することに関する必要性等に依存して、実行されても良い。
更なる様態において、本発明は、プロセッサによって実行されているとき、本明細書で上記定義された方法のステップを実行するよう適合される、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリに関するプログラム要素又はコンピュータプログラム又はソフトウェアに関する。プログラム要素又はコンピュータプログラム又はソフトウェアは、一実施形態において、本明細書で定義される参照アライメントアルゴリズム及びデノボアセンブリアルゴリズムを実施し得る。更なる実施形態において、本明細書で上記定義される閾値及びフィルタパラメータは、追加的に実施され得る。更なる実施形態において、特定の比較ステップ、ストレージ活動、フォーマット変換ステップ等が、追加的に又は代替的に実施され得る。実施は、如何なる適切なコンピュータプラットフォームに関して供されても良いし、又は当業者に知られる如何なる適切なプログラム言語に基づいていても良い。
更なる様態において、本発明は、核酸断片リードを含む核酸配列データを連続するヌクレオチド配列セグメントへと変形する配列アセンブリシステムに関し、当該システムは、コンピュータプロセッサ、メモリ及びデータ記憶装置を含み、前記メモリはプログラミング命令を有し、本明細書で上記定義されたプログラム要素又はコンピュータプログラムを実行する。本発明の特定の実施形態において、前記配列アセンブリシステムは、例えば、ネットワークで使用されるための、又は独立型バージョンとして使用されるための、追加の入力及び出力インタフェースを備えても良い。更なる実施形態において、それはまた、閾値又はフィルタ値の定義又は適合、参照配列の指示又は変更、ゲノム部分又は特定のアスペクトへのフォーカシング等を可能にする入力又はユーザインタフェースを含んでも良い。更なる実施形態において、それは、データベース又はデータベースサーバに接続されても良く、又は、クライアントコンピュータ又はユーザにアセンブリ結果を供するための組織内、イントラネット又はインターネットサーバに接続されても良い。本明細書で述べられるデータ記憶装置は、ハードドライブ、光学ドライブ、本明細書で上記定義されたサーバ等といった如何なる適切なデータ記憶装置であっても良い。
本発明の更なる実施形態において、出力された結果データは、したがって、1)階層組織であり、及び/又は2)特定のシークエンシング情報をエンコードする、及び/又は追加的に3)患者データ、イメージ、記録等へのリンクを含む、好ましくは格納構造で、如何なる適切な方法又はフォーマットで格納されても良い。
本発明の更に好ましい実施形態において、本明細書で上記定義された配列アセンブリシステムは、シーックエンサーデバイスに関連付けられる又は結合されても良い。例えば、本明細書で定義された配列アセンブリシステムは、Roche/454、Illumina/Solex及びABI SOLiD systemに、又はこれらのシークエンサーデバイスの更なる先行開発に、又は当業者がまだ利用可能でないデバイスを含む、如何なる他の適切なシークエンサーデバイスに関連付けられる又は結合されても良い。
本発明の更に別の好ましい実施形態において、本明細書で上記定義された配列アセンブリシステムは、診断決定支援システムに関連付けられる又は接続されても良い。本明細書で使用される「診断決定支援システム」は、対象者のゲノム又はサブゲノム配列データ及び、特定の実施形態において、任意にその機能的なリード情報、例えば遺伝子又は非コードRNA発現、又はタンパク質レベルを供するための入力装置を含むシステムを参照する。さらに、システムは、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリに関する、プロセッサによって実行されるときに、本明細書で上記定義された方法のステップを実行するよう適合される、プログラム要素又はコンピュータプログラム又はソフトウェアと、対象者の連続するヌクレオチド配列セグメント変化を出力するための出力装置と、出力された情報を格納するための媒体と、を含む。好ましくは、出力された情報は、ゲノム修飾の存在又は不在、より好ましくは疾患又は疾患に関する素因による対象者の苦痛を示すことができる。
本発明に係る検出され得る又は診断され得る又は予知され得る疾患又は病気は、当業者に知られる如何なる検出可能な疾患であっても良い。好ましい実施形態において、前記疾患は、遺伝的疾患又は病気、特に、ゲノム配列データに基づいて検出することができる、病気であっても良い。係る病気は、制限されないが、例えば、適切な科学文献、臨床的又は医学的出版、正規の教科書、公開情報保存場所、インターネットリソース又はデータベース、特にhttp://en.wikipedia.org/wiki/List_of_genetic_disordersで述べられたものの1つ以上で述べられた病気を含む。
本発明の特に好ましい実施形態において、前記疾患は、癌性疾患、例えば、当業者に知られる如何なる癌性疾患又は腫瘍である。より好ましくは、疾患は、乳癌、卵巣癌、又は前立腺癌である。
特定の実施形態において、前記診断決定支援システムは、分子腫瘍学決定メイキングワークステーションであっても良い。決定メイキングワークステーションは、好ましくは、対象者に関する癌治療の開始及び/又は継続での決定のために使用され得る。更に構想されることは、種々の疾患タイプ、例えば、本明細書で上記述べられた如何なる疾患に関する同様の決定メイキングワークステーションである。
本発明の更に他の実施形態において、診断決定支援システムは、電子像/データアーカイブ及びコミュニケーションシステムであっても良い。
次の実施例及び図面は、説明的な目的で供される。したがって、理解されるべきことは、実施例及び図面が制限するよう解釈され得るということである。当業者は、本明細書で説明された原理の更なる変更を予想することが明確にできるであろう。
いくつかの態様を記載しておく。
〔態様1〕
核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリに関する方法であって、
(a)複数の核酸断片リードから複数の核酸配列データを得るステップ;
(b)前記複数の核酸配列データを参照配列に整列するステップ;
(c)ステップ(b)のアライメント出力内で、1つ以上のギャップ又は前記参照配列と非アセンブリの又は不整合の領域を検出するステップ;
(d)前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸配列データのデノボ配列アセンブリを実行するステップ;及び
(e)連続するヌクレオチド配列セグメントを得るために、ステップ(b)のアライメント出力及びステップ(d)のアセンブリ出力を組み合わせるステップ;
を含む、方法。
〔態様2〕
前記複数の核酸配列データは、統一されたフォーマットに変換される、
態様1に記載の方法。
〔態様3〕
前記のステップ(c)の検出は、フィルタ又は閾を実装することによって実行される、
態様1又は2に記載の方法。
〔態様4〕
前記フィルタ又は閾は、ベースクオリティ、包括度、周囲領域の複雑度又は不整合長さのフィルタ又は閾値である、
態様3に記載の方法。
〔態様5〕
整列するステップ(b)の前に、従来の多型、高可変領域、疾患関連突然変異又は一時的変異、反復、低mapability領域、CPGアイランド又は特定の生物物理学特徴を有する領域に関連する核酸配列データのマスキングが実行される、
態様1乃至4のいずれか一項に記載の方法。
〔態様6〕
前記のマスキングされた核酸配列データが、ステップ(d)のデノボ配列アセンブリの対象とされる、
態様5に記載の方法。
〔態様7〕
ステップ(b)は、参照アライメントアルゴリズムで、好ましくはBFAST、ELAND、GenomeMapper、GMAP、MAQ、MOSAIK、PASS、SeqMap、SHRiMP、SOAP、SSAHA又はCLDで、より好ましくはBowtie又はBWAで実行される、
態様1乃至6のいずれか一項に記載の方法。
〔態様8〕
ステップ(c)は、デノボアセンブリアルゴリズムで、好ましくはAAPATHS、Edena、EULER−SR、MIRA2、SEQAN、SHARCGS、SSAKE、SOAPdenovo、VCAKEで、より好ましくはABySS又はVelvetで実行される、
態様1乃至7のいずれか一項に記載の方法。
〔態様9〕
前記参照配列は、本質的に完全な原核生物の、真核生物の又はウイルスのゲノム配列、又はそれらの一部分であり、好ましくはヒトゲノム配列、動物ゲノム配列、植物ゲノム配列、細菌ゲノム配列、又はそれらの一部分である、
態様1乃至8のいずれか一項に記載の方法。
〔態様10〕
前記参照配列は、核酸配列データがアセンブリされる、有機体に系統発生学的に関連する、群又は分類群から選択される、
態様9に記載の方法。
〔態様11〕
前記参照配列は、エクソン配列、プロモータ配列、エンハンサ配列、転写因子結合部位又はそれらの任意の集団又は副集団を含む群から選択される、制御力を有するゲノムサブポーションである、
態様9に記載の方法。
〔態様12〕
前記参照配列は、モノマー、ダイマー及び/又はトリマーの存在といった、配列組成パラメータに基づく、又はスタッキング・エネルギー、プロペラツイスト、曲げ性、二本鎖の安定性、破壊エネルギー、自由エネルギー、DNA変性又はDNA曲げ剛性といった生物物理学的核酸特性に基づく、仮想配列である、
態様1乃至11のいずれか一項に記載の方法。
〔態様13〕
プロセッサにより実行される場合に、態様1乃至12のいずれか一項に記載の方法のステップを実行するように適合されている、核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリに関するコンピュータプログラム。
〔態様14〕
コンピュータプロセッサ、メモリ及びデータ格納デバイスを含み、前記メモリは、態様13に記載のコンピュータプログラムを実行するプログラム命令を有する、
核酸断片リードを含む核酸配列データを連続するヌクレオチド配列セグメントへと変換する配列アセンブリシステム。
〔態様15〕
シーケンサデバイスに関連付けられる又は接続される、又は医療上決定支援システム、好ましくは診断決定支援システムである、
態様14に記載のシステム。
[実施例]
(実施例1−AVPR1A遺伝子の正確な反復内容を制定するための、配列リードの参照及びデノボアライメント)
AVPR1A遺伝子の反復内容(反復の数)は日ごろの行いに関連するので、それは重大な健康的意義を有する。したがって、実験的な評価は、AVPR1A遺伝子の正確な反復内容を制定するために、配列リードの参照及びデノボアライメントに基づいて実行された。
参照アライメントは、リードをゲノム座標にマッピングするために使用され、デノボは、AVPR1A遺伝子における正確な反復内容を決定するために使用された(図5及び図6参照)。
Illumina GAIIxから得られたQseqファイルは、先ず、fastqフォーマットへと変換された。これらのファイルは、その後、BWAアライナを使用して、ヒト参照(GRCh37)ゲノムへと整列された。コンセンサス配列は、BWAアラインメントからSAM出力を使用して形成された。我々は、AVPR1遺伝子内のRS3多型が、本来、高多型性であり、臨床表現型と関係があることを知っており、そこで、我々は、同じ染色体からリードを抽出し、ABySSを使用してデノボアライメントを実行した。これにより、種々のサイズのコンティグを作り出した。続いて、ClustalWを使用して、コンティグ及びAVPR1遺伝子の多配列アライメントが実行された。このアライメントによって、ギャップ及び不整合を得た。デノボアライメントを使用して得られたコンティグは、異なるRS3反復を有していたことが観察された。この更なる反復内容は、続いて、フランキング配列を保つことを考慮に入れて、参照コンセンサス内に挿入された。これにより、参照と比較された時に、異なる反復長さを有するコンセンサス配列の発生に導かれた。
参照配列アライメント手法単独は、正確な数の反復内容(即ち、24反復)を明らかにし得ない一方で、デノボアセンブリアルゴリズムの適用は、そのことを確立することができた。両方のアルゴリズムの組み合わせは、配列を、正確な反復内容を有する参照ゲノム座標に、正しくマッピングすることができた。

Claims (15)

  1. 核酸断片リードを含む核酸配列データの連続するヌクレオチド配列セグメントへのアセンブリを行うための、コンピュータによって実行される方法であって、
    (a)受領手段によって、複数の核酸断片リードから複数の核酸配列データを受領するステップ;
    (b)参照配列整列手段によって、前記複数の核酸配列データを参照配列に整列するステップ;
    (c)検出手段によって、ステップ(b)のアライメント出力内で、1つ以上のギャップ又は前記参照配列と非アセンブリの又は不整合の領域を検出するステップ;
    (d)デノボ配列アセンブリ手段によって、前記ギャップ又は非アセンブリの前記領域にマッピングしている核酸配列データのデノボ配列アセンブリを実行するステップ;及び
    (e)組み合わせ手段によって、連続するヌクレオチド配列セグメントを得るために、ステップ(b)のアライメント出力及びステップ(d)のアセンブリ出力を組み合わせるステップ;
    含む、方法。
  2. 前記複数の核酸配列データは、変換手段によって、統一されたフォーマットに変換される、
    請求項1に記載の方法。
  3. 前記のステップ(c)の検出は、フィルタ又は閾を実装することによって実行される、
    請求項1又は2に記載の方法。
  4. 前記フィルタ又は閾は、ベースクオリティ、包括度、周囲領域の複雑度又は不整合長さのフィルタ又は閾値である、
    請求項3に記載の方法。
  5. 整列するステップ(b)の前に、従来の多型、高可変領域、疾患関連突然変異又は一時的変異、反復、低mapability領域、CPGアイランド又は特定の生物物理学特徴を有する領域に関連する核酸配列データのマスキングが、マスキング手段によって実行される、
    請求項1乃至4のいずれか一項に記載の方法。
  6. 前記のマスキングされた核酸配列データが、ステップ(d)のデノボ配列アセンブリの対象とされる
    請求項5に記載の方法。
  7. ステップ(b)は、参照アライメントアルゴリズムで、好ましくはBFAST、ELAND、GenomeMapper、GMAP、MAQ、MOSAIK、PASS、SeqMap、SHRiMP、SOAP、SSAHA又はCLDで、より好ましくはBowtie又はBWAで実行される、
    請求項1乃至6のいずれか一項に記載の方法。
  8. ステップ(c)は、デノボアセンブリアルゴリズムで、好ましくはAAPATHS、Edena、EULER−SR、MIRA2、SEQAN、SHARCGS、SSAKE、SOAPdenovo、VCAKEで、より好ましくはABySS又はVelvetで実行される、
    請求項1乃至7のいずれか一項に記載の方法。
  9. 前記参照配列は、本質的に完全な原核生物の、真核生物の又はウイルスのゲノム配列、又はそれらの一部分であり、好ましくはヒトゲノム配列、動物ゲノム配列、植物ゲノム配列、細菌ゲノム配列、又はそれらの一部分である、
    請求項1乃至8のいずれか一項に記載の方法。
  10. 前記参照配列は、核酸配列データがアセンブリされる、有機体に系統発生学的に関連する、群又は分類群から選択される、
    請求項9に記載の方法。
  11. 前記参照配列は、エクソン配列、プロモータ配列、エンハンサ配列、転写因子結合部位又はそれらの任意の集団又は副集団を含む群から選択される、制御力を有するゲノムサブポーションである、
    請求項9に記載の方法。
  12. 前記参照配列は、モノマー、ダイマー及び/又はトリマーの存在といった、配列組成パラメータに基づく、又はスタッキング・エネルギー、プロペラツイスト、曲げ性、二本鎖の安定性、破壊エネルギー、自由エネルギー、DNA変性又はDNA曲げ剛性といった生物物理学的核酸特性に基づく、仮想配列である、
    請求項1乃至11のいずれか一項に記載の方法。
  13. 求項1乃至12のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
  14. コンピュータプロセッサ請求項13に記載のコンピュータプログラムを記憶しているメモリと、データ格納デバイス有する
    核酸断片リードを含む核酸配列データを連続するヌクレオチド配列セグメントへと変換する配列アセンブリシステム。
  15. シーケンサデバイスに関連付けられる又は接続される、又は医療上決定支援システム、好ましくは診断決定支援システムである、
    請求項14に記載のシステム。
JP2014514171A 2011-06-06 2012-05-24 核酸配列データのアセンブリに関する方法 Expired - Fee Related JP6027608B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161493541P 2011-06-06 2011-06-06
US61/493,541 2011-06-06
PCT/IB2012/052613 WO2012168815A2 (en) 2011-06-06 2012-05-24 Method for assembly of nucleic acid sequence data

Publications (2)

Publication Number Publication Date
JP2014529109A JP2014529109A (ja) 2014-10-30
JP6027608B2 true JP6027608B2 (ja) 2016-11-16

Family

ID=46395655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014514171A Expired - Fee Related JP6027608B2 (ja) 2011-06-06 2012-05-24 核酸配列データのアセンブリに関する方法

Country Status (5)

Country Link
US (1) US20140249764A1 (ja)
EP (1) EP2718862B1 (ja)
JP (1) JP6027608B2 (ja)
CN (1) CN103797486A (ja)
WO (1) WO2012168815A2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US10191929B2 (en) * 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
KR102205950B1 (ko) * 2013-11-07 2021-01-22 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 인간 마이크로바이옴 및 그의 성분의 분석을 위한 무세포 핵산
GB2530012A (en) * 2014-08-05 2016-03-16 Illumina Cambridge Ltd Methods and systems for data analysis and compression
CN104200133B (zh) * 2014-09-19 2017-03-29 中南大学 一种基于读数和距离分布的基因组De novo序列拼接方法
CN105989249B (zh) * 2014-09-26 2019-03-15 南京无尽生物科技有限公司 用于组装基因组序列的方法、系统及装置
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN107922971A (zh) 2015-05-18 2018-04-17 凯锐思公司 用于富集核酸群体的组合物和方法
US10560552B2 (en) 2015-05-21 2020-02-11 Noblis, Inc. Compression and transmission of genomic information
CA2997929A1 (en) * 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
CA3014292A1 (en) 2016-02-12 2017-08-17 Regeneron Pharmaceuticals, Inc. Methods and systems for detection of abnormal karyotypes
CN109312400A (zh) 2016-03-25 2019-02-05 凯锐思公司 合成核酸掺入物
US10811539B2 (en) 2016-05-16 2020-10-20 Nanomedical Diagnostics, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
CN106055925B (zh) * 2016-05-24 2018-09-18 中国水产科学研究院 基于转录组双端测序数据组装基因组序列的方法和装置
CN109564769A (zh) * 2016-06-10 2019-04-02 特韦斯特生物科学公司 用于自动注释和筛选生物序列的系统和方法
BR112019007359A2 (pt) * 2016-10-11 2019-07-16 Genomsys Sa método e sistema para acesso seletivo dos dados bioinformáticos armazenados ou transmitidos
JP2020503580A (ja) * 2016-10-11 2020-01-30 ゲノムシス エスアーGenomsys Sa バイオインフォマティクスデータのコンパクトな表現のための方法および装置
KR102807240B1 (ko) * 2016-10-11 2025-05-14 게놈시스 에스에이 생물 정보학 정보 표현을 위한 효율적인 데이터 구조
KR101832834B1 (ko) 2017-03-09 2018-04-13 주식회사 샤인바이오 다중점도표 분석 기반 변이 탐색 방법 및 시스템
CA3059370C (en) 2017-04-12 2022-05-10 Karius, Inc. Methods for concurrent analysis of dna and rna in mixed samples
CN107145767B (zh) * 2017-04-17 2018-09-25 西北农林科技大学 通用rgen基因编辑靶位点快速筛选系统
US11222712B2 (en) 2017-05-12 2022-01-11 Noblis, Inc. Primer design using indexed genomic information
CN110021359B (zh) * 2017-07-24 2021-05-04 深圳华大基因科技服务有限公司 一种二代和三代序列联合组装结果去冗余的方法和装置
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
JP7074861B2 (ja) * 2018-01-10 2022-05-24 メモリアル スローン ケタリング キャンサー センター 生ゲノムデータに基づく構成可能テキスト文字列の生成
EP3765592A4 (en) 2018-03-16 2021-12-08 Karius Inc. SAMPLE SERIES TO DIFFERENTIATE TARGET NUCLEIC ACIDS FROM CONTAMINANT NUCLEIC ACIDS
CA3098876A1 (en) * 2018-05-14 2019-11-21 Quantum-Si Incorporated Machine learning enabled biological polymer assembly
WO2020106893A1 (en) 2018-11-21 2020-05-28 Karius, Inc. Direct-to-library methods, systems, and compositions
CN109887547B (zh) * 2019-03-06 2020-10-02 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、系统及装置
CN111261228B (zh) * 2020-03-10 2023-06-09 清华大学深圳国际研究生院 计算保守核酸序列的方法及系统
CN112786110B (zh) * 2021-01-29 2023-08-15 武汉希望组生物科技有限公司 一种序列组装方法及系统
WO2024050547A2 (en) * 2022-09-02 2024-03-07 Hunterian Medicine Llc Compact bidirectional promoters for gene expression

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040257A (ja) * 1996-07-24 1998-02-13 Hitachi Ltd 文字配列比較方法、およびそれを用いたアセンブル方法
JP3530842B2 (ja) * 2001-11-19 2004-05-24 株式会社日立製作所 核酸塩基配列アセンブル装置及びその動作方法
US20030157489A1 (en) * 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
JP2004215640A (ja) * 2003-01-15 2004-08-05 Riichi Adachi Dna配列のアセンブリング方法
US9165109B2 (en) * 2010-02-24 2015-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination

Also Published As

Publication number Publication date
JP2014529109A (ja) 2014-10-30
WO2012168815A3 (en) 2013-02-28
EP2718862A2 (en) 2014-04-16
EP2718862B1 (en) 2018-10-31
US20140249764A1 (en) 2014-09-04
CN103797486A (zh) 2014-05-14
WO2012168815A2 (en) 2012-12-13

Similar Documents

Publication Publication Date Title
JP6027608B2 (ja) 核酸配列データのアセンブリに関する方法
Audano et al. Characterizing the major structural variant alleles of the human genome
AU2023251452B2 (en) Validation methods and systems for sequence variant calls
JP6420543B2 (ja) ゲノムデータ処理方法
JP2019515369A (ja) 遺伝的バリアント−表現型解析システムおよび使用方法
He et al. The conservation and signatures of lincRNAs in Marek’s disease of chicken
JP6762932B2 (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
EP3931360A1 (en) Systems and methods for using sequencing data for pathogen detection
WO2019191123A1 (en) Methods for predicting genomic variation effects on gene transcription
Billingsley et al. Genome‐wide analysis of structural variants in Parkinson disease
Lu et al. The motif composition of variable number tandem repeats impacts gene expression
Pendergrass et al. A phenome-wide association study (PheWAS) in the Population Architecture using Genomics and Epidemiology (PAGE) study reveals potential pleiotropy in African Americans
Faber-Hammond et al. Pseudo-de novo assembly and analysis of unmapped genome sequence reads in wild zebrafish reveal novel gene content
Wang et al. Mitochondrial DNA enrichment reduced NUMT contamination in porcine NGS analyses
Ormond et al. Ultrarare missense variants implicated in utah pedigrees multiply affected with schizophrenia
Han et al. Whole-genome sequencing analysis of suicide deaths integrating brain-regulatory eQTLs data to identify risk loci and genes
Kõks et al. Sequencing and annotated analysis of full genome of Holstein breed bull
Li et al. Identification of susceptible genes for complex chronic diseases based on disease risk functional SNPs and interaction networks
Coppola Designing, performing, and interpreting a microarray-based gene expression study
Hodes Diagnosing Patentable Subject Matter
Grigoryev et al. Exon-based mapping of microarray probes: recovering differential gene expression signal in underpowered hypoxia experiment
Chuang et al. GABOLA: A Reliable Gap-Filling Strategy for de novo Chromosome-Level Assembly
JP2025106239A (ja) 病原体検出のための配列決定データを使用するためのシステムおよび方法
Lin et al. Differential performance of polygenic prediction across traits and populations depending on genotype discovery approach
Warr Lost pigs and broken genes: the search for causes of embryonic loss in the pig and the assembly of a more contiguous reference genome

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161014

R150 Certificate of patent or registration of utility model

Ref document number: 6027608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees