[go: up one dir, main page]

JP2018508852A - 構造的変異及び相化情報を視覚化するシステム及び方法 - Google Patents

構造的変異及び相化情報を視覚化するシステム及び方法 Download PDF

Info

Publication number
JP2018508852A
JP2018508852A JP2017533566A JP2017533566A JP2018508852A JP 2018508852 A JP2018508852 A JP 2018508852A JP 2017533566 A JP2017533566 A JP 2017533566A JP 2017533566 A JP2017533566 A JP 2017533566A JP 2018508852 A JP2018508852 A JP 2018508852A
Authority
JP
Japan
Prior art keywords
nucleic acid
data set
data
sequence
acid sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2017533566A
Other languages
English (en)
Other versions
JP2018508852A5 (ja
Inventor
シュナル−レヴィン,マイケル
ウォン,アレクサンダー
スタッフォード,デイヴィッド
Original Assignee
10エックス ゲノミクス,インコーポレイテッド
10エックス ゲノミクス,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 10エックス ゲノミクス,インコーポレイテッド, 10エックス ゲノミクス,インコーポレイテッド filed Critical 10エックス ゲノミクス,インコーポレイテッド
Publication of JP2018508852A publication Critical patent/JP2018508852A/ja
Publication of JP2018508852A5 publication Critical patent/JP2018508852A5/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

構造的変異または相化情報を提供するシステムが提供される。システムは、試料における標的核酸に対応する核酸配列データセットにアクセスする。データセットは、ヘッダ,シノプシス,及びデータ部を含む。データ部は、複数の配列読み取り値を含む。各々の配列読み取り値は、標的核酸のサブセットに対応する第1の部分、及び複数の識別子からの配列読み取り値に対する識別子を符号化する第2の部分を含む。システムのメモリにおける1つまたは複数のプログラムは、構造的変異または相化情報に対する要求をデータセットから受信するハプロタイプ視覚化ツールを提供するためにシステムのマイクロプロセッサを使用する。要求はシノプシスと比較され、それによって、データ部の一部を識別する。構造的変異または相化情報は、データ部の識別された部分を使用して、ハプロタイプ視覚化ツールで表示するためにフォーマットされる。【選択図】図1

Description

関連出願の相互参照
本出願は、その全体を参照することによって本明細書に組み込まれる2015年2月25日に出願された「Systems and Methods for Visualizing Structural Variation and Phasing Information」と題する米国特許出願第62/120,873号に関連する。
本出願はまた、その全体を参照することによって本明細書に組み込まれる2015年1月13日に出願された「Systems and Methods for Visualizing Structural Variation and Phasing Information」と題する米国特許出願第62/102,926に関連する。
本明細書は、核酸配列データ(nucleic acid sequencing data)において構造的変異(structural variation)及び相化情報(phasing information)を視覚化する技術を説明する。
並列化された配列方法を大規模に使用することによって配列されたヒトゲノムから取得された実験データからのハプロタイプアセンブリは、遺伝子データの優れたソースとして出現した。そのようなデータは、遺伝子に基づく診断に加え、ヒトの疾患の研究、検出、及び個別化された治療を実施する費用効率の良い方法として役に立つ。
そのような並列化された配列方法を大規模に使用することによって提供された広範囲な情報が、例えば、2014年10月29日に出願された「Analysis of Nucleic Acid Sequences」と題する米国特許出願第62/072,214で開示されている。そのような技術は、転座(translocations)、大欠失(large deletions)、または遺伝子融合(gene fusions)などの、ゲノムの大規模構造的変異の検出を大いに促進する。他の実施例は、それらに限定されないが、the sequencing−by−synthesis platforms(ILLUMINA)、Bentley et al.、2008、「Accurate whole human genome sequencing using reversible terminator chemistry」、Nature 456:53−59、sequencing−by−litigation platforms(POLONATOR;ABI SOLiD)、Shendure et al.、2005、「Accurate Multiplex Polony Sequencing of an Evolved bacterial Genome」、Science 309:1728−1732、pyrosequencing platforms(ROCHE 454)、Margulies et al.、2005、「Genome sequencing in microfabricated high−density picoliter reactors」、Nature 437:376−380、及びsingle−molecule sequencing platforms(HELICOS HELISCAPE)、Pushkarev et al.、2009、「Single−molecule sequencing of an individual human genome」、Nature Biotech17:847−850、(PACIFIC BIOSCIENCES)Eid et al.、「Real−time sequencing form single polymerase molecule」、Science 323:133−138を含み、その各々がその全体を参照することによって本明細書に組み込まれる。
ハプロタイプデータの利用可能性がヒトゲノムの大部分に渡り、特に、個人のゲノムに対する全ゲノム配列のコストが1000ドルを下回るまで減少しているので、診断、発見、及び治療の上述した目的を前進させるために、このデータで効率的に作用する方法の必要性が生じている。そのようなデータからハプロタイプをコンピュータ的にアセンブルするために、試料に存在する2つのハプロタイプからの読み取り値を解き、両方のハプロタイプに対するコンセンサス配列を推論する必要がある。そのような問題は、NP困難であると示されてきた。参照によって本明細書に組み込まれる、Lippert et al.、2002、「Algorithmic strategies for the single nucleotide polymorphism haplotype assembly problem」、Brief.Bionform3:23−31を参照されたい。
アセンブリビューConsed(assembly view Consed)は、上記識別した配列方法から取得された読み取り値の視覚化をサポートする。Gordon1998、「Consed:A graphical tool for sequencing finishing」、Genome Research 8:198−202を参照されたい。
別の視覚化ツールは、EagleViewである。Huang and Marth、2008、「EagleView:A genome assembly viewer for next−generation sequencing technologies」、Genome Research 18:1538−1543を参照されたい。
さらなる別のそのようなビューワは、HapEditである。Kim et al.、「HapEdit:an accuracy assessment viewer for haplotype assembly using massively parallel DNA−sequencing technologies」、Nucleic Acids Research、2011、1−5を参照されたい。HapEditは、ハプロタイプアセンブリの精度を評価するツールを提供し、ユーザが多数の異なる配列決定技術による読み取り配列の構成比率に適合することを可能にする。
上記開示されたプログラムは各々、それら自体の能力における著しい前進であるが、それらは、配列データにおいて構造的変異(例えば、欠失、重複(duplications)、コピー数変異型(copy−number variants)、挿入(insertions)、逆位(inversions)、転座(translocations)、末端反復配列(long terminal repeats:LTR)、短反復配列(short tandem repeats:STR)、及び様々な他の有用な特性)を視覚的に評価するツールのこの分野における必要性に適切に対処していない。
構造的変異を視覚的に評価する技術的解決策(例えば、コンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体)が提供される。参照によって本明細書に組み込まれる2014年10月29日に出願された「Analysis of Nucleic Acid Sequences」と題する米国特許出願第62/072,214号に開示されるものなどのプラットフォームで、ゲノムは、標的識別の前に断片化及び区分化され、ならびにバーコード化される。したがって、バーコード情報の統合がゲノムにわたって維持される。バーコード情報は、著しいバーコードのオーバラップを示すゲノムの領域を検出することによって、潜在的な構造的変異分岐点を識別するために使用される。それらは相化情報を取得するためにも使用される。
以下は、本発明の態様のうちのいくつかの基本的な理解を提供するために、発明の概要を提示する。この概要は、本発明の広範囲に及ぶ概要ではない。本発明の重要な/重大な要素を識別することを意図しているわけではなく、本発明の範囲を記述することも意図していない。その唯一の目的は、後に提示されるさらなる詳細な説明に対する前置きとして、発明の概念のうちのいくつかを簡易化された形式で提示することである。
本開示の1つの態様は、ネットワーク接続上で構造的変異または相化情報をリモートクライアントコンピュータに提供するシステムである。システムは、1つまたは複数のマイクロプロセッサ、永続的メモリ及び非永続的メモリを含む。永続的メモリ(例えば、ハードドライブ)及び非永続的メモリ(例えば、RAMメモリ)は共同で、1つまたは複数の核酸配列データセットを記憶する。1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応する。それぞれの試料は、いくつかの実施形態では、それぞれの試料の分析のためのベンチマークとしての役割を果たし得る種の参照ゲノムと関連付けられる。例えば、いくつかの実施形態では、それぞれの試料は、参照ゲノムにマッピングされ、それによって、参照ゲノムは、クエリを構文解析して、それぞれの試料の一部を視覚化するためのテンプレート(参照)として使用される。例えば、いくつかの実施形態では、試料は、人間の被験者からである。そのような例では、ヒトゲノム(異なる種からのゲノムとは反対に)は、参照ゲノムとしての役割を果たし、かつそれぞれの試料は、ヒトゲノムにマッピングされる。このようにして、特定の人間の染色体における視覚的配列もしくは配列変異、または試料からのそれらの一部に対する要求を、参照ゲノムへのそのようなマッピングに基づいて、開示されるシステム及び方法を使用して解釈及び処理することができる。
それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含む。データ部は、試料からの複数の調整された配列読み取り値、及び各々のなされた変異呼び出しに関する情報を含む。有利なことに、データ部は、拡張可能であり、追加のデータを記憶することができる。複数の配列読み取り値における各々のそれぞれの配列読み取り値は、それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子におけるそれぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含む。各々のそれぞれの識別子は、少なくとも1つの標的核酸の配列から独立する。複数の配列読み取り値における配列読み取り値は共同で、複数の識別子を含む。
永続的メモリ及び非永続的メモリはさらに共同で、リモートクライアントコンピュータ上でインストールするためのハプロタイプ視覚化ツールをクライアントに提供するために1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する。システムは、1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する、クライアントから送信された要求を、ネットワーク接続(例えば、インターネット)上で受信する。要求を受信したことに応答して、非永続的メモリにいまだロードされていない一方で、データ部を永続的メモリに保持している場合、第1のデータセットのヘッダ及びシノプシスを非永続的メモリにロードすることを含む方法を実行することによって、要求が自動的にフィルタリングされる。方法では、要求は、第1のデータセットのシノプシスと比較され(それに対して分析され)、それによって第1のデータセットのデータ部の1つまたは複数の部分を識別する。データ部の1つまたは複数の識別された部分は次いで、非永続的メモリにロードされる。構造的変異または相化情報は、第1のデータセットを使用して、クライアントコンピュータ上で表示するためにフォーマットされる。次いで、フォーマットされた構造的変異または相化情報は、クライアントデバイス上で表示するためにネットワーク接続上でクライアントデバイスに送信される。
いくつかの実施形態では、ヘッダは、それぞれの核酸配列データセットにおける複数の構成要素を記述する。いくつかの実施形態では、複数の構成要素は、要約、変異呼び出しデータへのインデックス、位相ブロック追跡、refseqインデックス追跡、遺伝子追跡、エクソン追跡、読み取りデータへのインデックス、構造的変異データセット追跡、標的データセットへのインデックス、及び断片データセットへのインデックスから構成されるグループから選択された2つ以上の構成要素、3つ以上の構成要素、4つ以上の構成要素、または5つ以上の構成要素を含む。
いくつかの実施形態では、複数の構成要素は、要約を含み、この要約は、それぞれの核酸配列データセットで相化された既知のSNPの割合と、それぞれの核酸配列データセットにおける最長位相ブロックと、それぞれの核酸配列データセットで使用される多数の一意なバーコードと、それぞれの核酸配列データセットにおける平均断片長と、それぞれの核酸配列データセットにおける平均断片長の平均値と、それぞれの核酸配列データセットにおけるより低い閾値よりも大きい断片の割合と、それぞれの核酸配列データセットにおける断片長ヒストグラムと、それぞれの核酸配列データセットにおけるN50の位相ブロックサイズと、それぞれの核酸配列データセットにおける位相ブロックヒストグラムと、核酸配列データセットのそれぞれによって表される多数の配列読み取り値と、それぞれの核酸配列データセットにおけるメジアン挿入サイズと、それぞれの核酸配列データセットにおけるメジアン深さと、それぞれの核酸配列データセットにおけるゼロカバレッジを有する標的ゲノムの割合と、それぞれの核酸配列データセットに対するマッピングされた読み取り値の割合と、それぞれの核酸配列データセットに対するPCR重複割合と、それぞれの核酸配列データセットに対するカバレッジヒストグラムと、それぞれの核酸配列データセットに対する塩基を形成する試験核酸の識別と、それぞれの核酸配列データセットに対するゲノムソースと、それぞれの核酸配列データセットの少なくとも1つの試験核酸をもたらした生命体の性別と、それぞれの核酸配列データセットのそれぞれの試料をもたらした生命体の性別と、それぞれの核酸配列データセットのデータセットファイルフォーマットバージョン及び、それぞれの核酸配列データセットに対してなされる複数の構造的変異呼び出しに対するポインタとから構成されるグループにおける2つ以上の項目、3つ以上の項目、4つ以上の項目、5つ以上の項目、または6つ以上の項目を含む。有利なことに、この情報のリストの非限定的な実施例が示すように、開示される核酸配列決定データセットは、配列データに従ってユーザが関心のあるかもしれないメタデータとすることができるメタデータ(例えば、注釈データ)の任意のビットを含むことができる。
いくつかの実施形態では、複数の構成要素は、それぞれの範囲に対する変異呼び出しデータが発見される、データ部におけるオフセットへの種のゲノムのそれぞれの範囲の間の対応関係を提供する変異呼び出しデータへのインデックスを含む。
いくつかの実施形態では、複数の構成要素は位相ブロック追跡を含む。位相ブロック追跡は、(i)辞書、及び(ii)種のゲノムにおける1つまたは複数の染色体に対する位相情報を含む追跡データ部を含む。いくつかの実施形態では、辞書は、複数の名前、及び複数の名前におけるそれぞれの名前ごとに、対応する名前に対するレコードが発見される追跡データへのオフセットを含む。いくつかの実施形態では、追跡データ部は複数のレコードを含み、複数のレコードにおける各々のレコードは、標的核酸における位相ブロックを表す。いくつかの実施形態では、トラクトデータ部は、JSONファイルフォーマットにある。
いくつかの実施形態では、複数のレコードにおける各々のそれぞれのレコードは、(i)それぞれのレコードに対応する染色体番号と、(ii)位相ブロックが染色体上で開始する位置と、(iii)位相ブロックが終了する位置と、(iv)レコードに対する一意な名前と、(v)位相ブロックに関する相化情報とを指定する。
いくつかの実施形態では、複数のレコードにおける各々のそれぞれのレコードは、複数の区間木におけるそれぞれの区間木の複数のノードにおけるノードによって表され、複数の区間木における各々の区間木は、種に対する複数の染色体における染色体を表す。いくつかのそのような実施形態では、複数の区間木における第1の区間木の複数のノードにおけるノードは、ノードの中間点を記憶し、ノードの中間点は、対応する染色体上の、ノードに対応する位相ブロックの中間点の位置であり、第1の区間木の複数のノードにおける各々のそれぞれのノードは、種のゲノムにおけるそれぞれのノードによって表される位相ブロックの直接左にある(すなわち、数字上小さい)位相ブロックに対応する、左の子ノードへのリンクを有し、第1の区間木の複数のノードにおける各々のそれぞれのノードは、種のゲノムにおけるそれぞれのノードによって表される位相ブロックの直接右にある(すなわち、数字上大きい)位相ブロックに対応する、右の子ノードへのリンクを有し、第1の区間木の複数のノードにおける各々のそれぞれのノードは、そのような位相ブロックの左側位置によって分類されるそれぞれのノードの中間点にオーバラップする位相ブロックを表す、分類された組のノードを有し、第1の区間木の複数のノードにおける各々のそれぞれのノードは、そのような位相ブロックの右側位置によって分類されるそれぞれのノードの中間点にオーバラップする位相ブロックを表す、分類された組のノードを有する。いくつかのそのような実施形態では、第1の区間木の複数のノードにおける各々のそれぞれのノードはさらに、それぞれのノードに対応する位相ブロックに対する位相情報を含む、複数のレコードにおけるレコードへの追跡データ部におけるオフセットである名前を含む。
いくつかの実施形態では、ヘッダはさらに、核酸配列データセットによって使用されるデータセット構造のバージョンを含む。いくつかの実施形態では、複数の構成要素は、refseqインデックスを含み、refseqインデックスは、試料で呼び出される複数の分子変異識別子のインデックスを含む。いくつかのそのような実施形態では、複数の分子変異識別子における各々のそれぞれの分子変異識別子は、dbSNP識別子である。
いくつかの実施形態では、複数の構成要素は、遺伝子追跡を含む。そのような実施形態では、遺伝子追跡は、複数の遺伝子、及び複数の遺伝子におけるそれぞれの遺伝子ごとに、それぞれの遺伝子における多数の単一ヌクレオチド多型を含む。
本開示の別の態様は、ローカルコンピュータを使用して、プログラム出力をネットワーク接続上で処理するシステムを提供し、ローカルコンピュータは、1つまたは複数のマイクロプロセッサ、及び1つまたは複数のプログラムを記憶したメモリを含む。1つまたは複数のプログラムは、ローカルコンピュータ上で実行する第1のオペレーティングシステムに従って方法を実行するように1つまたは複数のマイクロプロセッサを使用する。方法では、第1のプログラムの第1のインスタンスが呼び出される。次いで、第1のプログラムの第1のインスタンスを通じて、ユーザから、リモートコンピュータ上のユーザアカウントに対するログイン及びパスワードが取得される。これは、ローカルコンピュータとリモートコンピュータとの間のネットワーク接続にわたって(第1のプログラムの第1のインスタンスによって提供されるログイン及びパスワードを使用して)、リモートコンピュータ上でユーザアカウントにユーザを自動的にログインさせるために使用される。リモートコンピュータ上でのログインに成功したことに応答して、人間の介入なしに、リモートコンピュータがいまだユーザアカウントで利用可能な第1のプログラムを有していないとき、リモートコンピュータに送信するときにリモートコンピュータ上で自動インストールするように構成された第1のプログラムの第2のインスタンスが自動的に送信される。次に、第1のプログラムの第1のインスタンス内でパネルを開く要求がリモートコンピュータから受信される。パネルは、リモートコンピュータ上で実行する第1のプログラムの第2のインスタンスによって開始される。パネルは、第1のプログラムの第2のインスタンスを制御するためのユーザからの入力を請求する。ローカルコンピュータ上のパネルにおいて第1のプログラムの第2のインスタンスを制御するためのユーザからの入力を受信したことに応答して、入力は、ネットワーク接続にわたって(例えば、無線または有線接続)、リモートコンピュータ上の第1のプログラムの第2のインスタンスに送信される。次に、ネットワーク接続にわたって、リモートコンピュータから、入力に応答した第1のプログラムの第2のインスタンスからの出力が受信される。この出力は、ローカルコンピュータにおいて表示される。
本開示の別の態様は、核酸配列データを見るためのシステムを提供する。システムは、1つまたは複数のマイクロプロセッサ、及びメモリを含む。メモリは、試料における少なくとも1つの標的核酸に対応する核酸配列データセットを取得するために1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する。核酸配列データセットは、試料からの複数の配列読み取り値を含む。複数の配列読み取り値における各々のそれぞれの配列読み取り値は、試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子におけるそれぞれの配列読み取り値に対するそれぞれの識別子(例えば、バーコード)を符号化する第2の部分を含む。各々のそれぞれの識別子は、少なくとも1つの標的核酸の配列から独立する。複数の配列読み取り値は共同で、複数の識別子を含む。視覚化ツールが表示される。要求が視覚化ツールを通じてユーザから取得される。要求は、核酸配列データセットによって表されるゲノム領域を指定する。要求を取得したことに応答して、ゲノム領域内の複数の配列読み取り値を核酸配列データセットから取得することによって要求が構文解析される。複数の配列読み取り値に対してスキャンウインドウが実行され、それによって複数のウインドウを作成し、複数のウインドウの各々のそれぞれのウインドウは、ゲノム領域の異なる領域に対応し、核酸配列データセットにおけるゲノム領域の異なる領域における各々の配列読み取り値の各々の識別子の識別を含む。複数のウインドウにおける各々の考えられるウインドウの対を表す2次元ヒートマップが表示される。各々のそれぞれのウインドウの対は、それぞれのウインドウの対で共通な識別子の番号に基づいて色スキームから選択された色として2次元ヒートマップで表示される。
添付の特許請求の範囲の範囲内にあるシステム、方法及びデバイスの種々の実施形態は各々、いくつかの態様を有し、それらのただ1つが単独で本明細書で説明される所望の属性に関与するわけではない。添付の特許請求の範囲の範囲を限定することなく、いくつかの優れた特徴が本明細書で説明される。この議論を考慮した後、特に、「発明を実施するための形態」と題する章を読んだ後、どのように種々の実施形態の特徴が使用されるかを理解するであろう。
参照による組み込み
本明細書で言及されるすべての公開物、特許、及び特許出願は、各々の個々の公開物、特許、または特許出願が参照によって組み込まれると明確に、かつ個々に示されたのと同じ程度にそれらの全体を参照することによって本明細書に組み込まれる。
本明細書で開示される実施態様は、例として、かつ限定としてではなく、添付図面の図において示される。同一の参照番号は、図面全体を通じて対応する部分を指す。
いくつかの実施態様に従ったコンピューティングデバイスを示す例示的なブロック図である。 本開示の実施形態に従った例示的な構築物を示す。 本開示の実施形態に従った核酸配列データセットの概要を提供する。 いくつかの実施形態に従った核酸配列データセット内での例示的な位相ブロック(phase block)追跡のデータ構造を示す。 いくつかの実施形態に従った例示的な位相ブロック追跡を示す。 いくつかの実施形態に従った例示的な遺伝子追跡のデータ構造を示す。 いくつかの実施形態に従った例示的な遺伝子追跡を示す。 いくつかの実施形態に従った核酸配列データセット内での例示的な構造的変異データセット追跡のデータ構造を示す。 いくつかの実施形態に従った例示的な構造的変異データセット追跡を示す。 いくつかの実施形態に従った核酸配列データセット内での標的(target)、断片(fragment)、及び配列読み取りデータを示す。 いくつかの実施形態に従った核酸配列データセット内での変異呼び出し(variant call)データを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける要約モジュールを示す。 追加の実施形態に従ったハプロタイプ視覚化ツールにおける要約モジュールを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールのスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールの検索機能の特徴を示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールのスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールのさらなる別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールのさらなる追加のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける読み取り値視覚化モジュールのスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールの別のスクリーンショットを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールを示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別の態様を示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別の態様を示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールのさらなる別の態様を示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別の態様を示す。 いくつかの実施形態に従ったハプロタイプ視覚化ツールにおける位相視覚化モジュールの別の態様を示す。 いくつかの実施形態に従ったコンピューティングシステムを示す例示的なブロック図である。 開示される実施形態に従ったハプロタイプ視覚化ツールのインスタンスのリモート開始のための認証情報チャレンジの実施例である。 配列読み取りフィルタがオフにされるいくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールを示す。 配列読み取りフィルタがオンにされるいくつかの実施形態に従ったハプロタイプ視覚化ツールにおける構造的変異モジュールを示す。
ここで、実施形態への参照が詳細になされ、その実施例が添付図面で示される。以下の詳細な説明では、本開示の完全な理解を提供するために多数の具体的な詳細が説明される。しかしながら、それらの具体的な詳細なしに本開示を実施し得ることが当業者にとって明らかである。他の例では、公知の方法、手順、構成要素、回路、及びネットワークが、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。
また、用語第1、第2などが種々の要素を説明するために本明細書で使用される場合があるが、それらの要素は、それらの用語によって限定されるべきではない。それらの用語は、1つの要素をもう一方の要素と区別するために使用されるにすぎない。例えば、本開示の範囲から逸脱することなく、第1の被験者は、第2の被験者と称されてもよく、同様に第2の被験者は、第1の被験者と称されてもよい。第1の被験者及び第2の被験者は両方とも被験者であるが、それらは同一の被験者ではない。
本開示で使用される専門用語は、特定の実施形態を説明することのみを目的としており、発明を限定することを意図していない。発明の説明及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」及び「the」は、文脈上明確に他を示さない限り、複数形をも含むことを意図している。また、本明細書で使用されるような用語「and/or」は、関連する記載された項目の1つまたは複数のいずれか、及び全ての考えられる組み合わせを指し、それらを包含することが理解される。さらに、用語「comprises」及び/または「comprising」は、本明細書で使用されるとき、記載される特徴、整数、ステップ、動作、要素、及び/または構成要素の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び/またはそれらのグループの存在または追加を排除しないことが理解される。
本明細書で使用されるように、用語「if」は、文脈に応じて、「when」、または「upon」、または「in response to determining(判定に応じて)」、または「in response to detecting(検出に応じて)」を意味すると解釈されても良い。同様に、句「if it is determined(判定された場合)」または「if[a stated condition or event] is detected([示された条件もしくはイベント]が検出された場合)」は、文脈に応じて、「upon determining(判定すると)」、「in response to determining(判定に応じて)」、または「upon detecting(the stated condition or event)((示された条件もしくはイベント)を検出すると)」、または「in response to detecting (the stated condition or event)((示された条件もしくはイベント)を検出するのに応じて)」を意味すると解釈されても良い。
本明細書で説明される実施態様は、生体試料から取得された試験核酸の配列データにおいて構造的変異(例えば、欠失、重複、コピー数異型、挿入、逆位、転座、末端反復配列(LTR)、短反復配列(STR)、及び様々な他の有用な特性)を検出する種々の技術的解決策を提供する。ここで、実施態様の詳細が図面と関連して説明される。
図1は、いくつかの実施態様に従った構造的変異及び位相視覚化システム100を示すブロック図である。いくつかの実施態様におけるデバイス100は、1つまたは複数のプロセシングユニットCPU(複数可)102(プロセッサとも称される)、1つまたは複数のネットワークインタフェース104、ユーザインタフェース106、メモリ112、及びそれらの構成要素を相互接続するための1つまたは複数の通信バス114を含む。通信バス114は任意選択で、システム構成要素の間の通信を相互接続及び制御する回路(チップセットと呼ばれることもある)を含む。メモリ112は典型的に、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリ、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、他のランダムアクセスソリッドステートメモリデバイス、または所望の情報を記憶するために使用することができる任意の他の媒体などの高速ランダムアクセスメモリを含み、任意選択で、1つもしくは複数の磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶デバイスなどの不揮発性メモリを含む。メモリ112は任意選択で、CPU(複数可)102からリモートに位置する1つまたは複数の記憶デバイスを含む。メモリ112、または代わりにメモリ112内の不揮発性メモリデバイス(複数可)は、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施態様では、メモリ112または代わりに非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール及びデータ構造、またはそれらのサブセットを記憶する。
−種々の基本システムサービスを処理し、ハードウェア依存タスクを実行する手順を含む任意選択のオペレーティングシステム116
−デバイス100を他のデバイスに接続する任意選択のネットワーク通信モジュール(もしくは命令)118、または通信ネットワーク
−単一の種の生命体からの遺伝子試料において構造的変異を識別する構造的変異判定サブモジュール120、及び遺伝子試料の各々の配列読み取り値のハプロタイプを識別する位相サブモジュール124を含む、配列読み取り値を処理する任意選択の配列読み取り処理モジュール120
−1つまたは複数の核酸配列データセット126、各々のそのようなデータセットは単一の種の生命体からの遺伝子試料を使用して取得される
−任意選択で遺伝子追跡区間木128の形式にある遺伝子注釈データ
−任意選択でエクソン(exon)追跡区間木142の形式にあるエクソン注釈データ
−任意選択で区間木146の形式にある1つまたは複数の追加の注釈データ源
−要約モジュール150、位相視覚化モジュール152、構造的変異(視覚化)モジュール154、及び読み取り値視覚化モジュール156のうちの1つまたは複数のいずれかの組み合わせを含む、核酸配列データにおいて構造的変異及び相化情報を視覚化するハプロタイプ視覚化ツール148
いくつかの実施態様では、ユーザインタフェース106は、ユーザがシステム100及びディスプレイ108と対話するための入力デバイス(例えば、キーボード、マウス、タッチパッド、トラックパッド、及び/またはタッチスクリーン)100を含む。
いくつかの実施態様では、上記識別された要素のうちの1つまたは複数は、先に言及されたメモリデバイスのうちの1つまたは複数に記憶され、上記説明された機能を実行するための命令の組に対応する。上記識別されたモジュールまたはプログラム(例えば、命令の組)は、別個のソフトウェアプログラム、手順またはモジュールとして実装される必要はなく、よってそれらのモジュールの種々のサブセットは、種々の実施態様において組み合わされても良く、そうでない場合、再構成されても良い。いくつかの実施態様では、メモリ112は任意選択で、上記識別されたモジュール及びデータ構造のサブセットを記憶する。さらに、いくつかの実施形態では、メモリは、上記説明されていない追加のモジュール及びデータ構造を記憶する。いくつかの実施形態では、上記識別された要素のうちの1つまたは複数は、システム100が必要とされるときにそのようなデータの全てまたは一部を検索し得るように、システム100によってアドレス指定可能な、システム100のそれ以外のコンピュータシステムに記憶される。
図1は、「構造的変異及び位相視覚化システム100」を示すが、図は、本明細書で説明される実施態様の構造的な概略としてよりもコンピュータシステムに存在し得る種々の特徴の機能的な説明であるとことが意図される。実際に、かつ当業者によって認識されるように、別個に示される項目が組み合わされても良く、かついくつかの項目が分離されても良い。
有利なことに、核酸配列データセット126が典型的な実施形態では大きいので(例えば、1ギガバイト以上、5ギガバイト以上、または10ギガバイト以上)、いくつかの実施形態では、構造的変異及び位相視覚化システム100は、通信ネットワーク3106にわたって図1の構造的変異及び位相視覚化システム100と電気通信する1つまたは複数のクライアントデバイス3102を含むシステムの一部である。そのようなネットワークトポロジによって、科学者及び他のユーザがいくつかのネットワークに基づく技術のうちの1つを使用して、典型的な実施形態では強力なサーバコンピュータであるシステム100上でハプロタイプ視覚化ツール148を実行するが、例えば、ラップトップコンピュータとすることができるクライアントデバイス3102上の結果を見ることが可能になる。このネットワークトポロジを実装するためのネットワーク技術のいずれかの形式は、本開示内に含まれる。例えば、いくつかの実施形態では、Xウインドウセッション転送(図31では図示せず)が使用される。他の実施形態では、インターネット(ウェブ)が使用される。特に、ブラウザアプリケーションがクライアントデバイス3102上で実行される。
リモートコンピュータ(例えば、システム3100では、構造的変異及び位相視覚化システム100がリモートであると考えられる)上でプログラムを実行し、クライアントデバイス3102(例えば、デスクトップまたはラップトップ)上で結果を見る処理は煩わしい。ユーザは概して、(i)それらのコンピュータ3102上でプログラムの特定の部分及びサーバ100上で他の部分をインストールし、(ii)SSHまたはファイアウォールソフトウェアを使用して、2つのコンピュータを接続する(システム3102からクライアントデバイス100へ)オープンネットワークポートを作成し、ならびに(iii)異なるシステム上でプログラムの異なる部分を独立して開始する必要がある。例えば、参照によって本明細書に組み込まれる、URL、blog.trackets.com/2014/05/17/ssh−tunnel−local−and−remote−port−forwardingexplained−with−examples.htmlは、転送をセットアップする1つの方法を説明する。別の実施例として、URL、itg.chem.indiana.edu/inc/wiki/software/openssh/200.htmlは、転送をセットアップするもう1つの方法を説明する。本開示は、そのような技術を組み込む。しかしながら、有利なことに、いくつかの実施形態では、本開示は、上記説明された処理を自動化及び改善しようとする、上記開示されたネットワーキング技術に対する解決策を提供する。ユーザがそれらのクライアントデバイス3102上でハプロタイプ視覚化ツール148をインストールしたとき、ユーザはハプロタイプ視覚化ツール148を実行するためのデータ及びコンピュータ設備を有するリモートコンピュータ(構造的変異及び位相視覚化システム100)に対する認証情報をツール148に提供する必要があるのみである。例えば、いくつかの実施形態では、図32を参照して、クライアント3102上でハプロタイプ視覚化ツール148を実行するユーザは、サーバ名またはアドレス3204、ユーザ名3206、任意選択のSSHキーファイル(暗号化接続を有効にするための)3208、任意選択のSSHキーパスワード3210、及びサーバ上のワーク区画3212に対するクエリを含むチャレンジ3200を備える。次いで、それらのクライアントデバイス3102上のハプロタイプ視覚化ツール148のインスタンスは、リモートコンピュータ100に接続し、提供された認証情報を使用してユーザとして認証する。その接続を使用して、それは、リモートコンピュータ上でハプロタイプ視覚化ツール148をインストールし、それを開始し、任意の必要なネットワークポート転送を構成する。ハプロタイプ視覚化ツールがこれを行ったとき、それは、リモート構造的変異及び位相視覚化システム上で実行するハプロタイプ視覚化ツールに「接続される」クライアントデバイス3102上で新たなウインドウを開く。特に、そのような実施形態では、クライアントデバイス3102上のハプロタイプ視覚化ツール148は、構造的変異及び位相視覚化システム100上で実行することが意図されるそれ自体の複製に含める。いくつかの実施形態では、構造的変異及び位相視覚化システム100は、第1のオペレーティングシステムを実行しており、かつクライアントデバイス3102は、第2のオペレーティングシステムを実行している。いくつかの実施形態では、第1のオペレーティングシステム及び第2のオペレーティングシステムは同一である。いくつかの実施形態では、第1のオペレーティングシステム及び第2のオペレーティングシステムは異なる。いくつかの実施形態では、第1のオペレーティングシステムは、iOS、DARWIN、RTXC、LINUX、UNIX、OS X、またはWINDOWSのうちの1つであり、かつ第2のオペレーティングシステムは、第1のオペレーティングシステム以外であり、iOS、DARWIN、RTXC、LINUX、UNIX、OS X、またはWINDOWSのうちの1つである。開示される実施形態では、クライアントデバイス3102上で実行するハプロタイプ視覚化ツール148は、ハプロタイプ視覚化ツール148のアーカイブされた複製を構造的変異及び位相システム100に複製し、セットアップ処理の間にインストールする(前にインストールされていない場合)。リモートコンピュータ上のハプロタイプ視覚化ツール148のリモートな開始のための開示されるシステム及び方法は、そのようなアプリケーションを制御し、ならびにデータ及び計算結果をリアルタイムまたはほぼリアルタイムで視覚化するために、ローカルコンピュータ上で動作する不随するビジュアルインタフェースを有するリモートサーバのコンピュータリソースを必要とする広範囲の適用に適用可能であることが認識される。
図1、31、及び32を再度参照して、本開示の一態様は、ローカルコンピュータ3102を使用してネットワーク接続3106(例えば、有線または無線)上で出力されるプログラムを処理するシステム3100を提供する。ローカルコンピュータ3102は、1つまたは複数のマイクロプロセッサ(図示せず)、及び1つまたは複数のプログラム(例えば、ハプロタイプ視覚化ツール148)を記憶するメモリ(図示せず)を含む。1つまたは複数のプログラムは、1つまたは複数のマイクロプロセッサを使用して、ローカルコンピュータ上で実行する第1のオペレーティングシステムに従った方法を実行する。当該方法では、第1のプログラムの第1のインスタンスが呼び出される(例えばハプロタイプ視覚化ツール148の第1のインスタンスがクライアントデバイス3102上で呼び出される)。呼び出された第1のプログラムの第1のインスタンスを通じて、ユーザから、リモートコンピュータ(例えば、構造的変異及び位相視覚化システム100)上のユーザアカウントに対するログイン及びパスワードが取得される。次いで、ローカルコンピュータとリモートコンピュータとの間のネットワーク接続(例えば、通信ネットワーク3106)にわたって、第1のプログラムの第1のインスタンスによって提供されるログイン及びパスワードを使用して、ユーザがリモートコンピュータ上のユーザアカウントに自動的にログインする。リモートコンピュータ100上でログインに成功したことに応答して、方法は、人間の介入なしに、リモートコンピュータへの送信のときにリモートコンピュータ100上で自動インストールするように構成された第1のプログラム148の第2のインスタンスを自動的に送信することによって継続する。いくつかの実施形態では、リモートコンピュータは既に、インストールされた第1のプログラム148の第2のインスタンスを有しており、したがって、いくつかのそのような実施形態では、第1のプログラムの第2のインスタンスは、インストールのためにリモートコンピュータに送信されない。第1のプログラムの第2のインスタンスがリモートコンピュータ100上にインストールされると、リモートコンピュータからパネル(図示せず)を開く要求が受信される。このパネルは、リモートコンピュータ100上で実行する第1のプログラムの第2のインスタンスによって開始される。パネルは、第1のプログラムの第2のインスタンスを制御するためのユーザからの入力を請求する。例えば、いくつかの実施形態では、このパネルは、図12〜21のうちのいずれか1つで示される形式のパネルである。いくつかの実施形態では、パネルはより単純である、例えば、データセット名に対するプロンプト、または指定されたデータセットで検索する検索クエリを含む。ローカルコンピュータ上のパネルにおいて第1のプログラムの第2のインスタンスを制御するためのユーザからの入力を受信したことに応答して、入力は、ネットワーク接続にわたってリモートコンピュータ100上で実行する第1のプログラムの第2のインスタンスに送信される。リモートコンピュータは、ネットワーク接続にわたって、この入力を受信し、その後、入力に応答して第1のプログラムの第2のインスタンスからの出力がローカルコンピュータ上の出力として表示される(例えば、第1のプログラムの第1のインスタンス内で、または別個のウェブブラウザで)。
図2を参照して、開示されるシステム及び方法に従って、複数の配列読み取り値(図2ではその全体が示されない)が、被験者から生体試料の試験(標的)核酸206を使用して取得される。典型的な実施形態では、試験(標的)核酸206は、生体試料のゲノムの断片である。いくつかの実施形態では、区分(partition)において単一の試験(標的)核酸206(断片)が存在する。いくつかの実施形態では、生体試料の種のゲノムの異なる部分に各々が対応する区分において2つ以上の試験核酸206(断片)が存在する。いくつかの実施形態では、生体試料の種のゲノムの異なる部分に各々が対応する区分において5つ以上の試験核酸206(断片)が存在する。いくつかの実施形態では、生体試料の種のゲノムの異なる部分に各々が対応する区分において10個以上の試験核酸206(断片)が存在する。いくつかの実施形態では、生体試料は、混合物であり、種において2つ以上の個人のゲノムを表す核データを含む。いくつかの実施形態では、生体試料は、混合物であり、2つ以上の種のゲノムを表す核データを含む。例えば、いくつかの実施形態では、生体試料は、レトロウイルスに感染される。別の実施例では、試料が砂もしくは埃、またはいくつかの他の位置からとられており、目標が試料に存在する全ての異なるゲノムを発見することであるから、生体試料はメタゲノムを包含する。
配列読み取り値は最終的に、核酸配列データセット126の塩基(basis)を形成する。複数の配列読み取り値における各々のそれぞれの配列読み取り値202は、試験核酸のサブセットに対応する第1の部分、及びそれぞれの配列読み取り値に対する識別情報を符号化する第2の部分を含む。識別情報は、試験核酸の配列データから独立している。
いくつかの実施形態では、配列化読み取り値の長さは、N50(記載されたN50の数よりも大きい配列読み取り値の長さの合計は、全ての配列読み取り値の長さの合計の50%である)。典型的な実施形態では、配列読み取り値は、長さにおいて何十または何百の塩基であり、それは次いで、少なくとも約10キロベース、少なくとも約20キロベース、または少なくとも約50キロベースの構築物を形成するように調整される。さらなる好ましい態様では、配列読み取り値は、長さにおいて何十または何百の塩基であり、それは次いで、少なくとも約100キロベース、少なくとも約150キロベース、少なくとも約200キロベース、多くのケースでは、少なくとも約250キロベース、少なくとも約300キロベース、少なくとも約350キロベース、少なくとも約400キロベース、及びいくつかのケースでは、少なくとも約500ロベース、またはそれ以上を有する構築物を形成するように調整される。
いくつかの実施形態では、複数の配列読み取り値を被験者からの生体試料から取得するために、試験核酸206は断片化され、かつそれらの断片は、個々の区画(compartment)または区分(本明細書では交換可能に区分と称される)に区画化(compartmentalized)または区分化される。いくつかの実施形態では、試験核酸は、人間などの複数の染色体の生命体のゲノムである。典型的な実施形態では、複数の配列読み取り値は、長さにおいて何十または何百の塩基である長さを有する各々のそのような区画または区分から測定される。同一のバーコードを有する同一の区画または区分からの配列読み取り値は、長さにおいて少なくとも約25キロベース、少なくとも約50キロベース、100キロベース、少なくとも約150キロベース、少なくとも約200キロベース、多くのケースでは、少なくとも約250キロベース、少なくとも約300キロベース、少なくとも約350キロベース、少なくとも約400キロベース、及びいくつかのケースでは、少なくとも約500キロベースまたはそれ以上である配列構築物を形成するように調整される。
各々の区分は、他の区分の容量(contents)からのその自身の容量の分離を維持する。本明細書で使用されるように、区分は、様々な異なる形(form)、例えば、ウェル(well)、チューブ、マイクロもしくはナノウェル、または貫通孔などを含むことができるコンテナまたは管を指す。しかしながら、好ましい態様では、区分は、流体の流れの中で流動性である。いくつかの実施形態では、それらの管は、例えば、内部流体の中心もしくはコアの周囲の外部防壁を有し、またはそのマトリックス内で物質に同調し(entraining)、及び/または物質を維持することが可能な多孔質母材を有するマイクロカプセルまたはマイクロベシクルから構成される。しかしながら、好ましい態様では、それらの区分は、非水性連続相、例えば、油相内で液体の小適を含む。様々な異なる管が、例えば、その全体を参照することによって本明細書に組み込まれる2013年8月13日に出願された米国特許出願第13/966,150号で説明される。同様に、非水性または油性連続相において安定した小適を生成するエマルション(emulsion)システムが、例えば、その全体を参照することによって本明細書に組み込まれる米国特許出願公開第2010-0105112号で詳細に説明される。特定の実施形態では、マイクロ流体チャネルネットワークが、本明細書で説明されるような区分を生成するのに特に適している。そのようなマイクロ流体デバイスの実施例は、全ての目的で、その開示の全てがその全体を参照することによって本明細書に組み込まれる、PCT/US15/025197とともに、2014年4月4日に出願された米国仮特許出願第61/977,804で詳細に説明されるものを含む。それを通じて細胞の水性混合物が非液体に押し出される多孔質膜を含む、個別細胞の区分化に代替的な機構も採用されても良い。そのようなシステムは概して、例えば、NANOMI,Inc.から利用可能である。
エマルションにおける小適のケースでは、試験核酸断片を個々の区分に区分化することは概して、水性の、試料含有流を分岐に流すことによって達成されても良く、その分岐にはまた、区分化する流体の非水流、例えば、フッ素化された油が流れ、それによって、水適が流体を区分化する流れの中で作成され、そこでは、そのような小適は試料物質を含む。以下で説明されるように、区分、例えば、小適はまた典型的には、共同で区分化された(co−partitioned)バーコードオリゴヌクレオチドを含む。
任意の特定の区分内の試料物質の相対量は、例えば、水流における試験核酸断片の濃度、ならびに水流及び/または非水流の流量などを含む、システムの様々な異なるパラメータを制御することによって調節されても良い。本明細書で説明される区分は、1000ピコリットル未満、900ピコリットル未満、800ピコリットル未満、700ピコリットル未満、600ピコリットル未満、500ピコリットル未満、400ピコリットル未満、300ピコリットル未満、200ピコリットル未満、100ピコリットル未満、50ピコリットル未満、20ピコリットル未満、10ピコリットル未満、またはさらに1ピコリットル未満である全体の容積を有することによって特徴付けられることが多い。ビーズ(beads)において共同で区分化される場合、区分内の試料の流体の容量は、上記説明された容量の90%未満、80%未満、70%未満、60%未満、50%未満、40%未満、30%未満、20%未満、またはさらに上記説明された容量の10%未満でも良いことが認識されよう。いくつかのケースでは、低反応容量の区分の使用は特に、非常に小容量の原始試薬(starting reagents)、例えば、投入試験核酸断片との反応を実行するのに有利である。低投入核酸を有する試料を分析する方法及びシステムが、その全ての開示がその全体を参照することによって本明細書に組み込まれる2014年6月26日に出願された米国仮特許出願第62/017,580で提示される。
試験核酸断片がそれらのそれぞれの区分に取り入れられると、区分内の試験核酸断片は概して、一意な識別子が設けられ、それによって、それらの試験核酸断片が特徴付けられると、それらは、それらのそれぞれの区分から導出されたと考えられても良い。そのような一意な識別子は、特定の区画内に含まれる試料核酸、及び特に区分に元から置かれる場合がある隣接する試料核酸の比較的長いストレッチへの特性の後の属性(the later attribution of the characteristics)、例えば、核酸配列情報を可能にするために、区画化または区分化された試験核酸断片を保持する区分に事前に、後続で、または同時に供給されても良い。
したがって、試験核酸断片は典型的に、一意な識別子(例えば、バーコード配列)において共同で区分化される。特に好ましい態様では、一意な識別子は、区分における試験核酸断片に取り付けられる核酸バーコード配列を含むオリゴヌクレオチドの形式で提供される。オリゴヌクレオチドは、所与の区分におけるオリゴヌクレオチドの間では、それらに含まれる核酸バーコード配列は同一であるが、異なる区分の間では、オリゴヌクレオチドは異なるバーコード配列を有することができ、かつ有することが好ましいように区分化される。いくつかの実施形態では、1つの核酸バーコード配列のみが所与の区分と関連付けられるが、いくつかの実施形態では、2つ以上の異なるバーコード配列が所与の区分に存在する。
核酸バーコード配列は典型的に、オリゴヌクレオチドの配列内で6から約20以上のヌクレオチドを含む。それらのヌクレオチドは、完全に隣接してても良く、すなわち、隣接ヌクレオチドの単一のストレッチにあっても良く、またはそれらは、1つもしくは複数のヌクレオチドによって分離された2つ以上の別個のサブ配列に分離されても良い。典型的に、分離されたサブ配列は典型的に、長さにおいて約4から約16のヌクレオチドであっても良い。
試験核酸は典型的に、核酸が隣接する核酸分子の比較的長い断片またはストレッチにおける区分に存在するように区分化される。それらの断片は典型的に、分析されることになる全体の試験核酸、例えば、染色体全体、エキソーム、または他の大きなゲノム断面のいくつかのオーバラップする断片を表す。この試験核酸は、ゲノム全体、個々の染色体、エキソーム、アンプリコン、または対象の様々な異なる核酸のうちのいずれかを含んでも良い。典型的に、区分化される試験核酸の断片は、1キロベース超、5キロベース超、10キロベース超、15キロベース超、20キロベース超、30キロベース超、40キロベース超、50キロベース超、60キロベース超、70キロベース超、80キロベース超、90キロベース超、またはさらに100キロベース超である。
試験核酸はまた典型的に、所与の区分が、原始試験核酸(starting test nucleic acid)の2つのオーバラップする断片を含む非常に低い確率を有するレベルにおいて区分化される。これは典型的に、区分化処理の間に低い投入量及び/または濃度で試験核酸を提供することによって達成される。結果として、好ましいケースでは、所与の区分は、原始試験核酸の、いくつかの長いがオーバラップしない断片を含む。次いで、異なる区分における核酸断片は、一意な識別子と関連付けられ、そこでは、任意の所与の区分に対し、それに含まれる核酸は、同一の一意な識別子を有するが、異なる区分は、異なる一意な識別子を含む。さらに、区分化するステップは、試料の構成要素を非常に小さな容量の区分または小適に割り当てるので、上記説明されたような所望の割り当てを達成するために、例えば、チューブ、またはマルチウェルプレートのウェルにおいてより高い容量の処理に必要とされるような試料の相当な希釈を行う必要がないことが認識される。さらに、本明細書で説明されるシステムは、そのような高レベルのバーコードの多様性を採用するので、上記提供されるように、より多くの数のゲノム相当物の間で多様なバーコードを割り当てることができる。いくつかの実施形態では、10,000、100,000、500,000などを超えて、多様なバーコードタイプが、おおよそ1:50もしくはそれ未満、1:100もしくはそれ未満、1:1000もしくはそれ未満、またはさらにそれらよりも低い比率であるゲノム:(バーコードタイプ)比率を達成するために使用されるが、より高い数のゲノム(例えば、おおよそ分析ごとに100よりも多くのゲノム、分析ごとに500よりも多くのゲノム、分析ごとに1000よりも多くのゲノム、またはさらにそれらよりも多く)を投入する(loading)ことを可能にするが、さらに、ゲノムごとにさらに改善されたバーコードの多様性を提供する。ここで、各々のそのようなゲノムは、試験核酸の実施例である。
図2、パネルA及びBを参照して、区分化するステップの前に、試験核酸を含む試料を、ビーズ308に遊離可能に付着したオリゴヌクレオチドタグ(バーコードを含む)の組と組み合わせることによって、上記説明された区分化が実行されることが多い。オリゴヌクレオチドは、少なくともプライマ(primer)領域216及びバーコード領域214を含んでも良い。所与の区分内のオリゴヌクレオチドの間では、バーコード領域214は、実質的に同一のバーコード配列であるが、異なる区分の間では、ほとんどのケースにおけるバーコード領域は、異なるバーコード配列である。いくつかの実施形態では、プライマ領域216は、区分内の試料内に核酸を入れる(primer)ために使用されるN量体(ランダムなN量体または特定の配列を標的とするように設計されたN量体)である。いくつかのケースでは、N量体は、特定の配列を標的とするように設計される場合、プライマ領域216は、特定の染色体(例えば、人間の染色体1、13、18、もしくは21)、または染色体の領域、例えば、エキソームもしくは他の標的の領域を標的とするように設計される。いくつかのケースでは、N量体は、病気または疾患(例えば、癌)と関連付けられた遺伝子または領域などの、特定の遺伝子または遺伝子の領域を標的とするように設計される。いくつかのケースでは、N量体は、特定の構造的変異を標的とするように設計される。区分内で、核酸の長さに沿って異なる位置で核酸試料を入れるためにプライマ配列216(例えば、N量体)を使用して増幅反応が行われる。増幅の結果として、各々の区分は、同一またはほぼ同一のバーコードに取り付けられ、各々の区分において核酸のオーバラップするより小さな断片を表す核酸202の増幅産物を含む。したがって、バーコード214は、核酸の組が同一の区分から由来し、よって、試験核酸の同一のストランドからも潜在的に由来することを表すマーカとしての役割を果たす。増幅に続いて、配列化アルゴリズムを使用して、核酸が、プールされ、配列され、調整される。より短い配列読み取り値が、それらの関連するバーコード配列により、試験核酸の単一の長い断片に調整及び帰属されるので、その配列上の識別された変異の全ては、試験核酸の単一の由来する断片及び単一の由来する染色体に帰属されることがある。さらに、複数の長い断片にわたって複数の同一場所に位置する変異を調整することによって、その染色体の貢献をさらに特徴付けることができる。したがって、特定の遺伝的変異の相化に関する結論を次に描き得る。そのような情報は、同一の核酸ストランドまたは異なる核酸ストランド上に存在する一般に遺伝的変異の指定された組である、ハプロタイプを識別するために有用である場合がある。さらに、加えてまたはその代わりに、構造的変異が識別される。
いくつかの実施形態では、共同で区分化されたオリゴヌクレオチドはまた、区分内の試料内での核酸のバーコード領域214及びプライマ領域216に加え、機能的配列を含む。例えば、その開示の全てがその全体を参照することによって本明細書に組み込まれる、2014年2月7日に出願された米国特許出願第61/940,318号、2014年5月9日に出願された米国特許出願第61/991,018号、及び2014年6月26日に出願された米国特許出願第14/316,383号(代理人整理番号第43487−708.201号)とともに、2014年2月7日に出願された米国特許出願第14/175,935号で説明されるような、例えば、試料物質に従って、オリゴヌクレオチドの共同区分化、ならびに関連するバーコード及び他の機能的配列に関する開示を参照されたい。
1つの例示的な処理では、ビーズが設けられ、各々のそのようなビーズは、ビーズに遊離可能に付着した多数の上記説明されたオリゴヌクレオチドを含む。そのような実施形態では、特定のビーズに付着したオリゴヌクレオチドの全ては、同一の核酸バーコード配列を含むが、多数の多様なバーコード配列が、使用されるビーズの集団(population)にわたって表される。典型的には、ビーズの集団は、少なくとも1000の異なるバーコード配列、少なくとも10,000の異なるバーコード配列、少なくとも100,000の異なるバーコード配列、またはいくつかのケースでは、少なくとも1,000,000の異なるバーコード配列を含む多様なバーコード配列ライブラリを提供する。加えて、各々のビーズは典型的に、付着した多数のオリゴヌクレオチド分子が備えられる。特に、個々のビーズ上でバーコード配列を含むオリゴヌクレオチドの分子の数は、少なくとも約10,000のオリゴヌクレオチド、少なくとも100,000のオリゴヌクレオチド分子、少なくとも1,000,000のオリゴヌクレオチド分子、少なくとも100,000,000のオリゴヌクレオチド分子、及びいくつかのケースでは、少なくとも10億のオリゴヌクレオチド分子であっても良い。
いくつかの実施形態では、オリゴヌクレオチドは、特定の刺激がビーズに加わると、ビーズから遊離可能である。いくつかのケースでは、刺激は、例えば、オリゴヌクレオチドを遊離し得る光解離性結合(photo−labile linkage)の切断(cleavage)を通じた光刺激であっても良い。いくつかのケースでは、熱刺激が使用されても良く、ビーズ環境の温度の上昇は、ビーズからのオリゴヌクレオチドの結合または他の遊離の切断をもたらすことがある。いくつかのケースでは、ビーズへのオリゴヌクレオチドの結合を切断する化学的刺激が使用されても良く、そうでない場合、化学的刺激がビーズからのオリゴヌクレオチドの遊離をもたらすことがある。
本明細書で説明される方法及びシステムに従って、付着したオリゴヌクレオチドを含むビーズは、個々の試料と共同で区分化されても良く、それによって、単一のビーズ及び単一の試料が個々の区分内に含まれる。いくつかのケースでは、単一のビーズ区分が望まれる場合、流体の相対流量を制御することが望ましい場合があり、それによって、平均して、区分は、占有されるそれらの区分が主として単独で占有されることを保証するために、区分ごとに1つ未満のビーズを含む。同様に、流量を制御して、例えば、小さい割合の非占有の区分のみを可能にする、より高い割合の区分が占有されることをもたらすことを望むことがある。好ましい態様では、流れ及びチャネルアーキテクチャは、特定のレベルの非占有の区分未満で、及び特定のレベルの多数重なった(multiply)占有された区分未満で、所望の数の単独で占有された区分を保証するように制御される。
参照により本明細書に組み込まれる2014年10月29日に出願された「Analysis of Nucleic Acid Sequences」と題する米国特許出願第62/072,214号の図3、及び図3を説明するそれらの明細書の一部は、本開示の1つの実施形態に従って試験核酸(参考資料では「試料核酸」と称される)をバーコード化し、及び続いて配列する1つの方法の詳細な実施例を提供する。上述したように、単一のビーズの占有は最も望ましい状態である場合があるが、多数重なった占有される区分、または非占有の区分が存在することが多い場合があることが理解されよう。参照により本明細書に組み込まれる2014年10月29日に出願された「Analysis of Nucleic Acid Sequences」と題する米国特許出願第62/072,214号の図4、及び図4を説明するそれらの明細書の一部は、本開示の1つの実施形態に従ってバーコードオリゴヌクレオチドを含む試料及びビーズを共同で区分化するマイクロ流体チャネル構造の詳細な実施例を提供する。
共同で区分化されると、ビーズ上に置かれたオリゴヌクレオチドは、区分化された試料にバーコード化し、及びそれを増幅するために使用されても良い。試料を増幅及びバーコード化することにおいてそれらのバーコードオリゴヌクレオチドの使用の1つのプロセスは、その開示の全てがその全体を参照することによって本明細書に組み込まれる、2014年2月7日に出願された米国特許出願第61/940,318号、2014年5月9日に出願された米国特許出願第61/991,018号、及び2014年6月26日に出願された米国特許出願第14/316,383号(代理人整理番号第43487−708.201号)で詳細に説明される。簡潔に、1つの態様では、試料と共同で区分化されたビーズ上に存在するオリゴヌクレオチドは、それらのビーズから試料を有する区分に遊離される。オリゴヌクレオチドは典型的に、バーコード配列に従って、その5つの端においてプライマ配列を含む。このプライマ配列は、試料の多数の異なる領域をランダムに入れることを意図されるランダムなオリゴヌクレオチド配列であっても良く、またはそれは、試料の特定の標的とされた領域の上流に入れるために標的とされた特定のプライマ配列であっても良い。
遊離されると、オリゴヌクレオチドのプライマ部分は、試料の相補領域にアニールする(anneal)ことができる。試料及びビーズと共同で区分化されもする拡張反応試薬、例えば、DNAポリメラーゼ、ヌクレオシドトリホスフェート、共同因子(例えば、Mg2+またはMn2+など)は次いで、試料をテンプレートとして使用してプライマ配列を拡張して、テンプレートのストランドへの相補断片を作成し、オリゴヌクレオチド及びその関連するバーコード配列を含む相補断面でプライマがテンプレートにアニールされる。試料の異なる部分に複数のプライマをアニールすること、及び拡張することは、試料のオーバラップする相補断片の大規模なプールをもたらし、各々が、それが作成された区分を示すその自身のバーコード配列を処理する。いくつかのケースでは、それらの相補断片はそれ自体、再度バーコード配列を含む補完物(complement)の補完物を作成するために区分に存在するオリゴヌクレオチドによって入れられるテンプレートとして使用されても良い。いくつかのケースでは、この複製処理は、第1の補完物が複製されるとき、その終了において、または終了の近くでそれが2つの相補配列を作成して、さらに反復的な複製を生成するための塩基になる分子の能力を減少させるヘアピン構造(hairpin structure)または部分的ヘアピン構造の形成を可能にするように構成される。この1つの実施例の概略的な説明が図2に示される。
図2に示されるように、バーコード配列214を含むオリゴヌクレオチド202は、試料試験核酸断片206に従って、例えば、エマルションにおける小適204において共同で区分化される。いくつかの実施形態では、オリゴヌクレオチド202は、図2、パネル(A)に示されるように、オリゴヌクレオチドが好ましくはビーズ208から遊離可能である、試験核酸断片206と共同で区分化されるビーズ208上で設けられる。図2のパネル(B)に示されるように、オリゴヌクレオチド202は、1つまたは複数の機能的配列、例えば、配列212、214及び216に加え、バーコード配列214を含む。例えば、オリゴヌクレオチド202は、所与の配列システムに対する付着配列(attachment sequence)または固定化配列(immobilization sequence)、例えば、ILLUMINA、HISEQまたはMISEQシステムのフローセルにおける付着に対して使用されるP5配列として機能し得る配列212をさらに含むものとして示される。言い換えると、付着配列212は、いくつかの実施形態では、ビーズ208にオリゴヌクレオチド202を可逆的に付着させるために使用される。図2のパネルBに示されるように、オリゴヌクレオチド202はまた、プライマ配列216を含み、それは、試料試験核酸断片206の一部の複製に入れるためのランダムなまたは標的のN量体(上記議論された)を含んでも良い。図2のパネルBの例示的なオリゴヌクレオチド202内にも含まれるのは、配列システムにおける合成反応によるポリメラーゼ媒介された、テンプレート指示配列(polymerase mediated,template directed sequencing)を入れるために使用される、「read1」またはR1プライミング領域などの、配列プライミング領域を提供し得る配列210である。多くのケースでは、バーコード配列214、固定化(付着)配列212、及び例示的なR1配列214は、所与のビーズに付着したオリゴヌクレオチド202の全てに対して共通であっても良い。プライマ配列216は、ランダムなN量体プライマに対して変化しても良く、または特定の標的とされた適用に対し所与のビーズ上のオリゴヌクレオチドに対して共通であっても良い。2014年2月9日に出願された「Systems and Methods for Determining Structural Variation」と題する米国特許出願第62/113,693号における図3B〜3E、及びそれらの図を説明する明細書は、オリゴヌクレオチド202が試料試験核酸の配列読み取り値をどのように形成し、各々のそのような配列読み取り値が試料試験核酸の配列読み取り値である第1の部分、及びオリゴヌクレオチド202である第2の部分を含むことを詳述する。そのような配列読み取り値、及びそのような配列読み取り値の分析は、開示される核酸配列データセット126の塩基を形成する。
いくつかの実施形態では、核酸配列データセット126における配列読み取り値は、少なくとも1つの標的核酸を配列するために処理される。いくつかの実施形態では、少なくとも1つの標的核酸に対する配列を確立するために核酸配列読み取り値を処理するために従来の方法が使用される。いくつかの実施形態では、参照によって本明細書に組み込まれる2015年6月26日に出願された「Processes and Systems for Nucleic Acid Sequence Assembly」と題する国際特許出願第PCT/US2015/038175号で開示される新規な方法は、少なくとも1つの標的核酸に対する配列を確立するために核酸配列読み取り値を処理するために使用される。いくつかの実施形態では、そのような配列は、そこから試料がとられる種のゲノムなどの参照ゲノムに配列読み取り値をマッピングすることを含む。いくつかの実施形態では、試料は、複数のゲノムを含むことを予期され、またはそのように考えられている(例えば、人間の試料などの試料がレトロウイルスで感染されたケース)。そのようなケースでは、異なる種からの複数の参照ゲノムが同時に使用されても良い。
いくつかの実施形態では、配列読み取り値は、それらを相化し、構造的変異を探索することによって処理される。いくつかの実施形態では、従来の相化方法及び構造的変異方法が使用される。いくつかの実施形態では、参照によって本明細書に組み込まれる2015年10月6日に出願された「Systems and Method for Determining Structural Variation Using Probabilistic Models」と題する米国仮特許出願第62,238,077号で説明されるような新規な相化方法及び構造的変異方法が使用される。この参照では開示されていないが、いくつかの実施形態では、複数の参照ゲノムをインスタンスに組み込むために参照の教示が拡張され、潜在的な試料は、複数の参照ゲノムからの核酸を含む。例えば、試料が人間であるが、試料がレトロウイルスで感染された可能性があるケースでは、レトロウイルスのゲノムは、追加の染色体として扱われる。このようにして、研究中の、レトロウイルスなどの核酸構築物の試料のゲノムへの挿入を識別するための本開示で開示される視覚化方法を拡張することが可能となる。
よって、例えば、開示される技術は、以下の2つのシナリオを区別するためにバーコードを使用することができる。1つは、ヒトDNAに挿入されないウイルスであるが、試料において自由に流れるHPVウイルスを有する人間の試料である。それらは、自由に流れる分子−別個の分子、別個のウイルス、別個のヒトDNAである。そのケースでは、測定された配列読み取り値は、HPVとともにヒトゲノムにマッピングする読み取り値を含もうとしているが、ヒトゲノム及びHPVが明確に異なることを意味するHPV及びヒトゲノムと共通するバーコードは存在しない。一方で、HPV分子が1つまたは2つのヒト染色体に挿入されていた場合、測定されるのは、ヒト染色体及びHPVの両方に同時にマッピングし、ならびにそれらが別個の分子とは反対に(例えば、HPVがヒト染色体に組み込まれている)同一の分子に存在することを意味する同一のバーコードを共有する配列読み取り値である。さらに、ヒト染色体へのHPV挿入の正確な位置(複数可)を特定するためにバーコードが使用されても良い。
図3は、被験者(例えば、特定の人間)の生体試料から取得されたデータを示す。このデータは、核酸配列データセット126の形式で要約される。いくつかの例では、上記説明されたタイプの全ゲノム(full−genome run)は、30〜40ギガバイトに値するデータを作成する。本開示のいくつかの態様に従って、そのような生データは、生データのサイズのごく一部である核酸配列データセット126に縮約される。いくつかの実施形態では、生データが核酸配列データセット126を作成するように縮約されるが、データセット126はなお、大きすぎて、典型的なコンピュータのRAMにロードすることができない。例えば、いくつかの実施形態では、核酸配列データセット126は、5ギガバイト以上、10ギガバイト以上、または15ギガバイト以上である。
図3に示されるように、例示的な核酸配列データセット126は、3つの部分、ヘッダ302、シノプシス308、及びデータ部340に編成される。ヘッダ302の目的は、データセット126の構成要素304を記述する(delineate)とともに、任意選択で、データセット126構造のバージョン306、例えば、バージョン1.7を提供することである。いくつかの実施形態では、ヘッダ302は、ウェブブラウザなどのウェブベースのアプリケーションを使用してロードすることを容易にするためにJSON構造としてフォーマットされる。参照によって本明細書に組み込まれるURL、json.orgを参照されたい。例えば、いくつかの実施形態では、ヘッダは、{(左かっこ)で始まり、かつ}(右かっこ)で終わり、各々の名前の後に、:(コロン)が続き、かつ名前/値の対が、,(カンマ)によって分離される、JSON objectとしてフォーマットされる。1つの例示的な実施形態では、ヘッダ302は、構成要素:断片追跡(例えば、データセットにおける全ての断片の長さ、位置、バーコード、及び位相)と、標的追跡(処理の間に使用される捕捉プロトコルによって選択されるゲノムの領域)と、構造的変異(試料において呼び出される全ての構造的変異のリスト)と、標的データセットへのインデックスと、vcf_index(データセット126ファイルにおける位置に対するゲノムの範囲に関連するインデックス)と、マーカと、位相ブロック要約(phase block summary)(試験核酸206における種々の位相ブロックの記述)と、遺伝子追跡(genetrack)(各々の遺伝子におけるSNPの番号でタグ付けされた全ての人間の遺伝子の記述)と、BAMデータ(ゲノムの範囲をその範囲に対する読み取り情報を含むファイルにおける位置に関連付ける)と、要約(配列データから抽出される高レベルなメトリック)と、refseqインデックス(試料において呼び出されるSNPのdbSNP識別子(RSID)のリストを含み、それによって、RSIDをゲノムにおけるその位置と関連付けるインデックス)とを配列データセット126が有することを指定する。
シノプシス部308は、データセット126がアクセスされるとき、典型的にはその全体で、ハプロタイプ視覚化ツール148によって揮発性(例えば、ランダムアクセス)メモリに読み込まれるデータを含む。このデータは、データ部340へのインデックスとともに、視覚化ツール148によって頻繁に参照される他のデータから構成される。図3に示されるように、シノプシス部308は、ヘッダ部302における「インデックス」アレイ(例えば、構成要素リスト302)に対応するいくつかの構成要素に分割される。
要約310は、データから抽出された高レベルのメトリックを提供する。いくつかの実施形態では、要約310は、図12及び13に示されるもののような要約データを提供するために要約モジュール150によって使用される。これは、相化された既知のSNP(例えば、人間のSNP)の割合1202と、最長位相ブロック1204と、効果的なバーコードカウント1206(例えば、データセット126で使用される一意なバーコードの数)と、平均断片長1208と、平均断片長の平均値1210と、低閾値1212(例えば、20キロバイト)よりも大きい断片の割合と、断片長ヒストグラムまたは他の形式の断片長メトリック1214と、N50の位相ブロックサイズ1216と、位相ブロック長ヒストグラムまたは他の形式の位相ブロック長メトリック1218と、データセットによって表される配列読み取りの番号1220と、メジアン挿入サイズ1222と、メジアン深さ1224と、ゼロカバレッジの標的ゲノムの割合1226と、マッピングされた読み取り割合1228と、PCR重複割合1230と、標的塩基(on target bases)(割合)1232と、カバレッジヒストグラムまたは他の形式のカバレッジメトリック1234と、メモリ112におけるデータセットのソース(1234)と、試験核酸の識別(1236)と、ゲノムソース(1238)と、提供生命体の性別(1240)と、データセットファイルフォーマットバージョン1242と、データセット126に適合した構造的変異呼び出し1244に対するポインタ(1244)とを含む。
変異呼び出しデータ312へのインデックスは、要約において発見されるインデックスの実施例であり、かつそれは、それぞれの範囲に対する変異呼び出しデータが発見される対応するデータ部340においてオフセット316に対する標的核酸のゲノムのそれぞれの範囲214に関連する。
いくつかの実施形態では、位相ブロック追跡318は、核酸配列データセット126のシノプシス部308に記憶される。例示的な位相ブロック追跡318のアーキテクチャのさらなる詳細は、図4で発見される。図4を参照して、いくつかの実施形態では、位相ブロック追跡318は、辞書部402及び追跡データ部408を含む。追跡データ部は、複数のレコード410を含む。いくつかの実施形態では、複数のレコードにおける各々のレコードは、対応する染色体に対する位相情報を含む。いくつかの実施形態では、1つまたは複数のデータ部の各々は、1つまたは複数の対応する染色体に対する位相情報を記憶する。いくつかの実施形態では、1つまたは複数のデータ部の各々は、対応する染色体に対する位相情報を区間木422に記憶する。
位相ブロック追跡318の辞書402は、複数の名前404、及び名前404ごとに、対応する名前404に対するレコードが発見される追跡データ408へのオフセット406を含む。いくつかの実施形態では、位相ブロック追跡318に対する辞書402は、単一の名前、例えば、「phase_data」を含む。
いくつかの実施形態では、追跡データ408は、JSONフォーマットにある。いくつかの実施形態では、各々のレコード410は、標的核酸における位相ブロックを表す。このように、いくつかの実施形態では、各々のレコード410は、位相ブロックが、染色体412上の位相ブロックの開始414の位置上にあるとともに、染色体412上の位相ブロックの終了416の位置上にある染色体番号412を指定する。さらに、レコードごとに一意な名前418、及び位相ブロックに関する相化情報420が存在する。いくつかの実施形態では、情報420の目的は、位相ブロックの相化情報の詳細を提供することである。いくつかの実施形態では、位相ブロックは、2つの親に対応する2つのハプロタイプ(例えば、それぞれ、ハプロタイプ「A」及びハプロタイプ「B」と表される)に関する情報を含む。したがって、いくつかの実施形態では、位相情報は、相化ASNP422(位相ブロックにおけるハプロタイプ「A」上のカウントされた単一ヌクレオチド多型の数)、非相化SNP424(位相ブロックにおける未知のハプロタイプのカウントされた単一のヌクレオチド多型の数)、及び相化BSNP(位相ブロックにおけるハプロタイプ「B」上のカウントされた単一のヌクレオチド多型の数)を含む。このように、追跡データ408は、核酸配列データセット126に対する特定の位相ブロックデータ(例えば、SNPカウント)を保持する。ゲノムデータ及び位相ブロックを相化する技術は、その全体を参照することによって本明細書に組み込まれるBrowning and Browning、「Haplotype phasing:Existing methods and new developments」、Nat Rev Genet.;12(10):703−714.doi:10.1038/nrg3054で説明される。
いくつかの実施形態では、追跡データ408は、対応する区間木422によってコンテキストに入れられる。このように、各々のレコード410は、区間木422においてノード424によって表される。各々のそのような区間木422は、ノードxmed432の中間点を記憶するツリーの各々のノード424を有する三分岐木である。この中間点432は、対応する染色体上での、ノードに対応する位相ブロックの中間点の位置である。各々のそれぞれのノード424は、標的(遺伝源)生命体の種のゲノムにおけるそれぞれのノード424によって表される位相ブロックの直接左にある位相ブロックに対応する、左の子ノード428へのリンクを有する。各々のそれぞれのノード424は、それぞれのノード424によって表される位相ブロックの直接右にある位相ブロックに対応する、右の子ノード430へのリンクを有する。各々のそれぞれのノード424は、そのような位相ブロックの左側位置によって分類されるそれぞれのノード424のxmed432にオーバラップする位相ブロックを表す分類された組のノード425を有する。各々のそれぞれのノード424は、そのような位相ブロックの右側位置によって分類されるそれぞれのノード424のxmed432にオーバラップする位相ブロックを表す分類された組のノード436を有する。いくつかの実施形態では、分類された組425及び436は、アレイまたはリンクリストによってノード424で表される。各々のそれぞれのノード424はさらに、それぞれのノード424に対応する位相ブロックに対する位相情報420を含むレコード410への追跡データ410におけるオフセットである、名前426を含む。
図4に示されるように、いくつかの実施形態では、位相ブロック追跡において染色体ごとに別個の区間木422が存在する。そのような区間木は有利なことに、標的ゲノムのユーザ指定領域に関する全てのレコード410を識別する迅速な方法を提供する。位相ブロック追跡318の実施例が図5で発見される。図5では、図4のデータ構造に対応する例示的な要素が示される。
図3を参照して、いくつかの実施形態では、シノプシス308はさらに、核酸配列データセットに対応する試料において呼び出される分子変異(例えば、SNP)識別子を含むインデックスであるrefseqインデックス319を含む。refseqインデックス319は、各々のそのような識別子を標的生命体のゲノムにおけるその位置と関連付ける。いくつかの実施形態では、refseqインデックス319は、JSONデータ構造として記憶される。いくつかの実施形態では、refseqインデックス319における各々の多型識別子は、国立生物工学情報センター(NCBI)データベースで発見されるdbSNP識別子である。参照によって本明細書に組み込まれる、Wheeler et al.、2007、「Database resources of the National Center for Biotechnology Information」、Nucleic Acids Res.35(Database issue):D5−12を参照されたい。そのようなdbSNP識別子は、参照SNPクラスタID(RSID)と称される。
いくつかの実施形態では、シノプシス308はさらに、各々の遺伝子で発見されるSNPの番号でタグ付けされた人間の遺伝子の参照を提供する遺伝子追跡320を含む。例示的な遺伝子追跡320のアーキテクチャのさらなる詳細は、図6で発見される。図6を参照して、いくつかの実施形態では、遺伝子追跡320は、辞書部602、追跡データ部608、及び1つまたは複数のデータ部628を含む。いくつかの実施形態では、1つまたは複数のデータ部の各々は、対応する染色体に対する遺伝子情報を記憶する。いくつかの実施形態では、1つまたは複数のデータ部の各々は、1つまたは複数の対応する染色体に対する遺伝子情報を記憶する。いくつかの実施形態では、1つまたは複数のデータ部の各々は、対応する染色体に対する遺伝子情報を区間木628のフォーマットで記憶する。
遺伝子追跡320の辞書602は、複数の名前604、及び名前604ごとに、対応する名前604に対するレコードが発見される追跡データ608へのオフセット606を含む。いくつかの実施形態では、辞書602における各々の名前604は、標的ゲノムにおける染色体の名前である。
いくつかの実施形態では、遺伝子追跡320に対する追跡データ608は、複数の遺伝子レコード610を含む。いくつかの実施形態では、追跡データ608は、JSONフォーマットにある。いくつかの実施形態では、各々の遺伝子レコード610は、標的核酸の種における遺伝子を表す。このように、いくつかの実施形態では、各々の遺伝子レコード610は、対応する遺伝子が、染色体612上の遺伝子の開始614の位置上にあるとともに、染色体612上の遺伝子の終了616の位置上にある染色体番号612を指定する。さらに、遺伝子レコードごとに一意な名前618、及び遺伝子に関する遺伝子情報620が存在する。いくつかの実施形態では、情報620の目的は、例えば、遺伝子に対する代替名622、遺伝子上の単一のヌクレオチド多型624のカウント、及び遺伝子の方向(例えば、プラスまたはマイナス)626などの、遺伝子に関する遺伝子情報を提供することである。
いくつかの実施形態では、追跡データ608は、対応する区間木628によってコンテキストに入れられる。各々の遺伝子レコード610は、区間木628においてノード630を形成する。各々の区間木628は、ノードxmed642の中間点を記憶する各々のノード630を有する三分岐木である。この中間点642は、対応する染色体上での、ノードに対応する遺伝子の中間点の位置である。各々のそれぞれのノード630は、標的生命体の種のそれぞれのノード630によって表される遺伝子の直接左にある遺伝子(染色体上のより小さい位置)に対応する、左の子ノード632へのリンクを有する。各々のそれぞれのノード630は、標的生命体の種のそれぞれのノード630によって表される遺伝子の直接右にある遺伝子(染色体上のより大きい位置)に対応する、右の子ノード640へのリンクを有する。各々のそれぞれのノード620は、左側位置によって分類されるそれぞれのノード620のxmed632にオーバラップする遺伝子をそれぞれ表す分類された組のノード632を有する。各々のそれぞれのノード630は、右側位置によって分類されるそれぞれのノード630のxmed642にオーバラップする遺伝子をそれぞれ表す分類された組のノード630を有する。いくつかの実施形態では、分類された組632及び644は、アレイまたはリンクリストによってノード630で表される。各々のそれぞれのノード630はさらに、それぞれのノード630に対応する遺伝子に対する遺伝子情報620を含む遺伝子レコード610への追跡データ608におけるオフセットである、名前636を含む。
図6に示されるように、いくつかの実施形態では、遺伝子追跡320において染色体ごとに別個の区間木628が存在する。そのような区間木は有利なことに、標的ゲノムのユーザ指定領域に関する全てのレコード610を識別する迅速な方法を提供する。遺伝子追跡320の実施例が図7で発見される。図7では、図6のデータ構造に対応する例示的な要素が示される。
いくつかの実施形態では、シノプシス308はさらに、エクソン追跡322を含む。いくつかの実施形態では、エクソン追跡322は、遺伝子追跡320が標的生命体の種における遺伝子に対する遺伝子情報を表すのに対し、エクソン追跡320は、標的生命体の種におけるエクソンに対する遺伝子情報を提供することを除き、遺伝子追跡320と同一のアーキテクチャを有する。
いくつかの実施形態では、シノプシス308はさらに、読み取りデータへのインデックス324を含む。このインデックス324は、図10を参照して以下でさらに詳細に説明される、核酸配列の組のデータ部340における配列/読み取りデータ1048へのインデックスを提供する。図3を参照して、インデックス324は、識別子をデータセット(図示せず)で使用されるバーコードに関連付けるデータベースを含む。識別子をデータセットで使用されるバーコードに関連付けるデータベース(ルックアップテーブル)は、読み取りデータ1048のサイズを圧縮する有用な方法であり、なぜならば、より長い実際のバーコードの代わりに識別子を使用することができるからである。理論上は、この理由は、所与の程度の情報内容のために、全ての考えられるバーコードが所与のデータセット126で使用されるわけではない。
インデックス324はさらに、特定のゲノムの範囲に対する対応するデータのルックアップを可能にする、読み取りデータ1048への染色体−オフセット−−>ファイル−オフセット関連付け328の染色体ごとのアレイとともに、各々のそのようなデータ要素の長さを含む。いくつかの実施形態では、読み取りデータは、ブロック化インデックスとして記憶され、かつ各々のレコード328は、データセット126に組み込まれたBAMファイルにおけるエントリごとの固定ビットレコードである。BAMファイルにおける各々のそのようなエントリは、ファイルのデータ部340内のチャンクに編成される。シノプシス308におけるインデックス324は、読み取るためにデータ部340内で正しいチャンクを発見することを支援する。図10を参照して、インデックス324によってインデックス付けされた配列/読み取りデータ1048の対応するアーキテクチャが開示される。染色体ごとに、読み取りデータ1048がチャンク1050に記憶される。いくつかの実施形態では、各々のデータチャンク1050は、以下のフォーマットにおける64ビット構造1052のアレイである。

Oは常にOであり、Xは、読み取り品質が閾値を下回ることを示し(例えば、60を下回る)、Lは、親のハプロタイプAからの読み取り値であることを示し、Rは、親のハプロタイプBからの読み取り値であることを示し、Iは、読み取り値におけるバーコードに対応する番号識別子であり、Eは、読み取り値の「終了」長であり、かつSは、チャンク1050の開始に対するこの読み取り値の「開始」位置である。さらに全体的に、図10を参照して、各々の構造1052は、種の単一生命体に対する標的核酸からの単一の読み取り値に対応し、開始(オフセット)、長さ、バーコードへのインジケータ、及びいくつかのフラグを含む。いくつかの実施形態では、構造1052内の開始は、染色体上の真の位置からインデックス324のレコード328の染色体オフセットフィールドにおけるチャンク1050に対して記憶された開始値を引いたものである。有利なことに、これによって、構造1052においてゲノム座標の多数の繰り返しを回避することが可能になる。そのような座標は、何十億にあっても良く、よって、記憶するために30ビットを必要とする。有利なことに、配列/読み取りデータ1048で開示されるように、チャンクすることによって、各々のチャンクは、約100万の塩基の対に至るまでをカバーし、よって、チャンク内の各々の構造1052における各々の開始(オフセット)は、任意の所与のチャンクに対する範囲がシノプシス308に記憶されたインデックス324における対応するレコード328の染色体オフセット/長さ部分によって指定されるので、20ビットを必要とするだけにすぎない。同様に、上記述べられたように、好ましい実施形態では、構造1052におけるバーコードフィールドは、実際のバーコードを記憶しない。いくつかの実施形態では、構造1052におけるバーコードインジケータは、インデックス324に記憶されたバーコードテーブルへの24ビットインデックスである。よって、特定の読み取り値と関連付けられた実際のバーコードが必要とされるとき、読み取り値に対応する構造1052がアクセスされ、かつ構造1052における24ビットバーコードインジケータがインデックス324におけるバーコードテーブルに対してクエリされて、バーコードを取得する。このようにして、構造1052における30ビットバーコードが回避される。いくつかの実施形態では、バーコードは、30ビットよりも大きく(例えば、32ビット、34ビット、36ビットまたはそれ以上)、かつ構造1052におけるバーコードへのインジケータは、20ビットよりも大きい(例えば、22ビット、24ビット、26ビットまたはそれ以上)。いくつかの実施形態では、バーコードは、30ビットよりも小さく(例えば、28ビット、26ビット、24ビットまたはそれ以下)、かつ構造1052におけるバーコードへのインジケータは、20ビットよりも小さい(例えば、18ビット、16ビット、14ビットまたはそれ以下)。いくつかの実施形態では、各々のデータチャンク1050は、同一の予め定められたサイズ(例えば、128ビット、64ビット、32ビット、またはいくつかの他の固定ビットサイズ)を有する構造1052のアレイである。
いくつかの実施形態では、シノプシス308はさらに、構造的変異データセット追跡330を含む。いくつかの実施形態では、構造的変異データセット追跡330は、データセット126によって表される試料における呼び出される構造的変異のリストを含む。例示的な構造的変異データセット追跡330のアーキテクチャのさらなる詳細は、図8で発見される。図8を参照して、いくつかの実施形態では、構造的変異データセット330は、辞書部802、追跡データ部808、及び1つまたは複数のデータ部840を含む。いくつかの実施形態では、1つまたは複数のデータ部840の各々は、対応する染色体に対する構造的変異呼び出し情報を記憶する。いくつかの実施形態では、1つまたは複数のデータ部840の各々は、1つまたは複数の対応する染色体に対する構造的変異呼び出し情報を記憶する。いくつかの実施形態では、1つまたは複数のデータ部840の各々は、対応する染色体に対する遺伝子情報を区間木フォーマットで記憶する。
構造的変異データセット追跡330の辞書802は、複数の名前804、及び名前804ごとに、対応する名前804に対するレコードが発見される追跡データ808へのオフセット606を含む。いくつかの実施形態では、辞書802における各々の名前804は、標的ゲノムにおける染色体の名前である。
いくつかの実施形態では、構造的変異データセット追跡330に対する追跡データ808は、複数の構造的変異レコード810を含む。いくつかの実施形態では、追跡データ808は、JSONフォーマットにある。いくつかの実施形態では、各々の構造的変異レコード810は、データセット126によって表される単一の生命体の標的核酸に対してなされる構造的変異呼び出しを表す。このように、いくつかの実施形態では、各々の構造的変異レコード810は、染色体番号812、構造的変異によって表される開始位置814、染色体812上の構造的変異によって表される停止位置816、構造変異に対する一意な名前818、及び構造的変異に関する情報820を指定する。いくつかの実施形態では、構造的変異データセット追跡330は、構造的変異、または対をなす終了配列の配置(paired−end sequence alignments)などの、互いに素なゲノムの特徴を有利に正確に記述するためのBEDPEフォーマットに類似し、そのフォーマットに対応し、またはそのフォーマットにある情報を含む。参照によって本明細書に組み込まれる、URL、bedtools.readthedocs.org/en/latest/content/general−usage.htmlを参照されたい。したがって、いくつかの実施形態では、各々の構造的変異レコード810における情報部820は、特徴の第1の終了が存在する染色体の名前である染色体1の名前822を含む。いくつかの実施形態では、染色体1の名前822は、文字列のフォーマット、例えば、「chr1」、「III」、「myChrom」、または「contig1112.23.」にある。
いくつかの実施形態では各々のレコード810における情報部820はさらに、染色体1の名前822に関する特徴の第1の終了のゼロベースの開始位置(zero−based starting position)である、開始1の位置830を含む。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、染色体1の名前822上のレコード810によって表される特徴(例えば、構造的変異)の第1の終了の1ベースの終了位置である、停止1(終了1)の位置826を含む。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、レコード810によって表される特徴の第2の終了が存在する染色体の名前である、染色体2の名前836を含む。いくつかの実施形態では、染色体2の名前836は、文字列のフォーマット、例えば、「chr1」、「III」、「myChrom」、または「contig1112.23.」にある。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、染色体2の名前836上のレコード810によって表される特徴の第2の終了のゼロベースの開始位置である、開始2の位置828を含む。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、染色体2の名前836上のレコード810によって表される特徴(例えば、構造的変異)の第2の終了の1ベースの終了位置である、停止2(終了2)の位置824を含む。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、レコード810によって表される特徴(例えば、構造的変異)の名前である、構造的変異フィールド834の名前を含む。いくつかの実施形態では、構造的変異834の名前は、文字列のフォーマット、例えば、「LINE」、「Exon3」、「HWIEAS_0001:3:1:0:266#0/1」、または「my_Feature」にある。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、レコード810によって表される特徴(例えば、構造的変異)の品質をスコア付けする任意のメトリックである品質(スコア)フィールド832を含む。いくつかの実施形態では、品質832は、文字列のフォーマットにあり、それによって、任意の科学的メトリック、例えば、p値、平均改良値(enrichment value)における特徴の品質の表現が可能になる。
いくつかの実施形態では、各々のレコード810における情報部820はさらに、配置の各々の終了に対する編集距離または、(「欠失」、「逆位」など)などのレコード81によって表される特徴のさらなる情報838を含む。
続けて図8を参照して、いくつかの実施形態では、追跡データ808は、対応する区間木840によってコンテキストに入れられる。各々のレコード810は、区間木840においてノード842を形成する。各々の区間木840は、ノードxmed852の中間点を記憶する各々のノード842を有する三分岐木である。この中間点852は、対応する染色体上での、ノードに対応し、対応するレコード810によって表される特徴(例えば、構造的変異)の中間点の位置である。各々のそれぞれのノード842は、データセット126におけるそれぞれのノード842によって表される特徴の直接左にある(染色体上のより小さい位置)特徴(例えば、構造的変異)に対応する、左の子ノード848へのリンクを有する。各々のそれぞれのノード842は、データセット126におけるそれぞれのノード842によって表される特徴の直接右にある(染色体上のより大きい位置)特徴(例えば、構造的変異)に対応する、右の子ノード850へのリンクを有する。各々のそれぞれのノード842は、左側位置によって分類されるそれぞれのノード842のxmed852にオーバラップする特徴(例えば、構造的変異)をそれぞれ表す分類された組のノード854を有する。各々のそれぞれのノード842は、右側位置によって分類されるそれぞれのノード842のxmed852にオーバラップする特徴をそれぞれ表す分類された組のノード844を有する。いくつかの実施形態では、分類された組844及び854は、アレイまたはリンクリストによってノード840で表される。各々のそれぞれのノード840はさらに、それぞれのノード840に対応する特徴(例えば、構造的変異)に対する情報820を含むレコード810への追跡データ808におけるオフセットである、名前846を含む。
図8に示されるように、いくつかの実施形態では、構造的変異データセット追跡330において染色体ごとに別個の区間木840が存在する。そのような区間木は有利なことに、標的ゲノムのユーザ指定領域に関する全てのレコード810を識別する迅速な方法を提供する。構造的変異データセット追跡330の実施例が図9で発見される。図9では、図8のデータ構造に対応する例示的な要素が示される。
図3を参照して、いくつかの実施形態では、シノプシス308はさらに、標的データセット342へのインデックス332を含む。標的データセット342は、核酸配列データセットを配列するために選択された試料における少なくとも1つの標的核酸の領域を含む。いくつかの実施形態では、インデックス332及び標的データセット342は、ブロック化JSONインデックスに記憶される。ブロック化JSONインデックスは、シノプシス部(インデックス332)における単一のJSONオブジェクト及びデータ部(標的データセット342)における複数のJSONオブジェクトを含む。インデックス332は、特定のクエリを満たすためにどのデータ構成要素が読み込まれる必要があるかを算出するために使用される。いくつかの実施形態では、インデックス332は、染色体によって分割される。染色体ごとに、インデックス332は、その染色体上の範囲を、標的データセットにおいてその範囲に対する特定のデータを発見し得るオフセットと関連付けるアレイ(レコード)334を記憶する。いくつかの実施形態では、標的データセット342は、多くの独立したアレイを含む。各々のアレイは、ゲノムの1つの隣接する範囲に対する範囲(及び関連するデータ)の全てを含む。標的データセット342における各々のアレイは、インデックス332における単一のアレイ(エントリ)334に対応する。いくつかの実施形態では、標的データセットにおける各々のそのようなアレイは、約1,000のエントリを含むようにサイズ調整される。特定の範囲が複数の「チャンク」にオーバラップする可能性があるので、同一のデータが複数の隣接するアレイに書き込まれても良い。図3を参照して、いくつかの実施形態では、シノプシス308はさらに、断片データセット344へのインデックス336を含む。断片データセット344は、核酸配列データセットにおける全ての断片の長さ、位置、バーコード、及び位相を含む。断片は、上記説明されたように、単一の区分からの核酸である。いくつかの実施形態では、インデックス336及び断片データセット344は、ブロック化JSONインデックスに記憶される。ブロック化JSONインデックスは、シノプシス部(インデックス336)における単一のJSONオブジェクト及びデータ部(断片データセット344)における複数のJSONオブジェクトを含む。インデックス336は、特定のクエリを満たすためにどのデータ構成要素が読み込まれる必要があるかを算出するために使用される。いくつかの実施形態では、インデックス336は、染色体によって分割される。染色体ごとに、インデックス336は、その染色体上の範囲を、断片データセット344においてその範囲に対する特定のデータを発見し得るオフセットと関連付けるアレイ338を記憶する。断片データセット344におけるデータチャンクの実施例は、

である。
よって、上記提供するように、本開示の開示される核酸配列データセット126は、別個のファイルで従来から発見されるいくつかの形式のデータを二次的な値のデータにすぎないデータに従って結合する最新式の(streamlined)ファイルフォーマットを提供する。有利なことに、核酸配列データセット126のファイルフォーマットが内蔵され、かつそのファイルフォーマットは、ハプロタイプ視覚化ツール148の特徴をサポートするために必要な全てのデータを有する。
図12〜30は、核酸配列データセット126を読み込むハプロタイプ視覚化ツール148の実施形態を示す。いくつかの実施形態では、ハプロタイプ視覚化ツール148は、変異指向(variant oriented)かつハプロタイプ認識ゲノムブラウザである。そのようなビューを作成するために、ハプロタイプ視覚化ツール148は、スクロール及びズームすることができる表示のために、追跡としてのいくつかのソースからのデータを単一の統一化された核酸配列データセット126にオーバレイする。いくつかの実施形態では、記憶される追跡は、相化変異呼び出し、位相ブロック、遺伝子、エクソン、構造的変異分断点、及び追跡としての読み取りカウント(カバレッジ)を含む。そのような情報がどのように記憶されるかの1つのそのような実施形態は、図3で開示され、及び上記説明されている。有利なことに、核酸配列の組における異なる情報は、単一のディスプレイに表示されることができる。ハプロタイプ視覚化ツール148は、相化情報を示すその能力によって他のゲノムブラウザと区別される。図12及び13を参照して、図12及び13で表示される要約モジュールから、ユーザは有利なことに、さらなる分析のために核酸配列データセットの領域を選択するために検索プロンプト1250を使用することができる。いくつかの実施形態では、検索プロンプト1250を通じて、ハプロタイプ視覚化ツール148は、chr1:1000000(染色体1の最初の100万のヌクレオチドを選択)、chr1:1000000−2000000(染色体1の2つ目の100万のヌクレオチドを選択)、BRCA1、BRCA2(BRCA1及びBRCA2を選択)、ならびにchr1:1000000−2000000、chr2:5000000−6000000(染色体1の2つ目の100万のヌクレオチド及び染色体2の5番目の100万のヌクレオチドを選択)などの、広範囲な有効な検索構文をサポートする。いくつかの実施形態では、ユーザは、遺伝子のシンボル名を提供し、かつハプロタイプ視覚化ツール148は、シンボル名をゲノム座標に変換する1つまたは複数のルックアップテーブルを使用することによって、このシンボル名を適切なゲノム座標に変換する。有利なことに、ユーザは、単一の検索において、絶対座標の範囲及び遺伝子名の混合を提供することができる。いくつかの実施形態では、ユーザは、複数の遺伝子座(loci)を含む単一の検索クエリを提供する。そのようなクエリに応答して、ハプロタイプ視覚化ツール148は、複数の遺伝子座を構文解析し、そのクエリごとの結果を提供する。いくつかの実施形態では、ユーザは、X:N−N2である構文の検索クエリを提供し、Xは、選択された第1の染色体または選択された第1のコンティグ(contig)配列の識別であり、Nは、第1の染色体または選択された第1のコンティグ配列内の開始位置であり、かつNは、第1の染色体または選択された第1のコンティグ配列内での選択された終了位置である。このコンテキストで使用されるように、用語「コンティグ」は、染色体、または染色体の不完全に結集した部分ではない、対象の分離した(isolated)分子に対応し得る参照ゲノムからの任意の「コンティグ」を意味する。いくつかの実施形態では、ユーザは、X:N−N2である構文の検索クエリを提供し、Xは、選択された第1の染色体または選択された第1のコンティグ配列内の識別であり、Nは、第1の染色体または選択された第1のコンティグ配列内の開始位置であり、かつNは、第1の染色体または選択された第1のコンティグ配列内での選択された終了位置である。いくつかの実施形態では、ユーザは、構文X:Nの検索クエリを提供し、Xは、選択された第1の染色体または、選択された第1のコンティグ配列の識別であり、かつNは、第1の染色体または選択された第1のコンティグ配列の起点から始まる、ヌクレオチドの番号である。
いくつかの実施形態では、ユーザは、構文Y、Y、…、Yの検索クエリを提供し、Y、Y、…、Yにおける各々のYは、選択された遺伝子、染色体領域の選択、またはコンティグ配列の領域の選択のいずれかのアルファベット識別である。いくつかのそのような実施形態では、Y、Y、…、Yにおける第1のYは、構文X:N−Nを有する第1の染色体または第1のコンティグ配列の識別であり、Xは、第1の染色体または第1のコンティグ配列の識別であり、Nは、第1の染色体または第1のコンティグ配列内での選択された開始位置であり、かつNは、第1の染色体または第1のコンティグ配列内での選択された終了位置であり、ならびにY、Y、…、Yにおける第2のYは、選択された遺伝子の英数字識別である。他のそのような実施形態では、Y、Y、…、Yにおける第1のYは、構文X:N−Nを有する第1の染色体または第1のコンティグ配列の識別であり、Xは、第1の染色体または第1のコンティグ配列の識別であり、Nは、第1の染色体または第1のコンティグ配列内での選択された開始位置であり、かつNは、第1の染色体または第1のコンティグ配列内での選択された終了位置であり、ならびにY、Y、…、Yにおける第2のYは、選択された遺伝子の英数字識別である。いくつかの実施形態では、要求は、人間の介入なしに、遺伝子の英数字エントリをゲノム座標に一致させる1つまたは複数のルックアップテーブルと要求を比較することによって、ゲノム座標に変換される。いくつかの実施形態では、要求は、1つもしくは複数の遺伝子名、1つもしくは複数のゲノム座標、またはそれらの組み合わせを含む。
有利なことに、ハプロタイプ視覚化ツール148は、様々な異なるシステムトポロジにおいて呼び出されることができる。例えば、図31を参照して、いくつかの実施形態では、ハプロタイプ視覚化ツール148は、クライアントコンピュータ3102上で動作し、及びネットワーク接続にわたって核酸配列データセットにリモートにアクセスする。例えば、図31を参照して、いくつかの実施形態では、ハプロタイプ視覚化ツール148のツールはネットワーク接続3106にわたって、構造的変異及び位相視覚化システム100と通信するクライアントコンピュータシステム3102上にある。本開示の1つのそのような実施形態は、ネットワーク接続上で構造的変異または相化情報3100をリモートのクライアントコンピュータ3102に提供するシステム3100を提供する。図1及び32を参照して、システム3100は、1つまたは複数のマイクロプロセッサ102、永続的メモリ(例えば、ハードドライブ)、及び非永続的メモリ(例えば、ランダムアクセスメモリ)を有するサーバ100を含む。永続的メモリは、システム100が電源停止されるときでさえ情報を記憶するメモリであるのに対し、非永続的メモリは、システム100が電源停止されるときに情報を記憶することができないことは当業者が認識するであろう。さらに、永続的メモリに記憶されたデータへのアクセス時間は、非永続的メモリに記憶されたデータへのアクセス時間よりも遅いことは当業者が認識するであろう。さらにまた、非永続的メモリは、永続的メモリよりも高価である。このように、大容量である開示される核酸データセット126は典型的に、永続的メモリへの記憶に格下げされる。いくつかの実施形態では、核酸配列データセットは、1ギガバイト以上、5ギガバイト以上、または10ギガバイト以上である。
いくつかの実施形態では、図1においてメモリ112と総称される永続的メモリ及び非永続的メモリは、1つまたは複数の核酸配列データセット126を記憶する。1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセット126は、複数の試料のそれぞれの試料における少なくとも1つの標的核酸に対応する。それぞれの試料は、種のゲノムと関連付けられる。図3を参照して、それぞれの核酸配列データセット126は、(i)ヘッダ302、(ii)シノプシス308、及び(iii)データ部340を含む。
データ部340は、複数の配列読み取り値を含み、データセット126の最大の構成要素である。複数の配列読み取り値における各々のそれぞれの配列読み取り値は、それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子におけるそれぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含む。各々のそれぞれの識別子は、少なくとも1つの標的核酸の配列から独立している。複数の配列読み取り値は共同で、複数の識別子を含む。
永続的メモリ及び非永続的メモリはさらに共同で、リモートクライアントコンピュータ上でインストールするための、ハプロタイプ視覚化ツール148をクライアントに提供するために1つまたは複数のマイクロプロセッサ102を使用する1つまたは複数のプログラムを記憶する。次に、ネットワーク接続上でクライアントから送信される要求は、1つまたは複数のデータセットにおける第1のデータセット126を使用して構造的変異または相化情報に対して受信される。要求を受信したことに応答して、非永続的メモリにいまだロードされてない一方で、永続的メモリにおいてデータ部340を保持している場合、要求は、第1のデータセットのヘッダ302及びシノプシス308を非永続的メモリにロードすることによって自動的にフィルタリングされる。このようにして、非永続的メモリの量が最小化される。要求は、第1のデータセットのシノプシス308と比較され、それによって、第1のデータセットのデータ部の1つまたは複数の部分を識別する。特に、以下でさらに詳細に説明されるように、シノプシス308の種々の構成要素は、データ340のどの部分が要求を満たすために必要とされるかを識別するために使用される。いくつかの実施形態では、要求は、特定のデータセット126及びゲノムの領域を識別する。いくつかの実施形態では、要求は、特定のデータセット126及び1つまたは複数の遺伝子を識別する。いくつかの実施形態では、要求は、特定のデータセット126及び1つまたは複数のエクソンを識別する。要求を満たすために必要とされるデータ部の部分が識別されると、それらは、非永続的メモリにロードされ、かつ要求された構造的変異または相化情報は、第1のデータセットを使用してクライアントコンピュータ3102上で表示するためにフォーマットされる。次いで、このフォーマットされた構造的変異または相化情報は、ネットワーク接続3106上で、クライアントデバイス上で表示するためにクライアントデバイスに送信される。いくつかの実施形態では、図1で開示されたように、クライアントコンピュータは使用されず、かつハプロタイプ視覚化ツールは、構造的変異及び位相視覚化システム100に存在する。
ここで、核酸配列データセット126を分割する利点が説明されており、ハプロタイプ視覚化ツール148、及びその構成要素モジュール(例えば、要約モジュール150、位相視覚化モジュール152、構造的変異モジュール154など)のグラフィカルユーザインタフェースの特徴がさらに詳細に説明される。図12に目を向けて、ユーザがパネル1250にクエリを入力したとき、位相視覚化モジュール152は、図14乃至16に示されるようなクエリの位相を見るために使用されても良い。例えば、クエリchr1+10000000−chr1+10500000(またはchr1:10000000−chr1:10500000)を入力すると、選択された領域が図14Aに示されるゲノムブラウザ(位相視覚化モジュール152)で示される。ここで、ゲノムの選択された領域は有利なことに、選択された領域の実際の物理的な構造を反映する方法で示され、ゲノムの2つの複製が存在し、かつこれは、各々のハプロタイプ−ハプロタイプ1(1402)及びハプロタイプ2(1404)に対し1つ、及び親ハプロタイプが決定されていない中間エリア1406の2つの追跡を示すことによって反映される。小さな挿入及び欠失は、相化アルゴリズムに基づいて各々のハプロタイプにマッピングされる。第1のハプロタイプに相化された選択された領域の部分は、第1のハプロタイプ1の領域1402の対応する部分におけるバーとして示され、第2のハプロタイプに相化された選択された領域の部分は、第2のハプロタイプ1の領域1404の対応する部分におけるバーとして示され、かつハプロタイプに相化されていない選択された領域の部分は、中間エリア1406におけるバーとして示される。
ハプロタイプビューでは、選択された領域の相化部分が黒の長方形のボックス1440で囲まれる。図14Aに示される領域全体は、単一の位相ブロック1440−1にある。これはまた、図14B、図15、ならびに図16の染色体1及び2に対するケースである。しかしながら、図16における染色体4の表示される領域は5つの異なる位相ブロックを含み、その各々は、黒の長方形のボックスで境界が定められる。それらのボックスは、相化アルゴリズムによって決定されるように染色体の位相ブロック、隣接する位相領域の境界を定める。
ハプロタイプ1(1402)、ハプロタイプ2(1404)、及び中間領域1406における縦型バーは、単一のヌクレオチド多型、小さい挿入及び欠失を表す。いくつかの実施形態では、それらのバーは、参照遺伝子型を表す第1の色(例えば、グレー)、及び代替遺伝子型を表す第2の色(例えば、緑)で色分けされる。
同型(homozygous)SNPは、同型変異を相化することができないので、2つのハプロタイプ追跡及び中間エリア(非相化追跡)にわたる縦型バーを有する。これは、図26における要素2602として示される。
相化異型(heterozygous)SNPは、ハプロタイプ追跡1402/1404に置かれる。これは、図26における要素2604として示される。
異型SNPは、それらが相化されないときにハプロタイプ追跡1402/1404の間で挟まれる中間エリア1405(非相化追跡)に置かれる。これは、図26における要素2606として示される。
最後に、両方の相化単一ヌクレオチド多型は、代替遺伝子型のものであり、第2の色(例えば、緑)の2つの縦型バーは、追跡ごとに1つのハプロタイプ追跡1402/1404で表示される。これは、図26における要素2608として示される。
ハプロタイプ追跡の図27の領域2710などの暗い領域は、高SNP密度を有するエリアを表す。領域2710をクリックすることによって、領域2710内での個々のSNPがズームされる。さらに、いくつかの実施形態では、これが行われるとき、ユーザがSNPグループ上でズームインすることを可能にするリンクを有するポップアップボックス2712が現れる。概して、ボックス2712は、試料におけるハプロタイプ1及び2の部分、参照遺伝子型、観察される遺伝子型、SNPが発見される遺伝子(遺伝子と関連付けられる場合)、位相品質、及び2つの観察される遺伝子型のアレル(allele)カウントなどの、SNPに関する追加の情報を提供する。ボックス2712は、ボックスの隅のXをクリックすることによって消去できる。いくつかの実施形態では、SNPに対して提供される位相品質は、SNPの位相品質を定量化するために使用されるPhred類似のスコアである。
図28Aを参照して、ユーザが変異に対するアレルのうちの1つをクリックするとき、長方形のボックス(例えば、長方形のボックス2802)がその変異を強調表示する。強調表示された変異の次に表示される番号2804は、その変異に対する選択されたアレルと関連付けられたバーコードの番号を表す。例えば、図28Aでは、その変異に対する選択されたアレルと関連付けられたバーコードの番号が31であることを示す番号「31」がボックス2802の次に表示される。また、ボックス2802に隣接する変異の上部及び/または下部上に表示される番号が存在する。各々のそのような番号は、選択されたアレルと隣接する変異の2つのアレルのうちの1つとの間でオーバラップするバーコードの番号を表す。第1の色(例えば、黒)で表示される番号は、変形2802の相化呼び出しに一致し、第2の色(例えば、赤)で表示される番号は、呼び出しに一致しない。隣接する変異の間でオーバラップするバーコードが多いと、変異の相化においてさらに信頼性が増す。実施例として、図28のAChr7:117、216、030における参照呼び出しに対し、その位置において参照アレルと関連付けられた31のバーコードが存在することを示す、ハプロタイプ1のパネル1402の上部に31(2804)が存在する。図28Bを参照して、同一の位置2802における変異SNVが選択されるとき、13のバーコードは、図28Bに示されるように、位相、及びラベル付けされた隣接するSNV変化をサポートする。
いくつかの実施形態では、ゲノムブラウザはさらに、染色体マップ1424及び表示されている染色体上の位置1426を提供する。図14Aを参照して、ブラウザの上部において、黒の長方形によってマーク付けされたセントロメア(centromere)を有するミニチュアの染色体1424が、明るい長方形によってマーク付けされた染色体の帯とともに示される。三角形1426は、現在ズームされている位置を示し、染色体の残りに対して検索バー1250を使用して選択された領域の全体的なビューをユーザに与える。
開示されるゲノムブラウザはさらに、表示されるゲノム領域にある各々の遺伝子のグラフィック表示1408を提供する。この遺伝子追跡1408は、注釈される参照遺伝子を表示する。複数の遺伝子は、対象の遺伝子を入力することによって検索バー1250を使用して表示できる。各々の遺伝子の方向は、矢印で示される。図14Aには示されないが、エクソンが濃い色合いで強調表示される。この特徴は、図26〜28で示される。いくつかの実施形態では、オーバラップする遺伝子は、遺伝子追跡1408における3つの追跡のうちの最大値上で示されるが、多くの遺伝子が検索バーを使用して表示されても良い。
開示されるゲノムブラウザはさらに、表示されるゲノム領域にあるエクソンのグラフィック表示1410を提供する。
開示されるゲノムブラウザはさらに、表示されるゲノム領域におけるカバレッジに対するカバレッジ追跡1412を提供する。調整された配列読み取り値は、カバレッジ追跡上で示される。カバレッジ追跡1412における各々の縦型バーは、バーの下のゲノムのエリアに対する塩基ごとの平均カバレッジ(average coverage−per−base)を示す。高さは、最大の高さがメジアンカバレッジの4倍になるようにスケーリングされる。いくつかの実施形態では、ユーザがカバレッジ追跡1412の部分をクリックするとき、塩基ごとの平均読み取り値の対、及び読み取り値の総数が、カバレッジ追跡のその部分に対するカバレッジ詳細ポップアップの黒のボックスで表示される。
開示されるゲノムブラウザはさらに、表示される領域における分岐点追跡1414を提供する。染色体間転座、遺伝子融合、逆位及び欠失を含む構造的変異は、分岐点追跡1414で強調表示される。構造的変異は、ディスプレイで任意に番号付けされる。構造的変異呼び出しは、分岐点追跡1414において第1の色(例えば、オレンジ)で示され、かつ構造的変異候補は、分岐点追跡1414において第2の色(例えば、グレー)で指定される。構造的変異分岐点の対を表示するために、ユーザは、図29に示されるように、遺伝子に対して表示された構造的変異をクリックすることができる。構造的変異は、詳細ボックス2902で表示される。詳細ボックス2902における「この分岐点上でのズームイン」2094を選択することによって、分岐点の他方は、図30に示されるように、分岐点にズームされた、追加のハプロタイプ追跡として持ち上げられる(brought up)。
有利なことに、開示されるゲノムブラウザの表示モードのいくつかの実施形態で示されないのは、図14Aに示されるように、塩基呼び出し、誤り率、特定の読み取り値、及び配置である。むしろ、開示されるゲノムブラウザは、選択された領域で何が進行中であるかのさらなる概念的なインジケーションを提供し、理解が容易な方法でこの情報を提供するためにより高いレベルで動作する。この理由で、開示されるブラウザのいくつかの実施形態は、配列読み取りデータの全てが示されない、図14Aに示される表示モードなどの表示モードを提供する。
図14Aを参照して、ズームアフォーダンス(zoom affordance)1420は、検索バー1250によって識別される領域のサブセットへのズームインに使用でき、かつズームアフォーダンス1422は、領域のズームアウトに使用できる。加えて、ユーザは、特定の遺伝子を表す領域1408におけるアイコンをクリックすることによって、特定の遺伝子にズームインすることができる。
いくつかの実施形態では、開示されるゲノムブラウザの検索バー1250は、インテリジェントな自動完了機能を提供する。例えば、ユーザが遺伝子名を検索バー1250にタイプすることを開始するとき、ゲノムブラウザは、遺伝子上で自動完了する。いくつかの実施形態では、ゲノムブラウザは、遺伝子追跡における遺伝子の名前など、ユーザが入力した部分検索クエリを核酸配列データセットに記憶されたゲノム情報と比較することによって、これを達成する。有利なことに、そのような実施形態では、検索バー1250は、遺伝子名上で自動完了する。例えば、図17を参照して、ユーザが表現「atp」を検索バーに入力するとき、核酸配列データセット126内で発見されるいくつかの考えられる一致1702−1乃至1702−10が表示される。
図12乃至30で示されるように、ハプロタイプ視覚化ツール148は、核酸配列データセットに対する構造的変異または相化(例えば、ハプロタイプ)情報を提供する。
特に、図12及び13を参照して、ハプロタイプ視覚化ツール148の相化/ハプロタイプトグル1252の選択は、図14〜17及び図26〜30に示されるような位相視覚化モジュール152を呼び出す。図14〜17及び図26〜30に示されるように、ハプロタイプに対する視覚的に分離した追跡とともに、いずれのハプロタイプにも割り当てられない変異に対する仮想追跡が設けられる。相化変異は、非相化、同型、及び/または参照読み出し値を有さない異型(heterozygous−with−no−reference−reads)、参照読み出し値を有する異型(heterozygous−with−reference−reads)を含む、多数の分類を有することができる。ハプロタイプ視覚化ツール148は、視覚的に明確に異なる様式をそれらの異なる構成に適用し、それによって、ユーザがそれらを迅速に識別することができる。ハプロタイプ視覚化ツール148は、変異を特定の位相ブロックに割り当てる際に使用されるバーコードエビデンスの量を表示することができる。いくつかの実施形態では、ユーザが変異を「クリック」するとき、1つおきの可視的変異が、選択された変異とオーバラップするバーコードのカウントで装飾される。呼び出されるハプロタイプと相反するデータが強調表示される。また、ハプロタイプ視覚化ツール148によって、ユーザが複数の領域を一度に見ることが可能になる。これは、スクリーンの異なるエリアで別個のハプロタイプとして表示される。このモードでは、「カウント」は、ゲノムの離れた領域の間でオーバラップするバーコードをユーザが見ることを可能にする各々の表示される領域間で共有される。
再度、図12及び13を参照して、ハプロタイプ視覚化ツール148の構造的変異トグル1254の選択は、図23〜25及び33〜34に示されるような構造的変異モジュール154を呼び出す。構造的変異モジュール154によって提供されるマトリックスビューは、候補の構造的変異を視覚化する方法を包含する。視覚化は、ゲノム(試験核酸データ)の2つの(場合によってはオーバラップする)領域をチャンクごとの100〜10,000の塩基の対のチャンクに定量化することによって作用する。チャンクの対ごとの読み取り値の間の共有されるバーコードの番号が算出される。結果として生じるマトリックス(行としての1つの領域及び列としての他の領域からのチャンクを有する)は、図23〜25及び33〜34に示されるように、2次元画像(ヒートマップ)として表示されることができる。いくつかの実施形態では、画素の色は、各々の領域の特定のチャンク(例えば、ウインドウ)の間の明確に異なるオーバラップするバーコードの番号に対応する。例えば、以下のバーコードを有する隣接するチャンクを有する2つの領域を考える。
(1)AAA,ACA ACA,AGT GTG
(2)GTG,AAA CCC ACA,AAA
領域(1)と表1で以下に説明される1つなどのマトリックスに置くことができる領域(2)との間の9個の対のチャンクが存在する。

表1 領域(1)と領域(2)との間のチャンクの対のマトリックス

各々のセルにおける2つの組のバーコードの間のオーバラップを算出することによって、表2で説明される値を生み出す。

表2 領域(1)と領域(2)との間のマトリックス値
表2は、ユーザに対する低バーコード及び高バーコードの相関のエリアを効率的に示すヒートマップとして構造的変異モジュール154によって表示されることができる。いくつかの実施形態では、構造的変異モジュール154は、対象の既知の場所へのデータの容易な配置を可能にするための、マトリックスとオーバレイされた遺伝子及びエクソン境界などの追加の情報を提供する。いくつかの実施形態では、また、構造的変異モジュール154によって、他のコンピュータプログラムで分析するためにマトリックスのテキストの複製がダウンロードされることが可能になる。いくつかの実施形態では、ユーザは、リアルタイムでスクロールまたはズームすることによって、構造的変異モジュール154で視覚化されるゲノムの領域を調節しても良い。いくつかの実施形態では、ユーザは、ゲノムの非常に小さい、または非常に大きいエリアを見るときのエイリアスまたは過負荷を回避するために、解像度(チャンクサイズ/ウインドウサイズ)を調節することができる。
本開示のいくつかの実施形態は、核酸配列データ(例えば、核酸配列データセット126から取得される情報)を見るためのシステム100を提供する。システム100は、1つまたは複数のマイクロプロセッサ102及びメモリ112を含む。メモリは、試料における少なくとも1つの標的核酸に対応する核酸配列データセット126を記憶する。メモリはさらに、試料からの複数の配列読み取り値を含む核酸配列データセットを取得するために1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラム(例えば、ハプロタイプ視覚化ツール148)を記憶する。次いで、核酸配列データセットによって表されるゲノム領域を指定する要求がユーザから取得される(例えば、図12及び13に示されるハプロタイプ視覚化ツール148の検索バー1250を通じて)。有利なことに、この要求は、本開示で開示される構文のいずれかにあり得る。いくつかの実施形態では、要求におけるゲノム領域は、全染色体である。いくつかの実施形態では、要求におけるゲノム領域は、染色体の100〜10000の塩基である。いくつかの実施形態では、要求におけるゲノム領域は、染色体の10〜1×10の塩基である。いくつかの実施形態では、要求におけるゲノム領域は、染色体の10〜1×10の塩基である。いくつかの実施形態では、要求におけるゲノム領域は、染色体の10〜1×10の塩基である。いくつかの実施形態では、要求は、試料のゲノムにおける遺伝子に対するものである。要求を取得したことに応答して、要求は、核酸配列データセット126からの要求のゲノム領域内の複数の配列読み取り値1048を取得することによって構文解析される。次に、スキャンウインドウが複数の配列読み取り値に対して実行し、それによって、複数のウインドウを作成し、複数のウインドウの各々のそれぞれのウインドウは、要求におけるゲノム領域の異なる領域に対応し、核酸配列データセットにおけるゲノム領域の異なる領域での各々の配列読み取り値の各々の識別子(例えば、バーコード)の識別を含む。さらに、例えば、図34を参照して、複数のウインドウにおける各々の考えられるウインドウの対を表す2次元ヒートマップ3312が表示される。各々のそれぞれのウインドウの対は、それぞれのウインドウの対で共通な識別子の番号に基づいて、色スキームから選択された色として2次元ヒートマップで表示される。ウインドウサイズは、ユーザが視覚化することを要求したゲノムの量に左右されることが認識される。いくつかの実施形態では、ユーザがゲノムの小さな領域を視覚化することを要求したとき、より小さなウインドウサイズが使用され、かつユーザがゲノムのより大きな領域を視覚化することを要求したとき、より大きなウインドウサイズが使用される。
図33及び34を参照して、アフォーダンス3302及び3304は、表示される情報を明確にする一意なツールを提供する。最初に、「予期されるオーバラップを非表示にする(hide expected overlap)」アフォーダンス3302の選択は、ゲノムから予期されるバーコードオーバラップ信号を通常状態にさせ、バーコードは相互に隣接する読み取り値と関連付けられ、なぜならば、それらは、非表示にされるはずであるからである。選択されていないアフォーダンス3302を有する図33を、選択されたアフォーダンス3302を有する図34と比較されたい。アフォーダンス3302が選択されるときに提供されるビューは、ここで予期されていない相互に接触しているゲノムのそれらの部分を強調することが意図される。例えば、このビューは、参照ゲノムに基づいて、構造的変異、1つの染色体から別のそこにあると予期されない染色体への転座を強調表示するが、突然ここでバーコードが関連付けを示す。このように、アフォーダンス3302は、標準信号を隠し、及び予期されていない信号を強調表示するフィルタを活性化する。言い換えると、それぞれのウインドウの対で共通な識別子の番号は、参照ゲノム配列に基づいて相互に近似していると予期されるバーコードから生じるバーコード信号を除去するために低く重み付けがされる。いくつかの実施形態では、アフォーダンス3302と関連付けられたフィルタは、配列された標的核酸の断片の平均長さ(例えば、50キロベース)を考慮する。断片の平均長さのこの閾値の範囲内にあるバーコードは、アフォーダンス3302が活性化されるときにヒートマップに貢献しない。いくつかの実施形態では、フィルタは、参照ゲノムに対して調整されている核酸配列データセット126におけるバーコードの全体の組をとることによって有効にされる。次いで、平均断片長よりも長い隙間を示す参照ゲノムに従ったそれらの領域のみが表示される。このように、アフォーダンス3302フィルタは、バーコードデータと参照ゲノムとの間の予期される差異をフィルタリングするよう作動し、差異を強調表示する。
アフォーダンス3304を参照して、各々のそれぞれの配列読み取り値1048は、それぞれの配列読み取り値が正確にマッピングされたことの可能性を表す信頼値を有する参照ゲノム上の位置にマッピングされる。デフォルトは、誤解を招く情報が表示されないようにこの信頼値が厳しい(stringent)(高い)閾値を満たすときに配列読み取り値に対するデータのみを示すことである。しかしながら、時に、ユーザはなお、厳しい閾値の信頼値を満たさない配列読み取り値に対する情報を見ることを望むことがある。例えば、時に、非常に多くのデータが信頼閾値に基づいてフィルタリングされるときに、異常なアーチファクトがヒートマップに現れる場合がある。例えば、ヒートマップの領域は、データを有さないように現れる。実際に、そのような領域はまさに、配列読み取り値1048の位置特定(localization)における信頼度が低い領域(例えば、大幅な繰り返しを示すゲノムの領域)であっても良い。実際のデータが存在しないかどうかを判定するために(おそらくは、大幅な構造的変異を示す)、アフォーダンス3304によって、ユーザが厳しい閾値を除去(または低下)することが可能になり、より低い信頼値を有する参照ゲノムにマッピングされている配列読み取り値1048からのデータの表示が可能になる。このようにして、ユーザは、実際に、厳しい閾値が定まっていたときに(turned on)データを失っていたサイトにおいて構造的変異が存在するかどうか、またはゲノム領域が単に、配列読み取り値に対する信頼値が低い領域を表すかどうかを判定することができる。
アフォーダンス3304と関連付けられた典型的なユースケースシナリオでは、品質閾値を満たさない配列読み取り値1084が破棄され、よって、下流の相化アルゴリズム及び構造的変異アルゴリズムで使用されない。そのような配列読み取り値を破棄することの結果は、図33及び34に示されるヒートマッププロットにおいて構造に見えるものを導入することができることである。例えば、マップのいくつかの領域が緩和されても良く(lighten up)、かつ信号を変化させる実際の試料において時々発生するかどうかの質問を引き起こすいくつかのラインが導入されても良い。アフォーダンス3304を選択することによって、破棄された読み取り値が、プロットにおいて観察されたアーチファクトの除去をさせるかを把握するためのそれらの品質スコアに関わらず、相化及び/または構造的変異アルゴリズムに戻される。このようにして、データのアーチファクトは、プロットの領域が失っているとき、アフォーダンス3304を適用する前後で、観察されたアーチファクトがそれぞれの試料における少なくとも1つの標的核酸でのアーチファクト(例えば、構造的変異)、または配列読み取り値1048からの破棄されたデータから生じるアーチファクトを表す信頼度となるように、引き出されても良い(teased out)。
図34を参照して、標的核酸のそれぞれの領域の間でオーバラップするバーコードの範囲が、オーバラップするバーコード(標的核酸のそれぞれの領域に特定された配列読み取り値からの)の番号によって色スケール3406上で表される。よって、いくつかの実施形態では、オーバラップするバーコードの特定の番号を一意に表す色スキームにおける各々の特定の色を有する色スキームが使用される。例えば、標的核酸の第1及び第2の部分がバーコードの第1の番号で共通する場合、色スキームにおける第1の番号と関連付けられた色が標的核酸の第1及び第2の部分の組み合わせを表すために使用される。図34に示されるように、X軸3308及びY軸3310は各々、標的核酸を表し、よって、標的核酸内の標的核酸の第1及び第2部分の座標は、2次元格子におけるX、Y位置を定め、かつバーコードの第1の番号の値と関連付けられた色が、色スキームに従って2次元格子におけるこのX、Y位置に色付けするために使用される。いくつかの実施形態では、標的核酸の第1及び第2の部分が共通するバーコードを有さないとき、色スキームは、標的核酸の第1及び第2の部分の組み合わせを表すX、Y位置に対して使用される色が白であることを命令する。いくつかの実施形態では、標的核酸の第1及び第2の部分が共通するわずかなバーコードのみを有する場合(例えば、種々の実施形態では、共通する1つのバーコードのみ、共通する2つのバーコードのみ、共通する3つのバーコードのみ、共通する4つのバーコードのみ、または共通する5つのバーコードのみ)、色スキームは、標的核酸の第1及び第2の部分の組み合わせを表すX、Y位置に対して使用される色がグレーであることを命令する。すなわち、そのような実施形態では、色スキームにおける第1の位置が白であり、それは共有されるバーコードが存在しないことを意味し、かつ色スキームにおける第2の位置がグレーであり、それは共通するバーコードの組が最小であることを意味する。いくつかの実施形態では、共有される配列読み取り値の10の異なる値に対応する色スキームにおける10の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の11の異なる値に対応する色スキームにおける11の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の12の異なる値に対応する色スキームにおける12の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の13の異なる値に対応する色スキームにおける13の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の14の異なる値に対応する色スキームにおける14の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の15の異なる値に対応する色スキームにおける15の異なる値が存在する。いくつかの実施形態では、共有される配列読み取り値の5〜100の異なる値に対応する色スキームにおける5〜100の異なる値が存在する。
図34を参照して、アフォーダンス3308は、参照ゲノムの異なる領域を見ることができるように、検索フィールド1250によって最初に選択されたビュー(の並進運動)をパンする(pan)ために使用することができる。図34を参照して、アフォーダンス3310は、異なる量の参照ゲノムを見ることができるように、検索フィールド1250によって最初に選択されたビューをズームするために使用することができる。
いくつかの実施形態では、ハプロタイプ視覚化ツール148によって供給される異なるビュー(例えば、ハプロタイプ/相化152、構造的変異154、及び読み取り値156)は全てリンクされる。例えば、ユーザは、アフォーダンス1252、1254、及び1256を使用して情報を再入力することなく、代替的な視覚化を使用して同一のデータを見るために1つのビューを別のビューにナビゲートし得る。例えばユーザは、構造的変異モジュール154のマトリックスビューと位相視覚化モジュール152のハプロタイプビューとの間でトグルしても良い。
「スマート」検索アフォーダンス1250が種々のビューで採用される。図17を参照して、検索アフォーダンス1250におけるユーザタイプとして、プログラムは、実遺伝子名または染色体位置の他の形式を有する部分クエリをリアルタイムで自動完了することを試みる。いくつかの実施形態では、ユーザが検索アフォーダンス1250に別の文字を入力するたびに、検索アフォーダンス1250における部分クエリが被験者核酸配列データセット126におけるルックアップテーブルに対してクエリされる。いくつかの実施形態では、このルックアップテーブルは、遺伝子追跡320及び/またはエクソン追跡322である。有利なことに、いくつかの実施形態では、ハプロタイプ視覚化ツール148は、過去のユーザクエリの履歴を維持する。よって、ユーザが新たなクエリを入力することを開始するとき、前のクエリに対する一致(または、部分一致)も選択のためにユーザに表示される。これは、いくつかの実施形態では、検索バー1250によってサポートされる所与の複合的なクエリ構文を考えると特に有用である。例えば、上記議論されたように、ユーザは、様々な句読法を有するクエリを分離することによって、複数の領域を一回でクエリしても良い。ユーザはまた、いくつかのフォーマットでゲノム座標を直接入力しても良い。
いくつかの実施形態では、システム100は、表示されることになるゲノムデータをカスタムファイルフォーマット(例えば、核酸配列データセット126のフォーマット)で記憶する。ファイルは、参照データ、VCFファイル、BAM、ファイル及び構造的変異ファイルを入力とみなす「プリプロセッサ」によって生成され、かつ単一の出力核酸配列データセット126を作成する。核酸配列データセット126は、所与のデータセットを表示するために必要な情報の全てを含む。ファイルは、いくつかの部分に編成される。約25メガバイトの小さなシノプシス部308及び、より大きなデータ部340(100メガバイト〜20ギガバイト)。それらの部分はさらに、上記説明されたように細分される。核酸配列データセット126がロードされるとき、それは、まさにインデックス部をメモリにロードする。システム100は、オンデマンドでメモリにロードするためにデータ部の適切な範囲を発見するためにそのデータを使用する。変異呼び出し及び読み取り情報はデータ部に記憶され、ルーペ(loupe)が必要とするデータの残りは、インデックス部に記憶するのに十分に小さい。
いくつかの実施形態では、データ部は、約〜250キロバイトであるチャンクに編成される。システム100がデータ部に記憶された情報を必要とするとき、それは、データを有するはずのチャンクを発見するためにシノプシス部(例えば、遺伝子追跡、エクソン追跡など)における関連するインデックスを調べ、チャンク全体をメモリにロードする。いくつかの実施形態では、変異データに対するチャンクは、変異データと同様にサポートするバーコード情報を含むJSON符号化構造である。いくつかの実施形態では、読み取りデータに対するチャンクは、各々の構造が単一の読み取り値の位置、長さ、及びバーコードを含む小さな(8バイト)データ構造のアレイを有する。いくつかの実施形態では、変異及び読み取りデータの両方が、ゲノム位置によって分類され、それによって、概して、システム100は、データの所与のサブセットを表示するために必要なデータの全てを獲得するためにわずかな回数のディスク上の読み取りのみを行う。いくつかの実施形態では、システム100が視覚化(遺伝子の位置、構造的変異分岐点など)に必要なデータの残りは、「itree」として核酸配列データセット126ファイルのインデックス(シノプシス)部に記憶される。itreeは、区間木の実施態様である。それは、ゲノムの範囲を注釈するための再使用可能なデータ構造(通常、JSONで符号化される)である。よって、エクソン、遺伝子、位相ブロック、及び構造的変異分岐点は全て、それらが異なって表示されるときでさえ同一の機構で符号化される。
複数のインスタンスは、単一のインスタンスとして、本明細書で説明される構成要素、動作、または構造に対して設けられても良い。最後に、種々の構成要素、動作、及びデータストアの間の境界が、ある程度任意的であり、かつ特定の動作が特定の例示的な構成のコンテキストで示される。機能性の他の割り当てが想定され、かつ実施態様の範囲内にあっても良い。概して、例示的な構成における別個の構成要素として提示される構造及び機能性は、組み合わされた構造または構成要素として実装されても良い。同様に、単一の構成要素として提示される構造及び機能性は、別個の構成要素として実装されても良い。それらの、及び他の変形、修正、追加、及び改良が実施態様(複数可)の範囲内に入る。
用語「第1」、「第2」などが種々の要素を説明するために本明細書で使用される場合があるが、これらの要素は、これらの用語によって限定されるべきではない。これらの用語は、1つの要素を別の要素と区別するために使用されるにすぎない。例えば、全てに発見される「第1のオブジェクト」が一貫して再命名され、かつ全ての発見される「第2オブジェクト」が一貫して再命名される限り、説明の意味を変更することなく、第1のオブジェクトは、第2のオブジェクトと称され得るし、同様に、第2のオブジェクトは、第1のオブジェクトと称され得る。第1のオブジェクト及び第2のオブジェクトは両方ともオブジェクトであるが、それらは同一のオブジェクトではない。
本明細書で使用される技術用語は、特定の実施態様を説明することのみを目的としており、特許請求の範囲を限定することを意図していない。実施態様の説明及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」及び「the」は、文脈が明確に他を示さない限り、複数形をも含むことを意図している。また、本明細書で使用されるような用語「and/or」は、関連する記載された項目の1つまたは複数のいずれか、及び全ての考えられる組み合わせを指し、それらを包含することが理解される。さらに、用語「comprises(を含む)」及び/または「comprising(を含む)」は、本明細書で使用されるとき、記載される特徴、整数、ステップ、動作、要素、及び/または構成要素の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び/またはそれらのグループの存在または追加を排除しないことが理解される。
本開示で使用されるように、用語「if」は、コンテキストに応じて、示された先行条件が真である、「when」、「upon」、「in response to determining(判定に応じて)」、または「in accordance with a determination(判定に従って)」、または「in response to detecting(検出に応じて)」を意味すると解釈されても良い。同様に、句「if it is determined(示された先行条件が真である)(と判定された場合)」、「if(示された先行条件が真である)(場合)」、「when(示された先行条件が真である)(時)」は、文脈に応じて、示された先行条件が真である、「upon determining(判定すると)」、「in response to determining(判定に応じて)」、「in accordance with a determination(判定に従って)」、「upon detecting(検出すると)」、または「in response to detecting(検出に応じて)」を意味すると解釈されても良い。
上記説明は、例示的な実施態様を具体化する例示的なシステム、方法、技術、命令配列、及びコンピューティングマシンプログラム製品を含んでいる。説明を目的に、多数の具体的な詳細が、発明の主題の種々の実施態様の理解を提供するために説明されてきた。しかしながら、発明の主題の実施態様がこれらの具体的な詳細なく実施されても良いことが当業者にとって明らかである。概して、公知の命令インスタンス、プロトコル、構造及び技術が詳細に示されていない。
説明を目的に、上記説明が特定の実施態様を参照して説明されてきた。しかしながら、上記例示的な議論は、網羅的であることを意図しておらず、かつ実施態様を開示される厳密な形式に限定することを意図していない。多くの修正及び変形が上記教示を考慮して可能である。原理及びその実際の適用を最良に説明し、よって他の当業者が、考えられる特定の使用に適したように種々の修正で実施態様及び種々の実施態様を最良に利用することを可能にするために実施態様が選択及び説明されてきた。

Claims (104)

  1. ネットワーク接続上で構造的変異または相化情報をリモートクライアントコンピュータに提供するシステムであって、前記システムは、1つまたは複数のマイクロプロセッサ、永続的メモリ及び非永続的メモリを含み、前記永続的メモリ及び前記非永続的メモリは共同で、1つまたは複数の核酸配列データセットを記憶し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    前記永続的メモリ及び前記非永続的メモリはさらに共同で、
    前記リモートクライアントコンピュータ上でインストールするための視覚化ツールを提供し、
    前記1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する、前記リモートクライアントコンピュータから送信された要求を、ネットワーク接続上でユーザから取得し、
    前記要求を取得したことに応答して、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、前記ロードは、前記データ部の前記全体よりも少なくロードし、
    (iv)前記第1のデータセットを使用して、前記クライアントコンピュータ上で表示するための構造的変異または相化情報をフォーマットし、
    (v)前記フォーマットされた構造的変異または相化情報を、前記リモートクライアントコンピュータ上で表示するために、前記ネットワーク接続上で前記リモートクライアントコンピュータに送信する
    ことによって、前記要求を自動的に構文解析する
    ために前記1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する、前記システム。
  2. 構造的変異または相化情報を提供するシステムであって、前記システムは、1つまたは複数のマイクロプロセッサ、永続的メモリ及び非永続的メモリを含み、前記永続的メモリ及び前記非永続的メモリは共同で、1つまたは複数の核酸配列データセットを記憶し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    前記永続的メモリ及び前記非永続的メモリはさらに共同で、
    視覚化ツールを提供し、
    前記1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得し、
    前記要求を取得したことに応答して、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、前記ロードは、前記データ部の前記全体より少なくロードし、
    (iv)前記第1のデータセットを使用して、前記視覚化ツールで表示するための構造的変異または相化情報をフォーマットし、
    (v)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示する
    ことによって、前記要求を自動的に構文解析する
    ために前記1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する、前記システム。
  3. ネットワーク接続上で構造的変異または相化情報をリモートコンピュータから取得するシステムであって、前記システムは、1つまたは複数のマイクロプロセッサ、及び1つまたは複数のプログラムを記憶するメモリを含み、前記1つまたは複数のプログラムは、方法を実行するように前記1つまたは複数のマイクロプロセッサを使用し、
    前記方法は、
    (A)視覚化ツールを呼び出すことと、
    (B)前記リモートコンピュータに記憶された1つまたは複数の核酸配列データセットからの第1の核酸配列データセットにおける構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得することであって、前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含む、
    ことと、
    (C)前記要求を前記ネットワーク接続上で前記リモートコンピュータに送信することであって、前記リモートコンピュータは、永続的メモリ及び非永続的メモリを含み、それによって、
    (i)前記リモートコンピュータの前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードすることと、
    (ii)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別することと、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードすることであって、前記ロードは、前記データ部の前記全体よりも少なくロードする、ことと、
    (iv)前記第1のデータセットを使用して、前記視覚化ツールで表示するための構造的変異または相化情報をフォーマットすることと
    を含む方法を前記リモートコンピュータに実行させる、ことと、
    (D)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示するために前記ネットワーク接続上で前記リモートコンピュータから受信することと
    を備える、前記システム。
  4. 構造的変異または相化情報を提供するシステムであって、前記システムは、1つまたは複数のマイクロプロセッサ及びメモリを含み、前記システムは、1つまたは複数の核酸配列データセットに対するアクセスを有し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列化データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    前記メモリはさらに共同で、
    視覚化ツールを提供し、
    前記1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得し、
    前記要求を取得したことに応答して、
    (i)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (ii)前記第1のデータセットの前記データ部の前記識別された1つまたは複数の部分を使用して、前記視覚化ツールで表示するための構造的変異または相化情報をフォーマットし、前記第1のデータセットの前記データ部の前記1つまたは複数の部分は、前記第1のデータセットの前記データ部の前記全体よりも少なく、
    (iii)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示する
    ことによって、前記要求を自動的に構文解析する
    ために前記1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する、前記システム。
  5. 前記ヘッダは、前記それぞれの核酸配列データセットにおける複数の構成要素を記述する、請求項1〜4のいずれか1項に記載のシステム。
  6. 前記複数の構成要素は、要約、変異呼び出しデータへのインデックス、位相ブロック追跡、refseqインデックス追跡、遺伝子追跡、エクソン追跡、読み取りデータへのインデックス、構造的変異データセット追跡、標的データセットへのインデックス、及び断片データセットへのインデックスから構成されるグループから選択された2つ以上の構成要素を含む、請求項5に記載のシステム。
  7. 前記複数の構成要素は、前記要約を含み、前記要約は、
    前記それぞれの核酸配列データセットで相化された既知のSNPの割合と、
    前記それぞれの核酸配列データセットにおける最長位相ブロックと、
    前記それぞれの核酸配列データセットで使用される多数の一意なバーコードと、
    前記それぞれの核酸配列データセットにおける平均断片長と、
    前記それぞれの核酸配列データセットにおける前記平均断片長の平均値と、
    前記それぞれの核酸配列データセットにおけるより低い閾値よりも大きい断片の割合と、
    前記それぞれの核酸配列データセットにおける断片長ヒストグラムと、
    前記それぞれの核酸配列データセットにおけるN50の位相ブロックサイズと、
    前記それぞれの核酸配列データセットにおける位相ブロックヒストグラムと、
    前記核酸配列データセットのそれぞれによって表される多数の配列読み取り値と、
    前記それぞれの核酸配列データセットにおけるメジアン挿入サイズと、
    前記それぞれの核酸配列データセットにおけるメジアン深さと、
    前記それぞれの核酸配列データセットにおけるゼロカバレッジを有する前記標的ゲノムの割合と、
    前記それぞれの核酸配列データセットに対するマッピングされた読み取り値の割合と、
    前記それぞれの核酸配列データセットに対するPCR重複割合と、
    前記それぞれの核酸配列データセットに対するカバレッジヒストグラムと、
    前記それぞれの核酸配列データセットに対する塩基を形成する試験核酸の識別と、
    前記それぞれの核酸配列データセットに対するゲノムソースと、
    前記それぞれの核酸配列データセットの前記少なくとも1つの試験核酸をもたらした生命体の性別と、
    前記それぞれの核酸配列データセットの前記それぞれの試料をもたらした前記生命体の性別と、
    前記それぞれの核酸配列データセットのデータセットファイルフォーマットバージョンと、
    前記それぞれの核酸配列データセットに対してなされる複数の構造的変異呼び出しに対するポインタと
    から構成されるグループにおける2つ以上の項目を含む、請求項6に記載のシステム。
  8. 前記複数の構成要素は、前記それぞれの範囲に対する変異呼び出しデータが発見される、前記データ部におけるオフセットへの前記種の前記ゲノムのそれぞれの範囲の間の対応関係を提供する変異呼び出しデータへの前記インデックスを含む、請求項6に記載のシステム。
  9. 前記複数の構成要素は前記位相ブロック追跡を含み、前記位相ブロック追跡は、(i)辞書、及び(ii)前記少なくとも1つの種における前記ゲノムの1つまたは複数の染色体に対する位相情報を含む追跡データ部を含む、請求項6に記載のシステム。
  10. 前記辞書は、複数の名前、及び前記複数の名前におけるそれぞれの名前ごとに、前記対応する名前に対するレコードが発見される前記追跡データへのオフセットを含む、請求項9に記載のシステム。
  11. 前記追跡データ部は複数のレコードを含み、前記複数のレコードにおける各々のレコードは、前記標的核酸における位相ブロックを表す、請求項9に記載のシステム。
  12. トラクトデータ部は、JSONファイルフォーマットにある、請求項11に記載のシステム。
  13. 前記複数のレコードにおける各々のそれぞれのレコードは、
    (i)前記それぞれのレコードに対応する染色体番号と、
    (ii)前記位相ブロックが前記染色体上で開始する位置と、
    (iii)前記位相ブロックが終了する位置と、
    (iv)前記レコードに対する一意な名前と、
    (v)前記位相ブロックに関する相化情報と
    を指定する、請求項11に記載のシステム。
  14. 前記複数のレコードにおける各々のそれぞれのレコードは、複数の区間木におけるそれぞれの区間木の複数のノードにおけるノードによって表され、前記複数の区間木における各々の区間木は、前記少なくとも1つの種に対する複数の染色体における染色体を表す、請求項11に記載のシステム。
  15. 前記複数の区間木における第1の区間木の前記複数のノードにおけるノードは、前記ノードの中間点を記憶し、
    前記ノードの前記中間点は、前記対応する染色体上の、前記ノードに対応する前記位相ブロックの前記中間点の位置であり、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記少なくとも1つの種の前記ゲノムにおける前記それぞれのノードによって表される前記位相ブロックの直接左にある前記位相ブロックに対応する、左の子ノードへのリンクを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記少なくとも1つの種の前記ゲノムにおける前記それぞれのノードによって表される前記位相ブロックの直接右にある前記位相ブロックに対応する、右の子ノードへのリンクを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、そのような位相ブロックの左側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする位相ブロックを表す、分類された組のノードを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、そのような位相ブロックの右側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする位相ブロックを表す、分類された組のノードを有する、
    請求項14に記載のシステム。
  16. 前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードはさらに、前記それぞれのノードに対応する前記位相ブロックに対する位相情報を含む、前記複数のレコードにおける前記レコードへの前記追跡データ部におけるオフセットである名前を含む、請求項15に記載のシステム。
  17. 前記ヘッダはさらに、前記核酸配列データセットによって使用される前記データセット構造のバージョンを含む、請求項5に記載のシステム。
  18. 前記複数の構成要素は、前記refseqインデックスを含み、前記refseqインデックスは、前記試料で呼び出される複数の分子変異識別子のインデックスを含む、請求項6に記載のシステム。
  19. 前記複数の分子変異識別子における各々のそれぞれの分子変異識別子は、dbSNP識別子である、請求項18に記載のシステム。
  20. 前記複数の構成要素は、前記遺伝子追跡を含み、前記遺伝子追跡は、複数の遺伝子、及び前記複数の遺伝子におけるそれぞれの遺伝子ごとに、前記それぞれの遺伝子における複数の単一のヌクレオチド多型を含む、請求項6に記載のシステム。
  21. 前記複数の構成要素は、前記遺伝子追跡を含み、前記遺伝子追跡は、(i)遺伝子追跡辞書、及び(ii)遺伝子追跡データ部を含む、請求項6に記載のシステム。
  22. 前記遺伝子追跡辞書は、複数の名前、及び前記複数の名前におけるそれぞれの名前ごとに、前記対応する名前に対するレコードが発見される前記遺伝子追跡データ部へのオフセットを含む、請求項21に記載のシステム。
  23. 前記遺伝子追跡データ部は、複数のレコードを含み、前記複数のレコードにおける各々のレコードは、前記標的核酸における遺伝子を表す、請求項21に記載のシステム。
  24. 前記遺伝子トラクトデータ部は、前記JSONファイルフォーマットにある、請求項23に記載のシステム。
  25. 前記複数のレコードにおける各々のそれぞれのレコードは、
    (i)前記それぞれのレコードに対応する染色体番号と、
    (ii)前記それぞれのレコードによって表される前記遺伝子が始まる染色体上の位置と、
    (iii)前記それぞれのレコードによって表される前記遺伝子が終了する染色体上の位置と、
    (iv)前記それぞれのレコードに対する一意な名前と、
    (v)前記遺伝子に関する遺伝子情報と
    を指定する、請求項23に記載のシステム。
  26. 前記遺伝子に関する前記遺伝子情報は、前記遺伝子に対する代替名、前記遺伝子上の単一のヌクレオチド多型のカウント、または前記それぞれの染色体上の前記遺伝子の方向を含む、請求項23に記載のシステム。
  27. 前記複数の遺伝子レコードにおける各々のそれぞれの遺伝子レコードは、複数の区間木におけるそれぞれの区間木の複数のノードにおけるノードによって表され、前記複数の区間木における各々の区間木は、前記少なくとも1つの種に対する複数の染色体における染色体を表す、請求項23に記載のシステム。
  28. 前記複数の区間木における第1の区間木の前記複数のノードにおけるノードは、前記ノードの中間点を記憶し、
    前記ノードの前記中間点は、前記対応する染色体上の、前記ノードに対応する前記遺伝子の前記中間点の位置であり、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記少なくとも1つの種の前記ゲノムにおける前記それぞれのノードによって表される前記遺伝子の直接左にある前記遺伝子に対応する、左の子ノードへのリンクを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記少なくとも1つの種の前記ゲノムにおける前記それぞれのノードによって表される前記遺伝子の直接右にある前記遺伝子に対応する、右の子ノードへのリンクを有し、

    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記それぞれの遺伝子の左側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする遺伝子を表す、分類された組のノードを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、そのような遺伝子の右側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする遺伝子を表す、分類された組のノードを有する、
    請求項27に記載のシステム。
  29. 前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードはさらに、前記それぞれのノードに対応する前記遺伝子に対する遺伝子情報を含む前記複数の遺伝子レコードにおける前記遺伝子レコードへの前記追跡データ部におけるオフセットである名前を含む、請求項28に記載のシステム。
  30. 前記複数の構成要素は、読み取りデータへの前記インデックスを含み、読み取りデータへの前記インデックスは、前記複数の識別子におけるそれぞれの識別子と前記それぞれの識別子の短縮バージョンとの間のルックアップテーブルを含む、請求項6に記載のシステム。
  31. 前記データ部は、複数のチャンクに編成されるレコードのブロック化インデックスとして記憶され、
    前記複数のチャンクにおける各々のそれぞれのチャンクは、前記複数の配列読み取り値のサブセットを含み、
    読み取りデータへの前記インデックスはさらに、前記複数のチャンクと、それによって前記複数のチャンクにおける各々のチャンクを前記少なくとも1つの種における種のゲノムにおける異なる絶対位置に割り当てる前記少なくとも1つの種の前記ゲノムにおける絶対位置との間のファイル−オフセット関連付けへの染色体−オフセットの染色体ごとのアレイを含む、請求項30に記載のシステム。
  32. 前記複数のチャンクにおけるそれぞれのチャンクは、構造のアレイであり、前記アレイにおけるそれぞれの各々のそれぞれの構造は、前記それぞれのチャンクにおける前記複数の配列読み取り値の対応する配列読み取り値を表し、各々の構造は、
    前記対応する配列読み取り値の読み取り品質を示すために確保された第1のビットと、
    前記対応する配列読み取り値に対する第1の親ハプロタイプからの起点を表す第2のビットと、
    前記対応する配列読み取り値に対する第2の親ハプロタイプからの起点を表す第3のビットと、
    前記対応する配列読み取り値に対する前記複数の識別子における識別子の前記短縮バージョンを表す第1の複数のビットと、
    前記対応する配列読み取り値の長さを表す第2の複数のビットと、
    前記それぞれのチャンクに割り当てられた前記種のゲノムにおける前記絶対位置に対する前記対応する配列読み取り値の開始位置を表す第3の複数のビットと
    を含む、請求項31に記載のシステム。
  33. 前記種は人間であり、前記それぞれのチャンクは、約100万の塩基の対、またはそれ未満を表す、請求項32に記載のシステム。
  34. 前記第1の複数のビットは20ビットであり、前記種は人間であり、前記それぞれのチャンクは、約100万の塩基の対、またはそれ未満を表し、構造の前記アレイにおける各々の構造は、予め定められたビットサイズである、請求項32に記載のシステム。
  35. 前記識別子の前記短縮バージョンに対応する、読み取りデータへの前記インデックスに記憶された前記識別子は、24ビットを必要とする、請求項32に記載のシステム。
  36. 前記識別子の前記短縮バージョンに対応する、読み取りデータへの前記インデックスに記憶された前記識別子は、30ビット、32ビット、34ビット、または36ビットを必要とする、請求項32に記載のシステム。
  37. 前記複数の構成要素は、前記構造的変異データセット追跡を含み、
    構造的変異データセット追跡は、(i)辞書、及び(ii)前記複数の配列読み取り値で識別された構造的変異呼び出し情報を含む追跡データ部を含む、請求項6に記載のシステム。
  38. 前記辞書は、複数の名前、及び前記複数の名前における各々のそれぞれの名前ごとに、前記対応する名前に対するレコードが発見される前記追跡データへのオフセットを含む、請求項37に記載のシステム。
  39. 前記複数の名前における名前は、染色体に対応する、請求項38に記載のシステム。
  40. 前記追跡データ部は、複数の構造的変異レコードを含み、
    前記複数の構造的変異レコードにおける各々の構造的変異レコードは、前記試料における前記少なくとも1つの標的核酸でなされる構造的変異呼び出しを表す、請求項38に記載のシステム。
  41. 前記トラクトデータ部は、前記JSONファイルフォーマットにある、請求項40に記載のシステム。
  42. 前記複数の構造的変異レコードにおけるそれぞれの構造的変異レコードは、前記それぞれの構造的変異レコード、及び
    (i)前記それぞれの構造的変異レコードによって表される前記構造的変異の名前と、
    (ii)前記それぞれの構造的変異レコードによって表される前記構造的変異の前記識別の信頼度における前記品質の表現と
    のうちの少なくとも1つによって表される、前記構造的変異に対する第1の染色体上の開始点、及び第2の染色体上の終了点を指定する、請求項40に記載のシステム。
  43. 前記複数の構造的変異レコードにおける各々のそれぞれの構造的変異レコードは、複数の区間木におけるそれぞれの区間木の複数のノードにおけるノードによって表され、
    前記複数の区間木における各々の区間木は、前記種に対する複数の染色体における染色体を表す、請求項40に記載のシステム。
  44. 前記複数の区間木における第1の区間木の前記複数のノードにおけるノードは、前記ノードの中間点を記憶し、
    前記ノードの前記中間点は、前記対応する染色体上の、前記ノードに対応する前記構造的変異の前記中間点の位置であり、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記種の前記ゲノムにおける前記それぞれのノードによって表される前記構造的変異の直接左にある前記構造的変異に対応する、左の子ノードへのリンクを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、前記種の前記ゲノムにおける前記それぞれのノードによって表される前記構造的変異の直接右にある前記構造的変異に対応する、右の子ノードへのリンクを有し、

    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、そのような構造的変異の左側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする構造的変異を表す、分類された組のノードを有し、
    前記第1の区間木の前記複数のノードにおける各々のそれぞれのノードは、そのような構造的変異の右側位置によって分類される前記それぞれのノードの前記中間点にオーバラップする構造的変異を表す、分類された組のノードを有する、
    請求項43に記載のシステム。
  45. 前記複数の構成要素は、前記標的データセットへの前記インデックスを含み、
    前記標的データセットは、前記それぞれの核酸配列データセットにおいて配列するために選択された前記試料における前記少なくとも1つの標的核酸の前記領域を含み、
    前記標的データセットは、前記シノプシスに記憶された標的データセットインデックスによってインデックス付けされ、
    前記標的データセットは、前記データ部に記憶される、
    請求項6に記載のシステム。
  46. 前記標的データセットから前記標的データセットのどの部分が読み込まれるべきかを算出して前記要求を満たすために前記標的データセットインデックスを使用するように1つまたは複数の物理プロセッサによって実行される、命令をさらに含む、請求項45に記載のシステム。
  47. 前記標的データセットインデックスは、染色体によって分割され、それぞれの染色体ごとに、
    前記標的データセットインデックスは、前記それぞれの染色体上の範囲を、その範囲に対する特定のデータを前記標的データセットにおいて発見し得る前記オフセットと関連付ける対応するアレイを記憶する、
    請求項45に記載のシステム。
  48. 前記複数の構成要素は、前記断片データセットへの前記インデックスを含み、
    前記断片データセットは、前記試料における前記少なくとも1つの標的核酸の長さ、染色体位置、識別子、及び各々の断片の位相を含み、
    前記断片データセットは、前記シノプシスに記憶された断片データセットインデックスによってインデックス付けされ、
    前記断片データセットは、前記データ部に記憶される、
    請求項6に記載のシステム。
  49. 前記断片データセットから前記断片データセットのどの部分が読み込まれるべきかを算出して前記要求を満たすために前記断片データセットインデックスを使用するように前記1つまたは複数の物理プロセッサによって実行される、命令をさらに含む、請求項48に記載のシステム。
  50. 前記断片データセットインデックスは、染色体によって分割され、それぞれの染色体ごとに、前記断片データセットインデックスは、前記それぞれの染色体上の範囲を、その範囲に対する特定のデータを前記断片データセットにおいて発見し得る前記オフセットと関連付ける対応するアレイを記憶する、請求項49に記載のシステム。
  51. 前記要求は、前記ゲノムの領域における相化情報に対するものであり、前記フォーマットされた相化情報は、
    前記第1のデータセットに対する前記ゲノムの前記領域における前記少なくとも1つの種の第1の種の第1の親ハプロタイプに対応する第1のハプロタイプ追跡と、
    前記第1のデータセットに対する前記ゲノムの前記領域における前記第1の種の第2の親ハプロタイプに対応する第2のハプロタイプ追跡と、
    前記第1のデータセットに対する前記ゲノムの前記領域における親ハプロタイプは割り当てられていない前記少なくとも1つの核酸試料の領域に対応する不確定(indeterminate)追跡と
    を含むグラフィック表現を含む、請求項1〜4のいずれか1項に記載のシステム。
  52. 前記第1のデータセットにおける前記領域の各々の位相ブロックは、長方形のボックスによって囲まれる、請求項51に記載のシステム。
  53. 前記第1のデータセットにおける前記領域は、2個以上の位相ブロック、5個以上の位相ブロック、または10個以上の位相ブロックを含む、請求項52に記載のシステム。
  54. 前記第1のハプロタイプ追跡、前記第2のハプロタイプ追跡及び前記不確定追跡は、複数の縦型バーを含み、各々の縦型バーは、前記少なくとも1つの標的核酸における単一のヌクレオチド多型、挿入、また欠失を表す、請求項51に記載のシステム。
  55. 前記複数の縦型バーにおける各々の縦型バーは、参照遺伝子型及び代替遺伝子型のうちの1つを示すように色分けされる、請求項54に記載のシステム。
  56. 前記グラフィック表現はさらに、染色体マップ、及び前記ゲノムの前記領域によって囲まれた前記染色体マップ上の位置を含む、請求項51に記載のシステム。
  57. 前記グラフィック表現はさらに、前記ゲノムの前記領域にある各々の遺伝子のグラフィック表現を含む、請求項51に記載のシステム。
  58. 前記グラフィック表現はさらに、前記ゲノムの前記領域にある各々のエクソンのグラフィック表現を含む、請求項51に記載のシステム。
  59. 前記グラフィック表現はさらに、前記ゲノムの前記領域に対するカバレッジ追跡を含み、前記カバレッジ追跡は、複数の縦型バーを含み、前記複数の縦型バーにおける各々のそれぞれの縦型バーは、前記バーの下の前記ゲノムの対応する部分に対する前記第1のデータセットにおける塩基ごとの平均カバレッジを示す、請求項51に記載のシステム。
  60. 前記グラフィック表現はさらに、前記ゲノムの前記領域で生じる1つまたは複数の構造的変異に対する分岐点追跡を含む、請求項51に記載のシステム。
  61. 前記1つまたは複数の構造的変異における前記分岐点追跡は、染色体間転座、遺伝子融合、逆位、または欠失を含む、請求項60に記載のシステム。
  62. 前記1つまたは複数の構造的変異における第1の構造的変異は、前記ユーザによって選択されるとき、前記第1の構造的変異の前記分岐点にズームされる追加のハプロタイプ追跡を選択されるときに提供する構造的変異ズームアフォーダンスを提供するグラフィックとしてフォーマットされる、請求項60に記載のシステム。
  63. 前記1つまたは複数の核酸配列データセットは、単一の核酸配列データセットである、請求項1〜4のいずれか1項に記載のシステム。
  64. 前記1つまたは複数の核酸配列データセットは、複数の核酸配列データセットである、請求項1〜4のいずれか1項に記載のシステム。
  65. 前記複数の核酸配列データセットは、10個の核酸配列データセット、100個の核酸配列データセット、または1000個の核酸配列データセットを含む、請求項64に記載のシステム。
  66. 前記要求は、式構文(expression syntax)に従ってフォーマットされる、請求項1〜65のいずれか1項に記載のシステム。
  67. 前記式構文は、X:N−Nであり、
    は、選択された第1の染色体または選択された第1のコンティグ配列の識別であり、
    は、前記第1の染色体または前記選択された第1のコンティグ配列内での選択された開始位置であり、
    は、前記第1の染色体または前記選択された第1のコンティグ配列内での選択された終了位置である、
    請求項66に記載のシステム。
  68. 前記式構文は、X:N−Nであり、
    は、選択された第1の染色体または選択された第1のコンティグ配列の識別であり、
    は、前記第1の染色体または前記選択された第1のコンティグ配列内での選択された開始位置であり、
    は、前記第1の染色体または前記選択された第1のコンティグ配列内での選択された終了位置である、
    請求項66に記載のシステム。
  69. 前記式構文は、X:Nであり、
    は、選択された第1の染色体または選択された第1のコンティグ配列の識別であり、
    は、前記第1の染色体または前記選択された第1のコンティグ配列の起点において始まる多数のヌクレオチドである、
    請求項66に記載のシステム。
  70. 前記式構文は、Y、Y、…、Yであり、
    、Y、…、Yにおける各々のYは、選択された遺伝子、染色体領域の選択、またはコンティグ配列の領域の選択のいずれかの英数字識別である、
    請求項66に記載のシステム。
  71. 、Y、…、Yにおける第1のYは、構文X:N−Nを有する第1の染色体または第1のコンティグ配列の識別であり、Xは、前記第1の染色体または前記第1のコンティグ配列の識別であり、Nは、前記第1の染色体または前記第1のコンティグ配列内の選択された開始位置であり、Nは、前記第1の染色体または前記第1のコンティグ配列内の選択された終了位置であり、
    、Y、…、Yにおける第2のYは、選択された遺伝子の英数字識別である、
    請求項70に記載のシステム。
  72. 、Y、…、Yにおける第1のYは、構文X:N−Nを有する第1の染色体または第1のコンティグ配列の識別であり、Xは、前記第1の染色体または前記第1のコンティグ配列の識別であり、Nは、前記第1の染色体または前記第1のコンティグ配列内の選択された開始位置であり、Nは、前記第1の染色体または前記第1のコンティグ配列内の選択された終了位置であり、
    、Y、…、Yにおける第2のYは、選択された遺伝子の英数字識別である、
    請求項70に記載のシステム。
  73. 前記要求は、人間の介入なしに、遺伝子の英数字エントリをゲノム座標に一致させる1つまたは複数のルックアップテーブルと前記要求を比較することによって、ゲノム座標に変換される、請求項1〜4のいずれか1項に記載のシステム。
  74. 前記要求は、1つまたは複数の遺伝子名、1つまたは複数のゲノム座標、またはそれらの組み合わせを含む、請求項1〜4のいずれか1項に記載のシステム。
  75. 前記要求を取得することは、前記ユーザによってなされた過去の要求を表示することによって促進される、請求項1〜74のいずれか1項に記載のシステム。
  76. 前記要求を取得することは、前記ユーザによって提供された部分的要求に一致するルックアップテーブルから取得されたユーザ検索式に表示することによって促進される、請求項1〜74のいずれか1項に記載のシステム。
  77. 前記それぞれの試料は、複数の種のゲノムと関連付けられ、ならびに少なくとも第1の種の前記ゲノムの一部、及び前記第2の種の前記ゲノムの一部を含む、請求項1〜4のいずれか1項に記載のシステム。
  78. 前記第1の種の前記ゲノムの前記一部は、前記第2の種の前記ゲノムの前記一部に統合される、請求項77に記載のシステム。
  79. 前記第1の種はレトロウイルスである、請求項78に記載のシステム。
  80. 前記第1の種の前記ゲノムの前記一部は、前記第2の種の前記ゲノムの前記一部に統合されない、請求項77に記載のシステム。
  81. ローカルコンピュータを使用して、プログラム出力をネットワーク接続上で処理するシステムであって、前記ローカルコンピュータは、1つまたは複数のマイクロプロセッサ、及び1つまたは複数のプログラムを記憶したメモリを含み、前記1つまたは複数のプログラムは、前記ローカルコンピュータ上で実行する第1のオペレーティングシステムに従って方法を実行するように前記1つまたは複数のマイクロプロセッサを使用し、前記方法は、
    (A)第1のプログラムの第1のインスタンスを呼び出すことと、
    (B)前記第1のプログラムの前記第1のインスタンスを通じて、ユーザから、リモートコンピュータ上のユーザアカウントに対するログイン及びパスワードを取得することと、
    (C)前記ローカルコンピュータと前記リモートコンピュータとの間のネットワーク接続にわたって、前記第1のプログラムの前記第1のインスタンスによって提供される前記ログイン及び前記パスワードを使用して、前記リモートコンピュータ上で前記ユーザアカウントに前記ユーザを自動的にログインさせることと、
    (D)前記リモートコンピュータ上でのログインに成功したことに応答して、人間の介入なしに、前記リモートコンピュータに送信するときに前記リモートコンピュータ上で自動インストールするように構成された前記第1のプログラムの第2のインスタンスを自動的に送信することと、
    (E)前記第1のプログラムの前記第1のインスタンス内でパネルを開く要求を前記リモートコンピュータから受信することであって、前記パネルは、前記リモートコンピュータ上で実行する前記第1のプログラムの前記第2のインスタンスによって開始され、前記パネルは、前記第1のプログラムの前記第2のインスタンスを制御するための前記ユーザからの入力を請求する、ことと、
    (F)前記ローカルコンピュータ上の前記パネルにおいて前記第1のプログラムの前記第2のインスタンスを制御するための前記ユーザからの入力を受信したことに応答して、前記入力を前記リモートコンピュータ上の前記第1のプログラムの前記第2のインスタンスに送信することと、
    (G)前記ネットワーク接続にわたって前記リモートコンピュータから、前記入力に応答した前記第1のプログラムの前記第2のインスタンスからの出力を受信し、前記出力を前記ローカルコンピュータにおいて表示することと
    を備える、前記システム。
  82. リモートコンピュータはサーバコンピュータであり、前記ローカルコンピュータは、デスクトップコンピュータまたはラップトップコンピュータである、請求項81に記載のシステム。
  83. 前記第1のオペレーティングシステムは、前記第2のオペレーティングシステム以外である、請求項81に記載のシステム。
  84. 前記受信すること(E)はさらに、前記ユーザから暗号鍵を請求し、前記クライアントコンピュータ上の前記第1のインスタンスと前記リモートコンピュータ上の前記第2のインスタンスとの間の通信は暗号化される、請求項81に記載のシステム。
  85. 前記リモートコンピュータは、永続的メモリ及び非永続的メモリを含み、前記永続的メモリ及び前記非永続的メモリは共同で、1つまたは複数の核酸配列データセットを記憶し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列化データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    前記第1のプログラムの前記第2のインスタンスを制御するための前記ユーザから受信された前記入力は、前記1つまたは複数のデータセットにおける第1のデータセットを使用した構造的変異または相化情報に対する要求であり、
    前記要求を受信したことに応答して、前記第1のプログラムの前記第2のインスタンスは、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、
    (iv)前記第1のデータセットを使用して、前記第1のプログラムの前記第1のインスタンスにおける前記パネルで表示するための構造的変異または相化情報をフォーマットし、
    (v)前記フォーマットされた構造的変異または相化情報を、前記第1のパネルで表示するために、前記ネットワーク接続上で前記第1のプログラムの前記第2のインスタンスからの出力として前記ローカルコンピュータに送信する
    ことによって、前記要求をフィルタリングする、
    請求項81に記載のシステム。
  86. 核酸配列データを見るためのシステムであって、前記システムは、1つまたは複数のマイクロプロセッサ、及びメモリを含み、前記メモリは、
    試料における少なくとも1つの標的核酸に対応する核酸配列データセットを取得し、前記核酸配列データセットは、前記試料からの複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列化読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    視覚化ツールを表示し、
    前記視覚化ツールを通じて、前記核酸配列データセットによって表されるゲノム領域を指定する要求をユーザから取得し、
    前記取得された要求に応答して、
    (i)前記ゲノム領域内の複数の配列読み取り値を前記核酸配列データセットから取得し、
    (ii)前記複数の配列読み取り値に対してスキャンウインドウを実行し、それによって複数のウインドウを作成し、前記複数のウインドウの各々のそれぞれのウインドウは、前記ゲノム領域の異なる領域に対応し、前記核酸配列データセットにおける前記ゲノム領域の前記異なる領域における各々の配列読み取り値の各々の識別子の識別を含み、
    (iii)前記複数のウインドウにおける各々の考えられるウインドウの対を表す2次元ヒートマップを表示し、各々のそれぞれのウインドウの対は、前記それぞれのウインドウの対で共通な識別子の番号に基づいて色スキームから選択された色として前記2次元ヒートマップで表示される
    ことによって前記要求を構文解析する
    ために前記1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する、
    前記システム。
  87. 前記視覚化ツールは、予期されるオーバラップを非表示にするアフォーダンスを提供し、
    ユーザが前記予期されるオーバラップを非表示にするアフォーダンスに関与するとき、参照ゲノムに従って相互に隣接すると予期される配列読み取り値の識別子は、前記それぞれのウインドウの対で共通な多くの識別子のカウントに貢献せず、
    ユーザが前記予期されるオーバラップを非表示にするアフォーダンスに関与しないとき、参照ゲノムに従って相互に隣接すると予期される配列読み取り値の識別子は、前記それぞれのウインドウの対で共通な識別子の前記数の前記カウントに貢献する、
    請求項86に記載のシステム。
  88. 前記視覚化ツールは、品質アフォーダンスを提供し、
    ユーザが前記品質アフォーダンスに関与するとき、参照ゲノムにおける位置への前記それぞれの配列読み取り値の割り当ての品質を定量化する品質閾値を満たさないそれぞれの配列読み取り値の識別子は、前記それぞれのウインドウの対で共通な識別子の前記数のカウントに貢献せず、
    ユーザが前記品質アフォーダンスに関与しないとき、参照ゲノムにおける位置への前記それぞれの配列読み取り値の割り当ての品質を定量化する品質閾値を満たさないそれぞれの配列読み取り値の識別子は、前記それぞれのウインドウの対で共通な識別子の前記数のカウントに貢献する、
    請求項86に記載のシステム。
  89. 前記視覚化ツールは、前記ヒートマップをズームするためのズームアフォーダンスを提供する、請求項86に記載のシステム。
  90. 前記視覚化ツールは、前記ヒートマップをパンするためのパンアフォーダンスを提供する、請求項86に記載のシステム。
  91. ネットワーク接続上で構造的変異または相化情報をリモートクライアントコンピュータに提供する方法であって、
    1つまたは複数のマイクロプロセッサ、永続的メモリ及び非永続的メモリを含むシステムであって、前記永続的メモリ及び前記非永続的メモリは共同で、1つまたは複数の核酸配列データセットを記憶し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含む、
    前記システムにおいて、
    (A)前記リモートクライアントコンピュータ上でインストールするための視覚化ツールを提供することと、
    (B)前記1つまたは複数のデータセットにおける第1のデータセットを使用して、ネットワーク接続上で、構造的変異または相化情報に対する前記リモートクライアントコンピュータから送信された要求をユーザから取得することと、
    (C)前記要求を取得したことに応答して、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、前記ロードは、前記データ部の前記全体よりも少なく前記データ部をロードし、
    (iv)前記第1のデータセットを使用して、前記クライアントコンピュータ上で表示するための構造的変異または相化情報をフォーマットし、
    (v)前記フォーマットされた構造的変異または相化情報を、前記リモートクライアントコンピュータ上で表示するために、前記ネットワーク接続上で前記リモートクライアントコンピュータに送信する
    ことによって、前記要求を自動的に構文解析することと、
    を備える、前記方法。
  92. 構造的変異または相化情報を提供する方法であって、
    1つまたは複数のマイクロプロセッサ、永続的メモリ及び非永続的メモリを含むシステムであって、前記永続的メモリ及び前記非永続的メモリは共同で、1つまたは複数の核酸配列データセットを記憶し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列化データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列化読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含む、
    前記システムにおいて、
    (A)視覚化ツールを提供することと、
    (B)前記1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得し、
    (C)前記要求を取得したことに応答して、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、前記ロードは、前記データ部の前記全体よりも少なくロードし、
    (iv)前記第1のデータセットを使用して、前記視覚化ツールで表示するための構造的変異または相化情報をフォーマットし、
    (v)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示する
    ことによって、前記要求を自動的に構文解析することと、
    を備える、前記方法。
  93. ネットワーク接続上で構造的変異または相化情報をリモートコンピュータから取得する方法であって、
    1つまたは複数のマイクロプロセッサ、及び1つまたは複数のプログラムを記憶したメモリを含むシステムにおいて、
    (A)視覚化ツールを呼び出すことと、
    (B)前記リモートコンピュータに記憶された1つまたは複数の核酸配列データセットからの第1の核酸配列データセットにおける構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得することであって、前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含む、ことと、
    (C)前記要求を前記ネットワーク接続上で前記リモートコンピュータに送信することであって、前記リモートコンピュータは、永続的メモリ及び非永続的メモリを有し、それによって、
    (i)前記非永続的メモリにいまだロードされていない一方で、前記データ部を永続的メモリに保持している場合、前記第1のデータセットの前記ヘッダ及び前記シノプシスを前記非永続的メモリにロードし、
    (ii)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (iii)前記データ部の前記1つまたは複数の識別された部分を非永続的メモリにロードし、前記ロードは、前記データ部の前記全体よりも少なくロードし、
    (iv)構造的変異または相化情報をフォーマットすることと
    を含む方法を前記リモートコンピュータに実行させる、ことと、
    (D)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示するために前記ネットワーク接続上で前記リモートコンピュータから受信することと
    を備える、前記方法。
  94. 構造的変異または相化情報を提供する方法であって、
    1つまたは複数のマイクロプロセッサ及びメモリを含むシステムであって、前記システムは、1つまたは複数の核酸配列データセットに対するアクセスを有し、
    前記1つまたは複数の核酸配列データセットにおける各々のそれぞれの核酸配列データセットは、複数の試料におけるそれぞれの試料の少なくとも1つの標的核酸に対応し、
    前記それぞれの試料は、少なくとも1つの種のゲノムと関連付けられ、
    前記それぞれの核酸配列データセットは、(i)ヘッダ、(ii)シノプシス、及び(iii)データ部を含み、
    前記データ部は、複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含む、
    前記システムにおいて、
    (A)視覚化ツールを提供することと、
    (B)前記1つまたは複数のデータセットにおける第1のデータセットを使用して、構造的変異または相化情報に対する要求を、前記視覚化ツールを通じてユーザから取得することと、
    (C)前記要求を取得したことに応答して、
    (i)配列情報に対する前記要求を前記第1のデータセットの前記シノプシスと比較し、それによって前記第1のデータセットの前記データ部の1つまたは複数の部分を識別し、
    (ii)前記第1のデータセットの前記データ部の前記識別された1つまたは複数の部分を使用して、前記視覚化ツールで表示するための構造的変異または相化情報をフォーマットし、前記第1のデータセットの前記データ部の前記1つまたは複数の部分は、前記第1のデータセットの前記データ部の前記全部よりも少なく、
    (iii)前記フォーマットされた構造的変異または相化情報を、前記視覚化ツールで表示する
    ことを含む方法によって、前記要求を自動的に構文解析することと、
    を備える、前記方法。
  95. プログラム出力をネットワーク接続上で処理する方法であって、
    ローカルコンピュータであって、前記ローカルコンピュータは、1つまたは複数のマイクロプロセッサ、及び1つまたは複数のプログラムを記憶したメモリを含む、前記ローカルコンピュータにおいて、
    (A)第1のプログラムの第1のインスタンスを呼び出すことと、
    (B)前記第1のプログラムの前記第1のインスタンスを通じて、ユーザから、リモートコンピュータ上のユーザアカウントに対するログイン及びパスワードを取得することと、
    (C)前記ローカルコンピュータと前記リモートコンピュータとの間のネットワーク接続にわたって、前記第1のプログラムの前記第1のインスタンスによって提供される前記ログイン及び前記パスワードを使用して、前記リモートコンピュータ上で前記ユーザアカウントに前記ユーザを自動的にログインさせることと、
    (D)前記リモートコンピュータ上でのログインに成功したことに応答して、人間の介入なしに、前記リモートコンピュータに送信するときに前記リモートコンピュータ上で自動インストールするように構成された前記第1のプログラムの第2のインスタンスを自動的に送信することと、
    (E)前記第1のプログラムの前記第1のインスタンス内でパネルを開く要求を前記リモートコンピュータから受信することであって、前記パネルは、前記リモートコンピュータ上で実行する前記第1のプログラムの前記第2のインスタンスによって開始され、前記パネルは、前記第1のプログラムの前記第2のインスタンスを制御するための前記ユーザからの入力を請求する、ことと、
    (F)前記ローカルコンピュータの前記パネルにおいて前記第1のプログラムの前記第2のインスタンスを制御するための前記ユーザからの入力を受信したことに応答して、前記入力を前記リモートコンピュータ上の前記第1のプログラムの前記第2のインスタンスに送信することと、
    (G)前記ネットワーク接続にわたって前記リモートコンピュータから、前記入力に応答した前記第1のプログラムの前記第2のインスタンスからの出力を受信し、前記出力を前記ローカルコンピュータにおいて表示することと、
    を備える、前記方法。
  96. 核酸配列データを見るための方法であって、
    1つまたは複数のマイクロプロセッサ、及びメモリを含むシステムにおいて、前記メモリは、
    試料における少なくとも1つの標的核酸に対応する核酸配列データセットを取得し、前記核酸配列データセットは、前記試料からの複数の配列読み取り値を含み、
    前記複数の配列読み取り値における各々のそれぞれの配列読み取り値は、前記それぞれの試料における少なくとも1つの標的核酸のサブセットに対応する第1の部分、及び複数の識別子における前記それぞれの配列読み取り値に対するそれぞれの識別子を符号化する第2の部分を含み、
    各々のそれぞれの識別子は、前記少なくとも1つの標的核酸の前記配列から独立し、
    前記複数の配列読み取り値は共同で、前記複数の識別子を含み、
    視覚化ツールを表示し、
    前記視覚化ツールを通じて、前記核酸配列データセットによって表されるゲノム領域を指定するユーザからの要求を取得し、
    前記取得された要求に応答して、
    (i)前記ゲノム領域内の複数の配列読み取り値を前記核酸配列データセットから取得し、
    (ii)前記複数の配列読み取り値に対してスキャンウインドウを実行し、それによって複数のウインドウを作成し、前記複数のウインドウの各々のそれぞれのウインドウは、前記ゲノム領域の異なる領域に対応し、前記核酸配列データセットにおける前記ゲノム領域の前記異なる領域における各々の配列読み取り値の各々の識別子の識別を含み、
    (iii)前記複数のウインドウにおける各々のウインドウの対を表す2次元ヒートマップを表示し、各々のそれぞれのウインドウの対は、前記それぞれのウインドウの対で共通な識別子の数に基づいて色スキームから選択された色として前記2次元ヒートマップで表示される
    ことによって前記要求を構文解析する
    ように前記1つまたは複数のマイクロプロセッサを使用する1つまたは複数のプログラムを記憶する、
    ことを含む、前記方法。
  97. 前記2次元ヒートマップにおけるウインドウの対は、前記試料に対応する参照ゲノムにおいて相互に100キロベースよりも多く離れた第1のウインドウ及び第2のウインドウを表す、請求項96に記載の方法。
  98. 前記2次元ヒートマップにおけるウインドウの対は、前記試料に対応する参照ゲノムにおいて相互にメガベースよりも多く離れた第1のウインドウ及び第2のウインドウを表す、請求項96に記載の方法。
  99. 前記2次元ヒートマップにおけるウインドウの対は、前記試料に対応する参照ゲノムにおいて相互に5メガベースよりも多く離れた第1のウインドウ及び第2のウインドウを表す、請求項96に記載の方法。
  100. 前記それぞれのウインドウの対において共通な識別子の前記数は、前記試料に対応する前記参照ゲノム配列に基づいて相互に近似していると予期されるバーコードを除去するために低く重み付けがされる、請求項96に記載の方法。
  101. 前記複数の配列読み取り値は、平均断片長によって特徴付けられ、前記それぞれのウインドウの対において共通な識別子の前記数は、前記試料に対応する前記参照ゲノム配列に基づいて相互の平均断片長の倍数内にあると予期されるバーコードを除去するために低く重み付けがされる、請求項96に記載の方法。
  102. 前記倍数は、0と1との間の実数である、請求項101に記載の方法。
  103. 前記倍数は、1以上の実数である、請求項101に記載の方法。
  104. 前記倍数は、正の整数である、請求項101に記載の方法。
JP2017533566A 2015-01-13 2016-01-13 構造的変異及び相化情報を視覚化するシステム及び方法 Ceased JP2018508852A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562102926P 2015-01-13 2015-01-13
US62/102,926 2015-01-13
US201562120873P 2015-02-25 2015-02-25
US62/120,873 2015-02-25
PCT/US2016/013290 WO2016115273A1 (en) 2015-01-13 2016-01-13 Systems and methods for visualizing structural variation and phasing information

Publications (2)

Publication Number Publication Date
JP2018508852A true JP2018508852A (ja) 2018-03-29
JP2018508852A5 JP2018508852A5 (ja) 2019-02-07

Family

ID=56367713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017533566A Ceased JP2018508852A (ja) 2015-01-13 2016-01-13 構造的変異及び相化情報を視覚化するシステム及び方法

Country Status (11)

Country Link
US (2) US10650912B2 (ja)
EP (2) EP4092681A1 (ja)
JP (1) JP2018508852A (ja)
KR (1) KR20170106979A (ja)
CN (1) CN107209814B (ja)
AU (2) AU2016206706B2 (ja)
CA (1) CA2968417A1 (ja)
IL (1) IL252415A0 (ja)
MX (1) MX2017008916A (ja)
SG (2) SG11201705425SA (ja)
WO (1) WO2016115273A1 (ja)

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10584381B2 (en) 2012-08-14 2020-03-10 10X Genomics, Inc. Methods and systems for processing polynucleotides
WO2014028537A1 (en) 2012-08-14 2014-02-20 10X Technologies, Inc. Microcapsule compositions and methods
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9644204B2 (en) 2013-02-08 2017-05-09 10X Genomics, Inc. Partitioning and processing of analytes and other species
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
CN105392902B (zh) 2014-06-24 2021-10-29 生物辐射实验室股份有限公司 数字式pcr条码化
US12312640B2 (en) 2014-06-26 2025-05-27 10X Genomics, Inc. Analysis of nucleic acid sequences
MX2016016902A (es) 2014-06-26 2017-03-27 10X Genomics Inc Metodos para analizar acidos nucleicos de celulas individuales o poblaciones de celulas.
JP2017522866A (ja) 2014-06-26 2017-08-17 10エックス ジェノミクス, インコーポレイテッド 核酸配列の分析
AU2016207023B2 (en) 2015-01-12 2019-12-05 10X Genomics, Inc. Processes and systems for preparing nucleic acid sequencing libraries and libraries prepared using same
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US11371094B2 (en) 2015-11-19 2022-06-28 10X Genomics, Inc. Systems and methods for nucleic acid processing using degenerate nucleotides
US11081208B2 (en) 2016-02-11 2021-08-03 10X Genomics, Inc. Systems, methods, and media for de novo assembly of whole genome sequence data
CA3014292A1 (en) 2016-02-12 2017-08-17 Regeneron Pharmaceuticals, Inc. Methods and systems for detection of abnormal karyotypes
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US10515085B2 (en) 2016-06-19 2019-12-24 Data.World, Inc. Consolidator platform to implement collaborative datasets via distributed computer networks
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11086896B2 (en) * 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US11468049B2 (en) 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US11042537B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US11036697B2 (en) 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
EP3497233B1 (en) 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
US12009062B2 (en) 2016-09-30 2024-06-11 Microsoft Technology Licensing, Llc Efficient clustering of noisy polynucleotide sequence reads
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
CN106685716B (zh) * 2016-12-29 2019-04-26 平安科技(深圳)有限公司 网络拓扑自适应的数据可视化方法及装置
US12264411B2 (en) 2017-01-30 2025-04-01 10X Genomics, Inc. Methods and systems for analysis
CN110214186B (zh) 2017-01-30 2023-11-24 10X基因组学有限公司 用于基于微滴的单细胞条形编码的方法和系统
US10995333B2 (en) 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
US11238109B2 (en) 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11068453B2 (en) 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US12008050B2 (en) 2017-03-09 2024-06-11 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US10176296B2 (en) * 2017-05-17 2019-01-08 International Business Machines Corporation Algebraic phasing of polyploids
US10544413B2 (en) 2017-05-18 2020-01-28 10X Genomics, Inc. Methods and systems for sorting droplets and beads
EP4435113A1 (en) 2017-05-18 2024-09-25 10x Genomics, Inc. Methods and systems for sorting droplets and beads
US10610865B2 (en) 2017-08-22 2020-04-07 10X Genomics, Inc. Droplet forming devices and system with differential surface properties
US10837047B2 (en) 2017-10-04 2020-11-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
US10590244B2 (en) 2017-10-04 2020-03-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
WO2019083852A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. MICROFLUIDIC CHANNEL NETWORKS FOR PARTITIONING
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
EP4241882B1 (en) 2017-10-27 2025-04-30 10X Genomics, Inc. Methods for sample preparation and analysis
EP3954782A1 (en) 2017-11-15 2022-02-16 10X Genomics, Inc. Functionalized gel beads
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
CN111712579B (zh) 2017-12-22 2024-10-15 10X基因组学有限公司 用于处理来自一个或多个细胞的核酸分子的系统和方法
GB2589159B (en) 2017-12-29 2023-04-05 Clear Labs Inc Nucleic acid sequencing apparatus
SG11202007686VA (en) 2018-02-12 2020-09-29 10X Genomics Inc Methods characterizing multiple analytes from individual cells or cell populations
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
WO2019169028A1 (en) 2018-02-28 2019-09-06 10X Genomics, Inc. Transcriptome sequencing through random ligation
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
SG11202009889VA (en) 2018-04-06 2020-11-27 10X Genomics Inc Systems and methods for quality control in single cell processing
WO2019217758A1 (en) 2018-05-10 2019-11-14 10X Genomics, Inc. Methods and systems for molecular library generation
US12117997B2 (en) 2018-05-22 2024-10-15 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11327991B2 (en) * 2018-05-22 2022-05-10 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
US12188014B1 (en) 2018-07-25 2025-01-07 10X Genomics, Inc. Compositions and methods for nucleic acid processing using blocking agents
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
WO2020028882A1 (en) 2018-08-03 2020-02-06 10X Genomics, Inc. Methods and systems to minimize barcode exchange
WO2020041148A1 (en) 2018-08-20 2020-02-27 10X Genomics, Inc. Methods and systems for detection of protein-dna interactions using proximity ligation
US12065688B2 (en) 2018-08-20 2024-08-20 10X Genomics, Inc. Compositions and methods for cellular processing
CN119905142A (zh) * 2018-10-17 2025-04-29 奎斯特诊断投资有限责任公司 基因组测序选择系统
US11459607B1 (en) 2018-12-10 2022-10-04 10X Genomics, Inc. Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes
US12169198B2 (en) 2019-01-08 2024-12-17 10X Genomics, Inc. Systems and methods for sample analysis
US11845983B1 (en) 2019-01-09 2023-12-19 10X Genomics, Inc. Methods and systems for multiplexing of droplet based assays
CN118979095A (zh) 2019-02-12 2024-11-19 10X基因组学有限公司 用于加工核酸分子的方法
US12305239B2 (en) 2019-02-12 2025-05-20 10X Genomics, Inc. Analysis of nucleic acid sequences
US11467153B2 (en) 2019-02-12 2022-10-11 10X Genomics, Inc. Methods for processing nucleic acid molecules
US12275993B2 (en) 2019-02-12 2025-04-15 10X Genomics, Inc. Analysis of nucleic acid sequences
US11851683B1 (en) 2019-02-12 2023-12-26 10X Genomics, Inc. Methods and systems for selective analysis of cellular samples
US11655499B1 (en) 2019-02-25 2023-05-23 10X Genomics, Inc. Detection of sequence elements in nucleic acid molecules
SG11202111242PA (en) 2019-03-11 2021-11-29 10X Genomics Inc Systems and methods for processing optically tagged beads
CN111370057B (zh) * 2019-07-31 2021-03-30 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
US12235262B1 (en) 2019-09-09 2025-02-25 10X Genomics, Inc. Methods and systems for single cell protein analysis
US11269836B2 (en) * 2019-12-17 2022-03-08 Cerner Innovation, Inc. System and method for generating multi-category searchable ternary tree data structure
CN113053460A (zh) * 2019-12-27 2021-06-29 分子健康有限责任公司 用于基因组和基因分析的系统和方法
CN113436679B (zh) * 2020-03-23 2024-05-10 北京合生基因科技有限公司 确定待测核酸样本变异率的方法和系统
US11851700B1 (en) 2020-05-13 2023-12-26 10X Genomics, Inc. Methods, kits, and compositions for processing extracellular molecules
WO2021252805A1 (en) * 2020-06-11 2021-12-16 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
US12084715B1 (en) 2020-11-05 2024-09-10 10X Genomics, Inc. Methods and systems for reducing artifactual antisense products
WO2022182682A1 (en) 2021-02-23 2022-09-01 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
CN113792008B (zh) * 2021-08-31 2024-07-19 北京百度网讯科技有限公司 网络拓扑结构的获取方法、装置、电子设备及存储介质
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
CN115273988A (zh) * 2022-08-05 2022-11-01 南开大学 一种交互式基因组浏览分析及可视化方法及系统
US20240095312A1 (en) * 2022-09-20 2024-03-21 Dish Network L.L.C. Systems and methods for 3d printing of limited edition virtual items
CN116246715B (zh) * 2023-04-27 2024-04-16 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质

Family Cites Families (263)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5949832B2 (ja) 1978-07-18 1984-12-05 ブラザー工業株式会社 電動ミシンにおける主軸定位置停止装置
US4916070A (en) 1986-04-14 1990-04-10 The General Hospital Corporation Fibrin-specific antibodies and method of screening for the antibodies
US5618711A (en) 1986-08-22 1997-04-08 Hoffmann-La Roche Inc. Recombinant expression vectors and purification methods for Thermus thermophilus DNA polymerase
US5202231A (en) 1987-04-01 1993-04-13 Drmanac Radoje T Method of sequencing of genomes by hybridization of oligonucleotide probes
US5525464A (en) 1987-04-01 1996-06-11 Hyseq, Inc. Method of sequencing by hybridization of oligonucleotide probes
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
US5413924A (en) 1992-02-13 1995-05-09 Kosak; Kenneth M. Preparation of wax beads containing a reagent for release by heating
AU3816993A (en) 1992-03-19 1993-10-21 Regents Of The University Of California, The Multiple tag labeling method for DNA sequencing
US5587128A (en) 1992-05-01 1996-12-24 The Trustees Of The University Of Pennsylvania Mesoscale polynucleotide amplification devices
AU677197B2 (en) 1992-05-01 1997-04-17 Trustees Of The University Of Pennsylvania, The Polynucleotide amplification analysis using a microfabricated device
US5512131A (en) 1993-10-04 1996-04-30 President And Fellows Of Harvard College Formation of microstamped patterns on surfaces and derivative articles
US20030044777A1 (en) 1993-10-28 2003-03-06 Kenneth L. Beattie Flowthrough devices for multiple discrete binding reactions
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
AU697863B2 (en) 1994-05-11 1998-10-22 Genera Technologies Limited Methods of capturing species from liquids and assay procedures
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
WO1996029629A2 (en) 1995-03-01 1996-09-26 President And Fellows Of Harvard College Microcontact printing on surfaces and derivative articles
HUP9900910A2 (hu) 1995-06-07 1999-07-28 Lynx Therapeutics, Inc. Oligonukleotid jelzések osztályozáshoz és azonosításhoz
DE69638179D1 (de) 1995-06-07 2010-06-10 Solexa Inc Verfahren zur Verbesserung der Effizienz der Polynukleotidsequenzierung
US5856174A (en) 1995-06-29 1999-01-05 Affymetrix, Inc. Integrated nucleic acid diagnostic device
US5851769A (en) 1995-09-27 1998-12-22 The Regents Of The University Of California Quantitative DNA fiber mapping
US5736330A (en) 1995-10-11 1998-04-07 Luminex Corporation Method and compositions for flow cytometric determination of DNA sequences
US6001571A (en) 1995-11-30 1999-12-14 Mandecki; Wlodek Multiplex assay for nucleic acids employing transponders
US6051377A (en) 1995-11-30 2000-04-18 Pharmaseq, Inc. Multiplex assay for nucleic acids employing transponders
US5736332A (en) 1995-11-30 1998-04-07 Mandecki; Wlodek Method of determining the sequence of nucleic acids employing solid-phase particles carrying transponders
US6355198B1 (en) 1996-03-15 2002-03-12 President And Fellows Of Harvard College Method of forming articles including waveguides via capillary micromolding and microtransfer molding
US5958703A (en) 1996-12-03 1999-09-28 Glaxo Group Limited Use of modified tethers in screening compound libraries
US20050042625A1 (en) 1997-01-15 2005-02-24 Xzillion Gmbh & Co. Mass label linked hybridisation probes
US6297006B1 (en) 1997-01-16 2001-10-02 Hyseq, Inc. Methods for sequencing repetitive sequences and for determining the order of sequence subfragments
US20020034737A1 (en) 1997-03-04 2002-03-21 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6391622B1 (en) 1997-04-04 2002-05-21 Caliper Technologies Corp. Closed-loop biochemical analyzers
US6143496A (en) 1997-04-17 2000-11-07 Cytonix Corporation Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AU736321B2 (en) 1997-05-23 2001-07-26 Lynx Therapeutics, Inc. System and apparatus for sequential processing of analytes
US20040241759A1 (en) 1997-06-16 2004-12-02 Eileen Tozer High throughput screening of libraries
DE69841997D1 (de) 1997-07-07 2010-12-23 Medical Res Council London In-vitro-Sortierverfahren
GB9714716D0 (en) 1997-07-11 1997-09-17 Brax Genomics Ltd Characterising nucleic acids
US6974669B2 (en) 2000-03-28 2005-12-13 Nanosphere, Inc. Bio-barcodes based on oligonucleotide-modified nanoparticles
WO1999009217A1 (en) 1997-08-15 1999-02-25 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
WO1999014368A2 (en) 1997-09-15 1999-03-25 Whitehead Institute For Biomedical Research Methods and apparatus for processing a sample of biomolecular analyte using a microfabricated device
US20020092767A1 (en) 1997-09-19 2002-07-18 Aclara Biosciences, Inc. Multiple array microfluidic device units
EP1029244A4 (en) 1997-10-02 2003-07-23 Aclara Biosciences Inc CAPILLAR ASSAY WITH SEPARATION OF FREE AND TIED SPECIES
US6511803B1 (en) 1997-10-10 2003-01-28 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
JP2001519538A (ja) 1997-10-10 2001-10-23 プレジデント・アンド・フェローズ・オブ・ハーバード・カレッジ 核酸アレイのレプリカ増幅
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
JP4357112B2 (ja) 1997-10-14 2009-11-04 ルミネックス コーポレイション 精密蛍光染色された粒子及びその製造及び使用方法
DE69830854T2 (de) 1997-12-04 2006-04-20 Amersham Biosciences Uk Ltd., Amersham Mehrfaches testverfahren
AU3555599A (en) 1998-04-13 1999-11-01 Luminex Corporation Liquid labeling with fluorescent microparticles
US6780591B2 (en) 1998-05-01 2004-08-24 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and DNA molecules
US6586176B1 (en) 1998-08-07 2003-07-01 Cellay, Llc Gel microdrops in genetic analysis
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6489096B1 (en) 1998-10-15 2002-12-03 Princeton University Quantitative analysis of hybridization patterns and intensities in oligonucleotide arrays
WO2000026412A1 (en) 1998-11-02 2000-05-11 Kenneth Loren Beattie Nucleic acid analysis using sequence-targeted tandem hybridization
GB9900298D0 (en) 1999-01-07 1999-02-24 Medical Res Council Optical sorting method
US6635419B1 (en) 1999-02-16 2003-10-21 Applera Corporation Polynucleotide sequencing method
EP2177627B1 (en) 1999-02-23 2012-05-02 Caliper Life Sciences, Inc. Manipulation of microparticles in microfluidic systems
US6908737B2 (en) 1999-04-15 2005-06-21 Vitra Bioscience, Inc. Systems and methods of conducting multiplexed experiments
EP1192447A2 (en) 1999-05-12 2002-04-03 Aclara BioSciences, Inc. Multiplexed fluorescent detection in microfluidic devices
US6372813B1 (en) 1999-06-25 2002-04-16 Motorola Methods and compositions for attachment of biomolecules to solid supports, hydrogels, and hydrogel arrays
US6524456B1 (en) 1999-08-12 2003-02-25 Ut-Battelle, Llc Microfluidic devices for the controlled manipulation of small volumes
WO2001014589A2 (en) 1999-08-20 2001-03-01 Luminex Corporation Liquid array technology
US6982146B1 (en) 1999-08-30 2006-01-03 The United States Of America As Represented By The Department Of Health And Human Services High speed parallel molecular nucleic acid sequencing
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
US6800298B1 (en) 2000-05-11 2004-10-05 Clemson University Biological lubricant composition and method of applying lubricant composition
US6645432B1 (en) 2000-05-25 2003-11-11 President & Fellows Of Harvard College Microfluidic systems including three-dimensionally arrayed channel networks
US20060263888A1 (en) 2000-06-02 2006-11-23 Honeywell International Inc. Differential white blood count on a disposable card
US6632606B1 (en) 2000-06-12 2003-10-14 Aclara Biosciences, Inc. Methods for single nucleotide polymorphism detection
AU7299301A (en) 2000-06-21 2002-01-02 Bioarray Solutions Ltd Multianalyte molecular analysis using application-specific random particle arrays
US7294503B2 (en) 2000-09-15 2007-11-13 California Institute Of Technology Microfabricated crossflow devices and methods
JP2005501217A (ja) 2000-10-10 2005-01-13 ディベルサ コーポレーション 生体活性または生体分子のハイスループットスクリーニングまたはキャピラリーに基づくスクリーニング
JP2002155305A (ja) 2000-11-14 2002-05-31 Akira Kawasaki 単分散粒子の製造装置及び単分散粒子の製造方法及びその製造方法で製造された単分散粒子
DE60221036T2 (de) 2001-02-23 2007-10-11 Japan Science And Technology Agency, Kawaguchi Vorrichtung zum Erzeugen von Emulsionen und Mikrokapseln
US20030027221A1 (en) 2001-04-06 2003-02-06 Scott Melissa E. High-throughput screening assays by encapsulation
US7572642B2 (en) 2001-04-18 2009-08-11 Ambrigen, Llc Assay based on particles, which specifically bind with targets in spatially distributed characteristic patterns
WO2002097122A1 (en) 2001-05-26 2002-12-05 One Cell Systems, Inc. Secretion of proteins by encapsulated cells
US6613523B2 (en) 2001-06-29 2003-09-02 Agilent Technologies, Inc. Method of DNA sequencing using cleavable tags
US6767731B2 (en) 2001-08-27 2004-07-27 Intel Corporation Electron induced fluorescent method for nucleic acid sequencing
US20030149307A1 (en) 2001-10-24 2003-08-07 Baxter International Inc. Process for the preparation of polyethylene glycol bis amine
US20030182068A1 (en) 2001-10-30 2003-09-25 Battersby Bronwyn J. Device and methods for directed synthesis of chemical libraries
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US20030170698A1 (en) 2002-01-04 2003-09-11 Peter Gascoyne Droplet-based microfluidic oligonucleotide synthesis engine
EP1488006B1 (en) 2002-03-20 2008-05-28 InnovativeBio.Biz Microcapsules with controlable permeability encapsulating a nucleic acid amplification reaction mixture and their use as reaction compartments for parallels reactions
US7901939B2 (en) 2002-05-09 2011-03-08 University Of Chicago Method for performing crystallization and reactions in pressure-driven fluid plugs
ATE479899T1 (de) 2002-05-09 2010-09-15 Univ Chicago Einrichtugn und verfahren für druckgesteuerten plug-transport und reaktion
JP2006507921A (ja) 2002-06-28 2006-03-09 プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ 流体分散のための方法および装置
CA2493808A1 (en) 2002-07-24 2004-01-29 Ptc Therapeutics, Inc. Methods for identifying small molecules that modulate premature translation termination and nonsense mediated mrna decay
IL151660A0 (en) 2002-09-09 2003-04-10 Univ Ben Gurion Method for isolating and culturing unculturable microorganisms
CA2513889A1 (en) 2003-01-29 2004-08-19 454 Corporation Double ended sequencing
US7041481B2 (en) 2003-03-14 2006-05-09 The Regents Of The University Of California Chemical amplification based on fluid partitioning
US20100022414A1 (en) 2008-07-18 2010-01-28 Raindance Technologies, Inc. Droplet Libraries
GB0307403D0 (en) 2003-03-31 2003-05-07 Medical Res Council Selection by compartmentalised screening
US20060078893A1 (en) 2004-10-12 2006-04-13 Medical Research Council Compartmentalised combinatorial chemistry by microfluidic control
GB0307428D0 (en) 2003-03-31 2003-05-07 Medical Res Council Compartmentalised combinatorial chemistry
KR100720213B1 (ko) 2003-04-04 2007-05-21 화이자 프로덕츠 인코포레이티드 미세 유동화된 수중 유적형 유화액 및 백신 조성물
AU2004229440B2 (en) 2003-04-10 2010-08-12 President And Fellows Of Harvard College Formation and control of fluidic species
WO2004102204A1 (en) 2003-05-16 2004-11-25 Global Technologies (Nz) Ltd Method and apparatus for mixing sample and reagent in a suspension fluid
WO2004103565A2 (de) 2003-05-19 2004-12-02 Hans-Knöll-Institut für Naturstoff-Forschung e.V. Vorrichtung und verfahren zur strukturierung von flüssigkeiten und zum zudosieren von reaktionsflüssigkeiten zu in separationsmedium eingebetteten flüssigkeitskompartimenten
WO2004105734A1 (en) 2003-05-28 2004-12-09 Valorisation Recherche, Societe En Commandite Method of preparing microcapsules
GB0315438D0 (en) 2003-07-02 2003-08-06 Univ Manchester Analysis of mixed cell populations
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
KR20070029618A (ko) 2003-08-27 2007-03-14 더 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 유체종의 전자적 제어
JP4988345B2 (ja) 2003-09-04 2012-08-01 ザ・ユナイテッド・ステイツ・オブ・アメリカ・アズ・リプレゼンティッド・バイ・ザ・デパートメント・オブ・ヴェテランズ・アフェアーズ 眼用ハイドロゲルナノコンポジット
DK1691196T3 (da) 2003-09-25 2013-04-15 Vivalis Chip med mikrobrøndsarray og fremgangsmåde til fremstilling heraf
EP1691792A4 (en) 2003-11-24 2008-05-28 Yeda Res & Dev COMPOSITIONS AND PROCESSES FOR SORTING IN VITRO OF MOLECULE AND CELL LIBRARIES
US20050181379A1 (en) 2004-02-18 2005-08-18 Intel Corporation Method and device for isolating and positioning single nucleic acid molecules
JP2007526772A (ja) 2004-02-27 2007-09-20 プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ インサイチュー配列決定用ポロニー蛍光ビーズ
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
KR100552706B1 (ko) 2004-03-12 2006-02-20 삼성전자주식회사 핵산 증폭 방법 및 장치
US20050221339A1 (en) 2004-03-31 2005-10-06 Medical Research Council Harvard University Compartmentalised screening by microfluidic control
US20060020371A1 (en) 2004-04-13 2006-01-26 President And Fellows Of Harvard College Methods and apparatus for manipulation and/or detection of biological samples and other objects
US7799553B2 (en) 2004-06-01 2010-09-21 The Regents Of The University Of California Microfabricated integrated DNA analysis system
CN1648671B (zh) 2005-02-06 2012-09-26 成都夸常医学工业有限公司 多反应器分析芯片检测方法和分析芯片及检测装置
WO2006030993A1 (en) 2004-09-14 2006-03-23 Jin-Ho Choy Information code system using dna sequences
US7892731B2 (en) 2004-10-01 2011-02-22 Radix Biosolutions, Ltd. System and method for inhibiting the decryption of a nucleic acid probe sequence used for the detection of a specific nucleic acid
US7968287B2 (en) 2004-10-08 2011-06-28 Medical Research Council Harvard University In vitro evolution in microfluidic systems
WO2007001448A2 (en) 2004-11-04 2007-01-04 Massachusetts Institute Of Technology Coated controlled release polymer particles as efficient oral delivery vehicles for biopharmaceuticals
WO2006051552A2 (en) 2004-11-15 2006-05-18 Yeda Research And Development Co. Ltd. At The Weizmann Institute Of Science Directed evolution and selection using in vitro compartmentalization
US20080213593A1 (en) 2005-01-21 2008-09-04 President And Fellows Of Harvard College Systems And Methods For Forming Fluidic Droplets Encapsulated In Particles Such As Colloidal Particles
US7604938B2 (en) 2005-02-18 2009-10-20 Canon U.S. Life Sciences, Inc. Devices and methods for monitoring genomic DNA of organisms
WO2006088123A1 (ja) 2005-02-21 2006-08-24 Kagoshima University バイオディーゼル燃料の精製方法
US9040237B2 (en) 2005-03-04 2015-05-26 Intel Corporation Sensor arrays and nucleic acid sequencing applications
US20070054119A1 (en) 2005-03-04 2007-03-08 Piotr Garstecki Systems and methods of forming particles
AU2006220816A1 (en) 2005-03-04 2006-09-14 President And Fellows Of Harvard College Method and apparatus for forming multiple emulsions
JP2006289250A (ja) 2005-04-08 2006-10-26 Kao Corp マイクロミキサー及びそれを用いた流体混合方法
CA2611743C (en) 2005-06-15 2019-12-31 Callida Genomics, Inc. Nucleic acid analysis by forming and tracking aliquoted fragments of a target polynucleotide
JP2006349060A (ja) 2005-06-16 2006-12-28 Ntn Corp ボールねじ
US8828209B2 (en) 2005-06-22 2014-09-09 The Research Foundation For The State University Of New York Massively parallel 2-dimensional capillary electrophoresis
US20070154903A1 (en) 2005-06-23 2007-07-05 Nanosphere, Inc. Selective isolation and concentration of nucleic acids from complex samples
US20070031857A1 (en) 2005-08-02 2007-02-08 Rubicon Genomics, Inc. Compositions and methods for processing and amplification of DNA, including using multiple enzymes in a single reaction
WO2007024840A2 (en) 2005-08-22 2007-03-01 Critical Therapeutics, Inc. Method of quantitating nucleic acids by flow cytometry microparticle-based array
US7960104B2 (en) 2005-10-07 2011-06-14 Callida Genomics, Inc. Self-assembled single molecule arrays and uses thereof
US20070111241A1 (en) 2005-10-14 2007-05-17 Nezih Cereb System and method for accessing, tracking, and editing sequence analysis and software to accomplish the same
WO2007120265A2 (en) 2005-11-14 2007-10-25 Applera Corporation Coded molecules for detecting target analytes
US7932037B2 (en) 2007-12-05 2011-04-26 Perkinelmer Health Sciences, Inc. DNA assays using amplicon probes on encoded particles
EP3913375A1 (en) 2006-01-11 2021-11-24 Bio-Rad Laboratories, Inc. Microfluidic devices and methods of use in the formation and control of nanoreactors
WO2007087312A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Molecular counting
WO2007089541A2 (en) 2006-01-27 2007-08-09 President And Fellows Of Harvard College Fluidic droplet coalescence
SG10201405158QA (en) 2006-02-24 2014-10-30 Callida Genomics Inc High throughput genome sequencing on dna arrays
CN101432439B (zh) 2006-02-24 2013-07-24 考利达基因组股份有限公司 Dna阵列上的高通量基因组测序
JP4921829B2 (ja) 2006-03-30 2012-04-25 株式会社東芝 微粒子の製造装置、乳化剤保持部、微粒子の製造方法および分子膜の製造方法
US20090181864A1 (en) 2006-03-31 2009-07-16 Nam Trung Nguyen Active control for droplet-based microfluidics
CN101495654A (zh) 2006-04-19 2009-07-29 阿普里拉股份有限公司 无凝胶珠基测序的试剂、方法和文库
US7811603B2 (en) 2006-05-09 2010-10-12 The Regents Of The University Of California Microfluidic device for forming monodisperse lipoplexes
EP3031918B1 (en) 2006-05-11 2018-03-14 Raindance Technologies Inc. Microfluidic devices
ES2620398T3 (es) 2006-05-22 2017-06-28 Nanostring Technologies, Inc. Sistemas y métodos para analizar nanoindicadores
RU2321638C2 (ru) * 2006-05-23 2008-04-10 Закрытое акционерное общество "Молекулярно-медицинские технологии" Способ изготовления многофункционального мультичипа, мультичип для последовательного или параллельного скрининга биополимеров, способ анализа биополимеров и набор для осуществления способа
EP2636755A1 (en) 2006-05-26 2013-09-11 AltheaDx Incorporated Biochemical analysis of partitioned cells
FR2901717A1 (fr) 2006-05-30 2007-12-07 Centre Nat Rech Scient Procede de traitement de gouttes dans un circuit microfluidique.
CA2656022C (en) 2006-06-19 2017-10-17 The Johns Hopkins University Single-molecule pcr on microparticles in water-in-oil emulsions
EP1878501A1 (en) 2006-07-14 2008-01-16 Roche Diagnostics GmbH Instrument for heating and cooling
WO2008021123A1 (en) 2006-08-07 2008-02-21 President And Fellows Of Harvard College Fluorocarbon emulsion stabilizing surfactants
US8841116B2 (en) 2006-10-25 2014-09-23 The Regents Of The University Of California Inline-injection microdevice and microfabricated integrated DNA analysis system using same
WO2008070352A2 (en) 2006-10-27 2008-06-12 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
DK2518162T3 (en) 2006-11-15 2018-06-18 Biospherex Llc Multi-tag sequencing and ecogenomic analysis
US20080176768A1 (en) 2007-01-23 2008-07-24 Honeywell Honeywell International Hydrogel microarray with embedded metal nanoparticles
US8003312B2 (en) 2007-02-16 2011-08-23 The Board Of Trustees Of The Leland Stanford Junior University Multiplex cellular assays using detectable cell barcodes
FI20075124A0 (fi) 2007-02-21 2007-02-21 Valtion Teknillinen Menetelmä ja testikitti nukleotidivariaatioiden toteamiseksi
US9029085B2 (en) 2007-03-07 2015-05-12 President And Fellows Of Harvard College Assays and other reactions involving droplets
US7776927B2 (en) 2007-03-28 2010-08-17 President And Fellows Of Harvard College Emulsions and techniques for formation
US20100130369A1 (en) 2007-04-23 2010-05-27 Advanced Liquid Logic, Inc. Bead-Based Multiplexed Analytical Methods and Instrumentation
US20100255556A1 (en) 2007-06-29 2010-10-07 President And Fellows Of Harvard College Methods and apparatus for manipulation of fluidic species
WO2009011808A1 (en) 2007-07-13 2009-01-22 President And Fellows Of Harvard College Droplet-based selection
WO2009023821A1 (en) 2007-08-15 2009-02-19 Opgen, Inc. Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps
US8563527B2 (en) 2007-08-20 2013-10-22 Pharmain Corporation Oligonucleotide core carrier compositions for delivery of nucleic acid-containing therapeutic agents, methods of making and using the same
US8268564B2 (en) 2007-09-26 2012-09-18 President And Fellows Of Harvard College Methods and applications for stitched DNA barcodes
WO2009061372A1 (en) 2007-11-02 2009-05-14 President And Fellows Of Harvard College Systems and methods for creating multi-phase entities, including particles and/or fluids
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US9797010B2 (en) 2007-12-21 2017-10-24 President And Fellows Of Harvard College Systems and methods for nucleic acid sequencing
WO2009091934A1 (en) 2008-01-17 2009-07-23 Sequenom, Inc. Single molecule nucleic acid sequence analysis processes and compositions
JP5468271B2 (ja) 2008-02-08 2014-04-09 花王株式会社 微粒子分散液の製造方法
US20090203531A1 (en) 2008-02-12 2009-08-13 Nurith Kurn Method for Archiving and Clonal Expansion
CN101918597B (zh) 2008-03-11 2013-09-18 国立癌中心 应用snp阵列测量染色体、基因或特定核苷酸序列拷贝数的方法
US9068181B2 (en) 2008-05-23 2015-06-30 The General Hospital Corporation Microfluidic droplet encapsulation
US20110305761A1 (en) 2008-06-05 2011-12-15 President And Fellows Of Harvard College Polymersomes, colloidosomes, liposomes, and other species associated with fluidic droplets
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
EP2303245B1 (en) 2008-07-11 2016-12-28 ETH Zurich Degradable microcapsules
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20110218123A1 (en) 2008-09-19 2011-09-08 President And Fellows Of Harvard College Creation of libraries of droplets and related species
US9156010B2 (en) 2008-09-23 2015-10-13 Bio-Rad Laboratories, Inc. Droplet-based assay system
US8709762B2 (en) 2010-03-02 2014-04-29 Bio-Rad Laboratories, Inc. System for hot-start amplification via a multiple emulsion
WO2011120024A1 (en) 2010-03-25 2011-09-29 Quantalife, Inc. Droplet generation for droplet-based assays
WO2010080134A1 (en) 2008-12-19 2010-07-15 President And Fellows Of Harvard College Particle-assisted nucleic acid sequencing
WO2010075570A2 (en) 2008-12-24 2010-07-01 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assemble
BRPI1008965B1 (pt) 2009-03-13 2018-12-18 Harvard College método para aumento de escala de dispositivos microfluídicos e sistema para a formação de gotículas em canais microfluídicos em paralelo
EP2789694A1 (en) 2009-04-02 2014-10-15 Fluidigm Corporation Microfluidic device with reaction product recovery system
CA2760439A1 (en) 2009-04-30 2010-11-04 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
WO2010127304A2 (en) 2009-05-01 2010-11-04 Illumina, Inc. Sequencing methods
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
DK2977455T3 (da) 2009-06-15 2020-07-13 Complete Genomics Inc Fremgangsmåde til langfragmentaflæsnings-sekventering
EP2446278B1 (en) 2009-06-26 2021-11-17 President and Fellows of Harvard College Fluid injection
CA3106547C (en) 2009-09-02 2022-07-05 Bio-Rad Laboratories, Inc. System for mixing fluids by coalescence of multiple emulsions
WO2011028764A2 (en) 2009-09-02 2011-03-10 President And Fellows Of Harvard College Multiple emulsions created using jetting and other techniques
GB0918564D0 (en) 2009-10-22 2009-12-09 Plasticell Ltd Nested cell encapsulation
WO2011056546A1 (en) 2009-10-27 2011-05-12 President And Fellows Of Harvard College Droplet creation techniques
US10207240B2 (en) 2009-11-03 2019-02-19 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
CA2767028A1 (en) 2009-11-25 2011-06-03 Quantalife, Inc. Methods and compositions for detecting genetic material
EP2504448B1 (en) 2009-11-25 2016-10-19 Bio-Rad Laboratories, Inc. Methods and compositions for detecting genetic material
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
EP2513333B1 (en) 2009-12-17 2013-10-02 Keygene N.V. Restriction enzyme based whole genome sequencing
US10837883B2 (en) 2009-12-23 2020-11-17 Bio-Rad Laboratories, Inc. Microfluidic systems and methods for reducing the exchange of molecules between droplets
US20110257889A1 (en) 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20120000777A1 (en) 2010-06-04 2012-01-05 The Regents Of The University Of California Devices and methods for forming double emulsion droplet compositions and polymer particles
US20120238738A1 (en) 2010-07-19 2012-09-20 New England Biolabs, Inc. Oligonucleotide Adapters: Compositions and Methods of Use
ES2523140T3 (es) 2010-09-21 2014-11-21 Population Genetics Technologies Ltd. Aumento de la confianza en las identificaciones de alelos con el recuento molecular
US9999886B2 (en) 2010-10-07 2018-06-19 The Regents Of The University Of California Methods and systems for on demand droplet generation and impedance based detection
GB2512213B (en) 2010-10-08 2015-02-11 Harvard College High-throughput single cell barcoding
WO2012055929A1 (en) 2010-10-26 2012-05-03 Illumina, Inc. Sequencing methods
AU2011323107B2 (en) 2010-11-05 2015-09-10 Illumina, Inc. Linking sequence reads using paired code tags
WO2012083225A2 (en) 2010-12-16 2012-06-21 Gigagen, Inc. System and methods for massively parallel analysis of nycleic acids in single cells
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
WO2012100216A2 (en) 2011-01-20 2012-07-26 Knome, Inc. Methods and apparatus for assigning a meaningful numeric value to genomic variants, and searching and assessing same
US8765455B2 (en) 2011-01-27 2014-07-01 Lawrence Livermore National Security, Llc Chip-based droplet sorting
AU2012212148B8 (en) 2011-02-02 2017-07-06 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
US9150852B2 (en) 2011-02-18 2015-10-06 Raindance Technologies, Inc. Compositions and methods for molecular labeling
WO2012116331A2 (en) 2011-02-25 2012-08-30 Illumina, Inc. Methods and systems for haplotype determination
WO2012122548A2 (en) * 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
CA2833165A1 (en) * 2011-04-14 2012-10-18 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
WO2012149042A2 (en) 2011-04-25 2012-11-01 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
US20140227706A1 (en) 2011-05-16 2014-08-14 Dna Chip Research Inc. Method for assessing progression of clinical state of malignant neoplasm by quantitative detection of DNA in blood
KR20140034242A (ko) 2011-05-23 2014-03-19 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 다중 에멀젼을 포함하는 에멀젼의 제어
WO2012166425A2 (en) 2011-05-27 2012-12-06 President And Fellows Of Harvard College Methods of amplifying whole genome of a single cell
US8841071B2 (en) 2011-06-02 2014-09-23 Raindance Technologies, Inc. Sample multiplexing
KR20140054037A (ko) * 2011-07-13 2014-05-08 더 멀티플 마이얼로머 리서치 파운데이션, 인크. 데이터 수집 및 분배 방법
US20130189700A1 (en) 2011-07-25 2013-07-25 Bio-Rad Laboratories, Inc. Breakage of an emulsion containing nucleic acid
WO2013035114A1 (en) 2011-09-08 2013-03-14 Decode Genetics Ehf Tp53 genetic variants predictive of cancer
EP2753715A4 (en) 2011-09-09 2015-05-20 Univ Leland Stanford Junior METHOD FOR OBTAINING A SEQUENCE
WO2013055955A1 (en) 2011-10-12 2013-04-18 Complete Genomics, Inc. Identification of dna fragments and structural variations
US9469874B2 (en) 2011-10-18 2016-10-18 The Regents Of The University Of California Long-range barcode labeling-sequencing
US10202628B2 (en) 2012-02-17 2019-02-12 President And Fellows Of Harvard College Assembly of nucleic acid sequences in emulsions
US9176031B2 (en) 2012-02-24 2015-11-03 Raindance Technologies, Inc. Labeling and sample preparation for sequencing
US9552458B2 (en) 2012-03-16 2017-01-24 The Research Institute At Nationwide Children's Hospital Comprehensive analysis pipeline for discovery of human genetic variation
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20130317755A1 (en) 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
ES2928691T3 (es) 2012-05-21 2022-11-22 Scripps Research Inst Métodos de preparación de muestras
WO2014028537A1 (en) 2012-08-14 2014-02-20 10X Technologies, Inc. Microcapsule compositions and methods
US20150005199A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
US20140378322A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US20140378345A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US10221442B2 (en) 2012-08-14 2019-03-05 10X Genomics, Inc. Compositions and methods for sample processing
US20150005200A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
US20140378349A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
CN105026576A (zh) 2012-12-03 2015-11-04 以琳生物药物有限公司 单链多核苷酸扩增方法
WO2014093676A1 (en) 2012-12-14 2014-06-19 10X Technologies, Inc. Methods and systems for processing polynucleotides
EP2994749B1 (en) 2013-01-17 2025-03-05 Illumina, Inc. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10381106B2 (en) 2013-01-28 2019-08-13 Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh Efficient genomic read alignment in an in-memory database
US9644204B2 (en) 2013-02-08 2017-05-09 10X Genomics, Inc. Partitioning and processing of analytes and other species
EP3418398B1 (en) 2013-03-08 2020-05-13 Bio-Rad Laboratories, Inc. Compositions for polymerase chain reaction assays
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
WO2015157567A1 (en) 2014-04-10 2015-10-15 10X Genomics, Inc. Fluidic devices, systems, and methods for encapsulating and partitioning reagents, and applications of same
US20150298091A1 (en) 2014-04-21 2015-10-22 President And Fellows Of Harvard College Systems and methods for barcoding nucleic acids
KR20170023979A (ko) 2014-06-26 2017-03-06 10엑스 제노믹스, 인크. 핵산 서열 조립을 위한 프로세스 및 시스템
JP2017522866A (ja) * 2014-06-26 2017-08-17 10エックス ジェノミクス, インコーポレイテッド 核酸配列の分析
MX2016016902A (es) 2014-06-26 2017-03-27 10X Genomics Inc Metodos para analizar acidos nucleicos de celulas individuales o poblaciones de celulas.
EP3161161A4 (en) 2014-06-26 2018-02-28 10X Genomics, Inc. Methods and compositions for sample analysis
CA2955367C (en) 2014-07-18 2021-11-30 Illumina, Inc. Non-invasive prenatal diagnosis of fetal genetic condition using cellular dna and cell free dna
CN104462211B (zh) * 2014-11-04 2018-01-02 北京诺禾致源科技股份有限公司 重测序数据的处理方法和处理装置
US10854315B2 (en) 2015-02-09 2020-12-01 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
WO2016191380A1 (en) 2015-05-26 2016-12-01 Pacific Biosciences Of California, Inc. De novo diploid genome assembly and haplotype sequence reconstruction
US11081208B2 (en) 2016-02-11 2021-08-03 10X Genomics, Inc. Systems, methods, and media for de novo assembly of whole genome sequence data

Also Published As

Publication number Publication date
EP4092681A1 (en) 2022-11-23
SG10201811337XA (en) 2019-01-30
SG11201705425SA (en) 2017-08-30
AU2016206706A1 (en) 2017-06-01
AU2021286337B2 (en) 2023-12-21
US20200321078A1 (en) 2020-10-08
CN107209814B (zh) 2021-10-15
US20160203196A1 (en) 2016-07-14
AU2021286337A1 (en) 2022-01-20
MX2017008916A (es) 2017-10-19
AU2016206706B2 (en) 2021-10-07
IL252415A0 (en) 2017-07-31
EP3245605B1 (en) 2022-04-20
CA2968417A1 (en) 2016-07-21
CN107209814A (zh) 2017-09-26
EP3245605A4 (en) 2018-08-29
WO2016115273A1 (en) 2016-07-21
KR20170106979A (ko) 2017-09-22
US10650912B2 (en) 2020-05-12
EP3245605A1 (en) 2017-11-22

Similar Documents

Publication Publication Date Title
AU2021286337B2 (en) Systems and methods for visualizing structural variation and phasing information
US10984887B2 (en) Systems and methods for detecting structural variants
US20210265012A1 (en) Systems and methods for use of known alleles in read mapping
Plesivkova et al. A review of the potential of the MinION™ single‐molecule sequencing system for forensic applications
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
CN110383385B (zh) 从肿瘤样品中检测突变负荷的方法
JP2018508852A5 (ja)
CN103805689B (zh) 一种基于特征kmer的异型性染色体序列组装方法及其应用
US20200075122A1 (en) Methods for detecting mutation load from a tumor sample
Hartley et al. Centromeric transposable elements and epigenetic status drive karyotypic variation in the eastern hoolock gibbon
Uddin et al. A draft Arab pangenome reference
Watson et al. Extended Kinship Inference Part 1: Evaluation of Short Tandem Repeats and Single Nucleotide Polymorphisms Using Likelihood Ratios and Haplotype Matching
CN119698662A (zh) 生成并实现结构变异图基因组

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201012

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20210224