JP5441189B2 - モチーフ探索方法およびモチーフ探索装置 - Google Patents
モチーフ探索方法およびモチーフ探索装置 Download PDFInfo
- Publication number
- JP5441189B2 JP5441189B2 JP2011529960A JP2011529960A JP5441189B2 JP 5441189 B2 JP5441189 B2 JP 5441189B2 JP 2011529960 A JP2011529960 A JP 2011529960A JP 2011529960 A JP2011529960 A JP 2011529960A JP 5441189 B2 JP5441189 B2 JP 5441189B2
- Authority
- JP
- Japan
- Prior art keywords
- motif
- candidate
- sequence
- searched
- aptamer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1048—SELEX
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Wood Science & Technology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Microbiology (AREA)
- Plant Pathology (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
モチーフ候補配列を選択するモチーフ候補選択手段と、
前記モチーフ候補配列に修正を加えるモチーフ候補修正手段と、
探索対象のモチーフを決定するモチーフ決定手段とを備え、
前記モチーフ候補選択手段は、下記(A)工程および(B)工程を実行し、
前記モチーフ候補修正手段は、下記(C)工程を実行し、
前記モチーフ決定手段は、下記(D)工程を実行することを特徴とする、配列上のモチーフを探索するモチーフ探索装置である。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
前記本発明のモチーフ探索方法により、配列上のモチーフを探索し、
前記配列が、塩基配列であり、
前記モチーフが、前記塩基配列上のモチーフであり、
決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とすることを特徴とするアプタマー候補探索方法である。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(A1) lminに該当するモチーフ配列を全て列挙し、列挙された各モチーフ配列のZ値であるZ(lmin)を算出する。Z(lmin)が0を超えるモチーフ配列を、初期モチーフ配列の集合Mlminとする。
(A2) モチーフの配列長さl=lminとし、集合Mlmin=Mとし、Z(lmin)=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4) Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5) l+δ>lmaxの場合は、終了する。
(A6) l+δ≦lmaxの場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
(C1) 修正対象の第2次モチーフ候補をM0とし、M0に対してγ以下の回数の修正を行い、修正された1つまたは複数のM0を発生させる。
(C2) 前記(C1)で修正された1つまたは複数のM0のそれぞれのZ値と、修正前のM0のZ値を比較し、
修正後の1つまたは複数のM0のZ値の全てが、修正前のM0のZ値を超えなければ、終了し、
修正後の1つまたは複数のM0の中で、修正前のM0のZ値を超えるものがある場合は、修正前のM0のZ値を超える修正後の1つまたは複数のM0の中で最もZ値が大きいものをM1とする。
(C3) i=1とする。
(C4) 修正対象の第2次モチーフ候補をM1とし、M1に対してγ以下の回数の修正を行い、修正された1つまたは複数のM1を発生させる。
(C5) 前記(C4)で修正された1つまたは複数のM1のそれぞれのZ値と、修正前のM1のZ値を比較し、
修正後の1つまたは複数のM1のZ値の全てが、修正前のM1のZ値を超えなければ、終了し、
修正後の1つまたは複数のM1の中で、修正前のM1のZ値を超えるものがある場合は、修正前のM1のZ値を超える修正後の1つまたは複数のM1の中で最もZ値が大きいものをMi+1とする。
(C6) i=i+1とし、前記(C4)に戻る。
(E) 前記(D)工程で決定された前記モチーフを評価する、モチーフ評価工程
前記配列が塩基配列であり、
前記モチーフが、前記塩基配列上のモチーフであり、
決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補の探索方法である。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(F) 前記(D)工程で決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程
(E) 前記(D)工程で決定された前記モチーフを評価する、モチーフ評価工程
(G) 前記(F)工程で決定された前記アプタマー候補を評価する、アプタマー候補評価工程
モチーフ候補配列を選択するモチーフ候補選択手段と、
前記モチーフ候補配列に修正を加えるモチーフ候補修正手段と、
探索対象のモチーフを決定するモチーフ決定手段とを備え、
前記モチーフ候補選択手段は、下記(A)工程および(B)工程を実行し、
前記モチーフ候補修正手段は、下記(C)工程を実行し、
前記モチーフ決定手段は、下記(D)工程を実行することを特徴とする、配列上のモチーフを探索するモチーフ探索装置である。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
前記モチーフ候補配列に修正を加えるモチーフ候補修正手段と、
探索対象のモチーフを決定するモチーフ決定手段と、
アプタマー候補を決定するアプタマー候補決定手段とを備え、
前記モチーフ候補選択手段は、下記(A)工程および(B)工程を実行し、
前記モチーフ候補修正手段は、下記(C)工程を実行し、
前記モチーフ決定手段は、下記(D)工程を実行し、
前記アプタマー候補決定手段は、下記(F)工程を実行することを特徴とする、アプタマー候補を探索するアプタマー候補探索装置である。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(F) 前記(D)工程で決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程
本実施形態のアプタマー候補探索方法は、前述のように、下記(A)工程、(B)工程、(C)工程、(D)工程および(F)工程を含むことを特徴とする。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(F) 前記(D)工程で決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程
(E) 前記(D)工程で決定された前記モチーフを評価する、モチーフ評価工程
(G) 前記(D)工程で決定された前記アプタマー候補を評価する、アプタマー候補評価工程
塩基の集合を、Σ∈{A,T(U),G,C}とする。プールにおける各塩基の出現確率を、それぞれ、pA、pT(pU)、pG、pCとする。前記クローンの長さを、Lとする。前記モチーフの長さを、lとする。前記モチーフに含まれる塩基の数を、nkj、j∈Σとする。このとき、長さlの前記モチーフを含む長さLのクローンが出現する確率PLは、下記漸化式(1)で示すことができる。ただし、下記式(1)において、PL=0、L<lである。
前記第1次モチーフ候補列挙工程において、モチーフの列挙の方法は、特に制限されない。例えば、初期の短いモチーフを網羅的に調査し、その中から、有効なモチーフを基準に、長いモチーフを探索する方法等があげられる。これにより、例えば、指数的に増加するモチーフのパターン全てを計算することなく、長いモチーフの候補を探索可能である。
(A2) モチーフの配列長さl=lminとし、集合Mlmin=Mとし、Z(lmin)=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4)Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5)l+δ>lmaxの場合は、終了する。
(A6)l+δ≦lmaxの場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
前記第2次モチーフ候補選択工程において、前記第1次モチーフ候補配列の中から、前記第2次モチーフ候補配列を選択する方法は、特に制限されず、例えば、以下の方法等があげられる。
前記モチーフ候補修正工程において、前記第2次モチーフ候補配列に修正を加えることで、例えば、その精度を向上させる。精度の向上は、例えば、スコアの向上ということもできる。前記モチーフ候補修正工程において、前記第2次モチーフ候補配列の修正方法は、特に制限されず、例えば、以下の方法等があげられる。
(C2) 前記(C1)で修正された1つまたは複数のM0のそれぞれのZ値と、修正前のM0のZ値を比較し、
修正後の1つまたは複数のM0のZ値の全てが、修正前のM0のZ値を超えなければ、終了し、
修正後の1つまたは複数のM0の中で、修正前のM0のZ値を超えるものがある場合は、修正前のM0のZ値を超える修正後の1つまたは複数のM0の中で最もZ値が大きいものをM1とする。
(C3) i=1とする。
(C4) 修正対象の第2次モチーフ候補をM1とし、M1に対してγ以下の回数の修正を行い、修正された1つまたは複数のM1を発生させる。
(C5) 前記(C4)で修正された1つまたは複数のM1のそれぞれのZ値と、修正前のM1のZ値を比較し、
修正後の1つまたは複数のM1のZ値の全てが、修正前のM1のZ値を超えなければ、終了し、
修正後の1つまたは複数のM1の中で、修正前のM1のZ値を超えるものがある場合は、修正前のM1のZ値を超える修正後の1つまたは複数のM1の中で最もZ値が大きいものをMi+1とする。
(C6) i=i+1とし、前記(C4)に戻る。
前記(C)工程において修正した前記第2次モチーフ候補配列を、探索対象のモチーフとして決定する。具体的には、前記(C)工程において、修正により精度が向上した前記第2次モチーフ候補配列を、探索対象のモチーフとして決定する。
前記(E)モチーフ評価工程において、前記決定した前記モチーフの評価方法は、特に制限されない。前記(E)モチーフ評価工程は、任意である。
前記(D)モチーフ決定工程後または前記(E)モチーフ評価工程後に、最終的に決定された前記探索対象のモチーフを含む塩基配列(クローン)を、アプタマー候補とする。前記(C)モチーフ候補修正工程において、修正を行う上限回数γが大きい場合、更新する際のモチーフのパターンの数が増大する。
次に、前記(G)アプタマー候補評価工程において、選択された前記アプタマー候補について評価を行う。前記評価方法は、特に制限されず、例えば、以下の3点を考慮することが好ましい。
(G1)アプタマー候補の自由エネルギーの分布
(G2)アプタマー候補が含むモチーフの構造の類似性
(G3)アプタマー候補の二次構造の類似性
図2に、本実施形態のアプタマー候補探索装置の一例の構成を示す。図示のとおり、このアプタマー候補探索装置20は、モチーフ候補選択手段21とモチーフ候補修正手段(モチーフ精度向上手段ともいう。以下、同様)22とアプタマー候補決定手段23と出力手段24とを備える。モチーフ決定手段は、モチーフ候補修正手段22により修正された第2次モチーフ候補を、検索対象のモチーフとする。このため、本実施形態において、モチーフ候補修正手段(モチーフ精度向上手段)22は、モチーフ決定手段を兼ねている。また、これには制限されず、さらに、モチーフ決定手段を備えてもよい。モチーフ候補選択手段21とモチーフ候補修正手段(モチーフ精度向上手段)22とアプタマー候補決定手段23とは、例えば、図2に示すように、データ処理装置25を形成していてもよい。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義した場合、前記範囲に含まれる第1次のモチーフ候補配列を列挙する、第1次モチーフ候補列挙工程
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
前記(C)工程は、例えば、前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加えて精度を向上させるモチーフ精度向上工程ともいう。
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
前記(D)工程は、例えば、前記(C)工程で精度が向上した前記第2次モチーフ候補配列を、前記探索対象のモチーフと決定するモチーフ決定工程ともいう。
(F) 前記(D)工程で決定した探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程
モチーフ“GGTTGGTGTGGTTGG”を含むクローンの出現確率を、p=0.01に設定した。そして、前記出現確率の条件下、配列数Nを変化させて、その計算時間を測定した。前記モチーフ“GGTTGGTGTGGTTGG”は、Bockら(Nature 355(6360):564-566, 1992)に報告されている、Thrombinのモチーフである。計算環境は、以下のとおりである。
・CPU: Intel(R) Core(TM)2 CPU 2.4GHz
・Memory: 2G byte
・言語: C++
・コンパイラ: g++ −O3
<アルゴリズムの評価方法>
本実施例では、シミュレーションデータを新たに生成して、アルゴリズムの評価を行った。シミュレーションデータは、PSPM(Position Specific Probabilistic Matrix)からモチーフを生成して、任意の確率クローンに挿入するものであり、配列を生成するプログラムrMotifGen(BMC Bioinformatics,8:292,2007.)で実装されている。前記rMotifGenは、低い頻度でモチーフを含む大量の配列の生成に対応していない。すなわち、配列の生成の制限、頻度の制限がある。そこで、別途データを生成するためのプログラムを作成し、データを生成した。シミュレーションでは、モデルおよび任意の確率に対して、100のデータを生成し、モチーフを含むクローンの正答率を指標として、検出力を計算した。
・ABF1 (Autonomously replicating sequence Binding Factor 1)
(FEBS Lett, 579(20):4535-4540,Aug 2005.)
・DNA polymerase B
(Nucleic Acids Res,34(9):2579-2586,2006.)
・HCV (Hepatitis C Virus)
(Nucleic Acids Res, 33(2):683-692,2005.)
・IDI4 (Induced During Incompatibility 4)
(Eukaryot Cell,4(2):476-483, Feb 2005.)
・codein
(Nucleic Acids Res,34(19):5670-5682, 2006.)
・RdRp (RNA-dependent RNA polymerase)
(Antimicrob Agents Chemother,50(9):3019-3027, Sep 2006.)
・eIF4g (eukalyotic translation Initiation Factor 4G)
(RNA, 12(10):1825-1834, 2006)
・neuropeptide Y
(J Am Chem Soc,127(26):9382-9383, Jul 2005.)
・thrombin
(Nucleic Acids Res,33(9):2942-2951, 2005.)
・Atf1-Pcr1
(Genetics,169(4):1973-1983, Apr 2005.)
(1)塩基配列の出現確率を元に、塩基配列を生成してクローンを作成する。今回は、pA=pT(pU)=pG=pC=0.25とする。生成する配列の長さは、各々の文献に従う。
(2)乱数x,x∈[0,1]が、クローンがモチーフを含む確率pより低ければ、(3)へ移る。それ以外は(4)へ移る。
(3)PSPMからモチーフを作成して、クローンの内部を置換する。この際、モチーフが置換される座位は、無作為に選択される。
(4)必要な数の配列nを生成したら終了。それ以外は(1)へ移る。
本実施例では、大量の配列データに対して、配列解析を行う実行速度を計算した。配列数は、1万、10万、100万および1000万とした。各配列には、p=0.01の確率で、PSPMから生成される文字列が含まれる。報告されているアプタマー配列に対して、MEMEによりPSPMを作成した。実データは、ABF1、codein、DNA polymeraseB、HCV、IDI4、neuropeptide Y、RdRp、thrombin、Atf1-Pcr1およびeIF4gの10種類とした。計算環境は、以下のとおりである。
・OS: Ubuntu 9.04
・CPU: Intel(R) Core(TM)2 CPU 2.4GHz
・Memory: 2G byte
・言語: C++
・コンパイラ: g++ −O3
・使用ライブラリ:libboost version 1.37
「RARDR−WKRGK[RWRGGGRWWBSKKST]GKK」、
「RARDRRWKRGK[RWRGGGRWWBSKKS−]GKK」、
「RA[RDRRWKRGKRWRGGG]RWWBSKKSTGKK」
および
「RARDR[RWKR−KRWRGGGRWW]BSKKSTGKK」
に対応する。
21 モチーフ候補選択手段
22 モチーフ候補修正手段
23 アプタマー候補決定手段
24 出力手段
25 データ処理装置
Claims (20)
- 下記(A)工程、(B)工程、(C)工程および(D)工程を含み、前記各工程が全てコンピュータ上で実行されることを特徴とする配列上のモチーフを探索するモチーフ探索方法。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義し、複数の配列から、前記各配列上の前記範囲に含まれる第1次のモチーフ候補配列を列挙する工程であり、下記(A1)〜(A6)を含む第1次モチーフ候補列挙工程
(A1) l min に該当するモチーフ配列を全て列挙し、列挙された各モチーフ配列のZ値であるZ(l min )を算出する。Z(l min )が0を超えるモチーフ配列を、初期モチーフ配列の集合M lmin とする。
(A2) モチーフの配列長さl=l min とし、集合M lmin =Mとし、Z(l min )=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4)Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5)l+δ>l max の場合は、終了する。
(A6)l+δ≦l max の場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程 - 前記(C)工程が、前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加えて精度を向上させるモチーフ精度向上工程であり、
前記(D)工程が、前記(C)工程で精度が向上した前記第2次モチーフ候補配列を、探索対象のモチーフと決定するモチーフ決定工程であることを特徴とする請求項1記載のモチーフ探索方法。 - さらに、下記(E)工程を含むことを特徴とする請求項1または2記載のモチーフ探索方法。
(E) 前記(D)工程で決定された前記モチーフを評価する、モチーフ評価工程 - 前記(B)工程において、最もZ*値が高いモチーフを、前記第2次モチーフ候補配列とすることを特徴とする、請求項1から3のいずれか一項に記載のモチーフ探索方法。
- 前記(C)工程が、下記(C1)工程〜(C6)工程を含むことを特徴とする請求項1から4のいずれか一項に記載のモチーフ探索方法。
(C1) 修正対象の第2次モチーフ候補をM0とし、M0に対してγ以下の回数の修正を行い、修正された1つまたは複数のM0を発生させる。
(C2) 前記(C1)で修正された1つまたは複数のM0のそれぞれのZ値と、修正前のM0のZ値を比較し、
修正後の1つまたは複数のM0のZ値の全てが、修正前のM0のZ値を超えなければ、終了し、
修正後の1つまたは複数のM0の中で、修正前のM0のZ値を超えるものがある場合は、修正前のM0のZ値を超える修正後の1つまたは複数のM0の中で最もZ値が大きいものをM1とする。
(C3) i=1とする。
(C4) 修正対象の第2次モチーフ候補をM1とし、M1に対してγ以下の回数の修正を行い、修正された1つまたは複数のM1を発生させる。
(C5) 前記(C4)で修正された1つまたは複数のM1のそれぞれのZ値と、修正前のM1のZ値を比較し、
修正後の1つまたは複数のM1のZ値の全てが、修正前のM1のZ値を超えなければ、終了し、
修正後の1つまたは複数のM1の中で、修正前のM1のZ値を超えるものがある場合は、修正前のM1のZ値を超える修正後の1つまたは複数のM1の中で最もZ値が大きいものをMi+1とする。
(C6) i=i+1とし、前記(C4)に戻る。 - 前記配列が塩基配列であり、前記モチーフが前記塩基配列上のモチーフであることを特徴とする請求項1から5のいずれ一項に記載のモチーフ探索方法。
- 請求項1から6のいずれか一項に記載のモチーフ探索方法により、塩基配列上のモチーフを探索し、決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする工程を含み、前記工程が全てコンピュータ上で実行されるアプタマー候補探索方法。
- 下記(A)工程、(B)工程、(C)工程、(D)工程および(F)工程を含むことを特徴とする、請求項7記載のアプタマー候補探索方法。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義し、複数の塩基配列から、前記各配列上の前記範囲に含まれる第1次のモチーフ候補配列を列挙する工程であり、下記(A1)〜(A6)を含む第1次モチーフ候補列挙工程
(A1) l min に該当するモチーフ配列を全て列挙し、列挙された各モチーフ配列のZ値であるZ(l min )を算出する。Z(l min )が0を超えるモチーフ配列を、初期モチーフ配列の集合M lmin とする。
(A2) モチーフの配列長さl=l min とし、集合M lmin =Mとし、Z(l min )=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4)Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5)l+δ>l max の場合は、終了する。
(A6)l+δ≦l max の場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(F) 前記(D)工程で決定した前記探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程 - 前記(C)工程が、前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加えて精度を向上させるモチーフ精度向上工程であり、
前記(D)工程が、前記(C)工程で精度が向上した前記第2次モチーフ候補配列を、探索対象のモチーフと決定するモチーフ決定工程であることを特徴とする請求項8記載のアプタマー候補探索方法。 - さらに、前記アプタマー候補を評価するアプタマー候補評価工程を含むことを特徴とする請求項7から9のいずれか一項に記載のアプタマー候補検索方法。
- モチーフ候補配列を選択するモチーフ候補選択手段と、
前記モチーフ候補配列に修正を加えるモチーフ候補修正手段と、
探索対象のモチーフを決定するモチーフ決定手段とを備え、
前記モチーフ候補選択手段は、下記(A)工程および(B)工程を実行し、
前記モチーフ候補修正手段は、下記(C)工程を実行し、
前記モチーフ決定手段は、下記(D)工程を実行することを特徴とする、配列上のモチーフを探索するモチーフ探索装置。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義し、複数の配列から、前記各配列上の前記範囲に含まれる第1次のモチーフ候補配列を列挙する工程であり、下記(A1)〜(A6)を含む第1次モチーフ候補列挙工程
(A1) l min に該当するモチーフ配列を全て列挙し、列挙された各モチーフ配列のZ値であるZ(l min )を算出する。Z(l min )が0を超えるモチーフ配列を、初期モチーフ配列の集合M lmin とする。
(A2) モチーフの配列長さl=l min とし、集合M lmin =Mとし、Z(l min )=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4)Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5)l+δ>l max の場合は、終了する。
(A6)l+δ≦l max の場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程 - 前記(C)工程が、前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加えて精度を向上させるモチーフ精度向上工程であり、
前記(D)工程が、前記(C)工程で精度が向上した前記第2次モチーフ候補を、探索対象のモチーフと決定するモチーフ決定工程であることを特徴とする請求項11記載のモチーフ探索装置。 - さらに、情報を出力する出力手段を備え、
前記出力手段は、前記(D)工程で決定された前記探索対象のモチーフを出力することを特徴とする請求項11または12記載のモチーフ探索装置。 - モチーフ候補を選択するモチーフ候補選択手段と、
前記モチーフ候補配列に修正を加えるモチーフ候補修正手段と、
探索対象のモチーフを決定するモチーフ決定手段と、
アプタマー候補を決定するアプタマー候補決定手段とを備え、
前記モチーフ候補選択手段は、下記(A)工程および(B)工程を実行し、
前記モチーフ候補修正手段は、下記(C)工程を実行し、
前記モチーフ決定手段は、下記(D)工程を実行し、
前記アプタマー候補決定手段は、下記(F)工程を実行することを特徴とする、アプタマー候補を探索するアプタマー候補探索装置。
(A) 探索対象となるモチーフの配列の最小の長さをlminとし、前記探索対象となるモチーフの配列の最大長さをlmaxとし、前記探索対象となるモチーフの長さlの範囲を[lmin,lmax]と定義し、複数の塩基配列から、前記各配列上の前記範囲に含まれる第1次のモチーフ候補配列を列挙する工程であり、下記(A1)〜(A6)を含む第1次モチーフ候補列挙工程
(A1) l min に該当するモチーフ配列を全て列挙し、列挙された各モチーフ配列のZ値であるZ(l min )を算出する。Z(l min )が0を超えるモチーフ配列を、初期モチーフ配列の集合M lmin とする。
(A2) モチーフの配列長さl=l min とし、集合M lmin =Mとし、Z(l min )=Z(l)とする。
(A3) 集合Mに含まれる各モチーフ配列にδ(デルタ)の長さの配列を加えたモチーフ配列をl+δとし、各l+δのZ値であるZ(l+δ)を算出する。
(A4)Z(l)とZ(l+δ)の大きさを比較し、Z(l+δ)>Z(l)であるモチーフ配列の集合をMとする。
(A5)l+δ>l max の場合は、終了する。
(A6)l+δ≦l max の場合は、前記(A4)の集合Mの各モチーフ配列l+δをlにして、前記(A3)に戻る。
(B) 前記(A)工程で列挙された前記第1次モチーフ候補配列の中から、第2次のモチーフ候補配列を選択する、第2次モチーフ候補選択工程
(C) 前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加える、モチーフ候補修正工程
(D) 前記(C)工程で修正を加えた前記第2次モチーフ候補配列を、探索対象のモチーフと決定する、モチーフ決定工程
(F) 前記(D)工程で決定した探索対象のモチーフを含む塩基配列を、アプタマー候補とする、アプタマー候補決定工程 - 前記(C)工程が、前記(B)工程で選択された前記第2次モチーフ候補配列に対して修正を加えて精度を向上させるモチーフ精度向上工程であり、
前記(D)工程が、前記(C)工程で精度が向上した前記第2次モチーフ候補配列を、探索対象のモチーフと決定するモチーフ決定工程であることを特徴とする請求項14記載のアプタマー候補探索装置。 - さらに、情報を出力する出力手段を備え、
前記出力手段は、前記(D)工程で決定された前記探索対象のモチーフおよび前記(F)工程で決定された前記アプタマー候補の少なくとも一方を出力することを特徴とする請求項14または15記載のアプタマー候補探索装置。 - 請求項1から6のいずれか一項に記載のモチーフ探索方法を、コンピュータ上で実行可能なコンピュータプログラム。
- 請求項17記載のコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体。
- 請求項7から10のいずれか一項に記載のアプタマー候補探索方法を、コンピュータ上で実行可能なコンピュータプログラム。
- 請求項19記載のコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011529960A JP5441189B2 (ja) | 2009-09-04 | 2010-09-03 | モチーフ探索方法およびモチーフ探索装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009205118 | 2009-09-04 | ||
JP2009205118 | 2009-09-04 | ||
JP2011529960A JP5441189B2 (ja) | 2009-09-04 | 2010-09-03 | モチーフ探索方法およびモチーフ探索装置 |
PCT/JP2010/065168 WO2011027869A1 (ja) | 2009-09-04 | 2010-09-03 | モチーフ探索方法およびモチーフ探索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011027869A1 JPWO2011027869A1 (ja) | 2013-02-04 |
JP5441189B2 true JP5441189B2 (ja) | 2014-03-12 |
Family
ID=43649404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011529960A Expired - Fee Related JP5441189B2 (ja) | 2009-09-04 | 2010-09-03 | モチーフ探索方法およびモチーフ探索装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5441189B2 (ja) |
WO (1) | WO2011027869A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6012085B2 (ja) * | 2012-11-13 | 2016-10-25 | Necソリューションイノベータ株式会社 | サルモネラに結合する核酸分子およびその用途 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187666A (ja) * | 1996-12-27 | 1998-07-21 | Nec Corp | タンパク質及び遺伝子の配列の確率的モチーフ発見方法 |
JP2007108949A (ja) * | 2005-10-12 | 2007-04-26 | Ajinomoto Co Inc | 遺伝子発現制御配列の推定方法 |
-
2010
- 2010-09-03 WO PCT/JP2010/065168 patent/WO2011027869A1/ja active Application Filing
- 2010-09-03 JP JP2011529960A patent/JP5441189B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187666A (ja) * | 1996-12-27 | 1998-07-21 | Nec Corp | タンパク質及び遺伝子の配列の確率的モチーフ発見方法 |
JP2007108949A (ja) * | 2005-10-12 | 2007-04-26 | Ajinomoto Co Inc | 遺伝子発現制御配列の推定方法 |
Non-Patent Citations (4)
Title |
---|
JPN6013015036; PESOLE, G.: 'WORDUP: an efficient algorithm for discoveringstatistically significant patterns in DNA sequences' NucleicAcids Research Vol.20, No.11, 199206, p.2871-2875 * |
JPN6013015038; OGIWARA, A.: 'Construction of a dictionary of sequence motifs thatcharacterize groups of related proteins' Protein Engineering Vol.5, No.6, 199209, p.479-488 * |
JPN6013015043; SMITH, H.O.: 'Finding sequence motifs in groups of functionallyrelated proteins' Proceedings of the National Academy ofSciences of the United States of America Vol.87, No.2, 199001, p.826-830 * |
JPN6013015045; van HELDEN, J.: 'Extracting regulatory sites from the upstreamregion of yeast genes by computational analysis ofoligo' Journal of molecular biology Vol.281, No.5, 199809, p.827-842 * |
Also Published As
Publication number | Publication date |
---|---|
WO2011027869A1 (ja) | 2011-03-10 |
JPWO2011027869A1 (ja) | 2013-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shapiro et al. | Bridging the gap in RNA structure prediction | |
Niu et al. | CirRNAPL: a web server for the identification of circRNA based on extreme learning machine | |
KR20160073406A (ko) | 방향성 비순환 구조에서 쌍형성된-말단 데이터를 사용하기 위한 시스템 및 방법 | |
Heller et al. | ssHMM: extracting intuitive sequence-structure motifs from high-throughput RNA-binding protein data | |
JP2015119718A (ja) | アプタマーを選択する方法 | |
US9311447B2 (en) | Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule | |
Sasse et al. | Motif models for RNA-binding proteins | |
JP2008146538A (ja) | マイクロrna検出装置、方法およびプログラム | |
Rampášek et al. | RNA motif search with data-driven element ordering | |
CN113066527A (zh) | 一种siRNA敲减mRNA的靶点预测方法和系统 | |
Runge et al. | Rnabench: A comprehensive library for in silico rna modelling | |
JP5441189B2 (ja) | モチーフ探索方法およびモチーフ探索装置 | |
Yamamoto et al. | dsRID: in silico identification of dsRNA regions using long-read RNA-seq data | |
Backofen et al. | Comparative RNA genomics | |
Xulvi-Brunet et al. | Computational analysis of fitness landscapes and evolutionary networks from in vitro evolution experiments | |
CN108595914B (zh) | 一种烟草线粒体rna编辑位点高精度预测方法 | |
KR100793505B1 (ko) | 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법 | |
Backofen et al. | Comparative RNA genomics | |
Zhong et al. | Improved Pre‐miRNA Classification by Reducing the Effect of Class Imbalance | |
Barash et al. | Energy minimization methods applied to riboswitches: a perspective and challenges | |
Sharma et al. | An experimental comparison of PMSprune and other algorithms for motif search | |
Montaseri et al. | Evaluating the quality of SHAPE data simulated by k-mers for RNA structure prediction | |
Golabi et al. | Development of a new sequential block finding strategy for detection of conserved sequences in riboswitches | |
Gajula et al. | Role of bioinformatics in agriculture | |
Khaladkar et al. | Detecting conserved secondary structures in RNA molecules using constrained structural alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5441189 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |