JP7008979B2 - 情報処理システム、情報処理方法、及びプログラム - Google Patents
情報処理システム、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7008979B2 JP7008979B2 JP2018564532A JP2018564532A JP7008979B2 JP 7008979 B2 JP7008979 B2 JP 7008979B2 JP 2018564532 A JP2018564532 A JP 2018564532A JP 2018564532 A JP2018564532 A JP 2018564532A JP 7008979 B2 JP7008979 B2 JP 7008979B2
- Authority
- JP
- Japan
- Prior art keywords
- sample
- data
- information processing
- metagenomic
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Computational Linguistics (AREA)
Description
本願は、2017年1月26日に日本に出願された特願2017-012340号について優先権を主張し、その内容をここに援用する。
以下では、微生物群集構造を示すデータを微生物群集構造データと称する。微生物群集を構成する細菌の種数は膨大である。そのため、微生物群集構造データを記述するには、しばしば数百の変数が必要となる。
また、これまでには注目されてこなかった新たな環境に由来する微生物群集構造が次々に明らかにされている現在、それらを取り込みながら適切な粒度で定義された環境ラベルの語彙体系(オントロジー)を設計することにも手間がかかる。
以上のように、微生物群集の解釈や利用は困難であったため、微生物群集の解釈や利用を容易にすることが望まれている。また、微生物群集に関係するようなゲノムの情報のみならず、近年では、遺伝子産物、代謝産物等の多様な生体分子群についての情報(メタトランスクリプトーム、メタボローム)が大量に蓄積されてきており、生体分子群の解釈や利用を容易にすることが望まれている。
[第1の実施形態]
〔メタゲノム情報処理システム1の概要〕
本発明の第1の実施形態について説明する。
メタゲノム情報処理システム1は、メタゲノム解析を支援する情報処理システムである。メタゲノム情報処理システム1が解析対象とするサンプルデータペアは、例えば、微生物群集のサンプルごとに、微生物群集構造データ(系統組成データ)と、自然言語記述データとを対応付けたデータである。微生物群集構造データには、例えば、サンプルに含まれる微生物の識別情報や当該微生物の量を示す数的情報等が記述される。自然言語記述データには、例えば、サンプルの取得環境、すなわち微生物の生息環境を示す環境ラベル等の単語(文字列)の情報や当該単語の出現回数を示す数的情報等が記述される。
図1は、メタゲノム情報処理システム1により生成されたメタゲノムモデルを二次元平面に表した画像を示す。このメタゲノムモデル画像MDは、自然環境から取得された多数のサンプルのそれぞれを、複数の潜在的環境因子の一次結合として表現する確率モデル(関数)である。換言すると、潜在的環境因子とは、サンプルを、その混合により表現することができる単位(要素)である。上記のようにサンプルは、微生物の側面と文字列の側面とを有するため、潜在的環境因子もまた、微生物の側面と文字列の側面とを有する。つまり、潜在的環境因子とは、微生物群集の単位(サブコミュニティ、部分群集)であって、且つ、文字列集合の単位(単語サブセット)である。以下では、微生物群集の単位を、単位微生物群集と称する。また、文字列集合の単位を、単位文字列集合と称する。
換言すると、メタゲノム情報処理システム1は、潜在的環境因子を取得する。
これにより、メタゲノム情報処理システム1は、潜在的環境因子を取得し、サンプルを潜在的環境因子の混合として表現する。つまり、メタゲノム情報処理システム1は、サンプルと潜在的環境因子との関係を明確にする。よって、メタゲノム情報処理システム1は、サンプルの解釈を容易にすることができる。
次に、メタゲノム情報処理システム1の構成について説明する。
図2は、メタゲノム情報処理システム1の構成を示すブロック図である。
メタゲノム情報処理システム1は、1以上の端末装置10-1、10-2、…と、メタゲノム情報処理装置30と、サンプル蓄積装置50と、を備える。以下では、端末装置10-1、10-2、…を特に区別しない場合には、端末装置10と総称する。端末装置10と、メタゲノム情報処理装置30と、サンプル蓄積装置50とは、それぞれ、ネットワークNWを介して互いに通信することができる。
端末装置10は、ユーザから操作入力を受け付けたり、ユーザに対して情報を提示したりするためのユーザインターフェースを提供する。
次に端末装置10の構成について説明する。
図3は、端末装置10の構成を示すブロック図である。
端末装置10は、通信部11と、入力部12と、表示部13と、記憶部14と、制御部15と、を備える。
通信部11は、通信モジュールを備え、ネットワークNWに接続する他の装置と通信する。
入力部12は、マウス、タッチパッド等のポインティングデバイス、キーボード等の入力モジュールを備え、ユーザによる操作入力を受け付ける。
表示部13は、液晶ディスプレイパネル等の表示モジュールを備え、各種情報を表示する。
入力サンプル記憶部141は、入力サンプルデータペアを記憶する。
次に、メタゲノム情報処理装置30の構成について説明する。
図4は、メタゲノム情報処理装置30の構成を示すブロック図である。
メタゲノム情報処理装置30は、通信部31と、記憶部32と、制御部34と、を備える。
通信部31は、通信モジュールを備え、ネットワークNWに接続する他の装置と通信する。
図5に示す例において、自然言語記述データは、サンプルID(IDentifier)と、語彙情報と、出現回数情報と、を互いに対応付けて構成される。サンプルIDとは、微生物群集のサンプルを一意に識別する情報である。文字列情報とは、環境ラベル等の文字列を示す情報である。出現回数情報とは、文字列情報が示す文字列の出現回数を示す情報である。このように、自然言語記述データは、サンプルの特徴を、言語的側面から量的に表現したデータである。
図6に示す例において、自然言語記述データは、サンプルID(IDentifier)と、微生物名情報と、量情報と、を互いに対応付けて構成される。サンプルIDは、自然言語記述データにおけるものと同様である。つまり、サンプルIDを介して、自然言語記述データと微生物群集構造データは、互いに対応付けられている。微生物名情報とは、微生物の識別情報であり、例えば微生物の名称を示す情報である。量情報とは、微生物名情報が示す微生物の量を示す情報である。このように、微生物群集構造データは、サンプルの特徴を、遺伝的側面から量的に表現したデータである。
モデル記憶部332は、メタゲノムモデルのデータを記憶する。
各データの自然言語記述データも、それぞれ潜在的なトピックを持つ。自然言語記述データが帰属するトピックの集合C(太字)は以下の式(10)で表される。
式(12)右辺第一項の確率分布P(Z(太字)|α)は式(13)で表され、データに出現するトピックは、ハイパーパラメータとしてαz(z = 1~Z)を持つディリクレ分布を事前分布とした、多項分布θd~Dirichlet(α(太字))に従って生成されたという仮定を表現している。
式(12)右辺第二項の確率分布P(W(太字)|Z(太字),β)は以下の式(15)で表され、微生物群集構造データの微生物は、その潜在トピックがzであるとき、ハイパーパラメータβを持つディリクレ分布を事前分布とした、多項分布φz~Dirichlet(β)に従って生成されたという仮定を表現している。式(14)と同様の積分消去を行うことで式(15)を得る。
式(12)右辺第三項の確率分布P(C(太字)|Z(太字))は式(16)で表され、自然言語記述データの単語は、微生物群集構造データに割り当てられたトピックの分布と同じ比率の多項分布から生成されたという仮定を表現している。
式(12)右辺第四項の確率分布P(T(太字)|C(太字),γ)は式(17)で表され、自然言語記述データの単語は、その潜在トピックがcであるとき、ハイパーパラメータγを持つディリクレ分布を事前分布とした、多項分布ψc~ Dirichlet(γ)に従って生成されたという仮定を表現している。式(14)と同様の積分消去を行うことで式(17)が得られる。
本実施形態では、以上の式に含まれる微生物群集構造データの潜在トピックZ(太字)、及び、自然言語記述データの潜在トピックC(太字)についての事後分布を、マルコフ連鎖モンテカルロ法の一種である崩壊型ギブスサンプリングによって推論することとした。
ギブスサンプリングの各ステップで、以下の式(18)、式(19)に応じて、微生物群集構造データと自然言語記述データの各要素の潜在トピックをサンプリングする。ギブスサンプリングのステップは、式(12)の同時尤度が収束するまで繰り返す。
微生物群集構造データに関して、データペアdのn番目の微生物の潜在トピックzのサンプリング確率は式(18)で表される。
自然言語記述データに関して、データペアdのn番目の単語の潜在トピックcのサンプリング確率は式(19)で表される。
十分なステップ数のギブスサンプリングによる繰り返し演算によって式(12)で表される同時尤度が収束した段階で、サンプルごとのトピック生成確率、すなわち潜在的環境因子の混合割合θdzを式(24)で、トピックごとの微生物生起確率、すなわち潜在的環境因子ごとの微生物群集サブコミュニティの構成φzwを式(25)で、トピックごとの単語生起確率、すなわち潜在的環境因子ごとの自然言語記述データ生成確率ψztを式(26)で推定する。
Z次元実数値ベクトルの可視化では、何らかの次元削減手法によって二次元あるいは三次元空間内にサンプル点を配置する手法が有効であり、主成分分析や多次元尺度構成法など様々な次元削減手法を適用可能である。ここでは、一例として、高次元空間におけるサンプル点間の局所的な関係性を保持しつつ低次元空間へのサンプル点の埋め込みを可能とする手法であるt-SNE(t-distributed Stochastic Neighbor Embedding)(非特許文献3)を採用する場合について説明する。
式(27)でxi,xjはそれぞれサンプル点i,jの高次元空間上の座標を表し、σiは、xiを中心とした正規分布の分散を表現するパラメータである。また、式(27)で||・||は、サンプル点xi,xj間のユークリッドノルムを表す。
低次元空間内の点i,jについても、同様の同時確率を定義することができる。t-SNEでは、低次元空間と高次元空間の体積の違いに適切に対処するために、低次元空間内のサンプル点間の同時確率については正規分布ではなく、正規分布よりも裾の重いt分布を扱う。これにより、高次元空間で距離の離れたサンプル点間の低次元空間内での距離をより遠くに引き離すことが可能となる。低次元空間上のサンプル点i,jの座標をyi,yjとしたとき、サンプル点iとjの同時確率qijを式(29)で定義する。
式(30)の最小化によって得られる低次元空間上の座標yは、高次元空間上のサンプル間の距離的な特徴をできるだけ保持した表現となる。
ニューラルネットワークの重みは、通常のt-SNEと同様に式(30)を損失関数として、適切に学習率を設定したミニバッチ確率的勾配降下法などの最適化計算を実施して学習する。
以上により、各加工サンプルデータペアを二次元平面上に配置した画像を生成することができる。
サンプル予測部345は、モデル生成部344が生成したメタゲノムモデルを用いて、新規サンプルにおける潜在的環境因子の混合割合の予測(解析)を行う。サンプル予測部345は、新規サンプルの微生物群集構造データを、端末装置10から取得する。サンプル予測部345は、メタゲノムモデルのトピック生成確率のハイパーパラメータα、及び、トピック毎の微生物生起確率φを利用して、新規サンプルにおける潜在的環境因子の混合割合を推定する。
まず、検索クエリを単語毎に分割し、検索単語集合q(太字)={qn}(n=1~N)を構成する。その後、モデル検索部346は、学習に用いた加工サンプルデータペアそれぞれのスコアを計算する。加工サンプルデータペアdについてのスコアは、以下の(33)で計算される。
次に、メタゲノム情報処理システム1の動作について説明する。
まず、メタゲノムモデルの生成におけるメタゲノム情報処理システム1の動作について説明する。
図7は、メタゲノム情報処理システム1によるメタゲノムモデルの生成処理の流れを示すシーケンスチャートである。
(ステップS10)メタゲノム情報処理装置30は、サンプル蓄積装置50からメタゲノムモデルの生成に用いる入力サンプルデータペアを要求する。ここで、メタゲノム情報処理装置30は、メタゲノムモデルの生成に十分な量の多数の入力サンプルデータペアを要求する。その後、メタゲノム情報処理システム1は、ステップS12に処理を進める。
(ステップS14)メタゲノム情報処理装置30は、サンプル蓄積装置50から取得した入力サンプルデータペアから加工サンプルデータペアを生成する。その後、メタゲノム情報処理システム1は、ステップS16に処理を進める。
(ステップS16)メタゲノム情報処理装置30は、加工サンプルデータペアを用いて学習を行い、メタゲノムモデルを生成する。その後、メタゲノム情報処理システム1は、図7に示す処理を終了する。
例えば、メタゲノムモデル画像MDにおいて、サンプルのプロット(例えば、S-1)がクリックされると、メタゲノム情報処理システム1は、図8に表示を遷移させ、サンプルの微生物群集構造、及び、潜在的環境因子の混合割合を棒グラフGRで表示する等してサンプルに関する情報を提示してもよい。また、潜在的環境因子(例えば、E-6)がクリックされると、メタゲノム情報処理システム1は、図9に表示を遷移させ、その因子に対応した単語の生成確率、及び、微生物群集INを表示する等して潜在的環境因子に関する情報を提示してもよい。
図10は、メタゲノム情報処理システム1による新規サンプルの予測処理の流れを示すシーケンスチャートである。
(ステップS22)端末装置10は、新規サンプルの入力サンプルデータペアをメタゲノム情報処理装置30に送信する。その後、メタゲノム情報処理システム1は、ステップS24に処理を進める。
(ステップS26)メタゲノム情報処理装置30は、ステップS24の処理で生成した加工サンプルデータペアとメタゲノムモデルとを用いて、新規サンプルの潜在的環境因子を予測する。その後、メタゲノム情報処理システム1は、ステップS28に処理を進める。
(ステップS30)端末装置10は、メタゲノム情報処理装置30から取得した予測結果を表示する。例えば、端末装置10は、図12のメタゲノムモデル画像MD1のように、予測したサンプルのプロットNSのみを表示することで、サンプルの予測結果を強調表示してよい。また、サンプルの微生物群集やサンプルを構成する潜在的環境因子を棒グラフGR1で表示すること等により予測結果を表示してもよい。その後、メタゲノム情報処理システム1は、図10に示す処理を終了する。
図13は、メタゲノム情報処理システム1による検索処理の流れを示すシーケンスチャートである。
(ステップS42)端末装置10は、メタゲノム情報処理装置30に検索クエリを送信する。その後、メタゲノム情報処理システム1は、ステップS44に処理を進める。
(ステップS46)メタゲノム情報処理装置30は、ステップS44で変換した自然言語記述データとメタゲノムモデルを用いて、加工サンプルデータペアを抽出する。例えば、メタゲノム情報処理装置30は、図15に示すように、メタゲノムモデルの生成に用いた加工サンプルデータペア毎に検索クエリに対するスコアを算出し、スコアの高いサンプルを特定する。その後、メタゲノム情報処理システム1は、ステップS48に処理を進める。
(ステップS48)端末装置10は、メタゲノム情報処理装置30から取得した検索結果を表示する。例えば、端末装置10は、図14に示すメタゲノムモデル画像MD2のように、サンプルのプロットをスコアに応じた輝度で表示することにより、検索クエリと関連性の高いサンプルを強調表示する。その後、メタゲノム情報処理システム1は、図13に示す処理を終了する。
近年の研究から、微生物群集構造データは、全変数の空間上で乱雑に分布しているわけではなく、サンプルを取得した環境(由来)に応じて特有の微生物存在量のパターンを有していることが明らかになってきた。例えば、河川から取得したサンプルであれば淡水に特有の微生物群集構造を持ち、海洋から取得したサンプルであれば海水に特有の微生物群集構造を持つことが報告されている(非特許文献5)。その一方で、いくつかの環境においては、人間が認識する環境のパターンと微生物群集構造のパターンとが必ずしも一致しない例も報告されている。例えば、ヒト腸内の微生物群集構造に関する先行研究では、人種や性別によらない3パターンの腸内微生物群集構造が存在することが報告され、エンテロタイプという概念が提唱された(非特許文献6)。すなわち、多様なパターンを示すヒト腸内微生物群集構造のすべてを「ヒト腸内」という単一のラベルのみで、まとめて取り扱うことは妥当ではない。つまり、微生物群集構造の観点からは、人間の認識と異なる粒度で環境のパターンを定義することが必要である。
これにより、メタゲノム情報処理システム1は、サンプル同士の関係を容易に確認可能とする。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の実施形態において説明した各構成は、任意に組み合わせることができる。また、例えば、上述の実施形態において説明した各構成は、特定の機能を発揮するのに不要である場合には、省略することができる。
まずは、メタゲノムデータを解析対象とする場合について説明する。メタゲノムデータを解析する場合には、微生物群集構造データを、メタゲノムデータに置き換える。
図16は、メタゲノムデータのデータ構造を示す図である。
図16に示す例において、メタゲノムデータは、サンプルIDと、遺伝子名情報と、量情報と、を互いに対応付けて構成される。遺伝子名情報とは、遺伝子産物の識別情報であり、例えば、遺伝子産物の名称である。ここでいう、遺伝子産物とは、機能性RNAやタンパク質を含む。量情報とは、遺伝子名情報が示す遺伝子産物の量を示す情報である。このように、メタゲノムデータは、サンプルの特徴を、遺伝子産物の側面から量的に表現したデータである。
次に、メタトランスクリプトームデータを解析対象とする場合について説明する。メタトランスクリプトームデータを解析する場合には、微生物群集構造データを、メタトランスクリプトームデータに置き換える。メタトランスクリプトームデータのデータ構成は、メタゲノムデータと同様であるため、説明を省略する。ただし、メタトランスクリプトームデータの場合は、遺伝子産物が主にmRNA(Messenger RNA)であることが異なる。
次に、メタボロームデータを解析対象とする場合について説明する。メタボロームデータを解析する場合には、微生物群集構造データを、メタボロームデータに置き換える。
図17は、メタボロームデータのデータ構造を示す図である。
図17に示す例において、メタボロームデータは、サンプルIDと、分子名情報と、量情報と、を互いに対応付けて構成される。分子名情報とは、代謝産物等の分子の識別情報であり、例えば、分子の名称である。量情報とは、分子名情報が示す分子の量を示す情報である。このように、メタボロームデータは、サンプルの特徴を、分子の側面から量的に表現したデータである。
なお、第2の生物的要素に代えて、文字列を適用してもよいことは、上述した通りである。
Claims (9)
- サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、
を備える
情報処理システム。 - 前記生成部は、少なくとも一部の前記生物的要素と当該生物的要素の量を示す情報の組を複数含む基準生物要素集合、及び、少なくとも一部の前記形態素と当該形態素の出現回数の組を複数含む基準形態素集合を対応付けた基準データを、複数の前記サンプルデータの前記解析に基づいて、複数取得し、
前記サンプルデータが示す第1集合は、複数の前記基準データのうち、第1の基準データが示す基準生物要素集合と、第2の基準データが示す基準生物要素集合とを含み、当該サンプルデータが示す第2集合は、前記第1の基準データが示す基準形態素集合と、第2の基準データが示す基準形態素集合とを含む
請求項1に記載された情報処理システム。 - 前記生成部は、トピックモデルを用いてトピックを推定し、前記トピックを前記基準データとして取得する
請求項2に記載された情報処理システム。 - 前記基準データを記憶する記憶部と、
前記生物的要素又は前記形態素の少なくともいずれかを示す検索クエリを取得する取得部と、
前記検索クエリに関連する前記基準データを抽出する抽出部と、
を備える請求項2又は請求項3に記載の情報処理システム。 - 前記生物的要素は、微生物である
請求項1から請求項4のいずれか一項に記載の情報処理システム。 - 前記生物的要素は、生体分子である
請求項1から請求項4のいずれか一項に記載の情報処理システム。 - 情報処理システムが、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、
を含む
情報処理方法。 - コンピュータに、
サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得する第1ステップと、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する第2ステップと、
を含む
プログラム。 - サンプル毎に、当該サンプルから検出された生物的要素と当該生物的要素の量を示す生物的要素量の組を複数含む第1集合、及び、当該サンプルが存在する環境が記述された文書についての形態素と当該形態素の出現回数の組を複数含む第2集合、を対応付けたサンプルデータを取得するサンプルデータ取得部と、
複数の前記サンプルデータを、前記生物的要素量と前記出現回数を変数として解析し、前記環境と前記第1集合の関係を示す情報を生成する生成部と、
を備える
情報処理装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017012340 | 2017-01-26 | ||
JP2017012340 | 2017-01-26 | ||
PCT/JP2018/001594 WO2018139361A1 (ja) | 2017-01-26 | 2018-01-19 | 情報処理システム、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018139361A1 JPWO2018139361A1 (ja) | 2019-12-12 |
JP7008979B2 true JP7008979B2 (ja) | 2022-01-25 |
Family
ID=62979359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018564532A Active JP7008979B2 (ja) | 2017-01-26 | 2018-01-19 | 情報処理システム、情報処理方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11551788B2 (ja) |
JP (1) | JP7008979B2 (ja) |
WO (1) | WO2018139361A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611489B (zh) * | 2020-05-22 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 一种搜索处理方法、装置、电子设备及存储介质 |
CN117973703B (zh) * | 2024-03-29 | 2024-06-28 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种森林生态环境的分级定损方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007518972A (ja) | 2003-12-11 | 2007-07-12 | コレロジック システムズ,インコーポレイティド | 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法 |
JP2012080790A (ja) | 2010-10-07 | 2012-04-26 | Mega Chips Corp | 育成支援システム |
WO2014046646A1 (en) | 2012-09-18 | 2014-03-27 | Wallac Oy | Apparatus and methods for storage and transfer of patient information using biological sample cards with short range communications |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9938558B2 (en) * | 2015-06-25 | 2018-04-10 | Ascus Biosciences, Inc. | Methods, apparatuses, and systems for analyzing microorganism strains from complex heterogeneous communities, predicting and identifying functional relationships and interactions thereof, and selecting and synthesizing microbial ensembles based thereon |
-
2018
- 2018-01-19 JP JP2018564532A patent/JP7008979B2/ja active Active
- 2018-01-19 US US16/480,539 patent/US11551788B2/en active Active
- 2018-01-19 WO PCT/JP2018/001594 patent/WO2018139361A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007518972A (ja) | 2003-12-11 | 2007-07-12 | コレロジック システムズ,インコーポレイティド | 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法 |
JP2012080790A (ja) | 2010-10-07 | 2012-04-26 | Mega Chips Corp | 育成支援システム |
WO2014046646A1 (en) | 2012-09-18 | 2014-03-27 | Wallac Oy | Apparatus and methods for storage and transfer of patient information using biological sample cards with short range communications |
Also Published As
Publication number | Publication date |
---|---|
WO2018139361A1 (ja) | 2018-08-02 |
US20190377744A1 (en) | 2019-12-12 |
US11551788B2 (en) | 2023-01-10 |
JPWO2018139361A1 (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | GraphDTA: predicting drug–target binding affinity with graph neural networks | |
Zhao et al. | HyperAttentionDTI: improving drug–protein interaction prediction by sequence-based deep learning with attention mechanism | |
Diaz et al. | TACOA–Taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach | |
Ghasedi Dizaji et al. | Semi-supervised generative adversarial network for gene expression inference | |
Cheng et al. | IIFDTI: predicting drug–target interactions through interactive and independent features based on attention mechanism | |
Zhu et al. | Improving protein fold recognition by extracting fold-specific features from predicted residue–residue contacts | |
Xu et al. | STGRNS: an interpretable transformer-based method for inferring gene regulatory networks from single-cell transcriptomic data | |
Raimundo et al. | Machine learning for single-cell genomics data analysis | |
Wen et al. | A survey on predicting microbe-disease associations: biological data and computational methods | |
Vu et al. | Protein function prediction with gene ontology: from traditional to deep learning models | |
CN115114445B (zh) | 细胞知识图谱构建方法、装置、计算设备及存储介质 | |
Stringer et al. | PIPENN: protein interface prediction from sequence with an ensemble of neural nets | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
Rahman et al. | IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data | |
Borovska | Big data analytics and internet of medical things make precision medicine a reality | |
JP7008979B2 (ja) | 情報処理システム、情報処理方法、及びプログラム | |
Lin et al. | Effectively identifying compound-protein interaction using graph neural representation | |
Reiman et al. | Predicting host phenotype based on gut microbiome using a convolutional neural network approach | |
Chen et al. | Personalized expert recommendation systems for optimized nutrition | |
Hou et al. | Regularization method for predicting an ordinal response using longitudinal high-dimensional genomic data | |
Abbasi et al. | Predicting drug activity against cancer through genomic profiles and SMILES | |
Arif et al. | Optimizing lung cancer prediction: leveraging Kernel PCA with dendritic neural models | |
Atitey et al. | Model-based evaluation of spatiotemporal data reduction methods with unknown ground truth through optimal visualization and interpretability metrics | |
Hoksza et al. | Exploration of protein sequence embeddings for protein-ligand binding site detection | |
Dall’Olio et al. | BRAQUE: Bayesian reduction for amplified quantization in UMAP embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190815 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7008979 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |