JP6355840B2 - ストップワード識別方法および装置 - Google Patents
ストップワード識別方法および装置 Download PDFInfo
- Publication number
- JP6355840B2 JP6355840B2 JP2017521535A JP2017521535A JP6355840B2 JP 6355840 B2 JP6355840 B2 JP 6355840B2 JP 2017521535 A JP2017521535 A JP 2017521535A JP 2017521535 A JP2017521535 A JP 2017521535A JP 6355840 B2 JP6355840 B2 JP 6355840B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- word
- change
- stop
- relative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 72
- 230000008859 change Effects 0.000 claims description 154
- 239000013598 vector Substances 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、ストレージデバイス206と、検索デバイス202とを備える、情報検索システム200の実施様態である。ストレージデバイス206は、情報検索システムにおいて検索を行うために必要となるデータを記憶する。ストレージデバイス206は、通信ネットワーク204を使用して検索デバイス202との通信を確立し得る。ストレージデバイス206はまた、検索デバイス202に直接配置されてもよく、入力/出力ユニット2021を使用して検索デバイス202との通信を確立してもよい。検索デバイス202は、入力/出力ユニット2021と、処理ユニット2022とを備える。ユーザが入力/出力ユニット2021を使用してクエリを検索デバイス202に送信した後に、検索デバイス202は、クエリに従って検索を行い、対応する検索結果をユーザに返す。一般的に、情報検索システムは、一連のファイルを使用してユーザに検索結果を表示する。ユーザが通信ネットワーク204を使用してクエリを検索デバイス202に送信する場合には、入力/出力ユニット2021は、ネットワークインターフェースであり得る。ユーザが検索デバイス202においてローカルでクエリを検索デバイス202に送信する場合には、入力/出力ユニット2021はまた、検索デバイス202の入力/出力(英語表記:input/output、略して、I/O)インターフェースであり得る。
Query
{
//属性情報
String sessionID;
String queryContent;
Word wordList[];
...
//関数定義
static public isInTheSameSession(){};
static public isInTheSameQueryChain(){};
...
}
Word
{
//クエリにおける、単語、統計的特徴、および単語のクエリベースの特徴についての内容を含む属性情報
String wordContent;
int wordPosition;
int wordFrequency;
long wordVariance;
...
//動的情報
Boolean newWord;
Int positionChange;
Long posChange;
...
//関数定義
static public Boolean newWord(){};
static public Int positionChange(){};
...
}
ここで、isInTheSameSession(){}は、入力されたクエリのセッションIDに従って、2つのクエリが同一のセッションに属しているかどうかを判定するものとして定義されている。
2021 入力/出力ユニット
2022 処理ユニット
202 検索デバイス
204 通信ネットワーク
206 ストレージデバイス
202 検索デバイス
206 ストレージデバイス
200 情報検索システム
400 コンピュータデバイス
402 プロセッサ
404 メモリ
406 通信インターフェース
408 バス
800 ストップワード識別装置
802 入力モジュール
804 処理モジュール
Claims (21)
- ストップワード識別方法であって、前記方法は、コンピュータデバイス上で動作する情報検索システムによって実行され、
第1のクエリを受信し、前記第1のクエリに対応するセッション識別子(ID)を獲得するステップと、
前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得するステップと、
前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得するステップと、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するステップとを含む、方法。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項1に記載の方法。
- 前記獲得した第2のクエリは、
前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、
前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、
前記第1のクエリが第1のベクトルにマッピングされており、前記第2のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項1または2に記載の方法。 - 前記方法は、
前記第1のクエリにおける各単語に従って前記情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するステップをさらに含み、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するステップは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別するステップを含む、請求項1から3のいずれか一項に記載の前記方法。 - 前記情報検索システムは、識別モデルをさらに備え、
前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別するステップは、
前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を前記識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得するステップを含む、請求項4に記載の方法。 - 前記方法は、
正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するステップをさらに含む、請求項5に記載の方法。 - 前記訓練を行う前に、前記方法は、
前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得するステップと、
前記検索結果の精度が判定されると前記訓練を行うステップとをさらに含む、請求項6に記載の方法。 - ストップワード識別装置であって、
第1のクエリを受信し、前記第1のクエリに対応するセッション識別子(ID)を獲得するように構成される、入力モジュールと、
前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得するように構成され、前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得するようにさらに構成される、処理モジュールとを備え、
前記処理モジュールは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別するようにさらに構成される、装置。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項8に記載の装置。
- 前記獲得した第2のクエリは、
前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、
前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、
前記第1のクエリが第1のベクトルにマッピングされており、前記第2のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項8または9に記載の装置。 - 前記処理モジュールは、前記第1のクエリにおける各単語に従って情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するようにさらに構成され、
前記処理モジュールが前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別することは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することを含む、請求項8から10のいずれか一項に記載の前記装置。 - 前記処理モジュールは、識別モデルをさらに含み、
前記処理モジュールが前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を前記識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得することを含む、請求項11に記載の装置。 - 前記処理モジュールは、正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するようにさらに構成される、請求項12に記載の装置。
- 前記訓練を行う前に、前記処理モジュールは、
前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得し、
前記検索結果の精度が判定されると前記訓練を行うようにさらに構成される、請求項13に記載の装置。 - プロセッサと、メモリとを備える、コンピュータデバイスであって、
前記プロセッサは、前記メモリにあるプログラムを読み出して、第1のクエリを受信し、前記第1のクエリに対応するセッション識別子(ID)を獲得し、前記セッションIDに従って、前記第1のクエリと同一のセッションに属する第2のクエリを獲得し、前記第2のクエリに対する前記第1のクエリにおける各単語の変化ベースの特徴を獲得し、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別する動作を行う、コンピュータデバイス。 - 前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴は、前記第2のクエリに対する前記第1のクエリにおける各単語が新規単語であるかどうかを示すために使用される、第1の変化ベースの特徴、前記第2のクエリにおける前記単語の位置に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の位置の変化を示すために使用される、第2の変化ベースの特徴、前記第2のクエリにおける前記単語の品詞に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の品詞の変化を示すために使用される、第3の変化ベースの特徴、前記第2のクエリにおける前記単語の構文クラスに対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の構文クラスの変化を示すために使用される、第4の変化ベースの特徴、または、前記第2のクエリにおける前記単語の両端にある句読記号に対する前記第1のクエリにおける、前記第1のクエリおよび前記第2のクエリの双方に含まれる、単語の両端にある句読記号の変化を示すために使用される、第5の変化ベースの特徴のうちのいずれか1つを含む、請求項15に記載のコンピュータデバイス。
- 前記プロセッサによって獲得された前記第2のクエリは、前記第1のクエリと前記第2のクエリとの最長の共通の節の長さが第1の閾値より大きい、または、前記第1のクエリを前記第2のクエリに変換するために要する操作の最小回数が第2の閾値未満である、または、前記第1のクエリが第1のベクトルにマッピングされており、前記第2のクエリが第2のベクトルにマッピングされており、前記第1のベクトルと前記第2のベクトルとの間の夾角または距離が第3の閾値未満である、という条件のうちのいずれか1つを満たす、請求項15または16に記載のコンピュータデバイス。
- 前記プロセッサは、前記第1のクエリにおける各単語に従って情報検索システムの単語特徴データベースにクエリを行い、前記第1のクエリにおける各単語の統計的特徴を獲得するようにさらに構成され、
前記プロセッサが前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおけるストップワードを識別することは、前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することを含む、請求項15から17のいずれか一項に記載の前記コンピュータデバイス。 - 前記プロセッサが前記第1のクエリにおける各単語の前記統計的特徴および前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴に従って前記第1のクエリにおける前記ストップワードを識別することは、前記第2のクエリに対する前記第1のクエリにおける各単語の前記変化ベースの特徴および前記第1のクエリにおける各単語の前記統計的特徴を識別モデルに入力し、前記第1のクエリにおける、前記識別モデルによって識別された前記ストップワードを取得することを含む、請求項18に記載のコンピュータデバイス。
- 前記プロセッサは、正例として前記第1のクエリにおける前記ストップワードの統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードの変化ベースの特徴を使用し、負例として前記第1のクエリにおける前記ストップワードを除いた任意の単語の統計的特徴および前記第2のクエリに対する前記第1のクエリにおける前記ストップワードを除いた任意の単語の変化ベースの特徴を使用し、前記正例および前記負例に従って前記識別モデルを訓練するようにさらに構成される、請求項19に記載のコンピュータデバイス。
- 前記訓練を行う前に、前記プロセッサは、前記第1のクエリから前記識別モデルによって識別された前記ストップワードを除去して候補検索語を取得し、前記候補検索語に従って検索を行って検索結果を取得し、前記検索結果の精度が判定されると前記訓練を行うようにさらに構成される、請求項20に記載のコンピュータデバイス。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/096179 WO2017091985A1 (zh) | 2015-12-01 | 2015-12-01 | 停用词识别方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018501540A JP2018501540A (ja) | 2018-01-18 |
JP6355840B2 true JP6355840B2 (ja) | 2018-07-11 |
Family
ID=58796113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017521535A Active JP6355840B2 (ja) | 2015-12-01 | 2015-12-01 | ストップワード識別方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10019492B2 (ja) |
EP (1) | EP3232336A4 (ja) |
JP (1) | JP6355840B2 (ja) |
CN (1) | CN108027814B (ja) |
WO (1) | WO2017091985A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019040044A1 (en) * | 2017-08-21 | 2019-02-28 | Google Llc | PRESERVING SESSION IDENTIFIERS IN MULTIPLE WEB PAGES FOR CONTENT SELECTION |
CN108491462B (zh) * | 2018-03-05 | 2021-09-14 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109947803B (zh) * | 2019-03-12 | 2021-11-19 | 成都全景智能科技有限公司 | 一种数据处理方法、系统及存储介质 |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN111159526B (zh) * | 2019-12-26 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 查询语句处理方法、装置、设备及存储介质 |
CN111191450B (zh) * | 2019-12-27 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 语料清洗方法、语料录入设备及计算机可读存储介质 |
EP3901875A1 (en) | 2020-04-21 | 2021-10-27 | Bayer Aktiengesellschaft | Topic modelling of short medical inquiries |
CN114519090B (zh) * | 2020-11-20 | 2023-11-21 | 马上消费金融股份有限公司 | 一种停用词的管理方法、装置及电子设备 |
EP4036933A1 (de) | 2021-02-01 | 2022-08-03 | Bayer AG | Klassifizierung von mitteilungen über arzneimittel |
US11914664B2 (en) | 2022-02-08 | 2024-02-27 | International Business Machines Corporation | Accessing content on a web page |
US12130790B1 (en) * | 2023-07-20 | 2024-10-29 | Elm | Method for accelerated long document search using Hilbert curve mapping |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4073989B2 (ja) * | 1997-12-09 | 2008-04-09 | 株式会社東芝 | 自然言語検索入力装置 |
US6252988B1 (en) * | 1998-07-09 | 2001-06-26 | Lucent Technologies Inc. | Method and apparatus for character recognition using stop words |
US6514140B1 (en) * | 1999-06-17 | 2003-02-04 | Cias, Inc. | System for machine reading and processing information from gaming chips |
JP2001325104A (ja) * | 2000-05-12 | 2001-11-22 | Mitsubishi Electric Corp | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 |
US7409383B1 (en) | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US8438142B2 (en) * | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US9110975B1 (en) * | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
US20080141278A1 (en) * | 2006-12-07 | 2008-06-12 | Sybase 365, Inc. | System and Method for Enhanced Spam Detection |
US8498980B2 (en) * | 2007-02-06 | 2013-07-30 | Nancy P. Cochran | Cherry picking search terms |
US8352469B2 (en) * | 2009-07-02 | 2013-01-08 | Battelle Memorial Institute | Automatic generation of stop word lists for information retrieval and analysis |
US8131735B2 (en) * | 2009-07-02 | 2012-03-06 | Battelle Memorial Institute | Rapid automatic keyword extraction for information retrieval and analysis |
US8688727B1 (en) * | 2010-04-26 | 2014-04-01 | Google Inc. | Generating query refinements |
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
US9009144B1 (en) * | 2012-02-23 | 2015-04-14 | Google Inc. | Dynamically identifying and removing potential stopwords from a local search query |
CN103902552B (zh) * | 2012-12-25 | 2019-03-26 | 深圳市世纪光速信息技术有限公司 | 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置 |
WO2014127301A2 (en) * | 2013-02-14 | 2014-08-21 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
-
2015
- 2015-12-01 JP JP2017521535A patent/JP6355840B2/ja active Active
- 2015-12-01 CN CN201580029727.5A patent/CN108027814B/zh active Active
- 2015-12-01 WO PCT/CN2015/096179 patent/WO2017091985A1/zh active Application Filing
- 2015-12-01 EP EP15909502.5A patent/EP3232336A4/en not_active Ceased
-
2017
- 2017-09-01 US US15/693,971 patent/US10019492B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017091985A1 (zh) | 2017-06-08 |
EP3232336A4 (en) | 2018-03-21 |
CN108027814A (zh) | 2018-05-11 |
CN108027814B (zh) | 2020-06-16 |
EP3232336A1 (en) | 2017-10-18 |
US10019492B2 (en) | 2018-07-10 |
US20180004815A1 (en) | 2018-01-04 |
JP2018501540A (ja) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
CN107729336B (zh) | 数据处理方法、设备及系统 | |
JP5540079B2 (ja) | 知識ベース構築の方法および装置 | |
TWI544351B (zh) | Extended query method and system | |
CN110019658B (zh) | 检索项的生成方法及相关装置 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN109947902B (zh) | 一种数据查询方法、装置和可读介质 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN101169780A (zh) | 一种基于语义本体的检索系统和方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN109885651B (zh) | 一种问题推送方法和装置 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
US9336280B2 (en) | Method for entity-driven alerts based on disambiguated features | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
TW202022635A (zh) | 自適應性調整關連搜尋詞的系統及其方法 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
CN114691845B (zh) | 语义搜索方法、装置、电子设备、存储介质及产品 | |
US11726972B2 (en) | Directed data indexing based on conceptual relevance | |
WO2021103859A1 (zh) | 一种信息搜索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6355840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |