KR101793578B1 - 효율적으로 질의를 처리하는 방법 및 장치 - Google Patents
효율적으로 질의를 처리하는 방법 및 장치 Download PDFInfo
- Publication number
- KR101793578B1 KR101793578B1 KR1020110032898A KR20110032898A KR101793578B1 KR 101793578 B1 KR101793578 B1 KR 101793578B1 KR 1020110032898 A KR1020110032898 A KR 1020110032898A KR 20110032898 A KR20110032898 A KR 20110032898A KR 101793578 B1 KR101793578 B1 KR 101793578B1
- Authority
- KR
- South Korea
- Prior art keywords
- subset
- candidate set
- database
- valid
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000003672 processing method Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 질의 문자열에 따른 문서를 검색하는 방법을 설명하는 흐름도,
도 3은 본 발명의 일 실시예에 따른 문자열 셋 생성부의 세부 블럭도,
도 4는 본 발명의 일 실시예에 따른 트리 구조로 구현된 색인어의 구조를 도시한 도면,
도 5는 본 발명의 일 실시예에 따른 유효 문자열을 생성하는 과정을 설명하는 흐름도,
도 6은 본 발명의 일 실시예에 따른 후보셋 결정부의 세부 블록도,
도 7은 본 발명의 제1 실시예에 따른 후보셋을 결정하는 방법을 설명하는 흐름도,
도 8은 본 발명의 일 실시예에 따른 제1 실시예를 통해 후보 셋을 결정하는 방법을 설명하기 위한 도면이다.
도 9는 제2 실시예에 따른 후보셋을 결정하는 방법을 설명하는 흐름도, 그리고,
도 10은 본 발명의 일 실시예에 따른 제2 실시예를 통해 후보 셋을 결정하는 방법을 설명하기 위한 도면이다.
110: 문자열 셋 생성부 120: 후보셋 결정부
130: 문서 검색부 135: 프로세서
150: 역색인 데이터베이스 160: 문서 데이터베이스
165: 스토리지
Claims (22)
- 프로세서에 의해, 질의 문자열로부터 길이가 다른 복수 개의 부분 문자열들로 구성된 유효 문자열 셋을 생성하는 단계;
다수의 문서들의 정보가 저장된 데이터베이스에 대한 상기 유효 문자열 셋의 서브셋들의 접근 비용에 기초하여, 상기 프로세서에 의해, 상기 서브셋들 중 어느 하나를 후보셋으로 결정하는 단계; 및
상기 프로세서의 의해, 상기 후보셋을 이용하여 상기 데이터베이스에 저장된 정보로부터 상기 질의 문자열이 존재하는 문서를 검색하는 단계를 포함하고,
상기 유효 문자열 셋을 생성하는 단계는,
상기 질의 문자열을 길이가 다른 복수 개의 엔-그램으로 분리하고,
상기 복수 개의 엔-그램 중 상기 데이터베이스의 색인어에 포함되는 엔-그램을 선택하고,
상기 선택된 엔-그램 중 다른 엔-그램에 포함되지 않는 엔-그램의 셋을 상기 유효 문자열 셋으로 결정하는 질의 처리 방법. - 제 1 항에 있어서,
상기 후보셋은
접근 비용이 기준 값 이하를 갖는 서브셋인 질의 처리 방법. - 제 2항에 있어서,
상기 기준값은
상기 유효 문자열 셋의 서브셋에 대한 접근 비용의 산출시, 기산출된 접근 비용 중 최소값인 질의 처리 방법. - 제 1 항에 있어서,
상기 접근 비용은,
상기 데이터베이스에서 상기 서브셋에 포함된 부분 문자열 각각의 포스팅 리스트를 접근하여 독출하는데 소요되는 비용의 합과 상기 데이터베이스에서 상기 서브셋에 포함된 유효 문자열의 포스팅 리스트에 공통으로 포함된 문서의 식별 정보를 접근하여 독출하는데 소요되는 비용 중 적어도 하나인 질의 처리 방법. - 제 1 항에 있어서,
상기 유효 문자열 셋의 부분 문자열들 중 적어도 두 개의 부분 문자열의 길이는 서로 다른 질의 처리 방법. - 제 1항에 있어서,
상기 유효 문자열 셋의 부분 문자열은 상기 유효 문자열 셋의 다른 부분 문자열에 포함되지 않는 질의 처리 방법. - 삭제
- 제 1항에 있어서,
상기 후보셋은,
상기 유효 문자열 셋의 서브셋들 중 상기 접근 비용이 최소인 서브셋으로 결정되는 질의 처리 방법. - 제 1항에 있어서,
상기 후보셋은,
상기 유효 문자열 셋의 서브셋들 중 부분 문자열이 추가될 때의 접근 비용보다 접근 비용이 적은 서브셋으로 결정되는 질의 처리 방법. - 제 1항에 있어서,
상기 후보셋으로 결정하는 단계는,
상기 유효 문자열 셋의 서브셋을 트리 구조로 정렬하고,
깊이 우선 탐색 방법으로 상기 트리 구조에서의 서브셋를 선택하고,
상기 선택된 서브셋의 접근 비용을 산출하고,
최소의 접근 비용을 갖는 서브셋을 후보셋으로 결정하는 것을 포함하는 질의 처리 방법. - 제 1항에 있어서,
상기 후보셋으로 결정하는 단계는
상기 유효 문자열 셋의 서브셋 중 부분 문자열의 개수가 동일한 제1 서브셋들을 선택하고,
상기 제1 서브셋들 각각에 대한 접근 비용을 산출하며,
최소의 접근 비용을 갖는 서브셋을 후보셋으로 예상하고,
상기 유효 문자열 셋의 서브셋 중 상기 예상된 후보셋에 부분 문자열이 추가된 제2 서브셋을 선택하며,
상기 제2 서브셋들 각각에 대한 접근 비용이 상기 예상된 후보셋의 접근 비용보다 크면, 상기 예상된 후보셋을 후보셋으로 결정하는 것을 포함하는 질의 처리 방법. - 제 1항에 있어서,
상기 데이터베이스는,
색인 트리 및 포스팅 리스트를 포함하는 역색인 데이터베이스; 및
식별 정보를 갖는 다수의 문서들이 저장된 문서 데이터베이스;를 포함하는 질의 처리 방법. - 제 12항에 있어서,
상기 문서를 결정하는 단계는,
상기 역색인 데이터베이스에서 상기 후보셋의 부분 문자열 모두와 매칭되어 있는 문서의 식별 정보를 검색하고,
상기 문서데이터베이스에서 상기 문서의 식별 정보를 갖는 문서를 검색하는 것을 포함하는 질의 처리 방법. - 제 1항 내지 제 6항, 제 8항 내지 제 13항 중 어느 한 항의 방법을 상기 프로세서로 하여금 수행하도록 하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
- 질의 문자열이 입력되고 상기 질의 문자열이 존재하는 문서가 출력되는 사용자 인터페이스;
다수의 문서들에 대한 정보가 저장된 데이터베이스; 및
상기 질의 문자열로부터 길이가 다른 복수 개의 부분 문자열들로 구성된 유효 문자열 셋을 생성하고, 상기 데이터베이스에 대한 상기 유효 문자열 셋의 서브셋들의 접근 비용에 기초하여 상기 서브셋들 중 어느 하나를 후보 셋으로 결정하며, 상기 후보셋을 이용하여 상기 데이터베이스에 저장된 정보로부터 상기 질의 문자열이 존재하는 문서를 검색하는 프로세서;를 포함하고,
상기 프로세서는,
상기 질의 문자열을 길이가 다른 복수 개의 엔-그램으로 분리하고, 상기 복수 개의 엔-그램 중 상기 데이터베이스의 색인어에 포함되는 엔-그램을 선택하며, 상기 선택된 엔-그램 중 다른 엔-그램에 포함되지 않는 엔-그램의 셋을 상기 유효 문자열 셋으로 결정함으로써 상기 유효 문자열 셋을 생성하는 질의 처리 장치. - 제 15항에 있어서,
상기 접근 비용은,
상기 데이터베이스에서 상기 서브셋에 포함된 부분 문자열 각각의 포스팅 리스트를 접근하여 독출하는데 소요되는 비용의 합과 상기 데이터베이스에서 상기 서브셋에 포함된 유효 문자열의 포스팅 리스트에 공통으로 포함된 문서의 식별 정보를 접근하여 독출하는데 소요되는 비용 중 적어도 하나인 질의 처리 장치. - 제 15항에 있어서,
상기 유효 문자열 셋의 부분 문자열들 중 적어도 두 개의 부분 문자열의 길이는 서로 다른 질의 처리 장치. - 제 15항에 있어서,
상기 유효 문자열 셋의 부분 문자열은 상기 유효 문자열 셋의 다른 부분 문자열에 포함되지 않는 질의 처리 장치. - 제 15항에 있어서,
상기 후보셋은,
상기 유효 문자열 셋의 서브셋들 중 상기 접근 비용이 최소인 서브셋으로 결정되는 질의 처리 장치. - 제 15항에 있어서,
상기 후보셋은,
상기 유효 문자열 셋의 서브셋들 중 부분 문자열이 추가될 때의 접근 비용보다 접근 비용이 적은 서브셋으로 결정되는 질의 처리 장치. - 제 15항에 있어서,
상기 데이터베이스는,
색인 트리 및 포스팅 리스트를 포함하는 역색인 데이터베이스; 및
식별 정보를 갖는 다수의 문서들이 저장된 문서 데이터베이스;를 포함하는 질의 처리 장치. - 제 21항에 있어서,
상기 프로세서는,
상기 역색인 데이터베이스에서 상기 후보셋의 부분 문자열 모두와 매칭되어 있는 상기 문서의 식별 정보를 검색하고,
상기 문서데이터베이스에서 상기 문서의 식별 정보를 갖는 문서를 검색하는 것을 포함하는 질의 처리 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110032898A KR101793578B1 (ko) | 2011-04-08 | 2011-04-08 | 효율적으로 질의를 처리하는 방법 및 장치 |
US13/273,569 US9110973B2 (en) | 2011-04-08 | 2011-10-14 | Method and apparatus for processing a query |
JP2012031022A JP5980520B2 (ja) | 2011-04-08 | 2012-02-15 | 効率的にクエリを処理する方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110032898A KR101793578B1 (ko) | 2011-04-08 | 2011-04-08 | 효율적으로 질의를 처리하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120115005A KR20120115005A (ko) | 2012-10-17 |
KR101793578B1 true KR101793578B1 (ko) | 2017-11-20 |
Family
ID=46966910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110032898A Active KR101793578B1 (ko) | 2011-04-08 | 2011-04-08 | 효율적으로 질의를 처리하는 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9110973B2 (ko) |
JP (1) | JP5980520B2 (ko) |
KR (1) | KR101793578B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101341507B1 (ko) * | 2012-04-13 | 2013-12-13 | 연세대학교 산학협력단 | 수정된 b+트리 노드 검색 방법 및 장치 |
CN103793440B (zh) * | 2012-11-02 | 2018-03-27 | 阿里巴巴集团控股有限公司 | 信息显示方法和装置 |
US9208254B2 (en) * | 2012-12-10 | 2015-12-08 | Microsoft Technology Licensing, Llc | Query and index over documents |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
US11645273B2 (en) | 2021-05-28 | 2023-05-09 | Ocient Holdings LLC | Query execution utilizing probabilistic indexing |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125594A1 (en) * | 2008-11-14 | 2010-05-20 | The Regents Of The University Of California | Method and Apparatus for Improving Performance of Approximate String Queries Using Variable Length High-Quality Grams |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3459053B2 (ja) * | 1995-01-12 | 2003-10-20 | 株式会社日立製作所 | 文書検索方法および装置 |
KR19990084950A (ko) | 1998-05-12 | 1999-12-06 | 이계철 | 역화일을 이용한 데이터 부분검색 장치 및 그 방법 |
KR100725664B1 (ko) | 2005-08-26 | 2007-06-08 | 한국과학기술원 | 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법 |
JP2007286742A (ja) | 2006-04-13 | 2007-11-01 | Ricoh Co Ltd | 文書検索装置 |
JP4439496B2 (ja) | 2006-07-18 | 2010-03-24 | 株式会社東芝 | 検索処理装置及びプログラム |
JP2009104669A (ja) | 2009-02-12 | 2009-05-14 | Toshiba Corp | 文書検索方法、システム及びプログラム |
KR101615164B1 (ko) * | 2009-03-20 | 2016-04-26 | 삼성전자주식회사 | 엔-그램 기반의 질의 처리 장치 및 그 방법 |
-
2011
- 2011-04-08 KR KR1020110032898A patent/KR101793578B1/ko active Active
- 2011-10-14 US US13/273,569 patent/US9110973B2/en active Active
-
2012
- 2012-02-15 JP JP2012031022A patent/JP5980520B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125594A1 (en) * | 2008-11-14 | 2010-05-20 | The Regents Of The University Of California | Method and Apparatus for Improving Performance of Approximate String Queries Using Variable Length High-Quality Grams |
Also Published As
Publication number | Publication date |
---|---|
JP2012221489A (ja) | 2012-11-12 |
JP5980520B2 (ja) | 2016-08-31 |
US20120259862A1 (en) | 2012-10-11 |
US9110973B2 (en) | 2015-08-18 |
KR20120115005A (ko) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5462361B2 (ja) | マップサーチのためのクエリパーシング | |
US8892420B2 (en) | Text segmentation with multiple granularity levels | |
JP5054593B2 (ja) | 情報検索装置及びプログラム | |
KR101126406B1 (ko) | 유사어 결정 방법 및 시스템 | |
CN110750704B (zh) | 一种查询自动补全的方法和装置 | |
JP2015506515A (ja) | タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体 | |
KR101793578B1 (ko) | 효율적으로 질의를 처리하는 방법 및 장치 | |
CN102831224B (zh) | 一种数据索引库的建立方法、搜索建议生成方法和装置 | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
KR20240128047A (ko) | 비디오 생성 방법 및 장치, 전자 장치 및 판독 가능한 저장 매체 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
KR101615164B1 (ko) | 엔-그램 기반의 질의 처리 장치 및 그 방법 | |
US12020175B2 (en) | Building training data and similarity relations for semantic space | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
KR101113787B1 (ko) | 텍스트 색인 장치 및 방법 | |
KR100906809B1 (ko) | 키워드 검색 방법 | |
CN105630837A (zh) | 一种媒体记录搜索方法和装置 | |
KR101452638B1 (ko) | 유사 문자열 검색 방법 및 장치 | |
KR101349969B1 (ko) | 추천 질의어 제공 시스템 및 방법 | |
JP2006106907A (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP2014120080A (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
JP2013191119A (ja) | 検索式生成のためのプログラム、情報処理方法及び情報処理装置 | |
KR102048415B1 (ko) | 토픽맵 구성 방법, 이를 이용한 의도 기반 검색 서비스 제공 방법 및 그 장치 | |
KR101544603B1 (ko) | 개인화된 웹 정보 제공 장치 및 방법 | |
KR101767625B1 (ko) | 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20110408 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20160323 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20110408 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20170116 Patent event code: PE09021S01D |
|
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20170731 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20171030 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20171031 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20200921 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20210916 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20220916 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20230918 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20240912 Start annual number: 8 End annual number: 8 |