KR101056412B1 - 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 - Google Patents
중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 Download PDFInfo
- Publication number
- KR101056412B1 KR101056412B1 KR1020090015484A KR20090015484A KR101056412B1 KR 101056412 B1 KR101056412 B1 KR 101056412B1 KR 1020090015484 A KR1020090015484 A KR 1020090015484A KR 20090015484 A KR20090015484 A KR 20090015484A KR 101056412 B1 KR101056412 B1 KR 101056412B1
- Authority
- KR
- South Korea
- Prior art keywords
- query
- document
- cluster
- unit
- feedback
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012952 Resampling Methods 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001481824 Indri Species 0.000 description 1
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (10)
- 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 있어서,질의를 입력받는 입력수단을 포함하고, 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 웹 질의부(100);상기 웹 질의부를 통해 검색된 문서집합에 대해 문서 유사도를 측정하고, 최근접 이웃 클러스터링을 수행하여 중첩 클러스터들을 생성하는 중첩 클러스터부(200);상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들의 순위를 클러스터기반 언어모델(수학식6)에 의해 정하고, 클러스터 기반 질의 확률 언어모델을 추정하는 클러스터 순위 산출부(300);(수학식 6)(여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)상기 순위 산출부를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 상기 질의에 대한 언어모델의 확률 P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 질의 확장부(400);상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부로 피드백 입력하는 피드백 처리부(500); 및상기 웹 질의부, 중첩 클러스터부, 순위 산출부, 질의 확장부 및 피드백 처리부를 제어하는 제어부(700); 를 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
- 제 1 항에 있어서,상기 웹 질의부(100)는,문서 그 자체를 언어 모델로서, 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 문서검색 모듈(110); 및상기 문서검색 모듈로부터 순위화되어 생성된 텍스트의 열로써, 최대확률 추정을 이용하여 문서 언어모델을 추정하는 질의 확률 검색모듈(120);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
- 제 1 항에 있어서,상기 중첩 클러스터부(200)는,상기 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 문서 유사도 측정모듈(210); 및상기 문서 유사도 측정모듈에 의한 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 형성하는 클러스터 형성모듈(220);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
- 제 1 항에 있어서,상기 클러스터 순위 산출부(300)는,상기 중첩 클러스터를 순위화하는 클러스터 모듈(310); 및최대확률 추정을 이용하여 클러스터 기반 질의확률 언어모델을 추정하는 클 러스터 검색모듈(320);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
- 제 1 항에 있어서,상기 웹 질의부(100)를 통해 상기 질의 확장부(400)에 의해 선택된 질의 확장 어휘에 대한 검색결과를 출력하는 출력부(600);를 더 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템.
- 재샘플링 방법에 있어서,(a) 제어부(700)가 웹 질의부(100)를 통해 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 단계;(b) 상기 제어부가 상기 웹 질의부에 의해 검색된 문서집합에 대해서 중첩 클러스터부(200)를 통해 최근접 이웃 클러스터링을 하여 중첩 클러스터를 생성하는 단계;(c) 상기 제어부가 상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들을 클러스터 순위 산출부(300)를 통해 중첩 클러스트들의 순위를 클러스터기반 언어모델(수학식6)에 의해 산출하고 클러스터 기반 질의확률 언어모델을 추정하는 단계;(수학식 6)(여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)(d) 상기 제어부가 상기 클러스터 순위 산출부에 의해 최상위로 순위화된 클러스터를 질의 확장부(400)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 초기 질의에 따른 검색 어휘의 확률P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 단계; 및(e) 상기 제어부가 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 피드백 처리부(500)를 통해 상기 웹 질의부로 피드백 입력하여 웹 문서를 검색하도록 하는 단계; 를 포함하는 것을 특징으로 하는 재샘플링 방법.
- 제 6 항에 있어서,상기 제 (e) 단계 이후,(f) 상기 제어부가 상기 제 (e) 단계의 질의 확장 어휘에 대한 검색 결과를 출력하는 단계;(g) 상기 제어부가 상기 웹 질의부의 입력수단을 통해 재검색 명령신호의 수신여부를 판단하는 단계; 및(h) 상기 제 (g) 단계의 판단결과, 상기 제어부가 재검색 명령신호를 수신한 경우, 상기 피드백 처리부(500)로 제어신호를 보내어 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부(100)로 피드백 입력하고, 그 절차를 상기 제 (a) 단계로 이행하는 단계; 를 더 포함하는 것을 특징으로 하는 재샘플링 방법.
- 제 6 항에 있어서,상기 제 (a) 단계는,(a-1) 상기 제어부(700)가 문서검색 모듈(110)을 통해 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 단계; 및(a-2) 상기 제어부가 질의 확률 검색모듈(120)을 통해 최대확률 추정을 이용하여 문서 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
- 제 6 항에 있어서,상기 제 (b) 단계는,(b-1) 상기 제어부(700)가 문서 유사도 측정모듈(210)을 통해 검색된 문서집합들 사이의 유사도 계산을 위해 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 단계; 및(b-1) 상기 제어부가 클러스터 형성모듈(220)을 통해 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 생성하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
- 제 6 항에 있어서,상기 제 (c) 단계는,(c-1) 상기 제어부(700)가 클러스터 모듈(310)을 통해 중첩 클러스터의 멤버로 속한 모든 문서를 연결하는 단계;(c-2) 상기 제어부가 상기 클러스터 모듈(310)을 통해 클러스터의 순위를 산출하는 단계; 및(c-3) 상기 제어부가 클러스터 검색 모듈(320)을 통해 최대확률 추정을 이용 하여 클러스터 기반 질의확률 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090015484A KR101056412B1 (ko) | 2009-02-24 | 2009-02-24 | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090015484A KR101056412B1 (ko) | 2009-02-24 | 2009-02-24 | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100096564A KR20100096564A (ko) | 2010-09-02 |
KR101056412B1 true KR101056412B1 (ko) | 2011-08-11 |
Family
ID=43004073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090015484A KR101056412B1 (ko) | 2009-02-24 | 2009-02-24 | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101056412B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101356785B1 (ko) * | 2012-05-09 | 2014-01-28 | 한국과학기술원 | 효율적인 토픽 마이닝을 위한 비동시적 샘플링 중단 방법 |
CN109063184B (zh) * | 2018-08-24 | 2020-09-01 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
KR20210051423A (ko) * | 2019-10-30 | 2021-05-10 | 삼성전자주식회사 | 사용자의 액티비티 정보를 제공하는 전자 장치와 이의 동작 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060002831A (ko) * | 2003-03-21 | 2006-01-09 | 오버츄어 서비시즈, 인크. | 인터랙티브 검색 쿼리 개선 시스템 및 방법 |
JP2006235716A (ja) | 2005-02-22 | 2006-09-07 | Hitachi Ltd | 文書フィルタリングシステム |
KR20070007001A (ko) * | 2006-11-29 | 2007-01-12 | 김준홍 | 질의어 자동 추출을 이용한 검색 방법 및 장치 |
-
2009
- 2009-02-24 KR KR1020090015484A patent/KR101056412B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060002831A (ko) * | 2003-03-21 | 2006-01-09 | 오버츄어 서비시즈, 인크. | 인터랙티브 검색 쿼리 개선 시스템 및 방법 |
JP2006235716A (ja) | 2005-02-22 | 2006-09-07 | Hitachi Ltd | 文書フィルタリングシステム |
KR20070007001A (ko) * | 2006-11-29 | 2007-01-12 | 김준홍 | 질의어 자동 추출을 이용한 검색 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20100096564A (ko) | 2010-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101853272B (zh) | 基于相关反馈和聚类的搜索引擎技术 | |
CN107622056B (zh) | 训练样本的生成方法和装置 | |
JP2009282957A (ja) | 文書処理装置および文書処理方法 | |
CN116450772A (zh) | 一种检索结果智能推荐方法、装置及统一检索方法 | |
Valcarce et al. | Language models for collaborative filtering neighbourhoods | |
Tsikrika et al. | Structured document retrieval, multimedia retrieval, and entity ranking using PF/Tijah | |
KR101056412B1 (ko) | 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법 | |
Balog et al. | Category-based query modeling for entity search | |
Valcarce et al. | Efficient pseudo-relevance feedback methods for collaborative filtering recommendation | |
Zheng et al. | K2q: Generating natural language questions from keywords with user refinements | |
CN110413763B (zh) | 搜索排序器的自动选择 | |
Prakash et al. | Human aided text summarizer" saar" using reinforcement learning | |
Kacem et al. | Emphasizing temporal-based user profile modeling in the context of session search | |
JP2010128598A (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
Cummins | A study of retrieval models for long documents and queries in information retrieval | |
Bashir | Estimating retrievability ranks of documents using document features | |
Gueye et al. | STRec: An Improved Graph-based Tag Recommender. | |
Sumner Jr et al. | An investigation of relevance feedback using adaptive linear and probabilistic models | |
Benkoussas et al. | Cross-Document Search Engine For Book Recommendation. | |
Bellogín et al. | Predicting the performance of recommender systems: an information theoretic approach | |
Hagen et al. | Simulating ideal and average users | |
Bakhshavesh et al. | A New Subject-based Document Retrieval from Digital Libraries Using Vector Space Model | |
KR101127901B1 (ko) | 핵심 클러스터와 단어 근접도를 이용한 정보 검색에서의 정확율 향상 방법 및 장치 | |
Li et al. | Research on a new topic crawler based on HITS algorithm and semantic fusion | |
Lanevska | Probabilistic ranking in the local search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20090224 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20101216 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20110725 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20110805 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20110808 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20140805 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20140805 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150729 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20150729 Start annual number: 5 End annual number: 5 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20170705 |