JP4640593B2 - 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム - Google Patents
多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム Download PDFInfo
- Publication number
- JP4640593B2 JP4640593B2 JP2005205370A JP2005205370A JP4640593B2 JP 4640593 B2 JP4640593 B2 JP 4640593B2 JP 2005205370 A JP2005205370 A JP 2005205370A JP 2005205370 A JP2005205370 A JP 2005205370A JP 4640593 B2 JP4640593 B2 JP 4640593B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- category
- translation
- language
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態の理解を深めるため、具体的な例を用いて詳細に説明する。ここでは、図4に示すように、日本語文書保持手段301にある日本語文書dJ1、dJ2、dJ3がカテゴリJaに分類され、また、英語文書保持手段302の英語文書dE1、dE2、dE3がカテゴリEbに分類されているとする。図5に、これら原文書の一例を示す。以降では、同図5に示す日本語の検索クエリqJにより多言語文書を検索する例について説明する。
200 プロセッサ
300 記憶媒体
400 出力手段
201:文書検索統合手段、202:日本語文書検索手段、203:英語文書検索手段、204:英日翻訳処理手段、205:日英翻訳処理手段、206:日本語カテゴリ判別手段、207:英語カテゴリ判別手段
301:日本語文書保持手段、302:英語文書保持手段、303:日本語カテゴリ保持手段、304:英語カテゴリ保持手段、305:英日翻訳文書保持手段、306:日英翻訳文書保持手段、307:英日対訳辞書保持手段、308:日英対訳辞書保持手段
Claims (9)
- プロセッサと、言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体とを備え、
前記プロセッサは、
原文書の翻訳により翻訳文書を生成する手段と、
翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納する手段と、
翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求める手段と、
入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索する手段と、
前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力する手段とを有することを特徴とする多言語文書検索装置。 - 前記プロセッサは、関連候補を抽出するとき、前記認識した文書カテゴリに属する他の文書に、対応する原文書の言語が前記検索クエリの言語と異なる翻訳文書が存在する場合、その原文書に対する翻訳文書のうち前記検索クエリと同一言語の翻訳文書を前記関連候補に加えることを特徴とする請求項1記載の多言語文書検索装置。
- 前記プロセッサは、翻訳文書の文書カテゴリを求めるとき、当該言語の文書カテゴリに属する原文書と前記翻訳文書の翻訳元の原文書とを単語ごとの対訳により照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項1又は2記載の多言語文書検索装置。
- 前記プロセッサは、翻訳文書の文書カテゴリを求めるとき、当該言語の文書カテゴリに属する原文書と前記翻訳文書とを単語ごとに照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項1又は2記載の多言語文書検索装置。
- コンピュータを、請求項1乃至4のいずれか1項に記載の多言語文書検索装置として機能させることを特徴とするプログラム。
- 言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体と接続されたプロセッサが、
原文書の翻訳により翻訳文書を生成するステップと、
翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納するステップと、
翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求めるステップと、
入力手段により入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索するステップと、
前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力手段から出力するステップとを備えることを特徴とする多言語文書検索方法。 - 前記プロセッサが、検索結果を出力する前記ステップにおいて、
前記認識した文書カテゴリに属する他の文書に、対応する原文書の言語が前記検索クエリの言語と異なる翻訳文書が存在する場合、その原文書に対する翻訳文書のうち前記検索クエリと同一言語の翻訳文書を前記関連候補に加えることを特徴とする請求項6記載の多言語文書検索方法。 - 前記プロセッサが、翻訳文書の文書カテゴリを求める前記ステップにおいて、
当該言語の文書カテゴリに属する原文書と前記翻訳文書の翻訳元の原文書とを単語ごとの対訳により照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項6又は7記載の多言語文書検索方法。 - 前記プロセッサが、翻訳文書の文書カテゴリを求める前記ステップにおいて、
当該言語の文書カテゴリに属する原文書と前記翻訳文書とを単語ごとに照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項6又は7記載の多言語文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005205370A JP4640593B2 (ja) | 2005-07-14 | 2005-07-14 | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005205370A JP4640593B2 (ja) | 2005-07-14 | 2005-07-14 | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007025939A JP2007025939A (ja) | 2007-02-01 |
JP4640593B2 true JP4640593B2 (ja) | 2011-03-02 |
Family
ID=37786626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005205370A Expired - Fee Related JP4640593B2 (ja) | 2005-07-14 | 2005-07-14 | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4640593B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008120360A1 (ja) * | 2007-03-29 | 2008-10-09 | Fujitsu Limited | 多言語検索プログラム |
JP5526199B2 (ja) * | 2012-08-22 | 2014-06-18 | 株式会社東芝 | 文書分類装置および文書分類処理プログラム |
CN103399931B (zh) * | 2013-08-07 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 搜索结果的提供方法、终端和系统及渲染方法 |
JP6484974B2 (ja) * | 2014-09-24 | 2019-03-20 | 富士ゼロックス株式会社 | 情報処理装置、情報処理システム及びプログラム |
KR20170122505A (ko) | 2016-04-27 | 2017-11-06 | 삼성전자주식회사 | 부가 정보를 제공하는 단말 장치 및 제공 방법 |
JP6534767B1 (ja) * | 2018-08-28 | 2019-06-26 | 本田技研工業株式会社 | データベース作成装置及び検索システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002183134A (ja) * | 2000-12-18 | 2002-06-28 | Logo Vista Corp | 翻訳装置 |
JP2003076710A (ja) * | 2001-09-04 | 2003-03-14 | Japan Science & Technology Corp | 多言語情報検索システム |
JP2003141125A (ja) * | 2001-11-07 | 2003-05-16 | Nec Corp | マルチメディア情報統合検索装置およびその方法 |
JP2003296356A (ja) * | 2002-04-05 | 2003-10-17 | Nec Corp | Webページ検索方法、Webページ検索システム及びWebページ検索用プログラム |
JP2005107705A (ja) * | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
-
2005
- 2005-07-14 JP JP2005205370A patent/JP4640593B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002183134A (ja) * | 2000-12-18 | 2002-06-28 | Logo Vista Corp | 翻訳装置 |
JP2003076710A (ja) * | 2001-09-04 | 2003-03-14 | Japan Science & Technology Corp | 多言語情報検索システム |
JP2003141125A (ja) * | 2001-11-07 | 2003-05-16 | Nec Corp | マルチメディア情報統合検索装置およびその方法 |
JP2003296356A (ja) * | 2002-04-05 | 2003-10-17 | Nec Corp | Webページ検索方法、Webページ検索システム及びWebページ検索用プログラム |
JP2005107705A (ja) * | 2003-09-29 | 2005-04-21 | Hitachi Ltd | 複数言語を対象とした文書分類装置及び文書分類方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2007025939A (ja) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
Putthividhya et al. | Bootstrapped named entity recognition for product attribute extraction | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
US20070033001A1 (en) | Identifying documents which form translated pairs, within a document collection | |
Ehsan et al. | Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
WO2005124599A2 (en) | Content search in complex language, such as japanese | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
Krishnaveni et al. | Automatic text summarization by local scoring and ranking for improving coherence | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
Kettunen et al. | Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
Yunus et al. | A context free spell correction method using supervised machine learning algorithms | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
Debnath et al. | NLP-NITMZ@ CLScisumm-18. | |
Garrido et al. | Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories | |
Alfonseca et al. | German decompounding in a difficult corpus | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
Garrido et al. | NEREA: Named entity recognition and disambiguation exploiting local document repositories | |
Çavusoğlu et al. | Key extraction in table form documents: insurance policy as an example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080521 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080611 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100927 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4640593 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |