JP4524640B2 - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP4524640B2 JP4524640B2 JP2005101963A JP2005101963A JP4524640B2 JP 4524640 B2 JP4524640 B2 JP 4524640B2 JP 2005101963 A JP2005101963 A JP 2005101963A JP 2005101963 A JP2005101963 A JP 2005101963A JP 4524640 B2 JP4524640 B2 JP 4524640B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- axis
- words
- proximity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ユーザにより入力された軸単語を取得する取得手段(例えば、図1の特徴単語抽出部27)と、
予め記憶されているテキストに対する形態素解析を行なって、テキストを単語に切り分ける形態素解析手段(例えば、図1の形態素解析部22)と、
テキストから得られた単語を数理モデル化することで、単語の単語モデルを生成する単語モデル生成手段(例えば、図1の単語モデル生成部23)と、
単語モデルに基づいて、単語と軸単語との距離を求め、距離が閾値以下である単語を軸単語と近接する近接単語として検出する近接単語検出手段(例えば、図1の特徴単語抽出部27)と、
軸単語と近接単語との共起の度合いを算出し、共起の度合いが所定値以下である近接単語を、軸単語と意味的に類似する軸類似単語として検出する軸類似単語検出手段(例えば、図1の特徴単語抽出部27)と、
近接単語のなかから、軸類似単語を削除し、残った近接単語を、軸単語を修飾する特徴単語として抽出する抽出手段(例えば、図1の特徴単語抽出部27)と
を備えることを特徴とする。
Claims (4)
- ユーザにより入力された軸単語を取得する取得手段と、
予め記憶されているテキストに対する形態素解析を行なって、前記テキストを単語に切り分ける形態素解析手段と、
前記テキストから得られた前記単語を数理モデル化することで、前記単語の単語モデルを生成する単語モデル生成手段と、
前記単語モデルに基づいて、前記単語と前記軸単語との距離を求め、前記距離が閾値以下である前記単語を前記軸単語と近接する近接単語として検出する近接単語検出手段と、
前記軸単語と前記近接単語との共起の度合いを算出し、前記共起の度合いが所定値以下である前記近接単語を、前記軸単語と意味的に類似する軸類似単語として検出する軸類似単語検出手段と、
前記近接単語のなかから、前記軸類似単語を削除し、残った前記近接単語を、前記軸単語を修飾する特徴単語として抽出する抽出手段と
を備えることを特徴とする情報処理装置。 - 前記近接単語検出手段および前記軸類似単語検出手段は、さらに前記軸類似単語を、前記軸単語として用いて、前記近接単語および前記軸類似単語を検出する
ことを特徴とする請求項1に記載の情報処理装置。 - 情報処理装置の取得手段が、ユーザにより入力された軸単語を取得する取得ステップと、
前記情報処理装置の形態素解析手段が、予め記憶されているテキストに対する形態素解析を行なって、前記テキストを単語に切り分ける形態素解析ステップと、
前記情報処理装置の単語モデル生成手段が、前記テキストから得られた前記単語を数理モデル化することで、前記単語の単語モデルを生成する単語モデル生成ステップと、
前記情報処理装置の近接単語検出手段が、前記単語モデルに基づいて、前記単語と前記軸単語との距離を求め、前記距離が閾値以下である前記単語を前記軸単語と近接する近接単語として検出する近接単語検出ステップと、
前記情報処理装置の軸類似単語検出手段が、前記軸単語と前記近接単語との共起の度合いを算出し、前記共起の度合いが所定値以下である前記近接単語を、前記軸単語と意味的に類似する軸類似単語として検出する軸類似単語検出ステップと、
前記情報処理装置の抽出手段が、前記近接単語のなかから、前記軸類似単語を削除し、残った前記近接単語を、前記軸単語を修飾する特徴単語として抽出する抽出ステップと
を含むことを特徴とする情報処理方法。 - ユーザにより入力された軸単語を取得する取得ステップと、
予め記憶されているテキストに対する形態素解析を行なって、前記テキストを単語に切り分ける形態素解析ステップと、
前記テキストから得られた前記単語を数理モデル化することで、前記単語の単語モデルを生成する単語モデル生成ステップと、
前記単語モデルに基づいて、前記単語と前記軸単語との距離を求め、前記距離が閾値以下である前記単語を前記軸単語と近接する近接単語として検出する近接単語検出ステップと、
前記軸単語と前記近接単語との共起の度合いを算出し、前記共起の度合いが所定値以下である前記近接単語を、前記軸単語と意味的に類似する軸類似単語として検出する軸類似単語検出ステップと、
前記近接単語のなかから、前記軸類似単語を削除し、残った前記近接単語を、前記軸単語を修飾する特徴単語として抽出する抽出ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101963A JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
US11/390,290 US20060230036A1 (en) | 2005-03-31 | 2006-03-28 | Information processing apparatus, information processing method and program |
CNA2006100898585A CN1855102A (zh) | 2005-03-31 | 2006-03-31 | 信息处理装置,信息处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101963A JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006285418A JP2006285418A (ja) | 2006-10-19 |
JP4524640B2 true JP4524640B2 (ja) | 2010-08-18 |
Family
ID=37084275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005101963A Expired - Fee Related JP4524640B2 (ja) | 2005-03-31 | 2005-03-31 | 情報処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060230036A1 (ja) |
JP (1) | JP4524640B2 (ja) |
CN (1) | CN1855102A (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249871B2 (en) * | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
CN102375848B (zh) * | 2010-08-17 | 2016-03-02 | 富士通株式会社 | 评价对象聚类方法和装置 |
JP5605083B2 (ja) * | 2010-08-25 | 2014-10-15 | 富士ゼロックス株式会社 | 映像再生装置及び映像再生プログラム |
JP2013054796A (ja) * | 2011-09-02 | 2013-03-21 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP5819239B2 (ja) * | 2012-04-03 | 2015-11-18 | 日本電信電話株式会社 | 重要語句抽出装置、方法、及びプログラム |
JP5890385B2 (ja) * | 2013-12-20 | 2016-03-22 | ヤフー株式会社 | データ処理装置、及びデータ処理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
US5761496A (en) * | 1993-12-14 | 1998-06-02 | Kabushiki Kaisha Toshiba | Similar information retrieval system and its method |
JPH08137898A (ja) * | 1994-11-08 | 1996-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
CA2210581C (en) * | 1995-01-23 | 2002-03-26 | British Telecommunications Public Limited Company | Methods and/or systems for accessing information |
JP3099756B2 (ja) * | 1996-10-31 | 2000-10-16 | 富士ゼロックス株式会社 | 文書処理装置、単語抽出装置及び単語抽出方法 |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US6442540B2 (en) * | 1997-09-29 | 2002-08-27 | Kabushiki Kaisha Toshiba | Information retrieval apparatus and information retrieval method |
JP3598211B2 (ja) * | 1998-01-13 | 2004-12-08 | 富士通株式会社 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
US6330576B1 (en) * | 1998-02-27 | 2001-12-11 | Minolta Co., Ltd. | User-friendly information processing device and method and computer program product for retrieving and displaying objects |
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
US6405188B1 (en) * | 1998-07-31 | 2002-06-11 | Genuity Inc. | Information retrieval system |
JP2000081892A (ja) * | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
US6691108B2 (en) * | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6883001B2 (en) * | 2000-05-26 | 2005-04-19 | Fujitsu Limited | Document information search apparatus and method and recording medium storing document information search program therein |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
US7356530B2 (en) * | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
JP2002215659A (ja) * | 2001-01-18 | 2002-08-02 | Noriaki Kawamae | 情報検索支援方法および情報検索支援システム |
US7155668B2 (en) * | 2001-04-19 | 2006-12-26 | International Business Machines Corporation | Method and system for identifying relationships between text documents and structured variables pertaining to the text documents |
CA2373568C (en) * | 2001-04-26 | 2008-06-17 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
US7598509B2 (en) * | 2004-11-01 | 2009-10-06 | Cymer, Inc. | Laser produced plasma EUV light source |
JP2003167914A (ja) * | 2001-11-30 | 2003-06-13 | Fujitsu Ltd | マルチメディア情報検索方法、プログラム、記録媒体及びシステム |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP3921523B2 (ja) * | 2001-12-27 | 2007-05-30 | 独立行政法人情報通信研究機構 | テキスト生成方法及びテキスト生成装置 |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
GB2391967A (en) * | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7287025B2 (en) * | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
JP3944102B2 (ja) * | 2003-03-13 | 2007-07-11 | 株式会社日立製作所 | 語義関連ネットワークを用いた文書検索システム |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
JP2005266198A (ja) * | 2004-03-18 | 2005-09-29 | Pioneer Electronic Corp | 音響情報再生装置および音楽データのキーワード作成方法 |
JP2006099423A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Software Eng Co Ltd | テキストマイニングサーバ及びプログラム |
JP2006099388A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Software Eng Co Ltd | テキストマイニングサーバ及びテキストマイニングシステム |
US20060085181A1 (en) * | 2004-10-20 | 2006-04-20 | Kabushiki Kaisha Toshiba | Keyword extraction apparatus and keyword extraction program |
US7529765B2 (en) * | 2004-11-23 | 2009-05-05 | Palo Alto Research Center Incorporated | Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis |
DE112006001842B4 (de) * | 2005-07-12 | 2017-06-14 | Novanta Corp. | Einheit und Verfahren für Hochleistungs-Laserbearbeitung |
-
2005
- 2005-03-31 JP JP2005101963A patent/JP4524640B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-28 US US11/390,290 patent/US20060230036A1/en not_active Abandoned
- 2006-03-31 CN CNA2006100898585A patent/CN1855102A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN1855102A (zh) | 2006-11-01 |
JP2006285418A (ja) | 2006-10-19 |
US20060230036A1 (en) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462126B (zh) | 一种实体链接方法及装置 | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
CN111813930B (zh) | 相似文档检索方法及装置 | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
JP2008203933A (ja) | カテゴリ作成方法および装置、文書分類方法および装置 | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
JP4524640B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP2009151390A (ja) | 情報分析装置、及び情報分析プログラム | |
KR20220041337A (ko) | 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
KR100837797B1 (ko) | 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치 | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP2013105210A (ja) | 単語属性推定装置及び方法及びプログラム | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100506 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |