[go: up one dir, main page]

JP2007188225A - 要約文抽出システム - Google Patents

要約文抽出システム Download PDF

Info

Publication number
JP2007188225A
JP2007188225A JP2006004886A JP2006004886A JP2007188225A JP 2007188225 A JP2007188225 A JP 2007188225A JP 2006004886 A JP2006004886 A JP 2006004886A JP 2006004886 A JP2006004886 A JP 2006004886A JP 2007188225 A JP2007188225 A JP 2007188225A
Authority
JP
Japan
Prior art keywords
summary sentence
extracting
input query
sentence extraction
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006004886A
Other languages
English (en)
Inventor
Hiroyuki Yamada
浩之 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006004886A priority Critical patent/JP2007188225A/ja
Publication of JP2007188225A publication Critical patent/JP2007188225A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ニュース記事等から要約文を抽出する要約文抽出システムにおいて、時事性を反映した要約文の抽出を行う。
【解決手段】検索キーワードのログを集計し統計処理を行う手段と、上記の手段で得られた情報から所定の期間を単位に、同時に検索された頻度の高い関連語を抽出する手段と、抽出された関連語を格納する手段と、要約文抽出が要求された場合に、入力クエリに基づいて上記の関連語を取得し、要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する手段とを備える。
【選択図】図1

Description

本発明は、ニュース記事等から要約文を抽出する要約文抽出システムに関する。
インターネット上のサイトではニュース記事等が閲覧できるものがあるが、多数のニュース記事等の中から所望の記事を探し出しやすくするため、要約文の掲載機能を備えたサイトが存在する。
このようなサイトでは、一般に、ユーザが入力した語句(入力クエリ)と固定的な特徴語等に基づいて要約文を抽出している。例えば、「天下り」という入力クエリが与えられた場合、「天下り」という語句が含まれる記事から、「天下り」という語句が含まれる文章部分を句読点や接続詞等を考慮して切り出し、所定のサイズ(例えば、200byte)の要約文を得ていた。
なお、出願人は出願時点までに本発明に関連する先行技術文献を発見することができなかった。よって、先行技術文献情報を開示していない。
上述したように、従来は入力クエリと固定的な特徴語等に基づいて要約文を抽出しており、同じ記事であれば同じ入力クエリに対して固定的な要約文となっていたため、時事性が反映されないという問題があった。例えば、天下りに起因する談合事件が発生した直後では、「談合」についても興味を持つ者が多いと考えられるが、「天下り」を入力クエリとする限りでは、仮に「談合」が含まれる記事であっても「談合」に関係する部分の抽出は行われず、所望の記事ではないと判断されるおそれがある。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、時事性を反映した要約文の抽出を行うことのできる要約文抽出システムを提供することにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、検索キーワードのログを集計し統計処理を行う手段と、上記の手段で得られた情報から所定の期間を単位に、同時に検索された頻度の高い関連語を抽出する手段と、抽出された関連語を格納する手段と、要約文抽出が要求された場合に、入力クエリに基づいて上記の関連語を取得し、要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する手段とを備える要約文抽出システムを要旨としている。
また、請求項2に記載されるように、請求項1に記載の要約文抽出システムにおいて、上記の要約文を抽出する手段は、入力クエリとその関連語および固定的な特徴語等に基づいて要約文を抽出するようにすることができる。
また、請求項3、4に記載されるように、要約文抽出方法として構成することができる。
本発明の要約文抽出システムにあっては、時事性を反映した要約文の抽出を行うことができる。
以下、本発明の好適な実施形態につき説明する。
図1は本発明の一実施形態にかかる要約文抽出システム100の構成例を示す図である。図1において、要約文抽出システム100は、インターネット200を介して接続したクライアント300との間でリクエストの受け付けおよびページの表示を行うWebサーバ110と、クライアント300の検索リクエスト等のログを集計し統計処理を行うログ集計/統計部120と、ログ集計/統計部120の収集情報から、所定の期間を単位に、同時に検索された頻度の高い関連語を抽出して関連語データベース140に格納する関連語抽出部130と、Webサーバ110から要約文抽出の要求を受けた場合に関連語データベース140から入力クエリに基づいて関連語を取得し、コンテンツデータベース150に格納された要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する要約文抽出部160とを備えている。
図2は関連語データベース140の例を示す図であり、「◎◎団 天下り」「○団 天下り」「□□連 天下り」「談合 天下り」等が対応付けられている。なお、関連語の保持の方法は図示の例に限られない。
図1において、要約文抽出システム100の動作は次のように行われる。
(1)複数のクライアント300からWebサーバ110に対して検索リクエスト等が行われその結果が表示される過程は、ログとしてログ集計/統計部120により集計され統計処理される。一般に、検索リクエストは、時事性を反映したキーワードが組み合わされて用いられる。例えば、ニュース記事に対するものであれば時事問題の特徴を示す用語が用いられることが多い。
(2)関連語抽出部130はログ集計/統計部120の収集・統計結果を所定の期間で区切って関連語を抽出し、関連語データベース140に格納する。なお、以前に格納した関連語については、適当な基準で削除を行う。
(3)クライアント300からWebサーバ110に対して要約文の表示リクエストが行われた場合、要約文抽出部160はクライアント300からの入力クエリに基づいて関連語データベース140から関連語を取得し、コンテンツデータベース150に格納された要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する。Webサーバ110は抽出された要約文をクライアント300に表示する。
図3は要約文抽出部160による要約文抽出の概念図であり、原文の中に含まれる入力クエリおよびその関連語である「×××××」「△△△△」に着目し、句読点や接続詞等を考慮して入力クエリおよびその関連語の含まれる文章部分を切り出し、所定のサイズ(例えば、200byte)の要約文を得る。
図4は原文および抽出された要約文の例を示す図であり、(a)は原文例、(b)は従来の入力クエリのみによる要約文抽出例、(c)は本発明の入力クエリおよびその関連語による要約文抽出例である。入力クエリが「天下り」であったとすると、従来の(b)では入力クエリ「天下り」のみを中心に要約文抽出が行われるが、本発明の(c)では入力クエリ「天下り」と関連語「◎◎団」「○団」「談合」が要約文抽出に用いられることで時事性の高い要約文とすることができる。
なお、ニュース記事を例として説明したが、ブログやチャットから要約文を抽出する場合等にも適用できることは言うまでもない。この場合、時間の経過とともに話題が移っていくのに応じた、より適切な要約文を抽出することができる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
本発明の一実施形態にかかる要約文抽出システムの構成例を示す図である。 関連語データベースの例を示す図である。 要約文抽出の概念図である。 原文および抽出された要約文の例を示す図である。
符号の説明
100 要約文抽出システム
110 Webサーバ
120 ログ集計/統計部
130 関連語抽出部
140 関連語データベース
150 コンテンツデータベース
160 要約文抽出部
200 インターネット
300 クライアント

Claims (4)

  1. 検索キーワードのログを集計し統計処理を行う手段と、
    上記の手段で得られた情報から所定の期間を単位に、同時に検索された頻度の高い関連語を抽出する手段と、
    抽出された関連語を格納する手段と、
    要約文抽出が要求された場合に、入力クエリに基づいて上記の関連語を取得し、要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する手段とを備えたことを特徴とする要約文抽出システム。
  2. 請求項1に記載の要約文抽出システムにおいて、
    上記の要約文を抽出する手段は、入力クエリとその関連語および固定的な特徴語等に基づいて要約文を抽出することを特徴とする要約文抽出システム。
  3. 検索キーワードのログを集計し統計処理を行う工程と、
    上記の工程で得られた情報から所定の期間を単位に、同時に検索された頻度の高い関連語を抽出する工程と、
    抽出された関連語を格納する工程と、
    要約文抽出が要求された場合に、入力クエリに基づいて上記の関連語を取得し、要約文抽出の対象となるコンテンツから入力クエリおよびその関連語に基づいて要約文を抽出する工程とを備えたことを特徴とする要約文抽出方法。
  4. 請求項3に記載の要約文抽出方法において、
    上記の要約文を抽出する工程は、入力クエリとその関連語および固定的な特徴語等に基づいて要約文を抽出することを特徴とする要約文抽出方法。
JP2006004886A 2006-01-12 2006-01-12 要約文抽出システム Pending JP2007188225A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006004886A JP2007188225A (ja) 2006-01-12 2006-01-12 要約文抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006004886A JP2007188225A (ja) 2006-01-12 2006-01-12 要約文抽出システム

Publications (1)

Publication Number Publication Date
JP2007188225A true JP2007188225A (ja) 2007-07-26

Family

ID=38343364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006004886A Pending JP2007188225A (ja) 2006-01-12 2006-01-12 要約文抽出システム

Country Status (1)

Country Link
JP (1) JP2007188225A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073851B2 (en) 2008-03-10 2011-12-06 Panasonic Corporation Content searching device and content searching method
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
WO2013187555A1 (ko) * 2012-06-11 2013-12-19 에스케이플래닛 주식회사 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
CN111241242A (zh) * 2020-01-09 2020-06-05 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002099558A (ja) * 2000-09-21 2002-04-05 Canon Inc 情報検索システム、情報検索方法、及び、記録媒体
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002099558A (ja) * 2000-09-21 2002-04-05 Canon Inc 情報検索システム、情報検索方法、及び、記録媒体
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073851B2 (en) 2008-03-10 2011-12-06 Panasonic Corporation Content searching device and content searching method
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
WO2013187555A1 (ko) * 2012-06-11 2013-12-19 에스케이플래닛 주식회사 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법
US11023660B2 (en) 2012-06-11 2021-06-01 Sk Planet Co., Ltd. Terminal device for data sharing service using instant messenger
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
CN111241242A (zh) * 2020-01-09 2020-06-05 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质
CN111241242B (zh) * 2020-01-09 2023-05-30 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Becker et al. Identifying content for planned events across social media sites
JP4255239B2 (ja) 文書検索方法
JP6665191B2 (ja) インスタントメッセージングのチャットレコードを保存する方法及び装置
US9165085B2 (en) System and method for publishing aggregated content on mobile devices
US7783644B1 (en) Query-independent entity importance in books
JP5281405B2 (ja) 表示のための高品質レビューの選択
US20090287676A1 (en) Search results with word or phrase index
US20080104034A1 (en) Method For Scoring Changes to a Webpage
WO2007087349A2 (en) Method and system for automatic summarization and digest of celebrity news
US20100125531A1 (en) System and method for the automated filtering of reviews for marketability
US20100287191A1 (en) Tracking and retrieval of keywords used to access user resources on a per-user basis
US10423678B1 (en) Query language filter for cross-language information retrieval
JP2007188225A (ja) 要約文抽出システム
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2015194955A (ja) 入札情報検索システム
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP5963310B2 (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP5049314B2 (ja) 連続絵文字等解析装置
JP5389764B2 (ja) マイクロブログテキスト分類装置及び方法及びプログラム
JPH11126204A (ja) 速読支援方法、文書検索方法およびその装置
CN104239487A (zh) 基于搜索的多用户交互方法、服务器、客户端和系统
JP6502732B2 (ja) 文書表示装置、文書表示方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111206