[go: up one dir, main page]

JP3361563B2 - 形態素解析装置及びキーワード抽出装置 - Google Patents

形態素解析装置及びキーワード抽出装置

Info

Publication number
JP3361563B2
JP3361563B2 JP08615493A JP8615493A JP3361563B2 JP 3361563 B2 JP3361563 B2 JP 3361563B2 JP 08615493 A JP08615493 A JP 08615493A JP 8615493 A JP8615493 A JP 8615493A JP 3361563 B2 JP3361563 B2 JP 3361563B2
Authority
JP
Japan
Prior art keywords
word
keyword
compound
noun
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08615493A
Other languages
English (en)
Other versions
JPH06301722A (ja
Inventor
哲 伊藤
泰治 〆木
一弘 萱嶋
寿男 丹羽
英嗣 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP08615493A priority Critical patent/JP3361563B2/ja
Publication of JPH06301722A publication Critical patent/JPH06301722A/ja
Application granted granted Critical
Publication of JP3361563B2 publication Critical patent/JP3361563B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサ、日
本語文書解析装置などに利用される辞書の作成や、キー
ワードなどの意味を持つ文字列の抽出処理が必要な形態
素解析装置及びキーワード抽出装置に関するものであ
る。
【0002】
【従来の技術】キーワード抽出装置を含めた日本語解析
処理システムにおいては、入力文中の辞書に登録されて
いる単語を手がかりに形態素解析を行なうことで文書の
要約やキーワードとなる単語の抽出を行なっている。し
かし、辞書に未登録である未知語が文章中に存在する
と、この未知語部分を含めた正しい形態素解析や複合語
の作成が困難である。
【0003】従来、未知語の中でも特に片仮名表記の未
知語の処理に関して、特開昭62−90760号に示さ
れた文書解析方式がある。これは、辞書に未登録の片仮
名表記が文章中に存在したとき、この片仮名表記部分を
独立した単語と見なす処理を行なうものである。
【0004】上記の片仮名未知語の処理を説明するため
の文書解析装置のブロック図を図6に示す。図6におい
て、65は文章中の単語を辞書を用いて検索する辞書検
索部、61は文章中の片仮名表記の用語が、単語として
辞書に登録されていない場合に、一つの単語として処理
する片仮名未知語処理部、62はDP照合を行うDP照
合部、63は辞書検索部65とDP照合部62と片仮名
未知語処理部61において処理された結果を統合する後
処理部、64は入力文章を、例えば句読点や記号等で分
割する前処理及び後処理後のデータを統合する文書解析
管理部である。
【0005】図7は、上記の文書解析装置の動作フロー
を示す流れ図である。この流れ図を参照しながら片仮名
文字の文書解析方式を以下に説明する。 (a)入力文章の文字列が文書解析管理部64に入力さ
れると、解析単位に区切られて送出される(ステップS
1)。ここで、解析単位とは、句読点や記号等で区切ら
れた文字列である。 (b)上記の解析単位について、辞書検索部65により
辞書検索が行なわれ、一致するものがある場合にはそれ
をDP照合部62へ送出し、一致しない場合には片仮名
未知語処理部61へ送出する(ステップS2)。 (c)辞書検索の結果一致した場合、DP照合部62は
抽出された単語を解析単位と一致する最適な単語の組合
せを判定し(ステップS3)、不適当と判定されると辞
書検索部65へそれを戻し、適当であれば後処理部63
へ送出する。 (d)辞書検索部65はDP照合部62から戻された解
析単位を片仮名未知語処理部61へ送出する。 (e)片仮名未知語処理部61は、辞書検索の結果不一
致、あるいは照合不能として送り込まれた解析単位の片
仮名部分を一つの単語として処理し(ステップS4)、
後処理部63へ送出する。 (f)後処理部63は、DP照合部62及び片仮名未知
語処理部61から送出されてくる単語などのデータを統
合し、それを文章解析管理部64へ返還する(ステップ
S6)。
【0006】以上の手順により片仮名表記の単語に関す
る文書解析が順次進められる。
【0007】また、特に複合語のキーワードを頻度情報
から作成する特開平3−116374号に示された専門
用語抽出システムについて以下に説明する。これは、文
章中からすべての複合語を抽出し、複合語の構成語の出
現頻度と単語結合数から、特定の構成語を専門用語特徴
語基として複合語から抽出し、その語基を含む複合語を
すべてキーワードとするものである。
【0008】図8は、上記の従来の専門用語抽出システ
ムの構成を示すブロック図である。従来の専門用語抽出
システムは、入力文書81を入力とする形態素解析部8
2、入力文書81中の全ての複合語を抽出する複合語抽
出部83、抽出された複合語から特定の構成語を抽出す
る専門用語特徴語基抽出部84及び、その抽出された特
定の構成語に基づいてキーワードを抽出する専門用語抽
出部85により構成され、それらによる処理が順に行わ
れる。
【0009】まず、形態素解析部82は任意の分野の入
力文書81について、語の単位と品詞を認定する形態素
解析を行なう。複合語抽出部83は形態素解析結果に対
して名詞、形容動詞、接辞の連続を複合語として抽出す
る複合語抽出を行い、入力文書81中の複合語をすべて
抽出する。専門用語特徴語基抽出部84では抽出された
複合語に対して、その構成語なる主語基が専門用語をな
す語基であるかどうかを評価値を用いて判断し、専門用
語をなす語基だけを抽出する専門用語特徴語基抽出処理
を行なう。その後、専門用語抽出部85では、抽出され
た複合語中から、専門用語特徴語基と判定された語を語
基とするものだけを専門用語として抽出する処理を行な
う。
【0010】ここに、専門用語特徴語基抽出部84によ
る処理の概要を図9を参照しながら説明する。前述した
複合語抽出部83により抽出された複合語リスト86中
の複合語に対して、まず、語末に位置する主語基の頻度
を計算する(ステップS11)。次に、各主語基の入力
文書81内での平均結合数を計算する(ステップS1
2)。これは、ある語を主語基とする時に、その前に付
く修飾語の数を、1つの語基あたりについて計算するも
のである。次に、このようにして求められた主語基の頻
度と平均結合数から評価値を算出し、ある閾値以上であ
ればその語を専門用語特徴語基と判定するものである
(ステップS14)。
【0011】
【発明が解決しようとする課題】しかしながら、従来例
の前者のように片仮名文字列を辞書と照合する方法で
は、以下のような課題がある。日本語文書中の英語の片
仮名表記や和製英語などの片仮名の文字列は、同じ語源
であるにもかかわらず表記が僅かに異なるものが多い。
そのために辞書の未登録語とされてしまう片仮名語や英
字が多く発生する。例えば、曖昧さを表わす「Fuzz
y」という英単語は、片仮名では「ファジー」「ファジ
イ」「ファジィ」などと表記されるが、これら全ての表
記を辞書に登録してあることは希である。それゆえ、こ
のような微妙な表記の違いをすべて辞書に登録すること
や、片仮名や英字の字種からなる文字列を辞書に照合す
ることは無駄が多い。
【0012】また、従来例の後者のようなキーワードの
抽出方法では、抽出された専門用語特徴語基の単語が、
真にその分野の特徴を表わす単語であるとは限らないと
いう課題がある。それは専門用語となる複合語の構成語
には、分野によらず一般的に使用されている単語や対象
分野とは全く異なる分野の単語が多数存在するためであ
る。それらの単語は単独ではキーワードとしての意味は
少ない。
【0013】また、主語基とされた特定の共通の構成語
を含んでいる複合語をすべてキーワードとしているの
で、主語基となる構成語の選択に誤りがあった場合、多
くの不要語からなる不適当なキーワードを選択してしま
うことや、文中に複合語が無い場合や共通した複合語の
構成語がない場合に主語基を作成できないという課題が
ある。
【0014】また、人間は特定分野のキーワードや専門
用語として新語や造語など未知語を多く含む複合語を選
ぶことが多いが、従来の複合語作成手段では、複合語の
構成語に1つでも未知語が含まれていると、それをひと
つの複合語として認定することは困難であるという課題
がある。
【0015】本発明は、従来の文書処理におけるこのよ
うな課題を考慮し、片仮名や英字が連続した文字列を効
率よく単語処理することができる形態素解析装置及び、
単語及び複合語のキーワードを効率的に抽出できるキー
ワード抽出装置を提供することを目的とするものであ
る。
【0016】
【0017】
【課題を解決するための手段】本発明は、 解析に必要な
少なくとも文法情報を格納した辞書と、入力された日本
語文章から少なくとも名詞単語及び名詞相当単語を辞書
を利用して抽出する形態素解析手段と、その形態素解析
手段が抽出した名詞単語又は名詞相当単語が連続してな
る複合語を構成している各単語又は相当単語を複数個組
み合わせてなる複合語をキーワード候補として列挙する
複合語キーワード候補作成部と、その複合語キーワード
候補作成部が列挙した複合語キーワード候補の、入力さ
れた日本語文章中の累積頻度から相互の重複頻度を考慮
して、各複合語キーワード候補の評価値を決定する複合
語評価手段と、それに基づきキーワードを決定するキー
ワード決定手段とを備えたキーワード抽出装置である。
【0018】
【0019】また、本発明は、辞書が解析に必要な少な
くとも文法情報を格納し、形態素解析手段が、入力され
た日本語文章から少なくとも名詞単語及び名詞相当単語
を辞書を利用して抽出し、複合語キーワード候補作成部
が、抽出された名詞単語又は名詞相当単語が連続してな
る複合語を構成している各単語又は相当単語を複数個組
み合わせてなる複合語をキーワード候補として列挙し、
複合語評価手段が、列挙された複合語キーワード候補の
累積頻度から相互の重複頻度を考慮して、各複合語キー
ワード候補の評価値を決定し、キーワード決定手段が、
それに基づきキーワードを決定する。
【0020】
【実施例】以下に、本発明をその実施例を示す図面に基
づいて説明する。
【0021】図1は、本発明にかかる一実施例のキーワ
ード抽出装置を示すブロック図である。すなわち、キー
ワード抽出装置には、本発明にかかる別の実施例である
形態素解析装置が形態素解析手段2として設けられ、そ
の形態素解析手段2は、文書入力手段1から入力された
文字列から単語を抽出し、その品詞を認定し、名詞を抽
出する機能を有する。又、形態素解析手段2には、抽出
された名詞の単語を組み合わせて複合語を作成する複合
語作成手段3、文書から抽出された単語と複合語をあわ
せてキーワードとして評価するキーワード評価手段4及
び、単語の抽出、品詞の認定等に使用する辞書5が接続
されている。この辞書5は、例えば図5に示すように、
平仮名・漢字単語文字列、品詞情報等の単語情報の他
に、名詞単語の一般文章中における生起頻度(以下、一
般的な生起頻度と呼ぶ)を格納する格納部51、特定分
野における生起頻度を格納する格納部52及び、それら
格納部51,52を、入力される文書に応じて選択する
選択部53により構成されている。
【0022】上述の複合語作成手段3が複合語キーワー
ド候補作成部を構成し、キーワード評価手段4が複合語
評価手段及びキーワード決定手段を構成している。
【0023】ここに、前述の形態素解析手段2による処
理の概要を図2を参照しながら説明する。図2におい
て、形態素解析手段2は、未知語抽出部21と名詞抽出
部22のそれぞれの処理を順に行うように構成されてい
る。文字入力手段1により入力された文字列について、
未知語抽出部21は字種を判定し、連続した片仮名また
は英字の文字列を名詞相当単語として抽出し、登録す
る。また、漢字または平仮名の文字列は、そのまま名詞
抽出部22に送られ、それ以外の句読点や記号は排除さ
れる。
【0024】次に、名詞抽出部22は、送られてきた漢
字と平仮名の文字列を辞書5に登録された文字列と照会
することにより単語と品詞を認定する。このとき品詞が
名詞と判定された単語だけ、その一般的な生起頻度と同
時に登録される。辞書5には、平仮名や漢字の単語の文
字列とその品詞情報、そして名詞に関しては、さらにそ
の語の一般的な生起頻度が格納部51に格納されている
(図5参照)。ここでいう「一般的な生起頻度」とは、
その語句が一般的な文書中で出現する確率のことであ
る。
【0025】以上のようにして登録された名詞単語およ
び名詞相当単語は、入力された文書中での出現頻度がカ
ウントされ、名詞単語のキーワード候補とされる。ま
た、連続した名詞および名詞相当単語は複合語作成手段
3に送られる。
【0026】このように特定字種の文字列を別々に処理
することによって、未知語とされ易い片仮名や英字など
の文字列をキーワード候補とするばかりでなく、辞書に
登録されている確率が少ない字種からなる文字列の辞書
5への照会を回避することで、効率的な単語の抽出が可
能となる。
【0027】次に、複合語作成手段3による処理の概要
を図3を参照しながら説明する。図3に示すように、複
合語作成手段3は、複合語候補作成部31及び複合語評
価部32の処理を順に行うように構成されている。複合
語候補作成部31においては、形態素解析手段2により
抽出された連続した名詞単語を構成語として、作成可能
な全ての複合語候補を列挙し、それぞれの複合語候補の
共出現頻度をカウントする。ここで共出現頻度とは、あ
る単語がほかの特定の単語と共に並んで出現する頻度の
ことであり、すなわち、複合語の出現頻度である。例え
ば、名詞「A」「B」「C」が、ある文章「〜ABC〜
AB〜AB〜」の中で、連続して使われている場合、作
成される複合語候補文字列とその共出現頻度は「AB
C」が1、「AB」が3、「BC」が1となる。この複
合語候補作成部31における処理により、特に複合語候
補間に共通して使用されている構成語からなる複合語の
作成と評価が可能となる。ここで、辞書にある名詞
「A」が、同じく辞書にある単語「a1」「a2」から
なる複合語である場合でも、前述のように複合語候補を
作成すればよいが、構成語を「a1」「a2」「B」
「C」の4個として複合語候補を作成することも可能で
ある。
【0028】次に、複合語評価部32において、複合語
候補作成部31によって作成された複合語候補を比較し
たとき、例えば、ある複合語Xが他のある複合語Yの構
成語の一部となっている場合、複合語Xの共出現頻度か
ら複合語Yの共出現頻度を引いた値が、ある閾値(≧
0)以下であれば、複合語候補Xを複合語候補から削除
する処理を行う。例えば、前述の文章例「〜ABC〜A
B〜AB〜」の場合、複合語候補作成部31で、「AB
C」、「AB」、「BC」が作成されるが、「AB」と
「BC」は「ABC」に含まれるため、それぞれの共出
現頻度3、1から「ABC」の共出現頻度1を引いた値
は、それぞれ2、0となる。このときの閾値が0であれ
ば、候補「BC」は複合語候補から除かれる。これは、
同じ頻度であれば、「BC」より「ABC」の方が、よ
り内容を反映したキーワードとなると考えられるからで
ある。
【0029】また、複合語候補の出現頻度が設定された
閾値以上であれば、その候補を複合語のキーワード候補
と認定する。これらの閾値は適用内容により適宜設定可
能である。
【0030】次に、キーワード評価手段4による処理の
概要を図4を参照しながら説明する。図4において、キ
ーワード評価手段4には評価値演算部41が設けられ、
その評価値演算部41は、形態素解析手段2から名詞単
語のキーワード候補の文字列と出現頻度と一般的な生起
頻度と、複合語作成手段3から複合語のキーワード候補
と共出現頻度がそれぞれ入力される構成になっている。
【0031】まず、用途によっては、評価値演算部41
において、名詞単語のキーワード候補が、複合語のキー
ワード候補の構成語となっている場合、名詞単語の出現
頻度からその複合語の共出現頻度を引く。この結果、出
現頻度がある閾値以下となった単語をキーワード候補か
ら除外する処理を行う。この処理によって、文書中では
単独で使われにくい単語がキーワード候補から排除され
る。
【0032】次に、評価値演算部41において、単語と
複合語の頻度情報からキーワードのなり易さの評価値を
演算する。基本的にキーワードらしさの評価値Eは(数
1)に示すように文中の出現頻度fに定数aをかけた値
から、一般的な生起頻度Fに定数bをかけた値を引いた
値とする。この出現頻度と一般的な生起頻度の重み付け
係数である定数aと定数bは、用途により適宜設定され
る。複合語の場合、一般的な生起頻度は0とする。ま
た、出現頻度は適用する文章の長さによって正規化した
ものを使用する。なお、上記の例では複合語の生起頻度
は0と設定したが、キーワード文字列の長さ、構成語の
生起頻度、字種、個数などをもとに設定してもよい。
【0033】
【数1】E=fa−Fb (ただし、a>0、b≧0) このようにキーワード評価手段4で算出された評価値
は、一般的な生起頻度よりも文書中の出現頻度が高いも
のほどキーワードとなりやすい。キーワードは、上位か
らある一定数までを認定してもよいし、評価値がある閾
値以上のものをすべて選んでもよい。このような閾値
も、適用する文書の規模や用途などにより適宜設定す
る。
【0034】以上のように単語と複合語のキーワード候
補を統合して評価し、適切な長さのキーワードを抽出す
るため、より少ない数のキーワードで文書内容を反映す
ることが出来る。
【0035】更に、このとき特定分野に関する単語のキ
ーワード抽出を行うとすると、図5に示すように、辞書
5に設けられた名詞の生起頻度の選択部53により、特
定分野における生起頻度の格納部52を選択すればよ
い。このように格納部52を選択することで、一般的な
名詞の生起頻度の代わりに特定分野の名詞の生起頻度を
使用することができ、より文書内容を反映したキーワー
ドを抽出することが可能となる。
【0036】一般的な生起頻度は様々な分野についての
文章に単語が出現する確率であるが、特定分野の生起頻
度は、予め対象とする特定の分野の文書から名詞単語の
出現頻度を解析することで容易に収集することが出来
る。例えば、ある新聞中の特定の記事に関するキーワー
ド抽出を行うならば、その新聞全体の名詞の出現頻度を
求めてもよいし、また、政治に関してならば、過去の政
治記事だけを抜きだして統計をとってもよい。
【0037】生起頻度情報の利用や収集時において、ど
の分野の生起頻度にするかの選択は、用途により人間が
決定しても良いが、キーワード抽出や生起頻度の収集対
象の文章から抽出した単語をシソーラス辞書などでチェ
ックし、分野を推定する事で自動化も可能である。
【0038】更に、得られたキーワード情報をキーワー
ド辞書として登録することで、より高度な日本語文書解
析システムに利用可能である。
【0039】以上のように、形態素解析手段2で片仮名
と英字の文字列をそのまま名詞相当語として抽出するこ
とにより、未知語とされ易いそれらの字種からなる単語
やその単語を含む複合語を効率的にキーワード候補とす
ることが可能となり、さらに、単語の文中の出現頻度と
一般的な生起頻度と複合語の共出現頻度からキーワード
候補を評価する簡便なキーワード評価手段4によって、
単語と複合語のキーワードを同時に評価し抽出すること
で、片仮名語などの微妙な表記の違いをすべて登録した
大容量の辞書や専門用語特徴語基抽出手段など複合語の
構成語間の係受け関係の詳細な解析を必要とせず、入力
された文書から、片仮名や英字の未知語を含む単語や妥
当な構成語からなる複合語のキーワードを自動的に作
成、抽出することができる。
【0040】なお、上記実施例では、キーワード抽出装
置の形態素解析手段2として本発明の形態素解析装置を
組み合わせた構成としたが、形態素解析手段を従来の方
法により行う構成としてもよい。あるいは又、形態素解
析手段2以外を従来の方法により構成してもよい。
【0041】また、上記実施例に示したキーワードの評
価値の算出方法は、より文書内容を反映するような評価
値が算出できれば、上述の方法に限定されるものではな
い。
【0042】また、上記実施例では、特定分野における
生起頻度の格納部は1分野であったが、これに限らず、
種々の特定分野について格納部を設けてもよい。
【0043】また、上記実施例では、各処理手段を専用
のハードウェアにより構成したが、これに限らず、同様
の機能をコンピュータを用いてソフトウェア的に実現し
てもよい。
【0044】
【発明の効果】以上述べたところから明らかなように本
発明は、形態素解析手段が、入力された日本語文章中の
連続した片仮名や英字からなる文字列を名詞相当単語と
して抽出するので、片仮名や英字が連続した文字列を効
率よく単語処理することができるという長所を有する。
【0045】また、本発明は、複合語キーワード候補
の、入力された日本語文章中の累積頻度から相互の重複
頻度を考慮して、各複合語候補の評価値を決定する複合
語評価部と、それに基づきキーワードを決定するキーワ
ード決定手段とを備えているので、キーワードを効率的
に抽出できるという利点がある。
【図面の簡単な説明】
【図1】本発明にかかる一実施例のキーワード抽出装置
を示すブロック図である。
【図2】同実施例の形態素解析手段の概要を示すブロッ
ク図である。
【図3】同実施例の複合語作成手段の概要を示すブロッ
ク図である。
【図4】同実施例のキーワード評価手段の概要を示すブ
ロック図である。
【図5】同実施例の辞書の概要を示すブロック図であ
る。
【図6】従来の片仮名未知語の処理を説明するためのブ
ロック図である。
【図7】図6における従来例の文書解析順序を示す流れ
図である。
【図8】従来の専門用語抽出システムを説明するための
ブロック図である。
【図9】図8における従来例の専門用語特徴語基処理を
示す流れ図である。
【符号の説明】
1 文書入力手段 2 形態素解析手段 3 複合語作成手段 4 キーワード評価手段 5 辞書 21 未知語抽出部 22 名詞抽出部 31 複合語候補作成部 32 複合語評価部 41 評価値演算部 53 選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 丹羽 寿男 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 前川 英嗣 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 昭61−204771(JP,A) 特開 平4−127371(JP,A) 特開 平3−286372(JP,A) 特開 平3−127176(JP,A) 特開 平3−125264(JP,A) 特開 平3−116377(JP,A) 特開 平3−116375(JP,A) 特開 平3−116374(JP,A) 特開 平1−217623(JP,A) 伊藤 他,複合語最適評価法によるキ ーワード抽出,1993年電子情報通信学会 春季大会講演論文集,日本,社団法人 電子情報通信学会,1993年 3月15日, Vol.6,No.D−113,pp.6 −116. 小川 他,短単位キーワードに基づく テキストデータベースシステム,情報処 理学会研究報告,日本,社団法人 情報 処理学会,1992年 9月11日,Vol. 92,No.71(92−DBS−90−6), pp.45−54. 高橋 他,文意解析に基づく有意味キ ーワード抽出システム,情報処理学会研 究報告,日本,社団法人 情報処理学 会,1990年 9月11日,Vol.92,N o.71(92−DBS−90−8),pp. 65−72. 木本 他,統合型大規模テキストデー タベースへの自動索引とその評価,情報 処理学会研究報告,日本,社団法人 情 報処理学会,1992年 9月11日,Vo l.92,No.71(92−DBS−90− 9),pp.73−81. (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 210 G06F 17/30 170 G06F 17/22 524 G06F 17/27 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 解析に必要な少なくとも文法情報を格納
    した辞書と、入力された日本語文章から少なくとも名詞
    単語及び名詞相当単語を前記辞書を利用して抽出する形
    態素解析手段と、その形態素解析手段が抽出した名詞単
    語又は名詞相当単語が連続してなる複合語を構成してい
    る各単語又は相当単語を複数個組み合わせてなる複合語
    をキーワード候補として列挙する複合語キーワード候補
    作成部と、その複合語キーワード候補作成部が列挙した
    複合語キーワード候補の、前記入力された日本語文章中
    の累積頻度から相互の重複頻度を考慮して、各複合語キ
    ーワード候補の評価値を決定する複合語評価手段と、そ
    れに基づきキーワードを決定するキーワード決定手段と
    を備えたことを特徴とするキーワード抽出装置。
  2. 【請求項2】 相互の重複頻度を考慮するとは、他の一
    つの複合語キーワード候補に含まれる一つの複合語キー
    ワード候補の出現頻度は一減算することを特徴とする請
    求項記載のキーワード抽出装置。
  3. 【請求項3】 複合語評価手段は、前記名詞単語の一般
    文章中における生起頻度と、前記名詞単語及び名詞相当
    単語の、前記入力された日本語文章中における出現頻度
    と、前記複合語キーワード候補の出現頻度に基づいて、
    前記名詞単語及び名詞相当単語と前記複合語キーワード
    候補を交えてキーワードらしさの評価値を算出するもの
    であって、その際に、前記複合語キーワード候補に含ま
    れる構成語の評価を小さくすることを特徴とする請求項
    記載のキーワード抽出装置。
  4. 【請求項4】 辞書は、所定の特定分野での文章中にお
    ける名詞単語の生起頻度を格納し、前記一般文章中にお
    ける生起頻度と前記特定分野文章中における生起頻度と
    を用途により切り替えるための選択部を有することを特
    徴とする請求項記載のキーワード抽出装置。
JP08615493A 1993-04-13 1993-04-13 形態素解析装置及びキーワード抽出装置 Expired - Fee Related JP3361563B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08615493A JP3361563B2 (ja) 1993-04-13 1993-04-13 形態素解析装置及びキーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08615493A JP3361563B2 (ja) 1993-04-13 1993-04-13 形態素解析装置及びキーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH06301722A JPH06301722A (ja) 1994-10-28
JP3361563B2 true JP3361563B2 (ja) 2003-01-07

Family

ID=13878830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08615493A Expired - Fee Related JP3361563B2 (ja) 1993-04-13 1993-04-13 形態素解析装置及びキーワード抽出装置

Country Status (1)

Country Link
JP (1) JP3361563B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
JP3508312B2 (ja) * 1995-07-25 2004-03-22 富士ゼロックス株式会社 キーワード抽出装置
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JP3875357B2 (ja) * 1996-08-02 2007-01-31 富士通株式会社 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP2000113064A (ja) * 1998-10-09 2000-04-21 Fuji Xerox Co Ltd 最適行為者選定支援システム
JP4003468B2 (ja) 2002-02-05 2007-11-07 株式会社日立製作所 適合性フィードバックによる類似データ検索方法および装置
JP4961869B2 (ja) * 2006-07-11 2012-06-27 沖電気工業株式会社 専門用語判別装置および専門用語判別方法
US20110035211A1 (en) * 2009-08-07 2011-02-10 Tal Eden Systems, methods and apparatus for relative frequency based phrase mining
JP5090490B2 (ja) * 2010-03-23 2012-12-05 ヤフー株式会社 代表表記抽出装置、方法及びプログラム
KR102528401B1 (ko) * 2021-06-07 2023-05-03 삼육대학교산학협력단 대화형 형태소 분석을 제공하기 위한 시스템

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61204771A (ja) * 1985-03-07 1986-09-10 Nec Corp 形態素解析装置
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JP2812509B2 (ja) * 1989-09-29 1998-10-22 株式会社リコー 専門用語抽出システム
JP2828692B2 (ja) * 1989-09-29 1998-11-25 株式会社リコー 情報検索装置
JP2872706B2 (ja) * 1989-09-29 1999-03-24 株式会社リコー 情報検索装置
JP2812511B2 (ja) * 1989-10-09 1998-10-22 株式会社リコー キーワード抽出装置
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JP2883153B2 (ja) * 1990-04-02 1999-04-19 株式会社リコー キーワード抽出装置
JP2886308B2 (ja) * 1990-09-19 1999-04-26 株式会社リコー データ登録装置及び方法とデータ検索装置及び方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
伊藤 他,複合語最適評価法によるキーワード抽出,1993年電子情報通信学会春季大会講演論文集,日本,社団法人 電子情報通信学会,1993年 3月15日,Vol.6,No.D−113,pp.6−116.
小川 他,短単位キーワードに基づくテキストデータベースシステム,情報処理学会研究報告,日本,社団法人 情報処理学会,1992年 9月11日,Vol.92,No.71(92−DBS−90−6),pp.45−54.
木本 他,統合型大規模テキストデータベースへの自動索引とその評価,情報処理学会研究報告,日本,社団法人 情報処理学会,1992年 9月11日,Vol.92,No.71(92−DBS−90−9),pp.73−81.
高橋 他,文意解析に基づく有意味キーワード抽出システム,情報処理学会研究報告,日本,社団法人 情報処理学会,1990年 9月11日,Vol.92,No.71(92−DBS−90−8),pp.65−72.

Also Published As

Publication number Publication date
JPH06301722A (ja) 1994-10-28

Similar Documents

Publication Publication Date Title
US7424421B2 (en) Word collection method and system for use in word-breaking
US6473754B1 (en) Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
JP4421134B2 (ja) 文書画像検索装置
US6654717B2 (en) Multi-language document search and retrieval system
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7519590B2 (en) Method and system for performing phrase/word clustering and cluster merging
US20040049499A1 (en) Document retrieval system and question answering system
JP2742115B2 (ja) 類似文書検索装置
JP2001034623A (ja) 情報検索方法と情報検索装置
US8626492B1 (en) Semantic unit recognition
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
Yerra et al. A sentence-based copy detection approach for web documents
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JP3594701B2 (ja) キーセンテンス抽出装置
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
JPH11272701A (ja) 情報抽出装置
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP3389285B2 (ja) 固有名詞特定方法
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees