[go: up one dir, main page]

JP4979637B2 - 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム - Google Patents

複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム Download PDF

Info

Publication number
JP4979637B2
JP4979637B2 JP2008149909A JP2008149909A JP4979637B2 JP 4979637 B2 JP4979637 B2 JP 4979637B2 JP 2008149909 A JP2008149909 A JP 2008149909A JP 2008149909 A JP2008149909 A JP 2008149909A JP 4979637 B2 JP4979637 B2 JP 4979637B2
Authority
JP
Japan
Prior art keywords
word
compound
similarity
compound word
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008149909A
Other languages
English (en)
Other versions
JP2009295052A (ja
Inventor
毅司 増山
昇子 平村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008149909A priority Critical patent/JP4979637B2/ja
Publication of JP2009295052A publication Critical patent/JP2009295052A/ja
Application granted granted Critical
Publication of JP4979637B2 publication Critical patent/JP4979637B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、複合語の区切り位置を推定する技術に関する。
さまざまなシステムにおいて、人間が日常使用している日本語等の自然言語を解析する自然言語情報処理が用いられている。自然言語情報処理の基礎技術の1つとして、形態素解析がある。形態素解析とは、文章を文法的に意味ある最小単位である形態素に区切り、辞書を利用して形態素の品詞や内容を判別する処理のことである。日本語の様にスペース等で区切りのない言語の場合、形態素解析では、辞書にある名詞を形態素として区切ったり、前後の品詞を見て文法的におかしい区切り方は省く等の処理を行う。
形態素解析において、複合語を辞書に収録された基本語(形態素)の組み合わせに適切に区切ることは重要である。ここで、複合語とは、複数の形態素で構成されている語のことであり、例えば、「本部長」や「株式会社」である。複合語を適切に区切ることが重要であるのは、複合語の区切り方によって、形態素解析後の処理に影響を与えるからである。例えば、「本部長」を検索する場合に、「本」「部長」と区切ったり、「本部」「長」と区切ったりできる複合語では、後者において「部長」のキーワードで検索してもヒットせず、検索漏れが生じてしまうという問題が起きる。
そこで、このような問題を解決するため、複合語を辞書に収録された基本語の組み合わせに適切に区切るためのさまざまな方法が提案されている(例えば、特許文献1、2)。
特許文献1には、複合語を2文字の漢字語基と1文字の接辞とに分割する方法が開示されている。特許文献1に記載の方法によれば、漢字2文字組に対して単語頭頻度と単語末頻度を関連付けた辞書を設け、形態素解析時に文字境界に頻度情報と基本単語分割指数を設定し、最適な単語分割処理を行う。
特許文献2には、複合語を効率的に分割する形態素解析装置が開示されている。特許文献2に記載の形態素解析装置は、マスター辞書に見出し語とそれに対応する分割可能フラグを設け、トークンリスト(自然言語文の構成要素リスト)作成時に「複合語に分割する」の条件が与えられた場合に、分割可能な見出し語を除いて、トークンリストに登録し、また、トークンリストを用いて入力された自然言語文を構成する最適なトークン列を出力する。
特開2002−259370号公報 特開2004−246440号公報
しかしながら、特許文献1に記載の方法および特許文献2に記載の装置では、予め辞書に登録されている語しか分割することができない。また、特許文献1に記載の方法では、単語頭頻度と単語末頻度を関連付けた辞書を用いて、複合語の分割を行う旨記載されているが、分割処理は頻度に関する統計結果に依存するため、分割位置の変更が困難であるという問題点もある。更に、特許文献2に記載の装置では、マスター辞書に見出し語とそれに対応する分割フラグを設け、分割可能な語とそうでない語との識別を行っているが、複合語の分割フラグを予め作成しなければならず手間もかかる。
本発明は、上記課題に鑑み、予め辞書に登録されている語のみならず、登録されていない語についても複合語であるか否かの推定を行い、また、複合語である場合には適切な区切り位置を推定する複合語区切り推定装置、方法、およびプログラムを提供することを目的とする。
(1) 複合語の区切り位置を推定する複合語区切り推定装置であって、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する複数の形態素間の区切り位置を記憶する学習データ記憶部と、
前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するベクトル処理部と、
前記ベクトル処理部にてベクトル化した、前記学習データ記憶部に記憶されていない未知語のベクトルと前記学習データ記憶部に記憶されている複数の既知語のベクトルとを用いて、前記未知語と前記既知語それぞれとの類似度を計算する類似度計算部と、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が複合語であるか否かの推定を行う推定部と、
を備え、
前記推定部は、前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれの類似度を比較することにより、前記未知語の形態素間の区切り位置を推定する複合語区切り推定装置。
(1)の発明によれば、未知語のベクトルと1以上の複合語である既知語のベクトルとの類似度、および未知語のベクトルと1以上の複合語でない既知語のベクトルとの類似度を計算し、それらを比較することにより未知語が複合語であるか否かを推定することができる。従来、辞書等を用いなければ複合語であるか否かを判断することができなかったが、(1)の発明によれば、辞書等を用いずに未知語が複合語であるか否かを推定することができる。また、辞書等を用いないため、辞書等に登録されていない形態素を含む未知語についても複合語であるか否かの判断を行うことができる。なお、語のベクトルを用いることにより、語間の類似性を定量的に評価することができる。
また、複合語である未知語のベクトルと複合語である既知語のベクトルとの類似度を計算し、類似度を複合語である既知語の区切り位置にて分類し、それらを比較することにより、未知語の区切り位置を推定することができる。従来、辞書等を用い、かつ辞書等に登録されている形態素でなければ、複合語の区切り位置を判断することができなかったが、(1)の発明によれば、辞書等を用いずに未知語の区切り位置を推定することができる。
ここで、「語」とは、形態素解析により分割される対象であり、形態素、単語、および複合語等を含む。また、未知語と既知語のいずれも含み、漢字のみから構成される語に限らず、仮名等を含む語も含む。また、「特徴量」とは、語や文字の特徴を数値化したものである。なお、既に述べたように、「形態素」とは、意味あるいは文法機能を持つ最小の単位である。
(2) 学習データ記憶部は、接辞であることを表す重み付け値を、前記接辞に対して記憶し、
前記ベクトル処理部は、前記語をベクトル化する際に前記重み付け値を用いる(1)に記載の複合語区切り推定装置。
(2)の発明によれば、語のベクトル化に接辞であることを表す重み付け値を用いることにより、語が接辞を含むという特徴をベクトルに反映することができる。それにより、語が接辞を有するという特徴を加味した類似度を求めることができる。なお、「接辞」とは、それ自体は独立した単語にはなれないが、他の単語に付いてその単語の意味を広げたり、文中での役割を示したりするものであり、接頭語および接尾語である。
(3) 文書から前記未知語を切り出す形態素解析部を備えた(1)または(2)のいずれかに記載の複合語区切り推定装置。
(3)の発明によれば、文書から形態素を切り出す形態素解析部を分離して備えることにより、形態素解析部を世の中に普及しているものの中からより適切なものを選択することができるので、文書の種類、分野等に応じて、文書をより適切に形態素に分割することができ、また、文書から未知語をより適切に切り出すことができる。
(4) 前記類似度に、コサイン類似度を用いる(1)から(3)のいずれかに記載の複合語区切り推定装置。
(4)の発明によれば、類似度にコサイン類似度を用いることにより、ベクトル空間に基づいた語間の類似性を計算することができる。それにより、語間の類似度を求めることができる。
(5) 前記特徴量は、前記語が含む文字それぞれの出現頻度である(1)から(4)のいずれかに記載の複合語区切り推定装置。
(5)の発明によれば、語が含む文字それぞれの容易に取得できる出現頻度を特徴量をすることができる。それにより、特徴量を容易に抽出することができる。
(6) 前記学習データ記憶部に記憶されている情報は、k最近傍法により生成される(1)から(5)のいずれかに記載の複合語区切り推定装置。
(6)の発明によれば、学習データ記憶部に記憶されている情報は、k最近傍法(k−Nearest Neighbor,k−NN)により生成されることにより、語が複合語であるか否かおよび複合語の区切り位置を統計的に、精度よく得ることができる。それにより、学習データ記憶部に記憶されている語が複合語であるか否か、およびその区切り位置を的確に求めることができる。
(7) 複合語の区切り位置を推定する複合語区切り推定方法であって、
コンピュータが、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行する複合語区切り推定方法。
(8) 更に、前記語をベクトル化する際に、接辞であることを表す重み付け値を用いる(7)に記載の複合語区切り推定方法。
(9) 更に、文書から前記未知語を切り出すステップを含む(7)または(8)のいずれかに記載の複合語区切り推定方法。
(10) 前記類似度に、コサイン類似度を用いる(7)から(9)のいずれかに記載の複合語区切り推定方法。
(11) 前記特徴量は、前記語が含む文字それぞれの出現頻度である(7)から(10)のいずれかに記載の複合語区切り推定方法。
(12) 複合語の区切り位置を推定する複合語区切り推定プログラムであって、
コンピュータに、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行させる複合語区切り推定プログラム。
本発明によれば、予め辞書に登録されている語のみならず、登録されていない語についても複合語であるか否かの推定を行い、また、複合語である場合には適切な区切り位置を推定する複合語区切り推定装置、方法、およびプログラムを提供することができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[第1実施形態]
(システムの概要)
図1は、本発明の第1実施形態の複合語区切り推定装置100(以下、「装置100」という)を示す概略図である。図1に示すように、装置100は、形態素解析部110、複合語区切り推定部210、辞書DB120、および学習データ記憶部として学習データDB220を備える。装置100は、外部のパーソナルコンピュータ(PC)からインターネットやイントラネットに代表されるネットワーク等の通信回線を介して、文字列を示すデータを受信し、翻訳等の処理を行い、処理後のデータをそのPC等へ返送するようになっている。
形態素解析部110は、通信部(図示せず)にて受け付けた文字列を形態素解析し、解析結果を生成する。なお、形態素解析部110は、一般に普及されている既存の技術を用いて形態素解析を行う。複合語区切り推定部210は、形態素解析部110にて行われた形態素解析の解析結果に含まれる未知語が複合語であるか否かの推定、および複合語である未知語の区切り位置の推定を行う。なお、既に述べたように、未知語とは、学習データDB220に記憶されていない語をいう。それに対し、学習データDB220に記憶されている語は既知語という。
辞書DB120は、日本語の複数の形態素それぞれを品詞と対応付けて記憶しており、形態素解析部110が文字列を形態素解析する際に用いられる。なお、辞書DB120は、形態素解析に用いられる既存の辞書である。学習データDB220は、日本語の複数の語それぞれについて、複合語であるか否かの情報、および複合語の区切り位置を対応付けて記憶している。また、接辞である形態素について、重み付け値を記憶している。
なお、本実施形態においては、形態素解析部110、複合語区切り推定部210、辞書DB120、および学習データDB220は装置100内部に備えられているが、それぞれを外部の装置としてもよい。
(装置100の主な機能構成)
図2は、本発明の第1実施形態の形態素解析部110の機能構成を示す図である。形態素解析部110は、文字列受信部111、単語分割部112、および解析結果生成部113を有する。文字列受信部111は、通信部を介して外部から受信した文字列を受け付ける。単語分割部112は、文字列受信部111によって受け付けた文字列を形態素解析する。解析結果生成部113は、単語分割部112にて形態素解析された結果に基づいて、文字列の解析結果を生成する。
図3は、本発明の第1実施形態の複合語区切り推定部210の機能構成を示す図である。複合語区切り推定部210は、対象語受信部211、ベクトル処理部212、類似度計算部213、推定部としてクラス推定部214、および推定結果生成部215を有する。対象語受信部211は、形態素解析部110から受信した複合語区切り推定部210の処理対象である未知語を受け付ける。ベクトル処理部212は、未知語および既知語をベクトル化する。類似度計算部213は、ベクトル処理部212にて求められた未知語および既知語のベクトルを用いて、未知語と複数の既知語それぞれとの類似度を計算する。クラス推定部214は、類似度計算部213にて計算された類似度に基づいて、分類したいクラス毎の類似度を計算し、未知語のクラスを推定する。推定結果生成部215は、クラス推定部214にて求められたクラスに基づいて、未知語を分割した結果を生成する。
(学習データDB220の構成)
図4は、学習データDB220の学習データテーブルの一例を示す図である。学習データテーブルは、学習データである語の複合語情報を格納している。学習データは、語、語形成クラス、および区切りクラス等が関連付けられて構成されている。なお、ここに示した項目は例示であり、その他の項目を有してもよい。学習データテーブルに記録されている語は、既に述べたように既知語であるが、別の言い方をすると、既知語は語形成クラス、および語が複合語である場合には、区切りクラスも判明している語である。
語形成クラスには、語が複数の形態素で構成される複合語であるか否かの情報、ここでは、複合語クラス、または単語クラスのいずれかが記憶される。ここで、複合語クラスを「ma−p」、単語クラスを「ma−s」とする。例えば、「差別化」は「差別」と「化」の2つの形態素から構成される複合語であるので、図示するように「ma−p」に属する。一方「海岸線」は、1つの形態素から構成される単語であるため、図示するように「ma−s」に属する。なお、既知語の語形成クラス、および区切りクラスの決定は、k最近傍法等の分類器を用いて行ってもよいし、既知語それぞれの語構成要素間の関係に基づいて行ってもよい。なお、。k最近傍法とは1個の最も類似した用例を用いるかわりに、類似度の上位から順に取り出したk個の用例の多数決によりクラス求める方法であり、パターン認識の手法の1つである。
区切りクラスには、既知語が複合語である場合に、複合語の区切りクラスが定義される。区切りクラスとは、複合語の区切り位置によって分類されるクラスである。3文字の複合語の場合に、区切りクラスは1文字目と2文字目の間で区切られる「1−23」と、2文字目と3文字目の間で区切られる「12−3」の2つのクラスである。例えば、「差別化」は、「差別」と「化」とに分かれるので、図示するように「12−3」のクラスに属する。一方、「仮処分」は、「仮」と「処分」とに分かれるので、図示するように「1−23」のクラスに属する。なお、本実施形態において既知語は3文字であるが、4文字以上であってもよい。但し、語形成クラスおよび区切りクラスの推定には、未知語と同じ文字数の既知語を少なくとも記憶している学習データテーブルが必要である。
(複合語区切り推定処理)
図5は、複合語区切り推定処理のフローチャートである。対象語受信部211が、未知語を受信すると処理が開始する。
S1:複合語区切り推定部210は、未知語と複数の既知語それぞれとの類似度を計算し、その結果を既知語の語形成クラスに基づいて分類し、クラス毎に類似度を集計することで、未知語と「ma−p」および未知語と「ma−s」の類似度を算出する。
S2:複合語区切り推定部210は、未知語が「ma−p」または「ma−s」のいずれのクラスに属するか判断を行う。
S3:複合語区切り推定部210は、ステップS1にて未知語が複合語であると判断されると、未知語の区切りクラスを推定し、未知語の分割を行う。
ステップS2にて、複合語区切り推定部210が、未知語が単語であると判断する、または、複合語である未知語を分割すると処理は終了する。以下に、ステップS1およびS3の処理について詳細に説明する。
図6は、語形成クラス推定処理のフローチャートである。まず、ステップS1およびステップS2で行われる、未知語が「ma−p」または「ma−s」のいずれに属するか判断する処理について、図6を用いて説明する。
S11:対象語受信部211は、形態素解析部110から未知語を取得する。
S12:ベクトル処理部212は、未知語が含む文字それぞれの特徴量を用いて、未知語をベクトル化する。それにより、語の特徴を特徴量で数値化することができ、語間の類似度を定量的に求めることができる。
語が含む文字それぞれの特徴量として文字の出現頻度を用いて、語をベクトル化する方法を一例として説明する。例えば、「差別化」の場合には、「差」、「別」、「化」がそれぞれ1回ずつ出現するので、「差別化」のベクトルは、「差別化」=(1,1,1)と表される。また、「地対地」の場合には、「地」が2回、「対」が1回出現するので、「地対」=(2,1)と表される。なお、語をベクトル化する方法として、文字の出現・非出現を1,0にて表す方法や、TF−IDF(Term Frequency−Inverse Document Frequency)等を用いてもよい。また、語が含む文字それぞれの特徴量として文字の出現頻度を用いる方法の他に、語が含む文字の確率値を用いる方法もある。
S13:ベクトル処理部212は、既知語をベクトル化する。ベクトル化する方法は、ステップS12にて説明した方法を用いる。なお、予め、既知語のベクトルを求め、学習データテーブルに記憶させておいてもよい。
S14:類似度計算部213は、未知語と複数の既知語それぞれとの類似度をステップS12およびS13にて求めたそれぞれのベクトルを用いて計算する。本実施形態において、類似度には、語が含む文字それぞれの特徴量として文字の出現頻度を用いてベクトル化した、未知語のベクトルと既知語のベクトルとのコサイン(余弦)をとって類似度とするコサイン類似度を用いる。
図7は、コサイン類似度の概念図を示す図である。ベクトルxとベクトルxのコサイン類似度の求め方について、図7を用いて説明する。コサイン類似度は、2つのベクトルのコサインをとって類似度とする方法であり、コサインの値が大きいほど類似度は高く、2つのベクトルはより類似していることを意味する。ベクトルxとベクトルxのコサイン類似度は以下に示すの式(1)により求められる。
Figure 0004979637
例えば、「小天地」と「小作地」のコサイン類似度を求める場合について説明する。まず、「小天地」および「小作地」をベクトル化する。上述したように、語に含まれる文字の出現頻度を用いてベクトル化をすると、「小天地」のベクトルは(1,1,1)、「小作地」のベクトルは(1,1,1)となる。式(1)に「小天地」および「小作地」のベクトル値を代入した式(2)にて、「小天地」と「小作地」のコサイン類似度が、0.67であることを求めることができる。コサイン類似度を用いることで、簡単な計算により2つの語間の類似度を求めることができる。
Figure 0004979637
S15:類似度計算部213は、未知語と複数の既知語それぞれとの類似度を計算し終わったか判断する。
S16:ステップS15において、未知語と複数の既知語それぞれとの類似度を計算し終わったと判断されると、類似度に基づいて未知語が「ma−p」または「ma−s」のいずれの語形成クラスに属するかクラス推定を行う。
例えば、ステップS14にて求めた類似度の上位5つを、「ma−p」の既知語と「ma−s」の既知語との2つに分類し、それぞれの類似度の集計値が高いクラスに未知語は属するとする方法がある。また、別の方法としては、もっとも類似度の高い既知語の語形成クラスを未知語の語形成クラスとする方法もある。なお、統計的に類似度を処理し、未知語の語形成クラスを決定するのが望ましい。精度の高い推定結果が得られるためである。
このように、既知語との類似度に基づいて、未知語が複合語であるか否かの判断を行うことにより、未知語が学習データテーブルに登録されているか否かにかかわらず、未知語を複合語であるか否かの判断することができる。
具体例として、未知語「小天地」の語形成クラス推定処理について説明する。学習データテーブルに、「ma−p」の既知語「小作地」、「安息地」、「ma−s」の既知語「新天地」、「地対地」、「天地人」の5つが登録されているとする。まず、ステップS12およびS13において、未知語および既知語それぞれをベクトル化する。次に、ステップS14において、式(1)に未知語および既知語それぞれのベクトル代入して求められた類似度を求める。それぞれの類似度は以下に示す式(3)のようになる。なお、「小作地」については式(2)にて求めた値を用いる。
Figure 0004979637
ステップS16において、「ma−p」の既知語と「ma−s」の既知語との2つに分け、それぞれのクラスと未知語「小天地」との類似度を集計すると、「ma−p」は0.67+0.33=1.00、「ma−s」は0.67+0.57+0.67=1.91となる。よって、未知語「小天地」は類似度の大きい「ma−s」に属すると判断され、複合語でないと推定される。このようにして、未知語が、属する語形成クラスが推定され、複合語であるか否かが推定される。
図8は、区切りクラス推定処理のフローチャートである。ステップS3の複合語である未知語が属する区切りクラスを判断する処理について、図8を用いて説明する。本実施形態において、未知語は3文字であるので、区切りクラスは、「12−3」および「1−23」の2つのクラスである。
S21:クラス推定部214は、図6のステップS16において、複合語であると推定された未知語の区切りクラスを推定する。なお、未知語および既知語のベクトルは、図6のステップS12およびS13にて求めた値を、類似度は、図6のステップS14にて求めた値を用いる。クラス推定部214は、類似度に基づいて未知語が「12−3」または「1−23」のいずれの区切りクラスに属するかクラス推定を行う。クラスの推定は、語形成クラスの推定方法と同様に、「12−3」の既知語との類似度と「1−23」の既知語との類似度に分類、集計し、類似度が高いクラスを未知語が属するクラスと推定する等の方法により行う。
S22:推定結果生成部215は、ステップS21にて決定された区切りクラスに基づいて、未知語を分割し、出力部(図示せず)を介して結果を出力する。
このように、予め区切りクラスが決定している既知語との類似度に基づいて、未知語の区切りクラスを推定し、未知語の分割を行うことにより、学習データテーブルに未知語を構成する形態素が登録されているか否かにかかわらず、未知語の分割の判断を行うことができる。また、学習データテーブルに記憶されている複数の語との類似度に基づいて、クラスを推定することにより、より適切なクラスを推定することができる。
(変形例)
以上のように未知語と既知語の類似度はコサイン類似度を用いて求めることができるが、編集距離ベースにて類似度を求めることもできる。以下に、編集距離(レーベンシュタイン距離)ベースを用いた場合の類似度の求め方について説明する。
編集距離とは、情報理論において、2つの文字列がどの程度異なっているかを示す数値であり、文字の挿入、削除、置換によって、1つの文字列を別の文字列に変形するのに必要な最小回数である。例えば、kittenをsittingに変形する場合、以下のように変形の最小回数は3回であるので、2語間の編集距離は3となる。
(1)
kittenのkをsに置換し、sittenに変形する。
(2)
sittenのeをiに置換し、sittinに変形する。
(3)
sittinにgを挿入して、sittingを取得する。
上述した編集距離ベースを用いた類似度は以下の式(4)にて求めることができる。
Figure 0004979637
例えば、「小天地」と「小作地」の編集距離ベースを用いた類似度は、以下のように求められる。なお、「小天地」の天を作に変換すると「小作地」が取得できるので、2つ文字列間の編集距離は1である。
Figure 0004979637
このようにして求めた類似度を用いて、語形成クラスおよび区切りクラスを推定することができる。また、上述した、コサイン類似度や編集距離ベースにて類似度を求める方法の他に、KL(Kullback−Leibler)情報量を用いる方法もある。KL情報量を用いる場合には、語が含む文字それぞれの確率値を用いてベクトル化した、語のベクトルを用いる。なお、KL情報量の場合には、値が小さいほど2つの語は類似していることを意味する。
上記実施形態では、日本語の複合語についての複合語推定および複合語区切りの推定を行っているが、日本語と同じように分かち書きされない言語、例えば、中国語等に適用することもできる。
[第2実施形態]
次に、第1実施形態との相違を中心に、第2実施形態を説明する。第1の実施形態と異なる点は、語をベクトル化する際に、接辞ルールを適用する点である。以下に、接辞ルールを適用した場合の語のベクトル化について説明する。接辞ルールは、学習データDB220に接辞ルールテーブルとして格納される。
図9は、第2実施形態における接辞ルールテーブルの一例である。接辞ルールデータは接辞、区分、および重み付け値等が関連付けられて構成されている。なお、ここに示した項目は例示であり、その他の項目を有してもよい。接辞には、接頭語および接尾語が記録される。区分には、接辞が接頭語であるか接尾語であるかの区分が記憶され、ここでは、接頭語を「pre」、接尾語を「suf」で表す。重み付け値には、語をベクトル化する際に、接辞である形態素を特徴化するための数値が記憶され、ベクトルの構成要素として用いられる。この重み付け値は、k最近傍法等の分類器を用いて算出してもよいし、装置100の管理者等が任意に決定してもよい。
接辞ルールを用いた場合の語のベクトル化、および類似度の計算について具体例を用いて説明する。なお、類似度にはコサイン類似度を用い、接辞の重み付け値には図9に示す接辞ルールテーブルの値を用いる。具体例には、「同意見」および「両意見」を用いる。「同意見」は、接頭語を1つ含み、かつ「同」、「意」、「見」がそれぞれ1回ずつ出現するので、「同意見」のベクトルは、「同意見」=(10,1,1,1)と表される。同様に、「両意見」は「両意見」=(10,1,1,1)と表される。類似度は、以下の式(5)にて求められる。
Figure 0004979637
このように、接辞ルールを用いることにより、語が接辞を含むという特徴を加味した類似度を求めることができる。なお、他に語構成の特徴を現す要素をベクトルに反映させてもよい。
[複合語区切り推定装置100のハードウェア構成]
図10は、本発明の各実施形態に係る複合語区切り推定装置100のハードウェア構成を示す図である。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、専用機や組み込み型装置の場合、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
複合語区切り推定装置100は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インターフェイス)330、メインメモリ340、BIOS(Basic Input Output System)350、表示装置360、I/Oコントローラ370、キーボードおよびマウス等の入力装置380、ハードディスク390、光ディスクドライブ400、並びに半導体メモリ420を備える。なお、ハードディスク390、光ディスクドライブ400、並びに半導体メモリ420はまとめて記憶装置430と呼ぶ。
制御部300は、複合語区切り推定装置100を統括的に制御する部分であり、ハードディスク390(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F330は、複合語区切り推定装置100が、通信ネットワークを介して他の情報処理装置と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
BIOS350は、複合語区切り推定装置100の起動時にCPU310が実行するブートプログラムや、複合語区切り推定装置100のハードウェアに依存するプログラム等を記録する。
表示装置360は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ370には、ハードディスク390、光ディスクドライブ400、および半導体メモリ420等の記憶装置430を接続することができる。
入力装置380は、複合語区切り推定装置100のユーザによる入力の受け付けを行うものである。
ハードディスク390は、各種プログラムや各種データを記憶する。なお、複合語区切り推定装置100は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ400としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク410を使用する。光ディスク410から光ディスクドライブ400によりプログラムまたはデータを読み取り、I/Oコントローラ370を介してメインメモリ340またはハードディスク390に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、複合語区切り推定装置100は、記憶装置430、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
形態素解析部110、および複合語区切り推定部210は、制御部300によってプログラムが実行されることで実現される。また、辞書DB120および学習データDB220は、主としてハードディスク390に実装される。
本発明の第1実施形態の複合語区切り推定装置を示す概略図である。 本発明の第1実施形態の形態素解析部の機能構成を示す図である。 本発明の第1実施形態の複合語区切り推定部の機能構成を示す図である。 学習データテーブルの一例を示す図である。 複合語区切り推定処理のフローチャートである。 語形成クラス推定処理のフローチャートである。 コサイン類似度の概念図を示す図である。 区切りクラス推定処理のフローチャートである。 本発明の第2実施形態における接辞ルールテーブルの一例である。 本発明の各実施形態に係る複合語区切り推定装置のハードウェア構成を示す図である。
符号の説明
100 複合語区切り推定装置
110 形態素解析部
111 文字列受信部
112 単語分割部
113 解析結果生成部
120 辞書DB
210 複合語区切り推定部
211 対象語受信部
212 ベクトル処理部
213 類似度計算部
214 クラス推定部
215 推定結果生成部
220 学習データDB

Claims (8)

  1. 複合語の区切り位置を推定する複合語区切り推定装置であって、
    予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する複数の形態素間の区切り位置を記憶する学習データ記憶部と、
    前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するベクトル処理部と、
    前記ベクトル処理部にてベクトル化した、前記学習データ記憶部に記憶されていない未知語のベクトルと前記学習データ記憶部に記憶されている複数の既知語のベクトルとを用いて、前記未知語と前記既知語それぞれとの類似度を計算する類似度計算部と、
    前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が複合語であるか否かの推定を行う推定部と、
    を備え、
    前記推定部は、前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれの類似度を比較することにより、前記未知語の形態素間の区切り位置を推定する複合語区切り推定装置。
  2. 学習データ記憶部は、接辞であることを表す重み付け値を、前記接辞に対して記憶し、
    前記ベクトル処理部は、前記語をベクトル化する際に前記重み付け値を用いる請求項1に記載の複合語区切り推定装置。
  3. 文書から前記未知語を切り出す形態素解析部を備えた請求項1または2のいずれかに記載の複合語区切り推定装置。
  4. 前記類似度に、コサイン類似度を用いる請求項1から3のいずれかに記載の複合語区切り推定装置。
  5. 前記特徴量は、前記語が含む文字それぞれの出現頻度である請求項1から4のいずれかに記載の複合語区切り推定装置。
  6. 前記学習データ記憶部に記憶されている情報は、k最近傍法により生成される請求項1から5のいずれかに記載の複合語区切り推定装置。
  7. 複合語の区切り位置を推定する複合語区切り推定方法であって、
    コンピュータが、
    予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
    前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
    前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
    前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
    を実行する複合語区切り推定方法。
  8. 複合語の区切り位置を推定する複合語区切り推定プログラムであって、
    コンピュータに、
    予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
    前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
    前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
    前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
    を実行させる複合語区切り推定プログラム。
JP2008149909A 2008-06-06 2008-06-06 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム Active JP4979637B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008149909A JP4979637B2 (ja) 2008-06-06 2008-06-06 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008149909A JP4979637B2 (ja) 2008-06-06 2008-06-06 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009295052A JP2009295052A (ja) 2009-12-17
JP4979637B2 true JP4979637B2 (ja) 2012-07-18

Family

ID=41543154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008149909A Active JP4979637B2 (ja) 2008-06-06 2008-06-06 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4979637B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
JP6232774B2 (ja) * 2013-06-26 2017-11-22 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
CN105095322A (zh) * 2014-05-23 2015-11-25 富士通株式会社 人名单元词典扩充方法、人名语言识别方法和装置
US11222253B2 (en) 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
JP2021157667A (ja) * 2020-03-27 2021-10-07 富士通株式会社 更新支援装置、更新支援方法及び更新支援プログラム
KR102625347B1 (ko) * 2021-11-10 2024-01-15 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置
JPH06274547A (ja) * 1993-03-22 1994-09-30 Nippon Telegr & Teleph Corp <Ntt> 複合語認識装置

Also Published As

Publication number Publication date
JP2009295052A (ja) 2009-12-17

Similar Documents

Publication Publication Date Title
Singh et al. A systematic review of text stemming techniques
US11210468B2 (en) System and method for comparing plurality of documents
US9483460B2 (en) Automated formation of specialized dictionaries
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Quispe et al. Using virtual edges to improve the discriminability of co-occurrence text networks
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
US11113470B2 (en) Preserving and processing ambiguity in natural language
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
WO2017177809A1 (zh) 语言文本的分词方法和系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
JP6767042B2 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
JP2009514076A (ja) テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム
Atia et al. Increasing the accuracy of opinion mining in Arabic
Zhang et al. Multilingual sentence categorization and novelty mining
US12190621B2 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
US20200401767A1 (en) Summary evaluation device, method, program, and storage medium
Nehar et al. Rational kernels for Arabic root extraction and text classification
US20240281606A1 (en) Linguistic analysis of seed documents and peer groups
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP3925418B2 (ja) トピック境界決定装置及びプログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120309

TRDD Decision of grant or rejection written
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4979637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250