JP4953440B2 - Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program - Google Patents
Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program Download PDFInfo
- Publication number
- JP4953440B2 JP4953440B2 JP2007119982A JP2007119982A JP4953440B2 JP 4953440 B2 JP4953440 B2 JP 4953440B2 JP 2007119982 A JP2007119982 A JP 2007119982A JP 2007119982 A JP2007119982 A JP 2007119982A JP 4953440 B2 JP4953440 B2 JP 4953440B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- document vector
- undefined
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000000877 morphologic effect Effects 0.000 title claims description 39
- 238000004458 analytical method Methods 0.000 title claims description 38
- 238000004590 computer program Methods 0.000 title description 3
- 239000013598 vector Substances 0.000 claims description 141
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は、日本語文章を自動的に単語に分割する形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記憶媒体に関する。 The present invention relates to a morpheme analyzer that automatically divides a Japanese sentence into words, a morpheme analysis method, a morpheme analysis program, and a storage medium storing a computer program.
例えば、日本語ワープロに文字列を入力すると、その文字列が適切な言語単位に分割され、さらに、必要に応じてその言語単位に漢字が当てはめられる。文字列を適切な言語単位に分割するために、形態素解析が実施される。形態素解析においては、入力された文字列が意味を持つ最小の言語単位である形態素(Morpheme)に分割される場合もあるが、後述の単語辞書に複数の形態素から構成される複合語が存在する場合には、複合語に分割される場合もある。このため、本明細書において、「形態素解析」とは、文字列を単語辞書の項目(単語)に分割することである、と定義する。
このような形態素解析は、機械翻訳や自然言語インターフェース等においても、その第1段階の処理として重要な役割を有する。以下、「単語」のことを適宜、「語」とも呼ぶ。
形態素解析においては、単語辞書と連接可能性辞書が使用される。単語辞書は、各語の品詞、読み、活用型等を指定するものである。連接可能性辞書は、連接可能な2語の「タイプ」を指定するものである。連接可能性辞書における語の「タイプ」は、具体的な語であっても、品詞であっても、活用形であってもよい。文頭にあり得る語、文末にあり得る語は、「文頭」、「文末」という特別な「タイプ」と連接可能であるとする。
形態素解析結果は、入力された文字列を構成する語をノード(矩形)として、位置的かつ文法的に連接可能な単語間をエッジ(辺)としてグラフで表現される。単語分割の多義と、同形語の多義によって、文頭のノードから文末のノードまでのパス(経路)は膨大である。このため、単語に付与されたコスト(以下、「単語コスト」と呼ぶ)と、隣接する2つの単語間に付与されたコスト(以下、「連接コスト」と呼ぶ)を使用して、従来、例えば、文頭から文末までの総コストが低いパスを優先条件として、n個のパスを抽出している。ここで、「単語分割の多義」とは、見出しの分割方法が異なることによる多義である。例えば、「その日本人」という文字列に対して、(a)「その」+「日」+「本人」と、(b)「その」+「日本人」という単語分割があり得る。「同形語」の多義とは、見出しが同じである場合に、その読みや品詞が異なる単語が存在することによる多義である。例えば、「工夫」という見出しに対して、「クフウ」と「コウフ」という読みがあり得る。「単語コスト」とは、その単語がどれくらい出現し易いかを示す指標である。「連接コスト」とは、隣接する2つの単語の隣接が、どれくらい出現し易いかを示す指標である。「単語コスト」及び「連接コスト」は、統計的手法によって設定される。
形態素解析においては、文頭から文末までのパスを選択して、単語列として展開された解を生成するため、単語分割の多義や同系語の多義を把握しにくい。これに対して、同系語をグループ化することにより、単語分割の多義と同系語の多義を分離した形態素解析結果を生成する技術が提案されている(例えば、特許文献1)。
そして、単語辞書に記載されていない語(以下、「未定義語」と呼ぶ)は、その多くが人名、地名、会社名等の固有名詞である。このため、一般的には、連続する漢字列、カタカナ列、記号列等が名詞であると仮定して、一律のコストと品詞を付与して処理する等、便宜的な処理で対処するようになっている。
Such morphological analysis has an important role as the first stage of processing in machine translation and natural language interface. Hereinafter, “word” is also referred to as “word” as appropriate.
In morphological analysis, a word dictionary and a connectability dictionary are used. The word dictionary designates the part of speech, reading, and utilization type of each word. The concatenation possibility dictionary specifies “types” of two words that can be concatenated. The “type” of a word in the connectability dictionary may be a specific word, a part of speech, or an inflection form. It is assumed that a word that can be at the beginning of a sentence and a word that can be at the end of a sentence can be connected to a special “type” such as “beginning of sentence” and “end of sentence”.
The morphological analysis result is expressed in a graph with words constituting the input character string as nodes (rectangles) and words that can be connected in a positional and grammatical manner as edges (sides). Due to the ambiguity of word division and the ambiguity of isomorphic words, the path from the beginning node to the ending node is enormous. For this reason, using a cost given to a word (hereinafter referred to as “word cost”) and a cost given between two adjacent words (hereinafter referred to as “joint cost”), for example, , N paths are extracted with a path having a low total cost from the beginning of the sentence to the end of the sentence as a priority condition. Here, the “ambiguity of word division” is an ambiguity due to different heading division methods. For example, for the character string “that Japanese”, there may be (a) “that” + “day” + “person” and (b) “that” + “Japanese”. The ambiguity of “isomorphic” is ambiguity due to the presence of words with different readings and parts of speech when the headings are the same. For example, for the heading “ingenuity”, there may be readings “Kuufu” and “Kofu”. The “word cost” is an index indicating how easily the word appears. The “joint cost” is an index indicating how easily adjacent two adjacent words appear. The “word cost” and “joint cost” are set by a statistical method.
In morphological analysis, the path from the beginning of the sentence to the end of the sentence is selected, and a solution expanded as a word string is generated. Therefore, it is difficult to grasp the ambiguity of word division and the ambiguity of related words. On the other hand, the technique which produces | generates the morphological analysis result which isolate | separated the ambiguity of the word division and the ambiguity of the synonym word by grouping a similar word is proposed (for example, patent document 1).
Many of the words that are not described in the word dictionary (hereinafter referred to as “undefined words”) are proper nouns such as personal names, place names, and company names. For this reason, in general, it is assumed that continuous kanji strings, katakana strings, symbol strings, etc. are nouns, and are dealt with by convenient processing such as processing with uniform costs and parts of speech. It has become.
しかし、未定義語に対して、ある仮定に基づいて一律のコストと品詞を付与して処理する場合には、例えば、未定義語が名詞ではない場合等、適切な形態素解析結果を得ることができない場合があるという問題がある。 However, when processing an undefined word with a uniform cost and part of speech based on certain assumptions, an appropriate morphological analysis result can be obtained, for example, when the undefined word is not a noun. There is a problem that it may not be possible.
そこで、本発明は、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記憶媒体を提供することを目的とする。 Therefore, the present invention provides a morpheme analysis apparatus, a morpheme analysis method, a morpheme analysis program, and a storage medium storing a computer program that can obtain an appropriate morpheme analysis result even when an undefined word exists. For the purpose.
(1) 日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置であって、さらに、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求手段と、各前記既知語についての検索結果の全部または一部を1文書として文書ベクトルを算出する既知語文書ベクトル算出手段と、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付け手段と、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求手段と、前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出手段と、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出手段と、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定手段と、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与手段と、を有し、前記分割手段は、前記属性付与手段によって前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する構成となっていることを特徴とする形態素解析装置。 (1) A word dictionary storage unit that stores a plurality of Japanese words in a state in which parts of speech and costs are associated with each other, and a condition that allows the adjacent words to be connected grammatically. Morphological analysis comprising: a concatenation possibility dictionary storage means, and a dividing means for dividing the character string into predetermined units by referring to the word dictionary storage means and the concatenation possibility dictionary storage means for the input character string A known word search result requesting means for requesting a search result from an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition, and each known A known word document vector calculating means for calculating a document vector using all or a part of search results for words as one document, and a document vector generated for the known word with respect to the known word. If there is an undefined word that is not stored in the word dictionary storage means in the known word document vector associating means to be attached, and the character string, the internal or external Search result requesting means for requesting a search result from the search apparatus, document vector calculating means for calculating a document vector with all or part of the search results as one document, a document vector of the undefined word, and the known word Similarity calculation means for calculating the similarity of the document vector, similar word specification means for specifying the similar word that is the known word corresponding to the document vector having a high similarity, and the part of speech and cost of the similar word Attribute assigning means for associating with an undefined word, and the dividing means is input using the part of speech and cost associated with the undefined word by the attribute assigning means. The morpheme analyzer is configured to divide the character string into the units.
(1)の発明によれば、形態素解析装置は、未定義語について、類似語の品詞及びコストを付与することができる。 According to the invention of (1), the morphological analyzer can give the part-of-speech and cost of a similar word for an undefined word.
(2) 前記属性付与手段は、前記未定義語に対して、予め規定した前記類似度の範囲に属する少なくとも1つの前記類似語の品詞及びコストを関連付ける構成となっていることを特徴とする(1)に記載の形態素解析装置。 (2) The attribute assigning unit is characterized in that the undefined word is associated with a part of speech and a cost of at least one similar word belonging to the predetermined similarity range ( The morphological analyzer according to 1).
(2)の構成によれば、未定義語に複数種類の品詞及びコストを関連付けることができる。このため、入力された文字列の文頭から文末までについて、例えば、総コストの低い順に形態素解析結果を出力する場合において、未定義語の多義も考慮に入れて、より適切に複数のパス(経路)を出力することができる。 According to the configuration of (2), multiple types of parts of speech and costs can be associated with undefined words. For this reason, for example, when outputting the morphological analysis results from the beginning to the end of the input character string in the order of the lowest total cost, more appropriate multiple paths (paths) are taken into consideration of the ambiguity of undefined words. ) Can be output.
(3) さらに、前記既知語を所定のグループに分類し、各前記既知語の文書ベクトルに基づいて、前記グループの文書ベクトルを生成するグループ文書ベクトル生成手段と、前記グループと、前記グループに対応する文書ベクトルを関連付けて記憶するグループ文書ベクトル記憶手段と、を有し、前記属性付与手段は、前記未定義語の文書ベクトルと類似度が高い文書ベクトルに対応する前記グループの品詞及びコストを前記未定義語に関連付ける構成となっていることを特徴とする(1)または(2)のいずれかに記載の形態素解析装置。 (3) Further, group the known words into a predetermined group, group document vector generating means for generating a document vector of the group based on the document vector of each known word, the group, and the group Group document vector storage means for associating and storing document vectors to be stored, wherein the attribute assigning means stores the part of speech and cost of the group corresponding to a document vector having a high similarity to the document vector of the undefined word. The morpheme analyzer according to any one of (1) and (2), wherein the morpheme analyzer is configured to be associated with an undefined word.
(3)の構成によれば、1つの語の品詞及びコストではなくて、グループの品詞及びコストを未定義語に関連付けるから、未定義語対して、妥当な品詞及びコストを関連付けることができる。 According to the configuration of (3), since the part of speech and cost of a group are associated with an undefined word instead of the part of speech and cost of one word, an appropriate part of speech and cost can be associated with an undefined word.
(4)日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、各前記既知語についての検索結果の全部または一部を1文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出ステップと、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、を有することを特徴とする形態素解析方法。 (4) A word dictionary storage unit that stores a plurality of Japanese words in a state in which parts of speech and costs are associated with each other, and a condition that allows the adjacent words to be connected grammatically. Morphological analysis comprising: a concatenation possibility dictionary storage means, and a dividing means for dividing the character string into predetermined units by referring to the word dictionary storage means and the concatenation possibility dictionary storage means for the input character string A known word search result requesting step for requesting a search result to an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition; and a search for each known word A known word document vector calculating step for calculating a document vector with all or a part of the result as one document, and associating the document vector generated for the known word with the known word When there is an undefined word that is a word that is not stored in the word dictionary storage means in the intellectual word document vector associating step and the character string, an internal or external word is used as a search condition. A search result requesting step for requesting a search result to the search device; a document vector calculating step for calculating a document vector with all or part of the search results as one document; a document vector of the undefined word; A similarity calculating step for calculating the similarity of the document vector, a similar word specifying step for specifying a similar word that is the known word corresponding to the document vector having a high similarity, and a part of speech and a cost of the similar word An attribute assignment step associated with a definition word, and a part of speech and a cost associated with the undefined word in the attribute assignment step. Morphological analysis method characterized by comprising a dividing step of dividing the character string into the unit, the.
(4)の発明によれば、(1)の発明と同様に、未定義語について、類似語の品詞及びコストを付与することができる。 According to the invention of (4), as in the invention of (1), parts of speech and costs of similar words can be assigned to undefined words.
(5)コンピュータに、日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶している単語辞書記憶手段と、隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単位に分割する分割手段と、を有する形態素解析装置が、前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、各前記既知語についての検索結果の全部または一部を1文書として文書ベクトルを算出する既知語文書ベクトル算出ステップと、前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出ステップと、前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単位に分割する分割ステップと、を実行させることを特徴とする形態素解析プログラム。 (5) A word dictionary storage means for storing a plurality of Japanese words in a state in which parts of speech and costs are associated with each other, and a condition for allowing grammatical connection between adjacent words. A connection possibility dictionary storage means, and a dividing means for dividing the character string into predetermined units by referring to the word dictionary storage means and the connection possibility dictionary storage means for the inputted character string. A known word search result requesting step for requesting a search result to an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition; and each known word A known word document vector calculating step for calculating a document vector with all or a part of the search results for one document as one document, and the document vector generated for the known word A known word document vector associating step associated with a word, and when an undefined word that is not stored in the word dictionary storage means exists in the character string, the undefined word is used as a search condition. Or a search result requesting step for requesting a search result to an external search device; a document vector calculating step for calculating a document vector with all or a part of the search results as one document; a document vector of the undefined word; A similarity calculation step for calculating the similarity of a document vector of a known word, a similarity word specifying step for specifying a similar word that is the known word corresponding to a document vector having a high similarity, a part of speech and a cost of the similar word Assigning an attribute to the undefined word, and using the part of speech and cost associated with the undefined word in the attribute assigning step. To, morphological analysis program characterized by executing a division step of dividing an input character string to the unit, the.
本発明によれば、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる。 According to the present invention, an appropriate morpheme analysis result can be obtained even when an undefined word exists.
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。 An example of a preferred embodiment according to the present invention will be described below based on the drawings.
[第1実施形態]
(システムの概要)
図1は、本発明の第1実施形態の形態素解析システム10(以下、「システム10」と呼ぶ)を示す概略図である。
[First Embodiment]
(System overview)
FIG. 1 is a schematic diagram showing a morphological analysis system 10 (hereinafter referred to as “
図1に示すように、システム10は、形態素解析サーバ20(以下、「サーバ20」と呼ぶ)及び検索サーバ50を有する。サーバ20と検索サーバ50は、例えば、インターネットである通信回線60を解して通信可能になっている。サーバ20は、入力された文字列を形態素解析するための装置であり、形態素解析装置の一例である。サーバ20はまた、外部のパーソナルコンピュータ(PC)から通信回線60を介して文字列(文字列を示すデータ)を示すデータを受信し、翻訳等の処理を行い、処理後のデータをそのPC等へ返送するようになっている。
As shown in FIG. 1, the
検索サーバ50は、通信回線60を介して、検索条件(「検索語」または「クエリ」とも呼ぶ)を受信し、その検索条件を使用して格納しているウェブ(Web)サイトの情報を検索し、検索条件に関連するウェブ(Web)サイトのURL、そのウェブサイトのタイトル及びスニペット(説明文)を検索結果として出力するための装置であり、検索装置の一例である。検索サーバ50は、サーバ20や外部のPCから検索条件を受信する。
The search server 50 receives a search condition (also referred to as “search word” or “query”) via the
なお、本実施形態においては、検索サーバ50はサーバ20の外部の装置として構成しているが、検索サーバ50とサーバ20を一体として、検索サーバ50をサーバ20の内部の検索装置としてもよい。
In the present embodiment, the search server 50 is configured as a device external to the
(サーバ20の主なハードウェア構成)
図2は、サーバ20の主なハードウェア構成を示す概略図である。サーバ20は、コンピュータであり、バス22を有する。バス22には、CPU(Central Processing Unit)24、RAM(Random Access Memory)26、ROM(Read Only Memory)28、HDD(Hard Disk Drive)30、電源装置32、入力装置34、通信装置36及び表示装置38が接続されている。CPU24は、ROM28に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウェアとその各種プログラムを協働させ、本実施形態に係る各種機能を実現している。RAM26は、プログラムの実行に使用するローカルメモリである。入力装置34は、各種データの入力の受付を行うものであり、キーボード、ポインティング・デバイス等を含んでよい。表示装置38は、ユーザにデータの入力を受け付ける画面を表示したり、当該コンピュータによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
(Main hardware configuration of server 20)
FIG. 2 is a schematic diagram illustrating a main hardware configuration of the
(サーバ20の主なソフトウェア構成)
図3は、サーバ20の主なソフトウェア構成を示す概略図である。図3に示すように、
サーバ20は、既知語文書ベクトル生成部100、文字列受付部110、単語分割部112、ベストパス探索部114、アプリケーション部116及び単語クラスタリング部120を有する。サーバ20は、また、単語辞書DB140及び連接可能性辞書DB142を有する。上述の各部は、CPU24とROM28に格納された各種プログラムによって実現される。
(Main software configuration of server 20)
FIG. 3 is a schematic diagram illustrating a main software configuration of the
The
既知語文書ベクトル生成部100は、単語辞書DB140に格納される単語について、後述のように、文書ベクトルを生成するための構成である。文字列受付部110は、通信装置36によって外部から受信した文字列を受け付けるための構成である。単語分割部112は、文字列受付部110によって受け付けた文字列を形態素解析して解析結果を生成するための構成である。単語分割部112は、分割手段の一例である。単語クラスタリング部120は、未定義語について、品詞とコストを関連付けるための構成である。ベストパス探索部114は、形態素解析された文字列について、所定の条件に基づいて、少なくとも1つの経路(パス)を特定するための構成である。単語辞書DB140は、日本語の複数の単語を、それぞれ品詞及びコストを関連付けた状態で記憶しており、単語辞書記憶手段の一例である。連接可能性辞書DB142は、隣接する単語間が文法的に接続することができる条件を記憶しており、連接可能性辞書記憶手段の一例である。
The known word document
図4は、単語辞書DB140の一例を示す図である。
図4に示すように、単語辞書DB140は、単語辞書を格納している。
単語辞書は、表記(見出し)、読み、品詞、コスト及び文書ベクトルが関連付けられて構成されている。単語辞書は、実際には、トライ(Trie)構造等の高速検索可能な形式に変換されている。
FIG. 4 is a diagram illustrating an example of the
As shown in FIG. 4, the
The word dictionary is configured by associating notation (heading), reading, part of speech, cost, and document vector. The word dictionary is actually converted into a format that can be searched at high speed, such as a Trie structure.
図5は、連接可能性辞書の一例を示す図である。図6は、連接可能性辞書DB142の一例を示す図である。
まず、連接可能性辞書DB142の構成を説明する前提として、図5を使用して、連接可能性辞書について説明する。連接可能性辞書には、隣接する2語(例えば、左側の語と右側の語)が、文法的に接続可能であるか否かについての情報が記載されている。連接可能性辞書には、例えば、現在の日本語において、横書の場合、左から右に向かって記載するのが通常であるから、先行する左側の語に対して、後続する右側の語がどのようなタイプ(品詞、または、具体的な単語)であるかが示されている。
FIG. 5 is a diagram illustrating an example of a connection possibility dictionary. FIG. 6 is a diagram illustrating an example of the connection
First, as a premise for explaining the configuration of the connection
連接可能性辞書DB142には、サーバ20による高速処理が可能なように、連接可能性辞書が、図6に示すように、連接可能性行列に変換されて格納されている。連接可能性行例においては、行が左側にあらわれる語のタイプを示し、列が右側にあらわれる語のタイプが示されている。左側の語のタイプと右側の語のタイプが連接可能であれば、行列の値が1に設定され、連接不可能であれば行列の値が0に設定される。
In the connection
上述の単語辞書DB140に格納される単語(以下、「既知語」とも呼ぶ)には、既知語文書ベクトル生成部100によって、文書ベクトルが関連付けられる。「文書ベクトル」は、出現単語に基づいて文書(または、文章)を1つのベクトルで表現したものである。言い換えると、「文書ベクトル」とは、1つの文書に対する出現単語の重要度(頻度等)を成分とするベクトルのことであり、本明細書においては、自然言語処理の分野における通常の意味で使用する。図3に示すように、既知語文書ベクトル生成部100は、既知語検索結果要求部102、既知語文書ベクトル算出部104及び既知語文書ベクトル関連付け部106を有する。既知語検索結果要求部102は、各既知語を検索条件(「検索語」、「クエリ」とも呼ぶ)として、検索サーバ50に対して検索結果を要求するための構成であり、既知語検索結果要求手段の一例である。既知語文書ベクトル算出部104は、検索サーバ50から受信した検索結果のうち予め規定したK(Kは、自然数)ページを1文書として文書ベクトルを算出するための構成であり、既知語文書ベクトル算出手段の一例である。なお、文書ベクトルの算出については、検索結果におけるタイトルとスニペットの1組を1ページとする。スニペットとは、検索結果のタイトルに続いて表示されるテキストである。既知語文書ベクトル関連付け部106は、各既知語に対して、その文書ベクトルを関連付けるための構成であり、既知語文書ベクトル関連付け手段の一例である。
A word stored in the word dictionary DB 140 (hereinafter also referred to as “known word”) is associated with a document vector by the known word document
図7は、既知語文書ベクトル生成部100の説明図である。
既知語検索結果要求部102は、既知語である「トラックバック」、「車」等の既知語を検索条件として、検索サーバ50に対して検索結果を要求する。既知語検索結果要求部102は、図7(a)に示すように、検索サーバ50から検索結果を受信する。
FIG. 7 is an explanatory diagram of the known word document
The known word search
既知語文書ベクトル算出部104は、検索結果から、上位Kページの検索結果を特定する。そして、図7(b)に示すように、上位Kページの検索結果のタイトルとスニペットから、クエリ以外の語を抽出し、1文書を生成する。そして、式1を使用して、文書ベクトルを算出する。
そして、既知語文書ベクトル関連付け部106は、各既知語に対して、その文書ベクトルを関連付ける。
The known word document
Then, the known word document
図8、図9及び図10は、単語分割部112の説明図である。
例えば、図8(a)に示すように、「このひとことで元気になった」という文字列が単語分割部112に入力されたとする。
単語分割部112は、図8(b)に示すように、文字列の位置(文字と文字の間、文頭では文字の左側、文末では文字の右側)を示すポインターを設定する。初期状態として、ポインターを位置0(先頭の文字「こ」の左側)に設定する。また、「文頭」という仮想的なノードを設定する。
続いて、単語分割部112は、ポインター位置(以下、「始点」と呼ぶ)から始まる語を単語辞書DB140を参照して検索する。図8(b)の始点0からは、「この(連体詞」と「こ(接尾辞:個)」が検索される。単語分割部112は、始点を後方(右側)に1文字づつずらしながら、単語辞書DB140を参照して網羅的に単語辞書DB140から単語を抽出する。始点nから始まる語を単語辞書DB140から抽出する処理を、「始点n(nは、0及び自然数)についての単語抽出処理」と呼ぶ。
単語分割部112は、始点で終わっている語(位置0の場合は「文頭」、以下「先行語」と呼ぶ)と始点から始まる語(位置0の場合は「この」及び「こ」、以下「後続語」と呼ぶ)の各ペアについて、連接可能性辞書DB142を参照し、図8(c)に示すように、連接可能なものがあればその間にリンクをはる。後続語の中で、いずれの先行語とも連接可能ではない語は排除する。図8(c)の例では、「こ」は排除される。
ポインターが文末位置(図8(b)の例では位置13)に来ると、「文末」という仮想的なノードを設定し、文末位置で終わっている語(図8(b)の例では「た」)と「文末」との連接可能性を調べ、連接可能なものだけを「文末」ノードにリンクして処理を終了する。
最終的に、「文頭」ノードから「文末」ノードまでの経路(パス)が、入力された文字列に対する形態素解析結果となる。
8, 9, and 10 are explanatory diagrams of the
For example, as illustrated in FIG. 8A, it is assumed that a character string “I am fine with this word” is input to the
As shown in FIG. 8B, the
Subsequently, the
The
When the pointer reaches the end of the sentence (position 13 in the example of FIG. 8B), a virtual node “end of sentence” is set, and the word ending at the end of the sentence (in the example of FIG. )) And “end of sentence” are examined, and only those that can be connected are linked to the “end of sentence” node, and the process is terminated.
Finally, the path from the “beginning of sentence” node to the “end of sentence” node becomes the morphological analysis result for the input character string.
上述の単語分割部112は、各ノードとリンクに適当なコストを付与する。各ノードのコストは単語辞書DB140に記憶されており、リンクのコストは連接可能性辞書DB142に記憶されている(図示せず)。
先行語と後続語が連接可能な場合に、文頭から先行語までの部分最小コストと、先行語と後続語との間の連接コストと、後続語の単語コストの和が最小であるような先行語と後続語の間に、図9に示すように、特別のマークをつける。例えば、図9においては、その特別のマークは、太線として示されている。
The above-described
When the antecedent and successor can be concatenated, the antecedent such that the sum of the partial minimum cost from the beginning of the sentence to the antecedent, the concatenation cost between the antecedent and successor, and the word cost of the successor is the smallest As shown in FIG. 9, a special mark is added between the word and the subsequent word. For example, in FIG. 9, the special mark is shown as a thick line.
ベストパス探索部114は、コストが小さいことを優先条件として、予め規定された所定数のパスを特定する。ベストパス探索部114は、例えば、コスト最小法を用いる。なお、本実施形態とは異なり、ベストパスの特定方法としては、最長一致法、2文節最長一致法、形態素数最小法、文節数最小法(「岩波講座 ソフトウェア科学15 自然言語処理 長尾 真編 岩波書店」等参照)等を使用してもよい。
アプリケーション部116は、形態素解析結果(パス)の入力を受け、例えば、必要に応じて漢字に変換するワープロ部である。なお、アプリケーション部116は、一般的なワープロソフトや翻訳ソフトを含んで構成されるから、説明を省略する。
The best
The
単語分割部112が受け付けた文字列に、未定義語が存在しない場合には、上述の処理で形態素解析を完了することができる。これに対して、文字列に未定義語が存在する場合には、単語クラスタリング部120が起動する。
If there is no undefined word in the character string received by the
図10(a)に示すように、単語分割部112に入力される文字列が、例えば、「面白いと思った記事をどんどんトラバしていく」であるとする。「トラバ」は未定義語である。単語分割部112は、図10(c)に示すように、各始点から開始する語を単語辞書DB140から抽出していく。なお、説明の便宜のため、図10(c)においては、パスを1つだけ記載し、かつ、すべてのノードをリンクしている。
As shown in FIG. 10A, it is assumed that the character string input to the
図10(b)の始点14から開始する語を単語辞書DB140から抽出することができない。そして、始点14についての単語抽出に続いて、始点15、始点16についての単語抽出処理を行っても単語辞書DB140から語を抽出することはできない。さらに、始点17についての単語抽出処理を行うと、単語辞書DB140から単語「して」を抽出することができる。この場合、単語抽出ができなかった始点14から、単語抽出ができた始点17までの間の文字列「トラバ」が未定義語である。単語分割部112は、未定義語を単語クラスタリング部120へ送信する。単語クラスタリング部120は未定義語を受信することによって起動する。
A word starting from the start point 14 in FIG. 10B cannot be extracted from the
図3に示すように、単語クラスタリング部120は、検索結果要求部122、文書ベクトル生成部124、類似度算出部126、類似語特定部128及び属性付与部130を有する。検索結果要求部122は、未定義語を検索条件として、検索サーバ50に対して検索結果を要求するための構成であり、検索結果要求手段の一例である。文書ベクトル生成部124は、検索サーバ50から受信した検索結果のうち予め規定したKページを1文書として文書ベクトルを算出するための構成であり、文書ベクトル算出手段の一例である。類似度算出部126は、未定義語の文書ベクトルと、既知語の文書ベクトルの類似度を評価するための構成であり、類似度算出手段の一例である。類似語特定部128は、類似度が最も高い文書ベクトルに対応する既知語である類似語を特定するための構成であり、類似語特定手段の一例である。属性付与部130は、類似語の品詞及びコストを未定義語に関連付けるための構成であり、属性付与手段の一例である。
As illustrated in FIG. 3, the
図11及び図12は、単語クラスタリング部120の説明図である。
検索結果要求部122は、未定義語である「トラバ」を検索条件として、検索サーバ50に対して検索結果を要求する。検索結果要求部122は、検索サーバ50から、例えば、図11(a)に示す検索結果を受信する。
11 and 12 are explanatory diagrams of the
The search result request unit 122 requests the search server 50 for a search result by using an undefined word “trava” as a search condition. The search result request unit 122 receives, for example, the search result shown in FIG. 11A from the search server 50.
文書ベクトル生成部124は、検索結果から、上位Kページの検索結果を特定する。そして、図11(b)に示すように、上位Kページの検索結果のタイトルとスニペットから、クエリ以外の語を抽出し、1文書を生成する。そして、この1文書について、上述の式1を使用して、文書ベクトルを算出する。
The document
類似度算出部126は、式2を使用して、「トラバ」の文書ベクトルと、既知語の文書ベクトルの類似度を算出する。
例えば、図12(a)に示すように、未定義語である「トラバ」の文書ベクトルと既知語である「トラックバック」の文書ベクトルの類似度は0.126であり、未定義語である「トラバ」の文書ベクトルと既知語である「車」の文書ベクトルの類似度は0.011である。 For example, as shown in FIG. 12A, the similarity between the document vector of “Trava”, which is an undefined word, and the document vector of “Trackback”, which is a known word, is 0.126, which is an undefined word “ The similarity between the document vector of “Traver” and the document vector of “car”, which is a known word, is 0.011.
類似語特定部128は、すべての既知語の中で、既知語である「トラックバック」の文書ベクトルと「トラバ」の文書ベクトルの類似度が最も高い場合には、「トラックバック」を「トラバ」の類似語として特定する。
The similar
属性付与部130は、類似語である「トラックバック」の品詞及びコストを未定義語である「トラバ」に付与する。
The
単語クラスタリング部120は、このようにして、未定義語に品詞及びコストを付与すると、その未定義語と品詞及びコストを単語分割部112に送信する。単語分割部112は、受信した未定義語と品詞及びコストを使用して、未定義語の末尾と次の文字の間の位置を始点として、形態素解析処理を継続する。
When the
以上が、サーバ20の構成である。以下、主に図13、図14及び図15を使用して、サーバ20の動作例を説明する。主に図13、図14、図15及び図16は、サーバ20の動作例を示す概略フローチャートである。
The above is the configuration of the
(サーバの動作例)
まず、サーバ20が、文字列の入力を受け付ける(図13のステップS1)。続いて、サーバ20が、単語辞書DB140及び連接可能性辞書DB142を参照し、文字列の形態素解析を行う(ステップS2)。ステップS2は、分割ステップの一例である。続いて、サーバ20は、総コストが小さいことを優先条件として、予め規定された数のパスを出力する(ステップS3)。
サーバ20は、また、例えば、24時間毎等、定期的に既知語についての文書ベクトルの生成及び更新を行っている。具体的には、サーバ20は、既知語をクエリとして検索サーバ50に検索結果を要求し、検索結果を取得する(図14のステップS11)。ステップS11は、既知語検索結果要求ステップの一例である。続いて、サーバ20は、上位Kページについて、タイトルとスニペットからクエリ以外のターム(語)を抽出し(ステップS12)、各タームに重み付けを行い、文書ベクトルを生成する(ステップS13)。ステップS12及びステップS13は、既知語文書ベクトル算出ステップの一例である。続いて、サーバ20は、既知語と、その文書ベクトルを関連付けて、単語辞書DB140に記憶する(ステップS14)。ステップS14は、既知語文書ベクトル関連付けステップの一例である。
(Server operation example)
First, the
The
ここで、上述のステップS2について図15及び図16を使用して説明する。
まず、サーバ20は、始点から始まる語(後続語)を単語辞書DB140から検索する(図15のステップS101)。続いて、始点が文末に来たか否かを判断し(ステップS102)、始点が文末に来ていないと判断した場合には、ステップS101及びステップS102を繰り返す。これに対して、ステップS102において、始点が文末に来たと判断した場合には、各始点から始まる語が単語辞書DB140から検索されたか否かを判断する(ステップS103)。ステップS103において、語が検索されたと判断した場合には、後続語に既知語の品詞とコストを関連付ける(ステップS104)。これに対して、ステップS103において、語が検索されないと判断した場合には、未定義語処理をする(ステップS104A)。
Here, the above-described step S2 will be described with reference to FIGS.
First, the
未定義後処理(ステップS104A)の詳細を、図16を使用して説明する。
まず、サーバ20は、未定義語をクエリとして検索サーバ50に検索結果を要求し、検索結果を取得する(図16のステップS201)。ステップS201は、検索結果要求ステップの一例である。続いて、検索結果の上位Kページについて、タイトルとスニペットからクエリ以外の語を抽出し(ステップS202)、各語に重み付けを行い、上位Kページを1文書として文書ベクトルを生成する(ステップS203)。ステップS202及び
ステップS203は、文書ベクトル算出ステップの一例である。続いて、クエリとして未定義語の文書ベクトルと、単語辞書DB140に記憶されたすべての既知語の文書ベクトルとの類似度を算出する(ステップS204)。ステップS204は、類似度算出ステップの一例である。続いて、クエリとした未定義語に対して、その未定義語についての文書ベクトルと類似度が最も高い既知語を類似語として特定する(ステップS205)。ステップS205は、類似語特定ステップの一例である。続いて、サーバ20は、クエリとした未定義語に対して、その類似語の品詞とコストを関連付ける(ステップS206)。ステップS206は、属性付与ステップの一例である。
Details of the undefined post-processing (step S104A) will be described with reference to FIG.
First, the
ステップS104またはステップS104Aに続いて、始点で終わる語(先行語)と後続語が連接可能かを判断する(ステップS105)。なお、文末位置で終わっている語については、文末との連接が可能か否かを判断する。ステップS105において、連接可能であると判断した場合には、先行語と後続語との間にリンクを張る(ステップS106)。ステップS105において、連接可能であると判断しなかった場合には、その後続語は排除する(ステップS106A)。 Following step S104 or step S104A, it is determined whether the word ending at the start point (preceding word) and the succeeding word can be connected (step S105). For words ending at the end of the sentence, it is determined whether or not connection with the end of the sentence is possible. If it is determined in step S105 that the connection is possible, a link is established between the preceding word and the succeeding word (step S106). If it is not determined in step S105 that the connection is possible, the subsequent word is excluded (step S106A).
上述のように、サーバ20は、未定義語については、類似語の品詞及びコストを付与することができる。このため、未定義語が存在する場合であっても、適切な形態素解析結果を得ることができる。
As described above, the
[変形例]
次に、上述の第1実施例の変形例を説明する。
図17は、第1実施例の変形例の説明図である。
[Modification]
Next, a modification of the first embodiment will be described.
FIG. 17 is an explanatory diagram of a modification of the first embodiment.
変形例においては、サーバ20の類似語特定部128(図3参照)において、類似語を特定するための類似度の閾値tが設定されている。例えば、図17に示すように、「スタンばる」という語について、文書ベクトル生成部124(図3参照)が、文書ベクトルaを生成するとする。類似度算出部126は、未定義語の「スタンばる」と既知語の「スタンバイ」、「待機する」、「待つ」等の語との類似度を算出する。類似語特定部128は、類似度が、閾値tよりも大きい語を、類似語として特定する。例えば、「スタンバイ」の類似度x1、「待機する」の類似度x2及び「待つ」の類似度x3が、閾値tよりも大きい場合には、これら3語を類似語として特定するようになっている。
In the modification, a similarity threshold t for specifying a similar word is set in the similar word specifying unit 128 (see FIG. 3) of the
これにより、未定義語に複数種類の品詞及びコストを関連付けることができる。このため、入力された文字列の文頭から文末までについて、例えば、総コストの低い順に形態素解析結果を出力する場合において、未定義語の多義も考慮に入れて、より適切に複数のパス(経路)を出力することができる。 Thereby, a plurality of types of parts of speech and costs can be associated with undefined words. For this reason, for example, when outputting the morphological analysis results from the beginning to the end of the input character string in the order of the lowest total cost, more appropriate multiple paths (paths) are taken into consideration of the ambiguity of undefined words. ) Can be output.
[第2実施例]
次に、第1実施例との相違を中心に、第2実施例を説明する。
図18は、第2実施例の説明図である。
[Second Embodiment]
Next, the second embodiment will be described focusing on the differences from the first embodiment.
FIG. 18 is an explanatory diagram of the second embodiment.
図18(a)に示すように、第2実施例においては、サーバ20の単語辞書DB140には、単語の文書ベクトルに加えて、「グループ」の文書ベクトルが記憶されている。「グループ」とは、例えば、「スタンバイ」、「待機する」、「待つ」という互いに類似する概念を有する語の集合を意味し、「クラスタ」とも呼ぶ。既知語文書ベクトル算出部104は、各既知語の文書ベクトルに加えて、各既知語の類似度が所定範囲である語によるグループを構成し、各グループ(クラスタ)の文書ベクトルを算出する。グループの文書ベクトルは、グループを構成する各語の文書ベクトルの和として算出される。具体的には、既知語文書ベクトル算出部104はグループの文書ベクトルを式3を使用して算出する。
既知語文書ベクトル算出部104は、グループ文書ベクトル生成手段でもある。そして、グループ及びグループの文書ベクトルは、単語辞書DB140に記憶される。単語辞書DB140は、グループ文書ベクトル記憶手段の一例でもある。
The known word document
文書ベクトル生成部124(図3参照)が、図18(b)に示すように、未定義語「スタンばる」についての文書ベクトルaを生成するとする。類似度算出部126は、式4を使用して、未定義語の「スタンばる」と既知語のグループの文書ベクトルとの類似度を算出する。
類似語特定部128は、類似度が最も高いグループを、類似語として特定するようになっている。
The similar
以上のように、第2実施例のサーバ20は、1つの語の品詞及びコストではなくて、グループの品詞及びコストを未定義語に関連付けるから、未定義語対して、一層妥当な品詞及びコストを関連付けることができる。
As described above, the
(プログラム及びコンピュータ読み取り可能な記録媒体等について)
コンピュータに上述の動作例の既知語検索結果要求ステップと、既知語文書ベクトル算出ステップと、既知語文書ベクトル関連付けステップと、検索結果要求ステップと、文書ベクトル算出ステップと、類似度算出ステップと、類似語特定ステップと、属性付与ステップと、分割ステップ等を実行させるためのサーバの制御プログラムとすることができる。
(About programs and computer-readable recording media)
In the computer, a known word search result request step, a known word document vector calculation step, a known word document vector association step, a search result request step, a document vector calculation step, a similarity calculation step, and a similarity A server control program for executing the word specifying step, the attribute assigning step, the dividing step, and the like can be provided.
これらサーバの制御プログラム等をコンピュータにインストールし、コンピュータによって実行可能な状態とするために用いられるプログラム格納媒体は、例えばフロッピー(登録商標)のようなフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、CD−R(Compact Disc−Recordable)、CD−RW(Compact Disc−Rewriterble)、DVD(Digital Versatile Disc)等のパッケージメディアのみならず、プログラムが一時的若しくは永続的に格納される半導体メモリ、磁気ディスクあるいは光磁気ディスク等で実現することができる。 A program storage medium used for installing these server control programs in a computer and making them executable by the computer is, for example, a floppy disk such as a floppy (registered trademark), a CD-ROM (Compact Disc Read Only Memory). ), CD-R (Compact Disc-Recordable), CD-RW (Compact Disc-Rewriterable), DVD (Digital Versatile Disc), etc., as well as semiconductor memory in which programs are temporarily or permanently stored, It can be realized by a magnetic disk or a magneto-optical disk.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
10 形態素解析システム
20 形態素解析サーバ
50 検索サーバ
100 既知語文書ベクトル生成部
102 既知語検索結果要求部
104 既知語文書ベクトル算出部
106 既知語文書ベクトル関連付け部
110 文字列受付部
112 単語分割部
114 ベストパス探索部
116 アプリケーション部
120 単語クラスタリング部
122 検索結果要求部
124 文書ベクトル生成部
126 類似度算出部
128 類似語特定部
130 属性付与部
140 単語辞書DB
142 連接可能性辞書DB
DESCRIPTION OF
142 Connection possibility dictionary DB
Claims (4)
隣接する前記単語間が文法的に接続することができる条件を記憶している連接可能性辞書記憶手段と、
入力された文字列を前記単語辞書記憶手段及び前記連接可能性辞書記憶手段を参照して、前記文字列を所定の単語単位に分割する分割手段と、
を有する形態素解析装置であって、
さらに、
前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求手段と、
各前記既知語についての検索結果の全部または一部を1文書として、当該1文書に対する出現単語の、当該1文書及び予め記憶された複数の文書データを参照して算出された重要度、を成分とするベクトルである文書ベクトルを算出する既知語文書ベクトル算出手段と、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付け手段と、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求手段と、
前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出手段と、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出手段と、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定手段と、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与手段と、
を有し、
前記分割手段は、前記属性付与手段によって前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単語単位に分割する構成となっていることを特徴とする形態素解析装置。 A word dictionary storage means for storing a plurality of Japanese words in a state where parts of speech and costs are associated with each other;
A concatenation possibility dictionary storage means for storing conditions that allow grammatical connection between adjacent words;
Dividing means for dividing the character string into predetermined word units with reference to the word dictionary storage means and the connectability dictionary storage means for the input character string;
A morphological analyzer having
further,
Known word search result requesting means for requesting a search result to an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition;
Using all or part of the search results for each of the known words as one document , the degree of importance calculated with reference to the one document and a plurality of pre-stored document data of words appearing in the one document A known word document vector calculation means for calculating a document vector which is a vector
A known word document vector associating means for associating a document vector generated for the known word with the known word;
When an undefined word that is not a word stored in the word dictionary storage means exists in the character string, a search result is requested from an internal or external search device using the undefined word as a search condition. Search result request means;
A document vector calculation means for calculating a document vector using all or part of the search results as one document;
Similarity calculation means for calculating the similarity between the document vector of the undefined word and the document vector of the known word;
A similar word specifying means for specifying a similar word that is the known word corresponding to a document vector having a high similarity;
Attribute assigning means for associating the part of speech and cost of the similar word with the undefined word;
Have
The dividing means is configured to divide the inputted character string into the word units by using the part of speech and the cost associated with the undefined word by the attribute assigning means. apparatus.
各前記既知語についての検索結果の全部または一部を1文書として、当該1文書に対する出現単語の、当該1文書及び予め記憶された複数の文書データを参照して算出された重要度、を成分とするベクトルである文書ベクトルを算出する既知語文書ベクトル算出ステップと、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、
前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出ステップと、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、
前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単語単位に分割する分割ステップと、
を有することを特徴とする形態素解析方法。 Possibility of connection that stores a word dictionary storage means that stores a plurality of Japanese words in a state in which parts of speech and costs are associated with each other, and a condition that allows grammatical connection between adjacent words A morpheme analyzer comprising: a dictionary storage unit; and a dividing unit that divides the character string into predetermined word units with reference to the word dictionary storage unit and the connectability dictionary storage unit with respect to the input character string. A known word search result requesting step for requesting a search result to an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition;
Using all or part of the search results for each of the known words as one document , the degree of importance calculated with reference to the one document and a plurality of pre-stored document data of words appearing in the one document A known word document vector calculation step for calculating a document vector which is a vector
A known word document vector associating step for associating a document vector generated for the known word with the known word;
When an undefined word that is not a word stored in the word dictionary storage means exists in the character string, a search result is requested from an internal or external search device using the undefined word as a search condition. A search result request step;
A document vector calculation step of calculating a document vector by using all or part of the search results as one document;
A similarity calculation step of calculating a similarity between the document vector of the undefined word and the document vector of the known word;
A similar word specifying step of specifying a similar word that is the known word corresponding to a document vector having a high similarity;
An attribute assignment step for associating the part of speech and cost of the similar word with the undefined word;
A division step of dividing the input character string into the word units using the part of speech and cost associated with the undefined word in the attribute assignment step;
A morphological analysis method characterized by comprising:
前記単語辞書記憶手段に記憶されている前記単語である既知語を検索条件として内部または外部の検索装置に検索結果を要求する既知語検索結果要求ステップと、
各前記既知語についての検索結果の全部または一部を1文書として、当該1文書に対する出現単語の、当該1文書及び予め記憶された複数の文書データを参照して算出された重要度、を成分とするベクトルである文書ベクトルを算出する既知語文書ベクトル算出ステップと、
前記既知語について生成した文書ベクトルを前記既知語に関連付ける既知語文書ベクトル関連付けステップと、
前記文字列の中に、前記単語辞書記憶手段に記憶されていない語である未定義語が存在する場合には、前記未定義語を検索条件として内部または外部の検索装置に検索結果を要求する検索結果要求ステップと、
前記検索結果の全部または一部を1文書として文書ベクトルを算出する文書ベクトル算出ステップと、
前記未定義語の文書ベクトルと、前記既知語の文書ベクトルの類似度を算出する類似度算出ステップと、
前記類似度が高い文書ベクトルに対応する前記既知語である類似語を特定する類似語特定ステップと、
前記類似語の品詞及びコストを前記未定義語に関連付ける属性付与ステップと、
前記属性付与ステップにおいて前記未定義語に関連付けられた品詞及びコストを使用して、入力された文字列を前記単語単位に分割する分割ステップと、
を実行させるための形態素解析プログラム。 A plurality of word Japanese language, the word dictionary storage means for storing in a state of associating the parts of speech and cost, respectively, articulatable that between the adjacent words stores a condition that can be grammatically connected Morphological analyzer having sex dictionary storage means and dividing means for dividing the character string into predetermined word units with reference to the word dictionary storage means and the connectability dictionary storage means for the input character string In addition ,
A known word search result requesting step for requesting a search result to an internal or external search device using a known word that is the word stored in the word dictionary storage means as a search condition;
Using all or part of the search results for each of the known words as one document , the degree of importance calculated with reference to the one document and a plurality of pre-stored document data of words appearing in the one document A known word document vector calculation step for calculating a document vector which is a vector
A known word document vector associating step for associating a document vector generated for the known word with the known word;
When an undefined word that is not a word stored in the word dictionary storage means exists in the character string, a search result is requested from an internal or external search device using the undefined word as a search condition. A search result request step;
A document vector calculation step of calculating a document vector by using all or part of the search results as one document;
A similarity calculation step of calculating a similarity between the document vector of the undefined word and the document vector of the known word;
A similar word specifying step of specifying a similar word that is the known word corresponding to a document vector having a high similarity;
An attribute assignment step for associating the part of speech and cost of the similar word with the undefined word;
A division step of dividing the input character string into the word units using the part of speech and cost associated with the undefined word in the attribute assignment step;
A morphological analysis program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007119982A JP4953440B2 (en) | 2007-04-27 | 2007-04-27 | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007119982A JP4953440B2 (en) | 2007-04-27 | 2007-04-27 | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008276561A JP2008276561A (en) | 2008-11-13 |
JP2008276561A5 JP2008276561A5 (en) | 2009-05-14 |
JP4953440B2 true JP4953440B2 (en) | 2012-06-13 |
Family
ID=40054428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007119982A Expired - Fee Related JP4953440B2 (en) | 2007-04-27 | 2007-04-27 | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4953440B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772514B2 (en) * | 2011-10-31 | 2015-09-02 | 富士通株式会社 | Morphological analyzer, method, program, speech synthesizer, method, program |
JP5697648B2 (en) * | 2012-11-27 | 2015-04-08 | ヤフー株式会社 | Word division device, data structure of word division dictionary, word division method, and program |
JP5693552B2 (en) * | 2012-12-18 | 2015-04-01 | ヤフー株式会社 | Dictionary registration device, word division device, dictionary registration method, word division method, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309174B2 (en) * | 1995-05-15 | 2002-07-29 | 日本電信電話株式会社 | Character recognition method and device |
JP2005326952A (en) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for word registration in concept dictionary, and program |
-
2007
- 2007-04-27 JP JP2007119982A patent/JP4953440B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008276561A (en) | 2008-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shoufan et al. | Natural language processing for dialectical Arabic: A survey | |
JP2007257644A (en) | Program, method and apparatus for acquiring translated word based on translated word candidate character string prediction | |
KR20100047221A (en) | Dictionary word and phrase determination | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP2007334894A (en) | Visualization within context of source document for annotation of document | |
JPH11110416A (en) | Method and device for retrieving document from data base | |
JPWO2009066501A1 (en) | Information retrieval method and apparatus, program, and computer-readable recording medium | |
JP6705318B2 (en) | Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program | |
JP2007257390A (en) | System for extracting new compound word | |
CN100524293C (en) | Method and system for obtaining word pair translation from bilingual sentence | |
JP2009026100A (en) | Technology for selecting appropriate text to be processed | |
JP2007241764A (en) | Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable recording medium on which syntax analysis program is recorded | |
JP2014120053A (en) | Question answering device, method, and program | |
US20040186706A1 (en) | Translation system, dictionary updating server, translation method, and program and recording medium for use therein | |
Sawalha et al. | Fine-grain morphological analyzer and part-of-speech tagger for Arabic text | |
Radoev et al. | A language adaptive method for question answering on French and English | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
JP4900947B2 (en) | Abbreviation extraction method, abbreviation extraction apparatus, and program | |
JP7305566B2 (en) | Information processing device, information processing system, and information processing program | |
JP2007072646A (en) | Retrieval device, retrieval method, and program therefor | |
JP2008077252A (en) | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium | |
JP5285491B2 (en) | Information retrieval system, method and program, index creation system, method and program, | |
JPWO2009113289A1 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4953440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150323 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |