JP2010003182A - Device and method for generating character string, character string generating program, and computer-readable recording medium with the character string generating program recorded thereon - Google Patents
Device and method for generating character string, character string generating program, and computer-readable recording medium with the character string generating program recorded thereon Download PDFInfo
- Publication number
- JP2010003182A JP2010003182A JP2008162463A JP2008162463A JP2010003182A JP 2010003182 A JP2010003182 A JP 2010003182A JP 2008162463 A JP2008162463 A JP 2008162463A JP 2008162463 A JP2008162463 A JP 2008162463A JP 2010003182 A JP2010003182 A JP 2010003182A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- candidate
- recognition
- character
- candidate character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000011156 evaluation Methods 0.000 claims abstract description 134
- 238000004364 calculation method Methods 0.000 claims description 66
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 description 44
- 230000008569 process Effects 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 13
- 238000009825 accumulation Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 241000736839 Chara Species 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241001122767 Theaceae Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 241000219995 Wisteria Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
本発明は、文字列を含む画像から文字を認識する文字列生成装置及び方法、並びに、文字列生成プログラム及びその文字列生成プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to a character string generation apparatus and method for recognizing characters from an image including a character string, a character string generation program, and a computer-readable recording medium on which the character string generation program is recorded.
現在、PC、PDA、携帯電話等の機器の多くが、光学文字読取技術(Optical Character Reader)(以下、「OCR」という。)を搭載している。これらの機器に搭載されるOCRには、読み取った画像からキーワードを取り出す機能が必要となる場合がある。例えば、認識対象の画像からキーワードを取り出して画像に付与し、そのキーワードを画像の検索に利用する場合や、認識結果として得られた文字列を分類する判定の根拠としてキーワードの有無を利用する場合等である。 Currently, many devices such as a PC, a PDA, and a mobile phone are equipped with an optical character reader (hereinafter referred to as “OCR”). OCR installed in these devices may require a function of extracting a keyword from a read image. For example, when a keyword is extracted from an image to be recognized and assigned to the image, and the keyword is used for image search, or when the presence / absence of a keyword is used as a basis for classification of character strings obtained as recognition results Etc.
画像からキーワードを取り出す技術として、例えば、特許文献1〜3に開示されたものがある。特許文献1〜3に開示されたキーワード抽出・検索装置においては、あらかじめ用意されたキーワードリストと、画像を認識して得られた文字列から取り出したキーワード候補とを比較し、その比較結果に基づいて画像に含まれるキーワードをキーワード候補の中から特定するものである。このキーワード抽出・検索装置は、文字認識結果から多数のキーワード候補を取り出し、キーワード候補の各々の信頼度(類似度)に基づいて、それらの中から使用すべきキーワードを決定する。
一般に、画像情報から認識される文字認識結果を構成する文字数Nは以下の式で表わされる。 In general, the number N of characters constituting the character recognition result recognized from the image information is expressed by the following equation.
N=認識対象文字列の文字数×認識候補順位数
例えば、紙文書から読み出された画像情報中の認識対象文字列の文字数が3個、認識文字列の認識候補順位数が第1位〜第4位までの4個である場合、文字認識結果を構成する文字数Nは3×4=12個である。
N = number of characters in the recognition target character string × number of recognition candidate ranks For example, the number of recognition target character strings in the image information read from the paper document is three, and the recognition character string recognition rank numbers are from first to first. In the case of four characters up to the fourth place, the number N of characters constituting the character recognition result is 3 × 4 = 12.
しかしながら、画像情報から認識される文字列の中からキーワードの有無を調べる際、単に文字認識結果の認識候補順位毎に調べるだけでは十分とは言えない。認識対象文字列の中で隣接する文字同士においては、互いに異なる認識候補順位の文字列に含まれる文字間においてもキーワードが構成されないかを調べることが必要である。 However, when examining the presence or absence of a keyword from a character string recognized from image information, it is not sufficient to simply check for each recognition candidate rank of a character recognition result. It is necessary to check whether a keyword is formed between characters included in character strings having different recognition candidate ranks between adjacent characters in the recognition target character string.
したがって、上記の文字認識結果の例では、単純計算では、43=64個の文字の組み合わせについてキーワードの有無を調べなければならない。つまり、認識候補順位数をmとし、認識対象文字列の文字数をnとすれば、mnの組み合わせのすべてが調査対象となる。さらに、認識対象文字列の文字数未満の字数を持つキーワードも調査対象とする場合では、その組み合わせ数Sは以下の式で表わされることになる。 Therefore, in the example of the character recognition result described above, it is necessary to check whether or not there is a keyword for a combination of 4 3 = 64 characters in a simple calculation. In other words, if the number of recognition candidate ranks is m and the number of characters in the recognition target character string is n, all combinations of m n are to be investigated. Further, when a keyword having a number of characters less than the number of characters in the recognition target character string is also to be investigated, the number of combinations S is expressed by the following expression.
例えば、認識対象文字列の文字数が3個、認識候補順位数が第1位〜第5位までの5個である場合、S=215通りの組み合わせがあることになる。また、認識対象文字列の文字数が3個、認識候補順位数が第1位〜第10位までの10個である場合、S=1330通りとなる。 For example, when the number of characters in the recognition target character string is three and the number of recognition candidate ranks is five from first to fifth, there are S = 215 combinations. When the number of characters in the recognition target character string is three and the number of recognition candidate ranks is ten from the first to the tenth, S = 1330.
このため、特許文献1〜3に開示されたキーワード抽出・検索装置において、これら組み合わせのすべてからキーワード候補を抽出し、あらかじめ用意されたキーワード辞書との照合を行うとした場合には、上記のように文字の組み合わせが非常に多くなると、その照合に要する計算量は増大し、その結果、文字認識結果中におけるキーワードの有無の判定に要する時間が増大する問題点がある。
Therefore, in the keyword extraction / search apparatus disclosed in
一方、文字認識結果中の文字について各分野の頻度情報を保持しておき、単純に候補文字中で最も頻度が高い文字を取り出し、それらを結合して文字列を作成した後に、キーワード辞書中のキーワードの有無を調べる方法も考えられる。 On the other hand, the frequency information of each field is retained for the characters in the character recognition result, and the character with the highest frequency is simply extracted from the candidate characters and combined to create a character string. A method for checking the presence or absence of keywords is also conceivable.
しかしながら、この方法の場合、認識対象文字列との類似度、すなわち、文字の形状としての近さが考慮されていないため、キーワードと一致する可能性が低下する問題点がある。 However, in the case of this method, since the similarity with the recognition target character string, that is, the proximity as the character shape is not considered, there is a problem that the possibility of matching with the keyword is lowered.
上記問題点に鑑み、本発明の目的は、少ない計算量で文字認識の精度を高めることができる文字列生成装置及び方法、並びに、文字列生成プログラム及びその文字列生成プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することにある。 In view of the above problems, an object of the present invention is to provide a character string generation device and method capable of increasing the accuracy of character recognition with a small amount of calculation, a character string generation program, and a computer readable recording of the character string generation program Is to provide a simple recording medium.
上記目的を達成するために、本発明にかかる文字列生成装置は、認識対象となる認識対象文字から構成される認識対象文字列に含まれる前記認識対象文字と、当該認識対象文字の認識結果の候補である複数の候補文字との間の類似度を用いて文字認識を行う文字列生成装置であって、1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、前記類似度と、複数設定された所定の概念のうちの1つを表現する場合にその候補文字が使用される頻度または前記候補文字と前記所定の概念のうちの1つとの関連性の程度を表す関連度とを用いて、前記認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、前記所定の概念ごとに算出する算出手段と、前記算出手段により算出された、前記所定の概念ごとの評価値を用いて、前記各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を結合することによって、前記認識対象文字列の認識結果の候補である候補文字列を、前記所定の概念ごとに生成する文字列結合手段と、前記文字列結合手段が生成した候補文字列の中から、前記認識対象文字列の認識結果となる認識結果文字列を決定する決定手段とを備えることを特徴とする。 In order to achieve the above object, a character string generation device according to the present invention includes a recognition target character included in a recognition target character string including recognition target characters to be recognized, and a recognition result of the recognition target character. A character string generation device that performs character recognition using similarity between a plurality of candidate characters that are candidates, and acquires a candidate character group including one or more candidate characters for each recognition target character, Represents the degree of similarity and the frequency with which a candidate character is used when expressing one of a plurality of predetermined concepts or the degree of relevance between the candidate character and one of the predetermined concepts An evaluation value representing the certainty as a recognition result of the recognition target character using the relevance level, for each candidate character, a calculation unit for calculating the predetermined concept, and the predetermined unit calculated by the calculation unit Concept The candidate character string that is a candidate for the recognition result of the recognition target character string by combining candidate characters selected one by one from the candidate character group corresponding to each recognition target character using the evaluation value A character string combining unit that generates a recognition result character string as a recognition result of the recognition target character string from among candidate character strings generated by the character string combining unit. It is characterized by providing.
上記の文字列生成装置では、算出手段が、類似度と、所定の概念の1つを表現する場合に候補文字が使用される頻度、候補文字と所定の概念のうちの1つとの関連性の程度等を表す関連度とを用いて、認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、所定の概念ごとに算出するので、各候補文字の認識結果としての確からしさを、類似度のみを用いた場合と比べて、向上させることができる。 In the above character string generation device, the calculation means determines the similarity, the frequency with which the candidate character is used when expressing one of the predetermined concepts, and the relationship between the candidate character and one of the predetermined concepts. Since the evaluation value indicating the certainty as the recognition result of the recognition target character is calculated for each predetermined concept using the degree of association representing the degree, etc., the certainty as the recognition result of each candidate character Can be improved as compared with the case where only the similarity is used.
このため、文字列結合手段が、その算出された評価値を用いて候補文字列を所定の概念ごとに生成し、決定手段が、その生成された候補文字列の中から認識結果文字列を決定することにより、認識結果文字列の文字認識の精度を高めることができる。 For this reason, the character string combining unit generates candidate character strings for each predetermined concept using the calculated evaluation value, and the determining unit determines the recognition result character string from the generated candidate character strings. By doing so, the accuracy of character recognition of the recognition result character string can be improved.
さらに、各候補文字の認識結果としての確からしさが向上することにより、従来では必要であった、文字認識の精度向上のためのキーワードとの照合処理を低減することができる。したがって、文字認識の精度を少ない計算量で高めることが可能となる。 Furthermore, by improving the certainty as the recognition result of each candidate character, it is possible to reduce collation processing with a keyword for improving the accuracy of character recognition, which has been conventionally required. Therefore, the accuracy of character recognition can be increased with a small amount of calculation.
前記文字列結合手段は、前記認識対象文字列に含まれる各認識対象文字について、対応する候補文字の群から最高の評価値を有する最高評価候補文字を選択し、選択した最高評価候補文字を結合することにより、前記候補文字列を生成することが好ましい。 The character string combining means selects, for each recognition target character included in the recognition target character string, a highest evaluation candidate character having the highest evaluation value from a group of corresponding candidate characters, and combines the selected highest evaluation candidate characters Thus, it is preferable to generate the candidate character string.
この場合、文字列結合手段が生成する候補文字列に含まれる各候補文字は、各認識対象文字に対応する候補文字の群に含まれる候補文字のうちの最高の評価値を有するものとなる。それゆえ、文字列結合手段が生成する候補文字列の精度を高めることができる。 In this case, each candidate character included in the candidate character string generated by the character string combining unit has the highest evaluation value among the candidate characters included in the group of candidate characters corresponding to each recognition target character. Therefore, the accuracy of the candidate character string generated by the character string combining means can be improved.
前記決定手段は、前記文字列結合手段が生成した候補文字列に含まれる各候補文字が有する前記評価値を当該候補文字列ごとに加算し、当該評価値の合計を用いて、前記認識結果文字列を決定することが好ましい。 The determination unit adds the evaluation value of each candidate character included in the candidate character string generated by the character string combination unit for each candidate character string, and uses the total of the evaluation values to determine the recognition result character Preferably the column is determined.
この場合、決定手段は各候補文字の評価値を候補文字列ごとに加算するだけで認識結果文字列を決定できるので、決定手段による認識結果文字列の決定を効率よく行うことができる。 In this case, since the determining means can determine the recognition result character string only by adding the evaluation value of each candidate character for each candidate character string, the determining means can efficiently determine the recognition result character string.
前記算出手段は、前記関連度または前記類似度に対して重み付けを行った後に、当該関連度と当該類似度とを加算することにより前記評価値を算出することが好ましい。 It is preferable that the calculation means calculates the evaluation value by weighting the relevance or the similarity and then adding the relevance and the similarity.
この場合、関連度及び類似度のいずれも評価値の算出に寄与させることができるので、各候補文字の評価値の精度を高めることができる。 In this case, since both the relevance level and the similarity level can contribute to the calculation of the evaluation value, the accuracy of the evaluation value of each candidate character can be increased.
前記算出手段は、前記所定の概念のうち、どの所定の概念についての関連度を、前記評価値の算出のために用いればよいかを示すユーザからの指示を取得し、当該取得された関連度を用いて前記評価値を算出することが好ましい。 The calculation means acquires an instruction from a user indicating which predetermined concept of the predetermined concepts should be used for calculating the evaluation value, and the acquired related degree It is preferable to calculate the evaluation value using.
この場合、評価値の算出のために用いる関連度をユーザからの指示に基づいて取得することができるので、その関連度を用いて評価値を算出することにより、算出される評価値の精度を向上させることができる。 In this case, since the degree of association used for calculating the evaluation value can be acquired based on an instruction from the user, the accuracy of the calculated evaluation value can be increased by calculating the evaluation value using the degree of association. Can be improved.
前記所定の概念のいずれかと関連性を有するキーワードを格納するキーワード辞書と、前記文字列結合手段が生成した候補文字列と、前記キーワード辞書に格納されているキーワードとを照合することにより、両者が一致するかどうかを判定する照合手段とをさらに備え、前記決定手段は、前記照合手段の判定結果を用いて前記認識結果文字列を決定することが好ましい。 By collating a keyword dictionary that stores keywords having relevance with any of the predetermined concepts, a candidate character string generated by the character string combining unit, and a keyword stored in the keyword dictionary, It is preferable that the information processing apparatus further includes a collating unit that determines whether or not they match, and the determining unit determines the recognition result character string using a determination result of the collating unit.
この場合、照合手段が、候補文字列とキーワード辞書に格納されているキーワードとを照合することにより、両者が一致するかどうかを判定し、決定手段が、その判定結果を用いて認識結果文字列を決定する。このため、例えば、両者が一致する場合のみ、決定手段が、認識結果文字列を決定することにより、キーワードとして存在しない認識結果文字列を決定することがなくなり、認識結果文字列の精度を向上させることができる。 In this case, the collating unit collates the candidate character string with the keyword stored in the keyword dictionary to determine whether or not they match, and the determining unit uses the determination result to determine the recognition result character string. To decide. For this reason, for example, only when the two match, the determining means determines the recognition result character string, so that the recognition result character string that does not exist as a keyword is not determined, and the accuracy of the recognition result character string is improved. be able to.
前記キーワードは、前記所定の概念ごとに分類されており、前記照合手段は、所定の規則に従って、前記候補文字列と照合するキーワードが属する所定の概念を選択し、選択した所定の概念に属するキーワードと前記候補文字列とを照合することが好ましい。 The keywords are classified for each of the predetermined concepts, and the collating unit selects a predetermined concept to which the keyword to be collated with the candidate character string belongs according to a predetermined rule, and the keywords belonging to the selected predetermined concept And the candidate character string are preferably collated.
この場合、候補文字列と照合するキーワードが属する所定の概念の選択を効率よく行うことができるので、キーワードと候補文字列との照合回数を減らすことができる。 In this case, since the predetermined concept to which the keyword to be matched with the candidate character string belongs can be selected efficiently, the number of matching times between the keyword and the candidate character string can be reduced.
前記候補文字列と前記キーワードとが所定の条件の範囲内で部分的に異なっていると前記照合手段が判定した場合に、前記キーワードと一致しない候補文字を、当該候補文字を含む候補文字群が有する他の候補文字に置換する置換手段をさらに備え、前記決定手段は、前記置換手段が生成した候補文字列を、前記認識結果文字列の候補に加えることが好ましい。 When the collating unit determines that the candidate character string and the keyword are partially different within a predetermined condition range, a candidate character group including the candidate character is selected as a candidate character that does not match the keyword. It is preferable that the image forming apparatus further includes a replacement unit that replaces the candidate character with another candidate character, and the determination unit adds the candidate character string generated by the replacement unit to the recognition result character string candidate.
この場合、候補文字列とキーワードとが部分的に異なっている場合でも、置換手段が、キーワードと一致しない候補文字を他の候補文字に置換し、決定手段が、置換手段が生成した候補文字列を認識結果文字列の候補に加えるので、認識結果文字列の候補の生成を効率よく行うことができる。 In this case, even when the candidate character string and the keyword are partially different, the replacement unit replaces the candidate character that does not match the keyword with another candidate character, and the determination unit generates the candidate character string generated by the replacement unit. Is added to the recognition result character string candidate, so that the recognition result character string candidate can be efficiently generated.
前記照合手段が、前記候補文字列と前記キーワードとが一致しないと判定した場合に、当該候補文字列が複数のキーワードの組み合わせによって構成されているかどうかを判定するキーワード解析手段をさらに備え、前記照合手段は、前記候補文字列が複数のキーワードの組み合わせによって構成されていると前記キーワード解析手段が判定した場合に、当該キーワードの組み合わせと前記候補文字列とを照合することが好ましい。 When the collation unit determines that the candidate character string and the keyword do not match, the collation unit further includes a keyword analysis unit that determines whether the candidate character string includes a combination of a plurality of keywords. Preferably, the means collates the keyword combination with the candidate character string when the keyword analyzing means determines that the candidate character string is composed of a plurality of keyword combinations.
この場合、候補文字列とキーワードとが一致しない場合でも、キーワード解析手段が、候補文字列が複数のキーワードの組み合わせによって構成されているかどうかを判定し、照合手段が、そのキーワードの組み合わせと前記候補文字列とを照合する。このため、候補文字列が複数のキーワードの組み合わせによって構成されている場合でも、その候補文字列とキーワードとの照合を行うことができる。 In this case, even when the candidate character string and the keyword do not match, the keyword analysis means determines whether the candidate character string is composed of a combination of a plurality of keywords, and the matching means determines that the keyword combination and the candidate Matches against a string. For this reason, even when a candidate character string is composed of a combination of a plurality of keywords, the candidate character string and the keyword can be collated.
前記キーワード解析手段は、前記照合手段が、前記候補文字列と前記キーワードとが一致しないと判定した場合に、当該候補文字列が属する所定の概念と関連性の高いキーワードと、当該候補文字列とを照合することにより、当該候補文字列が複数のキーワードの組み合わせによって構成されているかどうかを判定することが好ましい。 The keyword analysis means, when the matching means determines that the candidate character string and the keyword do not match, the keyword highly relevant to the predetermined concept to which the candidate character string belongs, and the candidate character string It is preferable to determine whether or not the candidate character string is composed of a combination of a plurality of keywords.
この場合、候補文字列と照合するキーワードが属する所定の概念の選択を効率よく行うことができるので、キーワードと候補文字列との照合回数を減らすことができる。 In this case, since the predetermined concept to which the keyword to be matched with the candidate character string belongs can be selected efficiently, the number of matching times between the keyword and the candidate character string can be reduced.
前記キーワード解析手段は、前記照合手段が、当該候補文字列が属する所定の概念と関連性の高いキーワードと、当該候補文字列とが一致しないと判定した場合に、当該候補文字列が属する所定の概念とは異なる所定の概念と関連性の高いキーワードと、当該候補文字列とを照合することにより、当該候補文字列が複数のキーワードの組み合わせによって構成されているかどうかを判定することが好ましい。 The keyword analysis unit determines that the candidate character string to which the candidate character string belongs when the matching unit determines that the keyword highly relevant to the predetermined concept to which the candidate character string belongs does not match the candidate character string. It is preferable to determine whether or not the candidate character string is composed of a combination of a plurality of keywords by comparing the candidate character string with a keyword highly relevant to a predetermined concept different from the concept.
この場合、候補文字列が属する所定の概念と関連性の高いキーワードと、候補文字列とが一致しないと判定された場合でも、候補文字列が属する所定の概念とは異なる所定の概念と関連性の高いキーワードと照合することにより、候補文字列が複数のキーワードの組み合わせによって構成されているかどうかを判定することができる。 In this case, even when it is determined that the keyword that is highly relevant to the predetermined concept to which the candidate character string belongs does not match the candidate character string, the predetermined concept and the relevance different from the predetermined concept to which the candidate character string belongs. It is possible to determine whether or not the candidate character string is composed of a combination of a plurality of keywords by collating with a high keyword.
前記キーワード解析手段は、前記候補文字列が複数のキーワードの組み合わせによって構成されていると判定した場合、前記照合手段が前記キーワードの組み合わせと前記候補文字列とを照合した照合結果に基づいて、前記候補文字列の確からしさを表わす確度情報を当該候補文字列に付与し、前記決定手段は、前記候補文字列に付加された確度情報を用いて前記認識結果文字列を決定することが好ましい。 When the keyword analyzing unit determines that the candidate character string is configured by a combination of a plurality of keywords, the matching unit is based on a matching result obtained by matching the keyword combination with the candidate character string. It is preferable that accuracy information indicating the probability of the candidate character string is given to the candidate character string, and the determination unit determines the recognition result character string using the accuracy information added to the candidate character string.
この場合、キーワード解析手段が、候補文字列が複数のキーワードの組み合わせによって構成されていると判定した場合に、照合手段がキーワードの組み合わせと候補文字列とを照合した照合結果に基づいて、候補文字列の確からしさを表わす確度情報を候補文字列に付与する。このため、決定手段が、候補文字列に付加された確度情報を用いて認識結果文字列を決定することができるので、決定手段が決定する認識結果文字列の精度を向上させることができる。 In this case, when the keyword analysis unit determines that the candidate character string is configured by a combination of a plurality of keywords, the matching unit compares the candidate character string with the candidate character string based on the matching result obtained by matching the keyword combination with the candidate character string. The accuracy information indicating the likelihood of the column is given to the candidate character string. For this reason, since the determination means can determine the recognition result character string using the accuracy information added to the candidate character string, the accuracy of the recognition result character string determined by the determination means can be improved.
本発明にかかる文字列生成プログラムは、上記の文字列生成装置の上記各手段としてコンピュータを動作させるための文字列生成プログラムである。 A character string generation program according to the present invention is a character string generation program for causing a computer to operate as each means of the character string generation device.
上記の文字列生成プログラムでは、算出手段が、類似度と、所定の概念の1つを表現する場合に候補文字が使用される頻度、候補文字と所定の概念のうちの1つとの関連性の程度等を表す関連度とを用いて、認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、所定の概念ごとに算出するので、各候補文字の認識結果としての確からしさを、類似度のみを用いた場合と比べて、向上させることができる。 In the above-described character string generation program, the calculation means determines the similarity, the frequency with which the candidate character is used when expressing one of the predetermined concepts, and the relationship between the candidate character and one of the predetermined concepts. Since the evaluation value indicating the certainty as the recognition result of the recognition target character is calculated for each predetermined concept using the degree of association representing the degree, etc., the certainty as the recognition result of each candidate character Can be improved as compared with the case where only the similarity is used.
このため、文字列結合手段が、その算出された評価値を用いて候補文字列を所定の概念ごとに生成し、決定手段が、その生成された候補文字列の中から認識結果文字列を決定することにより、認識結果文字列の文字認識の精度を高めることができる。 For this reason, the character string combining unit generates candidate character strings for each predetermined concept using the calculated evaluation value, and the determining unit determines the recognition result character string from the generated candidate character strings. By doing so, the accuracy of character recognition of the recognition result character string can be improved.
さらに、各候補文字の認識結果としての確からしさが向上することにより、従来では必要であった、文字認識の精度向上のためのキーワードとの照合処理を低減することができる。したがって、文字認識の精度を少ない計算量で高めることが可能となる。 Furthermore, by improving the certainty as the recognition result of each candidate character, it is possible to reduce collation processing with a keyword for improving the accuracy of character recognition, which has been conventionally required. Therefore, the accuracy of character recognition can be increased with a small amount of calculation.
本発明にかかるコンピュータ読み取り可能な記録媒体に記録された文字列生成プログラムは、上記の文字列生成装置の上記各手段としてコンピュータを動作させるための文字列生成プログラムである。 A character string generation program recorded on a computer-readable recording medium according to the present invention is a character string generation program for causing a computer to operate as each means of the character string generation device.
上記の文字列生成プログラムでは、算出手段が、類似度と、所定の概念の1つを表現する場合に候補文字が使用される頻度、候補文字と所定の概念のうちの1つとの関連性の程度等を表す関連度とを用いて、認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、所定の概念ごとに算出するので、各候補文字の認識結果としての確からしさを、類似度のみを用いた場合と比べて、向上させることができる。 In the above-described character string generation program, the calculation means determines the similarity, the frequency with which the candidate character is used when expressing one of the predetermined concepts, and the relationship between the candidate character and one of the predetermined concepts. Since the evaluation value indicating the certainty as the recognition result of the recognition target character is calculated for each predetermined concept using the degree of association representing the degree, etc., the certainty as the recognition result of each candidate character Can be improved as compared with the case where only the similarity is used.
このため、文字列結合手段が、その算出された評価値を用いて候補文字列を所定の概念ごとに生成し、決定手段が、その生成された候補文字列の中から認識結果文字列を決定することにより、認識結果文字列の文字認識の精度を高めることができる。 For this reason, the character string combining unit generates candidate character strings for each predetermined concept using the calculated evaluation value, and the determining unit determines the recognition result character string from the generated candidate character strings. By doing so, the accuracy of character recognition of the recognition result character string can be improved.
さらに、各候補文字の認識結果としての確からしさが向上することにより、従来では必要であった、文字認識の精度向上のためのキーワードとの照合処理を低減することができる。したがって、文字認識の精度を少ない計算量で高めることが可能となる。 Furthermore, by improving the certainty as the recognition result of each candidate character, it is possible to reduce collation processing with a keyword for improving the accuracy of character recognition, which has been conventionally required. Therefore, the accuracy of character recognition can be increased with a small amount of calculation.
本発明にかかる文字列生成方法は、認識対象となる認識対象文字から構成される認識対象文字列に含まれる前記認識対象文字と、当該認識対象文字の認識結果の候補である複数の候補文字との間の類似度を用いて文字認識を行う文字列生成方法であって、1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、前記類似度と、複数設定された所定の概念のうちの1つを表現する場合にその候補文字が使用される頻度または前記候補文字と前記所定の概念のうちの1つとの関連性の程度を表す関連度とを用いて、前記認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、前記所定の概念ごとに算出する算出ステップと、前記算出ステップにおいて算出された、前記所定の概念ごとの評価値を用いて、前記各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を結合することによって、前記認識対象文字列の認識結果の候補である候補文字列を、前記所定の概念ごとに生成する文字列結合ステップと、前記文字列結合ステップにおいて生成された候補文字列の中から、前記認識対象文字列の認識結果となる認識結果文字列を決定する決定ステップとを備えることを特徴とする。 The character string generation method according to the present invention includes a recognition target character string included in a recognition target character string including recognition target characters to be recognized, and a plurality of candidate characters that are candidates for recognition results of the recognition target character. A character string generation method that performs character recognition using a similarity between two or more candidate characters composed of one or more candidate characters, acquired for each recognition target character, and a plurality of the similarities are set Using the frequency with which the candidate character is used when expressing one of the predetermined concepts or the degree of association representing the degree of relevance between the candidate character and one of the predetermined concepts, For each candidate character, an evaluation value representing the probability as a recognition result of the recognition target character is calculated for each predetermined concept, and the evaluation value for each predetermined concept calculated in the calculation step is used. By combining candidate characters selected one by one from the candidate character group corresponding to each recognition target character, a candidate character string that is a recognition result candidate of the recognition target character string is converted into the predetermined concept. A character string combining step that is generated every time, and a determination step that determines a recognition result character string that is a recognition result of the recognition target character string from among the candidate character strings generated in the character string combining step. Features.
上記の文字列生成方法では、類似度と、所定の概念の1つを表現する場合に候補文字が使用される頻度、候補文字と所定の概念のうちの1つとの関連性の程度等を表す関連度とを用いて、認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、所定の概念ごとに算出するので、各候補文字の認識結果としての確からしさを、類似度のみを用いた場合と比べて、向上させることができる。 In the above character string generation method, the degree of similarity, the frequency of use of candidate characters when expressing one of the predetermined concepts, the degree of relevance between the candidate character and one of the predetermined concepts, and the like are represented. Since the evaluation value representing the certainty as the recognition result of the recognition target character is calculated for each candidate character for each predetermined concept using the relevance, the certainty as the recognition result of each candidate character Compared with the case of using only, it can be improved.
このため、その算出された評価値を用いて候補文字列を所定の概念ごとに生成し、その生成された候補文字列の中から認識結果文字列を決定することにより、認識結果文字列の文字認識の精度を高めることができる。 For this reason, the character string of the recognition result character string is generated by generating a candidate character string for each predetermined concept using the calculated evaluation value and determining the recognition result character string from the generated candidate character string. Recognition accuracy can be increased.
さらに、各候補文字の認識結果としての確からしさが向上することにより、従来では必要であった、文字認識の精度向上のためのキーワードとの照合処理を低減することができる。したがって、文字認識の精度を少ない計算量で高めることが可能となる。 Furthermore, by improving the certainty as the recognition result of each candidate character, it is possible to reduce collation processing with a keyword for improving the accuracy of character recognition, which has been conventionally required. Therefore, the accuracy of character recognition can be increased with a small amount of calculation.
なお、前記文字列生成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記各部として動作させることにより前記文字列生成装置をコンピュータにて実現させる文字列生成プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The character string generation device may be realized by a computer. In this case, a character string generation program for causing the character string generation device to be realized by a computer by causing the computer to operate as each unit, and A recorded computer-readable recording medium also falls within the scope of the present invention.
本発明にかかる文字列生成装置は、以上のように、1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、前記類似度と、複数設定された所定の概念のうちの1つを表現する場合にその候補文字が使用される頻度または前記候補文字と前記所定の概念のうちの1つとの関連性の程度を表す関連度とを用いて、前記認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、前記所定の概念ごとに算出する算出手段と、前記算出手段により算出された、前記所定の概念ごとの評価値を用いて、前記各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を結合することによって、前記認識対象文字列の認識結果の候補である候補文字列を、前記所定の概念ごとに生成する文字列結合手段と、前記文字列結合手段が生成した候補文字列の中から、前記認識対象文字列の認識結果となる認識結果文字列を決定する決定手段とを備えている。 As described above, the character string generation device according to the present invention acquires a candidate character group composed of one or more candidate characters for each recognition target character, and among the similarity and a plurality of predetermined concepts set. Recognition of the recognition target character using the frequency with which the candidate character is used when expressing one of the characters or the degree of relevance representing the degree of relevance between the candidate character and one of the predetermined concepts For each candidate character, a calculation unit that calculates an evaluation value representing the certainty as a result for each predetermined concept, and the evaluation value for each predetermined concept calculated by the calculation unit is used for each recognition. Characters that generate candidate character strings that are candidates for recognition results of the recognition target character strings for each predetermined concept by combining candidate characters selected one by one from the candidate character group corresponding to the target characters. Column And covering means, from among the candidate character strings in which the character string coupling means has generated and a determination means for determining a recognition result string of the recognition result of the recognition target character string.
それゆえ、少ない計算量で文字認識の精度を高めることができるという効果を奏する。 Therefore, it is possible to improve the accuracy of character recognition with a small amount of calculation.
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、同一部分には同一符号を付し、図面で同一の符号が付いたものは、説明を省略する場合もある。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, the same code | symbol is attached | subjected to the same part, and what attached the same code | symbol in drawing may abbreviate | omit description.
(実施の形態1)
(文字列生成装置30の構成)
図1は、本発明の実施の形態1にかかる文字列生成装置30の概略構成を示すブロック図である。図1において、本実施の形態にかかる文字列生成装置30は、制御部1と、文字認識部2と、候補蓄積部3と、算出部(算出手段)4と、関連情報蓄積部5と、文字列結合部(文字列結合手段)6と、決定部(決定手段)7と、入力部8と、出力部9と、を備えている。
(Embodiment 1)
(Configuration of character string generation device 30)
FIG. 1 is a block diagram showing a schematic configuration of a character
文字列生成装置30において、制御部1は入力部8から入力される画像から認識対象文字列の各文字を文字認識し、最終結果である認識結果文字列を出力部9から出力するまでの全体の処理を制御する。制御部1は文字認識部2、候補蓄積部3、算出部4、関連情報蓄積部5、文字列結合部6及び決定部7の各々と接続されており、例えば、各部間における各種のデータのやり取りを制御し、それら各種のデータを一時的に記憶する。また、制御部1は、各部の処理に必要となる基準、ルール等も適宜記憶する。制御部1は、例えば、CPU及び、RAM、ROM等のメモリから構成すればよい。
In the character
入力部8は、例えば、スキャナであるが、画像を取得できるものであれば、どのようなものであってもよい。
The
文字認識部2は、入力部8を用いて入力された画像(入力画像)に含まれる認識対象文字列を構成するの各認識対象文字を認識する。この入力画像には、少なくとも1つの文字列が含まれており、入力画像に含まれる文字列のうちの、認識対象となる文字列が、認識対象文字列である。
The
この文字認識処理では、まず、入力画像から、認識対象文字列を構成する各認識対象文字列を構成する各認識対象文字を1つずつ含む文字画像が切り出され、その切り出された文字画像に含まれる認識対象文字ごとに特徴量が算出される。 In this character recognition process, first, a character image including each recognition target character constituting each recognition target character string constituting the recognition target character string is cut out from the input image, and included in the cut character image. A feature amount is calculated for each recognition target character.
次に、その算出された特徴量に基づいて、あらかじめ用意された標準パターンの認識辞書から1文字当たり単数または複数の認識候補文字が選出される。 Next, based on the calculated feature amount, one or a plurality of recognition candidate characters per character is selected from a standard pattern recognition dictionary prepared in advance.
換言すれば、文字認識部2は、認識対象文字に対応する1つ以上の候補文字からなる候補文字群を、各認識対象文字について生成する。
In other words, the
各認識候補文字には、各々の候補順位及び類似度が付与される。この類似度とは、切り出された認識対象文字と選出された認識候補文字とがどれだけ近いかを表わす割合を示すものであり、例えば、最も近いものが第1候補とされる。文字認識部2は認識対象文字列の1文字ごとに認識候補文字とその候補順位、及び、各々に対応する類似度を互いに関連付けて候補蓄積部3に蓄積する。
Each candidate ranking and similarity are given to each recognition candidate character. This similarity indicates a ratio indicating how close the extracted recognition target character and the selected recognition candidate character are. For example, the closest one is the first candidate. The
候補蓄積部3は、例えばフラッシュメモリ、USB、ROM等の半導体メモリ、ハードディスク、CD、DVD等のDVD磁気メモリから構成されており、文字認識部2の認識結果を順次蓄積する。
The
算出部4は、認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について算出する。具体的には、算出部4は、候補蓄積部3に蓄積された各認識候補文字の類似度に加えて、関連情報蓄積部5にあらかじめ蓄積された分野別の関連情報(関連度)も利用し、認識対象文字列に含まれる各認識候補文字に対して上記評価値を算出する。
The
関連情報蓄積部5は、例えば、あらかじめ選定された分野において出現する頻度の高い順に並べられた多数の文字のリストを上記の関連情報として蓄積している。この関連情報とは、選定された分野において、当該分野と各文字との関連性の強さを表わすものである。換言すれば、関連情報とは、分野という所定の概念を表現する場合にその文字が使用される頻度を示す指標である。
The related
上記のリストにおいては、より高い順位の文字ほど、当該分野との関連性が強い、つまり、当該分野に関する文書等において出現する頻度が高いことを意味する。あらかじめ選定される分野(所定の概念)は単数であっても複数であってもよく、例えば、「住所」、「姓」、「名」、「技術」、「科学」、「文学」、「一般」等が挙げられる。もちろん、これらは一例に過ぎず、他の分野であっても構わない。 In the above list, it means that the higher the character in the ranking, the stronger the relation with the field, that is, the higher the frequency of appearance in a document or the like related to the field. The field (predetermined concept) selected in advance may be singular or plural. For example, “address”, “surname”, “first name”, “technology”, “science”, “literature”, “ General "etc. are mentioned. Of course, these are merely examples, and other fields may be used.
文字列結合部6は、算出部4による認識候補文字列の妥当性の評価結果に基づいて認識結果文字列を生成する。具体的には、文字列結合部6は認識対象文字列の各文字に対する認識候補文字の妥当性の評価結果(すなわち、各認識候補文字に対して付与された評価値)を算出部4から取得する。そして、文字列結合部6は認識対象文字の1文字ごとに、候補蓄積部3に蓄積された、各認識対象文字の認識候補文字の群のうちから認識結果文字として出力すべき文字を1つずつ決定し、それらを結合することにより認識候補文字列を生成する。
The character
決定部7は、文字列結合部6が生成した認識候補文字列の中から、認識対象文字列の認識結果となる認識結果文字列を決定する。決定部7によって決定された認識結果文字列は出力部9に出力される。
The
出力部9は、液晶、有機EL等のディスプレイを有しており、そのディスプレイ上に決定部7から出力された認識結果文字列を表示させる。もちろん、出力部9はこの構成に限られるものではなく、例えば、識結果文字列を紙面上に印刷する印刷機能を有していても構わない。要は、出力部9が、文字列生成装置30の利用者が認識結果文字列を視認可能とするディスプレイ装置、プリンタ装置等を有していればよい。
The
なお、文字認識部2、算出部4、文字列結合部6及び決定部7は、例えば、個別の汎用の論理素子、機能素子等を組み合わせて実現すればよい。あるいは、ASIC等の専用素子で実現しても構わない。また、本実施の形態においては、図1にも示したように、制御部1、文字認識部2、算出部4、文字列結合部6及び決定部7は、それぞれ、別体としているが、例えば、制御部1のCPUが所定の実行ファイルを実行することにより文字認識部2、算出部4、文字列結合部6及び決定部7の各々の機能が実施されるようにしても構わない。もちろん、文字認識部2、算出部4、文字列結合部6及び決定部7の各々の機能を実施するCPUは、制御部1のCPUと同一であっても、異なるものであっても構わない。
In addition, what is necessary is just to implement | achieve combining the
(文字列生成装置30の動作)
次に、文字列生成装置30の動作の一例について説明する。図2は、文字列生成装置30における処理手順の一例を示すフローチャートである。以下では、上記分野(所定の概念)として、「住所」、「姓」、「名」、「一般」を用いる場合について説明する。もちろん、本発明はこの4種類の分野に限定されるものではなく、文字列生成装置30の利用形態に応じて増やすことも減らすことも可能である。
(Operation of the character string generation device 30)
Next, an example of the operation of the character
図2に示すように、まず、制御部1は、利用者の指示に基づいて文字列生成装置30に対する初期設定を実行する(ステップS101)。具体的には、利用者による各種のパラメータの設定が行われる。このパラメータとしては、例えば、この文字列生成装置30を用いて利用者が実施する「業務」の種類が挙げられる。
As shown in FIG. 2, first, the
複数設定された「分野(所定の概念)」は、互いに関連する「分野」を含む集合(分野集合(概念集合))のいずれかに分類されている。上記「業務」の種類とは、上記分野集合のひとつであり、上記「業務」の種類を設定することは、複数設定された分野集合のうちのひとつを選択することを意味する。選択された分野集合に含まれる「分野」を「対象分野」と称する。 A plurality of “fields (predetermined concepts)” set are classified into any of a set (field set (concept set)) including mutually related “fields”. The type of “business” is one of the field sets. Setting the type of “business” means selecting one of a plurality of set field sets. A “field” included in the selected field set is referred to as a “target field”.
この「業務」の種類が設定されると、この種類に応じた設定が算出部4及び関連情報蓄積部5に対して実行される。例えば、制御部1は、関連情報蓄積部5に対して、あらかじめ蓄積されている各分野の関連情報のうち、利用者が指定した「業務」に含まれる分野(対象分野)の関連情報を利用するよう指示する。また、制御部1は、算出部4に対して、利用者が指定した「業務」に含まれる対象分野ごとに、認識候補文字の評価値を算出するよう指示する。
When the type of “business” is set, the setting corresponding to the type is executed for the
換言すれば、算出部4は、どの分野についての関連度を、評価値の算出のために用いればよいかを示すユーザの指示を、制御部1を介して取得する。これにより、算出部4は、取得した指示が示す関連度を用いて評価値を算出することになる。
In other words, the
次に、文字認識部2が、文字の認識を実行する(ステップS102)。この文字認識ステップS102では、入力部8を介して入力された入力画像に含まれる認識対象文字列を構成する各認識対象文字の認識が実行される。具体的には、入力画像から切り出された各文字画像について、当該各文字画像に含まれる認識対象文字の特徴を数十次元の数値列に変換した特徴ベクトルが生成される。この特徴ベクトルの生成には種々の公知手法があるが、例えば、文字画像を64×64個の要素に分割し、各要素で白が多ければ0、黒が多ければ1として64×64個の要素を持つ特徴ベクトルを作成すればよい。
Next, the
そして、文字画像から生成された特徴ベクトルと、辞書に登録されている文字ごとにあらかじめ生成されている辞書特徴ベクトルの各々との間で内積をとる。この辞書特徴ベクトルは、文字認識部2が利用可能な記憶部に格納されている。文字の形状が互いに似通っていれば、特徴ベクトル間の対応する要素が同じになるため、内積の値が高くなる。この内積の値が各認識候補文字の認識対象文字に対する類似度を表わしており、各認識対象文字において類似度の高い認識候補文字ほどその候補順位が上位となる。
Then, an inner product is calculated between the feature vector generated from the character image and each dictionary feature vector generated in advance for each character registered in the dictionary. The dictionary feature vector is stored in a storage unit that can be used by the
次に、文字認識部2は、文字認識結果の蓄積を実行する(ステップS103)。この文字認識結果蓄積ステップS103では、文字認識ステップS102において認識された各認識候補文字と、その候補順位及び類似度とを対応付け、候補順位及び類似度と対応付けられた認識候補文字を含む候補文字群を候補蓄積部3に蓄積する。
Next, the
次に、制御部1は、初期設定ステップS101において設定された「業務」が示す複数の対象分野のひとつを選択する(ステップS104)。
Next, the
次に、制御部1は、関連情報の蓄積を実行する(ステップS105)。この関連情報蓄積ステップS105では、文字認識結果蓄積ステップS103において蓄積された認識候補文字の各々に対し、対象分野決定ステップS104において選択された対象分野の関連情報を付与し、再び、候補蓄積部3に蓄積する。
Next, the
上記の対象分野決定ステップS104及び関連情報蓄積ステップS105が、関連情報蓄積部5にあらかじめ蓄積されている分野別関連情報の分野のうち、対象分野のすべてについて実行されるまで(S106にてNO)、上記の対象分野決定ステップS104及び関連情報蓄積ステップS105が繰り返される。すなわち、制御部1は、候補蓄積部3に蓄積された認識候補文字のそれぞれに対して、当該認識候補文字に関する、すべての対象分野の関連情報を対応付ける。
Until the target field determination step S104 and the related information storage step S105 are executed for all the target fields among the fields of the field-related related information stored in the related
対象分野のすべてについて上記の対象分野決定ステップS104及び関連情報蓄積ステップS105が実行されると(S106にてYES)、次に、算出部4は、認識候補文字の妥当性評価を実行する(ステップS107)。この認識候補文字妥当性評価ステップS107では、認識対象文字列の各認識候補文字のうち、いずれの認識候補文字を認識結果文字として選択すべきかを判断するための評価値を算出する。
When the target field determination step S104 and the related information accumulation step S105 are executed for all the target fields (YES in S106), the
具体的には、算出部4は、上記の文字認識結果蓄積ステップS103及び関連情報蓄積ステップS105において候補蓄積部3に蓄積された各認識候補文字の類似度及び関連情報を用いて、あらかじめ設定された基準に基づき、各認識候補文字の妥当性を表わす評価値を算出する。この基準は、各認識候補文字の類似度及び関連情報から評価値を決めるための基準である。その内容としては、例えば、後述するように、各認識候補文字の類似度と関連情報とを単純に加算して評価値を算出する、あるいは、単純には加算せずに、類似度、関連情報に対して重み付けを行った後に加算し、評価値を算出する等である。
Specifically, the
より詳細には、算出部4は、認識対象文字に対応する1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、上記関連情報および類似度を用いて、分野という所定の概念を表現する場合の、認識対象文字の認識結果としての確からしさを表す評価値を各認識候補文字について、対象分野ごとに算出する。算出部4は、算出した評価値を文字列結合部6へ出力する。
More specifically, the
次に、文字列結合部6は、算出部4から出力された評価値を用いて、各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を、認識対象文字列における認識対象文字の配列と同じ配列で結合することによって、認識候補文字列を、対象分野ごとに生成する(ステップS108)。文字列結合部6は、生成した認識候補文字列を決定部7へ出力する。
Next, the character
次に、決定部7は、文字列結合部6から出力された複数の認識候補文字列の中から、認識対象文字列の認識結果となる認識結果文字列を決定する(ステップS109)。決定部7は、決定した認識結果文字列を出力部9へ出力する。この決定部7における処理の詳細については後述する。
Next, the
最後に、出力部9は、決定部7によって決定された認識結果文字列の出力(例えば、表示)を実行する(ステップS110)。
Finally, the
このようにして、本実施の形態にかかる文字列生成装置30の動作が終了する。
In this way, the operation of the character
(文字認識結果の具体例)
次に、図2の関連情報蓄積ステップS105における処理内容について、さらに詳しく説明する。図3に、図2の文字認識ステップS102における処理結果の一例を示す。図3の処理結果例は、認識対象文字列として「奈良県」を用いた場合である。図3に示すように、認識対象文字列「奈良県」を構成する文字「奈」、「良」、「県」のそれぞれに対して、第1〜第5位までの認識候補文字10、11、12が挙げられている。そして、各認識候補文字には類似度が付与されている。例えば、文字「奈」の第1位の認識候補文字は「茶」であり、その類似度は「110」である。文字認識ステップS102において、各認識対象文字の認識候補文字には、その類似度の高い順に従って候補順位が設定されている。
(Specific example of character recognition result)
Next, the processing content in the related information accumulation step S105 of FIG. 2 will be described in more detail. FIG. 3 shows an example of the processing result in the character recognition step S102 of FIG. The processing result example of FIG. 3 is a case where “Nara Prefecture” is used as the recognition target character string. As shown in FIG. 3, the
なお、図3では、認識対象文字列の文字数は3個、候補順位は第1〜第5位までを示しているが、認識対象文字数は、1〜2個でもよいし、4個以上でもよく、候補順位として出力される順位の数も、1つ以上4つ以下でもよく、6つ以上でもよい。また、「奈良県」の各認識候補文字に設定された類似度も単なる一例であり、文字認識によって必ずしもこの順序や、数値になるものではない。 In FIG. 3, the number of characters in the recognition target character string is three and the candidate ranks are first to fifth. However, the number of recognition target characters may be one to two, or four or more. The number of ranks output as candidate ranks may be 1 or more and 4 or less, or 6 or more. Also, the similarity set for each recognition candidate character of “Nara Prefecture” is merely an example, and this order or numerical value is not necessarily obtained by character recognition.
(関連情報の具体例)
図4に、図2の関連情報蓄積ステップS105における処理結果の一例を示す。図4の処理結果例では、図3の処理結果例における各認識候補文字に対して、関連情報蓄積部5にあらかじめ蓄積されている関連情報が分野ごとに付与されている。図4の処理結果例では、上述したように、対象分野として「住所」、「姓」、「名」、「一般」の4分野が選択されている。
(Specific examples of related information)
FIG. 4 shows an example of the processing result in the related information accumulation step S105 of FIG. In the processing result example of FIG. 4, related information stored in advance in the related
対象分野ごとに、認識対象文字「奈」の認識候補文字13、認識対象文字「良」の認識候補文字14、及び、認識対象文字「県」の認識候補文字15の各々に対して、各文字と各分野との関連性の強さを表わす関連情報が付与されている。ここでは、各分野において、その分野との関連性が強い文字ほど、関連情報の数値が大きくなるようになっている。
For each target field, for each of the
なお、図1の関連情報蓄積部5にあらかじめ蓄積されている分野別の関連情報は、分野ごとに、文字認識され得る文字候補の分だけ関連情報が存在する。したがって、関連情報蓄積部5には、仮にJIS第一、第二水準の漢字を全て認識対象文字とした場合、3000〜4000文字分程度の関連情報が分野ごとに蓄積されていることになる。
The related information for each field that is stored in advance in the related
また、図4の例では、関連情報の一例として、各認識対象文字と各分野との間の関連性の強さを数値で示している。各数値は、例えば、各認識対象文字が各分野との関連性として、各分野という概念を表現する場合にその文字を用いる頻度で表わす。数値自体は、類似度との間で桁数の違いが大きいと文字認識の結果とほとんど同じになる場合、あるいは逆に、全く異なる場合が想定されるため、類似度に合わせて関連情報に重み付けを行う(正規化する)場合も想定される。 In the example of FIG. 4, as an example of the related information, the strength of the relationship between each recognition target character and each field is indicated by a numerical value. Each numerical value is represented, for example, by the frequency with which each recognition target character is used when the concept of each field is expressed as the relationship with each field. As for the numerical value itself, if the difference in the number of digits from the similarity is large, it may be almost the same as the result of character recognition, or conversely, it may be completely different, so the related information is weighted according to the similarity. It is also possible to perform (normalize).
例えば、図5の例1で示すように、文字認識の類似度の範囲が0〜20000であり、関連情報の範囲が0〜50である場合、類似度に対して、関連情報の値がほとんど影響を与えず、図3の処理結果例がほとんど変わらないことが予想される。 For example, as shown in Example 1 in FIG. 5, when the similarity range of character recognition is 0 to 20000 and the related information range is 0 to 50, the value of the related information is almost the same as the similarity. It is expected that the processing result example of FIG.
逆に、図5の例2で示すように、文字認識の類似度の範囲が0〜20000であり、関連情報の範囲が0〜5000である場合、図3の処理結果が関連情報の影響を受けすぎて、図3の処理結果例が意味をなさなくなる可能性がある。 Conversely, as shown in Example 2 in FIG. 5, when the similarity range of character recognition is 0 to 20000 and the related information range is 0 to 5000, the processing result of FIG. There is a possibility that the processing result example of FIG.
本発明では、関連情報は文字認識の誤りを訂正し、認識結果の順位を入れ替えるためのものである。このため、類似度と関連情報とのバランスを考慮し、例えば「関連情報の最大値は類似度の最大値の5%にする」というルールを設定しておけばよい。そうすることにより、図5の例1の場合であれば関連情報の値を一律20倍し、図5の例2の場合であれば関連情報の値を一律5分の1に減少させる(正規化する)ことで、類似度と関連情報を適正な範囲にすることが可能である。 In the present invention, the related information is for correcting an error in character recognition and changing the order of recognition results. For this reason, considering the balance between the similarity and the related information, for example, a rule that “the maximum value of the related information is 5% of the maximum value of the similarity” may be set. By doing so, the value of the related information is uniformly multiplied by 20 in the case of Example 1 in FIG. 5, and the value of the related information is uniformly reduced to 1/5 in the case of Example 2 in FIG. It is possible to set the similarity and the related information within an appropriate range.
なお、本発明は上記の「5%」に限定されるものではない。要は、本発明は、文字認識で得られた類似度に対して補正的な意味合いで各分野との関連性を用いており、このため、関連情報の割合を大きくしすぎると文字認識の結果が意味をなさなくなってしまう。したがって、関連情報の影響を受けすぎないような値であればよい。 The present invention is not limited to the above “5%”. In short, the present invention uses relevance to each field in a corrective sense with respect to the similarity obtained by character recognition. For this reason, if the proportion of related information is too large, the result of character recognition No longer makes sense. Therefore, the value may be any value that is not excessively affected by the related information.
また、本実施の形態では、上述したように、関連情報として、各分野における、各認識候補文字の出現頻度を主に想定している。例えば「住所」の場合、住所を表すテキストを大量に収集し、そのテキストの中で各認識候補文字が現れる頻度を数え、関連情報とするものである。ただし、本実施の形態の関連情報は上記の出現頻度に限定されるものではなく、例えばシソーラス上における、「住所」と各認識候補文字の距離など、「住所」と各認識候補文字間の意味的な距離を関連情報として用いることも可能である。すなわち、上記関連情報は、認識候補文字と所定の概念との関連性の度合いを表す関連度であってもよい。 Moreover, in this Embodiment, as mentioned above, the appearance frequency of each recognition candidate character in each field is mainly assumed as related information. For example, in the case of “address”, a large amount of text representing an address is collected, and the frequency at which each recognition candidate character appears in the text is counted as related information. However, the related information of the present embodiment is not limited to the appearance frequency described above. For example, on the thesaurus, the meaning between “address” and each recognition candidate character, such as the distance between “address” and each recognition candidate character. It is also possible to use a specific distance as related information. In other words, the related information may be a degree of relevance representing a degree of relevance between the recognition candidate character and a predetermined concept.
(認識候補文字列妥当性評価ステップの詳細)
次に、図2の認識候補文字妥当性評価ステップS107についてさらに詳しく説明する。図6に、図2の認識候補文字妥当性評価ステップS107における処理結果の一例を示す。図6の処理結果例では、図3の処理結果例における各認識候補文字に、図4の処理結果例における分野「住所」の各認識候補文字に付与された関連情報が加算され、各評価値が算出されている。
(Details of recognition character string validation step)
Next, the recognition candidate character validity evaluation step S107 in FIG. 2 will be described in more detail. FIG. 6 shows an example of the processing result in the recognition candidate character validity evaluation step S107 of FIG. In the processing result example of FIG. 6, the related information given to each recognition candidate character of the field “address” in the processing result example of FIG. 4 is added to each recognition candidate character in the processing result example of FIG. Is calculated.
例えば、認識候補文字「奈」の場合、図3の類似度「110」に図4の関連情報「7」が加算され、評価値「112」が算出されている。同様にして、認識対象文字列「奈良県」の各文字「奈」、「良」、「県」に対する認識候補文字20、21、22の各々に対して、各評価値が算出されている。そして、図3及び図6から明らかなように、この算出された評価値の大きさに従って各認識候補文字20、22、21の候補順位の入れ替えが行われている。
For example, in the case of the recognition candidate character “NA”, the related information “7” in FIG. 4 is added to the similarity “110” in FIG. 3, and the evaluation value “112” is calculated. Similarly, each evaluation value is calculated for each of the
図6の処理結果例では、単純に認識候補文字の類似度と分野別関連情報とを加算して評価値を算出しているが、他にも類似度、関連情報の各々の数値に重みを付けて、評価値を算出する等、評価値の算出方法については様々な方法が考えられる。 In the example of the processing result in FIG. 6, the evaluation value is calculated by simply adding the similarity of the recognition candidate character and the related information according to the field. In addition, various methods can be considered for calculating the evaluation value, such as calculating the evaluation value.
すなわち、算出部4は、関連情報の値または類似度に対して重み付けを行った後に、関連情報の値と類似度とを加算することにより評価値を算出してもよい。
That is, the
例えば、類似度の範囲が0〜150の時に、ある認識対象文字についての認識候補文字列のうち、最大の類似度が80であった場合、その文字に対する文字認識処理の信頼性には問題があると考えられる。その場合、関連情報を重み付けして2倍した値と類似度を加算し、類似度に対する関連情報の影響の度合いを大きくすることにより、各分野との関連性の高い文字を上位に上げてもよい。そうすることにより、文字認識処理の低信頼性の影響を低減することができる。 For example, if the maximum similarity is 80 among the recognition candidate character strings for a certain recognition target character when the similarity is in the range of 0 to 150, there is a problem in the reliability of character recognition processing for that character. It is believed that there is. In that case, by adding the weighted value of the related information and doubling the similarity and increasing the degree of the influence of the related information on the similarity, even if the character highly related to each field is raised to the top Good. By doing so, the influence of the low reliability of a character recognition process can be reduced.
図6の処理結果例により、認識対象文字「奈」の認識候補文字20のうち、「奈」の評価値が最高の112となり、同様に、認識対象文字「良」の認識候補文字21のうち、「良」の評価値が最高の102、認識対象文字「県」の認識候補文字22のうち、「県」の評価値が最高の130となる。ここでは、この結果を便宜的に、住所Max(112(奈)、102(良)、130(県))と表わす。
According to the processing result example of FIG. 6, among the
図2の認識候補文字妥当性評価ステップS107においては、「住所」以外の「姓」、「名」、「一般」の各分野に対しても、図6の処理結果例と同様な処理結果を得る。すなわち、分野「姓」の場合であれば、認識対象文字「奈」の認識候補文字のうち、「奈」の評価値が最高の112となり、認識対象文字「良」の認識候補文字のうち、「食」の評価値が最高の101、認識対象文字「県」の認識候補文字のうち、「県」の評価値が最高の120となる。したがって、この結果は、姓Max(112(奈)、101(食)、120(県))となる。 In the recognition candidate character validity evaluation step S107 in FIG. 2, the same processing result as the processing result example in FIG. 6 is also obtained for each field of “last name”, “first name”, and “general” other than “address”. obtain. That is, in the case of the field “last name”, among the recognition candidate characters of the recognition target character “N”, the evaluation value of “NA” is the highest 112, and among the recognition candidate characters of the recognition target character “Good”, The highest evaluation value of “food” is 101, and among the recognition candidate characters of the recognition target character “prefecture”, the evaluation value of “prefecture” is 120, the highest. Therefore, this result is the surname Max (112 (na), 101 (food), 120 (prefecture)).
次に、分野「名」の場合であれば、認識対象文字「奈」の認識候補文字のうち、「茶」及び「奈」の評価値が最高の111となり、認識対象文字「良」の認識候補文字のうち、「食」の評価値が最高の101、認識対象文字「県」の認識候補文字のうち、「県」の評価値が最高の120となる。したがって、この結果は、名Max(111(茶、奈)、101(食)、120(県))となる。なお、認識対象文字「奈」の認識候補文字のうち、「茶」及び「奈」の評価値が同一となってしまうが、この場合、例えば、算出部4は類似度の高いほうを優先するようにすればよい。
Next, in the case of the field “name”, among the recognition candidate characters of the recognition target character “na”, the evaluation value of “brown” and “na” is the highest 111, and the recognition target character “good” is recognized. Among the candidate characters, the evaluation value of “food” is the highest 101, and among the recognition candidate characters of the recognition target character “prefecture”, the evaluation value of “prefecture” is 120, the highest. Therefore, the result is the name Max (111 (tea, na), 101 (food), 120 (prefecture)). Note that among the recognition candidate characters of the recognition target character “NA”, the evaluation values of “Brown” and “NA” are the same. In this case, for example, the
次に、分野「一般」の場合であれば、認識対象文字「奈」の認識候補文字のうち、「茶」の評価値が最高の115となり、認識対象文字「良」の認識候補文字のうち、「食」の評価値が最高の107、認識対象文字「県」の認識候補文字のうち、「県」の評価値が最高の123となる。したがって、この結果は一般Max(115(茶)、107(食)、123(県))となる。 Next, in the case of the field “general”, among the recognition candidate characters of the recognition target character “na”, the evaluation value of “brown” is the highest 115, and among the recognition candidate characters of the recognition target character “good” The evaluation value of “prefecture” among the recognition candidate characters “107” having the highest evaluation value of “food” and the recognition target character “prefecture” is 123. Therefore, this result is general Max (115 (tea), 107 (food), 123 (prefecture)).
このようにして、図2の認識候補文字妥当性評価ステップS107において、算出部4は、分野ごとに、各認識候補文字の妥当性を表わす評価値を算出する。
In this way, in the recognition candidate character validity evaluation step S107 of FIG. 2, the
(認識候補文字列生成ステップ及び認識結果文字列決定ステップの詳細)
図2の認識候補文字列生成ステップS108においては、分野ごとに、上記の最高の評価値を持つ認識候補文字からなる認識候補文字列が生成される。具体的には、文字列結合部6は、認識対象文字列に含まれる各認識対象文字について、対応する認識候補文字の群から最高の評価値を有する認識候補文字(最高評価文字)を選択し、選択した最高評価文字を、認識対象文字列における認識対象文字の配列と対応する配列で結合することにより、認識候補文字列を生成する。文字列結合部6は、この処理を分野ごとに行う。それゆえ、分野の数と同数の認識候補文字列が生成される。
(Details of recognition candidate character string generation step and recognition result character string determination step)
In the recognition candidate character string generation step S108 in FIG. 2, a recognition candidate character string including the recognition candidate character having the highest evaluation value is generated for each field. Specifically, the character
認識結果文字列決定ステップS109では、決定部7が、認識候補文字列生成ステップS108において生成された各分野の認識候補文字列のうちから、出力すべき認識候補文字列を選択し、認識結果文字列を決定する。例えば、分野ごとに、認識候補文字列に含まれる認識候補文字の評価値を加算し、その加算値が最大の認識候補文字列を認識結果文字列として決定すればよい。この場合、上述の例では、各分野の最高評価値の加算値は、「住所」、「姓」、「名」、「一般」の順に、344、333、333、345となる。したがって、単純に類似度と分野別関連情報を加算して求めた評価値の場合、分野「一般」の認識候補文字列である「茶良県」が認識結果文字列として決定される。
In the recognition result character string determination step S109, the
すなわち、決定部7は、分野ごとに生成した認識候補文字列に含まれる認識候補文字が有する評価値を当該認識候補文字列ごとに加算し、最高の評価値の合計を有する認識候補文字列を、認識対象文字列の認識結果として決定する。
That is, the
以上説明したように、本発明の実施の形態1によれば、図6に示した認識候補文字の評価値を用いることにより、図3に示した認識候補文字の類似度のみから認識結果文字列を決定した場合と比べて、認識対象文字列「奈良県」により近い認識結果文字列を出力することができる。 As described above, according to the first embodiment of the present invention, by using the recognition candidate character evaluation value shown in FIG. 6, the recognition result character string is obtained from only the similarity of the recognition candidate character shown in FIG. 3. The recognition result character string closer to the recognition target character string “Nara Prefecture” can be output as compared to the case where the determination is made.
なお、上述の例では、認識対象文字列と認識結果文字列とは完全には一致していないが、両者が完全に一致する場合もある。それゆえ、文字列生成装置30が発明として未完成なわけではない。
In the above-described example, the recognition target character string and the recognition result character string do not completely match, but there are cases in which both match completely. Therefore, the character
(実施の形態2)
次に、本発明の実施の形態2について説明する。上記の実施の形態1では、認識候補文字の類似度に加えて分野ごとの関連情報を用いることにより、類似度のみを用いた場合と比べて認識対象文字列により近い認識結果文字列を出力するものであった。
(Embodiment 2)
Next, a second embodiment of the present invention will be described. In the first embodiment, by using the related information for each field in addition to the similarity of the recognition candidate character, the recognition result character string closer to the recognition target character string is output compared to the case where only the similarity is used. It was a thing.
しかしながら、図6から明らかなように、必ずしも認識対象文字列と完全に一致するとは限らない。すなわち、上記の実施の形態1においては、認識候補文字列と各分野との関連性の強さを表わす関連情報の評価値への寄与度や、類似度と関連情報との間における正規化処理の有無により、認識対象文字列とは完全に一致しない文字列が生成される場合がある。 However, as is apparent from FIG. 6, it does not necessarily match the recognition target character string completely. That is, in the above-described first embodiment, the degree of contribution to the evaluation value of the related information representing the strength of the relevance between the recognition candidate character string and each field, and the normalization process between the similarity and the related information Depending on the presence or absence of a character string, a character string that does not completely match the recognition target character string may be generated.
そこで、本実施の形態は、算出部4が、図2の認識候補文字妥当性評価ステップS107における評価値算出の際に、初期設定ステップS101において設定されたパラメータ(ここでは、「業務」の種類)に基づいて、各認識候補文字に付与された関連情報の評価値への寄与度を分野毎に変化させる形態である。以下、上記の実施の形態1と異なる点について、図2を用いて説明する。
Therefore, in the present embodiment, the
例えば、利用者が図1の文字列生成装置30を用いて実施する「業務」の種類が「住所録」であるとする。この場合、初期設定ステップS101において制御部1が初期設定を実行する際、利用者がこの文字列生成装置30を用いて実施する「業務」の種類として「住所録」が設定される。そして、制御部1は、対象とすべき分野のすべてについて対象分野決定ステップS104及び関連情報蓄積ステップS105を実行する。
For example, it is assumed that the type of “business” performed by the user using the character
算出部4は、「住所録」に対応する対象分野「住所」、「姓」、「名」、「一般」の各々について、各認識候補文字の評価値を算出するときの関連情報の寄与度を用いて、認識候補文字妥当性評価ステップS107における評価値算出を実行する。
The
具体的には、算出部4は、上記の「業務」の種類である「住所録」に対応する対象分野「住所」、「姓」、「名」、「一般」ごとに各認識候補文字列の評価値を算出するときに、「住所」、「姓」、「名」についての評価値を算出するときには関連情報の寄与を相対的に大きくし、「一般」についての評価値を算出するときには関連情報の寄与を相対的に小さくする。ここでは、対象分野「住所」、「姓」、「名」、「一般」のうち、上記の「住所録」との関連性が相対的に強い分野「住所」、「姓」、「名」の関連情報を例えば2倍とし、上記の「住所録」との関連性が相対的に弱い分野「一般」の関連情報を1倍としている。算出部4は、例えば、制御部1のメモリに、「業務」に含まれる分野(対象分野)のうち、いずれの分野が当該「業務」との関連性が強く、いずれの分野が比較的弱いかを表わす情報があらかじめ蓄積しておき、算出部4がその情報に基づいて、関連情報を変更すればよい。
Specifically, the
そうすることにより、各分野の最高評価値の加算値は、「住所」、「姓」、「名」、「一般」の順に、368、334、347、345となる。したがって、この場合であれば、分野「住所」の認識候補文字列である「奈良県」が認識結果文字列として出力されることになる。 By doing so, the added value of the highest evaluation value in each field becomes 368, 334, 347, 345 in the order of “address”, “last name”, “first name”, “general”. Therefore, in this case, “Nara Prefecture”, which is a recognition candidate character string of the field “address”, is output as a recognition result character string.
上記の場合、分野関連情報の寄与度のみを設定したが、類似度の寄与度についても、評価値に対する寄与度を設定してもよい。文字認識部2の精度にも依存するが、例えば、図3に示した類似度のみに従って認識結果文字列を生成した場合に、その認識結果文字列と認識対象文字列とが一致する割合が60〜80%程度であれば、類似度及び関連情報の各々の寄与度を、関連情報が類似度に対して10〜35%程度評価値に寄与するように設定すればよい。そうすることにより、類似度のみに従って認識結果文字列を生成する場合と比べて、類似度に要求される精度を低下させることができる。このため、文字認識部2が文字認識する際に処理すべきデータ量が低減され、文字認識部2が必要とするメモリ容量が小さくなる。
In the above case, only the contribution degree of the field related information is set, but the contribution degree to the evaluation value may also be set for the contribution degree of the similarity degree. Although depending on the accuracy of the
(実施の形態3)
(文字列生成装置31の構成)
次に、本発明の実施の形態3について説明する。図7は、本発明の実施の形態3にかかる文字列生成装置31の概略構成を示すブロック図である。図7において、本実施の形態にかかる文字列生成装置31は、上記の実施の形態1の文字列生成装置30と同様に、制御部1と、文字認識部2と、候補蓄積部3と、算出部4と、関連情報蓄積部5と、文字列結合部6と、決定部7と、入力部8と、出力部9と、を備えている。
(Embodiment 3)
(Configuration of the character string generation device 31)
Next, a third embodiment of the present invention will be described. FIG. 7 is a block diagram showing a schematic configuration of the character
本実施の形態にかかる文字列生成装置はさらに、照合部60と、キーワード辞書61と、備えている。照合部60は、制御部1と接続されており、文字列結合部6が生成する認識候補文字列をキーワード辞書61にあらかじめ蓄積されているキーワードと照合を行うものである。以下においては、この照合部60及びキーワード辞書61について主として説明するものとし、その他については上記の実施の形態1と同様であるので説明は繰り返さない。
The character string generation device according to the present embodiment further includes a
照合部60は文字列結合部6が生成する認識候補文字列をキーワード辞書61と照合する。キーワード辞書61は分野別のキーワードをあらかじめ蓄積している。キーワード辞書61として、選定された対象分野の各々に対応する辞書が用意されており、各辞書には、それぞれに対応する分野において利用される頻度の高いキーワードがあらかじめ選定され、記載されている。ここでは、上記の実施の形態1と同様、分野として「住所」、「姓」、「名」、「一般」が設定され、キーワード辞書61としては、「住所キーワード辞書」、「姓キーワード辞書」、「名キーワード辞書」、「一般キーワード辞書」の4種類があるものとする。
The
次に、本実施の形態にかかる文字列生成装置31の動作について説明する。図8は、本実施の形態にかかる文字列生成装置31の文字列生成方法の処理手順の一例を示すフローチャートである。図2に示した上記実施の形態1のフローチャートと同一のステップには、同一の番号が付されている。ここでは、上述したように、実施の形態1とは異なる点のみ説明する。
Next, the operation of the character
文字列生成装置31の文字列生成方法の処理手順においては、図2の認識候補文字列生成ステップS108と認識結果文字列決定ステップS109との間にキーワード辞書との照合ステップS201が追加されている。
In the processing procedure of the character string generation method of the character
また、文字列結合部6は、生成した認識候補文字列を、当該認識候補文字列の分野および当該認識候補文字列が含む各認識候補文字列の最高評価値の加算値と対応付けて、制御部1を介して決定部7へ出力する。
Further, the character
例えば、上記の実施の形態1においては、認識候補文字列生成ステップS108において分野ごとに生成された認識候補文字列「奈良県」、「奈食県」、「茶食県、奈食県」、「茶食県」のうち、各認識候補文字の最高評価値を加算した結果が最大であるのは分野「一般」の認識候補文字列「茶良県」であった。 For example, in the above-described first embodiment, the recognition candidate character strings “Nara Prefecture”, “Nanagi Prefecture”, “Tea Food Prefecture, Natsuku Prefecture”, “ Among the “tea-food prefectures”, the largest result obtained by adding the highest evaluation values of the respective recognition candidate characters is the recognition candidate character string “Chara Prefecture” in the field “general”.
しかし、本実施の形態のキーワード辞書照合ステップS201においては、照合部60が、文字列結合部6が対象分野「一般」について生成した認識候補文字列がその対象分野と対応付けられて入力されると、まず、当該認識候補文字列と対応付けられた対象分野「一般」に対応する、キーワード辞書61の一般キーワード辞書を用いて「茶良県」をキーワード照合する。
However, in the keyword dictionary collation step S201 of the present embodiment, the recognition candidate character string generated by the
次に、一般キーワード辞書に「茶良県」は無いので、最高評価値を加算した結果が次に高い分野「住所」についての認識候補文字列「奈良県」が、その分野についての住所キーワード辞書と照合され、照合に成功する。 Next, because there is no “Chara Prefecture” in the general keyword dictionary, the recognition candidate character string “Nara Prefecture” for the field “address” with the highest result of adding the highest evaluation value is the address keyword dictionary for that field. Is verified and the verification is successful.
決定部7は、この照合成功の結果に基づき、認識結果文字列決定ステップS109において、分野「住所」の認識候補文字列である「奈良県」を認識結果文字列として決定し、出力部9が、認識結果文字列出力ステップS110において、決定部7によって決定された認識結果文字列の出力を実行する。
Based on the result of this collation success, the
すなわち、照合部60は、文字列結合部6が生成した認識候補文字列と、キーワード辞書61が有する、上記認識候補文字列の分野についてのキーワード辞書に含まれるキーワードとを照合する処理を、分野ごとに生成された認識候補文字列のそれぞれについて、当該認識候補文字列の最高評価値の加算値が大きい順に行い、決定部7は、照合部60が最初に照合に成功した認識候補文字列を認識結果文字列として決定する。
That is, the
(実施の形態4)
次に、本発明の実施の形態4について説明する。上記の実施の形態3においては、評価値の加算値が一番高い認識候補文字列から順に(換言すれば、評価値の加算値が一番高い分野から順に)と、その認識候補文字列の分野についてのキーワード辞書との照合によって認識結果文字列を決定している。このとき処理時間が長くかかるのは、キーワード辞書61のオープン、クローズ及び、認識候補文字列とキーワード辞書との照合との照合である。上記の実施の形態3では、まず評価値の加算値が一番高い一般分野で照合し、次に住所分野で照合した結果、正解文字列を得ている。もし、住所分野から照合処理に入ったら正しい文字列生成に要する時間は大幅に縮小される。
(Embodiment 4)
Next, a fourth embodiment of the present invention will be described. In
この問題を解決するため、本実施の形態では、制御部1が分野特徴文字を用いて照合部60の照合順を決定する。この分野特徴文字とは、対応する分野に特徴的な文字のことであり、例えば、住所分野であれば、「都」、「道」、「府」、「県」、「市」、「区」、「群」、「町」、「村」、「丁」、「目」、「番」、「地」、「棟」、「号」、「室」等、姓分野であれば「佐」、「斎」、「藤」等の文字が該当する。これら分野特徴文字は、制御部1を構成するメモリにあらかじめ記憶しておけばよい。
In order to solve this problem, in the present embodiment, the
図9は、本実施の形態にかかる文字列生成装置31の文字列生成方法の処理手順を示すフローチャートである。図8に示した上記実施の形態3のフローチャートと同一のステップには、同一の番号が付されている。ここでは、実施の形態3とは異なる点のみ説明する。
FIG. 9 is a flowchart showing the processing procedure of the character string generation method of the character
図9に示すように、キーワード辞書照合ステップS201の前に、制御部1は、キーワード辞書の照合順決定ステップS301を実行する。このキーワード辞書照合順決定ステップS301では、制御部1が、照合部60がどの分野からキーワード辞書61との照合を行うべきかを照合順序ルールを参照することによって決定する。この照合の順序は、例えば、制御部1のメモリに蓄積された照合順序ルールによって決定される。
As shown in FIG. 9, before the keyword dictionary collation step S201, the
この照合順序ルールとしては、例えば、上記の実施の形態1のように各認識候補文字の類似度及び関連情報の各寄与度に差をつける方法の場合であれば、「各認識候補文字としての分野特徴文字の評価値を、分野特徴文字が属する認識候補文字列の文字数で割った値が43以上である同一の分野の分野特徴文字の数が、認識候補文字列の文字数の30%を超える場合は、当該分野特徴文字に対応する分野から照合する」ルールが挙げられる。図6に示した上記の実施の形態1の場合、「県」の評価値が130となっており、認識候補文字列が3文字なので、1文字当たりでは43.3となる。このため、「県」が文字列全体に占める割合は3文字中1文字のため、30%以上となり、このルールが適用される。つまり、住所分野の上記分野特徴文字として「県」を選定した場合に、評価値43.3/文字となる「県」の分野である「住所」が照合の第1候補に変わる。 As this collation order rule, for example, in the case of a method of making a difference between the similarity of each recognition candidate character and each contribution degree of related information as in the first embodiment, “as each recognition candidate character. The number of field characteristic characters in the same field in which the value obtained by dividing the evaluation value of the field characteristic character by the number of characters of the recognition candidate character string to which the field characteristic character belongs is equal to or greater than 43% exceeds the number of characters of the recognition candidate character string. In this case, a rule “match from the field corresponding to the field characteristic character” is included. In the case of the first embodiment shown in FIG. 6, since the evaluation value of “prefecture” is 130 and the recognition candidate character string is 3 characters, 43.3 per character. For this reason, the ratio of “prefecture” to the whole character string is 30% or more because it is 1 character out of 3 characters, and this rule is applied. That is, when “prefecture” is selected as the above-mentioned field characteristic character in the address field, “address”, which is the field of “prefecture” having an evaluation value of 43.3 / character, is changed to the first candidate for collation.
すなわち、制御部1は、ある分野について生成された認識候補文字列を、どの分野のキーワード辞書と最初に照合するかを、当該認識候補文字列に含まれる分野特徴文字の割合に基づいて決定する。
That is, the
その結果、キーワード辞書照合ステップS201においては、照合部60が、最高評価値の加算値で最高となった一般分野で得られた「茶良県」を、最初に、住所キーワード辞書と照合することになる。この例では、照合の結果は不成功に終わり(ステップS302にてNO)、照合部(置換部)60は、一般分野の認識候補文字列「茶良県」の先頭の認識候補文字を類似度の高い順に置き換え(ステップS303)、照合部(置換部)60はは、認識候補文字がなくなるまでキーワード辞書と照合する(ステップS303及び304にてNO)。この例では、一般分野における認識候補文字列の先頭の認識候補文字は「奈」が第2候補であるので、「奈良県」と住所キーワード辞書が照合され、照合に成功する(ステップS302にてYES)。
As a result, in the keyword dictionary collation step S201, the
決定部7は、この照合成功の結果に基づき、認識結果文字列決定ステップS109において、「奈良県」を認識結果文字列として決定し、出力部9が、認識結果文字列出力ステップS110において、決定部7によって決定された認識結果文字列の出力を実行する。
The
本実施の形態によれば、キーワード辞書61のキーワード辞書のオープン、クローズの回数を減らすことができるので、照合部60による照合時間を削減し、照合部60による照合処理に必要なメモリ容量を削減することができる。
According to the present embodiment, since the number of times of opening and closing the keyword dictionary of the
なお、上記の実施の形態3及び4において各分野のキーワード辞書を用いて認識候補文字列との照合を行うのは、上記の実施の形態1及び2において生成される認識候補文字列が現実にありえる文字列か否かを判定するためである。現実にありえない文字列を生成しても意味がないため、各分野のキーワードを含むか否かのチェックを行っている。 Note that the recognition candidate character strings generated in the above-described first and second embodiments are actually collated with the recognition candidate character strings using the keyword dictionary in each field in the third and fourth embodiments. This is for determining whether the character string is possible. Since it is meaningless to generate a character string that is impossible in reality, it is checked whether or not it includes keywords in each field.
(実施の形態5)
次に、本発明の実施の形態5について説明する。上記の実施の形態3及び4では、キーワード辞書との照合は完全一致の場合を想定して説明されている。これに対し、本実施の形態は、完全一致はしないが部分一致する場合にも適合するように、図8及び図9のキーワード辞書照合ステップS201の処理内容を拡張した形態である。
(Embodiment 5)
Next, a fifth embodiment of the present invention will be described. In
本実施の形態においては、照合部60が、キーワード辞書からキーワードを取り出し、認識候補文字列と照合し、認識候補文字列にキーワードが含まれるか否かを調べる。キーワードが認識候補文字列に含まれていれば、キーワードは認識候補文字列に含まれるという判定結果が得られる。認識候補文字列よりキーワードの文字列長の方が長い場合は認識候補文字列にワイルドカードを付けてキーワードの文字数と合うようにして照合を行う。ワイルドカードはどんな文字でも一致することを示す。照合部60による照合結果には、追加したワイルドカードの文字数を記録しておき、結果を使用する際に用いられるようにする。照合部60による上記の照合結果は、適宜、制御部1のメモリに記憶される。
In the present embodiment, the
図10は、分野「住所」のキーワード辞書のキーワード「奈良県」に対して、認識候補文字列が「奈食県天理市」だった場合の例である。この状態で認識候補文字列の先頭から照合を行うと、キーワードの1文字目、3文字目は一致するが、2文字目は一致しないという結果になる。上記の実施の形態3及び4では、判定結果はキーワードなしという判定結果になる。しかし、認識候補文字列に間違いがあり、間違いを直せば一致するという場合は、掘り下げて調べる必要がある。
FIG. 10 shows an example of the case where the recognition candidate character string is “Tenri City, Nana Prefecture” for the keyword “Nara Prefecture” in the keyword dictionary of the field “Address”. When collation is performed from the beginning of the recognition candidate character string in this state, the first character and the third character of the keyword are matched, but the second character is not matched. In
そこで、本実施の形態では、最初の単純照合を行った際の結果に関して設定条件を決めておく。この条件は、例えば「キーワード長の80%以上が一致している」、「不一致文字がキーワード長2文字、3文字の場合で1文字以内、6文字以下で2文字以内、7文字以上は3文字以内」といった形式であらかじめ設定しておく。最初の単純照合の際に完全一致でなくても、上記の設定条件を満たす範囲で一致している場合に、照合部60は、認識候補文字列の間違いの可能性を調査する。
Therefore, in the present embodiment, setting conditions are determined with respect to the result when the first simple collation is performed. This condition is, for example, “80% or more of the keyword length is matched”, “If the mismatched character has a keyword length of 2 characters or 3 characters, 1 character or less, 6 characters or less and 2 characters or less, 7 characters or more are 3 characters. Set in advance in a format such as “within characters”. Even if the first simple matching is not complete matching, the matching
図10の例では、2文字目の認識候補文字は、文字認識処理の際、正しい文字「良」が第1候補にならなかった例である。上記の設定条件を満たした場合、照合部60は、第2候補以降の認識候補文字を参照し、不一致位置にあるべき正しい認識候補文字があるかどうかを調べる。図10の例では、2文字目の認識対象文字についての候補文字群に含まれる認識候補文字と対応するキーワードの文字「良」との一致を順に調べていくと、第3位に「良」があり、一致する。このため、キーワード「奈良県」は認識対象文字列内にあると判定される。上記の類似度または評価値について閾値を設定し、探索する範囲を閾値以上のものに限定することも可能である。
In the example of FIG. 10, the second recognition candidate character is an example in which the correct character “good” is not the first candidate during the character recognition process. When the above setting conditions are satisfied, the
図11は、図8及び図9のキーワード辞書照合ステップS201における処理手順を示すフローチャートである。キーワード辞書照合ステップS201の処理が部分一致まで拡張されている。ここでは、あるキーワードとある認識候補文字列のある位置でマッチングした際の動作を述べる。実際には、認識候補文字列のマッチング位置ごと、及び、キーワードごとに図11の処理を呼び出す。 FIG. 11 is a flowchart showing a processing procedure in the keyword dictionary collation step S201 of FIGS. The processing of the keyword dictionary collation step S201 is extended to partial matching. Here, an operation when matching a certain keyword with a certain recognition candidate character string at a certain position will be described. Actually, the processing of FIG. 11 is called for each matching position of the recognition candidate character string and for each keyword.
図11に示すように、まず、照合部60がマッチングステップを実行する(ステップS401)。このマッチングステップS401では、キーワードと認識候補文字列のある位置で通常のマッチングを行う。
As shown in FIG. 11, the
次に、照合部60が文字数の集計ステップを実行する(ステップS402)。この文字数集計ステップ402では、マッチングステップS401におけるマッチング結果から、キーワードと認識候補文字列との間で一致した文字数(一致文字数)を集計する。
Next, the
そして、キーワードの文字数と一致文字数とが一致した場合には(ステップS403YES)、照合部60はキーワードありと判定する(ステップS404)。このキーワードあり判定ステップS404では、認識候補文字列中に現在マッチング対象にしているキーワードがあると判定する。
If the number of characters in the keyword matches the number of matching characters (YES in step S403), the matching
一方、キーワードと認識候補文字列とが完全に一致しない場合には(ステップS403NO)、照合部60はあらかじめ設定された上記の設定条件を満足するか否かを判断する(ステップS405)。そして、満足しない場合には(ステップS405NO)、照合部60は、キーワードなしと判定する(ステップS406)。このキーワードなし判定ステップ406では、認識候補文字列中に現在マッチング対象にしているキーワードはないと判定する。
On the other hand, when the keyword and the recognition candidate character string do not completely match (NO in step S403), the
また、上記の設定条件を満足する場合には(ステップS405YES)、照合部60は不一致文字の位置を特定する(ステップS407)。この不一致文字位置特定ステップS407では、キーワードと認識候補文字列とで一致しない文字の位置を特定する。
If the above setting condition is satisfied (YES in step S405), the
次に、照合部60は、不一致文字が属する候補文字群に含まれる他の認識候補文字を参照する(ステップS408)。この認識候補文字参照ステップS408では、不一致文字位置特定ステップS407において特定された不一致文字位置のうちの1つにおける上記他の認識候補文字の1つを選択する。
Next, the
そして、認識候補文字参照ステップS408において選択された認識候補文字と上記不一致文字とを入れ替えた認識候補文字列中におけるキーワードの有無が判断される(ステップS409)。そして、キーワードが無ければ(ステップS409NO)、照合部60はキーワードなしと判定する(ステップS406)。
Then, it is determined whether or not there is a keyword in the recognition candidate character string in which the recognition candidate character selected in the recognition candidate character reference step S408 is replaced with the mismatched character (step S409). If there is no keyword (NO in step S409), the
一方、キーワードが有れば(ステップS409YES)、照合部60は、マッチング時の全ての不一致文字をステップS407〜ステップS409の手順で処理したかどうかを判断する(ステップS410)。認識結果によっては、複数の不一致文字が存在する場合もあるためである。不一致文字がまだある場合には(ステップS410NO)、ステップS407に戻って不一致文字の検出を続ける。不一致文字がない場合には(ステップS410YES)、キーワードありと判定する(ステップS404)。
On the other hand, if there is a keyword (YES in step S409), the
図12に、本実施の形態のキーワード辞書照合ステップS201の処理結果例を示す。図10に示した認識候補文字列「奈食県天理市」に対し、「住所」、「姓」、「名」、「一般」の各辞書中のキーワードとマッチングした際の結果を示している。分野ごとに、上記の認識候補文字列とキーワードをマッチングさせた際に、一致したキーワードとその一致した認識候補文字列中の位置を記録する。認識候補文字列中の位置は、認識候補文字列の先頭を基準としてキーワードの開始位置を表示している。また、出力文字数よりキーワードの方が長く、出力文字列にワイルドカードを付けてキーワードとマッチした場合は追加したワイルドカードの数も記録する。図12の例では、住所辞書にキーワード「奈良」、「奈良県」、「天理市」があり、姓辞書にキーワード「奈良」がある場合で、認識候補文字列とのマッチングでこれらのキーワードが発見された場合である。内容はマッチしたキーワード、キーワードの出力文字列中での位置、マッチング時に追加したワイルドカードの個数である。 FIG. 12 shows an example of the processing result of the keyword dictionary collation step S201 of the present embodiment. For the recognition candidate character string “Tenri City, Nago Prefecture” shown in FIG. 10, the result of matching with keywords in the “address”, “last name”, “first name”, and “general” dictionaries is shown. . When the recognition candidate character string and the keyword are matched for each field, the matched keyword and the position in the matching recognition candidate character string are recorded. The position in the recognition candidate character string indicates the start position of the keyword with reference to the beginning of the recognition candidate character string. In addition, if the keyword is longer than the number of output characters and a wild card is added to the output character string to match the keyword, the number of added wild cards is also recorded. In the example of FIG. 12, the keywords “Nara”, “Nara Prefecture”, and “Tenri City” are in the address dictionary and the keyword “Nara” is in the surname dictionary, and these keywords are matched with the recognition candidate character strings. This is the case. The contents are the matched keyword, the position of the keyword in the output string, and the number of wildcards added during matching.
なお、これらの情報は、例えば、出力部9から出力された認識結果文字列に含まれるキーワードに関する情報として、利用者に提供してもよい。
In addition, you may provide such information to a user as information regarding the keyword contained in the recognition result character string output from the
(実施の形態6)
(文字列生成装置32の構成)
次に、本発明の実施の形態6について説明する。図13は、本実施の形態にかかる文字列生成装置32の概略構成を示すブロック図である。図13において、本実施の形態にかかる文字列生成装置32は、上記の実施の形態5の文字列生成層と同様、制御部1と、文字認識部2と、候補蓄積部3と、算出部4と、関連情報蓄積部5と、文字列結合部6と、決定部7と、入力部8と、出力部9と、照合部60と、キーワード辞書61と、を備えている。
(Embodiment 6)
(Configuration of the character string generation device 32)
Next, a sixth embodiment of the present invention will be described. FIG. 13 is a block diagram showing a schematic configuration of the character
本実施の形態にかかる文字列生成装置32はさらに、分野解析部(キーワード解析手段)130と、書き換え規則記憶部131と、備えている。分野解析部130は、制御部1と接続されており、文字列結合部6が生成する認識候補文字列に含まれるキーワードの分野を解析し、その解析結果に基づいて、その認識候補文字列の確度(確実さの程度)を付加する。書き換え規則記憶部131は、分野解析部130がキーワード解析の際に利用するキーワード分野の書き換え規則をあらかじめ記憶している。なお、分野解析部130は、算出部4や、照合部60と同じ技術で実現可能であり、書き換え規則記憶部131はキーワード辞書と同様の蓄積部で実現可能である。
The character
(分野解析部130及び書き換え規則記憶部131の詳細)
次に、分野解析部130及び書き換え規則記憶部131について説明する。図14は、上記の実施の形態5のキーワード辞書照合ステップS201の処理結果例を示す。図14の処理結果例は、認識候補文字列「奈良県警」をキーワード辞書で照合した場合の結果である。図14に示すように、「奈良県警」の分野が住所であるとすると、住所キーワード辞書との照合により「奈良県」がマッチし、「警」はどの辞書ともマッチしない状況になる。一方、「奈良」が住所あるいは「姓」とすると、一般分野のキーワード辞書にエントリされている「県警」との組み合わせになる。
(Details of the
Next, the
生成された認識候補文字列が同じ分野の部分文字列の組み合わせで生成されていれば認識対象文字列の分野依存が確認でき、且つ、生成された文字列も正しい確率が高くなる。しかし、上記の場合のように、どの辞書ともマッチしない文字列を含む場合や、分野の違う文字列の組み合わせの場合には、生成された文字列は正しい確率が低くなってしまう。 If the generated recognition candidate character string is generated by a combination of partial character strings in the same field, the field dependence of the recognition target character string can be confirmed, and the generated character string has a high probability of being correct. However, as described above, when a character string that does not match any dictionary is included, or in the case of a combination of character strings in different fields, the generated character string has a low probability of being correct.
本実施の形態は、上記のような場合でも、生成される認識候補文字列に、その認識候補文字列の確からしさを示す精度情報を、評価値とは別に付加することにより、正しい認識結果文字列が生成される確率を高くするものである。 In this embodiment, even in the above case, correct recognition result characters are added to the generated recognition candidate character string by adding accuracy information indicating the likelihood of the recognition candidate character string separately from the evaluation value. This increases the probability that a sequence is generated.
図15に、図13に示した書き換え規則記憶部131に記憶された書き換え規則の内容の一例を示す。図15において、左側の要素は文字または分野である。「+」記号は、文字または分野どうしを結合可能であることを示している。〔〕は分野を示している。〔〕の付かない文字は単なる文字で、〔〕の中の文字は分野を表わしている。したがって、〔住所〕は分野「住所」という意味である。図15では、複数の文字列の組み合わせからなる認識候補文字列の各文字列の分野からその認識候補文字列全体としての分野を解析するための、分野「住所」についての書き換え規則を中心に示している。ここで、〔数〕は分野「数字」で、算用数字、漢数字、ローマ数字などが該当する。〔未〕はいずれのキーワード辞書ともマッチしない場合に付けられる未定義の分野を持つ文字あるいは文字列という意味であり、文字列全体の結果が〔未〕の場合であれば分野解析不能ということである。〔*〕はキーワード辞書のいずれかとマッチすることを意味し、〔姓名〕は〔姓〕と〔名〕をつないだ姓名という分野である。また、「→」は書き換えが可能であることを示している。
FIG. 15 shows an example of the contents of the rewrite rule stored in the rewrite
図16は、本発明の実施の形態6にかかる文字列生成装置の文字列生成方法の処理手順を示すフローチャートである。図9及び図11に示した上記実施の形態5のフローチャートと同一のステップには、同一の番号が付されている。ここでは、上記の実施の形態5とは異なる点のみ説明する。 FIG. 16 is a flowchart showing the processing procedure of the character string generation method of the character string generation device according to the sixth embodiment of the present invention. The same steps as those in the flowchart of the fifth embodiment shown in FIGS. 9 and 11 are denoted by the same reference numerals. Here, only differences from the fifth embodiment will be described.
図16において、分野解析部130は、図14に示した処理結果例に対して分野解析を行う(ステップS501)。例えば、認識候補文字列が「奈良県警」の場合、この「奈良県警」は、〔住所〕の「奈良県」と〔未〕との組み合わせであると、分野解析部130が判定した場合、図15の書き換え規則120により解析不能という結果になる。
In FIG. 16, the
解析不能の場合には(ステップS502NO)、分野解析部130は、照合部60の照合結果(ここでは、図14の処理結果例)に基づいて、〔住所〕を含めて他の分野のキーワードの組み合わせが無いかを調べ(ステップS504)、あれば(ステップS504YES)、異なる分野候補に対し再度「奈良県警」についての分野解析を行う(ステップS501)。図14の処理結果例であれば、「奈良県警」について(「奈良県」〔住所〕)(「警」〔未〕)→〔未〕という書き換え規則が適用されるのであれば、上記と同じ結果となるが、(「奈良」〔住所〕)(「県警」(一般))→〔一般〕という書き換え規則が適用されれば、解析成功という結果となる(S502にてYES)。
When the analysis is impossible (NO in step S502), the
すなわち、分野解析部130は、認識候補文字列が、所定のキーワードの組み合わせから構成されているかどうかを判定するキーワード判定のための複数の判定基準(書き換え規則)のうちの1つである第1の判定基準(第1の書き換え規則)を用いてキーワード判定を行い、当該認識候補文字列が所定のキーワードの組み合わせから構成されていないと第1の判定基準に基づいて判定した場合に、第1の判定基準とは異なる第2の判定基準(第2の書き換え規則)を用いてキーワード判定を行う。
That is, the
分野解析部130は、解析成功との結果に基づき、確度が高いという情報(+確度情報)を認識候補文字列である「奈良県警」に付加する(ステップS503)。一方、他の分野候補の組み合わせが無く(ステップS504にてNO)、分野解析不成功で終わる場合は、確度が低いという情報(−確度情報)を、その認識候補文字列に付加する(ステップS506)。
The
決定部7は、この確度情報に基づき、認識結果文字列決定ステップS109において、+確度情報が付加された認識候補文字列である「奈良県警」を認識結果文字列として決定し、出力部9が、認識結果文字列出力ステップS110において、決定部7によって決定された認識結果文字列の出力を実行する。
Based on this accuracy information, the
このように、分野解析を行うことによって、生成された文字列の確度を判定し、+確度情報が付加された認識候補文字列を認識結果文字列として決定し、出力することにより、認識結果文字列の認識精度を高めることができる。 In this way, by performing field analysis, the accuracy of the generated character string is determined, the recognition candidate character string to which the + accuracy information is added is determined as a recognition result character string, and the recognition result character string is output. Column recognition accuracy can be increased.
なお、本発明は、上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the technical means disclosed in different embodiments can be appropriately combined. Such embodiments are also included in the technical scope of the present invention.
最後に、各実施の形態にかかる文字列生成装置の各ブロック、特に制御部1は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
Finally, each block of the character string generation device according to each embodiment, in particular, the
すなわち、各実施の形態にかかる文字列生成装置は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、前記プログラムを格納したROM(read only memory)、前記プログラムを展開するRAM(random access memory)、前記プログラム及び各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである光ディスク装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、前記光ディスク装置に供給し、そのコンピュータ(又はCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。 That is, the character string generation device according to each embodiment expands a CPU (central processing unit) that executes instructions of a control program that implements each function, a ROM (read only memory) that stores the program, and the program. A random access memory (RAM), a storage device (recording medium) such as a memory for storing the program and various data, and the like are provided. An object of the present invention is to provide a recording medium in which a program code (execution format program, intermediate code program, source program) of a control program for an optical disc apparatus, which is software that realizes the functions described above, is recorded in a computer-readable manner, This can also be achieved by supplying the optical disc apparatus and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).
前記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやコンパクトディスク−ROM/MO/MD/デジタルビデオデイスク/コンパクトディスク−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。 Examples of the recording medium include a tape system such as a magnetic tape and a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, and a compact disk-ROM / MO / MD / digital video disk / compact disk-R. A disk system including an optical disk, a card system such as an IC card (including a memory card) / optical card, or a semiconductor memory system such as a mask ROM / EPROM / EEPROM / flash ROM can be used.
また、各実施の形態にかかる文字列生成装置を通信ネットワークと接続可能に構成し、前記プログラムコードを、通信ネットワークを介して、供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、前記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。 The character string generation device according to each embodiment may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited. For example, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication. A net or the like is available. Also, the transmission medium constituting the communication network is not particularly limited. For example, even in the case of wired such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line, etc., infrared rays such as IrDA and remote control, Bluetooth ( (Registered trademark), 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like can also be used. The present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
なお、本発明は、以下のようにも表現することができる。すなわち、本発明にかかる文字列生成装置は、文字認識の候補の列から認識結果としての文字列を生成する文字列生成装置であって、文字認識候補を類似度とともに蓄積する候補蓄積手段と、各文字と予め定められた分野間の関連性を示す情報を蓄積する分野別関連情報蓄積手段と、生成する文字列の信頼度を表す評価値を算出する算出手段と、上記評価値に基づいて文字列を結合する文字列結合手段を備え、上記算出手段によって類似度と分野別関連情報に基づいて認識対象の各文字の分野毎の評価値を求め、最大評価値分野の文字列を結合した文字列を生成する。 The present invention can also be expressed as follows. That is, the character string generation device according to the present invention is a character string generation device that generates a character string as a recognition result from a character recognition candidate sequence, and a candidate storage unit that stores the character recognition candidates together with the similarity, Based on the evaluation value, a field-specific related information storage unit that stores information indicating the relationship between each character and a predetermined field, a calculation unit that calculates an evaluation value representing the reliability of the generated character string, and Character string combining means for combining character strings is provided, and the above calculation means obtains an evaluation value for each field of each character to be recognized based on similarity and field-related information, and combines the character strings of the maximum evaluation value fields. Generate a string.
上記算出手段は評価値の算出に際して文字認識候補の類似度又は分野別関連情報を正規化した数値を用いることが好ましい。 The calculation means preferably uses a numerical value obtained by normalizing the similarity of character recognition candidates or the field-related information when calculating the evaluation value.
上記算出手段は評価値の算出に際して適用する業務の種類に応じて文字認識候補の類似度又は分野別関連情報の分野寄与度に基づいた数値を用いることが好ましい。 The calculation means preferably uses a numerical value based on the similarity of the character recognition candidates or the field contribution of the field related information according to the type of work applied when calculating the evaluation value.
上記文字列生成装置はさらに、上記各分野に対応したキーワードを蓄積したキーワード辞書蓄積手段と、上記生成された文字列とキーワード辞書のキーワードとのマッチングをとる照合手段を備え、上記評価値が最大となる文字列が上記照合手段により照合された上記キーワードと一致し、当該キーワード辞書の分野が前記分野と同一の場合に、上記分野別に結合した文字列を認識結果として生成することが好ましい。 The character string generation device further includes a keyword dictionary storage unit that stores keywords corresponding to the respective fields, and a matching unit that matches the generated character string with a keyword in the keyword dictionary, and the evaluation value is the maximum. When the character string to be matched with the keyword collated by the collating means and the field of the keyword dictionary is the same as the field, it is preferable to generate a character string combined by the field as a recognition result.
上記評価値が最大となる文字列が上記照合手段により照合されたいずれのキーワードともその一部が一致せず、当該不一致文字の認識の他の候補の中に当該不意一文字と置き換えることによって上記文字列がキーワード一致する場合は、当該文字部分を他の候補で置き換えた文字列を認識結果として生成することが好ましい。 The character string with the maximum evaluation value does not partially match any of the keywords collated by the collating means, and the character is replaced by the unexpected character in another candidate for recognition of the mismatched character. When the columns match with each other, it is preferable to generate a character string in which the character portion is replaced with another candidate as a recognition result.
上記文字列生成装置はさらに、上記各分野に対応したキーワードを蓄積したキーワード辞書蓄積手段と、上記生成された文字列とキーワード辞書のキーワードとのマッチングをとる照合手段と、分野項目間の結合による分野項目書き換え規則を蓄積する書き換え規則蓄積手段と、上記分野項目書き換え規則を適用して分野項目を決定する分野解析手段を備え、上記評価値が最大となる文字列の分野が上記書き換え規則を適用することにより、文字列全体が分野解析可能な否かに基づいて生成した文字列の確度情報を付加することが好ましい。 The character string generation device further includes a keyword dictionary storage means for storing keywords corresponding to the respective fields, a matching means for matching the generated character strings with keywords of the keyword dictionary, and a combination between the field items. Rewriting rule storage means for storing field item rewriting rules and field analysis means for determining field items by applying the field item rewriting rules, and applying the rewriting rules to the field of the character string having the maximum evaluation value Thus, it is preferable to add the accuracy information of the character string generated based on whether the entire character string can be analyzed in the field.
対象とする文字列に対し上記書き換え規則を再帰的に適用し分野解析手段で解析した結果解析不能の場合、他の分野属性の候補に対し分野解析を行うことが好ましい。 When the rewrite rule is recursively applied to the target character string and analysis is not possible as a result of analysis by the field analysis means, it is preferable to perform field analysis on other field attribute candidates.
上記分野解析の結果、分野解析可能な場合は生成された文字列の確度を上げ、解析不能の場合生成された文字列の確度を下げることが好ましい。 As a result of the field analysis, it is preferable to increase the accuracy of the generated character string when the field analysis is possible and to decrease the accuracy of the generated character string when the analysis is impossible.
本発明にかかる文字列生成プログラムは、上記の文字列分類装置の上記各手段としてコンピュータを動作させるための文字列生成プログラムである。 A character string generation program according to the present invention is a character string generation program for causing a computer to operate as each of the means of the character string classification device.
本発明にかかるコンピュータ読み取り可能な記録媒体は、上記の文字列生成プログラムを記録した、コンピュータ読み取り可能な記録媒体である。 The computer-readable recording medium concerning this invention is a computer-readable recording medium which recorded said character string production | generation program.
本発明にかかる文字列生成方法は、文字認識の候補の列から認識結果としての文字列を生成する文字列生成装置を用いた文字列生成方法であって、文字認識候補を類似度とともに蓄積する候補蓄積ステップと、各文字と予め定められた分野間の関連性を示す情報を蓄積する分野別関連情報蓄積ステップと、生成する文字列の信頼度を表す評価値を算出する算出ステップと、上記評価値に基づいて文字列を結合する文字列結合ステップを備え、上記算出ステップによって求めた類似度と分野別関連情報に基づいて認識対象の各文字の分野毎の評価値を求めるステップと、最大評価値分野の文字列を結合した文字列を生成するステップを備える。 A character string generation method according to the present invention is a character string generation method using a character string generation device that generates a character string as a recognition result from a character recognition candidate string, and accumulates character recognition candidates together with a similarity. A candidate accumulation step, a field-specific related information accumulation step for accumulating information indicating the relationship between each character and a predetermined field, a calculation step for calculating an evaluation value representing the reliability of the character string to be generated, and A character string combining step for combining character strings based on the evaluation value, and a step of determining an evaluation value for each field of each character to be recognized based on the similarity obtained by the calculation step and the field-related information; And a step of generating a character string obtained by combining the character strings in the evaluation value field.
本発明は、文書原稿を光学的に読み取って得られる画像データより当該文書原稿の文字列を生成する文字列生成装置に適用できる。文字認識結果から少ない計算量でより精度良くキーワードの有無が判定できるため、全体の計算量が削減でき、OCRの動作の高速化につながる。 The present invention can be applied to a character string generation device that generates a character string of a document original from image data obtained by optically reading the document original. Since the presence / absence of a keyword can be determined more accurately with a small amount of calculation from the character recognition result, the total amount of calculation can be reduced, leading to faster operation of the OCR.
1 制御部
2 文字認識部
3 候補蓄積部
4 算出部(算出手段)
5 関連情報蓄積部
6 文字列結合部(文字列結合手段)
7 決定部(決定手段)
8 入力部
9 出力部
30、31、32 文字列生成装置
60 照合部(照合手段、置換手段)
61 キーワード辞書
130 分野解析部(キーワード解析手段)
131 書き換え規則記憶部
DESCRIPTION OF
5. Related
7 decision part (decision means)
8
61
131 Rewrite rule storage unit
Claims (15)
1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、前記類似度と、複数設定された所定の概念のうちの1つを表現する場合にその候補文字が使用される頻度または前記候補文字と前記所定の概念のうちの1つとの関連性の程度を表す関連度とを用いて、前記認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、前記所定の概念ごとに算出する算出手段と、
前記算出手段により算出された、前記所定の概念ごとの評価値を用いて、前記各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を結合することによって、前記認識対象文字列の認識結果の候補である候補文字列を、前記所定の概念ごとに生成する文字列結合手段と、
前記文字列結合手段が生成した候補文字列の中から、前記認識対象文字列の認識結果となる認識結果文字列を決定する決定手段と
を備えることを特徴とする文字列生成装置。 Character recognition using similarity between the recognition target character included in the recognition target character string composed of the recognition target characters to be recognized and a plurality of candidate characters that are candidates for recognition results of the recognition target character A character string generator for performing
A candidate character group consisting of one or more candidate characters is acquired for each recognition target character, and the candidate character is used when expressing the similarity and one of a plurality of predetermined concepts. For each candidate character, an evaluation value representing the probability as the recognition result of the recognition target character is used using the frequency or the degree of association representing the degree of relevance between the candidate character and one of the predetermined concepts. Calculating means for calculating for each of the predetermined concepts;
The recognition target is obtained by combining candidate characters selected one by one from the candidate character group corresponding to each recognition target character using the evaluation value for each predetermined concept calculated by the calculation unit. A character string combining means for generating a candidate character string that is a candidate of a character string recognition result for each of the predetermined concepts;
A character string generation apparatus comprising: a determination unit that determines a recognition result character string that is a recognition result of the recognition target character string from candidate character strings generated by the character string combination unit.
前記文字列結合手段が生成した候補文字列と、前記キーワード辞書に格納されているキーワードとを照合することにより、両者が一致するかどうかを判定する照合手段とをさらに備え、
前記決定手段は、前記照合手段の判定結果を用いて前記認識結果文字列を決定することを特徴とする請求項1〜5のいずれか1項に記載の文字列生成装置。 A keyword dictionary for storing keywords having relevance to any of the predetermined concepts;
Collating means for determining whether or not they match by collating the candidate character strings generated by the character string combining means with the keywords stored in the keyword dictionary;
The character string generation device according to claim 1, wherein the determination unit determines the recognition result character string using a determination result of the collation unit.
前記照合手段は、所定の規則に従って、前記候補文字列と照合するキーワードが属する所定の概念を選択し、選択した所定の概念に属するキーワードと前記候補文字列とを照合することを特徴とする請求項6に記載の文字列生成装置。 The keywords are classified according to the predetermined concept,
The collation means selects a predetermined concept to which a keyword to be collated with the candidate character string belongs according to a predetermined rule, and collates the keyword belonging to the selected predetermined concept with the candidate character string. Item 7. The character string generation device according to Item 6.
前記決定手段は、前記置換手段が生成した候補文字列を、前記認識結果文字列の候補に加えることを特徴とする請求項6に記載の文字列生成装置。 When the collating unit determines that the candidate character string and the keyword are partially different within a predetermined condition range, a candidate character group including the candidate character is selected as a candidate character that does not match the keyword. A replacement means for replacing with another candidate character having
The character string generation device according to claim 6, wherein the determination unit adds the candidate character string generated by the replacement unit to the recognition result character string candidate.
前記照合手段は、前記候補文字列が複数のキーワードの組み合わせによって構成されていると前記キーワード解析手段が判定した場合に、当該キーワードの組み合わせと前記候補文字列とを照合することを特徴とする請求項6または7に記載の文字列生成装置。 When the collating unit determines that the candidate character string and the keyword do not match, the collating unit further includes a keyword analyzing unit that determines whether or not the candidate character string is configured by a combination of a plurality of keywords,
The collation means, when the keyword analysis means determines that the candidate character string is composed of a combination of a plurality of keywords, collates the keyword combination with the candidate character string. Item 8. The character string generation device according to Item 6 or 7.
前記決定手段は、前記候補文字列に付加された確度情報を用いて前記認識結果文字列を決定することを特徴とする請求項9〜11のいずれか1項に記載の文字列生成装置。 When the keyword analyzing unit determines that the candidate character string is configured by a combination of a plurality of keywords, the matching unit is based on a matching result obtained by matching the keyword combination with the candidate character string. Give the candidate character string accuracy information indicating the probability of the candidate character string,
The character string generation device according to any one of claims 9 to 11, wherein the determination unit determines the recognition result character string using accuracy information added to the candidate character string.
1つ以上の候補文字からなる候補文字群を、各認識対象文字について取得し、前記類似度と、複数設定された所定の概念のうちの1つを表現する場合にその候補文字が使用される頻度または前記候補文字と前記所定の概念のうちの1つとの関連性の程度を表す関連度とを用いて、前記認識対象文字の認識結果としての確からしさを表す評価値を各候補文字について、前記所定の概念ごとに算出する算出ステップと、
前記算出ステップにおいて算出された、前記所定の概念ごとの評価値を用いて、前記各認識対象文字に対応する候補文字群からそれぞれ1つずつ選ばれた候補文字を結合することによって、前記認識対象文字列の認識結果の候補である候補文字列を、前記所定の概念ごとに生成する文字列結合ステップと、
前記文字列結合ステップにおいて生成された候補文字列の中から、前記認識対象文字列の認識結果となる認識結果文字列を決定する決定ステップと
を備えることを特徴とする文字列生成方法。 Character recognition using similarity between the recognition target character included in the recognition target character string composed of the recognition target characters to be recognized and a plurality of candidate characters that are candidates for recognition results of the recognition target character A string generation method for performing
A candidate character group consisting of one or more candidate characters is acquired for each recognition target character, and the candidate character is used when expressing the similarity and one of a plurality of predetermined concepts. For each candidate character, an evaluation value representing the probability as the recognition result of the recognition target character is used using the frequency or the degree of association representing the degree of relevance between the candidate character and one of the predetermined concepts. A calculation step of calculating for each predetermined concept;
Using the evaluation value for each predetermined concept calculated in the calculation step, combining the candidate characters selected one by one from the candidate character group corresponding to each of the recognition target characters, the recognition target A character string combining step for generating a candidate character string that is a candidate of a character string recognition result for each of the predetermined concepts;
A character string generation method comprising: a determination step of determining a recognition result character string that is a recognition result of the recognition target character string from among the candidate character strings generated in the character string combining step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008162463A JP5095518B2 (en) | 2008-06-20 | 2008-06-20 | CHARACTER STRING GENERATION DEVICE AND METHOD, CHARACTER STRING GENERATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE CHARACTER STRING GENERATION PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008162463A JP5095518B2 (en) | 2008-06-20 | 2008-06-20 | CHARACTER STRING GENERATION DEVICE AND METHOD, CHARACTER STRING GENERATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE CHARACTER STRING GENERATION PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010003182A true JP2010003182A (en) | 2010-01-07 |
JP5095518B2 JP5095518B2 (en) | 2012-12-12 |
Family
ID=41584832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008162463A Expired - Fee Related JP5095518B2 (en) | 2008-06-20 | 2008-06-20 | CHARACTER STRING GENERATION DEVICE AND METHOD, CHARACTER STRING GENERATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE CHARACTER STRING GENERATION PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5095518B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528323A (en) * | 1991-07-18 | 1993-02-05 | Oki Electric Ind Co Ltd | Character recognition device |
JPH05298489A (en) * | 1992-04-20 | 1993-11-12 | N T T Data Tsushin Kk | System for recognizing character |
JPH10269210A (en) * | 1997-03-24 | 1998-10-09 | Sharp Corp | Character input device |
JP2004030695A (en) * | 2003-09-29 | 2004-01-29 | Fujitsu Ltd | Keyword extraction and search device |
JP2007102264A (en) * | 2005-09-30 | 2007-04-19 | Toshiba Corp | Character recognition device and method |
-
2008
- 2008-06-20 JP JP2008162463A patent/JP5095518B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528323A (en) * | 1991-07-18 | 1993-02-05 | Oki Electric Ind Co Ltd | Character recognition device |
JPH05298489A (en) * | 1992-04-20 | 1993-11-12 | N T T Data Tsushin Kk | System for recognizing character |
JPH10269210A (en) * | 1997-03-24 | 1998-10-09 | Sharp Corp | Character input device |
JP2004030695A (en) * | 2003-09-29 | 2004-01-29 | Fujitsu Ltd | Keyword extraction and search device |
JP2007102264A (en) * | 2005-09-30 | 2007-04-19 | Toshiba Corp | Character recognition device and method |
Also Published As
Publication number | Publication date |
---|---|
JP5095518B2 (en) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270196B (en) | Entity relationship identification method and device and electronic equipment | |
US10599627B2 (en) | Automatically converting spreadsheet tables to relational tables | |
US10482174B1 (en) | Systems and methods for identifying form fields | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
US11157816B2 (en) | Systems and methods for selecting and generating log parsers using neural networks | |
US10963685B2 (en) | Generating variations of a known shred | |
CN110569500A (en) | Text semantic recognition method and device, computer equipment and storage medium | |
CN110598206A (en) | Text semantic recognition method and device, computer equipment and storage medium | |
US10311374B2 (en) | Categorization of forms to aid in form search | |
CN110866098B (en) | Machine reading method and device based on transformer and lstm and readable storage medium | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
JP6870421B2 (en) | Judgment program, judgment device and judgment method | |
WO2020065970A1 (en) | Learning system, learning method, and program | |
CN114118194A (en) | System and method for selecting learning model | |
CN117493645B (en) | Big data-based electronic archive recommendation system | |
US20250190685A1 (en) | Method, device, and system for analyzing unstructured document | |
US12125318B1 (en) | Apparatus and a method for detecting fraudulent signature inputs | |
CN119128076A (en) | A judicial case retrieval method and system based on course learning | |
JP2015045984A (en) | Information processing apparatus, character recognition method, and program | |
EP3640861A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
JP5095518B2 (en) | CHARACTER STRING GENERATION DEVICE AND METHOD, CHARACTER STRING GENERATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE CHARACTER STRING GENERATION PROGRAM | |
JP7421384B2 (en) | Information processing device, correction candidate display method, and program | |
JP7268316B2 (en) | Information processing device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5095518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |