JP3201207B2 - Address reading apparatus and method - Google Patents
Address reading apparatus and methodInfo
- Publication number
- JP3201207B2 JP3201207B2 JP05394695A JP5394695A JP3201207B2 JP 3201207 B2 JP3201207 B2 JP 3201207B2 JP 05394695 A JP05394695 A JP 05394695A JP 5394695 A JP5394695 A JP 5394695A JP 3201207 B2 JP3201207 B2 JP 3201207B2
- Authority
- JP
- Japan
- Prior art keywords
- address
- display number
- character
- address display
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
- Sorting Of Articles (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は,郵便物を自動的に区分
するために,郵便物上に記載されている住所情報を読み
取る住所読取装置及びその方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an address reading apparatus and an address reading method for reading address information written on a mail in order to automatically sort the mail.
【0002】[0002]
【従来の技術】住所情報として,例えば「東京都国分寺
市西恋ヶ窪3丁目8−1」が記述されていた時,「東京
都国分寺市西恋ヶ窪」を町域情報,「3丁目8−1」の
数字で記述されている部分を住所表示番号情報と定義す
る。従来,郵便自動読み取り区分法としては,町域情報
について区分をする方式が知られている。これは「東京
都」,「国分寺市」,「西恋ヶ窪」と階層構造を持つた
め,1,2字程度文字が認識できない場合でも,階層構
造を利用して,知識処理によりそれを補間することで,
町域情報全体を認識することが可能だからである。一
方,住所表示番号情報はそのような階層構造がない上
に,同じ意味を持つ住所表示番号でも様々な記述形態が
存在する。例えば,「三丁目八番地一号」,「3丁目8
−1」,「3−8−1」,「3の8の1」は同じ住所表
示番号を意味する。2. Description of the Related Art As address information, for example, "3-8-1, Nishi-Koigabo, Kokubunji-shi, Tokyo" is described. Is defined as address display number information. 2. Description of the Related Art Conventionally, as an automatic postal reading classification method, a method of classifying town area information is known. This has a hierarchical structure of "Tokyo", "Kokubunji", and "Nishi-Koigabo", so even if one or two characters cannot be recognized, use the hierarchical structure to interpolate it by knowledge processing. so,
This is because it is possible to recognize the entire area information. On the other hand, the address display number information does not have such a hierarchical structure, and various description forms exist for address display numbers having the same meaning. For example, "3 chome 8 ichi 1", "3 chome 8
"-1", "3-8-1" and "1 of 3-8" mean the same address display number.
【0003】従来,このような住所表示番号の区分方法
としては,例えば,特開平6−124366号公報,ま
たは電子方法通信学会信学技法NCL92−26,PR
U92−40(1992年10月)「住所読み取りにお
ける丁目・街区認識方式」が知られている。この手法
は,切り出した各文字パターンを認識した後,認識した
結果の文字種に応じてラベル付けし,住所表示番号部分
を数値部と区切り情報部に分ける。Conventionally, as a method of classifying such address display numbers, for example, Japanese Patent Application Laid-Open No. 6-124366 or IEICE NCL 92-26, PR
U92-40 (October 1992) "Chome / Block Recognition Method in Address Reading" is known. This method recognizes each cut-out character pattern, labels it according to the character type of the recognized result, and divides the address display number part into a numerical part and a delimiter information part.
【0004】例えば,「3丁目8−1」は「NDDND
N」(N:算用数字を表すラベル,D:区切り情報を表
すラベル)となる。その後,ラベルの全ての組み合わせ
に応じた複数の処理関数を予め用意しておき,前述のラ
ベル付け応じた個別の処理関数を呼び出すことにより,
住所表示番号を認識するものである。For example, "3-chome 8-1" is replaced with "NDDDND".
N "(N: label representing arithmetic numeral, D: label representing delimiter information). After that, a plurality of processing functions corresponding to all combinations of labels are prepared in advance, and by calling the individual processing functions corresponding to the labeling described above,
It recognizes the address display number.
【0005】[0005]
【発明が解決しようとする課題】しかしながら,上記の
方法では2つの大きな問題点がある。一つ目の問題点
は,誤認識に十分対応できないという問題である。例え
ば,「3丁目8−1」という住所表示番号が入力された
時に,「丁」の認識結果に数字や区切り情報を表す文字
以外の認識候補しかなかった場合には,ラベル付けを行
うことができないために対応できない。あるいは,住所
表示番号の領域が検出できなかった場合は,ラベル付け
ができなくなるので住所表示番号を認識することができ
ない。However, the above method has two major problems. The first problem is that erroneous recognition cannot be sufficiently dealt with. For example, if the address display number “3-chome 8-1” is input and the recognition result of “chome” contains only recognition candidates other than characters representing numbers and delimiter information, labeling may be performed. I can not respond because I can not do it. Alternatively, if the area of the address display number cannot be detected, labeling cannot be performed, so that the address display number cannot be recognized.
【0006】また,上記方法では区切り情報を表す文字
を一つのラベルで表して区別していない。そのため,例
えば「3丁目8−1」の「目」が誤認識されて「8」と
いう認識候補があった場合は,「NDNNDN」という
ラベル付けがなされることになり,数字と数字の間が区
切り情報で仕切られているので,一見矛盾のないラベル
付けがなされることになる。[0006] In the above method, characters representing delimiter information are represented by one label and are not distinguished. Therefore, for example, if the "eye" of "3-chome 8-1" is erroneously recognized and there is a recognition candidate of "8", the labeling of "NDNNNDN" will be made, and the number between the numbers will be displayed. At first glance, the labels are separated by the delimiter information, so that seemingly consistent labels can be obtained.
【0007】この問題は区切り情報を詳細に区別すれば
解決できる。しかし,この装置では高速に処理すること
を目的として,ラベル付けに応じた個別の処理関数を設
けてそれぞれで処理を行っている。そのため,住所表示
番号の様々な表記パターンを詳細に分類して処理しよう
とすると,非常に多くの処理関数を設ける必要があり,
非常に困難となる。[0007] This problem can be solved by separating the delimiter information in detail. However, in this apparatus, for the purpose of high-speed processing, individual processing functions corresponding to labeling are provided and each processing is performed. Therefore, in order to classify and process various notation patterns of address display numbers in detail, it is necessary to provide an extremely large number of processing functions.
It will be very difficult.
【0008】2つ目の問題点は,個別処理関数方式であ
るため,新しい表記パターンへの登録をする場合は新し
く関数を生成する必要があり,メンテナンスが容易でな
いという問題である。[0008] The second problem is that the individual processing function method requires a new function to be created when registering a new notation pattern, which makes maintenance difficult.
【0009】本発明は,処理速度を犠牲にすることなく
上記問題点を解決すること,および自動的に住所表示番
号が認識できなかった場合に,オペレータにより正しい
住所表示番号を入力するために確認の補助を行うことを
目的とする。その他の目的は,明細書の記載から自ずと
明らかになろう。The present invention solves the above-mentioned problems without sacrificing the processing speed, and when the address display number cannot be automatically recognized, confirms whether the operator inputs the correct address display number. The purpose is to provide assistance. Other purposes will become apparent from the description of the specification.
【0010】[0010]
【課題を解決するための手段】上記課題を解決するため
に,本発明では基本的に5つの特徴事項を提供する。第
一の特徴事項は,任意の数字を表すワイルドカードを用
いて単語照合を行うことである。郵便物の住所情報から
文字切出,認識結果として,候補文字群とそれに対応す
るペナルティを格納した候補文字ラティスが得られる。
その後,知識処理により住所表示番号領域の先頭を検出
し,住所表示番号領域の候補文字ラティスから,正しい
住所表示番号を抽出するために,単語照合を行う。しか
し,丁目や番などを表す数字は任意の数字を取り得るた
め,全ての数字の組み合わせについて,住所表示番号の
単語を保持するのは記憶容量と処理速度の点で事実上不
可能である。そこで,候補文字ラティスの数字候補を任
意の数字を表すワイルドカードに変換した候補文字ラテ
ィスを作る。そして,ワイルドカードで表した住所表記
番号の単語とワイルドカードのラティスとの単語照合を
行えば,住所表記番号においても町域照合と同様な単語
照合ができ,正しい住所表示番号の単語を抽出すること
ができる。そして,単語照合の結果,上位の候補に上が
ってきたワイルドカードの単語の数字部分について,元
の候補文字ラティスを参照しながら元の数字に復元すれ
ば,正しい候補が得られる。In order to solve the above problems, the present invention basically provides five features. The first feature is that word matching is performed using a wildcard representing an arbitrary number. A candidate character lattice storing a candidate character group and a corresponding penalty is obtained as a character extraction and recognition result from the mail address information.
Thereafter, the head of the address display number area is detected by knowledge processing, and word matching is performed to extract a correct address display number from the candidate character lattice of the address display number area. However, since the numbers representing the streets and numbers can take arbitrary numbers, it is virtually impossible to hold the word of the address display number for all combinations of numbers in terms of storage capacity and processing speed. Therefore, a candidate character lattice is created by converting a candidate character of the candidate character lattice into a wildcard representing an arbitrary number. Then, if word matching is performed between the word of the address notation number represented by the wild card and the lattice of the wild card, word matching similar to town area matching can be performed on the address notation number, and the word with the correct address display number is extracted. be able to. Then, as a result of the word matching, if the numeric part of the word of the wild card that has risen to the top candidate is restored to the original number while referring to the original candidate character lattice, a correct candidate can be obtained.
【0011】上記第一の特徴事項の詳細について述べ
る。住所表示番号領域について候補文字ラティスを示し
たのが図6である。図6(a)は候補文字の文字コードを
格納した候補文字テーブルであり,図6(b)はそれぞれ
の候補文字に対するペナルティである。ワイルドカード
への変換テーブルの例を図7に示す。図7において,例
えば算用数字は「n」,漢数字は「k」,区切り記号は
「丁」,「目」,「番」,「号」,「−」,「|」等に
変換される。住所表記番号で使用されない全ての文字は
その他の文字として「e」に変換される。The details of the first feature will be described. FIG. 6 shows candidate character lattices for the address display number area. FIG. 6A is a candidate character table storing the character codes of the candidate characters, and FIG. 6B is a penalty for each candidate character. FIG. 7 shows an example of a conversion table into a wild card. In FIG. 7, for example, arithmetic numerals are converted to "n", Chinese numerals are converted to "k", and delimiters are converted to "cho", "eye", "number", "go", "-", "|" You. All characters not used in the address number are converted to "e" as other characters.
【0012】このようなテーブルを用いて生成されたワ
イルドカードラティスの例を図8に示す。図8(a)はワ
イルドカードテーブルであり,図8(b)はそれに対応す
るコストテーブルである。ここでは,一つの記入文字に
ついて同じワイルドカードが重複してでてきたら,最も
上位に位置するワイルドカードのみをワイルドカードテ
ーブルに書き込み,それ以外のワイルドカードは省略す
る。例えば,図6(a)の記入文字番号12の候補文字を
見ると,第1位,第2位,第5位にそれぞれ算用数字の
候補があるが,第1位の算用数字に対するワイルドカー
ド「n」のみを,図8(a)のワイルドカードテーブルの
該当する場所に書き込む。そして,図8(b)のコストテ
ーブルのそれに対応する場所に,第1位のコスト「0」
を書き込む。FIG. 8 shows an example of a wildcard lattice generated using such a table. FIG. 8A shows a wild card table, and FIG. 8B shows a corresponding cost table. Here, if the same wildcard is duplicated for one entry character, only the topmost wildcard is written in the wildcard table, and the other wildcards are omitted. For example, looking at the candidate character of the entry character number 12 in FIG. 6 (a), the first, second, and fifth places each have a candidate for an arithmetic numeral. Only the card “n” is written in the corresponding location in the wild card table of FIG. Then, in the place corresponding to that of the cost table in FIG.
Write.
【0013】一方,照合を行うための単語はワイルドカ
ードを用いて「n丁目n−ne」等の表現で辞書に格納
されている。よって,ワイルドカードラティスから単語
照合を行うためのオートマトンを生成し,ワイルドカー
ドで表された単語との照合を行うことで,正しい単語を
得ることができる。ここでオートマトンは状態と状態の
間の遷移経路に対して,それぞれ候補文字とそれに対応
するコストが割り当てられており,単語が状態間を遷移
していく間に,該当するコストが積算されていく。これ
により,それぞれの単語に対して文字数で割った平均コ
ストが得られ,そのコストが小さい単語が上位候補とし
て挙げられる。On the other hand, words to be collated are stored in the dictionary in an expression such as "n-chome n-ne" using a wild card. Therefore, a correct word can be obtained by generating an automaton for performing word matching from the wildcard lattice and performing matching with a word represented by a wildcard. Here, in the automaton, candidate characters and corresponding costs are assigned to each transition path between states, and the corresponding costs are accumulated while the word transitions between states. . As a result, an average cost obtained by dividing each word by the number of characters is obtained, and a word having a small cost is given as a top candidate.
【0014】図9にオートマトンの例を示す。オートマ
トン191において丸印は状態を示し,その中に書かれ
た数字は状態番号を示す。加えて,状態と状態の間が単
語の各記入文字位置に対応し,状態間の線は遷移経路を
示す。遷移経路上の左側の文字は,ある状態でオートマ
トンにその文字が入力された時に,その遷移経路を辿っ
て次の状態に遷移することを示す。また,遷移経路上で
「other」は遷移経路に対応する文字として明示された
もの以外の全ての文字を表す。遷移経路上の[]内の数
字は,その経路を辿って遷移した時に有するコストであ
る。FIG. 9 shows an example of an automaton. In the automaton 191, a circle indicates a state, and a number written therein indicates a state number. In addition, between the states corresponds to each entry character position of the word, and the line between the states indicates the transition path. The character on the left side of the transition path indicates that when the character is input to the automaton in a certain state, the transition to the next state follows the transition path. In addition, “other” on the transition route represents all characters other than those specified as characters corresponding to the transition route. The number in [] on the transition route is the cost that is incurred when transitioning along the route.
【0015】例として,オートマトン191を用いて,
単語「n丁目n−ne」190が入力された時のコスト
計算を考える。まず,状態1から状態2に遷移するとき
に「n」のコスト[0]が加算され,状態2から状態3
に遷移するときは「丁」のコスト[1]が加算され,以
下同様に遷移が進んでいく。そして,単語の文字数分の
遷移が全て終わった後,積算されたコストを単語の文字
数で割ることでその単語の平均コスト192が得られ
る。As an example, using an automaton 191,
Consider cost calculation when the word "n-chome n-ne" 190 is input. First, when transitioning from state 1 to state 2, a cost [0] of “n” is added, and from state 2 to state 3
, The cost [1] of “cho” is added, and the transition proceeds in the same manner. Then, after all the transitions for the number of characters of the word have been completed, the integrated cost is divided by the number of characters of the word to obtain the average cost 192 of the word.
【0016】第二の特徴事項は,高速に単語照合を行う
ためにインデックスを設けることである。住所表示番号
の多様な表記パターンに対応するためには,多くの単語
を登録しておく必要があるが,それら単語群を全て照合
すると処理時間が膨大になる。そこで,インデックスを
設けて不要な単語は照合を行わないようにする。以下に
3つのインデックスを示す。The second feature is that an index is provided to perform word matching at high speed. In order to cope with various notation patterns of the address display number, it is necessary to register many words, but if all the words are collated, the processing time becomes enormous. Therefore, an index is provided so that unnecessary words are not collated. The three indexes are shown below.
【0017】一つ目のインデックスは,記入文字の1文
字目,2文字目の候補文字をインデックスとすることで
ある。1文字目,2文字目の候補文字に単語の文字が含
まれるものは,正しい単語である可能性が高く,それに
漏れるものは可能性が低いと思われる。そこで,1文字
目,2文字目に該当する候補文字を含む単語のみを照合
することで,全ての単語を照合しなくても高速に正しい
解を探索することができる。二つ目のインデックスは新
旧住所表記のフラグである。まず,予め町域照合の単語
辞書にその町域の新旧住所表記に関するフラグを登録し
ておく。一方,そのワイルドカードの単語に,新旧住所
表記のどちらに対応する表記パターンかを示すフラグを
設けておく。そして,単語を検索する際に,それらフラ
グを照らし合せることで,不必要な単語照合を防ぐこと
ができる。三つ目のインデックスは,縦横書きのフラグ
である。文字認識を行うときに縦横書きに関するフラグ
を出力するようにしておく,一方,ワイルドカードの単
語にも縦横書きに関するフラグを設けておき,それらの
フラグを照らし合せることで,不必要な単語照合を避け
ることができる。The first index is to use the first and second candidate characters of the entry character as indexes. If the first and second candidate characters include a word character, it is highly likely that the word is a correct word. Therefore, by comparing only words including candidate characters corresponding to the first character and the second character, a correct solution can be quickly searched without collating all words. The second index is a new and old address notation flag. First, a flag relating to the new and old address notation of the town area is registered in advance in the word dictionary for town area comparison. On the other hand, a flag indicating whether the word of the wild card corresponds to the new or old address notation pattern is provided. Then, when searching for words, by comparing these flags, unnecessary word matching can be prevented. The third index is a vertical / horizontal writing flag. Flags related to vertical and horizontal writing are output when character recognition is performed. On the other hand, flags for vertical and horizontal writing are also provided for words in wildcards, and by comparing these flags, unnecessary word matching can be performed. Can be avoided.
【0018】第三の特徴事項は,町域照合により住所表
示番号領域の先頭が検出できなかった場合に,様々な記
入文字位置において単語照合を行うことである。まず住
所の先頭から始まる候補文字ラティスの中から,数字の
候補を全て探索し,それらを含む記入文字位置を記憶し
ておく。これは住所表示番号が必ず数字から始まること
による。そして,探索した記入文字位置を住所表示番号
の先頭であると仮定して,仮定された全ての文字位置か
ら単語照合を行う。これにより,任意の位置に記入して
ある住所表示番号を照合することができる。A third feature is that when the head of the address display number area cannot be detected by the town area collation, word collation is performed at various entry character positions. First, all candidate numbers are searched from the candidate character lattice starting from the head of the address, and the positions of the entered characters including those are stored. This is because the address display number always starts with a number. Then, assuming that the searched entry character position is the head of the address display number, word matching is performed from all assumed character positions. Thus, the address display number entered at an arbitrary position can be compared.
【0019】第四の特徴事項は,住所表示番号の数字部
分について階層的に数字の取り得る範囲を保持しておく
住所表示番号範囲辞書である。予め,丁目,番,号等の
各数字部分の取り得る範囲を辞書中に階層的に登録して
おく。例えば,国分寺市は4丁目までしかないとか,4
丁目は8番地までしかないとか,4丁目8番地は9号ま
でしかない等の情報を階層的に保持しておく。そして,
ワイルドカードから数字に復元された住所表示番号の候
補に対して,この辞書と照らし合せることで,在りえな
い住所表示番号を候補から除くことができる。The fourth feature is an address display number range dictionary that holds a range in which numbers can be taken in a hierarchical manner with respect to the numeric portion of the address display number. In advance, a possible range of each numerical part such as a chome, a number, and a number is hierarchically registered in a dictionary. For example, Kokubunji City has only 4 chome,
Information such as that there is only the address up to address 8 or that address 4-8 has only the address 9 is stored in a hierarchical manner. And
By comparing the candidate of the address display number restored from the wild card to the number with the dictionary, an impossible address display number can be excluded from the candidates.
【0020】第五の特徴事項は,第4の特徴事項を用い
てオペレータが入力した住所表示番号が正しいかどうか
の判定を行うことである。照合の結果,正しい住所表示
番号が得られなかった場合に,オペレータが郵便物の宛
名を見ながら住所表示番号入力する。その際に入力ミス
を防ぐために,入力された住所表示番号が正しいかどう
かを住所表示番号範囲辞書を用いて判定する。The fifth characteristic is to judge whether or not the address display number input by the operator is correct using the fourth characteristic. If the correct address display number is not obtained as a result of the verification, the operator inputs the address display number while looking at the address of the mail. At that time, in order to prevent an input error, it is determined whether or not the input address display number is correct by using the address display number range dictionary.
【0021】尚,上記の基本的な5つの特徴事項は,装
置としても方法としてもそれぞれ発明として捉えられる
ものである。The above five basic features can be regarded as inventions both as an apparatus and a method.
【0022】[0022]
【作用】本発明は,次の5つの基本的な作用がある。第
一は,文字認識で正しい候補文字が全く挙がらなかった
場合でも,住所表示番号を認識できることである。本発
明では,住所表示番号の表記パターンを任意の数字を表
すワイルドカードを用いて表現した辞書単語として保持
しており,認識結果の候補文字群と単語のコストを計算
して照合を行うことで,住所表示番号を認識することが
できる。そのため,住所表示番号の一部の認識結果の候
補文字群に正しい候補が上がらなかった場合でも,それ
を補間して住所表示番号を認識することができる。例え
ば,「3丁目8−1」の「丁」に対応する文字パターン
に対して,「丁」という文字が認識候補として上がらな
かった場合でも,それに対応する単語が全体としてコス
トが小さければ,「丁」を補間して住所番号を認識する
ことができる。The present invention has the following five basic functions. First, even if no correct candidate character is found in character recognition, the address display number can be recognized. In the present invention, the notation pattern of the address display number is held as a dictionary word expressed by using a wildcard representing an arbitrary number, and the matching is performed by calculating the cost of the candidate character group of the recognition result and the word and performing the matching. , Address display number can be recognized. Therefore, even if a correct candidate does not appear in a candidate character group of a part of the recognition result of the address display number, the address display number can be recognized by interpolating the correct candidate. For example, for a character pattern corresponding to “cho” in “3-chome 8-1”, even if the character “cho” does not rise as a recognition candidate, if the word corresponding to it has a small cost as a whole, “ The address number can be recognized by interpolating the "cho".
【0023】加えて,住所表示番号の表記パターンを辞
書の形式で保持しているため,個別の関数を準備して処
理するより詳細に表記パターンを見ることができるの
で,誤認識を防ぐことができる。In addition, since the notation pattern of the address display number is stored in the form of a dictionary, the notation pattern can be viewed in more detail than when individual functions are prepared and processed. it can.
【0024】第二は,住所表示番号を詳細に調べること
ができるにも関わらず,高速に処理されることである。
まず,辞書から単語を検索するときに,各文字パターン
に対応する候補文字群をインデックスとして検索するた
めに,照合を行う単語数を減らすことができる。さら
に,各単語に新旧住所表記や縦横書きに対応する属性を
持たせいているので,予め認識しようとする住所表示番
号が新旧住所表記のどちらに属するか,あるいは縦横書
きのどちらであるかが分かっていれば,不必要な単語の
照合を防ぐことができ,高速な処理が可能となる。Second, although the address display number can be checked in detail, it is processed at high speed.
First, when a word is searched from the dictionary, the number of words to be collated can be reduced because a candidate character group corresponding to each character pattern is searched as an index. In addition, since each word has an attribute corresponding to the old and new address notation and vertical and horizontal writing, it is possible to determine in advance whether the address display number to be recognized belongs to the new or old address notation or whether it is vertical or horizontal writing. If so, unnecessary word matching can be prevented, and high-speed processing can be performed.
【0025】第三は,辞書方式であるために,新しい表
記パターンが発生した場合は簡単に辞書に登録すること
ができ,メンテナンスが容易なことである。Third, because a dictionary system is used, when a new notation pattern is generated, it can be easily registered in the dictionary, and maintenance is easy.
【0026】第四に,住所表示番号の数字部分について
階層的に数字の取り得る範囲を保持しておく住所表示番
号範囲辞書があるため,実際にありえない住所表示番号
の候補を除くことができる。Fourth, since there is an address display number range dictionary that holds a range in which numbers can be taken hierarchically for the numeric portion of the address display number, it is possible to eliminate candidates for address display numbers that cannot actually exist.
【0027】第五に,住所表示番号照合の結果,住所表
示番号候補が得られなかった場合に,オペレータが郵便
物の宛名領域の画像を見ながら,住所表示番号を正しく
入力できることである。住所表示番号の数値部の取り得
る範囲の値を階層的に保持する住所表示番号範囲辞書を
保持しているため,オペレータが入力した住所表示番号
の数値部が正しい範囲内に入っているかを,住所表示番
号範囲辞書を参照して判定することができる。判定の結
果,範囲外と判定された場合はオペレータに警告を行う
ため,オペレータによる入力ミスを防ぐことができる。Fifth, if no address display number candidate is obtained as a result of the address display number collation, the operator can correctly input the address display number while viewing the image of the address area of the postal matter. Since the address display number range dictionary that holds the range of values that can be taken by the numerical part of the address display number in a hierarchical manner is held, it is checked whether the numerical part of the address display number entered by the operator is within the correct range. The determination can be made with reference to the address display number range dictionary. As a result of the determination, if it is determined that the value is out of the range, a warning is issued to the operator, so that an input error by the operator can be prevented.
【0028】[0028]
【実施例】以下,本発明の第一の実施例を図1〜図14
を用いて説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described below with reference to FIGS.
This will be described with reference to FIG.
【0029】図1は本実施例の装置全体の構成図であ
る。郵便物100は供給部101に順次送られる。供給
部101において郵便物が所定位置を通過し,その通過
の間に郵便物の表面の画像は画像入力部102により撮
像される。住所認識部106では,郵便物の表面に記載
された住所を読み取り区分情報を生成する。一方,表面
画像が撮像された当該郵便物は遅延搬送路103に送ら
れる。遅延搬送路103では,表面画像より区分情報を
生成するための所定時間分,郵便物は当該搬送路103
を移動する。区分部104では,住所認識部106から
の区分情報に従って郵便物を区分けした後,区分棚10
5に格納する。画像入力部102では,ラインセンサの
ような光電変換素子からの画像信号をデジタル化すると
共に,郵便物の表面の画像から宛名の文字行を抽出す
る。FIG. 1 is a block diagram of the entire apparatus of the present embodiment. The mail 100 is sequentially sent to the supply unit 101. In the supply unit 101, the mail passes through a predetermined position, and an image of the surface of the mail is captured by the image input unit 102 during the passage. The address recognition unit 106 reads the address written on the surface of the mail and generates classification information. On the other hand, the postal matter on which the surface image has been captured is sent to the delay transport path 103. In the delayed transport path 103, the mail is sent for a predetermined time for generating the sorting information from the surface image.
To move. The sorting unit 104 sorts the mail according to the sorting information from the address recognition unit 106, and then sorts the mail.
5 is stored. The image input unit 102 digitizes an image signal from a photoelectric conversion element such as a line sensor, and extracts a character line of an address from an image on the surface of a mail.
【0030】住所認識部106は,制御部107,画像
処理部108,文字認識部109,知識処理部110か
らなり,制御部107は画像処理部108,文字認識部
109,知識処理部110をそれぞれ制御する。知識処
理部110は,町域照合部111,住所表示番号照合部
112からなり,それぞれ町域照合部111では町域単
語辞書113を,住所表示番号照合部112では住居表
示番号辞書群114をアクセスし,文字認識部109の
認識結果の誤りなどを自動的に修正する。The address recognition unit 106 includes a control unit 107, an image processing unit 108, a character recognition unit 109, and a knowledge processing unit 110. The control unit 107 controls the image processing unit 108, the character recognition unit 109, and the knowledge processing unit 110, respectively. Control. The knowledge processing unit 110 includes a town area matching unit 111 and an address display number matching unit 112. The town area matching unit 111 accesses the town area word dictionary 113, and the address display number matching unit 112 accesses the house display number dictionary group 114. Then, an error in the recognition result of the character recognition unit 109 is automatically corrected.
【0031】住所表示番号辞書群114は,住所表示番
号単語インデックス辞書115,住所表示番号単語辞書
116,住所表示番号範囲辞書117からなる。住所表
示番号単語辞書116は,街区の表記パターンを納めた
辞書であり,住所表示番号単語インデックス辞書115
は,住所表示番号単語辞書116から必要な単語を選択
的に検索するためのインデックスを納めた辞書である。
住所表示番号範囲辞書117は各住所表示番号における
丁目,街区,住居表示番号のそれぞれの範囲を階層的に
記した辞書である。The address display number dictionary group 114 includes an address display number word index dictionary 115, an address display number word dictionary 116, and an address display number range dictionary 117. The address display number word dictionary 116 is a dictionary that stores notation patterns of blocks, and the address display number word index dictionary 115
Is a dictionary containing an index for selectively searching for necessary words from the address display number word dictionary 116.
The address display number range dictionary 117 is a dictionary in which respective ranges of the chome, block, and house display number in each address display number are hierarchically described.
【0032】図2は図1における住所認識部106の処
理全体の流れを示したものである。図2を用いて住所認
識部106の動作を説明する。FIG. 2 shows a flow of the entire process of the address recognition unit 106 in FIG. The operation of the address recognition unit 106 will be described with reference to FIG.
【0033】ステップ120では,画像入力部102が
郵便物の宛名書いてある面を撮像し,その画像を住所認
識部106に入力する。ステップ121では,画像処理
部108が画像入力部102より送られてきた宛名の書
いてある全面の画像から宛名領域を抽出する。ステップ
122では,画像処理部108がステップ121で得ら
れた宛名領域の画像から文字行毎の画像を抽出する。ス
テップ123では,文字認識部109がステップ122
で得られた文字行の画像から,1文字毎に文字画像を切
り出した後,切り出した1文字毎に文字を認識して文字
コードに変換する。ここで,文字認識した結果は候補と
しての複数の文字コードと対応する類似度が得られる。
また,文字の方向,すなわち縦書きか横書きかの情報も
得られる。In step 120, the image input unit 102 captures an image of the surface of the postal matter on which the address is written, and inputs the image to the address recognition unit 106. In step 121, the image processing unit 108 extracts a destination area from the entire image on which the destination is sent from the image input unit 102. In step 122, the image processing unit 108 extracts an image for each character line from the image of the address area obtained in step 121. In step 123, the character recognition unit 109 executes step 122
After the character image is cut out for each character from the image of the character line obtained in the above, the character is recognized for each cut out character and converted into a character code. Here, as a result of character recognition, similarities corresponding to a plurality of character codes as candidates are obtained.
In addition, information on the direction of the character, that is, whether the document is written vertically or horizontally, is obtained.
【0034】ステップ124では,知識処理部110に
おける町域照合部111がステップ123で得られた文
字認識結果を基に候補文字ラティスを生成する。ここ
で,候補文字ラティスの例を図4に示す。これらは,例
えば「東京都国分寺市西恋ヶ窪3−8−1日立寮」とい
う住所が,郵便物の宛名に書いてあった時に,町域情報
を表す「東京都国分寺市西恋ヶ窪」の部分の候補文字ラ
ティスの例である。図4(a)は候補文字ラティス中の候
補文字テーブルの例であり,図4(b)はそれに対応する
コストテーブルの例である。図4(a)の候補文字テーブ
ルは,記入文字番号毎に第1位から第m位(mは任意)
まで,候補文字の文字コードが並べられている。図4
(b)のコストテーブルは,図4(a)の候補文字テーブルの
文字コードが格納されている位置と対応する場所に,そ
の候補文字に対するコストが格納されている。例えば,
記入文字番号1の第1位の候補文字「東」のコストは
「0」となる。In step 124, the town area matching unit 111 in the knowledge processing unit 110 generates a candidate character lattice based on the character recognition result obtained in step 123. Here, an example of the candidate character lattice is shown in FIG. For example, when the address "3-8-1 Nishi-Koigabo, Nishi-Koigabo, Kokubunji-shi, Tokyo" is written in the mailing address, the part of "Nishi-Koigabo-ku, Kokubunji-shi, Tokyo" representing the area information is displayed. It is an example of a candidate character lattice. FIG. 4A shows an example of a candidate character table in a candidate character lattice, and FIG. 4B shows an example of a cost table corresponding to the table. In the candidate character table of FIG. 4A, the first to m-th places (m is arbitrary) for each entry character number
Until, the character codes of the candidate characters are arranged. FIG.
In the cost table of FIG. 4B, the cost for the candidate character is stored at a location corresponding to the position where the character code of the candidate character table of FIG. 4A is stored. For example,
The cost of the first candidate character “East” of the entry character number 1 is “0”.
【0035】ステップ125では,知識処理部110の
中の町域照合部111が,町域単語辞書113を用いて
ステップ124で得られた候補文字ラティスから住所の
町域情報,および町域情報に対応する新旧住所表記情報
を抽出する。町域情報の抽出法としては,候補文字ラテ
ィスからオートマトンを生成して単語照合を行う手法が
知られている。これは特開平3−125288号公報に
その詳細が記述されている。In step 125, the town area matching section 111 in the knowledge processing section 110 uses the town area word dictionary 113 to convert the candidate character lattice obtained in step 124 into town area information and town area information of the address. The corresponding new and old address notation information is extracted. As a method of extracting town area information, a method of generating an automaton from a candidate character lattice and performing word matching is known. This is described in detail in JP-A-3-125288.
【0036】次に,町域単語辞書113の構成,およ
び,町域情報に対応する新旧住所表記情報の抽出法を図
5を用いて説明する。町域単語辞書113は単語が階層
的に格納されており,例えば,都道府県レベルの単語と
しては,埼玉県142,東京都143,神奈川県144
があり,東京都143の下の市区郡レベルの単語として
は,小金井市145,国分寺市146,国立市147が
ある。そして,国分寺市146の下には町域レベルの単
語,日吉町148,西恋ヶ窪149,東恋ヶ窪150が
ある。さらに,町域レベルの単語には全国の町域情報を
識別するための7桁の町域区分番号151〜153,個
々の町域が新旧住所表記のどちらに該当するかを示すフ
ラグ154〜156がそれぞれ一緒に格納されている。
新旧住所表記のフラグは,例えばその町域が新住所表記
に該当すれば1,旧住所表記に該当すれば2というよう
な値を取る。よって階層的に単語照合を行って町域情報
が得られると,辞書の該当する部分を参照することで,
町域情報を識別するための7桁の町域区分番号,辞書の
新旧住所表記のフラグも同時に得られる。7桁の町域区
分番号は,後の処理で住所表示番号の数字部分の取りう
る範囲を判定するために,住所表示番号範囲辞書117
を検索する時のインデックス,および区分部105で郵
便物を区分するための制御情報の一部として利用され
る。また,新旧住所表記フラグは住所表示番号照合を行
うために,住所表示番号単語辞書から照合する単語数を
制限するためのインデックスとして利用される。以上の
ステップ125の町域照合処理により,町域情報,町域
区分番号,および新旧住所表記フラグが得られる。Next, the structure of the town area word dictionary 113 and a method of extracting new and old address notation information corresponding to town area information will be described with reference to FIG. The town area word dictionary 113 stores words in a hierarchical manner. For example, as words at the prefecture level, Saitama 142, Tokyo 143, Kanagawa 144
There are Koganei City 145, Kokubunji City 146, and Kunitachi City 147 as words at the municipal level below Tokyo 143. Below the Kokubunji city 146 are the town level words, Hiyoshicho 148, Nishi Koigabo 149, and Higashi Koigabo 150. In addition, the town area level words include seven-digit town area division numbers 151 to 153 for identifying the town area information nationwide, and flags 154 to 156 indicating which of the new and old address expressions each town area corresponds to. Are stored together.
The flag of the new and old address notation takes a value such as 1 when the town area corresponds to the new address notation and 2 when the town area corresponds to the old address notation. Therefore, when the town area information is obtained by performing word matching hierarchically, by referring to the corresponding part of the dictionary,
A 7-digit town area division number for identifying the town area information and a flag indicating the new and old address notation in the dictionary are obtained at the same time. The seven-digit town area classification number is used to determine the possible range of the numeric part of the address display number in the subsequent processing, so that the address display number range dictionary 117 can be used.
Is used as a part of control information for sorting mails in the index for searching for mails and the sorting unit 105. The new and old address notation flags are used as an index for limiting the number of words to be collated from the address display number word dictionary in order to perform address display number collation. The town area information, the town area classification number, and the new and old address notation flags are obtained by the above-described town area collation processing in step 125.
【0037】ステップ126では,知識処理部110の
中の住所表示番号照合部112が住所表示番号辞書群1
14を用いて,ステップ124で得られた候補文字ラテ
ィスから住所表示番号を抽出する。ステップ126の詳
細を図3,図5〜図11を用いて詳細に説明する。図3
においてステップ132,135が本発明の特徴となっ
ている。In step 126, the address display number collating unit 112 in the knowledge processing unit 110 transmits the address display number dictionary group 1
14, the address display number is extracted from the candidate character lattice obtained in step 124. Details of step 126 will be described in detail with reference to FIGS. FIG.
Steps 132 and 135 are features of the present invention.
【0038】ステップ130では,図2のステップ12
4で生成した候補文字ラティスを住所表示番号照合部1
12に入力する。ステップ131では,候補文字ラティ
スの住所表示番号が書かれた領域の先頭の記入文字番号
を検出する。これは図2のステップ125で行った町域
照合により,町域の書いてある領域の終わりが検出でき
るので,それを利用する。ステップ132では,ステッ
プ130で得られた候補文字ラティスから,ワイルドカ
ードラティスを生成する。ここで,ワイルドカードラテ
ィスとは住所表示番号の照合を行うために,候補文字ラ
ティス中の数字を任意の数字を表すワイルドカードで置
き換えたラティスである。In step 130, step 12 in FIG.
The candidate character lattice generated in step 4 is compared with the address display number collating unit 1
Input to 12. In step 131, the head entry character number of the area in which the address display number of the candidate character lattice is written is detected. This is because the end of the area where the town area is written can be detected by the town area collation performed in step 125 of FIG. In step 132, a wildcard lattice is generated from the candidate character lattice obtained in step 130. Here, the wildcard lattice is a lattice in which numbers in the candidate character lattice are replaced with wildcards representing arbitrary numbers in order to collate the address display numbers.
【0039】ステップ132の詳細を図6,図7,図8
を用いて説明する。図7はワイルドカードラティスを生
成するために用いる変換テーブルであり,以下に詳細を
述べる。The details of step 132 are shown in FIGS.
This will be described with reference to FIG. FIG. 7 shows a conversion table used to generate a wildcard lattice, which will be described in detail below.
【0040】分類における「数字」のテーブルは,丁
目,街区,住居表示番号を表す数字に関わるテーブルで
あり,候補文字ラティス中に任意の算用数字と漢数字の
候補文字があれば,それぞれ「n」,「k」というワイ
ルドカードに変換される。The "number" table in the classification is a table relating to numbers representing chome, block, and house display numbers. If there are arbitrary arithmetic and kanji numeric candidate characters in the candidate character lattice, they are respectively " It is converted to wildcards “n” and “k”.
【0041】「区切り文字」のテーブルは,例えば住所
中に「3丁目8−1」とある場合に,丁目や街区の数字
同士を区切るために使用される文字「丁目」や「−」に
関するテーブルである。ここでは「丁」,「目」,
「番」,「地」,「の」,「ノ」については変換せず
に,そのままの文字を使用する。一方「−」,「〜」,
「/」は「−」というワイルドカードに変換される。The table of "separation characters" is, for example, a table relating to the characters "chome" and "-" used to separate the numbers of the streets and the blocks when "3-chome 8-1" is present in the address. It is. Here, "Ding", "Eye",
"No.", "ground", "no", and "no" are not converted and the characters are used as they are. On the other hand, "-", "~",
"/" Is converted to a wildcard "-".
【0042】「その他」のテーブルは,「数字」テーブ
ル,「区切り文字」テーブル以外の文字に関するテーブ
ルで,上記で述べた以外の文字は全て「e」というワイ
ルドカードに変換される。すなわち「その他」というの
は丁目,街区,住居表示番号に関わる文字以外の全てを
指す。The "other" table is a table relating to characters other than the "numeric" table and the "separator" table, and all characters other than those described above are converted to a wildcard "e". That is, "others" refers to all but letters related to the street, block, and house display number.
【0043】図8は,図7の変換テーブルを用いて,図
6で示す候補文字ラティスから,ワイルドカードラティ
スを生成した例である。ワイルドカードラティスは図8
(a)で示すワイルドカードテーブルと,図8(b)で示すコ
ストテーブルの2つからなる。FIG. 8 shows an example in which a wildcard lattice is generated from the candidate character lattice shown in FIG. 6 using the conversion table of FIG. Figure 8 Wildcard Lattice
It consists of a wild card table shown in FIG. 8A and a cost table shown in FIG.
【0044】図8のワイルドカードラティスの生成は,
図6(a)の候補文字テーブルにおいて候補文字の順位の
高いほうから行う。まず第1位の候補文字をワイルドカ
ードに変換して図8(a)で示すワイルドカードテーブル
の第1位の場所に書き込む。それと同時に変換された候
補文字に対応するコストを,図8(b)のコストテーブル
の該当する場所に書き込む。The generation of the wild card lattice shown in FIG.
This is performed from the candidate character table in the candidate character table shown in FIG. First, the first candidate character is converted into a wild card and written in the first place of the wild card table shown in FIG. At the same time, the cost corresponding to the converted candidate character is written in a corresponding location in the cost table of FIG.
【0045】次に,第2位の候補文字を調べ,それが第
1位の候補文字と同じワイルドカードに属するなら,重
複するのでそれを省略する。もし違うワイルドカードに
属するのであれば,そのワイルドカードと対応するコス
トを,それぞれ図8(a)のワイルドカードテーブル,図
8(b)のコストテーブルに書き込む。以下,全ての候補
文字について同じことを繰り返す。Next, the second-order candidate character is examined, and if it belongs to the same wildcard as the first-order candidate character, it is omitted because it overlaps. If they belong to different wildcards, the costs corresponding to the wildcards are written in the wildcard table of FIG. 8A and the cost table of FIG. 8B, respectively. Hereinafter, the same is repeated for all the candidate characters.
【0046】例えば,図6(a)の候補文字テーブルにお
ける記入文字番号12の列の変換を考える。まず,第1
位の候補文字「8」をワイルドカード「n」に変換し
て,図8(a)のワイルドカードテーブルにおける記入文
字番号12の第1位の場所に書き込む。それと同時に,
候補文字「8」に対応するコスト「0」を,図8(b)で
示すコストテーブルの該当する場所に書き込む。For example, consider the conversion of the column of the entry character number 12 in the candidate character table of FIG. First, the first
The place candidate character “8” is converted to a wild card “n” and written in the first place of the entry character number 12 in the wild card table of FIG. At the same time,
The cost “0” corresponding to the candidate character “8” is written in a corresponding location in the cost table shown in FIG.
【0047】第2位を見ると候補文字「3」は同じワイ
ルドカード「n」に属するので,省略して図8(a)のワ
イルドカードテーブルには何も書かない。更に,第3位
を見ると候補文字「日」は「n」と違うワイルドカード
「e」に属するので,図8(a)のワイルドカードテーブ
ルの中で空いている第2位の場所にそれを書き込む。そ
れと共に,図8(b)コストテーブルの対応する場所に候
補文字「日」のコスト「2」を書き込む。以下,同様の
処理を全ての順位の候補文字に対して行う。[0047] Looking at the second place candidate character "3" because belong to the same wild card "n", do not write anything in the wild card table of FIG. 8 are omitted (a). Further, looking at the third place, the candidate character "day" belongs to a wild card "e" different from "n", so that the candidate character "day" is placed in the empty second place in the wild card table of FIG. 8 (a). Write. At the same time, the cost “2” of the candidate character “day” is written in the corresponding location in the cost table of FIG. Hereinafter, the same processing is performed for candidate characters of all ranks.
【0048】以上のステップ132の処理により,ステ
ップ130で得られた候補文字ラティスから,ワイルド
カードラティスが生成される。By the processing of step 132, a wildcard lattice is generated from the candidate character lattice obtained in step 130.
【0049】ステップ133では,ステップ132で生
成したワイルドカードラティスから,単語照合を行うた
めのオートマトンを生成する。ステップ133の詳細を
図9を用いて説明する。In step 133, an automaton for performing word matching is generated from the wildcard lattice generated in step 132. Details of step 133 will be described with reference to FIG.
【0050】図9は辞書から単語を取り出し,オートマ
トンを用いて住所表示番号単語の照合を行う過程を示し
たものである。まず,オートマトン191について説明
する。住所表示番号パターンを表す辞書単語とワイルド
カードラティスの照合を行うために,図8で示すワイル
ドカードラティスから有限オートマトン191を生成す
る。そして,オートマトン191は文字列として表した
辞書単語を順次入力し,その単語の平均コストはいくら
になるかを計算する。FIG. 9 shows a process of extracting words from the dictionary and collating the address display number words using an automaton. First, the automaton 191 will be described. A finite automaton 191 is generated from the wildcard lattice shown in FIG. 8 in order to match the dictionary word representing the address display number pattern with the wildcard lattice. Then, the automaton 191 sequentially inputs dictionary words represented as character strings, and calculates the average cost of the words.
【0051】オートマトン191において丸印は状態を
示し,その中に書かれた数字は状態番号を示す。加え
て,状態と状態の間が単語の各記入文字位置に対応し,
状態間の線は遷移経路を示す。遷移経路上の左側の文字
は,ある状態でオートマトンにその文字が入力された時
に,その遷移経路を辿って次の状態に遷移することを示
す。また,遷移経路上で「other」は遷移経路に対応す
る文字として明示されたもの以外の全ての文字を表す。
遷移経路上の[]内の数字は,その経路を辿って遷移し
た時に有するコストである。In the automaton 191, a circle indicates a state, and a number written therein indicates a state number. In addition, between states correspond to each character position of the word,
The lines between the states indicate the transition paths. The character on the left side of the transition path indicates that when the character is input to the automaton in a certain state, the transition to the next state follows the transition path. In addition, “other” on the transition route represents all characters other than those specified as characters corresponding to the transition route.
The number in [] on the transition route is the cost that is incurred when transitioning along the route.
【0052】例として,オートマトン191を用いて,
単語「n丁目n−ne」190が入力された時のコスト
計算を考える。まず,状態1から状態2に遷移するとき
に「n」のコスト[0]が加算され,状態2から状態3
に遷移するときは「丁」のコスト[1]が加算され,以
下同様に遷移が進んでいく。そして,単語の文字数分の
遷移が全て終わった後,積算されたコストを単語の文字
数で割ることでその単語の平均コスト192が得られ
る。As an example, using an automaton 191,
Consider cost calculation when the word "n-chome n-ne" 190 is input. First, when transitioning from state 1 to state 2, a cost [0] of “n” is added, and from state 2 to state 3
, The cost [1] of “cho” is added, and the transition proceeds in the same manner. Then, after all the transitions for the number of characters of the word have been completed, the integrated cost is divided by the number of characters of the word to obtain the average cost 192 of the word.
【0053】次に,図8のワイルドカードラティスから
の有限オートマトン191の生成を説明する。まず,図
9のオートマトン191の状態1と状態2の間の遷移経
路を生成し,図8(a)のワイルドカードテーブルの記入
文字番号12の候補文字をそれぞれ割り当てる。それと
共に,候補文字に対応する図8(b)で示すコストテーブ
ルのコストを,同様に状態1と状態2の間の遷移経路に
それぞれ割り当てる。次に,明示されたもの以外の全て
の文字を表す遷移経路として「other」を生成し,さら
にそのコストを15とする。以下,同様に状態と遷移経
路をワイルドカードラティスから次々に生成していく。
ここで,遷移経路のコストはコストは必ずしも上記の値
にする必要はなく,任意の数字でよい。Next, generation of the finite state automaton 191 from the wild card lattice shown in FIG. 8 will be described. First, a transition path between the state 1 and the state 2 of the automaton 191 in FIG. 9 is generated, and candidate characters of the character number 12 in the wildcard table in FIG. At the same time, the costs in the cost table shown in FIG. 8B corresponding to the candidate characters are similarly allocated to the transition paths between the state 1 and the state 2, respectively. Next, “other” is generated as a transition path representing all characters other than the specified ones, and the cost is set to 15. Hereinafter, states and transition paths are similarly generated one after another from the wild card lattice.
Here, the cost of the transition route does not necessarily have to be the above value, and may be an arbitrary number.
【0054】以上のステップ133の処理により,ワイ
ルドカードラティスからオートマトン191が生成され
る。By the processing of the above step 133, the automaton 191 is generated from the wild card lattice.
【0055】ステップ134では,ステップ133で生
成したオートマトン191と図1の住所表示番号単語イ
ンデックス辞書115,住所表示番号単語辞書116を
用いて,住所表示番号単語のオートマトン照合を行う。
ステップ134の詳細を図8,図9,図10,図11を
用いて説明する。図10はオートマトン照合処理の流れ
を示したPADである。図11は住所表示番号単語辞
書,住所表示番号単語インデックス辞書の構成を示した
図である。In step 134, the automaton matching of the address display number word is performed using the automaton 191 generated in step 133 and the address display number word index dictionary 115 and the address display number word dictionary 116 in FIG.
Details of step 134 will be described with reference to FIGS. 8, 9, 10, and 11. FIG. 10 is a PAD showing the flow of the automaton matching process. FIG. 11 is a diagram showing a configuration of an address display number word dictionary and an address display number word index dictionary.
【0056】まず,図11の辞書の構成を説明する。住
所表示番号単語辞書116はワイルドカードを用いて丁
目,街区,住居表示番号の表記パターンを表した単語,
およびその検索情報や属性を格納した辞書である。丁
目,街区,住居表示番号の表記パターンを表した単語と
しては,例えば「n丁目n−ne」,「n|n|ne」
等が格納されている。住所表示番号単語インデックス辞
書115は,照合を行うために必要な単語を住所表示番
号単語辞書から選択的に検索するためのインデックスを
格納した辞書である。インデックスは,辞書単語の第1
文字目,第2文字目の文字を使用する。First, the configuration of the dictionary shown in FIG. 11 will be described. The address display number word dictionary 116 uses a wildcard to represent a word representing a notation pattern of a chome, a block, a house display number,
And a dictionary storing the search information and attributes. The words representing the notation pattern of the street, block, and house display number are, for example, “n-chome n-ne”, “n | n | ne”
Etc. are stored. The address display number word index dictionary 115 is a dictionary that stores an index for selectively searching words necessary for matching from the address display number word dictionary. The index is the first dictionary word
The first and second characters are used.
【0057】住所表示番号単語辞書116は,街区の表
記パターンを表す単語228,単語の第2文字目が同一
の文字を持つ単語間の相対アドレス229,新旧住所表
記を示すフラグ230,縦横書きを示すフラグ231か
らなる。The address display number word dictionary 116 stores a word 228 representing a notation pattern of a block, a relative address 229 between words having the same character as the second character of the word, a flag 230 indicating a new and old address notation, and a vertical and horizontal writing. Flag 231 shown in FIG.
【0058】新旧住所表記を示すフラグ230は,街区
表記を表す単語が新住所表記の表記パターンであれば
1,旧住所表記の表記パターンであれば2,どちらの住
所表記にも対応するのであれば3という数字が格納され
ている。縦横書きを示すフラグ231は,街区表記を表
す単語が横書きに属するのであれば1,縦書きに属する
のであれば2,縦横両方に属するのであれば3という数
字が格納されている。The flag 230 indicating the new and old address notation corresponds to 1 if the word representing the block notation is a new address notation pattern, and 2 if the word is the old address notation pattern. The number "3" is stored. In the flag 231 indicating vertical and horizontal writing, numbers 1 are stored if the word representing the block notation belongs to horizontal writing, 2 if the word belongs to vertical writing, and 3 if the word belongs to both vertical and horizontal writing.
【0059】住所表示番号単語インデックス辞書115
は,1文字目インデックステーブル220,2文字目イ
ンデックステーブル224の二つのテーブルからなる。
1文字目インデックステーブル220は,辞書単語の第
1文字目の文字番号を格納したテーブル221,同一の
1文字目を持つ単語の数222,住所表示番号単語辞書
116へのポインタテーブル223からなる。2文字目
インデックステーブル224は,同様に辞書単語の2文
字目の文字番号を格納したテーブル225,同一の2文
字目を持つ単語の数226,住所表示番号単語辞書11
6へのポインタテーブル227からなる。Address display number word index dictionary 115
Consists of two tables, a first character index table 220 and a second character index table 224.
The first character index table 220 includes a table 221 storing the character numbers of the first characters of the dictionary words, the number 222 of words having the same first character, and a pointer table 223 to the address display number word dictionary 116. Similarly, the second character index table 224 stores a character number of the second character of the dictionary word 225, the number of words having the same second character 226, and the address display number word dictionary 11
6 is a pointer table 227.
【0060】次に,住所表示番号単語インデックス辞書
115を用いて,住所表示番号単語辞書116の単語を
検索する時の処理の流れを説明する。実線で表された矢
印は1文字目インデックステーブル220を用いて,第
1文字目が同一の文字である単語を検索するときの検索
の流れを示す。点線で表された矢印は2文字目インデッ
クステーブル224を用いて,2文字目が同一の文字で
ある単語を検索するときの検索の流れを示す。Next, the flow of processing when searching for a word in the address display number word dictionary 116 using the address display number word index dictionary 115 will be described. An arrow represented by a solid line indicates a search flow when searching for a word in which the first character is the same character using the first character index table 220. An arrow represented by a dotted line indicates a search flow when searching for a word in which the second character is the same character using the second character index table 224.
【0061】例えば,単語の1文字目が「n」である単
語を辞書から検索する場合は,1文字目インデックステ
ーブル220の第1文字目が同一の文字である単語の数
m1,および「n」のポインタP1(1)を参照する。ポイン
タP1(1)には,住所表示番号単語辞書の中で1文字目が
「n」で始まる単語の最初のポインタが格納されている
ので,その単語を参照する。単語辞書の中では1文字目
が同じ文字の単語は連続して並べてあるので,「n」で
始まる最初の単語を見つけると,以下はポインタをイン
クリメントするだけで,次々に単語を検索することがで
きる。そして,m1回検索を行うと「n」で始まる単語の
終わりになるので,そこで単語の検索を終了する。For example, when a word whose first character is “n” is searched from the dictionary, the number of words whose first character in the first character index table 220 is the same character is determined.
Reference is made to m1 and the pointer P1 (1) of "n". Since the pointer P1 (1) stores the first pointer of a word whose first character starts with "n" in the address display number word dictionary, the word is referred to. In the word dictionary, words with the same first letter are arranged consecutively, so if you find the first word that starts with "n", you can search for words one after another simply by incrementing the pointer. it can. Then, if the search is performed m1 times, the word beginning with “n” ends, so the word search is terminated there.
【0062】単語の2文字目をインデックスとして検索
する場合も同様である。例えば,単語の2文字目が
「丁」である単語を辞書から検索する場合は,2文字目
インデックステーブル224の第1文字目が同一の文字
である単語の数q1,および「丁」のポインタP2(1)を参
照する。ポインタP2(1)には,住所表示番号単語辞書の
中で2文字目が「丁」の単語のポインタが格納されてい
るのでその単語を参照する。その後,単語の第2文字目
が同一の文字を持つ単語間の相対アドレス229を参照
してポインタをシフトすることで,第2文字目が同じ
「丁」の単語を検索することができる。そして,q1回検
索を行うと2文字目が同じ「丁」の単語の終わりになる
ので,そこで単語の検索を終了する。The same applies to a case where a search is performed using the second character of a word as an index. For example, when searching a dictionary for a word whose second character is “cho”, the number q1 of words whose first character is the same character in the second character index table 224 and a pointer to “cho” Refer to P2 (1). As the pointer P2 (1) stores a pointer to a word whose second character is "cho" in the address display number word dictionary, the word is referred to. Thereafter, by shifting the pointer with reference to the relative address 229 between words having the same character as the second character of the word, it is possible to search for a word with the same second character, "cho". Then, when the search is performed q1 times, the second character is the end of the word of the same “cho”, so the search for the word is ended there.
【0063】ここで,図2のステップ123の文字切り
出し・文字認識で,住所が縦書きか横書きかが分かって
いるので,縦横書きを示すフラグ231を参照すること
で,検索した単語の中から該当する単語を絞り込んで取
り出すことができる。Here, it is known whether the address is written vertically or horizontally by character extraction and character recognition in step 123 in FIG. 2. Therefore, by referring to the flag 231 indicating vertical and horizontal writing, it is possible to select from among the searched words. The corresponding words can be narrowed down and extracted.
【0064】また,図2のステップ125の町域照合で
住所表示番号が新旧どちらの住所表記に属するのかが分
かっているので,新旧住所表記を示すフラグ230を参
照して,検索した単語の中から該当する単語を絞り込ん
で取り出すことができる。Further, since it is known in the town area collation in step 125 of FIG. 2 that the address display number belongs to the new or old address notation, the flag 230 indicating the new and old address notation is referred to, and The corresponding word can be narrowed down and extracted from the list.
【0065】次に,ステップ134の具体的処理内容を
図10の処理フロー,および図8,図9,図11を用い
て説明する。Next, the specific processing content of step 134 will be described with reference to the processing flow of FIG. 10 and FIGS. 8, 9 and 11.
【0066】ステップ200では,照合を行おうとする
住所に対して,図2のステップ123で得られた住所の
縦横書きを表すフラグ,ステップ125で得られた新旧
住所表記を表すフラグをセットする。ステップ202で
は,図8(a)のワイルドカードテーブルにおける記入文
字番号12の第1位の候補文字を取り出し,図11の1
文字目インデックステーブル220を参照して,辞書単
語数222,および単語辞書のポインタ223を取得す
る。ステップ204では,ポインタが指している先の単
語を検索し,この単語がステップ200でセットした新
旧住所表記フラグ,および縦横書きフラグと矛盾がない
かを辞書の該当するテーブル230,231を参照して
チェックする。もし矛盾がなければステップ205に進
む。ステップ205では,検索した単語を図9のオート
マトン191に入力して,状態を遷移させながら平均コ
ストを計算する。ステップ203では,ステップ204
からステップ205の処理をステップ202で求めた辞
書単語の数だけ繰り返す。In step 200, a flag indicating vertical and horizontal writing of the address obtained in step 123 in FIG. 2 and a flag indicating new and old address notation obtained in step 125 are set for the address to be verified. In step 202, the first candidate character of the entry character number 12 in the wild card table of FIG.
With reference to the character index table 220, the dictionary word number 222 and the word dictionary pointer 223 are acquired. In step 204, the word pointed to by the pointer is searched, and whether the word is inconsistent with the old and new address notation flag and the vertical / horizontal writing flag set in step 200 is referred to the corresponding tables 230 and 231 of the dictionary. Check. If there is no contradiction, go to step 205. In step 205, the searched word is input to the automaton 191 in FIG. 9, and the average cost is calculated while changing the state. In step 203, step 204
From step 205 to the number of dictionary words obtained in step 202.
【0067】ステップ201では,図8(a)における記
入文字番地12の次順位の候補文字を取り出し,ステッ
プ202からステップ205の処理を記入文字番地12
の候補文字数回繰り返す。ステップ207では,図8
(a)のワイルドカードテーブルの記入文字番号13の第
1位の候補文字を取り出し,図11の2文字目インデッ
クステーブル224を参照して,辞書単語数226,お
よび単語辞書のポインタ227を取得する。ステップ2
09では,ポインタが指している先の単語を検索し,こ
の単語がステップ200でセットした新旧住所表記フラ
グ,および縦横書きフラグと矛盾がないかを辞書の該当
するテーブルを参照してチェックする。もし矛盾がなけ
ればステップ210に進む。In step 201, a candidate character of the next rank after the entry character address 12 in FIG. 8A is extracted, and the processing from step 202 to step 205 is performed.
Is repeated several times. In step 207, FIG.
The first candidate character of the entry character number 13 in the wildcard table (a) is extracted, and the number of dictionary words 226 and the pointer 227 of the word dictionary are acquired with reference to the second character index table 224 in FIG. . Step 2
At step 09, the word pointed to by the pointer is searched, and it is checked by referring to the corresponding table of the dictionary whether this word is inconsistent with the old and new address notation flag and the vertical and horizontal writing flag set at step 200. If there is no contradiction, go to step 210.
【0068】ステップ210では,検索した単語を図9
のオートマトン191に入力して,状態を遷移させなが
ら平均コストを計算する。ステップ208では,ステッ
プ209からステップ210の処理をステップ207で
求めた辞書単語の数だけ繰り返す。ステップ206で
は,図8(a)の記入文字番地13の次順位の候補文字を
取り出し,ステップ207からステップ210の処理を
記入文字番地13の候補文字数回繰り返す。In step 210, the searched word is entered in FIG.
To the automaton 191 to calculate the average cost while changing the state. In step 208, the processes in steps 209 to 210 are repeated by the number of dictionary words obtained in step 207. In step 206, the candidate character of the next rank after the entry character address 13 in FIG. 8A is extracted, and the processing from step 207 to step 210 is repeated the number of times of the candidate character of the entry character address 13.
【0069】ステップ211では,ステップ200から
ステップ210の処理で求めた単語,および,そのコス
トを昇冪の順に並べ変える。ステップ212では,ステ
ップ211で並べ変えた単語の上位L(L>1)個を選
択する。In step 211, the words obtained in steps 200 to 210 and their costs are rearranged in ascending order. In step 212, the top L (L> 1) words selected in step 211 are selected.
【0070】以上のステップ200からステップ212
の処理により,図3におけるステップ134のオートマ
トン照合が行われ,平均コストの小さい上位L個の単語
およびそのコストが得られる。The above steps 200 to 212
The automaton matching in step 134 in FIG. 3 is performed by the processing of (1), and the top L words with low average costs and their costs are obtained.
【0071】ステップ135では,ステップ134で得
られた上位L個のワイルドカードで表された単語につい
て,「n」,「k」の数字を表すワイルドカードを元の
数字に復元して,候補を生成する。ここではL=1とし
て,図9の単語「n丁目n−ne」190を数字に復元
した結果を図12に示す。数字復元の処理は,まず図6
に示す候補文字テーブル160と単語「n丁目n−n」
190の位置合わせを行う。その後,数字「n」に対応
する場所の候補数字,およびそのコストをそれぞれ図6
(a)候補文字テーブルから取り出して,実際の丁目や街
区を生成する。また,図6(b)コストテーブルから数字
に対応するコスト取り出して,復元した住所表示番号単
語に対するコストを積算していく。In step 135, for the words represented by the upper L wildcards obtained in step 134, the wildcards representing the numbers “n” and “k” are restored to the original numbers, and candidates are determined. Generate. Here, FIG. 12 shows the result of restoring the word “n-chome n-ne” 190 in FIG. The process of restoring numbers is as shown in FIG.
And the word "n-chomenn" shown in FIG.
190 is performed. Then, the candidate number of the place corresponding to the number "n" and its cost are shown in FIG.
(a) Extract from the candidate character table and generate actual streets and blocks. In addition, the cost corresponding to the number is extracted from the cost table in FIG. 6B, and the cost for the restored address display number word is accumulated.
【0072】ステップ136では,ステップ135で数
字に復元した住所表示番号単語の候補について,丁目,
街区,住居表示番号の数字部分を,図1の住所表示番号
範囲辞書117と矛盾がないかを判別する。ここで,住
所表示番号範囲辞書117は各町域について,丁目,街
区,住居表示番号の数字がそれぞれどの範囲を取りえる
かの範囲情報を階層的に格納した辞書である。住所表示
番号範囲辞書117の詳細を図13を用いて説明する。At step 136, the address display number word candidates restored to the numbers at step 135 are
It is determined whether or not the numeric part of the block and house display numbers is consistent with the address display number range dictionary 117 of FIG. Here, the address display number range dictionary 117 is a dictionary that hierarchically stores, for each town area, range information as to which ranges of the numbers of the chome, the block, and the house display number can take. Details of the address display number range dictionary 117 will be described with reference to FIG.
【0073】住所表示番号範囲辞書117は,インデッ
クステーブル260と住所表示番号範囲テーブル263
からなる。インデックステーブル260は,町域を識別
する町域区分番号テーブル261と,住所表示番号範囲
テーブル263へのポインタテーブル262からなる。
住所表示番号範囲テーブル263は,丁目の番号をイン
デックスとして格納した丁目テーブル264,街区の番
号をインデックスとして格納した街区テーブル265,
住居表示番号の最大値を格納した住居表示番号テーブル
266からなる。The address display number range dictionary 117 includes an index table 260 and an address display number range table 263.
Consists of The index table 260 includes a town area division number table 261 for identifying a town area, and a pointer table 262 to an address display number range table 263.
The address display number range table 263 includes a street table 264 storing street numbers as indexes and a street table 265 storing street numbers as indexes.
It consists of a house display number table 266 which stores the maximum value of house display numbers.
【0074】次に,住所表示番号範囲を参照する時の処
理の流れを説明する。例えば,「東京都国分寺市西恋ヶ
窪」住所表示番号範囲を参照するには,まず図2のステ
ップ125で図5に示す町域単語辞書を用いて求めた
「東京都国分寺市西恋ヶ窪」に対応する町域区分番号
「1850002」について,インデックステーブル2
60の町域区分番号テーブル261を参照する。「18
50002」に対応するポインタPaは,住所表示番号範
囲テーブル263の中で,「東京都国分寺市西恋ヶ窪」
の範囲データが格納されている領域の先頭を参照してい
る。その領域には,丁目テーブル264,街区テーブル
265をインデックスとして,住居表示番号の最大値が
住居表示番号テーブル266に格納されてある。そこ
で,該当する丁目,街区インデックスを検索すること
で,例えば「3丁目8番」の住居表示番号の最大値は9
まで,「東京都国分寺市西恋ヶ窪」の全ての領域を検索
することで,丁目の最大値は4までしかないことなどが
分かる。例えば,「東京都国分寺市西恋ヶ窪」の丁目が
4丁目までしかない,3丁目3番地が住居表示番号5ま
でしかないとすると,図12の候補群は図14で示す候
補に絞られる。以上のステップ136の処理により,住
所表示番号の各丁目,街区,住居表示番号の範囲の判定
が行われ,範囲外と判定された候補は図12の候補群か
ら削除される。Next, the flow of processing when referring to the address display number range will be described. For example, to refer to the address display number range of “Nishi-Koigabo, Kokubunji-shi, Tokyo”, first, in step 125 of FIG. 2, use “Nishi-Koigabo, Kokubunji-shi, Tokyo” obtained using the town area word dictionary shown in FIG. Index table 2 for the town area division number "1850002"
The 60 area division number table 261 is referred to. "18
In the address display number range table 263, the pointer Pa corresponding to “50002” is “Nishi-Koigabo, Kokubunji-shi, Tokyo”.
Refers to the beginning of the area where the range data is stored. In this area, the maximum value of the house display number is stored in the house display number table 266 using the chome table 264 and the block table 265 as indexes. Therefore, by searching for the corresponding chome and block index, for example, the maximum value of the house display number of “3 chome 8” is 9
By searching all areas of "Nishi-Koigabo, Kokubunji-shi, Tokyo", it can be seen that the maximum value of the street is only up to 4. For example, assuming that there is only 4-chome of “Nishi-Koigaboku, Kokubunji-shi, Tokyo”, and that the address of 3-chome is only up to the house display number 5, the candidate group in FIG. 12 is narrowed down to the candidates shown in FIG. Through the processing in step 136 described above, the range of each street, block, and house display number of the address display number is determined, and the candidates determined to be out of the range are deleted from the candidate group in FIG.
【0075】ここで,住所表示番号範囲辞書は本実施例
に限るものではなく,例えば,住居表示番号部分は上限
値のみではなく,下限値も同時に持たせてもよい。ま
た,駐車場の住居表示番号などを除いた,実際に郵便配
達の対象となる住居表示番号のみを全て登録してもよ
い。Here, the address display number range dictionary is not limited to this embodiment. For example, the house display number portion may have not only the upper limit but also the lower limit. Alternatively, all of the house display numbers actually subject to mail delivery, excluding the house display number of the parking lot, may be registered.
【0076】ステップ137では,ステップ136で絞
り込んだ候補からコストの小さいP(P>1)個の候補
を住所表示番号照合結果として選択する。ここでは,P
=2として図14の「3丁目8−1」,「3丁目3−
1」が照合結果として選択される。At step 137, from the candidates narrowed down at step 136, P (P> 1) candidates with a low cost are selected as address display number collation results. Here, P
= 2, "3-chome 8-1" and "3-chome 3-
"1" is selected as the matching result.
【0077】以上のステップ130からステップ137
までの処理により,図2のステップ127住所表示番号
照合が行われ,照合結果として住所表示番号の候補「3
丁目8−1」,「3丁目3−1」が得られる。The above steps 130 to 137
Through the processing up to step 127, the address display number collation is performed in step 127 in FIG.
8-1 "and" 3-3-1 "are obtained.
【0078】ステップ127では,ステップ125の町
域照合で得られた町域候補「東京都国分寺市西恋ヶ窪」
と,ステップ126の住所表示番号照合で得られた住所
表示番号の候補「3丁目8−1」,「3丁目3−1」を
つないで住所候補を生成する。この例では,「東京都国
分寺市西恋ヶ窪3丁目8−1」,「東京都国分寺市西恋
ヶ窪3丁目3−1」が得られる。さらに,この住所情報
を用いて図1における区分部104を制御する制御情報
を生成する。In step 127, the town area candidate “Nishi-Koigabo, Kokubunji-shi, Tokyo” obtained by the town area verification in step 125
And the address display number candidates "3-chome 8-1" and "3-chome 3-1" obtained by the address display number collation in step 126 are connected to generate an address candidate. In this example, "3-3-1 Nishi-Koigabo, Kokubunji-shi, Tokyo" and "3-1-3-1 Nishi-Koigabo, Kokubunji-shi, Tokyo" are obtained. Further, control information for controlling the sorting unit 104 in FIG. 1 is generated using the address information.
【0079】本発明の第二の実施例を図1,図2,図
9,図15を用いて説明する。ここでは,7桁の町域区
分番号が宛名に印刷されている時に,町域照合により町
域情報が得られなかった場合を考える。A second embodiment of the present invention will be described with reference to FIGS. 1, 2, 9 and 15. Here, it is assumed that the town area information is not obtained by the town area verification when the seven-digit town area classification number is printed on the address.
【0080】図2において,ステップ120からステッ
プ122までは,第1の実施例と同様な処理を行う。In FIG. 2, the same processing as in the first embodiment is performed in steps 120 to 122.
【0081】ステップ123では,第一の実施例と同様
に文字認識部109がステップ122で得られた文字行
の画像から,1文字毎に文字を認識して文字コードに変
換する。ただし,ここでは住所情報だけでなく宛名に印
刷されている町域区分番号も認識して文字コードに変換
する。ステップ124では,第一の実施例と同様に町域
照合部111がステップ123で得られた文字認識結果
を基に候補文字ラティスを生成する。ステップ125で
は,第一の実施例と同様に町域照合部111が町域単語
辞書113を用いて町域照合を行なう。ただし,本実施
例では町域照合の結果,町域情報および町域情報に対応
する新旧住所表記情報を抽出できなかった場合を想定す
る。ステップ126では,図1の知識処理部110の中
の住所表示番号照合部112が住所表示番号辞書群11
4を用いて,ステップ124で得られた候補文字ラティ
スから住所表示番号を抽出する。ステップ126の詳細
を図9,図15を用いて詳細に説明する。図15におい
てステップ302,304が本発明の特徴となってい
る。In step 123, as in the first embodiment, the character recognizing unit 109 recognizes each character from the image of the character line obtained in step 122 and converts it into a character code. However, here, not only the address information but also the town area classification number printed on the address is recognized and converted into a character code. In step 124, the town area matching unit 111 generates a candidate character lattice based on the character recognition result obtained in step 123, as in the first embodiment. In step 125, the town area matching unit 111 performs town area matching using the town area word dictionary 113 as in the first embodiment. However, in this embodiment, it is assumed that as a result of the town area comparison, the town area information and the old and new address notation information corresponding to the town area information cannot be extracted. In step 126, the address display number collating unit 112 in the knowledge processing unit 110 of FIG.
4, an address display number is extracted from the candidate character lattice obtained in step 124. Details of step 126 will be described in detail with reference to FIGS. In FIG. 15, steps 302 and 304 are features of the present invention.
【0082】ステップ300では,図2のステップ12
4で生成した候補文字ラティスを入力する。In step 300, step 12 in FIG.
The candidate character lattice generated in step 4 is input.
【0083】ステップ301では,ステップ130で得
られた候補文字ラティスから,第1の実施例と同様な方
法でワイルドカードラティスを生成する。ただし,町域
情報が得られないために住所表示番号の先頭が検出でき
ないので,住所の先頭からワイルドカードラティスを生
成する。ステップ302では,ワイルドカードラティス
から数字の候補が含まれる記入文字番号を全て検出す
る。すなわちワイルドカードテーブルで「n」や「k」
が含まれる記入文字番号を抽出する。ステップ303で
は,ステップ301で生成したワイルドカードラティス
から第1の実施例と同様な方法により,記入文字番号1
から単語照合を行うためのオートマトンを生成する。そ
して,例えば図9のオートマトン191が得られたとす
る。ここでは住所表示番号部分のオートマトンのみを表
示している。In step 301, a wildcard lattice is generated from the candidate character lattice obtained in step 130 in the same manner as in the first embodiment. However, since the head of the address display number cannot be detected because the town area information cannot be obtained, the wild card lattice is generated from the head of the address. In step 302, all the entry character numbers including candidate numbers are detected from the wild card lattice. That is, "n" or "k" in the wildcard table
To extract the entry character number containing. In step 303, the character number 1 is entered from the wild card lattice generated in step 301 in the same manner as in the first embodiment.
Generates an automaton for performing word matching from. Then, for example, it is assumed that the automaton 191 of FIG. 9 is obtained. Here, only the automaton in the address display number portion is displayed.
【0084】ステップ304では,ステップ303で生
成したオートマトン191と図1の住所表示番号単語イ
ンデックス辞書115,住所表示番号単語辞書116を
用いて,住所表示番号単語のオートマトン照合を行う。
ただし,第1の実施例の方式と違う点は,生成したオー
トマトンの状態数をK(K>1)とすると,K個の切断
点で切断し,各切断点から始まる後部の部分オートマト
ンに対して第1の実施例の単語照合を行うことである。
例えば,図9では状態番号1から始まるオートマトンに
対して単語照合を行っていたが,それを状態番号2,
3,・・・から始まるオートマトンに対しても,同様な
単語照合を行う。これにより,任意の位置に存在する単
語を抽出することができる。また,辞書から単語を選択
する場合は,図2のステップ125で新旧住所表記の属
性が得られないので,辞書にある新旧住所表記のフラグ
を見ないで単語を選択する。In step 304, the automaton matching of the address display number word is performed using the automaton 191 generated in step 303, the address display number word index dictionary 115 and the address display number word dictionary 116 in FIG.
However, the point different from the method of the first embodiment is that when the number of states of the generated automaton is K (K> 1), the cut is performed at K cut points and the rear partial automaton starting from each cut point is That is, the word matching of the first embodiment is performed.
For example, in FIG. 9, word matching was performed for the automaton starting from state number 1,
Similar word matching is performed for the automaton starting from 3,. Thereby, a word existing at an arbitrary position can be extracted. When a word is selected from the dictionary, the attribute of the new and old address notation cannot be obtained in step 125 of FIG. 2, so the word is selected without looking at the flag of the new and old address notation in the dictionary.
【0085】ステップ305では,第1の実施例と同様
な方法により,ステップ304で得られた上位L(L>
1)個のワイルドカードで表された単語について,
「n」,「k」の数字を表すワイルドカードを元の数字
に復元して,住所表示番号の候補を生成する。In step 305, the upper L (L> L) obtained in step 304 is obtained in the same manner as in the first embodiment.
1) For words represented by wildcards,
Wildcards representing the numbers “n” and “k” are restored to the original numbers, and address display number candidates are generated.
【0086】ステップ306では,第1の実施例と同様
な方法によりステップ305で生成した候補から,コス
トの小さいP個の候補を住所表示番号照合結果として選
択する。以上のステップ300からステップ306まで
の処理により,図2におけるステップ126の住所表示
番号照合が行われる。At step 306, P candidates having a low cost are selected as address display number comparison results from the candidates generated at step 305 in the same manner as in the first embodiment. Through the processing from step 300 to step 306, the address display number collation in step 126 in FIG. 2 is performed.
【0087】ステップ127では,ステップ123で得
られた町域区分番号とステップ126で得られた住所表
示番号を併せて図1の区分部104を制御する制御情報
を生成する。At step 127, control information for controlling the section 104 of FIG. 1 is generated by combining the town area section number obtained at step 123 and the address display number obtained at step 126.
【0088】以上ステップ120からステップ127の
処理により,町域照合により住所表示番号領域の先頭が
見つからなかった場合でも,区分部104を制御する制
御情報を得ることが可能になる。As described above, the processing from step 120 to step 127 makes it possible to obtain control information for controlling the sorting section 104 even when the head of the address display number area is not found by the town area verification.
【0089】本発明の第三の実施例を図2,図16,図
17,図18を用いて説明する。A third embodiment of the present invention will be described with reference to FIGS. 2, 16, 17, and 18.
【0090】図16において,本発明の特徴は不読修正
部310と住所表示番号範囲辞書117である。図16
の装置の動作を図17を用いて説明する。In FIG. 16, the features of the present invention are an unread correction unit 310 and an address display number range dictionary 117. FIG.
The operation of this device will be described with reference to FIG.
【0091】ステップ340からステップ345まで
は,第1の実施例における図2のステップ120から1
25までとそれぞれ同様な処理を行う。ステップ346
では,第1の実施例と同様な方法により住所表示番号照
合を行う。ただし,照合を行った結果,候補が得られな
かった場合を考える。ステップ347では,図16の制
御部107が不読文字修正部310に知識処理部110
の結果を送り,不読文字修正部310においてオペレー
タの入力作業により住所表示番号を入力する。図18は
入力作業のための表示画面の例である。360は図16
の画像入力部102で取り込んだ郵便物の宛名画像であ
る。361は知識処理部110の結果であり,住所表示
番号の候補がなかったので数値に対応する部分は「?」
で示されている。362,363,364は,住所表示
番号の中で,それぞれ丁目,街区,住居表示番号の数値
をオペレータが入力するための枠である。ここで,オペ
レータが入力した数値を知識処理部110が住所表示番
号範囲辞書117を用いてその値が正しい範囲内に入っ
ているかを判定する。判定の結果,もし範囲外となった
場合は,オペレータにその旨を表示する。以上のステッ
プ347の処理により,住所表示番号が入力される。Steps 340 to 345 correspond to steps 120 to 1 in FIG. 2 in the first embodiment.
The same processing is performed for each of up to 25. Step 346
Then, the address display number collation is performed in the same manner as in the first embodiment. However, it is assumed that no candidate is obtained as a result of the matching. In step 347, the control unit 107 in FIG.
Is sent, and the address display number is input by the operator in the unread character correcting unit 310. FIG. 18 is an example of a display screen for an input operation. 360 is FIG.
Is an address image of a postal matter captured by the image input unit 102 of FIG. Numeral 361 indicates the result of the knowledge processing unit 110. Since there is no candidate for the address display number, the part corresponding to the numerical value is “?”.
Indicated by Reference numerals 362, 363, and 364 denote frames for the operator to input numerical values of the street number, the block, and the house display number in the address display numbers. Here, the knowledge processing unit 110 uses the address display number range dictionary 117 to determine whether the value entered by the operator is within a correct range. If the result of the determination is that the value is outside the range, the operator is informed of that. The address display number is input by the processing in step 347 described above.
【0092】ステップ348では,ステップ345で得
られた町域情報と,ステップ346で入力された住所表
示番号を結合して住所候補を生成する。以上,ステップ
340からステップ348の処理により,住所表示番号
照合で候補が得られなかった場合でも,装置の補助によ
りオペレータが正しい住所表示番号を入力することがで
き,正しい住所が得られる。In step 348, the address candidate is generated by combining the town area information obtained in step 345 and the address display number input in step 346. As described above, by the processing from step 340 to step 348, even if no candidate is obtained in the address display number collation, the operator can input the correct address display number with the assistance of the device, and the correct address can be obtained.
【0093】上記実施例では,住所表示番号の例は新住
所表記を用いて説明したが,これは旧住所表記の住所表
示番号に対しても同様な処理が適用される。In the above embodiment, the example of the address display number has been described using the new address notation, but the same processing is applied to the address display number of the old address notation.
【0094】[0094]
【発明の効果】本発明は,次の5つの効果がある。第一
は,文字認識で正しい候補文字が全く挙がらなかった場
合でも,住所表示番号を認識できることである。本発明
では,住所表示番号の表記パターンを任意の数字を表す
ワイルドカードを用いて表現した辞書単語として保持し
ており,認識結果の候補文字群と単語のコストを計算し
て照合を行うことで,住所表示番号を認識することがで
きる。そのため,住所表示番号の一部の認識結果の候補
文字群に正しい候補が上がらなかった場合でも,それを
補間して住所表示番号を認識することができる。例え
ば,「3丁目8−1」の「丁」に対応する文字パターン
に対して,「丁」という文字が認識候補として上がらな
かった場合でも,それに対応する単語が全体としてコス
トが小さければ,「丁」を補間して住所番号を認識する
ことができる。The present invention has the following five effects. First, even if no correct candidate character is found in character recognition, the address display number can be recognized. In the present invention, the notation pattern of the address display number is held as a dictionary word expressed by using a wildcard representing an arbitrary number, and the matching is performed by calculating the cost of the candidate character group of the recognition result and the word and performing the matching. , Address display number can be recognized. Therefore, even if a correct candidate does not appear in a candidate character group of a part of the recognition result of the address display number, the address display number can be recognized by interpolating the correct candidate. For example, for a character pattern corresponding to “cho” in “3-chome 8-1”, even if the character “cho” does not rise as a recognition candidate, if the word corresponding to it has a small cost as a whole, “ The address number can be recognized by interpolating the "cho".
【0095】加えて,住所表示番号の表記パターンを辞
書の形式で保持しているため,個別の関数を準備して処
理するより詳細に表記パターンを見ることができるの
で,誤認識を防ぐことができる。In addition, since the notation pattern of the address display number is stored in the form of a dictionary, it is possible to see the notation pattern in more detail than to prepare and process individual functions. it can.
【0096】第二は,住所表示番号を詳細に調べること
ができるにも関わらず,高速に処理されることである。
まず,辞書から単語を検索するときに,各文字パターン
に対応する候補文字群をインデックスとして検索するた
めに,照合を行う単語数を減らすことができる。さら
に,各単語に新旧住所表記や縦横書きに対応する属性を
持たせいているので,予め認識しようとする住所表示番
号が新旧住所表記のどちらに属するか,あるいは縦横書
きのどちらであるかが分かっていれば,不必要な単語の
照合を防ぐことができ,高速な処理が可能となる。Second, although the address display number can be checked in detail, it is processed at high speed.
First, when a word is searched from the dictionary, the number of words to be collated can be reduced because a candidate character group corresponding to each character pattern is searched as an index. In addition, since each word has an attribute corresponding to the old and new address notation and vertical and horizontal writing, it is possible to determine in advance whether the address display number to be recognized belongs to the new or old address notation or whether it is vertical or horizontal writing. If so, unnecessary word matching can be prevented, and high-speed processing can be performed.
【0097】第三は,辞書方式であるために,新しい表
記パターンが発生した場合は簡単に辞書に登録すること
ができ,メンテナンスが容易なことである。Third, since the dictionary system is used, when a new writing pattern is generated, it can be easily registered in the dictionary, and maintenance is easy.
【0098】第四に,住所表示番号の数字部分について
階層的に数字の取り得る範囲を保持しておく住所表示番
号範囲辞書があるため,実際にありえない住所表示番号
の候補を除くことができる。Fourthly, since there is an address display number range dictionary that holds a range in which numbers can be taken in a hierarchical manner with respect to the numeric portion of the address display number, it is possible to eliminate address display number candidates that cannot actually exist.
【0099】第五に,住所表示番号照合の結果,住所表
示番号候補が得られなかった場合に,オペレータが郵便
物の宛名領域の画像を見ながら,住所表示番号を正しく
入力できることである。住所表示番号の数値部の取り得
る範囲の値を階層的に保持する住所表示番号範囲辞書を
保持しているため,オペレータが入力した住所表示番号
の数値部が正しい範囲内に入っているかを,住所表示番
号範囲辞書を参照して判定することができる。判定の結
果,範囲外と判定された場合はオペレータに警告を行う
ため,オペレータによる入力ミスを防ぐことができる。Fifth, if the address display number candidate is not obtained as a result of the address display number collation, the operator can correctly input the address display number while looking at the image of the address area of the postal matter. Since the address display number range dictionary that holds the range of values that can be taken by the numerical part of the address display number in a hierarchical manner is held, it is checked whether the numerical part of the address display number entered by the operator is within the correct range. The determination can be made with reference to the address display number range dictionary. As a result of the determination, if it is determined that the value is out of the range, a warning is issued to the operator, so that an input error by the operator can be prevented.
【0100】[0100]
【図1】本発明における第1の実施例の装置の全体構成
図である。FIG. 1 is an overall configuration diagram of an apparatus according to a first embodiment of the present invention.
【図2】本発明における第1の実施例の装置の処理全体
の流れを示す図である。FIG. 2 is a diagram showing a flow of an entire process of the apparatus according to the first embodiment of the present invention.
【図3】住所表示番号照合を行う処理の流れを示す図で
ある。FIG. 3 is a diagram showing a flow of a process of performing address display number collation.
【図4】町域照合を行うための候補文字ラティスの例を
示す図である。FIG. 4 is a diagram showing an example of a candidate character lattice for performing town area matching.
【図5】町域情報を格納した町域辞書の構成の例を示す
図である。FIG. 5 is a diagram showing an example of the configuration of a town area dictionary storing town area information.
【図6】住所表示番号領域の候補文字ラティスの例を示
す図である。FIG. 6 is a diagram illustrating an example of a candidate character lattice in an address display number area.
【図7】候補文字ラティスから住所表示番号照合を行う
ためのワイルドカードラティスを生成する変換テーブル
を示す図である。FIG. 7 is a diagram showing a conversion table for generating a wildcard lattice for performing address display number collation from a candidate character lattice.
【図8】図7の変換テーブルを用いて,図6の候補文字
ラティスから生成したワイルドカードラティスの例を示
す図である。8 is a diagram illustrating an example of a wildcard lattice generated from the candidate character lattice of FIG. 6 using the conversion table of FIG. 7;
【図9】オートマトン単語照合の処理概要を示す図であ
る。FIG. 9 is a diagram illustrating an outline of processing of automaton word matching.
【図10】オートマトン単語照合の処理の流れを示すP
ADである。FIG. 10 is a flowchart showing a process flow of the automaton word matching.
AD.
【図11】住所表示番号単語インデックス辞書,住所表
示番号単語辞書の構成を示す図である。FIG. 11 is a diagram showing a configuration of an address display number word index dictionary and an address display number word dictionary.
【図12】照合した結果の住所表示番号単語から数字部
分を復元した住所表示番号の候補の例を示す図である。FIG. 12 is a diagram showing an example of an address display number candidate obtained by restoring a number portion from an address display number word as a result of the comparison;
【図13】住所表示番号範囲辞書の構成の例を示す図で
ある。FIG. 13 is a diagram showing an example of the configuration of an address display number range dictionary.
【図14】図12の住所表示番号の候補から,各数字の
部分について取り得る範囲を判定した後に残った候補を
示す図である。14 is a diagram showing candidates remaining after judging a possible range for each numeral portion from the candidates for the address display number in FIG. 12;
【図15】本発明の第二の実施例における住所表示番号
照合処理の流れを示す図である。FIG. 15 is a diagram showing a flow of an address display number collating process in the second embodiment of the present invention.
【図16】本発明における第三の実施例の装置の全体構
成図である。FIG. 16 is an overall configuration diagram of an apparatus according to a third embodiment of the present invention.
【図17】本発明における第三の実施例の処理全体の流
れを示す図である。FIG. 17 is a diagram showing a flow of an entire process according to a third embodiment of the present invention.
【図18】不読となった住所表示番号を入力するための
画面の表示の例を示す図である。FIG. 18 is a diagram showing a display example of a screen for inputting an unread address display number.
100…郵便物,101…郵便物供給部,102…画像
入力部,103…遅延搬送部,104…区分部,105
…区分棚,106…住所認識部,107…制御部,10
8…画像処理部,109…文字認識部,110…知識処
理部,111…町域照合部,112…住所表示番号照合
部,113…町域単語辞書,114…住所表示番号辞書
群,115…住所表示番号単語インデックス辞書,11
6…住所表示番号単語辞書,117…住所表示番号範囲
辞書。100: mail, 101: mail supply unit, 102: image input unit, 103: delay transport unit, 104: sorting unit, 105
... Segment shelf, 106 ... Address recognition unit, 107 ... Control unit, 10
8 Image processing unit, 109 Character recognition unit, 110 Knowledge processing unit, 111 Town area collation unit, 112 Address display number collation unit, 113 Town word dictionary, 114 Address display number dictionary group, 115 Address display number word index dictionary, 11
6 ... Address display number word dictionary, 117 ... Address display number range dictionary.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 古賀 昌史 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 影広 達彦 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 寺本 正人 愛知県尾張旭市晴丘町池上1番地 株式 会社日立製作所オフィスシステム事業部 内 (72)発明者 渡辺 成 愛知県尾張旭市晴丘町池上1番地 株式 会社日立製作所オフィスシステム事業部 内 (72)発明者 藤澤 浩道 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 平6−124366(JP,A) 特開 平5−169033(JP,A) (58)調査した分野(Int.Cl.7,DB名) B07C 3/00 - 3/20 G06K 9/62 620 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Masafumi Koga 1-280 Higashi Koikekubo, Kokubunji-shi, Tokyo Inside the Central Research Laboratory, Hitachi, Ltd. (72) Tatsuhiko Kagehiro 1-280 Higashi Koikekubo, Kokubunji-shi, Tokyo Hitachi, Ltd. Inside the Central Research Laboratory (72) Inventor Masato Teramoto 1st Ikegami, Haruoka-cho, Owariasahi-shi, Aichi Prefecture Inside Office Systems Division, Hitachi, Ltd. In System Division (72) Inventor Hiromichi Fujisawa 1-280 Higashi Koigakubo, Kokubunji-shi, Tokyo Inside Central Research Laboratory, Hitachi, Ltd. (56) References JP-A-6-124366 (JP, A) JP-A-5-169033 ( JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) B07C 3/00- 3/20 G06K 9/62 620
Claims (7)
報と住所表示番号情報からなる住所情報を読み取る住所
読み取り装置において, 郵便物上の画像をデジタル信号に変換して入力する画像
入力手段と, 前記画像入力手段から入力された画像から文字情報を切
り出して認識し,切り出された各文字パターンに対して
認識候補文字群を出力する文字認識手段と, 町域名情報を格納する町域名辞書と, 前記文字認識手段から出力された認識候補文字群と前記
町域名辞書と照合することにより町域名を認識する町域
名照合手段と, 前記町域名照合手段の認識結果に基づき,住所表示番号
領域を検出する住所表示番号領域検出手段と, 前記住所表示番号領域検出手段からの出力に基づき,前
記住所表示番号領域内の各文字パターンに対応する候補
文字群中の数字を,任意の数字を表す特定の記号で置き
換え,かつ上記数字同士の間を区切る文字はそのまま残
した候補文字群に変換する変換手段と, 前記特定の記号と住所表示番号情報中の数字同士の間を
区切る文字とで表現した住所表示番号の様々な表記パタ
ーンを保持する住所表示番号表記パターン辞書と, 前記変換手段の出力結果と前記住所表示番号表記パター
ン辞書の表記パターンとを照合し,住所表示番号の表記
パターンの候補を出力する表記パターン照合手段と, 前記表記パターン照合手段の出力結果と,前記文字認識
手段から出力される候補文字群とを照らし合せ,前記特
定の記号で置き換えられた候補文字群中の数字を復元
し,住所表示番号の文字列候補を出力する数字復元手段
と, を有することを特徴とする住所読み取り装置。An address reading device for detecting character information on a postal matter and reading address information comprising street name information and address display number information, wherein an image on the postal matter is converted into a digital signal and inputted. Input means, character recognition means for extracting and recognizing character information from an image input from the image input means, and outputting a recognition candidate character group for each of the cut character patterns; and a town storing town area name information. An area name dictionary, a town area name matching means for recognizing a town area name by matching the recognition candidate character group output from the character recognition means with the town area name dictionary, and an address display based on the recognition result of the town area name matching means. Address display number area detecting means for detecting a number area; and a code corresponding to each character pattern in the address display number area based on an output from the address display number area detecting means. Conversion means for replacing a number in a character group with a specific symbol representing an arbitrary number, and converting a character separating the numbers into a candidate character group which remains as it is, the specific symbol and address display number information An address display number notation pattern dictionary that holds various notation patterns of address display numbers expressed by characters that separate the numbers inside, an output result of the conversion unit, and a notation pattern of the address display number notation pattern dictionary. A notation pattern matching unit that outputs a candidate for a notation pattern of an address display number; comparing an output result of the notation pattern matching unit with a candidate character group output from the character recognition unit; Address restoring means for restoring numbers in a candidate character group replaced by symbols and outputting a character string candidate for an address display number; Take apparatus.
て, 前記町域名辞書は,町域名情報に加えて,町域名を識別
するための町域名区分番号,その町域名が新住所表記で
あるか,旧住所表記であるかの情報を格納しており, 前記住所書読み取り装置は, 郵便物上の住所情報を表す文字群が縦書きであるか,横
書きであるかを検出する文字方向検出手段と, 前記町域名照合手段の認識結果と前記町域名辞書に基づ
き,その町域名が新住所表記であるか,旧住所表記であ
るかを判別する住所表記判別手段と, 各表記パターンに新旧住所表記に関する属性,縦横書き
に関する属性を持たせた住所表示番号表記パターン辞書
と, を備え, 前記表記パターン照合手段は, 前記特定の記号で置き換えた任意の位置にある各文字パ
ターンの候補文字群に対し,その候補文字群の文字コー
ドをインデックスとして,住居表示番号表記パターン辞
書から表記パターンを検索する表記パターン検索手段
と, 前記文字方向検出手段と前記住所表記判別手段の出力に
基づき,前記表記パターン検索手段によって検索された
表記パターンの中から,前記住居表示番号表記パターン
辞書から新旧住所表記,縦横書きのそれぞれの属性が一
致する表記パターンのみを読み出す表記パターン選択手
段と, を有することを特徴とする住所読み取り装置。2. The address reading device according to claim 1, wherein the town area name dictionary includes, in addition to the town area name information, a town area name classification number for identifying the town area name, and whether the town area name is a new address notation. The address book reading device, which detects whether the character group representing the address information on the postal matter is written vertically or horizontally. Address notation discriminating means for discriminating whether the town name is a new address notation or an old address notation based on the recognition result of the town name matching means and the town name dictionary; An address display number notation pattern dictionary having attributes related to notation and vertical and horizontal writing, and the notation pattern matching means includes a candidate character group of each character pattern at an arbitrary position replaced with the specific symbol. On the other hand, a notation pattern search means for searching a notation pattern from a house display number notation pattern dictionary using a character code of the candidate character group as an index; Writing pattern selecting means for reading only writing patterns whose attributes of new and old address writing and vertical and horizontal writing match from the house display number writing pattern dictionary from the writing patterns searched by the search means. Address reading device.
て, 前記町域名照合手段の認識結果に基づき,住所表示番号
領域の先頭を検出することができなかった場合に,認識
候補文字群中に数字の候補が含まれる任意の文字パター
ンを住所表示番号領域の先頭として仮定し,その文字パ
ターンの位置を出力する先頭仮定手段を有し, 前記表記パターン照合手段は,前記先頭仮定手段からの
出力に基づき,住所表示番号領域の先頭と仮定される位
置から,前記変換手段の出力結果と前記住居表示番号表
記パターン辞書の表記パターンとを照合し,住所表示番
号の表記パターンの候補を出力することを特徴とする住
所読み取り装置。3. The address reading device according to claim 1, wherein if the head of the address display number area cannot be detected based on the recognition result of the town area name matching means, a numeral is included in the recognition candidate character group. And a head assuming means for assuming an arbitrary character pattern including the candidate of the address as the head of the address display number area and outputting the position of the character pattern. Based on the position assumed to be the head of the address display number area, the output result of the conversion means is compared with the notation pattern of the house display number notation pattern dictionary, and the candidate of the address display number notation pattern is output. Characteristic address reading device.
て, 前記数字復元手段から出力される住所表示番号の文字列
候補について,住所表示番号範囲辞書を参照して数値部
の値が住所表示番号の取りうる範囲であるかを判定し,
判定した結果に基づいて候補を絞り込む住所表示番号範
囲判定手段を有することを特徴とする住所読み取り装
置。4. The address reading device according to claim 1, wherein, for a character string candidate of an address display number output from said numeral restoring means, a value of a numerical part of the address display number is determined by referring to an address display number range dictionary. Judge whether it is within the range,
An address reading device comprising address display number range determining means for narrowing down candidates based on a result of the determination.
て, 前記数字復元手段の出力結果として,住所表示番号の文
字列候補が得られなかった場合に,オペレータが郵便物
の宛名領域の画像を見ながら住所表示番号を入力するた
めの表示装置と, オペレータが入力した住所表示番号の数値部が正しい範
囲内に入っているかを前記住所表示番号範囲辞書を参照
して判定する範囲判定手段と, 判定の結果,範囲外と判定された場合はオペレータに警
告を行う手段と, を有することを特徴とする住所読み取り装置。5. An address reading device according to claim 4, wherein, when a character string candidate of an address display number is not obtained as an output result of said numeral restoring means, an operator looks at an image of a mail address area. A display device for inputting an address display number while inputting, and a range determining means for determining whether a numerical part of the address display number input by the operator is within a correct range by referring to the address display number range dictionary. Means for alerting an operator if the result of the determination is that the address is out of the range.
報と住所表示番号情報からなる住所情報を読み取る方法
であって, 郵便物上の画像をデジタル信号に変換して入力し, 入力された画像から文字情報を切り出して認識し, 前記切り出された各文字パターンに対して認識候補文字
群を出力し, 前記認識候補文字群と町域名情報を格納した町域名辞書
と照合することにより町域名を認識し, 認識された町域名に基づき,住所表示番号領域を検出
し, 前記検出された住所表示番号領域の各文字パターンに対
応する候補文字群中の数字を,任意の数字を表す特定の
記号で置き換え,かつ上記数字同士の間を区切る文字は
そのまま残した候補文字群に変換し, 前記特定の記号で置き換えられた候補文字群と,前記特
定の記号と住所表示番号情報中の数字同士の間を区切る
文字とで表現した住所表示番号の様々な表記パターンを
保持する住所表示番号表記パターン辞書とを照合し,住
所表示番号の表記パターンの候補を出力し, 前記出力された表記パターンの候補と,前記認識候補文
字群とを照らし合せ,前記特定の記号で置き換えられた
候補文字群中の数字を復元し,住所表示番号の文字列候
補を出力することを特徴とする住所読み取り方法。6. A method of detecting character information on a postal matter and reading address information comprising street name information and address display number information, wherein the image on the postal matter is converted into a digital signal and inputted. Character information is cut out from the input image and recognized, a recognition candidate character group is output for each of the cut character patterns, and the recognition candidate character group is compared with a town name dictionary storing town name information. The address display number area is detected based on the recognized town area name, and the numbers in the candidate character group corresponding to each character pattern of the detected address display number area are replaced with an arbitrary number. The characters replaced by the specific symbol that represents the character and the characters that separate the numbers from each other are converted into a group of candidate characters left as they are, and the group of candidate characters replaced by the specific symbol, the specific symbol, and the address display number information Collating the in numeric location number notation pattern dictionary which holds the various representation pattern of location numbers expressed in a character that separates between the each other, outputs the candidate notation pattern of location numbers, is the output Comparing the notation pattern candidate with the recognition candidate character group, restoring numbers in the candidate character group replaced with the specific symbol, and outputting a character string candidate for an address display number. Address reading method.
報と住所表示番号情報からなる住所情報を読み取る住所
読み取り装置において, 郵便物上の画像をデジタル信号に変換して入力する画像
入力手段と, 前記画像入力手段から入力された画像から文字情報を切
り出して認識し,切り出された各文字パターンに対して
認識候補文字群を出力する文字認識手段と, 町域名情報を格納した町域名辞書と, 前記文字認識手段から出力された認識候補文字群と前記
町域名辞書と照合することにより町域名を認識する町域
名照合手段と, 前記町域名照合手段の認識結果に基づき,住所表示番号
領域を検出する住所表示番号領域検出手段と, 前記住所表示番号領域検出手段からの出力に基づき,前
記住所表示番号領域内の各文字パターンに対応する候補
文字群中の数字を,任意の数字を表す特定の記号で置き
換えた候補文字群に変換する変換手段と, 前記特定の記号と住所表示番号情報中の数字同士の間を
区切る文字とで表現した住所表示番号の様々な表記パタ
ーンを保持する住所表示番号表記パターン辞書と, 前記変換手段の出力結果と前記住所表示番号表記パター
ン辞書の表記パターンとを照合し,住所表示番号の表記
パターンの候補を出力する表記パターン照合手段と, 前記表記パターン照合手段の出力結果と,前記文字認識
手段から出力される候補文字群とを照らし合せ,前記特
定の記号で置き換えられた候補文字群中の数字を復元
し,住所表示番号の文字列候補を出力する数字復元手段
と, 前記数字復元手段から出力される住所表示番号の文字列
候補について,住所表示番号範囲辞書を参照して数値部
の値が住所表示番号の取りうる範囲であるかを判定し,
判定した結果に基づいて候補を絞り込む住所表示番号範
囲判定手段と, 前記数字復元手段の出力結果として,住所表示番号の文
字列候補が得られなかった場合に,オペレータが郵便物
の宛名領域の画像を見ながら住所表示番号を入力するた
めの表示装置と, オペレータが入力した住所表示番号の数値部が正しい範
囲内に入っているかを前記住所表示番号範囲辞書を参照
して判定する範囲判定手段と, 判定の結果,範囲外と判定された場合はオペレータに警
告を行う手段と, を有することを特徴とする住所読み取り装置。7. An address reading device for detecting character information on a mail and reading address information comprising street name information and address display number information, wherein an image on the mail is converted into a digital signal and inputted. Input means; character recognition means for extracting and recognizing character information from the image input from the image input means; and outputting a recognition candidate character group for each of the cut character patterns; and a town storing town area name information. An area name dictionary, a town area name matching means for recognizing a town area name by matching the recognition candidate character group output from the character recognition means with the town area name dictionary, and an address display based on the recognition result of the town area name matching means. Address display number area detecting means for detecting a number area; and a code corresponding to each character pattern in the address display number area based on an output from the address display number area detecting means. The numbers in the character group, and converting means for converting the candidate character group is replaced by a specific symbol indicating any number, between the numbers each other in the specific symbol and location number information
An address display number notation pattern dictionary holding various notation patterns of address display numbers expressed by delimiting characters, and comparing the output result of the conversion means with the notation pattern of the address display number notation pattern dictionary, A notation pattern matching unit for outputting a notation pattern candidate, and comparing the output result of the notation pattern matching unit with a candidate character group output from the character recognition unit, and replacing the candidate character with the specific symbol. Digit restoring means for restoring the numbers in the group and outputting a character string candidate for the address display number; and for the character string candidates for the address display number output from the number restoring means, refer to the address display number range dictionary for numerical values. Judge whether the value of the part is within the range of the address display number,
Address display number range determining means for narrowing down candidates based on the result of the determination; and, when a character string candidate for the address display number is not obtained as an output result of the numeral restoring means, an operator displays an image of a mailing address area. A display device for inputting an address display number while watching the display, and a range determining means for determining whether a numerical part of the address display number input by the operator is within a correct range by referring to the address display number range dictionary. A means for alerting an operator if the result of the determination is that the address is out of the range.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05394695A JP3201207B2 (en) | 1995-03-14 | 1995-03-14 | Address reading apparatus and method |
JP10304989A JPH11207266A (en) | 1995-03-14 | 1998-10-27 | Address reading apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05394695A JP3201207B2 (en) | 1995-03-14 | 1995-03-14 | Address reading apparatus and method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10304989A Division JPH11207266A (en) | 1995-03-14 | 1998-10-27 | Address reading apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08243505A JPH08243505A (en) | 1996-09-24 |
JP3201207B2 true JP3201207B2 (en) | 2001-08-20 |
Family
ID=12956897
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05394695A Expired - Fee Related JP3201207B2 (en) | 1995-03-14 | 1995-03-14 | Address reading apparatus and method |
JP10304989A Pending JPH11207266A (en) | 1995-03-14 | 1998-10-27 | Address reading apparatus and method |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10304989A Pending JPH11207266A (en) | 1995-03-14 | 1998-10-27 | Address reading apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP3201207B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3106994B2 (en) * | 1997-02-21 | 2000-11-06 | 日本電気株式会社 | Address reading device |
JP4982587B2 (en) * | 2010-05-07 | 2012-07-25 | 株式会社東芝 | Data entry system and data entry method |
WO2013108347A1 (en) * | 2012-01-19 | 2013-07-25 | 日本電気株式会社 | Character recognition device, classifying device provided with same, character recognition method and control program |
JP5942661B2 (en) * | 2012-07-23 | 2016-06-29 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
JP6172565B2 (en) * | 2013-06-11 | 2017-08-02 | 富士ゼロックス株式会社 | Document processing apparatus and program |
JP7401202B2 (en) * | 2019-06-17 | 2023-12-19 | キヤノン株式会社 | Image processing device, its control method, and program |
CN113723681A (en) * | 2021-08-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | Path selection method and device, electronic equipment and readable storage medium |
-
1995
- 1995-03-14 JP JP05394695A patent/JP3201207B2/en not_active Expired - Fee Related
-
1998
- 1998-10-27 JP JP10304989A patent/JPH11207266A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JPH08243505A (en) | 1996-09-24 |
JPH11207266A (en) | 1999-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100524477B1 (en) | Mail distribution information recognition method and device | |
US6341176B1 (en) | Method and apparatus for character recognition | |
US6327373B1 (en) | Mail address reading apparatus and mail sorting apparatus | |
US8249744B2 (en) | Mail routing system including a data block analyzer | |
JP3375766B2 (en) | Character recognition device | |
JP3485020B2 (en) | Character recognition method and apparatus, and storage medium | |
JP3201207B2 (en) | Address reading apparatus and method | |
US20210209354A1 (en) | Information processing device, information processing method, and information processing program | |
JP2011197823A (en) | Address database construction apparatus and address database construction method | |
KR100571080B1 (en) | Document Recognizer and Mail Separator | |
JPH0957204A (en) | Automatic address reading system for postal matter | |
KR100336719B1 (en) | System and its Method for creating delivery information of mail | |
JPH06124366A (en) | Address reader | |
JP3162552B2 (en) | Mail address recognition device and address recognition method | |
JP2001009381A (en) | Information processing type mail sorting system | |
KR101013883B1 (en) | Method and apparatus for generating classification information, and waybill accordingly | |
JPH09190507A (en) | Address reader | |
JP2000090192A (en) | Character string correcting method for address and zip code | |
JP3425257B2 (en) | Mail reading sorter | |
JP2991594B2 (en) | Mail address reading device | |
JP2000246184A (en) | Address specifying device | |
JPH08123799A (en) | Automatic mail address information layout method | |
JP2001025713A (en) | Postal sorting system | |
JPH10432A (en) | Method and apparatus for reading address of mail | |
KR200353215Y1 (en) | Invoice for generating information on tributary for delivery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080622 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090622 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |