[go: up one dir, main page]

JP2865446B2 - 文章処理装置 - Google Patents

文章処理装置

Info

Publication number
JP2865446B2
JP2865446B2 JP3115048A JP11504891A JP2865446B2 JP 2865446 B2 JP2865446 B2 JP 2865446B2 JP 3115048 A JP3115048 A JP 3115048A JP 11504891 A JP11504891 A JP 11504891A JP 2865446 B2 JP2865446 B2 JP 2865446B2
Authority
JP
Japan
Prior art keywords
word
phrase
memory
particle
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3115048A
Other languages
English (en)
Other versions
JPH04343161A (ja
Inventor
房雄 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP3115048A priority Critical patent/JP2865446B2/ja
Publication of JPH04343161A publication Critical patent/JPH04343161A/ja
Application granted granted Critical
Publication of JP2865446B2 publication Critical patent/JP2865446B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、かな漢字変換機能を
備えた文章処理装置に関し、特に変換効率を高めるため
の用例辞書を備えた文章処理装置に関する。
【0002】
【従来の技術】従来の用例辞書は、図9に示すように、
用例における前側の単語(以下前文節単語と呼ぶ)、用例
における後側の単語(以下後文節単語と呼ぶ)および用例
における単語間に位置する助詞の3つの要素が1組みの
情報として記憶されている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
用例辞書では、助詞情報を16種類(が、を、に、でな
ど)持たせると、1つの用例では16ビットのデータが
必要となり、したがって4万例に及ぶ用例の場合には、
640キロビットが助詞情報として必要になり、用例辞
書の容量が増加するという問題があった。この発明は以
上の事情を考慮してなされたもので、用例辞書容量を圧
縮することのできる文章処理装置を提供する。
【0004】
【課題を解決するための手段】図1はこの発明の基本構
成を明示するブロック図である。同図においてこの発明
は、単語の読みを入力する入力手段1と、漢字を含む多
数の単語をその読みと対応して記憶している単語辞書手
段2と、各単語の有効な組み合わせを、前文節単語、後
文節単語および単語同士を接続する助詞情報の組み合わ
せで記憶する用例辞書手段3と、入力手段1から入力さ
れた単語の読みに対応する単語候補を単語辞書手段2か
ら呼び出すとともに、単語候補および単語間の助詞候補
を用例辞書手段3から検索し、それにより単語の読みを
漢字かな交じり文に変換する変換手段4と、変換された
漢字かな交じり文を出力する出力手段5とを備えてな
り、前記用例辞書手段3に記憶された助詞情報の全て
は、出現頻度によって分類される1つ或いは複数の助詞
で構成されるパターンを単位としてコード化されて、か
つ1つの単語の組み合わせに対して1つ或いは複数のコ
ード化された助詞情報が対応づけられて記憶され、前記
変換手段4はさらに、上記1つ或いは複数のコードで表
される全ての助詞を検索対象にするようにしたことを特
徴とする文章処理装置である。また、この発明は、入力
された単語の読みを対応する漢字を含む単語に変換する
際に、前文節単語と後文節単語の組み合わせの有効性を
得るために参照される文章処理装置の用例辞書であっ
て、前文節単語および後文節単語を記憶する第1メモリ
と、前文節単語と後文節単語を接続する助詞情報を、出
現頻度によって分類される1つ或いは複数の助詞で構成
されるパターンを単位としてコード化して記憶する第2
メモリと、前記第1メモリに記憶された単語の組み合わ
せの各々に対応する助詞パターンの前記第2メモリでの
格納場所を指示するアドレスポインタからなり、前記第
1メモリにおける前文節単語と後文節単語と、前記第2
メモリにおける1つ或いは複数の助詞とを、前記アドレ
スポインタによって対応づけて記憶したことを特徴とす
用例辞書を提供するものである。
【0005】この発明における入力手段1、変換手段
4、出力手段5は当該分野で公知のものが使用できる。
例えば入力手段1としては、かな文字列を入力できるも
のであればよく、キーボード、マウス、タブレット入力
装置、OCR等から構成できる。変換手段4は主要な構
成要素としてはマイクロプロセッサ、そのマイクロプロ
セッサを制御するプログラムを記憶したプログラムメモ
リ等を備えたものである。出力手段5はCRT、LCD
等の表示装置で構成することができ、この出力手段5に
はプリンタも含まれる。
【0006】
【作用】この発明に従えば、入力手段1からかな文字列
を入力し、変換キーを押すと、単語辞書手段2から変換
候補単語列が読み出され、次に用例辞書手段を参照する
ことにより、前文節単語候補および後文節単語候補が選
択され、さらに、前文節単語と後文節単語とを接続する
助詞候補が、出現頻度の高い助詞から格納されている助
詞情報との照合結果から選択されるよう作用する。
【0007】
【実施例】以下図に示す実施例に基づいてこの発明を詳
述する。なお、これによってこの発明は限定されるもの
ではない。かな漢字変換における用例辞書は、変換結果
を次候補選択することなく一回で変換できるようにし
て、全体のキー操作回数を減らそうとするものである。
例えば、“きちをけんせつする"というかな文字列が入
力され変換した場合、“きち"に該当する表記には“機
知"、“既知"、“基地"、“貴地"、“危地"等のように
多くの同音異議語(以下同音語)が存在し、単語の単な
る変換回数頻度を考慮しただけでは、同音語の選択に要
するキー操作回数が増えるため、これを[基地][を,
に,の,無][建設]という用例として記憶しておくこ
とにより、一回の変換操作で正しい変換結果を得ようと
するものである。
【0008】この発明は上記用例辞書構造の改良に関す
るものであり、図9に示す従来構成の用例辞書と比較し
て大幅にメモリー効率を向上させるものである。図2は
この発明の一実施例を適用したワードプロセッサの構成
である。10はキーボードで構成される入力装置であ
る。11はCPUチップを中心に構成される文字列制御
装置である。12はROM,RAM,あるいはフロッピ
ーディスク等で構成され、処理データや制御情報を記憶
する記憶装置である。13はCRT,LCD等から構成
され、処理結果を表示する表示装置である。14は入力
装置10から入力されたかな文字列を漢字かな交じり文
に変換するかな漢字変換処理装置である。15はかな漢
字変換に用いられている変換辞書16を検索する辞書検
索装置である。変換辞書16は単語の情報を格納した単
語辞書161と、単語,助詞,単語からなる組合せを記
憶した用例辞書162とから構成されている。
【0009】図3に上記の用例辞書162の構造を示
す。従来例の構成と異なるところは、34および35の
部分である。すなわち、35は用例の助詞データを格納
している助詞データメモリ、34は対応する用例単語の
助詞データの格納場所を示すアドレスポインタである。
各々の用例の助詞データを全用例について出現頻度の度
数をとると、図4に示すようにその度数の分布には大き
なかたよりがあることを見い出し、これを利用して用例
辞書162を構成している。すなわち、助詞データを度
数の高いものから順に並べ、例えば度数56位までを並
べ、その後ろに度数が低いものを合成するのに必要な助
詞パターンを並べた形で助詞データメモリ35は構成さ
れている。
【0010】図5に度数56位までのパターンで合成で
きる用例の助詞パターンの例を示す。用例“店舗"“販
売"の場合の助詞パターンは、[で",無,逆]である
が、これらは助詞パターン[無](度数2位)と、[で,
逆](度数19位)とで合成されることを示す。
【0011】図6は合成できない助詞パターン[に,
へ]の例を示す。この場合[に,へ]のパターンをその
まま度数57位以降に格納する。なおここで助詞パター
ン[無]とは、用例単語の間に助詞を介さず直接単語同
士が接続することを示し、また[逆]とは、用例の前文
節の単語と、後文節の単語とを逆にしても接続可能であ
ることを示している。
【0012】図7に助詞パターンの度数例を示す。同図
において助詞パターンにおける[+]は、接続する助詞
を特に限定しないパターン(助詞フリー)であることを
示す。例えばかな文字列“きちをけんせつする"と入力
された場合、文字列制御手段11は、各々の文字
“き",“ち"の入力毎に変換対象文字列として記憶手段
12に記憶するとともに、表示手段13にて入力文字列
の表示を行う。この状態で変換キーが押されると、文字
列制御手段11により、かな漢字変換処理手段14が起
動され、いくつかの変換候補、例えば“既知を建設す
る"、“機知を建設する"、“基地を建設する"等が生成
される。このあとでかな漢字変換処理手段14は、辞書
検索手段15により図3に示される用例辞書162の検
索を行う。以下にその具体例を説明する。
【0013】前文節単語“既知"を用例の前文節単語3
1内で検索し、該当位置の後文節単語へのアドレスポイ
ンタ32が示すアドレスと、1つ下のアドレスポインタ
の値を一時記憶し、この2つのアドレスポインタの間に
存在する後文節単語33を検索する。しかし、この検索
において“既知"“建設"のパターンは用例辞書に登録さ
れていないため、検索は失敗に終わり、候補のうち成功
するのは“基地"と“建設"の組み合わせだけであり、こ
れが変換候補として残る。
【0014】“基地"と“建設"がマッチした後、後文節
単語“建設"に対応した助詞情報のアドレスポインタ3
4を参照し、このポインタが示す助詞情報を助詞情報3
5から取り込み、助詞データを一時記憶する。助詞デー
タが2つで合成されている場合があるので、後文節単語
33の“建設"に該当するデータと“建設"の後ろの単語
とを比較する。この場合には、助詞が[に,の,無]と
[を,逆]との合成であるため、後文節の単語も“建
設"と一致し、それぞれの助詞情報を助詞情報35から
取り出し、2つのORをとって助詞データの検索が終了
する。
【0015】助詞データと、変換候補の助詞の照合処理
を行い“を"がマッチし、この結果“基地を建設する"
が、第1位の変換候補として残り、表示手段13により
画面上に表示される。以上が具体例であり、その処理フ
ローを図8に示す。なお、用例の構造を示した図3にお
いて、用例の前文節単語31と用例の後文節単語へのア
ドレスポインタ32は、先頭位置がわかっていれば用例
の前文節単語31の後ろに接続される必要はない。用例
の後文節単語33と用例の助詞情報へのアドレスポイン
タ34の関係についても同様である。この発明を適用す
ることにより、 実測例として6.7万例の用例の場合
には、従来例の用例辞書に比較して約800キロビット
の辞書容量の圧縮が可能である。
【0016】
【発明の効果】この発明によれば、用例単語間の接続可
能な助詞を、単に16種類のビットで持たせるのではな
く、助詞のパターンを出現頻度の高いものから順に並べ
たテーブルを用意し、頻度の度数の低いものについて
は、度数の高いパターンを合成して助詞情報を検索でき
るようにすることにより、用例辞書のメモリー容量の大
幅な圧縮を行うことができる。
【図面の簡単な説明】
【図1】この発明の基本構成を示すブロック図である。
【図2】この発明の一実施例の構成を示すブロック図で
ある。
【図3】実施例による用例辞書の構成を示す説明図であ
る。
【図4】用例辞書の助詞パターンの度数分布を示す図表
である。
【図5】助詞パターンの分割例を示す説明図である。
【図6】助詞パターンの合成不可例を示す説明図であ
る。
【図7】助詞データの全用例の度数を示す説明図であ
る。
【図8】実施例の動作を説明するフローチャートであ
る。
【図9】従来例の用例辞書の構成を示す説明図である。
【符号の説明】
1 入力手段 2 辞書手段 3 用例辞書手段 4 変換手段 5 出力手段

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語の読みを入力する入力手段と、 漢字を含む多数の単語をその読みと対応して記憶してい
    る単語辞書手段と、 各単語の有効な組み合わせを、前文節単語、後文節単語
    および単語同士を接続する助詞情報の組み合わせで記憶
    する用例辞書手段と、 入力手段から入力された単語の読みに対応する単語候補
    を単語辞書手段から呼び出すとともに、単語候補および
    単語間の助詞候補を用例辞書手段から検索し、それによ
    り単語の読みを漢字かな交じり文に変換する変換手段
    と、 変換された漢字かな交じり文を出力する出力手段とを備
    えてなり、 前記用例辞書手段に記憶された助詞情報の全ては、出現
    頻度によって分類される1つ或いは複数の助詞で構成さ
    れるパターンを単位としてコード化されて、かつ1つの
    単語の組み合わせに対して1つ或いは複数のコード化さ
    れた助詞情報が対応づけられて記憶され、 前記変換手段はさらに、上記1つ或いは複数のコードで
    表される全ての助詞を検索対象にするようにしたことを
    特徴とする文章処理装置。
  2. 【請求項2】 入力された単語の読みを対応する漢字を
    含む単語に変換する際に、前文節単語と後文節単語の組
    み合わせの有効性を得るために参照される文章処理装置
    用例辞書であって、前文節単語および後文節単語を記憶する第1メモリと、 前文節単語と後文節単語を接続する助詞情報を、出現頻
    度によって分類される1つ或いは複数の助詞で構成する
    パターンを単位としてコード化して記憶する第2メモリ
    と、 前記第1メモリに記憶された単語の組み合わせの各々に
    対応する助詞パターンの前記第2メモリでの格納場所を
    指示するアドレスポインタからなり、 前記第1メモリにおける前文節単語と後文節単語と、前
    記第2メモリにおける1つ或いは複数の助詞とを、前記
    アドレスポインタによって対応づけて記憶したことを特
    徴とする 用例辞書。
JP3115048A 1991-05-20 1991-05-20 文章処理装置 Expired - Lifetime JP2865446B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3115048A JP2865446B2 (ja) 1991-05-20 1991-05-20 文章処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3115048A JP2865446B2 (ja) 1991-05-20 1991-05-20 文章処理装置

Publications (2)

Publication Number Publication Date
JPH04343161A JPH04343161A (ja) 1992-11-30
JP2865446B2 true JP2865446B2 (ja) 1999-03-08

Family

ID=14652897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3115048A Expired - Lifetime JP2865446B2 (ja) 1991-05-20 1991-05-20 文章処理装置

Country Status (1)

Country Link
JP (1) JP2865446B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59109939A (ja) * 1982-12-15 1984-06-25 Comput Basic Mach Technol Res Assoc 用例辞書
JPH0336660A (ja) * 1989-07-04 1991-02-18 Toshiba Corp 文書作成装置

Also Published As

Publication number Publication date
JPH04343161A (ja) 1992-11-30

Similar Documents

Publication Publication Date Title
EP0277356B1 (en) Spelling error correcting system
US5617314A (en) Kanji conversation result amending system
JP2865446B2 (ja) 文章処理装置
JP2002007104A (ja) 文字データ圧縮表示装置
JPH08147289A (ja) かな漢字変換システム及びかな漢字変換方法
US5404517A (en) Apparatus for assigning order for sequential display of randomly stored titles by comparing each of the titles and generating value indicating order based on the comparison
JP3021224B2 (ja) 辞書検索装置
JPS6068423A (ja) 日本語文章入力装置
JPH10143501A (ja) 文字列予測方法及びこの文字列予測方法を用いた文書作成装置
JPH08115327A (ja) 情報検索装置
JPS61285573A (ja) 仮名漢字変換装置
JP2744241B2 (ja) 文字処理装置
JPH0498566A (ja) 文字データの変換装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH0375960A (ja) 文字処理装置の頻度変更方式
JPS5833992B2 (ja) 情報検索装置
JPH0863487A (ja) 文書検索方法及び文書検索装置
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPH07319895A (ja) 文書検索装置及び文書検索方法
JPH0113579B2 (ja)
JPH05341961A (ja) 整列のカストマイズ方法
JPS5995641A (ja) 文字変換装置
JPS59221731A (ja) カナ漢字変換処理装置
JPH08314960A (ja) 電子辞書
JPS60251464A (ja) 電子辞書