JP2862236B2 - 文字処理装置 - Google Patents
文字処理装置Info
- Publication number
- JP2862236B2 JP2862236B2 JP62246302A JP24630287A JP2862236B2 JP 2862236 B2 JP2862236 B2 JP 2862236B2 JP 62246302 A JP62246302 A JP 62246302A JP 24630287 A JP24630287 A JP 24630287A JP 2862236 B2 JP2862236 B2 JP 2862236B2
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- kana
- phrase
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は仮名漢字混じり文字を入力、入力、編集する
文字処理装置に関するものである。 [従来の技術] 従来、仮名漢字混じりの日本文を入力する方法とし
て、タツチタイプ法、仮名漢字変換法等の入力方式が考
案されてきた。 タツチタイプ法は、各漢字をキーボード上のキーのユ
ニークなシーケンスでコード化し、対応するキーを操作
することで直接に漢字を入力する方式である。各漢字の
コードを全て記憶する必要はあるが、習熟すると高速で
漢字入力が可変であるという利点を持っている。 仮名漢字変換法は、漢字に対応する読みを入力し、表
示された候補のうちから目的のものをオペレータが選択
する方式である。漢字の読み方を知っていればすぐに入
力が可能なので習熟が非常に速いという利点を持ってい
る。 [発明が解決しようとしている問題点] しかしながら、これらの従来方式には欠点があった。 タツチタイプ法は、漢字のコードを記憶しなければな
らないため、習熟に時間がかかり、かつ、習熟が進んで
いないときは入力速度が他の方式(例えば、仮名漢字変
換法)よりもかえって遅くなるため、相当訓練を行なっ
たあとでないと日常業務に使用することができなかっ
た。すなわち、業務に使用しながら練習するということ
ができなかった。 仮名漢字変換法は直接にユニークな漢字を入力する方
式ではなく、対話式に漢字を選んでいくためある一定以
上には入力速度が上がらないという欠点があった。 [問題点を解決するための手段および作用] 上記の問題点を解決するために、本発明によれば、文
字処理装置に、仮名と漢字とを含んだ仮名漢字混じり文
字列を入力する入力手段と、該入力手段より入力された
仮名漢字混じり文字列を記憶する記憶手段と、単語の読
みと、漢字表記とを、該漢字表記中の各漢字に対応する
読み毎に前記単語の読みに区切り情報を付加して記憶す
る辞書手段と、該辞書手段の漢字表記の一部の漢字を前
記区切り情報に基づいて対応する読みに展開した仮名漢
字混じり表記を参照して、前記記憶手段に記憶された仮
名漢字混じり文字列中の仮名を、該仮名を読みとする漢
字であって、該漢字と前記仮名に連続する漢字とが1単
語の漢字表記を構成するような漢字に変換する変換手段
とを備えたことにより、仮名漢字混じり文字列中の仮名
を、該仮名を読みとする漢字であって、該漢字と前記仮
名に連続する漢字とが1単語の漢字表記を構成するよう
な漢字に変換するようにしたものである。 [実施例] 以下図面を参照しなから本発明を詳細に説明する。 第1図は本発明の全体構成の一例である。 図示の構成において、CPUは、マイクロプロセツサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。 アドレスバスABはマイクロプロセツサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセツサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。 つぎにROMは、読出し専用の固定メモリであり、第7
図〜第9図につき後述するマイクロプロセツサCPUによ
る制御の手順等を記憶させておく。 また、RAMは、1ワード16ビツトの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。 DICは辞書であり、仮名漢字混じりの単語を漢字表記
に変換するための対応表を記憶する。 IBUFは入力された仮名漢字混じり文を蓄えるための入
力バツフアである。 OBUFは変換結果の表記列を蓄えるための出力バツフア
である。 BUNTBは文節テーブルであり、入力仮名漢字混じり文
に含まれる文節を記憶するテーブルである。 TBUFはテキストバツフアであり、編集中の文書データ
を一時記憶するエリアである。 KBはキーボードであって、アルフアベツトキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
変換キー等の本発明文字処理装置に対する各種機能を指
示するための各種のフアンクシヨンキーを備えている。 DISKは文書データ、及び辞書データを記憶するための
外部記憶であり、作成された文書の保管を行ない、保管
された文書はキーボードの指示により、必要な時呼び出
される。また、辞書データは適当なタイミングでRAM上
のエリアDICにロードされ、参照される。 CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対応する表
示装置CRT上の位置にカーソルを表示する。 DBUFは表示用バツフアメモリで、表示すべきデータの
パターンを蓄える。 CRTCはカーソルレジスタCR及びバツフアDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。 またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドツト構成の表示パターンおよび
カーソルの表示をCRTコントローラで制御する。 さらに、CGはキヤラクタジエネレータであて、表示装
置CRTに表示する文字、記号のパターンを記憶するもの
である。 かかる各構成要素からなる本発明文字処理装置におい
て、キーボードKBからの各種の入力に応じて作動するも
のであって、キーボードKBからの入力が供給されると、
まず、インタラプト信号がマイクロプロセツサCPUに送
られ、そのマイクロプロセツサCPUがROM内に記憶してあ
る各種の制御信号を読出し、それらの制御信号に従って
各種の制御が行なわれる。 第2図は本発明の有用性を示した図である。図におい
てTSが文書画面を示し、MSはモニタ画面を示す。キーボ
ードから入力したデータは一旦モニタ画面MSに表示さ
れ、変換後文書画面TSに表示される。 (a)はオペレータがキーボードより「大さん事のゆ
う因をつい跡する」入力した図である。ここで、「大」
「事」「因」「跡」はコードを記憶していたのでタツチ
タイプ法で入力している。「さん」「ゆう」「つい」に
ついても本当はタツチタイプで「惨」「誘」「追」とダ
イレクト入力したがったがコードを記憶していなかった
のでやむなく読みで入力したのである。 (b)は変換キーを入力したあとを示した図である。
「さん」「ゆう」「つい」がそれぞれ、「惨」「誘」
「追」に変換されている。例えば、「さん」については
「三」「山」「参」「産」「散」など多数の同音語が存
在するが、「大惨事」という単語が辞書に登録されてい
るので一意に「惨」と変換されたのである。 第3図は辞書(DIC)の構成を示した図である。各レ
コードは単語を記憶し、1単語26バイト(固定長)で記
憶する。 レコード先頭20バイトは見出しである。単語の見出し
が1文字2バイトで格納される。文字コードはJIS X 02
08コードで記憶される。 次の4バイトはポインタである。単語の漢字表記を持
つレコードの存在するアドレスを記憶する。例えば、
「大さん事」は「大惨事」のレコードをポイントする。 最後の2バイトは文法情報である。例えば、「大さん
事」であれば名詞、「つい跡」であればサ変名詞と記憶
する。 第4図は入力バツフア(IBUF)出力バツフア(OBUF)
の構成を示した図である。キーボードから入力されるキ
ーは全てタツチタイプ法によるコード変換を受け、対応
する漢字等に変換され、JIS X 0208コードとしてIBUFに
入る。 IBUFは1文字2バイトで構成され、各文字はJIS X 02
08Dコードで記述される。入力がまだ終っていない末尾
の部分についてはOFF Hが埋まっている。 OBUFの構成もIBUFと同一である。 変換が指示されると、IBUFの内容が変換されてOBUFに
格納され、その後テキストバツフア(TBUF)中に転送さ
れる。 第5図は文節テーブルの構成を説明した図である。入
力バツフアIBUF上の文の文節が解析され、BUNTB上に記
憶される。 入力バツフア先頭の文節から1文節5ワードで記憶さ
れる。最終文節の次からはOFF Hを埋める。 各文節の構成を次に示す。 先頭1ワードは文節開始位置を記憶する。その文節の
開始点のIBUF先頭からの相対アドレスを記憶する。例え
ば文節「大さん事の」であれば、「大」の位置に相当す
るアドレスを記憶する。 次の1ワードの文節終了位置を記憶する。その分折の
終了点のIBUF先頭からの相対アドレスを記憶する。例え
ば文節「大さん事の」であれば、「の」の位置に相当す
るアドレスを記憶する。 次の1ワードは文節先頭にある自立語部分の文字数を
記憶する。例えば、文節「大さん事の」であれば、自立
語は「大さん事」であれから、「4」が記憶される。 最後の2ワードは自立語の表記が存在する辞書上のア
ドレスを記憶する。例えば文節「大さん事」のであれ
ば、自立語は「大さん事」でありその表記は「大惨事」
であるから、「大惨事」という表記が存在する辞書上の
アドレスが記憶される。 第6図(a)は仮名漢字変換の通過を説明した図であ
る。 入力「大さん事のゆう因をつい跡する」にたいして、
まず、入力中の文節が解析され、文節区切が付けられ
る。区切りの求め方は、最長一致法、2文節最長一致
法、文節数最小法等の方式があり、任意に選ぶことがで
きる。区切りが決まると、各文節自立語の仮名部分が漢
字に変換される。 (b)は文節の区切り方として最長一致法を採用した
ときの説明である。 まず入力列の最初の文節の切り出しが行なわれる。そ
の結果、「大」「大さん」(人名)「大さん事」「大さ
ん事の」という文節候補が切り出される。このうち、最
長一致する「大さん事の」が採用される。 次にそれに引き続き文節の切り出しが行われる。その
結果、「ゆ」(「湯」)「ゆう」(「結う」「夕」)
「ゆう因」「ゆう因を」が切り出され、最長一致する
「ゆう因を」が採用される。 以下同様にして文節の区切りが確定していく。 上述の時の動作をフローに従って説明する。 第7図はキー入力を取り込み、処理を行なう部分のフ
ローチヤートである。 ステツプ7−1はキーボードからのデータを入力バツ
フアIBUFに取り込む処理である。IBUF内にもし変換キー
のデータが含まれていたときはかな漢字変換を行なわな
ければならず、ステツプ7−2に進む。そうでなければ
通常の編集処理を行なうのでステツプ7−6に進む。 ステツプ7−2において第8図に詳細するようにIBUF
上に入力列を文節に分割する。 ステツプ7−3において第9図に詳述するように分折
に分割された入力列をOBUF上に漢字に変換する。 ステツプ7−4においてOBUF上に作成された変換結果
をテキストバツフアTBUF上に出力する。 更にステツプ7−5において出力された変換結果を表
示する。 ステツプ7−6はカーソル移動、文字入力、文書保
存、等の通常の文字処理装置で公知の処理を行なうもの
であり、説明は省略する。 第8図はステツプ7−2の文節分割処理を詳細化した
ものである。 ステツプ8−1は変数の初期化処理である。入力バツ
フアIBUFの先頭から何文字目を処理しているかを監視す
る変数をiを1に初期化し、文節テーブルBUNTBの現在
作成中のアドレスを管理する変数jを0に初期化する。 ステツプ8−2においてIBUF上に処理すべき文字がも
はや存在しないかどうかチエツクする。具体的にはIBUF
のi文字目がOFF Hであるかどうかで判定する。もし、I
BUFが終了していればステツプ8−8に進み、文節テー
ブルをクローズする。IBUFが終了していなければ、ステ
ツプ8−3に進む。 ステツプ8−3において入力列上に作成できるあらゆ
る文節の可能性をチエツクするために、IBUFのi文字目
から始まる単語を全てサーチする。 ステツプ8−4において、サーチされた単語につなが
る付属語列を全て解析する。 ステツプ8−5において解析された文節の候補のうち
最長のものを取り出し決定する。 ステツプ8−6において決定された最長の文節候補を
文節テーブルに登録する。登録するときはBUNTBのjバ
イト目から作成する。作成後、jの値を作成したバイト
数、すなわち10だけ加算する。 ステツプ8−7においてiの値を現在処理された最長
の文節の読み数分だけ加算し、ステツプ8−2にループ
する。 ステツプ8−8は文節テーブルをクローズする処理で
あり、BUNTBのjの示すバイト以降をOFF Hでクリアす
る。 第9図はステツプ7−3の漢字変換処理を更に詳細化
したものである。 ステツプ9−1は変数の初期化処理である。現在、文
節テーブルBUNTBの何文節目を処理しているかを管理す
る変数iを1に初期化する。また、出力バツフアOBUFを
次に何バイト目から作成すれば良いかを管理する変数j
を0に初期化する。 ステツプ9−2において文節テーブル上の全ての文節
に対する処理が終了したかどうかをチェツクする。具体
的には文節テーブルのi番目の文節がOFF Hで始まって
いるかどうかで判定する。文節が終了していると判定さ
れたときはとステツプ9−8に進み、出力バツフアをク
ローズする。文節が終了していないときはステツプ9−
3に進む。 ステツプ9−3において文節テーブルi番目の文節に
登録されている文節中の自立語部分を漢字に変換し出力
バツフアOBUFのjバイト目からに出力する。漢字への変
換の仕方は単なる辞書引きであり、辞書構成より処理は
明らかであるので特に説明は行なわない。 ステツプ9−4において自立語部分を出力した分(自
立語長×2バイト)だけ、出力バツフアのポインタjを
進める。 ステツプ9−5において文節テーブルi番目の文節の
送り仮名部分を出力バツフアに出力する。 ステツプ9−6において送り仮名部分を出力した部分
(送り仮名長×2バイト)だけ、出力バツフアのポイン
タjを進める。 ステツプ9−7においてi−値の1加算して次の文節
の処理に移り、ステツプ9−2にループする。 ステツプ9−8は出力バツフアをクローズする処理で
あり、具体的には出力バツフアjバイト目以降をOFF H
でクリアする。 [他の実施例] 以上の説明において、辞書構成は各単語のあらゆる仮
名漢字の組合せを見出しとして網羅する構成を説明し
た。例えば、「大惨事」であれば、「だいさんじ」「だ
いさん事」「だい惨事」「大さんじ」「大さん事」「大
惨じ」「大惨事」の全ての見出しをもつように説明し
た。が、更に工夫することもできる。例えば、第10図の
ような辞書構成をもつこともできる。この時、見出しは
単語の表記を記述する。読みは単語の読みを記述し、更
に読みの区切を「/」で記述する。分法情報は品詞等の
分法情報を記述する。このように構成すると、辞書をコ
ンパクトに実現できる。処理的には辞書サーチ時に辞書
の内容を展開してマツチングを取るようにサーチすれば
良い。 また、実施例はタツチタイプ法により入力した仮名漢
字混じり分中の仮名を漢字に変換する方法を説明してい
るが、一度入力された文章の仮名部分を漢字変換するよ
うな用途であれば、どのようなものにでも応用が可能で
ある。例えば、常用漢字内の漢字だけで作成した文書を
常用漢字外の漢字も使用した文書に変換する装置を構成
することも可能である。この時、辞書としては常用漢字
外の漢字を使用した単語を重点的に登録することにな
る。 [発明の効果] 以上説明したように、本発明によれば、単語の漢字仮
名混じり表示中の仮名部分を、その単語の漢字表記にお
ける漢字に、少ない辞書容量の辞書を用いて正確に変換
できるという効果がある。
文字処理装置に関するものである。 [従来の技術] 従来、仮名漢字混じりの日本文を入力する方法とし
て、タツチタイプ法、仮名漢字変換法等の入力方式が考
案されてきた。 タツチタイプ法は、各漢字をキーボード上のキーのユ
ニークなシーケンスでコード化し、対応するキーを操作
することで直接に漢字を入力する方式である。各漢字の
コードを全て記憶する必要はあるが、習熟すると高速で
漢字入力が可変であるという利点を持っている。 仮名漢字変換法は、漢字に対応する読みを入力し、表
示された候補のうちから目的のものをオペレータが選択
する方式である。漢字の読み方を知っていればすぐに入
力が可能なので習熟が非常に速いという利点を持ってい
る。 [発明が解決しようとしている問題点] しかしながら、これらの従来方式には欠点があった。 タツチタイプ法は、漢字のコードを記憶しなければな
らないため、習熟に時間がかかり、かつ、習熟が進んで
いないときは入力速度が他の方式(例えば、仮名漢字変
換法)よりもかえって遅くなるため、相当訓練を行なっ
たあとでないと日常業務に使用することができなかっ
た。すなわち、業務に使用しながら練習するということ
ができなかった。 仮名漢字変換法は直接にユニークな漢字を入力する方
式ではなく、対話式に漢字を選んでいくためある一定以
上には入力速度が上がらないという欠点があった。 [問題点を解決するための手段および作用] 上記の問題点を解決するために、本発明によれば、文
字処理装置に、仮名と漢字とを含んだ仮名漢字混じり文
字列を入力する入力手段と、該入力手段より入力された
仮名漢字混じり文字列を記憶する記憶手段と、単語の読
みと、漢字表記とを、該漢字表記中の各漢字に対応する
読み毎に前記単語の読みに区切り情報を付加して記憶す
る辞書手段と、該辞書手段の漢字表記の一部の漢字を前
記区切り情報に基づいて対応する読みに展開した仮名漢
字混じり表記を参照して、前記記憶手段に記憶された仮
名漢字混じり文字列中の仮名を、該仮名を読みとする漢
字であって、該漢字と前記仮名に連続する漢字とが1単
語の漢字表記を構成するような漢字に変換する変換手段
とを備えたことにより、仮名漢字混じり文字列中の仮名
を、該仮名を読みとする漢字であって、該漢字と前記仮
名に連続する漢字とが1単語の漢字表記を構成するよう
な漢字に変換するようにしたものである。 [実施例] 以下図面を参照しなから本発明を詳細に説明する。 第1図は本発明の全体構成の一例である。 図示の構成において、CPUは、マイクロプロセツサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。 アドレスバスABはマイクロプロセツサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセツサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。 つぎにROMは、読出し専用の固定メモリであり、第7
図〜第9図につき後述するマイクロプロセツサCPUによ
る制御の手順等を記憶させておく。 また、RAMは、1ワード16ビツトの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。 DICは辞書であり、仮名漢字混じりの単語を漢字表記
に変換するための対応表を記憶する。 IBUFは入力された仮名漢字混じり文を蓄えるための入
力バツフアである。 OBUFは変換結果の表記列を蓄えるための出力バツフア
である。 BUNTBは文節テーブルであり、入力仮名漢字混じり文
に含まれる文節を記憶するテーブルである。 TBUFはテキストバツフアであり、編集中の文書データ
を一時記憶するエリアである。 KBはキーボードであって、アルフアベツトキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
変換キー等の本発明文字処理装置に対する各種機能を指
示するための各種のフアンクシヨンキーを備えている。 DISKは文書データ、及び辞書データを記憶するための
外部記憶であり、作成された文書の保管を行ない、保管
された文書はキーボードの指示により、必要な時呼び出
される。また、辞書データは適当なタイミングでRAM上
のエリアDICにロードされ、参照される。 CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対応する表
示装置CRT上の位置にカーソルを表示する。 DBUFは表示用バツフアメモリで、表示すべきデータの
パターンを蓄える。 CRTCはカーソルレジスタCR及びバツフアDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。 またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドツト構成の表示パターンおよび
カーソルの表示をCRTコントローラで制御する。 さらに、CGはキヤラクタジエネレータであて、表示装
置CRTに表示する文字、記号のパターンを記憶するもの
である。 かかる各構成要素からなる本発明文字処理装置におい
て、キーボードKBからの各種の入力に応じて作動するも
のであって、キーボードKBからの入力が供給されると、
まず、インタラプト信号がマイクロプロセツサCPUに送
られ、そのマイクロプロセツサCPUがROM内に記憶してあ
る各種の制御信号を読出し、それらの制御信号に従って
各種の制御が行なわれる。 第2図は本発明の有用性を示した図である。図におい
てTSが文書画面を示し、MSはモニタ画面を示す。キーボ
ードから入力したデータは一旦モニタ画面MSに表示さ
れ、変換後文書画面TSに表示される。 (a)はオペレータがキーボードより「大さん事のゆ
う因をつい跡する」入力した図である。ここで、「大」
「事」「因」「跡」はコードを記憶していたのでタツチ
タイプ法で入力している。「さん」「ゆう」「つい」に
ついても本当はタツチタイプで「惨」「誘」「追」とダ
イレクト入力したがったがコードを記憶していなかった
のでやむなく読みで入力したのである。 (b)は変換キーを入力したあとを示した図である。
「さん」「ゆう」「つい」がそれぞれ、「惨」「誘」
「追」に変換されている。例えば、「さん」については
「三」「山」「参」「産」「散」など多数の同音語が存
在するが、「大惨事」という単語が辞書に登録されてい
るので一意に「惨」と変換されたのである。 第3図は辞書(DIC)の構成を示した図である。各レ
コードは単語を記憶し、1単語26バイト(固定長)で記
憶する。 レコード先頭20バイトは見出しである。単語の見出し
が1文字2バイトで格納される。文字コードはJIS X 02
08コードで記憶される。 次の4バイトはポインタである。単語の漢字表記を持
つレコードの存在するアドレスを記憶する。例えば、
「大さん事」は「大惨事」のレコードをポイントする。 最後の2バイトは文法情報である。例えば、「大さん
事」であれば名詞、「つい跡」であればサ変名詞と記憶
する。 第4図は入力バツフア(IBUF)出力バツフア(OBUF)
の構成を示した図である。キーボードから入力されるキ
ーは全てタツチタイプ法によるコード変換を受け、対応
する漢字等に変換され、JIS X 0208コードとしてIBUFに
入る。 IBUFは1文字2バイトで構成され、各文字はJIS X 02
08Dコードで記述される。入力がまだ終っていない末尾
の部分についてはOFF Hが埋まっている。 OBUFの構成もIBUFと同一である。 変換が指示されると、IBUFの内容が変換されてOBUFに
格納され、その後テキストバツフア(TBUF)中に転送さ
れる。 第5図は文節テーブルの構成を説明した図である。入
力バツフアIBUF上の文の文節が解析され、BUNTB上に記
憶される。 入力バツフア先頭の文節から1文節5ワードで記憶さ
れる。最終文節の次からはOFF Hを埋める。 各文節の構成を次に示す。 先頭1ワードは文節開始位置を記憶する。その文節の
開始点のIBUF先頭からの相対アドレスを記憶する。例え
ば文節「大さん事の」であれば、「大」の位置に相当す
るアドレスを記憶する。 次の1ワードの文節終了位置を記憶する。その分折の
終了点のIBUF先頭からの相対アドレスを記憶する。例え
ば文節「大さん事の」であれば、「の」の位置に相当す
るアドレスを記憶する。 次の1ワードは文節先頭にある自立語部分の文字数を
記憶する。例えば、文節「大さん事の」であれば、自立
語は「大さん事」であれから、「4」が記憶される。 最後の2ワードは自立語の表記が存在する辞書上のア
ドレスを記憶する。例えば文節「大さん事」のであれ
ば、自立語は「大さん事」でありその表記は「大惨事」
であるから、「大惨事」という表記が存在する辞書上の
アドレスが記憶される。 第6図(a)は仮名漢字変換の通過を説明した図であ
る。 入力「大さん事のゆう因をつい跡する」にたいして、
まず、入力中の文節が解析され、文節区切が付けられ
る。区切りの求め方は、最長一致法、2文節最長一致
法、文節数最小法等の方式があり、任意に選ぶことがで
きる。区切りが決まると、各文節自立語の仮名部分が漢
字に変換される。 (b)は文節の区切り方として最長一致法を採用した
ときの説明である。 まず入力列の最初の文節の切り出しが行なわれる。そ
の結果、「大」「大さん」(人名)「大さん事」「大さ
ん事の」という文節候補が切り出される。このうち、最
長一致する「大さん事の」が採用される。 次にそれに引き続き文節の切り出しが行われる。その
結果、「ゆ」(「湯」)「ゆう」(「結う」「夕」)
「ゆう因」「ゆう因を」が切り出され、最長一致する
「ゆう因を」が採用される。 以下同様にして文節の区切りが確定していく。 上述の時の動作をフローに従って説明する。 第7図はキー入力を取り込み、処理を行なう部分のフ
ローチヤートである。 ステツプ7−1はキーボードからのデータを入力バツ
フアIBUFに取り込む処理である。IBUF内にもし変換キー
のデータが含まれていたときはかな漢字変換を行なわな
ければならず、ステツプ7−2に進む。そうでなければ
通常の編集処理を行なうのでステツプ7−6に進む。 ステツプ7−2において第8図に詳細するようにIBUF
上に入力列を文節に分割する。 ステツプ7−3において第9図に詳述するように分折
に分割された入力列をOBUF上に漢字に変換する。 ステツプ7−4においてOBUF上に作成された変換結果
をテキストバツフアTBUF上に出力する。 更にステツプ7−5において出力された変換結果を表
示する。 ステツプ7−6はカーソル移動、文字入力、文書保
存、等の通常の文字処理装置で公知の処理を行なうもの
であり、説明は省略する。 第8図はステツプ7−2の文節分割処理を詳細化した
ものである。 ステツプ8−1は変数の初期化処理である。入力バツ
フアIBUFの先頭から何文字目を処理しているかを監視す
る変数をiを1に初期化し、文節テーブルBUNTBの現在
作成中のアドレスを管理する変数jを0に初期化する。 ステツプ8−2においてIBUF上に処理すべき文字がも
はや存在しないかどうかチエツクする。具体的にはIBUF
のi文字目がOFF Hであるかどうかで判定する。もし、I
BUFが終了していればステツプ8−8に進み、文節テー
ブルをクローズする。IBUFが終了していなければ、ステ
ツプ8−3に進む。 ステツプ8−3において入力列上に作成できるあらゆ
る文節の可能性をチエツクするために、IBUFのi文字目
から始まる単語を全てサーチする。 ステツプ8−4において、サーチされた単語につなが
る付属語列を全て解析する。 ステツプ8−5において解析された文節の候補のうち
最長のものを取り出し決定する。 ステツプ8−6において決定された最長の文節候補を
文節テーブルに登録する。登録するときはBUNTBのjバ
イト目から作成する。作成後、jの値を作成したバイト
数、すなわち10だけ加算する。 ステツプ8−7においてiの値を現在処理された最長
の文節の読み数分だけ加算し、ステツプ8−2にループ
する。 ステツプ8−8は文節テーブルをクローズする処理で
あり、BUNTBのjの示すバイト以降をOFF Hでクリアす
る。 第9図はステツプ7−3の漢字変換処理を更に詳細化
したものである。 ステツプ9−1は変数の初期化処理である。現在、文
節テーブルBUNTBの何文節目を処理しているかを管理す
る変数iを1に初期化する。また、出力バツフアOBUFを
次に何バイト目から作成すれば良いかを管理する変数j
を0に初期化する。 ステツプ9−2において文節テーブル上の全ての文節
に対する処理が終了したかどうかをチェツクする。具体
的には文節テーブルのi番目の文節がOFF Hで始まって
いるかどうかで判定する。文節が終了していると判定さ
れたときはとステツプ9−8に進み、出力バツフアをク
ローズする。文節が終了していないときはステツプ9−
3に進む。 ステツプ9−3において文節テーブルi番目の文節に
登録されている文節中の自立語部分を漢字に変換し出力
バツフアOBUFのjバイト目からに出力する。漢字への変
換の仕方は単なる辞書引きであり、辞書構成より処理は
明らかであるので特に説明は行なわない。 ステツプ9−4において自立語部分を出力した分(自
立語長×2バイト)だけ、出力バツフアのポインタjを
進める。 ステツプ9−5において文節テーブルi番目の文節の
送り仮名部分を出力バツフアに出力する。 ステツプ9−6において送り仮名部分を出力した部分
(送り仮名長×2バイト)だけ、出力バツフアのポイン
タjを進める。 ステツプ9−7においてi−値の1加算して次の文節
の処理に移り、ステツプ9−2にループする。 ステツプ9−8は出力バツフアをクローズする処理で
あり、具体的には出力バツフアjバイト目以降をOFF H
でクリアする。 [他の実施例] 以上の説明において、辞書構成は各単語のあらゆる仮
名漢字の組合せを見出しとして網羅する構成を説明し
た。例えば、「大惨事」であれば、「だいさんじ」「だ
いさん事」「だい惨事」「大さんじ」「大さん事」「大
惨じ」「大惨事」の全ての見出しをもつように説明し
た。が、更に工夫することもできる。例えば、第10図の
ような辞書構成をもつこともできる。この時、見出しは
単語の表記を記述する。読みは単語の読みを記述し、更
に読みの区切を「/」で記述する。分法情報は品詞等の
分法情報を記述する。このように構成すると、辞書をコ
ンパクトに実現できる。処理的には辞書サーチ時に辞書
の内容を展開してマツチングを取るようにサーチすれば
良い。 また、実施例はタツチタイプ法により入力した仮名漢
字混じり分中の仮名を漢字に変換する方法を説明してい
るが、一度入力された文章の仮名部分を漢字変換するよ
うな用途であれば、どのようなものにでも応用が可能で
ある。例えば、常用漢字内の漢字だけで作成した文書を
常用漢字外の漢字も使用した文書に変換する装置を構成
することも可能である。この時、辞書としては常用漢字
外の漢字を使用した単語を重点的に登録することにな
る。 [発明の効果] 以上説明したように、本発明によれば、単語の漢字仮
名混じり表示中の仮名部分を、その単語の漢字表記にお
ける漢字に、少ない辞書容量の辞書を用いて正確に変換
できるという効果がある。
【図面の簡単な説明】
第1図は本発明の全体構成のブロツク図
第2図は本発明の有用性を示した図
第3図は辞書の構成を示した図
第4図は入力バツフア、出力バツフアの構成を示した図
第5図は文節テーブルの構成を示した図
第6図は文節の解析手順を示した図
第7図〜第9図は本発明文字処理装置の動作を示すフロ
ーチヤート 第10図は辞書構成の他の実施例を示した図 DISK……外部記憶 CPU……マイクロプロセツサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ DIC……辞書 IBUF……入力バツフア OBUF……出力バツフア BUNTB……文節テーブル TBUF……テキストバツフア
ーチヤート 第10図は辞書構成の他の実施例を示した図 DISK……外部記憶 CPU……マイクロプロセツサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ DIC……辞書 IBUF……入力バツフア OBUF……出力バツフア BUNTB……文節テーブル TBUF……テキストバツフア
Claims (1)
- (57)【特許請求の範囲】 1.仮名と漢字とを含んだ仮名漢字混じり文字列を入力
する入力手段と、 該入力手段より入力された仮名漢字混じり文字列を記憶
する記憶手段と、 単語の読みと、漢字表記とを、該漢字表記中の各漢字に
対応する読み毎に前記単語の読みに区切り情報を付加し
て記憶する辞書手段と、 該辞書手段の漢字表記の一部の漢字を前記区切り情報に
基づいて対応する読みに展開した仮名漢字混じり表記を
参照して、前記記憶手段に記憶された仮名漢字混じり文
字列中の仮名を、該仮名を読みとする漢字であって、該
漢字と前記仮名に連続する漢字とが1単語の漢字表記を
構成するような漢字に変換する変換手段とを有すること
を特徴とする文字処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62246302A JP2862236B2 (ja) | 1987-09-30 | 1987-09-30 | 文字処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62246302A JP2862236B2 (ja) | 1987-09-30 | 1987-09-30 | 文字処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6488869A JPS6488869A (en) | 1989-04-03 |
JP2862236B2 true JP2862236B2 (ja) | 1999-03-03 |
Family
ID=17146537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62246302A Expired - Fee Related JP2862236B2 (ja) | 1987-09-30 | 1987-09-30 | 文字処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2862236B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4719411B2 (ja) * | 2003-10-15 | 2011-07-06 | 出光ユニテック株式会社 | 易開封性包装体及び易開封性包装体の製造方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62209667A (ja) * | 1986-03-10 | 1987-09-14 | Fujitsu Ltd | 文章作成装置 |
-
1987
- 1987-09-30 JP JP62246302A patent/JP2862236B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS6488869A (en) | 1989-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH07114568A (ja) | データ検索装置 | |
JP3290451B2 (ja) | 電子辞書 | |
JP2862236B2 (ja) | 文字処理装置 | |
JPH0412866B2 (ja) | ||
JPS58123129A (ja) | 仮名漢字変換装置 | |
JPS59100941A (ja) | 仮名漢字変換装置 | |
JPH11184854A (ja) | 電子辞書 | |
JPH06149790A (ja) | 文章作成装置 | |
JPS5832418B2 (ja) | 漢字まじり文入力装置 | |
JP2937634B2 (ja) | 文書作成装置 | |
JPS62143178A (ja) | 自然言語翻訳方式 | |
JPH0380363A (ja) | 文書処理装置 | |
JPS61169961A (ja) | ユ−ザ辞書を備えた文字処理装置 | |
JP2744241B2 (ja) | 文字処理装置 | |
JPH01118961A (ja) | 翻訳装置 | |
JPS60207948A (ja) | カナ漢字変換処理装置 | |
JPH0442350A (ja) | 文字処理装置 | |
JPH0432957A (ja) | 文字処理装置 | |
JPS6257055A (ja) | 日本語ワ−ド・プロセツサ | |
JPS6116117B2 (ja) | ||
JPH0562794B2 (ja) | ||
JPS62226270A (ja) | 文章作成装置 | |
JPH0385669A (ja) | 送りがな解析機能付き検索置換装置 | |
JPH0719254B2 (ja) | カナ漢字変換装置 | |
JPH06131329A (ja) | 日本語文字処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |