[go: up one dir, main page]

JP2575947B2 - Phrase extraction device - Google Patents

Phrase extraction device

Info

Publication number
JP2575947B2
JP2575947B2 JP2311027A JP31102790A JP2575947B2 JP 2575947 B2 JP2575947 B2 JP 2575947B2 JP 2311027 A JP2311027 A JP 2311027A JP 31102790 A JP31102790 A JP 31102790A JP 2575947 B2 JP2575947 B2 JP 2575947B2
Authority
JP
Japan
Prior art keywords
sentence
hiragana
character
phrase
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2311027A
Other languages
Japanese (ja)
Other versions
JPH04180160A (en
Inventor
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2311027A priority Critical patent/JP2575947B2/en
Publication of JPH04180160A publication Critical patent/JPH04180160A/en
Application granted granted Critical
Publication of JP2575947B2 publication Critical patent/JP2575947B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切出
し装置に関する。
The present invention relates to a phrase extracting apparatus, and more particularly, to a phrase extracting apparatus suitable for a language processing device such as a word processor, a translation device, a proofreading device, and a device using a database. The present invention relates to a phrase extracting device.

(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本
語文書から、例えば翻訳や校正のために文節を切り出す
ためには、従来、自立語辞書、付属語辞書、接辞辞書等
の辞書類と、それらの要素の接続関係を表すテーブル、
文法テーブル等のテーブル類をそれぞれ参照しながら文
節の切り出しを行っていた。
(B) Conventional technology Conventionally, in order to extract a phrase for translation or proofreading from a converted Japanese document into which the information of the phrase delimiter is not inserted, an independent word dictionary, an auxiliary word dictionary, an affix dictionary, etc. Dictionaries and a table showing the connection relationship of those elements,
The segmentation was performed while referring to tables such as a grammar table.

(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文
節切出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するために大量の記憶装置が必要になる。
(2)辞書検索またはテーブル検索を行うために文節切
出し処理の時間が長くなる。(3)文節切出しのための
制御プログラムが複雑になる等の問題があった。また、
文節切出し処理において、文字列の各文字の字種を判別
することにより文節切出しを行う装置も考えられてい
る。しかしながら、そのような装置では(4)機械的に
字種によって文節を切り出すため、かな書きの多い文章
では、間違った文節切りをする場合があった。すなわ
ち、日本語は正書法が確立、普及していないので同じ言
葉であっても漢字で書いたりひらがなで書いたりするこ
とが多く、かつ現在の傾向はひらがな書きが増加してい
ることから、誤った文節切りをすることが多かった。
(C) Problems to be Solved by the Invention In such a conventional phrase extraction apparatus using dictionaries and tables, (1) a large amount of storage devices are required to store the dictionaries and tables. Become.
(2) The time required for the phrase extraction processing for performing a dictionary search or a table search becomes longer. (3) There is a problem that a control program for segment extraction becomes complicated. Also,
In phrase extraction processing, a device that extracts a phrase by determining the character type of each character in a character string has also been considered. However, in such a device, (4) the phrase is cut out mechanically according to the character type, so that a phrase with a lot of kana characters may be cut incorrectly. In other words, Japanese orthography has not been established and spread, so even the same words are often written in kanji or hiragana, and the current tendency is that hiragana writing is increasing, I often cut phrases.

この発明は以上の事情を考慮してなされたもので、上
記問題を解消しうる文節切出し装置を提供する。
The present invention has been made in view of the above circumstances, and provides a phrase extracting apparatus that can solve the above problem.

(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図で
ある。同図において、この発明は、文章を蓄積する文章
蓄積手段1と、文章蓄積手段1から所望の文を読み出す
ための指示を行う指示手段2と、指示された文を文章蓄
積手段1から読み出す読出手段3と、読み出した文につ
いて1文字ずつ漢字、ひらがな、カタカナなどの字種を
判別するとともに句点を判別する字種判別手段4と、字
種判別手段4による判別結果を順次蓄積する判別結果蓄
積手段5と、判別結果蓄積手段5に蓄積された字種につ
いて所定の字種変移点および句点を検出した際に、読み
出した文中に文節の切れ目を挿入する文節切出し手段6
と、連続するひらがなに文字について、文節の切れ目を
伴うべき文字または文字列を記憶しているひらがな切出
し辞書手段7と、字種判別結果のひらがなについて、そ
の連続する数を計数する計数手段8と、計数手段8によ
る計数値が、所定の条件を満足するときに、ひらがな切
出し辞書手段7に記憶されている文字または文字列と照
合し、照合のとれた文字または文字列ごとに、判別結果
蓄積手段に記憶されているひらがな文字列について文節
切出しを行うひらがな切出し手段9と、ひらがな切出し
手段9から出力される文を記憶する記憶手段10と、記憶
手段10に記憶された文を可視出力する出力手段11とから
なる文節切出し装置である。
(D) Means for Solving the Problems FIG. 1 is a block diagram showing the basic configuration of the present invention. Referring to FIG. 1, the present invention provides a sentence storing means 1 for storing a sentence, an instructing means 2 for giving an instruction for reading out a desired sentence from the sentence storing means 1, and a reading for reading out a designated sentence from the sentence storing means 1. Means 3, character type discriminating means 4 for discriminating a character type such as kanji, hiragana, katakana, etc., one character at a time from the read sentence and discriminating a punctuation mark; Means 5 and a phrase extracting means 6 for inserting a break in a read sentence when a predetermined character type transition point and a punctuation mark are detected for the character type stored in the discrimination result storage means 5.
A hiragana cut-out dictionary means 7 for storing characters or character strings that should be accompanied by a break in terms of continuous hiragana characters, and a counting means 8 for counting the number of continuous hiragana characters as a result of character type determination. When the count value of the counting means 8 satisfies a predetermined condition, it is compared with the characters or character strings stored in the hiragana cut-out dictionary means 7 and the discrimination result is stored for each of the verified characters or character strings. Hiragana extraction means 9 for extracting a phrase from the Hiragana character string stored in the means, storage means 10 for storing a sentence output from the Hiragana extraction means 9, and an output for visually outputting the sentence stored in the storage means 10 This is a phrase segmentation device including the means 11.

この発明における文節切出し装置は、ワードプロセッ
サ、翻訳装置、校正装置、データベースを利用する装置
等に適用することができ、また、文章を音声出力する装
置においても文節切出し処理が必要なため、この発明を
適用することができる。
The phrase extraction device according to the present invention can be applied to a word processor, a translation device, a proofreading device, a device using a database, and the like. Further, a phrase extraction process is also required in a device that outputs a sentence by voice. Can be applied.

(ホ)作用 この発明に従えば、文章蓄積装置1に蓄積されている
文章から、切り出し処理の単位、例えば1分を切り出す
と、その文を構成する各文字の字種が字種判別手段4に
よって判別され、その判別結果が判別結果蓄積手段5に
順次蓄積される。次いで文節切出し手段6は、その判別
された字種列に対して、例えばかなから漢字の変わり目
に文節の切れ目を入れ、その結果を一時的に記憶し、さ
らに計数手段8は、判別結果における連続するひらがな
文字の数を計数し、所定の条件に当て嵌まれば、ひらが
な切出し辞書手段7に記憶されているひらがな切出し用
の文字または文字列との照合を行い、照合の結果が一致
すれば、その文字または文字列の後ろの位置で文節の切
れ目を入れるように文節切出し位置を修正し、得られた
結果を出力手段11に可視出力するよう作用する。
(E) Function According to the present invention, when a unit of the cutout process, for example, one minute is cut out from the text stored in the text storage device 1, the character type of each character constituting the sentence is determined by the character type determining means 4. And the determination result is sequentially stored in the determination result storage means 5. Next, the phrase extracting means 6 inserts a break in the character string at the change of, for example, a kana to kanji character, and temporarily stores the result. The number of the hiragana characters to be counted is counted, and if a predetermined condition is satisfied, the character is compared with the character or character string for the hiragana extraction stored in the hiragana extraction dictionary means 7. The phrase extraction position is corrected so that a break in the phrase is made at a position after the character or the character string, and the obtained result is output to the output means 11 so as to be visually output.

(ヘ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。
なお、これによってこの発明は限定されるものではな
い。
(F) Embodiment The present invention will be described in detail below based on an embodiment shown in the drawings.
The present invention is not limited by this.

第2図はこの発明を日本語ワードプロセッサに適用し
た実施例を示す構成図である。同図において20はワード
プロセッサ本体である。21は文文章蓄積装置であり、外
部記憶装置としての例えばプロッピーディスク,ハード
ディスク、あるいは内部記憶装置としての例えばRAM、
あるいはその他の蓄積装置としての例えばデータベース
等から構成することができ、かな漢字交じり文からなる
日本語文書が蓄積されている。
FIG. 2 is a block diagram showing an embodiment in which the present invention is applied to a Japanese word processor. In the figure, reference numeral 20 denotes a word processor. Reference numeral 21 denotes a sentence / text storage device, such as a proppy disk or a hard disk as an external storage device, or a RAM or the like as an internal storage device.
Alternatively, it can be constituted by, for example, a database or the like as another storage device, and stores a Japanese document composed of kana-kanji mixed sentences.

22は指示手段としてのキーボードであり、文章編集、
文章校正等を行うための文字入力キー、各種の指示キー
等を備えており、文章を入力するとともに、文章蓄積装
置21から所望の文を読み出すための指示を入力する。23
はCPU24と協働する読出装置であり、キーボード22にて
指示された所望の文を文章蓄積装置21から読み出す。25
はCPU24と協働する字種判別装置であり、文章蓄積装置2
1から読み出した文について、1文字ずつ漢字、ひらが
な、カタカナ等の字種を判別するとともに、句点を判別
する。26は判別結果蓄積手段および記憶手段としての結
果蓄積装置であり、RAMから構成され、字種判別装置25
による判別結果を順次蓄積するとともに、後述する文節
切出し装置によって切れ目が入れられた文を記憶する。
文節切出し装置27は、CPU24と協働し、結果蓄積装置26
に蓄積された字種の変移点、句点に基づいて、読み出し
た文中に文節の切れ目を入れる。28は連続するひらがな
文字について、文節の切れ目を伴うべき文字または文字
列を記憶しているひらがな切出し辞書でありROMからな
る。29は計数手段およびひらがな切出し手段としてのひ
らがな切出し処理装置であり、CPU24と協働し、字種判
別結果のひらがなについて、その連続する数を計数し、
計数値が所定の条件を満足するときに、ひらがな切出し
辞書28に記憶されている文字または文字列と照合し、照
合のとれた文字または文字列ごとに、結果蓄積装置26に
記憶されているひらがな文字列について文節切出しを行
う。30は出力制御部31を介してCPU24と接続される出力
手段としての表示装置であり、CRTやLCD等のドットマト
リクスタイプの表示装置から構成され、文節の切れ目が
入れられた文を表示する。
Reference numeral 22 denotes a keyboard as an instruction means for editing text,
It is provided with character input keys for performing sentence proofreading, various kinds of instruction keys, and the like, and inputs a sentence and an instruction for reading out a desired sentence from the sentence storage device 21. twenty three
Is a reading device that cooperates with the CPU 24, and reads a desired sentence specified by the keyboard 22 from the text storage device 21. twenty five
Is a character type discrimination device that cooperates with the CPU 24, and is a sentence storage device 2
For the sentence read from 1, character types such as kanji, hiragana, katakana, etc. are determined one by one, and punctuation marks are determined. Reference numeral 26 denotes a result storage device serving as a determination result storage means and a storage means, which is constituted by a RAM and has a character type determination device 25.
Are sequentially stored, and the sentence cut by the later-described phrase extraction device is stored.
The phrase extraction device 27 cooperates with the CPU 24 to generate the result storage device 26.
Based on the inflection points and punctuation marks of the character types stored in the text, a break is inserted in the read sentence. Reference numeral 28 denotes a Hiragana cut-out dictionary that stores characters or character strings that should be accompanied by a break in the phrase for consecutive Hiragana characters, and is composed of a ROM. 29 is a hiragana cutout processing device as a counting means and a hiragana cutout means, cooperates with the CPU 24, counts the number of consecutive hiragana of the character type determination result,
When the count value satisfies a predetermined condition, it is compared with the characters or character strings stored in the Hiragana extraction dictionary 28, and for each of the verified characters or character strings, the Hiragana stored in the result storage device 26 is stored. Extracts a phrase from a character string. Reference numeral 30 denotes a display device as an output means connected to the CPU 24 via the output control unit 31. The display device 30 is composed of a dot matrix type display device such as a CRT or an LCD, and displays a sentence with a break between phrases.

このような構成において、例文「特許庁に出す資料を
つくりました。」を用い、第14図に示すフローチャート
にしたがって実施例による文節切出し処理を説明する。
また、第3図は文章ファイル、その他のデータベース等
が蓄積された文章蓄積装置21から処理の単位に合わせて
例えば1文を切り出し、結果蓄積装置26に蓄積した状態
を示している。
In such a configuration, the phrase segmentation process according to the embodiment will be described with reference to the flowchart shown in FIG. 14 using the example sentence "Materials to be submitted to the JPO."
FIG. 3 shows a state where, for example, one sentence is cut out from the sentence storage device 21 in which a sentence file and other databases are stored in accordance with the processing unit, and the sentence is stored in the result storage device 26.

このように、例えば1文、1段落、1章などのよう
に、処理単位に合わせ、文章蓄積装置21から所望の文が
読み出されると(ステップ60)、その文を構成している
字種のコードが判別される(ステップ61)。詳しくは、
読み出された文の各文字にはJISコードなどの固有の文
字コードが割り当てられているため、その文字コード
を、第4図に示すコード判別テーブルの各条件と照合す
ることにより、字種を判別する。条件においてccは字種
判別対象の文字であり、a1とb1は漢字コードの先頭およ
び終端を表し、a2とb2はひらがなコードの先頭および終
端を表し、a3とb3はカタカナコードの先頭および終端を
表し、a4は句点を表している。
As described above, when a desired sentence is read from the sentence storage device 21 according to the processing unit, for example, one sentence, one paragraph, one chapter, etc. (step 60), the character type of the sentence is determined. The code is determined (step 61). For more information,
Since each character of the read sentence is assigned a unique character code such as JIS code, the character type is compared with each condition of the code determination table shown in FIG. Determine. In the conditions, cc is the character whose character type is to be determined, a1 and b1 represent the beginning and end of the Kanji code, a2 and b2 represent the beginning and end of the Hiragana code, and a3 and b3 represent the beginning and end of the Katakana code. A4 represents a period.

例文の字種を判別した結果を第5図に示す。ここに、
「漢」、「ひ」、「カ」、「句」はそれぞれ漢字コー
ド、ひらがなコード、カタカナコード、句点コードであ
ることを示す記号である。この判別結果は結果蓄積装置
26に蓄積される(ステップ62)。
FIG. 5 shows the result of determining the character type of the example sentence. here,
“Kan”, “hi”, “ka”, and “phrase” are symbols indicating a kanji code, a hiragana code, a katakana code, and a period code, respectively. This determination result is stored in the result storage device.
It is stored in 26 (step 62).

次に蓄積された字種コードの内容を、第6図に示す切
出し判別テーブルの判別点を参照することにより、文節
の切出し位置を判別する(ステップ63)。このテーブル
には字種コードの並びに応じて文節を切出す条件とその
条件を満たしたときに取る動作が示されている。すなわ
ち(1)ひらがなから漢字への変移点でキーワードの切
れ目(文節の切れ目)を入れる。(2)ひらがなからカ
タカナへの変移点でキーワードの切れ目を入れる。
(3)句点の次ぎにキーワードの切れ目を入れる。
Next, the contents of the stored character type codes are determined by referring to the determination points in the extraction determination table shown in FIG. 6 (step 63). This table shows conditions for extracting a phrase in accordance with the arrangement of character type codes and operations to be performed when the conditions are satisfied. That is, (1) a keyword break (segment break) is made at a transition point from Hiragana to Kanji. (2) Make a keyword break at the transition point from Hiragana to Katakana.
(3) Make a keyword break after the period.

次いで、切出し判別テーブルの処理にしたがって文節
の切れ目に切り出し記号、例えば「/」を挿入し、その
結果を結果装置26に蓄積する(ステップ64)。上記した
文節切り出し処理によって得られた結果を第7図に示
す。もし、「つくりました」の部分が「作りました」と
表記されていれば、第5図に示す字種判別結果と、第6
図に示す切出し判別テーブルを用いて正しく文節を切る
ことができるが、今、処理の対象となっている例文では
「作りました」がひらがな書きになっているため、この
部分で文節の切断に失敗している。文章中において漢字
が占める割合が低下している今日、この例文のようなひ
らがな表記の文章が多くなっている。
Next, a cutout symbol, for example, "/" is inserted at the end of the phrase according to the processing of the cutout determination table, and the result is stored in the result device 26 (step 64). FIG. 7 shows the result obtained by the above-described phrase extraction processing. If the word “made” is written as “made”, the character type discrimination result shown in FIG.
Although the phrase can be cut correctly using the cut-out determination table shown in the figure, in the example sentence that is currently being processed, "made" is written in hiragana, Have failed. Today, when the ratio of kanji in text is decreasing, there are many sentences in Hiragana notation like this example sentence.

次にひらがな切出し処理装置29の処理を説明する。第
8図は第5図に示すひらがな字種の連続(以下HLと略す
る)を計数するためのバッファを示し、説明上、第5図
に示す入力例文の字種判別結果を並べて示している。第
9図はHLの値によりひらがな文字列を文節に区切るため
の規則を表している。第10図は第9図に示す条件を説明
するための図である。ここに、Sはかな文字列の始まり
の位置、Eはその終わりの位置である。したがって、E
−S=HLである。Mは文節を切るためのマーカを表す。
マーカは複数文字の場合があるが、その場合、最後尾の
文字の位置をMとする。E−M=MALであり、マーカM
から後ろのかな文字列の値を示す。
Next, the processing of the hiragana cutout processing device 29 will be described. FIG. 8 shows a buffer for counting the continuation of the hiragana character type shown in FIG. 5 (hereinafter abbreviated as HL). For explanation, the character type determination results of the input example sentences shown in FIG. 5 are shown side by side. . FIG. 9 shows a rule for dividing a hiragana character string into phrases according to the value of HL. FIG. 10 is a diagram for explaining the conditions shown in FIG. Here, S is the start position of the kana character string, and E is the end position. Therefore, E
−S = HL. M represents a marker for cutting a phrase.
The marker may have a plurality of characters. In this case, the position of the last character is M. EM = MAL and the marker M
Indicates the value of the character string after kana.

第11図および第12図はひらがな文節切出しの際に照合
されるひらがな切出し辞書28の内容を示しており、かな
文字列切出し用文字または文字列の集合である。第11図
は照合される文字数が1〜4でありその文字の後ろで文
節の切れ目を入れるものの集合である。また、第12図は
照合される文字数が2であり、それらの文字の間
(“と”と“い”の間)に文節の切れ目を入れるもので
ある。すなわち“という”、“といった”、“といいま
す”等の文字列においては“と”と“い”の間で文節の
切れ目が入ることになる。なお、第11図および第12図に
示すかな切出し用文字および文字列は、通常の文字コー
ドの順に分類されている。
FIG. 11 and FIG. 12 show the contents of the Hiragana extraction dictionary 28 to be collated at the time of Hiragana phrase extraction, and are a set of Kana character string extraction characters or character strings. FIG. 11 is a set of one to four characters to be collated and having a break at the end of the character. In FIG. 12, the number of characters to be collated is two, and a break is inserted between the characters (between "and" and "i"). That is, in a character string such as "", "", "", and the like, a segment break is inserted between "" and "". Note that the kana cutout characters and character strings shown in FIGS. 11 and 12 are classified in the order of ordinary character codes.

第5図の字種判別結果から、あるいは字種判別結果を
得るのと並行して、連続するかな文字列における連続文
字数を計数し(ステップ65)、第8図に示すように、そ
の文字数をひらがな連続計数バッファに格納する。「を
つくりました。」についてひらがなの連続する文字の数
は7である。したがって、第9図に示すかな切出し条件
を参照することにより(ステップ66)、条件HL≧4とい
う条件にあてはまることがわかる。そして第11図に示す
ひらがな文字列切出し用の文字または文字列を参照する
(ステップ67)。例文の場合、最初の文字「を」と照合
できる。(ステップ68)。
From the character type discrimination result in FIG. 5 or in parallel with obtaining the character type discrimination result, the number of continuous characters in a continuous kana character string is counted (step 65), and as shown in FIG. Store in the Hiragana continuous counting buffer. The number of consecutive characters in Hiragana for "I made it." Therefore, by referring to the kana extraction condition shown in FIG. 9 (step 66), it is found that the condition HL ≧ 4 is satisfied. Then, a character or character string for extracting a hiragana character string shown in FIG. 11 is referred to (step 67). In the case of example sentences, the first character "" can be matched. (Step 68).

また、「を」の位置からMAL≧3であることもわかる
ため、したがって第9図に示す条件をすべて満足するこ
とがわかる。このように、第9図に示す条件を満足し、
かつ第11図のかな切出し用文字と一致するため、次に第
9図のルールにしたがい、ひらがな切断動作を実行する
(ステップ69)。その結果、ひらがな文字列「をつくり
ました。」を「を/つくりました。」のように区切るこ
とにより文節位置を修正することができる(ステップ7
0)。第13図は上記処理によって得られて文節切断結果
を表している。
In addition, it can be seen that MAL ≧ 3 from the position of “」 ”, and thus it can be seen that all the conditions shown in FIG. 9 are satisfied. Thus, the condition shown in FIG. 9 is satisfied,
In addition, since the character matches the kana cutout character in FIG. 11, a hiragana cutting operation is executed according to the rule in FIG. 9 (step 69). As a result, the phrase position can be corrected by separating the hiragana character string "was created." As "wa / was created." (Step 7)
0). FIG. 13 shows the segmentation result obtained by the above processing.

次いで終了条件がnoであれば、すなわち次ぎに文節切
り出しを行うべき文があれば、次の文を文章蓄積装置21
から読み出す処理を行い、また、蓄積する位置が重複し
ないように制御を行う(ステップ71)。
Next, if the end condition is no, that is, if there is a next sentence to be segmented, the next sentence is stored in the text storage device 21.
Is performed, and control is performed so that the storage positions do not overlap (step 71).

ステップ71においてyes、すなわち、切り出し処理を
行う対象がなくなれば、必要とする情報を結果蓄積装置
26に蓄積し、終了を処理する(ステップ72)。
If yes in step 71, that is, if there is no longer any object to be cut out, the necessary information is stored in the result storage device.
The data is stored in 26, and the termination is processed (step 72).

(ト)発明の効果 この発明によれば、(1)文節の切り出しを行う際
に、辞書を利用しないため装置の構成を簡略化できる。
それにより、ワードプロセッサやオフィスコンピュータ
はもちろん、それ以外の小型機器、具体的には電子手帳
やプログラム機能付き電卓においてもこの発明を適用す
ることができる。(2)文節切り出し処理、キーワード
検索処理を高速で行うことができる。(3)文節切り出
しのための制御プログラムを簡単にすることができる。
(4)文節を切り出す場合、日本語ではベタ書きのた
め、文節の位置がわからないという欠点があり、そのた
め、文節をどこから始め、どこで終了するかを決定する
のに多大な処理と時間を必要としている。この発明によ
れば、文節位置を決定した後から言語処理を行うことが
できるため、処理時間を大幅に短縮することができる。
(5)従来、文節切断ミスの多かった、ひらがな表記が
多い文章において文節切出し精度を向上させることがで
きる。
(G) Effects of the Invention According to the present invention, (1) when extracting a phrase, a dictionary is not used, so that the configuration of the apparatus can be simplified.
Thus, the present invention can be applied not only to word processors and office computers, but also to other small devices, specifically, electronic notebooks and calculators with program functions. (2) The phrase extraction processing and the keyword search processing can be performed at high speed. (3) A control program for segment extraction can be simplified.
(4) When extracting a phrase, there is a drawback that the position of the phrase cannot be known because Japanese is written in solid, so it takes a lot of processing and time to determine where to start and end the phrase. I have. According to the present invention, the language processing can be performed after the phrase position is determined, so that the processing time can be significantly reduced.
(5) It is possible to improve the segmentation accuracy of a sentence with a large number of hiragana notations, which has conventionally caused many segmentation mistakes.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の実施例であるワードプロセッサの構成
を示すブロック図、第3図は文章蓄積装置に蓄積された
文の一例を示す説明図、第4図は字種判別テーブルの内
容を示す説明図、第5図は字種判別結果を示す説明図、
第6図は切出し判別テーブルの内容を示す説明図、第7
図は切出し結果を示す説明図、第8図はひらがな連続計
数バッファの内容を示す説明図、第9図および第10図は
ひらがな文字列切断ルールを示す説明図、第11図および
第12図はひらがな切出し用文字を示す説明図、第13図は
実施例による修正後の文節切出し結果を示す説明図、第
14図は実施例の動作を説明するフローチャートである。 1……文章蓄積手段、2……指示手段、3……読出手
段、4……字種判別手段、5……判別結果蓄積手段、6
……文節切出し手段、7……ひらがな切出し辞書手段、
8……計数手段、9……ひらがな切出し手段、10……記
憶手段、11……出力手段。
FIG. 1 is a block diagram showing a basic configuration of the present invention, FIG. 2 is a block diagram showing a configuration of a word processor according to an embodiment of the present invention, and FIG. 3 shows an example of sentences stored in a text storage device. FIG. 4 is an explanatory diagram showing the contents of a character type determination table, FIG. 5 is an explanatory diagram showing a character type determination result,
FIG. 6 is an explanatory diagram showing the contents of the cutout determination table, FIG.
FIG. 8 is an explanatory diagram showing a cutout result, FIG. 8 is an explanatory diagram showing the contents of a hiragana continuous counting buffer, FIGS. 9 and 10 are explanatory diagrams showing a hiragana character string cutting rule, FIG. 11 and FIG. FIG. 13 is an explanatory diagram showing a hiragana cutout character, FIG. 13 is an explanatory diagram showing a modified phrase cutout result according to the embodiment, FIG.
FIG. 14 is a flowchart for explaining the operation of the embodiment. 1 ... text storage means, 2 ... instruction means, 3 ... readout means, 4 ... character type determination means, 5 ... determination result storage means, 6
...... phrase extraction means, 7 ... hiragana extraction dictionary means,
8 ... counting means, 9 ... hiragana extraction means, 10 ... storage means, 11 ... output means.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文を読み出すための指示を行う
指示手段と、 指示された文を文章蓄積手段から読み出す読出手段と、 読み出した文について1文字ずつ漢字、ひらがな、カタ
カナなどの字種を判別するとともに句点を判別する字種
判別手段と、 字種判別手段による判別結果を順次蓄積する判別結果蓄
積手段と、 判別結果蓄積手段に蓄積された字種について所定の字種
変移点および句点を検出した際に、読み出した文中に文
節の切れ目を挿入する文節切出し手段と、 連続するひらがな文字について、文節の切れ目を伴うべ
き文字または文字列を記憶しているひらがな切出し辞書
手段と、 字種判別結果のひらがなについて、その連続する数を計
数する計数手段と、 計数手段による計数値が、所定の条件を満足するとき
に、ひらがな切出し辞書手段に記憶されている文字また
は文字列と照合し、照合のとれた文字または文字列ごと
に、判別結果蓄積手段に記憶されているひらがな文字列
について文節切出しを行うひらがな切出し手段と、 ひらがな切出し手段から出力される文を記憶する記憶手
段と、 記憶手段に記憶された文を可視出力する出力手段とから
なる文節切出し装置。
1. A sentence storing means for storing a sentence, an instructing means for giving an instruction for reading a desired sentence from the sentence storing means, a reading means for reading a designated sentence from the sentence storing means, and a read sentence Character type discriminating means for discriminating the character type such as kanji, hiragana, katakana, etc., one by one and discriminating punctuation points; discrimination result accumulating means for sequentially accumulating the discrimination results by the character type discriminating means; When a predetermined character type transition point and a punctuation mark are detected for a character type, a phrase cutout means for inserting a break in the read sentence, and for a continuous hiragana character, a character or a character string that should have a break in the phrase. Hiragana cut-out dictionary means stored, counting means for counting the consecutive number of hiragana of character type discrimination result, and count value by counting means When a predetermined condition is satisfied, the character string or character string stored in the Hiragana cut-out dictionary means is collated, and for each character or character string collated, the Hiragana character string stored in the discrimination result storage means. A phrase extracting apparatus comprising: hiragana extracting means for extracting a sentence from the phrase; storage means for storing a sentence output from the hiragana extracting means; and output means for visually outputting the sentence stored in the storing means.
JP2311027A 1990-11-14 1990-11-14 Phrase extraction device Expired - Fee Related JP2575947B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2311027A JP2575947B2 (en) 1990-11-14 1990-11-14 Phrase extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2311027A JP2575947B2 (en) 1990-11-14 1990-11-14 Phrase extraction device

Publications (2)

Publication Number Publication Date
JPH04180160A JPH04180160A (en) 1992-06-26
JP2575947B2 true JP2575947B2 (en) 1997-01-29

Family

ID=18012233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2311027A Expired - Fee Related JP2575947B2 (en) 1990-11-14 1990-11-14 Phrase extraction device

Country Status (1)

Country Link
JP (1) JP2575947B2 (en)

Also Published As

Publication number Publication date
JPH04180160A (en) 1992-06-26

Similar Documents

Publication Publication Date Title
EP0784280A2 (en) Auto-index method
JPH1153384A (en) Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JPH07325828A (en) Grammar checking system
JP2001505330A (en) Method and apparatus for providing word breaks in a text stream
JPH07325824A (en) Grammar checking system
JP5231698B2 (en) How to predict how to read Japanese ideograms
JPH0211934B2 (en)
JPH08263478A (en) Single/linked chinese character document converting device
Buckwalter Issues in Arabic morphological analysis
JPS59165179A (en) Dictionary reference method
JP2575947B2 (en) Phrase extraction device
KR102182248B1 (en) System and method for checking grammar and computer program for the same
JP3398729B2 (en) Automatic keyword extraction device and automatic keyword extraction method
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages
JPS60254367A (en) Sentence analyzer
JPH0883280A (en) Document processor
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JP2592995B2 (en) Phrase extraction device
JP2592993B2 (en) Phrase extraction device
JP2794998B2 (en) Morphological analyzer and phrase dictionary generator
JP2599973B2 (en) Japanese sentence correction candidate character extraction device
JPS62245366A (en) Document processor
JPH0362260A (en) Detecting/correcting device for katakana word error
JP2008090247A (en) Dictionary of germanic language with roman alphabet abbreviation of japanese translation added thereto
JP2570784B2 (en) Document reader post-processing device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees