JPH0486948A - Method for preparing kana-added data base utilizing dictionary by fields - Google Patents
Method for preparing kana-added data base utilizing dictionary by fieldsInfo
- Publication number
- JPH0486948A JPH0486948A JP2202973A JP20297390A JPH0486948A JP H0486948 A JPH0486948 A JP H0486948A JP 2202973 A JP2202973 A JP 2202973A JP 20297390 A JP20297390 A JP 20297390A JP H0486948 A JPH0486948 A JP H0486948A
- Authority
- JP
- Japan
- Prior art keywords
- data
- kana
- natural language
- language processing
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000003058 natural language processing Methods 0.000 claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012805 post-processing Methods 0.000 claims description 7
- 230000001915 proofreading effect Effects 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims 1
- 240000000220 Panda oleosa Species 0.000 abstract description 35
- 235000016496 Panda oleosa Nutrition 0.000 abstract description 35
- 238000012545 processing Methods 0.000 description 63
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 239000010979 ruby Substances 0.000 description 10
- 229910001750 ruby Inorganic materials 0.000 description 10
- 238000013519 translation Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 229920002494 Zein Polymers 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 239000005019 zein Substances 0.000 description 5
- 229940093612 zein Drugs 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】
発明の目的:
(産業上の利用分野)
この発明は、分野別辞書を利用したカナ振りデータベー
スの作成に自然言語処理システムを利用したCD−RO
M等のデータベースの作成方法に関する。[Detailed Description of the Invention] Purpose of the Invention: (Industrial Application Field) This invention provides a CD-RO that uses a natural language processing system to create a kana-furi database using field-specific dictionaries.
This relates to a method for creating a database such as M.
(従来の技術)
最近、印刷物用に蓄積した文書データを2次利用してC
D−ROMやデータベースを作成することが多くなって
いる。そして、データベース検索用のキーワードを抽出
する作業やカナ振りは、従来より専門家による手作業に
よっていた。特に人名。(Prior art) Recently, document data accumulated for printed matter has been used as a secondary
D-ROMs and databases are increasingly being created. The work of extracting keywords for database searches and writing kana characters has traditionally been done manually by experts. Especially people's names.
住所、医療といった特殊な分野では読み方自身か非常に
難しく、専門家てないと殆ど作業が不可能であった。In special fields such as addresses and medicine, it was extremely difficult to read, and it was almost impossible for non-specialists to do the work.
(発明が解決しようとする課題)
データベース検索用のキーワードを抽出する作業が、従
来は専門家が文書の中から重要語を選択し、更に読み方
を付けるようになっている。このため、データベースの
キーワード抽出作業に多大な労力を要し、作業そのもの
が非効率的であった。特に人名等の特殊な分野ではキー
ワードの作成が非常に困難であった。(Problem to be Solved by the Invention) Conventionally, the task of extracting keywords for database searches has been to have experts select important words from documents and then add readings to them. For this reason, the task of extracting keywords from the database requires a great deal of effort, and the task itself is inefficient. It has been extremely difficult to create keywords, especially in special fields such as people's names.
この発明は上述のような事情より成されたものであり、
この発明の目的は、AI(人工知能)の−分野の自然言
語処理技術を利用すると共に、分野別辞書を利用したカ
ナ振りデータベースを自動的に作成するための方法を提
供することにある。This invention was made due to the above-mentioned circumstances,
An object of the present invention is to provide a method for automatically creating a kana-furi database using field-specific dictionaries while utilizing natural language processing technology in the field of AI (artificial intelligence).
発明の構成:
(課題を解決するための手段)
この発明は分野別辞書を利用したカナ振りデータベース
の作成方法に関するもので、この発明の上記目的は、デ
ータベースを前処理し、分野別辞書及び基本辞書を参翌
して自然言語処理による自然言語処理出力ファイルを作
成し、後処理によってカナ振りデータベースを作成する
ことによって達成される。Structure of the Invention: (Means for Solving the Problems) The present invention relates to a method for creating a kana-furi database using a field-specific dictionary. This is achieved by referring to a dictionary, creating a natural language processing output file using natural language processing, and creating a kana-furi database through post-processing.
(作用)
この発明では、カナ振りデータベースの作成にAIの一
種である自然言語処理を用いており、分野別辞書及び基
本辞書を参照して人力原文データに対して分かち書き(
品詞分解)及びカナ振りを自動的に行なっている。(Operation) In this invention, natural language processing, which is a type of AI, is used to create a kana-furi database.
It automatically performs part-of-speech (part-of-speech decomposition) and kana translation.
コンピュータに内蔵した辞書とAIの手法により名詞、
助詞、動詞等の要素に分解し、分割された文書の漢字へ
の読みがなの付加とキーワードの抽出を行なう。従来は
人手によって行なわれた作業を機械が処理するので、後
は従来と同じチエツクだけで済む0作成されたカナ振り
データベースは、CD−ROMやオンラインデータベー
スのインデクスとして加工されて利用され、またカナ振
り機能を利用して総ルビの木として組版することもでき
る。Nouns, using the computer's built-in dictionary and AI techniques.
It decomposes the document into elements such as particles and verbs, adds readings to the kanji in the divided documents, and extracts keywords. Machines now handle work that was traditionally done by hand, so all that is left is the same checks as before.The created kana-furi database can be processed and used as an index for CD-ROMs and online databases, and can also be used as an index for CD-ROMs and online databases. You can also format it as a full ruby tree using the scroll function.
(実施例)
先ず、この発明で用いる自然言語処理システムについて
説明する。(Example) First, a natural language processing system used in the present invention will be explained.
第7図は自然言語処理システムのハードウェア構成例を
示しており、ホストマシンlOにはCPUII及び実装
メモリ12が内蔵されると共に、パスライン13を介し
て磁気ディスク装置14.カセット磁気テープ装置15
が接続されている。ホストマシンlOには、更に磁気テ
ープ装置20.レーザープリンタ21及びコンソール端
末23が接続されると共に、R5−=232Cのインタ
ーフェイス16を介して確認/修正用端末22が接続さ
れている。FIG. 7 shows an example of the hardware configuration of a natural language processing system, in which a host machine 10 has a built-in CPU II and a built-in memory 12, and a magnetic disk device 14. Cassette magnetic tape device 15
is connected. The host machine IO further includes a magnetic tape device 20. A laser printer 21 and a console terminal 23 are connected, and a confirmation/correction terminal 22 is also connected via an interface 16 of R5-=232C.
第8図は自然言語処理システムのソフトウェア構成を示
しており、磁気テープからの入力データは入力処理10
1されて取込まれ、ホストマシンlOで処理された情報
は出力処理120されて磁気テープの出力データとなる
。すなわち、人力処理101は自然言語処理システム人
力データ磁気テープをディスクファイル上に人力データ
102としてコピーし、漢字コート等のチエツクを行な
い、その後に日本語処理用レコードに変換する。また、
出力処理120はディスク上の処理結果ファイルを処理
結果データ121 として自然言語処理出力磁気テープ
ヘコビーする。トライバ103は人力データ102の分
類/解析を行ない、日本語処理システム110を制御し
、分かち書き、カナ振り、キーワード抽出結果を取得し
、自然言語処理システム出力データ形式で、処理結果を
編集/圧力する。Figure 8 shows the software configuration of the natural language processing system, in which the input data from the magnetic tape is input to the input processing 10.
The information that has been taken in as 1 and processed by the host machine 1O is output processed 120 and becomes output data on the magnetic tape. That is, the human processing 101 copies the natural language processing system human data magnetic tape onto a disk file as the human data 102, checks the kanji code, etc., and then converts it into a record for Japanese processing. Also,
The output processing 120 outputs the processing result file on the disk to a natural language processing output magnetic tape as processing result data 121 . The driver 103 classifies/analyzes the human data 102, controls the Japanese language processing system 110, obtains the results of separation, kana writing, and keyword extraction, and edits/presses the processing results in the natural language processing system output data format. .
日本語処理システム110は基本辞書アクセスルーチン
112を介して形態素解析を行ない、言語処理で認定す
る全ての単語についてその読みを抽出し、カナ振り出力
文として圧力する。名詞列抽出は言語処理による単語認
定結果で、その品詞が次の(a) 、 (b)に該当す
るときに名詞として抽出する。The Japanese language processing system 110 performs morphological analysis via the basic dictionary access routine 112, extracts the pronunciations of all words recognized by language processing, and outputs them as kana-jiri output sentences. Noun string extraction is the result of word recognition through language processing, and when the part of speech corresponds to the following (a) or (b), it is extracted as a noun.
(a)一般名詞、す変型名詞、形動型名詞、転成名詞1
時詞、数詞、固有名詞1代名詞、形式名詞
(b)接辞についてはそれぞれ前後の品詞が以下に該当
するとき、該当単語を名詞として抽出する。(a) Common nouns, deformed nouns, verbal nouns, transposed nouns 1
Regarding temporal words, number words, proper nouns, one pronoun, and formal noun (b) affixes, when the preceding and following parts of speech correspond to the following, the corresponding word is extracted as a noun.
■接頭辞の場合
後方品詞 一般名詞、す変型名詞、形動型名詞、転成名
詞1時間、数詞、固有
名詞1代名詞、形式名詞
■接尾辞の場合
前方品詞・一般名詞、す変型名詞、形動型名詞、転成名
詞1時間、数詞、固有
名詞1代名詞、形式名詞
また、日本語文章と上記より求められたキーワード分析
テーブルを入力すると共に、統計的解析。■For prefixes, backward part of speech: common noun, s-inflected noun, morphological noun, transposed noun, 1 hour, numeral, proper noun, 1 pronoun, formal noun. ■For suffix, forward part of speech/common noun, s-inflected noun, morphological noun. Type nouns, transposed nouns 1 hour, numerals, proper nouns 1 pronoun, formal nouns.In addition to inputting the Japanese sentences and the keyword analysis table obtained from the above, statistical analysis was performed.
構文解析、知識処理等の手法を用いてアクセスファイル
ルーチン111 と協働して入力日本語文章の解析を行
ない、キーワード抽出、絞り込み1重要度評価を行なう
。The input Japanese text is analyzed in cooperation with the access file routine 111 using methods such as syntax analysis and knowledge processing, and keyword extraction and narrowing 1 importance evaluation are performed.
端末通信処理123は確記/修正用端末22との間て通
信を行ない、端末出力用のデータ変換を行なう。そして
、端末からの修正データを出力ファイルの形式に変換し
て書込む。また、リスト圧力処理122は、端末から出
力依頼のあった処理結果データをプリンタ出力用データ
に編集すると共に、プリンタ出力用データをレーザープ
リンタ21に出力する。The terminal communication processing 123 communicates with the confirmation/correction terminal 22 and converts data for terminal output. Then, the modified data from the terminal is converted into an output file format and written. Further, the list pressure processing 122 edits the processing result data requested to be output from the terminal into printer output data, and outputs the printer output data to the laser printer 21 .
ところで、ホストマシンlOが扱い得る自然言語処理機
能は、
A、IA理種1・分かち書き
BJIL理種2 カナ振りI (分かち書き単位のカナ
振り)
c、IA埋種3:カナ振り+1 (漢字単位のカナ振り
、総ルビ振り)
O3処理種4:キーワード抽出及びキーワードへのカナ
振り
の4種であり、人力ファイルのレコード単位に上記各機
能を切替えて処理することができる。By the way, the natural language processing functions that the host machine IO can handle are: A. IA Rise 1/Wakigaki BJIL Rise 2 Kana Furi I (Kana Furi for each dividing line) c. (Kana translation, total ruby translation) O3 processing type 4: There are four types: keyword extraction and kana translation to the keyword, and each of the above functions can be switched and processed for each record of the manual file.
次に、各機能(処理種1〜4)について説明する。Next, each function (processing types 1 to 4) will be explained.
A1分かち書き(処理種1)
日本語文章(漢字かな交じり文)を人力して分かち書き
を行ない、名詞、動詞、形容詞につし1て品詞情報を付
加する。出力される情報は、スラ・ンシュ“/”による
分かち書きと品詞情報(名詞。A1 Separation (Processing Type 1) A Japanese sentence (a sentence containing Kanji and Kana) is manually separated and part-of-speech information is added to each noun, verb, and adjective. The output information includes separation using sura nshu “/” and part-of-speech information (nouns.
動詞、形容詞、未知語)である。処理種1の出力形式は
第9図のようになる。(verbs, adjectives, unknown words). The output format of processing type 1 is as shown in FIG.
B、カナ振りI (処理種2:分かち書き単位のカナ振
り):
日本語文章(漢字かな交じり分)を人力して分かち書き
を行ない、分かち書きされた単語単位にカナ振りを行な
う。読みはカタカナで振られ、名詞、動詞、形容詞につ
いては品詞情報を付加する。そして、出力される情報は
、スラッシュによる分かち書き9品詞情報(名詞、動詞
、形容詞。B. Kana-Furi I (Processing type 2: Kana-Furi for each separated word): A Japanese sentence (including Kanji and Kana) is manually separated, and the separated words are then transformed into Kana-Furi. Readings are written in katakana, and part-of-speech information is added to nouns, verbs, and adjectives. The output information is separated by slashes and contains nine parts of speech information (nouns, verbs, adjectives).
未知語)9分かち書き単語要素へのカナ振り結果である
。処理f12の出力形式は第1O図のようになる。(Unknown word) This is the result of kana translation to the 9-minute written word element. The output format of the process f12 is as shown in FIG. 1O.
C,カナ振りII (処理種3):
この処理f!!3は、分野別辞書106を使用したカナ
振り及び総ルビ振り(漢字(列)単位のカナ振り)の機
能を有している。分野別辞書106を使用したカナ振り
は人名、地名、各種専門用語等の項目データに対して、
品目専用の辞書を利用してカナ振りを行なうものである
。かな振りの方法は項目データをKEYにして分野別辞
i 1 Q 5をサーチし、マツチングした場合に分野
別辞書106に登録されているカナを振る。これてカナ
が得られなかった場合、日本語処理システムを呼出して
基本辞書115によってカナを振る。C, Kana Furi II (processing type 3): This process f! ! 3 has a function of kana-furi and total ruby-furi (kana-furi for each kanji (column)) using the field-specific dictionary 106. Kana-furi using the field-specific dictionary 106 can be used for item data such as people's names, place names, and various technical terms.
Kana-furi is performed using a dictionary dedicated to the item. The kana-furi method searches for field-specific dictionaries i 1 Q 5 using the item data as KEY, and when a match is found, moves the kana registered in the field-specific dictionary 106 . If kana is not obtained, the Japanese language processing system is called and the basic dictionary 115 is used to determine the kana.
データの人力形式は、単項口データの場合は゛°項目デ
ータ”であり、複数項目データをルコードで処理する場
合は、“項目データ1”/“項目データ2”/・・・・
・・・・・/“項目データN”のように各項目データを
スラッシュで区切るようにしている。そして、8力され
る情報は、入力項目データに対する読み(カタカナ)と
カナデータの典拠辞書識別(どの辞書に基づいてカナが
振られたかの識別)である、、処理種3の出力形式はi
l1図のようになっており、■分野別辞書106で読み
が取得された場合、■基本辞書Itsて読みが取得され
た場合、■分野別辞書106及び基本辞書115の両方
共に読みが登録されていない場合、に分けて識別コート
(例えはAA、AB、A(:)を与えている。The manual format of data is "item data" for single item data, and "item data 1"/"item data 2"/... when processing multiple item data with a code.
.../"Item data N", each item data is separated by a slash. The input information is the reading (katakana) for the input item data and the authority dictionary identification of the kana data (identification of which dictionary the kana was assigned based on).The output format of processing type 3 is i
As shown in Figure 11, ■ If the reading is acquired in the field-specific dictionary 106, ■ If the reading is acquired in the basic dictionary Its, ■ The reading is registered in both the field-specific dictionary 106 and the basic dictionary 115. If not, it is divided into identification codes (for example, AA, AB, A (:)).
分野別辞書106を使用したカナ振りで処理対象となる
データは、人名、地名、各種専門用語等の項目データ(
主に固有名詞)であり、総ルビ振りで処理対象となるデ
ータは日本語の漢字かな交じり文である。総ルビ振り(
漢字(列)単位のカナ振り)の機能は、日本語文意(漢
字かな交じり文)を入力して全ての漢字に対してカナ振
りを行なうものである。カナ振り方法は、人力原文中の
漢字(列) (JIS非漢字以外)に対してカナ(ル
ビ)を振り、ルビは「群扱いルビ」の形式で振られる。The data to be processed in kana-furi using the field-specific dictionary 106 includes item data such as person names, place names, and various technical terms (
The data to be processed with full ruby processing is Japanese kanji and kana mixed sentences. Total ruby swing (
The function (Kana-Furi for each Kanji (column)) is to input the meaning of a Japanese sentence (a combination of Kanji and Kana) and perform Kana-Furi for all kanji. In the kana-furi method, kana (ruby) is cast for kanji (rows) (other than JIS non-kanji) in the human original text, and ruby is cast in the form of ``group ruby''.
その出力形式は第12図のようになっている。The output format is as shown in Figure 12.
D、キーワード抽出及びキーワードへのカナ振り<m理
種4):
人力した日本語文意から日本語処理システムの言語処理
機能によりフリーキーワードの抽出を行ない、抽出した
キーワードに読みを付加する。D. Extracting keywords and adding kana to keywords (4): Free keywords are extracted from the human-generated Japanese meaning using the language processing function of the Japanese language processing system, and pronunciations are added to the extracted keywords.
出力される情報は、抽出されたキーワードキーワードの
統み(カタカナ)及びキーワードの解析結果であり、出
力形式は第13図のようになっている。なお、解析情報
は、日本語処理システムによるキーワード認定の過程で
得られた解析情報かセットされるエリアである。The output information is the extracted keyword structure (Katakana) and the keyword analysis results, and the output format is as shown in FIG. Note that the analysis information is an area where analysis information obtained in the process of keyword recognition by the Japanese language processing system is set.
確認/修正用端末22の機能は、処理結果ファイルの中
の人力原文データと処理結果データ121をホストマシ
ン10より端末通信処理123を介して受は取り、端末
装置のデイスプレィに表示し、ポストマシン10のレー
ザープリンタ21に出力することにより処理結果の確認
及び修正作業を容易に行なうことを目的とする。端末2
2からのキーボード操作により、確U/修正を行なう処
理結果ファイルのジョブ名指定を行ない、ルーコード毎
に人力原文データと処理結果データ121を端末装置の
デイスプレィ上に表示し、確認/修正作業を行なう。The function of the confirmation/correction terminal 22 is to receive the human input original text data and processing result data 121 in the processing result file from the host machine 10 via the terminal communication processing 123, display it on the display of the terminal device, and send it to the post machine. The purpose is to facilitate checking and correction of processing results by outputting to 10 laser printers 21. Terminal 2
By using the keyboard from step 2, specify the job name of the processing result file to be confirmed/corrected, display the human original data and processing result data 121 for each code on the display of the terminal device, and perform the confirmation/correction work. Let's do it.
デイスプレィの表示形式は、処理種により以下(A)〜
(D)のようになっている。The display format varies from (A) to the following depending on the processing type.
It looks like (D).
(A)処理種1(分かち書き)の場合は、入力原文と処
理された人力原文の分かち書き結果を画面比力する。(A) In the case of processing type 1 (separation), the input original text and the processed human original text are compared on the screen.
(B) IA理種2(分かち書き単位のカナ振り)の場
合は、人力原文と処理された入力原文の分かち書き単位
のカナ振り結果を画面出力する。(B) In the case of IA Rise 2 (Kana translation in units of dividing lines), the human original text and the result of Kana translation in units of separating lines of the input original text that has been processed are output on the screen.
(C)処理種3(総ルビ振り)の場合は、入力原文中の
全ての漢字に対してのカナ振り結果を表示色を変えて画
面出力する。(C) In the case of processing type 3 (total ruby writing), the kana writing results for all kanji in the input original text are output on the screen with different display colors.
(D)処理種4(キーワード抽出)の場合は、入力原文
と入力原文中から抽出されたキーワード及びそのカナ振
り結果を画面出力する。(D) In the case of processing type 4 (keyword extraction), the input original text, the keyword extracted from the input original text, and the kana translation result are output on the screen.
次に、キーボード操作により処理結果データの修正を行
なうが、基本的な修正機能を以下に挙げて説明する。Next, the processing result data is corrected by keyboard operations, and the basic correction functions will be listed and explained below.
処理種3及び処理種4の場合のみ修正が可能である。処
理種3(総ルビ振り)の場合はカナ振り結果の修正が可
能であり、処理種4(キーワード抽出)の場合はカナ振
り結果の修正及びキーワードの挿入、削除、順位の入れ
替えか可能である。Correction is possible only in the case of processing type 3 and processing type 4. In the case of processing type 3 (total ruby swing), it is possible to modify the kana swing results, and in the case of processing type 4 (keyword extraction), it is possible to modify the kana swing results, insert or delete keywords, and change the ranking. .
端末22て処理結果データ121の修正かあった場合、
キーホード操作によって修正後データをホストマシンl
Oに送信する。ホストマシン1oでは、修正後データを
基に処理結果ファイルのレコード更新を行なう。If the terminal 22 modifies the processing result data 121,
The modified data can be transferred to the host machine by keystroke operation.
Send to O. The host machine 1o updates the record of the processing result file based on the corrected data.
一方、端末22からのキーホード操作により、ホストマ
シンlOのレーザープリンタ21に指定された処理結果
ファイルあるいはレコードのプリンタ出力を行なう6オ
ペレータによるPキー(プリントキー)の押下による処
理結果ファイルあるいは処理結果レコード単位のプリン
ト出力要求があった場合、処理極毎のフォーマットに合
せてホストマシンlOから取り出したレコードのプリン
タ出力を行なう。On the other hand, a process result file or a process result record is output by pressing the P key (print key) by an operator 6 who outputs the specified process result file or record to the laser printer 21 of the host machine IO by keystroke operation from the terminal 22. When a unit printout request is made, the record taken out from the host machine IO is outputted to the printer in accordance with the format of each processing pole.
以上が自然言語処理システムの概要であるが、この発明
は上記自然言語処理システムを用いて人名等のカナ振り
データへ−スを自動作成するものである。この実施例で
は分野別辞書105を人名として、人名かな振りデータ
ベースを作成する場合を説明する。The above is an overview of the natural language processing system, and the present invention uses the above natural language processing system to automatically create a base for kana-speech data such as a person's name. In this embodiment, a case will be described in which a kana-furi database of a person's name is created using the field dictionary 105 as a person's name.
%x図はこの発明の処理フローを示しており、磁気記憶
媒体等に格納されたデータベースに対して先ず前処理を
行なう(ステップ510)、前処理の詳細は第2図に示
すようになっており、最初にデータの抽出を行ない(ス
テップ5ll)、抽出したデータのコード変換を行なう
(ステップ512)。そして、コート変換されたデータ
に対して分野別辞書106のIDをセットしくステップ
513)、その後に自然言語処理入力ファイルを作成し
くステップ514)、全データに対して上28動作を縁
り返す。Figure %x shows the processing flow of the present invention, in which preprocessing is first performed on a database stored in a magnetic storage medium, etc. (step 510), and the details of the preprocessing are shown in Figure 2. First, data is extracted (step 5ll), and code conversion of the extracted data is performed (step 512). Then, the ID of the field-specific dictionary 106 is set for the code-converted data (step 513), and then a natural language processing input file is created (step 514), and the above 28 operations are repeated for all the data.
データの抽出はデータベースより当処理でかな振りを行
なう姓名の油圧を行なうもので、コート変換データはJ
ISコード及びCTS(Computer TypeS
e’tting)コードで作成されている場合が多い。The data is extracted from the database by using this process to extract the name and name, and the coat conversion data is J
IS code and CTS (Computer TypeS
e'tting) code.
自然言語処理システムのコード体系は一散的にシステム
固有コードであるため、データのコード変換を行なう必
要がある。分野別辞書IDのセットにおいて、分野別辞
書106は、漢字とその読みが対になっているテーブル
である。処理を行なう分野毎に予めコンピュータへの登
録を行ない1からの通し番号(ID)で管理している。Since the code system of a natural language processing system is a system-specific code, it is necessary to perform code conversion of data. In the field-specific dictionary ID set, the field-specific dictionary 106 is a table in which kanji and their readings are paired. Each field to be processed is registered in the computer in advance and managed using a serial number (ID) starting from 1.
分野別辞書106を使用する場合には、自然言語処理人
力ファイルデータレコードのデータ属性に分野別辞書1
0のセットを行なう。また、自然言語処理入力ファイル
作成は、抽出したデータ毎に自然言語処理人力ファイル
レコードの作成を行なうものである。When using the field-specific dictionary 106, the field-specific dictionary 1 is added to the data attribute of the natural language processing human file data record.
Set to 0. Furthermore, natural language processing input file creation involves creating a natural language processing human file record for each extracted data.
上述のように前処理されたデータは次のステップS1で
自然言語処理されるが、これに関しては後に詳述する6
分野別辞書106を使用したカナ振りの場合、第3図に
示すように先ず分野別辞書108を参照してパターンマ
ツチングを行ない(ステップ51^)、マツチングのと
れた場合にはその読みを出力し、それ以外は基本辞書1
15を参照する通常の分かち書き/カナ振りを行なう(
ステップ5IB)。圧力形式は第11図に示すようにな
っている0通常の自然言語処理では自然百語第埋入カフ
アイルを作成し、自然言語処理で基本辞書115(シス
テム辞書131+ユーザ辞書132)を参照して、第4
図に示すような入力原文データに対して第5図に示すよ
うに分かち書き(品詞分解)及びカナ振りを行なう。分
かち書きされたデータの直前にはその単語の品詞識別1
0か付加されており、単語の品詞を判別てきるようにな
っている。次に、自然言語処理された自然言語処理出力
ファイルに対して後処理を行なう(ステップ520)、
後処理の詳細は第6図に示すようになっており、先ずコ
ード変換を行なう(ステップ521)、自然言語処理シ
ステムの処理結果はシステム固有コードで出力されるの
で、カナ振り処理結果データのCTSコードへのコート
変換を行ない(ステップ521)、次にデータベースの
作成を行なう(ステップ522)、つまり、コード変換
したデータをデータベース形式のファイルレコードに出
力し、データベースへの登録を行なう。次に、人名カナ
振りファイルの内容をリスト出力しくステップS2)、
赤字等を入れた後に姓名カナ振りデータの校正を行なう
0校正を終了したキーワードデータを人名カナ振りデー
タベースとする。カナ振りが正しく行なわれなかったデ
ータについて、分野別辞書106の修正を行ない、次回
の自然言語処理の精度の向上を図る。処理結果の典拠辞
書識別に従って処理するが、分野別辞書106て読みか
取得されたものについては分野別辞書中の当データの修
正を行ない、他のものについては、正しい読みが振うれ
ているかどうかのチエツクと修正を行なった後に分野別
辞書106への登録を行ない、次回からの自然言語処理
の精度の向上を図る。なお、分野別辞書としては他に医
学用語辞書、経済用語辞書化学技術用語辞書等の登録が
考えられる。The data preprocessed as described above is subjected to natural language processing in the next step S1, which will be detailed later in 6.
In the case of kana furi using the field-specific dictionary 106, as shown in FIG. 3, pattern matching is first performed with reference to the field-specific dictionary 108 (step 51^), and if matching is achieved, the pronunciation is output. Other than that, basic dictionary 1
Do the normal parting/kana-furi referring to 15 (
Step 5IB). The pressure format is as shown in FIG. , 4th
As shown in FIG. 5, the input original text data as shown in the figure is subjected to separation (part-of-speech decomposition) and kana translation. Immediately before the separated data is the word's part of speech identification 1.
A 0 is added to the code so that the part of speech of a word can be determined. Next, post-processing is performed on the natural language processing output file that has undergone natural language processing (step 520).
The details of the post-processing are shown in FIG. 6. First, code conversion is performed (step 521). Since the processing results of the natural language processing system are output as system-specific codes, the CTS of the kana-jiri processing result data is Coat conversion to code is performed (step 521), and then a database is created (step 522), that is, the code-converted data is output to a database format file record and registered in the database. Next, step S2) outputs the contents of the kana-furi file as a list.
The keyword data that has undergone zero proofreading, in which the surname and name in kana characters are corrected after adding red characters, etc., is made into a database of personal names in kana characters. The field-specific dictionary 106 is corrected for the data for which kana-furi was not correctly performed, and the accuracy of the next natural language processing is improved. Processing is performed according to the authority dictionary identification of the processing result, but if the reading has been obtained from the field-specific dictionary 106, the data in the field-specific dictionary is corrected, and for other data, it is checked to see if the correct reading has been assigned. After checking and correcting the information, it is registered in the field-specific dictionary 106 to improve the accuracy of natural language processing from the next time onwards. In addition, as field-specific dictionaries, it is possible to register medical terminology dictionaries, economic terminology dictionaries, chemical technical terminology dictionaries, etc.
姓名の分野別辞書を用いることによって、次の表1に示
すようなカナ振りを行なうことかできる
表1
基本辞書115は自然M語処理(分かち書き/カナ振り
)を行なう上で一番基本となる辞書で、システム辞g
131とユーザ辞書132 とから構成されている。ユ
ーザ辞書132の修正を行なう事により、自然言語処理
の精度を向上する事か出来る。By using field-specific dictionaries for first and last names, it is possible to perform kana-furi as shown in Table 1 below.Table 1 The basic dictionary 115 is the most basic for natural M-word processing (partition/kana-furi). In the dictionary, system dictionary g
131 and a user dictionary 132. By modifying the user dictionary 132, the accuracy of natural language processing can be improved.
この発明ではCTSの自然言語処理の汎用人出力ファイ
ルとして汎用ファイル(以下、N1.ファイルとする)
を用いているが、NLファイルでは第14図に示すよう
にNLゼインァイル、 IIILアウトファイル及びN
L情報ファイルの3種類で構成され、フォーマットは同
一である。全体のフォーマットはへダーレコード及びデ
ータレコードで成っており、ヘダーレコードにはレコー
ド識別、シーケンス番号、ファイル識別、ジョブ名、原
稿名、 CTSシステム名等がある。また、データレコ
ードとしてはレコード識別、シーケンス番号、データ番
号、IA理種、データ等が含まれている。In this invention, a general-purpose file (hereinafter referred to as N1. file) is used as a general-purpose human output file for CTS natural language processing.
However, in the NL file, as shown in Figure 14, the NL zein file, IIIL out file and N
It consists of three types of L information files, and the format is the same. The entire format consists of a header record and a data record, and the header record includes record identification, sequence number, file identification, job name, manuscript name, CTS system name, etc. Further, the data record includes record identification, sequence number, data number, IA type, data, etc.
入力ルーチン5100は第15図に示すように、NLゼ
インァイルをパラメータと共に読込んで自然言語処理入
力ファイル及びNL情報ファイルを作成するようになっ
ており、その詳細は第16図に示すようになっている。As shown in FIG. 15, the input routine 5100 reads the NL zein file along with parameters to create a natural language processing input file and NL information file, the details of which are shown in FIG. 16. .
NLゼインァイルを読込んで、パラメータの指定による
ファンクションの削除及びコート変換(外部−システム
固有コード)を行ない、自然言語処理入力ファイルを作
成する。削除したファンクションの位置情報及びコート
変換情報は、情報ファイルに格納し、処理終了後にジョ
ブ名等をリスト出力する。パラメータチエツク(ステッ
プ5101)では、ファンクション削除実行の有無及び
コード変換情報の指示の解析を行なう、ヘダーレコード
作成(ステップ5102)では、NLゼインァイルのへ
ダーレコートの内容より、自然言語処理入力ファイル及
びNL情報ファイルのへダーレコーKを作成する。同デ
ータNOのデータの読込21(ステップ5203)の処
理は、同データNoを持つレコードの全有効データを処
理単位とする。A natural language processing input file is created by reading the NL zein file, deleting functions by specifying parameters, and performing code conversion (external-system specific code). The position information and code conversion information of the deleted function are stored in an information file, and the job name etc. are output as a list after the processing is completed. In the parameter check (step 5101), the instruction of the execution of function deletion and code conversion information is analyzed. In the header record creation (step 5102), the natural language processing input file and the NL Create a header record K of the information file. The process of reading data with the same data number 21 (step 5203) uses all valid data of records having the same data number as a processing unit.
従って、NLゼインファイルデータレコード中同データ
NOを持つデータレコードから有効データを抽出する。Therefore, valid data is extracted from data records having the same data NO among the NL zein file data records.
データの加工(ステップ5104)では、NLゼインァ
イルから抽出したデータのファンクションの削除及びコ
ート変換を行なう。削除したファンクションの情報及び
コート変換情報はNL情報ファイルへ、処理されたデー
タは自然言語処理人力ファイルに出力する。また、デー
タレコードの作成(ステップ5105)ては、同データ
NOの加工後(ファンクションの削除、コード変換)の
データを自然言語処理人力ファイルへ出力し、加工情報
をNL情報ファイルへ出力する。In data processing (step 5104), functions of the data extracted from the NL zein file are deleted and code conversion is performed. Information on the deleted functions and code conversion information are output to the NL information file, and processed data is output to the natural language processing human file. Further, in creating a data record (step 5105), the data after processing (deleting functions, code conversion) of the same data number is output to the natural language processing human file, and the processing information is output to the NL information file.
一方、第14図の出力ルーチン5200は第17図に示
すように、自然言語処理の後処理として自然言語処理出
力ファイルとNL情報ファイルを、パラメータと共に読
込んでNLアウトファイルを作成するものであり、その
詳細は?;18図のようになっている。すなわち、自然
言語処理出力ファイルとNL情報ファイルを統込んで、
パラメータの指定によるファンクションの復帰及びコー
ド変換(システム固有コード−外部)を行ない、NLア
ウトファイルを作成する。処理終了後にジョブ名等をリ
スト出力する。パラメータチエツク(ステップ5201
)では、ファンクション復帰実行の有無及びコード変換
情報の指示の解析を行なう。ヘダーレコードの作成(ス
テップ5203)では、NL情報ファイル及び自然言語
処理出力ファイルのへダーレコートの内容よりNLアウ
トファイルのへダーレコードを作成する。同データNo
のデータの読込み(ステップ5204)は同データNO
を持つレコードの全有効データを処理単位とする。自然
言語処理出力ファイルデータレコード中には、人力原文
データと処理結果データか存在するが、処理結果データ
のみを有効データとする。従って、自然言語処理圧カフ
アイルレコード中の同データNoを持つデータレコード
から処理結果データを抽出する。また、データの加工(
ステップ52o5)では、自然言語処理出力ファイルか
ら抽出したデータにファンクションの復帰及びコート変
換を行なう。加工したデータはNLアウトファイルに出
力する。On the other hand, as shown in FIG. 17, the output routine 5200 in FIG. 14 reads the natural language processing output file and the NL information file together with parameters to create an NL out file as post-processing of the natural language processing. What are the details? ; It is as shown in Figure 18. In other words, by integrating the natural language processing output file and the NL information file,
A NL out file is created by returning the function and converting the code (system specific code - external) by specifying the parameter. After processing is completed, job names, etc. are output as a list. Parameter check (step 5201
), the presence or absence of function return execution and the instruction of code conversion information are analyzed. In the creation of a header record (step 5203), a header record of the NL out file is created from the contents of the header record of the NL information file and the natural language processing output file. Same data No.
The reading of the data (step 5204) is the same data NO.
The processing unit is all valid data of the record with . Although the natural language processing output file data record includes human input original text data and processing result data, only the processing result data is valid data. Therefore, the processing result data is extracted from the data record having the same data number in the natural language processing pressure cuff file record. In addition, data processing (
In step 52o5), function restoration and code conversion are performed on the data extracted from the natural language processing output file. The processed data is output to the NL out file.
この発明はCD−ROM等のデータベースの構築支援と
して利用でき、検索用キーワードの抽出、抽出したキー
ワードへの読みの付加を行ない得る。また、印刷業務で
の利用か可能で、カナ振り機能を利用した総ルビの印刷
物作成や名簿の住所1氏名なとの項目の自動カナ振り、
索引作成の支援システムとして利用できる。The present invention can be used to support the construction of databases such as CD-ROMs, and can extract search keywords and add pronunciations to the extracted keywords. In addition, it can be used for printing work, such as creating printed materials with full ruby using the kana-Furi function, automatic kana-Furi of items such as address 1 name of the list, etc.
It can be used as a support system for index creation.
発明の効果。Effect of the invention.
以上のようにこの発明の分野別辞書を利用したかな振り
データベースの作成方法によれば、専門的な知識や技術
を要することなく自動的に人名専門用語等のデータベー
スを作成することかできる。As described above, according to the method of creating a kana-furi database using the field-specific dictionary of the present invention, it is possible to automatically create a database of personal names and terminology without requiring any specialized knowledge or skills.
第1図はこの発明の動作例を示すフローチャート、第2
図は前処理の動作例を示すフローチャート、第3図は自
然言語処理の作用を示すフローチャート、第4図は自然
言語処理する原文の例を示す図、第5図は分かちカナの
例を示す図、第6図は後処理の動作例を示すフローチャ
ート、第7図は自然言語処理システムのハードウェア構
成例を示すブロック図、第8図はそのソフトウェア構成
例を示す図、第9図は分がち書きの出力形式を示す図、
第1O図は分かち書ぎ単位のカナ振りの出力形式を示す
図、il1図は分野別辞書を使用したカナ振りの出力形
式を示す図、第12図は総ルヒ振りの出力形式を示す図
、第13図はキーワード抽出及びキーワードへのカナ振
りの出力形式を示す図、第14図はこの発明に用いる汎
用ファイルの構成例を示すフローチャート、第15図は
入力ルーチンの人出力を示す図、第16図は人力ルーチ
ンの詳細を示すフローチャート、第17図は出ルリーチ
ンの人出力を示す図、第18図は出力ルーチンの詳細を
示すフローチャートである。
10・・・ホストマシン、11・・・CPII 、 1
2・・・メモリ、14・・・磁気ディスク装置、15・
・・カセット磁気テープ装置、20・・・磁気テープ装
置、21・・・レーザープリンタ、22・・・確認/修
正用端末、23・・・コンソール端末。
図面の浄書(内容に変更なし)
土願人代理人 安 形 雄 三
慕3
Ω
著
図
t9
図
雛
副
塾
図
享
図
め
図
都
図
某
図
手続補正書(方式)
平成2年11月20日
特許庁長官 植 松 敏 殿 口=1、事件の表
示 1′平成2年特許願第20
2973号
2、発明の名称
分野別辞書を利用したカナ振りデータベースの作成方法
事件との関係 特許出願人
(289)犬日本印刷株式会社
4、代理人
5、補正命令の日付
平成2年10月15日
(全送日 平成2年10月30日)FIG. 1 is a flowchart showing an example of the operation of this invention, and FIG.
Figure 3 is a flowchart showing an example of preprocessing operation, Figure 3 is a flowchart showing the operation of natural language processing, Figure 4 is a diagram showing an example of an original text subjected to natural language processing, and Figure 5 is a diagram showing an example of splitting kana. , Fig. 6 is a flowchart showing an example of post-processing operation, Fig. 7 is a block diagram showing an example of the hardware configuration of the natural language processing system, Fig. 8 is a diagram showing an example of its software configuration, and Fig. 9 is a diagram showing an example of the hardware configuration of the natural language processing system. A diagram showing the output format of writing,
Figure 1O is a diagram showing the output format of kana furi in dividing line units, Figure il1 is a diagram showing the output format of kana furi using a field-specific dictionary, Figure 12 is a diagram showing the output format of total ruhi furi, Fig. 13 is a diagram showing the output format of keyword extraction and kana translation to the keyword, Fig. 14 is a flowchart showing an example of the configuration of a general-purpose file used in this invention, Fig. 15 is a diagram showing the human output of the input routine, FIG. 16 is a flowchart showing the details of the human power routine, FIG. 17 is a flowchart showing the human output of the output routine, and FIG. 18 is a flowchart showing the details of the output routine. 10...Host machine, 11...CPII, 1
2...Memory, 14...Magnetic disk device, 15.
...Cassette magnetic tape device, 20...Magnetic tape device, 21...Laser printer, 22...Verification/correction terminal, 23...Console terminal. Engraving of drawings (no changes to the content) Requester's agent: Yu Angata, Sanbo 3 Ω Author: t9 Zu Hina Sojuku Zu Kyo Zume Zu Capital Zu certain map procedural amendment (method) November 20, 1990 Director General of the Patent Office Toshi Uematsu Kuchi = 1, case description 1' 1990 Patent Application No. 20
2973 No. 2, Relation to the case of method for creating a kana-furi database using a field-based dictionary of invention names Patent applicant (289) Inu Nippon Printing Co., Ltd. 4, attorney 5, date of amendment order October 15, 1990 day (all shipping date: October 30, 1990)
Claims (1)
を参照して自然言語処理による自然言語処理出力ファイ
ルを作成し、後処理によってカナ振りデータベースを作
成するようにしたことを特徴とする分野別辞書を利用し
たカナ振りデータベースの作成方法。 2、前記キーワードデータの校正時に前記分野別辞書を
修正するようになっている請求項1に記載の分野別辞書
を利用したカナ振りデータベースの作成方法。 3、前記前処理が、データの抽出、コード変換、前記分
野別辞書のIDセット及び自然言語処理入力ファイルの
作成の繰り返しである請求項1に記載の分野別辞書を利
用したカナ振りデータベースの作成方法。 4、前記後処理が、前記自然言語処理出力ファイルに対
してコード変換及びデータベース形式ファイルの作成を
行ない、上記動作を繰り返すようになっている請求項1
に記載の分野別辞書を利用したカナ振りデータベースの
作成方法。[Claims] 1. A database is pre-processed, a natural language processing output file is created by natural language processing by referring to a field-specific dictionary and a basic dictionary, and a kana-furi database is created by post-processing. A method for creating a kana-furi database using a field-specific dictionary. 2. The method for creating a kana-furi database using a field-specific dictionary according to claim 1, wherein the field-specific dictionary is corrected when proofreading the keyword data. 3. Creation of a kana-furi database using the field-specific dictionary according to claim 1, wherein the preprocessing is a repetition of data extraction, code conversion, ID set of the field-specific dictionary, and creation of a natural language processing input file. Method. 4. Claim 1, wherein the post-processing performs code conversion and creation of a database format file on the natural language processing output file, and repeats the above operations.
How to create a kana-furi database using the field-specific dictionary described in .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2202973A JPH0486948A (en) | 1990-07-31 | 1990-07-31 | Method for preparing kana-added data base utilizing dictionary by fields |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2202973A JPH0486948A (en) | 1990-07-31 | 1990-07-31 | Method for preparing kana-added data base utilizing dictionary by fields |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0486948A true JPH0486948A (en) | 1992-03-19 |
Family
ID=16466226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2202973A Pending JPH0486948A (en) | 1990-07-31 | 1990-07-31 | Method for preparing kana-added data base utilizing dictionary by fields |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0486948A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153384A (en) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | Device and method for keyword extraction and computer readable storage medium storing keyword extraction program |
JP2007171275A (en) * | 2005-12-19 | 2007-07-05 | Canon Inc | Language processor and language processing method |
-
1990
- 1990-07-31 JP JP2202973A patent/JPH0486948A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153384A (en) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | Device and method for keyword extraction and computer readable storage medium storing keyword extraction program |
JP2007171275A (en) * | 2005-12-19 | 2007-07-05 | Canon Inc | Language processor and language processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2783558B2 (en) | Summary generation method and summary generation device | |
EP0266001B1 (en) | A parser for natural language text | |
JP4544674B2 (en) | A system that provides information related to the selected string | |
US5311429A (en) | Maintenance support method and apparatus for natural language processing system | |
US5200893A (en) | Computer aided text generation method and system | |
JP2016186805A5 (en) | ||
JP2002215617A (en) | Method for attaching part of speech tag | |
JPS63231674A (en) | Word processing system | |
JP2014142951A (en) | Modular system and method for managing chinese, japanese and korean linguistic data in electronic form | |
WO2002054280A1 (en) | Automatic or semiautomatic translation system and method with post-editing for the correction of errors | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
JPH0731677B2 (en) | Document creation / proofreading support device | |
JPH02112068A (en) | Simple text display method | |
JP3016040B2 (en) | Natural language processing system | |
JPH0486948A (en) | Method for preparing kana-added data base utilizing dictionary by fields | |
JPH08212216A (en) | Natural language processor and natural language processing method | |
JPH04211868A (en) | Method for creating keyword for retrieval of cd-rom data | |
JP2621999B2 (en) | Document processing device | |
JPH04243477A (en) | Index word extraction method for natural language processing system | |
JPH0612453A (en) | Unknown word extracting and registering device | |
JP3501240B2 (en) | Document creation support device | |
JP3316884B2 (en) | Language translator | |
Morfeq | Bayan: A text database management system for Arabic engineering documents | |
JP2978647B2 (en) | Japanese conversion device and Japanese conversion method | |
JP2574741B2 (en) | Language processing method |