JP3277123B2 - 中国語テキストを処理するためのシステムおよび方法 - Google Patents
中国語テキストを処理するためのシステムおよび方法Info
- Publication number
- JP3277123B2 JP3277123B2 JP17390296A JP17390296A JP3277123B2 JP 3277123 B2 JP3277123 B2 JP 3277123B2 JP 17390296 A JP17390296 A JP 17390296A JP 17390296 A JP17390296 A JP 17390296A JP 3277123 B2 JP3277123 B2 JP 3277123B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- chinese
- word
- words
- syllables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
- Input From Keyboards Or The Like (AREA)
- Machine Translation (AREA)
Description
特に音声による中国語のテキストおよび漢字を処理する
ためコンピュータを使用する改良されたシステムおよび
方法に関する。
(入力し)処理する事は非常に困難な問題である。中国
語文字のシェア数はこの困難を示している。中国語の漢
字表記システムでは、3000から6000の漢字が一
般的に使用されている。比較的希な場合を含むと、10
000以上の漢字がある。この困難に加えて、中国語は
テキストの標準化、複数の同音異義語、コンピュータを
使用して漢字の効果的テキスト処理を妨げる不明確な単
語の境界などの問題がある。数十年にわたる集中的な研
究および数百におよぶ数々の方法の存在にも拘わらず、
漢字のコンピュータ入力と処理は中国におけるコンピュ
ータの利用、特にテキスト処理について妨げる大きな障
害である。
なコンピュータ・システムは次の3つのカテゴリに分け
ることができる。
に分解することによる。キーボードの様々なキーは漢字
の様々な基本画像成分を表すために割り当てられる。そ
して、各文字は数回キーを叩くことで、基本画像成分を
合成することができる。この方法の例は台湾におけるCh
angjiおよび中国本土におけるファイブ・ストローク法
を含む。この方法の主な欠点は漢字成分にたいするキー
の割り当てが人工的なことである。上記Changjiとファ
イブ・ストローク法の両方では、コードの割り当ては機
械的に記憶させる必要がある。成分を表すキーを記憶す
ることは困難であり、時間もかかる。さらに、漢字を基
本成分に分解することは多くの場合、固有のものではな
い。これらの方法が入力専門のオペレータによって使わ
れたり、熟練したタイピストにより迅速に示されたとし
ても、これらの方法はコンピュータに熟知した人々や他
の専門家によってほとんど使用されておらず、通常の人
々はなおさらである。従って、これらの方法は一般的な
中国語を喋る住民によるコンピュータの使用を限定して
しまう傾向がある。
る「同音異義語問題」に対抗するものである。
最も広く使用されている音声入力(例えば、中国本土で
のPinyinおよび台湾での「音声符号」あるいはBPMF)で
あり、中国語の漢字表記システムは、この方法にたいす
る概念上および実用上の障壁である。Pinyinとは中国語
の北京方言を標準語とした、ローマ字による音声表記法
である。以下、単にPinyinと称する。
0だけであり、一音節は多数の異なった漢字に対応す
る。例えば、北京官話におけるyiの発音は100以上の
漢字に対応することが可能である。これは、音節を漢字
に翻訳する時にあいまいさが生じる。
ほとんどの音声入力システムは複数選択方法を用いてい
る。例えば、ドイツ特許3,142,138、発明者J.Heinzel、
発行日1983年5月5日、米国特許5,047,932、発明者K.C.H
sieh、発行日1991年9月10日、および中国特許1,064,95
7、発明者Tan Shanguang、発行日1991年3月8日がある。
音節がキーで入力された後、コンピュータ・ディスプレ
イは同じ発音の全ての漢字を表示する。いくつかの場
合、この同じ発音の全ての漢字を表示するにはスクリー
ン上のスペースが十分ではない。こうした場合はスクロ
ール・アップおよびスクロール・ダウンする必要があ
る。それ故、個々の音節に基づいた音声入力方法は極め
て遅くなる。
数選択法の改良が従来技術に記載されている。例えば、
英国特許2,248,328、発明者R.W.Sproat、発行日1992年4
月1日などである。実現性のある方法は、さらに文法的
制約と組み合わせることである。例えば、K.T.Lua等に
よる、「Computer Processing of Chinese and Orienta
l Languages」、 Vol.6、 Num 1、85頁、1992年6月発行
である。しかし、これらの方法の(音声から漢字への)
変換精度は通常、約80%程度である。
文字の付加の組み合わせである。非音声文字を音声文字
に加えて、同じ発音の文字を人工的に区別する。例とし
て、部首記号と音声による綴りの組み合わせ(英国特許
2,158,776、発明者C.C.Chen、発行日1985年11月20日)
および画数と音声による綴りの組み合わせ(中国特許1,
066,518、発明者G.Xie、発行日1992年11月25日)などが
ある。これらの方法は人工的な法則を記憶したり、ある
いは画数を数える必要があり、入力速度が低下すること
になる。
理する際に「単語の境の問題」がある。
節(つまり、2以上の漢字)を有しているが、(全ての
ヨーロッパ系言語や現代朝鮮語とは対照的に)中国語の
表記システムでは単語の分け書きをおこなわない。さら
に、中国語の音声入力は通常、単語の境界を斟酌せずに
音節づつ行われる。
で単語の境界を明確にする標準的な方法の欠落にも拘わ
らず、明確な定義づけと中国語の単語の存在は議論の余
地がある。さらに、中国語は伝統的に間隔を取らずに漢
字の連続的な文字ストリングで書かれるので、通常の中
国人は1つの「単語」の意味するものの明確な概念を持
たない。多くの場合、単語の境界あるいは境界設定手
段、例えばスペースをどこに置くか定かではない。この
論議は以下のケースのようにまとめることができる。
ord(黒板)や rattlesnake(ガラガラ蛇)などのよう
に、2つのそれぞれ異なった単語を組み合わせて複合名
詞を作ることができる。英語では、これらの複合文字ス
トリングが1つの単語あるいは2つの単語として処理さ
れるべきかどうかという論議が存在する。中国では上記
の例が一般的に認められてないので、複合名詞について
の論議はかなり困難である。例えば、Chinese Pinyin V
ocabulary (現代中国共通語ピンイン語彙)に掲載され
ているように、nanguangboyuan(男性アナウンサ)とい
う単語は2単語(nan guangboyuan)、あるいは人によ
っては3単語(nan guangbo yuan)と考えられている。
現在完了、あるいは進行時制を作る-le、 -guo、あるい
は -zheという「シンタックス・ユニット」をつけるこ
とができる。全ての形容詞は -deをつけることができ
る。しかし、これらのシンタックス・ユニットも、個々
の単語が小辞を呼び出す際に現れる。それぞれの言語学
学校によりこれらのシンタックス・ユニットも異なった
扱いを受けている。いくつかの学校では、これらのシン
タックス・ユニットを「固有の」接辞として、つまり、
そのシンタックス・ユニットがつけられる単語の部分と
して扱っている。他の学校では、それらを個々の小辞、
つまり、別々の単語として扱っている。
の部分である。例えば、-hua、 -jia、 -yuan、 -xin
g、および -zhuyiという名詞の終わりは、ほとんどの言
語学者により単一の単語の接辞として考えられ、多少の
学者が個別の小辞(別の単語)と考えている。一方、-
z、 -r、および -touという終わりは、常に名詞の接尾
辞として扱われ、個別の小辞ではない。
zerbrechbar Zeitwort)、例えば、aufziehen、heraufz
iehen 等と非常に類似した中国語の動詞の種類がある。
これらの「分離」動詞は不定詞あるいは過去分詞とする
ために-zu-、-ge-という挿入辞を使用することが可能で
ある。
るいは否定を意味するために-de-あるいは、-bu-の挿入
辞を持つことができる。例えば、taiqilai(あがる)は
上記のドイツ語の動詞に非常に類似した taideqilai
(あがることができる)、taibuqilai(あがることがで
きない)という表現を有する。さらに、「taiqi tou la
i」、「taideqi tou lai」、「taibuqi tou lai」とい
う慣用句は、(ziehen dein Kapf aufのような)複合動
詞を使用する文構造に類似している。この観点から、
「taiqilai」は1つの単語とすべきである。しかし、多
くの言語学者はこれらの音節を分けた単語(tai、qi、l
ai)として考えており、分けて書いている。
境界とすべきか不明なことが多い。
節語が、(1)名詞「gada、putao、feiji」等、(2)動詞
「zhuanyou、xingwu」等、(3)形容詞「heised、pangda
d」等のような最小の言語単位、あるいは形態素として
広く認識されている。また、多くの慣用句が複数の単語
から成っていると広く受け入れられている。例えば、時
々「dianzigongye」は1つの単語と考えることができる
が、誰も「fazhan dianzidongye」という慣用句を単一
の単語とは考えないだろう。単語と広く考えられている
4音節の熟語があるが、Pinyinの表記は別であり、ハイ
フンは使用してもしなくてもよい。これらの単語の分類
にたいし、固有の単語の境界が広く知られている。
け入れられている正字法の欠如や単語の分け書きの習慣
の欠如が、中国語テキストのコンピュータ入力と処理用
に簡便に使用される規格を開発するのを非常に困難にし
ており、どの言語学校も普遍的な追求をしていない。単
語の狭い定義(つまり、多くの複合語を慣用句として扱
い、また多くの接辞を小辞として扱うこと)を追求する
ことによっても、いくらかの曖昧さが残る。単語の広い
定義をすること(つまり、多くの複合語を単一の単位と
して扱い、多くの接辞を単語の部分として受け入れるこ
と)により弁別精度が向上するが、コンピュータのメモ
リに記憶させる必要のある語彙の量は、全ての接辞の組
み合わせを有する単一のユニットの単語や言葉を各々説
明するには膨大になりすぎる。
ばれている綴り形式で書かれており、それでは多音節語
は基本ユニットと考えられている。Pinyinはローマ字を
用い、多音節語の形態で掲載された語彙を有する。「Ch
inese Pinyin Vocabulary」は1964年に出版されてい
る。6万語が収録された改訂版は北京のLanguage Press
により1989年に出版された。単語の境を規定するPinyin
形式で書かれた中国語にたいする正字法が1984年に出版
されている。
ピュータで音声による中国語および漢字を入力処理する
ための改良されたシステムおよび方法を提供することで
ある。
方についての異なった言語学論理や異なった習慣がある
のにもかかわらず、比較的少ない語彙(メモリ)を必要
とする正確なコンピュータ・システムと、音声中国語
(Pinyin又はBPMF)入力を文字表記(漢字)に変換する
プロセスを提供することである。
入力、処理し易くするためコンピュータ用キーボードの
利便性が良く効果的なデザインを提供することである。
(中国語文字通信用の中国政府規格)において英語およ
び角文字(漢字)ストリームと干渉しないで、音声中国
語ベースの情報ストリームの記憶、印刷、伝送等を容易
に行うための拡張したASCIIコードのデザインを提供す
ることである。
知、訂正をおこなう音声中国語用のコンピュータ処理シ
ステムを提供することである。
(例えば、英語)の混合テキストを処理できる音声中国
語用のコンピュータ処理システムを提供することであ
る。
め、本発明は音声中国語(Pinyin又はBPMF)を正確に、
かつ効果的にコンピュータ・システムに入力し、またそ
の音声入力を漢字フォームに正確に変換するためのシス
テムおよび方法である。このシステムは、入力した各音
声テキスト音節に、音節の声調を示す分音符号をユーザ
が注釈としてつけることができる分音符号キー(および
対応のASCIIコード)を備えた新規なキーボードを有す
る。このシステムで実行するプロセスは、分音符号キー
(あるいはデリミッタ・キー)が叩かれた時に1つの音
節が入力されたことを判断する。入力した音声の音節
は、次に受け入れ可能な音声音節および略語のリストと
比較し、入力音節がリスト上にあれば、正確に綴られか
つアクセントをつけられた音節をメモリに記憶させ、画
像ディスプレイの音声部分に表示する。このプロセスは
デリミッタが入力されるまで後続する音節について継続
する。
グ(2つのデリミッタ間の文字ストリングと規定したも
の)が処理され、その単語ストリングの単語を表す固有
の漢字と判定する。その単語ストリング(あるいはその
単語ストリング内の各単語)を音声単語の辞書と比較
し、その単語ストリングが固有の漢字翻訳を有するな
ら、その漢字翻訳をメモリに記憶させ、かつ画像インタ
ーフェースの漢字部分にディスプレイする。その単語ス
トリングが辞書と照合しない場合は、語形分析を行う。
つまり、標準接辞(接辞リストで弁別させ)をその単語
ストリングから取り除く。そして、残った単語ストリン
グ(語根)を再分析する。その語根が辞書と照合するな
ら、語根(残った単語ストリング)を構成成分/単語に
分解する。構成成分と辞書の固有の照合があれば、それ
らの固有構成成分/構成単語の漢字翻訳はメモリに記憶
させ、画像インターフェースの漢字部分にディスプレイ
させる。
な翻訳を持つ(辞書との照合がない)なら、統語論的分
析が行われる。その単語ストリング内の単語が機能語
(機能語/接辞リストにあり、声調をつけた音節を持た
ない)か概念的な単語(少なくとも1つの声調をつけた
音節を有する)かを分類する。(本発明の目的にたい
し、機能語、小辞、接辞が使用され、同じ方法で処理さ
れる。)機能語が曖昧さがないように翻訳され、そし
て、残った単語ストリング(語根)入力の構造を判定す
る。こうして、翻訳した機能語を有する概念的な単語の
使用に基づき概念的な単語の曖昧さは減少させられ、あ
るいは除去される。概念的な単語の残った曖昧さは統計
学的モデルにより除去される。
例えばネットワーク、磁気媒体、あるいは音響システム
を介して、このシステムに入力することができる。中国
語と非中国語の混合テキストは、例えば、スペースのよ
うな特別な文字で中国語にデリミッタをつけることによ
り処理可能である。
00の望ましい一実施例のブロック図を示している。本
システム1000は、中国語文字および英語のテキスト
を表示可能な画像インターフェース1020と、CPU
1010と、主メモリ1100と、メモリ記憶装置12
00とを有する。キーボード・プロフィール1070は
主メモリ1100および/あるいはメモリ記憶装置12
00に記憶させる。本システム1000はマウスのよう
な位置決め装置1031を有し、またネットワーク10
90に接続可能である。IBM RS/6000がCP
U1010、メモリ(1100、1200)、画像イン
ターフェース1020の一実施例である。
0である。このキーボードは声調分音符号キー1050
と音節入力キー1040を有し、それらキーは標準ロー
マ字である。別の声調キー1060Aと1060Bも可
能である。声調キー1060Aは分割型スペース・バー
上に設けることができる。声調キー1060Bは標準的
な矢印キー上に加えることができる。新規なキーボード
の別の望ましい実施例は図2から図5の説明の際に検討
する。
メモリ1100に含まれるのは新規なデータ構造300
であり、記憶させた、つまりメモリ(1100、120
0)に登録してあるエンコード文字(例えば、ASCII文
字)および分音符号にキーボード1030のキー・スト
ロークを変換するため使用される。データ構造700、
800、950もメモリ1200に記憶させる。それら
は中国語音節リスト700、機能単語/接辞リスト80
0、および中国語辞書あるいは語彙950を含む。
メモリ(1100、1200)に含まれる。プロセス4
00は音声中国語をシステム1000に入れる(入力す
る)ための、またオプションとして単語の境界を定める
ための方法である。(この明細書では、中国語は一般性
を失うことなくPinyinとして記載する。)プロセス50
0は、固有の漢字翻訳を判断するためPinyinテキスト/
単語のストリングを形態学的に分析する方法である。プ
ロセス600は曖昧なストリング/単語、つまり、2つ
以上の漢字翻訳がある場合、それらを解決するためプロ
セス500により使用された統語分析の方法である。デ
ータ構造300、700、800は図6、図10乃至図
21、および図22にそれぞれ示されている。プロセス
400、500、600は図7、図8、図9にそれぞれ
示されている。
い、適切な分音符号(詳細は後述)と共にPinyinテキス
ト入力をシステム1000に入れる。データ構造300
とプロセス400を使用して、システム1000は、こ
のPinyin文字1022(ローマ字、分音符号、句読記号
等)を画像インターフェース1020上の分割スクリー
ンの第1セクション1021に表示する。プロセス50
0と600を用いて、システム1000はこのPinyin入
力を分析し、Pinyinから漢字に変換し、この漢字102
5を画像インターフェース1020上の分割スクリーン
の第2セクション1024に表示する。プロセス500
と600および別の言語翻訳装置1034を使用して、
システム1000はコード化された、あるいは分音符号
でマークをつけられた、この入力Pinyinを英語のような
他の言語に変換することができる。
を可能とするキーボード1030以外の構成要素を含
む、例えば、文字ストリングをネットワーク1090を
通じて伝送させることも可能である。他の入力は音響テ
キスト入力用の構成要素1033を含む。これらの構成
要素はシステム1000に接続するための適切なドライ
バを有する。例えば、本願に引例として掲示する米国特
許出願番号08/404,786、タイトル「STATISTICAL ACOUST
IC PROCESSING METHOD AND APPARATUS FOR SPEEDRECOGN
ITION USING A TONED PHONEME SYSTEM」、発明者Chen
他、出願日1995年3月15日を参照。コード化したPinyin
ストリングあるいは適切な分音符号でマークしたPinyin
ストリングも、例えばディスケットのような磁気媒体1
032を含む他の公知方法を用いてシステム1000に
入れることができる。
中国語の音声表現における強勢音節(実施例によっては
強勢しない音節)および声調値を区別する。(プロセス
400参照。)分音符号は音節の声調を表す印である。
本発明では、声調を有する単語の音節には、その音節が
声調を有することを示す分音符号を用いて注釈をつけ
る。また、分音符号は声調のタイプを示す。北京官話
(標準中国語)には4タイプの声調(四声)がある。そ
れは、高平調(第1声)、高昇調(第2声)、降昇調
(第3声)、高降調(第4声)である。言語学者の何人
かは、「無声調」と呼ばれる第5の声調(分音符号)を
含ませている。
る(入力する)間、声調分音符号がアクセントのある音
節に加えられる。このコード化あるいは区別化で、概念
語と機能語、小辞、接辞との間の違いがテキスト(50
0、600)の処理で明確になる。(アクセントのある
音節を有する単語は、概念語および機能語、小辞、接辞
であり、800個がリストされている。)
調)中国語音節(機能語、小辞、接辞を含む)の各々の
後に「無声調」分音符号を加える。この実施例は、混合
語テキスト、つまり英語あるいは他の非中国語テキスト
が中国語テキスト入力に含まれているテキストを入れる
時に有効である。非中国語テキストは分音符号でコード
化(マーク)しないので、中国語の単語/音節(無声調
分音符号を含む分音符号でマークされている)は、マー
クなしの非中国語テキストから区別可能である。非中国
語テキストも単語間のスペースなどの例のように特別な
デリミッタで境界を定義する。
をさらに行う時に、音節ストリングのアクセントのある
音節を区別し、また各アクセントのある音節の声調のタ
イプを示す分音符号を本発明では使用して、中国語の音
声表示(Pinyin)を単語と文に文法的に分解する。(プ
ロセス500、600を参照。)法則を適用して、機能
語、小辞、および/あるいは接辞のある位置で中国語文
の音声表示を分割することにより、この音声表示を文法
的に分解する。システム1000は、各中国語方言の既
知の機能語(および小辞/接辞)が比較的少数、つま
り、100未満なので効果的にこれをおこなう。それゆ
え、すべての有効な機能語および小辞/接辞800を記
憶するために必要なメモリ容量は比較的小さくてすむ。
章構造を判定する。(プロセス500、600参照。)
初め、意味、使用、声調(非声調)について固有で曖昧
さのない翻訳を持つ機能語(および小辞/接辞)が翻訳
される。また、機能語(および小辞/接辞)は文の構造
を定義するためにも使用される。機能語(および小辞/
接辞)と定義した文構造を使用して、その文の他の(概
念)語の意味を判定できる。
語、小辞、および接辞が同じように使用され、処理され
る。これは、中国語表記では明確な単語の境界がないの
で、しばしば識別が行われないことによる。機能語、小
辞、および接辞も同様な声調構造を有する。機能語、小
辞、および接辞の望ましいリストがシステムのメモリ
(1100、1200)に記憶させられ、これは図22
に示されている。
国語入力および/あるいは混合語テキスト処理(Pinyin
中国語と非中国語、例えば英語の混合)に対して特別に
設計された新しいキーボードである。このキーボード
は、分音符号を有するPinyin音節を入力する方法を提供
する。図2から図5はPinyin入力に対して特別に設計さ
れたキーボード1030の別の望ましい実施例の例であ
る。これらキーボード1030はPinyinのシステム10
00への入力を簡単で迅速にするものである。標準的な
米国英語のキーボードはPinyin入力には不便であり、声
調や分音符号を入力する能力は持ってない。
規なキーボード(1030、2000)の図である。こ
の望ましい実施例では、いくつかのキーが声調(分音符
号)キー1050として使用され、同時に他のキー10
40はPinyin文字および他の言語(英語)文字入力用の
音声キー1040として従来の方法で使用される。望ま
しい一実施例では、希にしか使用されない数個の句読記
号キーを声調キー1050として割り当てる。限定しな
い例として、[、{キーは高平調(第1声分音符号)キ
ー2040として割り当て、]、}キーは高昇調(第2
声分音符号)キー2050として割り当て、\、|キー
は降昇調(第3声分音符号)キー2060として割り当
て、”、’キーは高降調(第4声分音符号)キー207
0として割り当てる。純粋なPinyinテキストの処理にた
いして、声調のないPinyin音節および機能語(および小
辞/接辞)が分音符号なしでコード化され、またはマー
クされるので、これらの4つの分音符号キー(2040
−2070)が適している。しかし、非中国語(英語)
テキストと組み合わされたPinyinテキストを処理するた
め使用する実施例(および他の望ましい実施例)では、
別の分音符号キー、例えば無声調(分音符号)キー20
10が加えられる。例えば、Alt(前面)キーの一つ2
010をこの機能に使用することができる。混合テキス
ト(中国語と非中国語)の処理では、無声調キーがしば
しば使用されるので、2番目の無声調キー2020を標
準英文キーボードの第2Altキーの位置に加えて別の指
の操作用とすることが可能である。この実施例では、Al
tキーは控えのコントロール・キー2030の1つに再
割り当てさせる。英文キーボードは分音符号入力105
0を提供するためにキーボードの等価代替割り当てを有
するように容易に改良できる。
符号の入力用の分音符号キー1060Bを有する改良型
英文キーボード1030の別な望ましい実施例である。
この実施例2100では、分音符号キー1060が標準
の矢印キー上の英文キーボード1050に加えられてい
る。加えられる分音符号キーは、高平調(第1声分音符
号)キー2120、高昇調(第2声分音符号)キー21
30、降昇調(第3声分音符号)キー2140、高降調
(第4声分音符号)キー2150を有する。オプション
として、無声調(分音符号)キー2110が混合テキス
ト(あるいは他のテキスト)の処理用に加えることもあ
る。
実施例2200を示す図である。この実施例2200
は、米国英語のキーボードの配列1040の全てのキー
(あるいは2、3のキーを除き他の全て)をそのままに
しておける分割したスペース・バー2270を有する。
望ましい一実施例では、このスペース・バー2270は
4つのセクション(2230、2240、2250、2
260)に分割されている。スペース・バーの一番左の
セクション2230は高昇調(第2声分音符号)キー2
230に割り当てられている。つぎの最大のセクション
2260は、本来のスペース・バー2260として使用
される。右側の2つの小さなセクション(2240、2
250)は降昇調(第3声分音符号)キー2240、高
降調(第4声分音符号)キー2250にそれぞれ割り当
てられている。高平調(第1声分音符号)キー2220
はAltキーの一つに割り当てられている。
はピアノ演奏では最も重要な指だが、タイプ操作ではそ
れ程ではない。この中国語キーボードのデザインは、親
指をもっと効果的に声調入力に利用することになる。こ
こで示された新しいスペース・バー2260はキーボー
ドの中央、つまり、FとJキーの間に位置している。両
手の親指は快適にそのスペース・バーを押すために使用
できる。従ってスペース・バーのサイズの縮小は、混合
テキストの処理の際に英文をタイプするうえでまったく
影響がない。手の平にたいして親指を曲げることによ
り、4つの声調キー(2220、2230、2240、
2250)は容易に届く。
は不要である。この実施例では、スペース・バーのキー
2260はPinyinだけの入力の場合は無声調キーとして
作動する。図4で、高降調(第4声分音符号)キー22
50および降昇調(第3声分音符号)キー2240の位
置は、それらの通常の言語学的な順番(つまり、第3
声、第4声という順)とは逆である。それは、高降調
(第4声分音符号)キーは降昇調(第3声分音符号)キ
ーより2倍以上の利用頻度があるからである。この逆の
配列は疲れを減少させ、入力効率を向上する。
理、および中国語のみのテキスト処理の望ましい実施例
にたいして、無声調キー2210が加えられる。この望
ましい実施例では、無声調キー(分音符号)2210が
別のAltキーに割り当てられる。コントロール・キー2
280の一つはAltキーとして再度割り当てられる。
実施例2300を示す。この実施例は、キーボード22
00でのように、高昇調(第2声分音符号)キー233
0、降昇調(第3声分音符号)キー2340、高降調
(第4声分音符号)キー2350を有する分割スペース
・バー2370を使用する。しかし、このキーボード2
300では、スペース・バー2370の中央の広い部分
2310が無声調(分音符号)に割り当てられている。
スペース機能はAltキーの一つ2360に設けられてい
る。これは、キーボード2300が混合テキストを入力
する時に特に有用である。他のAltキーは高平調(第1
声分音符号)2320として使用する。また、コントロ
ール・キーの一つはAltキー2380として再割り当て
する。この実施例は無声調キー2310を両手の親指の
届き易い非常に便利な位置に配置している。システム1
000が混合テキストを処理する時に無声調キー231
0は頻繁に使用されるので、そうした処理の際に有効と
なる。
加えることにより能力を高めることができる。例えば、
中国語では、左の引用符号2338および右の引用符号
2339は異なり、それぞれ単一のキーとして提供す
る。左のタイトル符号2341および右のタイトル符号
2342も、黒点2344、アポストロフィ2345、
小数点2337と共に加える。これらの符号も混合テキ
ストを入力するときに使用される。中国語のデリミッタ
として使用される位相符号もキー配列に設けてある。
法を用いて行われる。例えば、キーボード1030のプ
ロフィールは、キーの機能を規定するシステム1000
のメモリ(1100、1200)のファイル1070で
ある。RS/6000では、これは「キーボード翻訳テ
ーブル1070」と称される。このテーブル1070は
キーボード1030の各キーにたいして通常ASCIIコー
ドで文字、あるいはコントロールを割り当てる。このテ
ーブル1070内で割り当てたキー・コードを変更する
ことにより、キーボード1030のキーの機能が変わ
る。
て、このシステムにPinyinあるいは混合テキストを入れ
る(入力する)。ユーザが1つの中国語(Pinyin)音節
を入れた後、ユーザはその音節を有した適切な分音符号
を入れる。Pinyinだけのテキストを入力する時、アクセ
ントのない音節(および機能語)にたいして分音符号
(あるいはスペース)を入れない。混合テキストを入力
する時(あるいはPinyinを入力するために使用する別の
望ましい実施例で)、ユーザはアクセントのない各音節
(および機能語)の後で無声調分音符号を入力する。ス
ペース(あるいは同等の単語境界デリミッタ)を非中国
語の後に入れる。一般的に受け入れられている単語の境
界でPinyin(中国語)に境界をつける、このスペースが
システム1000の精度を向上する。しかし、この発明
を操作するため中国語に境界をつける必要はない。プロ
セス400を参照。
ステム1000のメモリ(1100、1200)に記憶
させられる。望ましい実施例では、その入力はASCIIフ
ォーマットでエンコードされる。英語文字に対するコー
ド(および/あるいはGB2312-80漢字)に対するコード
を有する標準ASCIIコード・テーブルは分音符号を有す
るように改良する。望ましい実施例では、第1、第2、
第3、第4声分音符号を、共通にアクセントのある各母
音の大文字および小文字にたいしてコード化して固有の
分音符号を表示した(印刷した)Pinyin音節内の母音に
表示(印刷)することが可能である。
力に対するASCIIコード化用のデータ構造300の望ま
しい実施例である。メモリ300のブロックは256の
メモリ位置を有する。これらのメモリ位置は0から25
5の番号が与えられている。この番号は、メモリ位置/
ASCIIコードの各々に割り当てるASCIIコードでもある。
下位7ビット部分(メモリ位置0−127を表す)、お
よび上位7ビット部分(メモリ位置128−255を表
す)から作られている。単一の文字、句読符号、あるい
はコントロール機能は1つのメモリ位置に割り当てられ
る。例えば、大文字のローマ字「B」はメモリ位置66
に割り当てられ、「ESC(エスケープ)」機能はメモ
リ位置27に割り当てられ、「!」はメモリ位置33に
割り当てられている。
化は簡単に定義されるが、このASCIIコードには多くの
オプション位置がある。個々の国により、このオプショ
ン位置に割り当てる特殊な符号が異なる。
により表される。望ましい実施例では、5(あるいは
4)つの声調コード(符号)は、全ASCIIコード・デー
タ構造300の下半分(0から127の7ビット)にあ
る数字(ASCIIコード)を有するメモリ位置に割り当て
られる。これらのメモリ位置は通信に使用される。それ
ゆえ、0から127の数字を有する分音符号ASCIIコー
ドを割り当てることにより、声調コードはネットワーク
1090を通じて通信が可能である。図6に示した特に
限定しない例では、声調コード(符号)の無声調30
1、高平調(第1声)302、高昇調(第2声)30
3、降昇調(第3声)304、高降調(第4声)305
をASCIIコード2、3、4、5、6を有するメモリ位置
にそれぞれ割り当ててある。これらは米国ASCIIコード
化におけるPokersのメモリ位置である。
モリ位置および1つのASCIIコードを各分音符号(高平
調(第1声)、高昇調(第2声)、降昇調(第3声)、
高降調(第4声))にたいする各母音(大文字と小文字
の両方)に割り当てる。無声調の場合はこのASCIIコー
ドの下位7ビット部分に位置させた英語の母音を使用す
ることができる。さらに、分音符号を有する大文字
「I」、「U」は、この母音で始まる音節はないので省
略する。従って、ASCIIコードに割り当てる分音符号を
有する32の母音がある。分音符号付の母音は、データ
構造300の上半分、つまり128から255にあるAS
CIIコード(128−159)を割り当てられる。
ドに与えることは、画像インターフェース1020上に
Pinyin音節を表示する時に、またPinyin音節を印刷する
際に有効である。システム1000は、音節の母音に固
有な分音符号で正確に綴った音節を表示および/あるい
は印刷するために付随の分音符号(301−305)と
ともに入力したPinyin音節を使用する。それゆえ、デー
タ構造300のメモリ位置128から159の分音符号
で割り当てられた母音を使用することにより、システム
1000は従来の方法でその母音についての分音符号を
有するPinyin音節を印刷/表示できる。例えば、キー操
作「Pin´」で入力したPinyin音節は「Pi´n」のように
表示/印刷される。
母音(ASCIIコード128から159)を配列する利点
は、GBコードのみASCIIコード・データ構造300の
上半分160から255を使用することである。従っ
て、分音符号付のPinyin母音はGBコード(およびASCI
Iコードの下位7ビット)と共に記憶され、伝送するこ
とができる。
0、1200)あるいはディスプレイ(1020)のよ
うな有形の媒体にPinyin音節を入れる新規なプロセス4
00を示している。望ましい実施例では、プロセス40
0はキー操作(あるいは他の方法)でシステム1000
に入れた音節をチェックするため使用されるスペルチェ
ッカおよび自動エラー検出、訂正プロセスを提供する。
またプロセス400は最小の労力で中国語と非中国語
(英語)の混合テキストを入れ、処理し、記憶させるこ
とを可能とする。入力ユニットはシステム1000によ
り実行される入力プロセス400である。
よりキーボード1030を介して音節(ここでは中国語
か非中国語のどちらか)を入れる。その音節が中国語な
ら、その音節の声調を表す分音符号を音節に続いて入れ
る。(ここでは、無声調分音符号はテキストの初めで使
用される。)非中国語、例えば英語の後には分音符号は
入れない。さらに、非中国語は、例えばスペースなどの
特別なデリミッタにより境界を作られるのでステップ4
02で識別可能である。
音節あるいは機能語の後に分音符号を入れることはいく
つかの実施例では不要である。中国語のみのテキストの
入力では必要とされないが、システム1000は、単語
の分かち書き用の明確に確立した慣用方法が知られてい
る中国語間の境界にデリミッタを入れることにより精度
を向上する。これは、単語の境界でスペースのようなデ
リミッタあるいは他のコード(例えば、二重の分音符
号、「esc」)を入れることにより行うことが可能で
ある。この場合、はっきりと確立した単語の分かち書き
による中国語のリストがステップ403で参照されてそ
れらを非中国語音節/単語から区別する。
と、システム1000は分音符号、例えば押された声調
キー1060(あるいはスペース)を読み取る。中国語
だけのテキストを処理する別の実施例では、無声調分音
符号は省略できる。これらの場合には、いくつかの無声
調(および符号なし)音節は別のものに添付させること
になる。これらの音節の文法的関係を説明するため、ス
テップ404では音節辞書700とストリングを比較す
る。辞書700の最長音節が初めに入力したストリング
と比較される。その入力ストリングの一部が最長ストリ
ングと照合すると、その照合したストリングが入力音節
として使用され、入力したストリングから削除される。
このプロセスが入力ストリングの残りの部分にたいして
繰り返され、辞書700の最長ストリングとの照合が見
つからない時は、辞書にある次に長い音節ストリングが
比較される。このプロセスは入力したストリングの全て
の音節が照合されるまで繰り返される。このプロセスは
「最長スロット照合」アルゴリズムと称され、この例は
公知である。Journal of the American Society for In
formation Science, Vol. 44, No. 9, 1993年10月号、5
32-542頁、著者 Z.Wu および G. Tsengによる「Chinese
text segmentation for text retrieval:achievements
and problems」を参照。
における入力の望ましい実施例では、中国語のアクセン
トのない音節に印をつけるため無声調キーが使用されて
いる。これらの実施例では、全ての中国語の音節が分音
符号によりコード化(符号化)され、明瞭に区別され
る。それ故、中国語の音節の境界は明瞭に印をつけられ
る。この実施例は中国語の音節の略語も明瞭に区別さ
れ、音節リスト700に加えられることにより固有に識
別されるので、その略語も使用できる。音節略語の使用
は、音声による中国語テキストを入れるため必要なキー
操作の回数を大幅に減らすことになる。
02では、システム1000はその音節が中国語の音節
かどうか判定する。音節の後に分音符号(無声調分音符
号を含む)があれば、その音節は中国語である(ステッ
プ404)。分音符号がなければ、その音節(単語)は
非中国語、例えば英語であるとして処理する(ステップ
403)。また、非中国語の単語は、それのデリミッタ
により識別可能である(ステップ403)。非中国語の
単語はそれらの言語を処理する公知のシステムによりさ
らに処理、例えば綴りのチェックを行うことが可能であ
る。
は無声調キーのどちらか)を押すと、コンピュータは前
の文字がPinyin音節を表すことを認識し(ステップ40
4)、次にその音節を綴りのチェック(ステップ40
5)と略語か別の綴りかのチェック(ステップ406)
にかける。両方のチェックで綴りの間違いがあるならス
テップ408へ進む。これらのステップ(405、40
6、408)は図10乃至図21に示す中国語音節リス
トのデータ構造700を使用する。
は北京方言中国語(以下、北京語と称す)に対して用い
られる望ましい音節リストの一つである。北京語には1
300を越える音節(異なった声調を含む)があるの
で、それらの音節を2バイト・コードのスペース(65
536スペース)の小さい部分でコード化することが便
利である。音節の各々には固有の2バイト・コードある
いは「short integer」を割り当てる。詳細には、各音
節を表すASCIIコードのストリングは中国語音節リスト
700の2バイト・コードを割り当てられる。例えば、
北京語Pinyin音節の「Pi´n」は2バイト・コード「8
14」を割り当てられる。各音節は固有の母音の上の声
調分音符号を含む標準的な綴り形状に対応する。リスト
700に略語を加えるため、その略語は、略語にされた
音節と同じ2バイト・コードに割り当てられる。例え
ば、略語「d」は「de」を表す音節リスト700のコ
ード212に割り当てられる。音節リスト700はメモ
リ(1100、1200)の比較的小さい分量を必要と
する。
4)、システム1000は照合するために中国語音節リ
スト700を検索する。照合が得られると、ステップ4
04の音節は標準つづり、つまり中国語音節リスト70
0の綴りと共に入力され、その入力キー操作ストリング
は中国語音節リスト700の照合した単語の2音節コー
ドと入れ替わる。例えば、中国語音節「Pin´」を入力
すると、システム1000はASCIIコード・ストリング
{80、105、110、6}を有するキー操作を表
す。図6を参照。この中国語音節リスト700の照合チ
ェック(ステップ404)の時に、システムはこのスト
リングが2バイト・コード814によって示される「Pi
´n」に対応することを見つける。図17参照。このよ
うに、この2バイト・コード814はメモリ内のこの音
節用のASCIIコード・ストリングと入れ替わる。それ
故、標準綴りが検知されると(ステップ405)、音節
全体が1300の中国語音節の1つとして母音の上に正
確に声調分音符号をつけてモニタに表示され(ステップ
411)、かつメモリ1010/1020に(2バイト
・コードにより)記憶される(ステップ412)。この
Pinyin表示(ステップ411)は画像インターフェース
1020のPINYINを表示している部分1021に示され
る。
るいは速記による綴りを入力すると、その速記綴りを示
すASCIIコードが中国語音節リスト700の登録内容と
比較させられる(ステップ406)。照合すると、速記
(略語の)音節が固有かつ明瞭なPinyin音節フォームに
変換させられる(ステップ407)。つまり、その速記
綴りの登録ASCIIコードが固有かつ明瞭なPinyin音節に
対応の2バイト・コードで入れ替わる。略語にされる音
節全体を印刷することになるコードとともに、再び、略
語が中国語音節リスト700に加えられる。
以下に示す。例えば、「zi, si, ci, ji, qi, xi」等は
混乱なく「z, s, c, j, q, x」と略すことができる。同
様に、「yi, wu, yu」も混乱なく「i, u, v」と略せ
る。他の例では、「shg」は「sheng」の略、「xg」は
「xing」、「qag」は「qiang」、「jo」は「jiao」とい
うようにそれぞれ明瞭に略すことができる。
an」におけるような音節分離マークは全部一緒の印字を
避けることができるが、表示の際は示される。本発明の
システム1000とプロセス400を用いて、上記例の
速記タイプは学習の必要がないほど便利である。少しば
かりの学習で、速記書きの音節の数は増やすことができ
る(中国語音節リスト700に加えて)。
プ408)、つまりテーブル700で照合がないなら、
最も近い音節が表示される(ステップ409)。これ
は、中国語音節リスト700から選択した近似選択のメ
ニュ、つまり最良の照合1023を提示することにより
行われる。ユーザは、マウス1031あるいはキーなど
の選択装置を使用して、そのメニュから固有の音節を選
択する(ステップ409)。上記のように、コンピュー
タがこの選択した音節を2バイト値としてコード化し、
メモリ412に記憶する(ステップ412)。
ターン、句読符号キーのようなデリミッタが検出されな
いなら(ステップ413)、このプロセス400は次の
音節用に繰り返される(415)。デリミッタが検知さ
れると、そのストリング全体は単語ストリングとして記
憶される(ステップ414)。モニタ上では、この単語
ストリングの正確なPinyin綴りが画像インターフェース
1020のPinyin部分1021に表示される。デリミッ
タ間の単語ストリング414は、そのデリミッタが(一
般的に受け入れられている方法により)入れられた時に
単一の語として処理され、この単語はこのデリミッタに
よりコード化された、あるいはマークをつけられた固有
の単語境界を有することになる。しかし、そのデリミッ
タが構成語の境界の各々の位置に置かれないなら、例え
ば、構成語を区切るために一般的に受け入れられている
単語の境界がない時など、単語ストリング(414)は
2以上の単語(構成成分)および/あるいは接辞を含む
ことがある。
ード化したテキストが、特別な読取り専用メモリROM
1081を有するプリンタ1080を使用してPinyin音
節として印字することもできる。そのROMはテーブル
700の2バイト・コードを求められた音節の固有の母
音上に声調記号をつけたローマ字ストリングに変換す
る。そして、そのテキストは外国人用の口語中国語の全
ての教本でのように、中国語フォームで連続的かつ読取
り可能な印字となる。
れられた中国語テキストを、例えばプロセス400によ
り処理する方法のフローチャートである。望ましい一実
施例では、中国語テキスト1022がこのシステムのキ
ーボード1030のキー操作により入れられ、前述のよ
うに画像インターフェース1020のPinyin部分102
1に表示させられる。同時に、ステップ414で記憶し
た単語フォームのPinyin入力がプロセス500により漢
字翻訳1025に変換され、画像インターフェース10
20の漢字部分1024に表示される。それ故、ユーザ
がキーボード1030を介して入力したPinyinテキスト
と分音符号は、画像インターフェース1020のPinyin
部分1021上に(プロセス400により固有の母音上
に付けた分音符号とともに)Pinyinテキスト1022
と、プロセス500により画像インターフェース102
0の漢字部分1024に表示された入力Pinyinの正確な
漢字翻訳1025を示す。別の実施例では、分音符号付
のPinyinテキストはキーボード1030以外の手段、例
えばネットワーク1090、音響システム1033、あ
るいはディスケットのような磁気媒体1032などによ
りシステム1000に入れることができる。
する。システム1000はPinyinと漢字を別の方法で処
理することができる。例えば、Pinyinテキスト1022
及び/あるいは漢字テキスト1025は印刷可能であ
る。あるいは、Pinyinテキスト1022および/あるい
は漢字テキスト1025は公知の言語翻訳装置1034
に入れ、英語のような他の言語に翻訳することができ
る。
よびアクセントのある音節にたいする分音符号のコード
(マーク)付けを全面的に利用する。この2つのプロセ
スは共に、Pinyin書式の様々な形式を多数扱い、また高
い変換精度を達成する。例えば、中国語にはっきりと確
定した境界でデリミッタをつけると、入力語(501)
は一つの固有の単語として認識される(ステップ51
1)。単語が他の「語」との境界がないなら、言語形態
論ユニットであるシステム1000で実行するプロセス
500が、その単語ストリングを言語形態的に分析し、
および/あるいは分解する。それ故本発明は単語ストリ
ング内の構成「語」を判定することが可能である。これ
は語彙950および上記した「最長一致法」(longest
string matching)アルゴリズムを使用して行われる。
Pinyinから漢字に正確に処理可能である。すなわち、
(1型)単語の一部として含まれる接辞、あるいは(2
型)単語から分離する小辞としての接辞、である。望ま
しい一実施例では、(2型)の接辞(小辞)は機能語と
して取り扱っている。(1型)については、プロセス5
00は言語形態的分析を行う。つまり、未確認の単語に
含まれる標準接辞(1型)が取り除かれ、残った単語ス
トリング(語根)が接辞なしで分析される。(2型)の
処理では、取り除かれた接辞が機能語として処理され
る。
理するため言語形態学を使用する。言語形態学は、言語
における単語形成の研究である。ここでの単語形成は特
に接辞に関し、単語の意味が接辞によりどのように影響
を受けるかというものである。英語、ドイツ語、スペイ
ン語、フィンランド語、ハンガリー語等のほとんどのヨ
ーロッパ系言語の綴りでは、接辞の付き方により単語の
意味が変わる。例えば、英語の表現の「Calvin and Dor
othy's Department Store(カルバンとドロシィの百貨
店)」では、「s」は「Calvin and Dorothy(カルバン
とドロシィ)」の両方に属するが、「Dorothy」の後に
だけ付けられる。
入力語あるいは単語ストリングの言語形態を分析する。
このアルゴリズムは入力語(ストリング)を登録語彙
(辞書)950と比較することにより開始する。登録語
彙950は音声中国語および/あるいは略語(Pinyinお
よび/あるいはBPMF)と、それらの漢字翻訳の表であ
る。中国語の公知の辞書950も使用可能である。例え
ば、Yuwen Chubanshe 語学出版舎による1989年出版の
「Hanyu Pinyin Cihui」がある。このような辞書は、別
の公知の辞書と組み合わせること、および/あるいは、
他のソースから漢字翻訳付きの中国語を追加することに
より改良可能である。
の入力語(単語あるいは単語ストリング)が照合するな
ら(ステップ510)、次にその固有性がチェックされ
る(ステップ511)。チェックの結果、不明瞭でない
なら、つまり登録語彙との照合が単一なら、その語は漢
字に変換され、画像インターフェースの漢字部分102
4に表示される(ステップ550)。不明瞭なら(つま
り、入力語の音声に対応する登録語彙の漢字が2以上あ
るなら)、その複数の語をさらに検討するため記憶する
(ステップ540)。
言語形態学的分析をその入力語(ストリング)について
おこなう。入力語の一部を機能形態素、あるいは接辞の
リストと比較する(ステップ522)。望ましい接辞の
リスト800は図22に示した。標準的な接辞があれ
ば、つまり、接辞リスト800上にあれば、その接辞を
切り離し(ステップ524)、入力語の残った部分(語
根)を再度、登録語彙950と比較する(ステップ51
0)。その語根が登録語彙にあれば、上記したようにス
テップ511に進む。語根が語彙になく、その語根にさ
らに接辞があれば(ステップ522でYES)、ステップ
524が繰り返されて語根に残った標準接辞を切り離
す。
なら、つまり、入力語のストリング(501)が接辞リ
スト800にないなら、単語ストリングあるいは語根を
分解する(ステップ530)。望ましい一実施例では、
語根を登録語彙950と比較することによる上記の「最
長一致法」を使用して語根を分解する。
成るなら、各構成成分の固有性を調査する(ステップ5
31)。構成成分が固有なら、その単語は複合語と考え
られ、対応の漢字のストリングが表示され、かつ記録さ
れる(ステップ550)。その単語が曖昧なら(ステッ
プ531)、例えば、入力語(501)の構成成分が1
以上あり、2以上の漢字翻訳を有し、および/あるい
は、その単語ストリングを分解するための方法が2以上
あるなら、これらの違いは次の考察(ステップ540)
のために記憶する。
節、あるいは文)、つまり単語ストリング入力(50
1)が、句読符号、キャリジ・リターン、あるいはユー
ザにより割当られた句のデリミッタにより境界を示され
た文字のストリングと判定される。その句は曖昧な単語
の意味を判定するために分析される。後述の図9のプロ
セス600を参照。ステップ540の後、漢字形態の文
(句、節)全体が表示される(ステップ550)。画像
インターフェース1024の表示テキストになにか間違
いがあれば(ステップ560)、ユーザは手動でその
句、文、あるいは節を訂正する。
使用した統語論的分析の説明を補助するため、口語(声
調やアクセント)、機能語、小辞、接辞、概念語等の音
響的特徴の発見の説明を行う。
的現象がある。世界の全ての口語言語と同じように、中
国語では、個々の音節の単なるストリングにより提供さ
れる情報に加えて、口語の音響学的分析により提供され
る情報が多量にある。中国語では、各単語はその意味を
理解するうえで非常に重要な口語の音響的特徴を生み出
すアクセント構造を持っている。単語を形成するために
複数の音節が一グループとされる事が単語のアクセント
構造、口語の音響学的特徴、単語の理解等に影響を与え
る。
よび(音響的に喋った)単語の同一基準のアクセント構
造等は口語言語に含まれた情報の一部である。中国語に
ついて、声調、つまり口語音響学的特徴の一部が同様に
重要である。中国語では、音節の声調はアクセントのあ
る音節でのみ顕著である。アクセントのない音節にたい
しては、声調は非常に弱いか完全にないか、どちらかで
ある。
機能語(function words)と概念語(national words)
がある。概念語は全ての名詞、全ての動詞、全ての形容
詞、そして大部分の副詞を含む。例えば、man(人)、r
un(走る)、fast(速い)、quickly(迅速に)等は概
念語である。機能語は冠詞、前置詞、および接続詞のい
くつかを含む。例えば、a、the、to、from、but等であ
る。分離した小辞として示した接辞は機能語の特徴を有
する。
び/あるいは辞書的意味を表すよりも他の語の機能を表
す無強勢語である。機能語は前置詞、助動詞、接続詞、
副詞、感嘆詞、冠詞および、特定の代名詞等を含む。中
国語では、機能語(冠詞、前置詞、後置詞等)、小辞の
形の接辞、複音節語の接辞は常にアクセントがない。機
能語(および小辞の形の接辞と複音節語の接辞)は声調
を持たないか、非常に弱い声調を持つ。
中国語では、概念語は全ての名詞、全ての主な動詞、全
ての形容詞、そして大部分の副詞を含む。概念語は機能
語以外の中国語の全ての語を含む。概念語のアクセント
構造は方言により異なる。
を理解するために直観的に概念語と機能語をどのように
識別するか分かっていない。これは特に中国語にあては
まる。中国語では、機能語と接辞の声調は非常に弱いか
完全に無くなっており、また中国語の公知で識別される
機能語の数は限られているので、口語中国語が何と言わ
れているのかを理解するため聞いている人によって機能
語は直観的に使用される。
調の重要性をさらに増幅するため、概念語のアクセント
構造と機能語(および接辞)の使用について説明する。
語の使用の明白な例を示している。どの概念語も、顕著
な声調を有するアクセントのある音節で始まる。単語の
他の全ての音節は全くアクセントを持たないので、初め
の音節に続く音節の声調は弱められる。例えば、上海語
では、wenti(質問)およびdianhua(電話)という名詞
は常に初めの音節にアクセントがある。
能語が概念語に続く時、機能語は時として小辞ではなく
概念語の接尾辞(つまり、接辞)と解釈できる。しか
し、この発見の一部は聞いている人間の観点からのもの
であり、これらの2つの解釈(機能語が小辞あるいは接
尾辞である)は基本的に違いはない。
アクセント構造は少し異なる。
セントは初めの音節にある。しかし、初めの音節の代わ
りに最後の音節にアクセントがある場合もたくさんあ
る。
アクセントは通常初めの音節にある。音節が3つより多
い単語では、「枠取りをした」アクセント構造が見られ
る。つまり、初めと終わりの音節にアクセントがあり、
その間の他の音節はアクセントがなく、声調は弱いか、
無い。官話の複音節概念語は少なくとも1つのアクセン
トがあり、通常、初めの音節にある。例えば、taiqilai
という音節ストリングでは、初めの音節のtai(左)に
アクセントがある。残りの2つの音節については、音響
学的エネルギを大きく低下させるだけではなく、声調も
非常に弱くするか完全に無くす。「taibuqi tou lai」
という句では、taiとtouの2つの音節がアクセントを有
する。残りの音節のba、qi、laiは弱く、声調無しか殆
ど無しである。「lai」は声調のない接辞であり、慣行
では、分離小辞として記述する。
規則としてアクセントを有さず、機能語の声調は弱い、
あるいは失われている(退化)。
境界を区別したり、単語を分類したり、単語の意味を判
断したりするため概念語(声調のある音節および声調の
ない音節)のアクセント構造や無声調の機能語(および
接辞)を直観的に使用することである。この自然の音声
現象は、中国語の言語学的原理の異なった観点および/
あるいは中国語で単語や句を書く方法から独立してい
る。本発明はこの現象に基づいた規則を開発し応用す
る、また、音声中国語のを処理(入力し、分析し、翻訳
し、書き込む)精度を改良するため、これらの規則を適
切なプロセスで履行実行する。
音声関係の発見の説明を完成させ、プロセス600によ
り行われる統語論的分析にこの関係がどのように使用さ
れるかを以下に説明する。
600として示す。このプロセスは上記したように、発
見した原理を用いて句(あるいは節、あるいは文)全体
を分析する。
いは文)は、句読符号、キャリッジ・リターン、あるい
はユーザにより割り当てられた入力のような句デリミッ
タで分けられる。望ましい実施例では、これらのデリミ
ッタ、あるいは句デリミッタはスペース(キー236
0)、句構造標識(キー2336)、中国語の終止符2
335、左の引用符(キー2338)、右の引用符(キ
ー2339)、左の表題符号(キー2341)、右の表
題符号(キー2342)、感嘆符(キー2311)、コ
ンマ(キー2312)、スラッシュ(キー2313)、
左の括弧(2314)、右の括弧(キー2315)、コ
ロン(キー2316)、セミコロン(2316)、黒丸
(キー2344)、疑問符(キー2317)等を含む。
声調キー(2310、2320、2330、2340、
2350)への2度打ちも句デリミッタとなる。(ここ
で括弧内に示したキーは句デリミッタを入れるキーボー
ド2300の実施例におけるキーを示す。)これらの句
デリミッタは単語の境界、つまり、1つの句の終わりと
別の句(501)の初めを明瞭に規定する。
1つ以上の不明瞭な単語を持つ句をプロセス600に入
力する(ステップ601)。統語論ユニットはシステム
1000で実行されるプロセス600である。
号の存在により分類する。1つ以上の分音符号を有する
単語(ステップ610)は概念語(ステップ620)で
ある。しかし、分音符号のない単語(ステップ611)
は、不注意に分音符号をはずしてしまった概念語、非中
国語、機能語、接辞あるいは独立小辞として書かれた接
辞が考えられる。混合テキストの入力では、非中国語の
単語はスペース(あるいは別の同等の文字、例えば、Es
c)により分けられ、認識される。
機能語か判定するため、その単語(611)を機能語リ
スト800と比較する。ほとんどの言語学者により機能
語の数は100未満と限定されている。その単語(61
1)が機能語リスト800にあるなら、それは機能語で
ある。各機能語の意味が固有に定義される。望ましい機
能語リスト800は図22に示してある。
1)は接辞リスト(リスト800にも含まれている)と
比較させて、それらが接辞および/あるいは独立小辞と
して書かれた接辞かどうか判定する。これらの独立小辞
の意味が固有に定義される。望ましい小辞/接辞のリス
トも比較的短く、20未満の登録である。漢字翻訳を有
する小辞接辞は図22の機能語のリストに含まれる。
タ構造800はコンピュータのメモリ(1100、12
00)内で必要とする容量は比較的少ない。
辞)が識別され、固有に定義されると、句/文構造がス
テップ630で分析される。その機能語(小辞/接辞)
の意味と機能は分かっているので、特定の機能語(接
辞)の前後の単語のタイプは限定される。それゆえ、1
つ以上の機能語(小辞/接辞)を有する不明瞭な概念語
の関係を使用することにより、概念語の不明瞭さはステ
ップ640においてさらに減少させることができる。例
えば、1つの不明瞭な概念語についてプロセス500の
ステップ540で識別された5つの候補語があるなら、
その不明瞭語の前後の機能語(接辞)を知ることにより
その候補語の1つを除いて、いくつか、あるいは全てを
除去する。
が図22にリストされている。これらの前置詞は名詞あ
るいは名詞句が続く。これらの前置詞に続く概念語が名
詞あるいは名詞句でない翻訳を有するなら、この不明瞭
な翻訳は除く。
動詞に続く。それゆえ、これらの後続する小辞を有する
不明瞭な概念語は動詞として翻訳する。この概念語にた
いする別の翻訳が動詞でないなら、それらは削除する。
あるいは形容詞に続く。それゆえ、これらの後続する小
辞を有する不明瞭な概念語は名詞あるいは形容詞として
翻訳する。別の不明瞭な翻訳は削除する。
あり、通常名詞の間にある。それゆえ、これらの接続詞
840のどちらかの側にある不明瞭な概念語は名詞とし
て翻訳する。別の不明瞭な翻訳は削除する。
である。概念語はこれら接続詞850のどちらか側にあ
り、句の一部と考えられる。
接辞である。これら接尾辞860の前に付く概念語は名
詞として翻訳する。別の不明瞭な翻訳は削除する。
詞接尾辞870がある。形容詞あるいは副詞ではない翻
訳を有するこれら接尾辞(小辞)の前の概念語は除く。
辞および副詞接頭辞もある。これらの小辞/接辞は形容
詞あるいは副詞の前につく。これらの接頭辞(小辞)に
続く概念語が形容詞あるいは副詞ではない翻訳を有する
なら、これらの不明瞭な翻訳は除去する。
すこれら規則の希な例外がある。
は含まない。略語は別な実施例に含むことが可能であ
る。
まり、可能性のある概念語が2以上存在するなら、その
句における関連語発生の統計を、残りの概念語候補の最
も可能性のある語を示すために適用する(ステップ64
1)。このような統計モデル641は音声認識技術にお
いて公知である。例えば、RabinerとJuangによる「Fund
amentals of Speech Recognition」447から450頁、1993
年を参照。
ンターフェース1020の漢字部分1024に表示する
(ステップ650)。明瞭に分析できない単語があれ
ば、残りの候補を画像インターフェース1020上でユ
ーザにたいして提示して、位置決め装置1031によっ
てユーザが選択できるようにする。さらに、表示した結
果1025(ステップ650)はユーザによる手動訂正
にかける。別の実施例では、最終表示はプリンタで印刷
可能であり、あるいはネットワーク接続1090を通じ
て転送可能である。表示結果650は他のコンピュータ
・システム、例えば、漢字テキストを他の言語に翻訳す
る翻訳装置1034に漢字入力する。
使用して、単語ストリングが一般的に認められている慣
行により分けられてない、あるいは境界で分けられてな
くても、システム1000は入力単語501の構成語の
意味と漢字翻訳を判定することができる。
意図したものの範囲内にある別の実施例を開発できるで
あろう。例えば、図5に示したキーボードと同様なもの
がBPMF音声アルファベットの37の文字を含むようにデ
ザインする事が可能である。この音声アルファベット用
のキー割当はユーザ/製造者の選択に依存する。37文
字のASCIIコード割当は、図6の上位7ビットの範囲で
行うことができる。BPMFの分音符号はキーボード上およ
びASCIIコード・テーブルに設けることも可能である。
しかし、幾分か改良は必要である。例えば、高平調(第
1声)に対する分音符号を設けることが可能である。BP
MFにたいする音節テーブル700および機能語、小辞、
接辞テーブル800はPinyinのケースに対する1対1の
対応を有する。図7、図8、図10乃至図21に示した
プロセスも同様に適応する。
についての異なった言語学論理や異なった習慣があるの
もかかわらず、比較的少ない語彙(メモリ)を必要とす
る正確なコンピュータ・システムと、音声中国語(Piny
in又はBPMF)入力を文字表記(漢字)に変換するプロセ
スを提供でき、また、中国語のテキストを入力、処理し
易くするための利便性のよいコンピュータ用キーボード
を提供できる。さらに、自動的にエラー検知、訂正をお
こなう音声中国語用のコンピュータ処理システムを提供
可能であり、中国語と非中国語(例えば、英語)の混合
テキストを処理できる。
る。
施例を示す概略図である。
を示す概略図である。
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。
トでの声調分音符号を有する全ての利用可能な母音を含
むASCIIコードのデータ構造の望ましい実施例を示す表
である。
ボード入力のための望ましいプロセスを示すフローチャ
ートである。
態学的分析と分解プロセスを示すフローチャートであ
る。
理するための望ましい統語論的方法を示すフローチャー
トである。
する中国語音節の望ましいリストを有する表である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
する中国語音節の望ましいリストであり、図10の表の
一部である。
扱われる接辞の望ましいリストを有する表である。
Claims (9)
- 【請求項1】中国語テキストを処理するためのコンピュ
ータ・システムであって、 A)音声中国語の句は1つ以上の単語を有し、各単語は
1つ以上の音節を有し、各音節は1つ以上の文字を有
し、第1の句デリミッタと第2の句デリミッタ間の文字
のストリングである上記音声中国語の句を入力する入力
装置と、 B)複数の音声中国語の接辞の登録を有する接辞リスト
と、 C)漢字翻訳つきの複数の音声中国語の単語のリストを
有する中国語単語の辞書と、 D)上記入力した音声中国語の句から上記接辞リスト上
の接辞の少なくとも1つの接辞を除去して語根を作成
し、上記辞書にある1つ以上の単語と該語根を比較して
両者が一致するかどうかを判定し、上記語根と一致した
上記辞書にある単語の漢字翻訳をコンピュータのメモリ
に記憶する形態学ユニットとを有することを特徴とす
る、上記コンピュータ・システム。 - 【請求項2】上記語根をアクセントのある語とアクセン
ト無しの語に文法的に分解する統語論的ユニットをさら
に有し、アクセントのある語は分音符号で印をつけ、ア
クセント無しの語は分音符号をつけないことを特徴とす
る、請求項1に記載のシステム。 - 【請求項3】上記登録は接辞、機能語、小辞を含み、各
登録は漢字翻訳を有し、上記統語論的ユニットは上記登
録の少なくとも1つと上記アクセント無しの語と照合さ
せ、上記アクセント無しの語と一致する登録は一致判定
済み登録であり、上記統語論的ユニットは上記句のアク
セント無しの語の翻訳として上記一致判定済み登録の漢
字翻訳を使用することを特徴とする、請求項2に記載の
システム。 - 【請求項4】上記統語論的ユニットは、上記アクセント
のある語の少なくとも1つを不明瞭な概念語としてさら
に翻訳し、その不明瞭な概念語は上記辞書に上記不明瞭
な概念語の漢字翻訳が少なくとも2つあるので不明瞭さ
を有するとされ、そして上記統語論的ユニットは上記句
にある少なくとも1つのアクセント無し語と上記不明瞭
な概念語との関係を使用して上記不明瞭さを除去するこ
とを特徴とする、請求項3に記載のシステム。 - 【請求項5】上記第1の句デリミッタおよび第2の句デ
リミッタは、キャリッジ・リターン、スペース、句構造
標識、中国語の終止符、左の引用符、右の引用符、左の
表題符号、右の表題符号、感嘆符、コンマ、スラッシ
ュ、左の括弧、右の括弧、コロン、セミコロン、黒丸、
疑問符、声調キーの2度以上の打健のいずれか1つであ
ることを特徴とする、請求項2に記載のシステム。 - 【請求項6】上記形態学ユニットは単語が上記辞書にあ
る単語の1つと一致しない場合にその単語を構成語に分
解し、かつ上記統語論的ユニットはその構成語を文法的
に解析することを特徴とする、請求項2に記載のシステ
ム。 - 【請求項7】コンピュータ・システムのコンピュータ・
メモリに音声中国語の音節および単語を記憶させる方法
であって、 a.入力装置を使用して上記コンピュータ・システムに
1つ以上の文字を入力するステップで、1つの音節は1
つ以上の文字を有し、1つの単語は1つ以上の音節を有
し、1つの句は1つ以上の単語を有し、該句の該単語は
2つの句デリミッタ間にあり、上記音節は上記音節の声
調を表す分音符号で印を付けられ、上記音節は2つの分
音符号間にあり、上記文字を入力するステップは入力し
た各文字に対する文字コードの記憶および上記音節の1
つに印をつける各分音符号に対する声調コードの記憶で
あり、 b.上記音節の1つ以上を中国語音節として認識するス
テップで、1つの中国語音節は1つ以上の文字コードの
ストリングと声調コードであり、 c.上記中国語音節の文字コードのストリングを音節リ
ストと照合させるステップで、該音節リストは各々1つ
以上の音節ストリング・コードと関連する複数の音節ス
トリングを有し、 d.一致した音節ストリングを上記コンピュータ・メモ
リに記憶させるステップで、上記一致した音節ストリン
グは上記中国語音節の文字コードのストリングと一致す
る音節ストリング・コードに関連する音節ストリングで
あることを特徴とする上記方法。 - 【請求項8】上記ステップaからdは、1つの句デリミ
ッタが入力されるまで繰り返され、上記コンピュータ・
メモリに記憶させた1つ以上の一致した音節ストリング
は1つの単語ストリングであることを特徴とする、請求
項7に記載の方法。 - 【請求項9】コンピュータのメモリに音声中国語の音節
および単語を記憶させるための方法を実行するため、そ
のコンピュータにより実行可能な命令のプログラムを記
憶する、コンピュータにより判読可能なプログラム記憶
装置であって、上記方法が、 a.入力装置を使用して、上記コンピュータ・システム
に1つ以上の文字を入力するステップで、1つの音節は
1つ以上の文字を有し、1つの単語は1つ以上の音節を
有し、1つの句は1つ以上の単語を有し、該句の該単語
は2つの句デリミッタ間にあり、上記音節は上記音節の
声調を表す分音符号で印を付けられ、上記音節は2つの
分音符号間にあり、上記文字を入力するステップは入力
した各文字に対する文字コードの記憶および上記音節の
1つに印をつける各分音符号に対する声調コードの記憶
であり、 b.上記音節の1つ以上を中国語音節として認識するス
テップで、1つの中国語音節は1つ以上の文字コードの
ストリングと声調コードであり、 c.上記中国語音節の文字コードのストリングを音節リ
ストと照合させるステップで、該音節リストは各々1つ
以上の音節ストリング・コードと関連する複数の音節ス
トリングを有し、 d.一致した音節ストリングを上記コンピュータ・メモ
リに記憶させるステップで、上記一致した音節ストリン
グは上記中国語音節の文字コードのストリングと一致す
る音節ストリング・コードに関連する音節ストリングで
あることを特徴とする上記プログラム記憶装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US515547 | 1995-08-16 | ||
US08/515,547 US5893133A (en) | 1995-08-16 | 1995-08-16 | Keyboard for a system and method for processing Chinese language text |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09128383A JPH09128383A (ja) | 1997-05-16 |
JP3277123B2 true JP3277123B2 (ja) | 2002-04-22 |
Family
ID=24051782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17390296A Expired - Fee Related JP3277123B2 (ja) | 1995-08-16 | 1996-07-03 | 中国語テキストを処理するためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US5893133A (ja) |
JP (1) | JP3277123B2 (ja) |
KR (1) | KR100259407B1 (ja) |
CN (1) | CN1191514C (ja) |
SG (2) | SG55208A1 (ja) |
TW (1) | TW411421B (ja) |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6044205A (en) * | 1996-02-29 | 2000-03-28 | Intermind Corporation | Communications system for transferring information between memories according to processes transferred with the information |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
CN1193779A (zh) * | 1997-03-13 | 1998-09-23 | 国际商业机器公司 | 中文语句分词方法及其在中文查错系统中的应用 |
US6032164A (en) * | 1997-07-23 | 2000-02-29 | Inventec Corporation | Method of phonetic spelling check with rules of English pronunciation |
JPH1186434A (ja) * | 1997-09-11 | 1999-03-30 | Sony Corp | 記録装置、記録方法、及びダビング装置 |
US7257528B1 (en) * | 1998-02-13 | 2007-08-14 | Zi Corporation Of Canada, Inc. | Method and apparatus for Chinese character text input |
US6694055B2 (en) * | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US6393399B1 (en) * | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
JP2000122768A (ja) * | 1998-10-14 | 2000-04-28 | Microsoft Corp | 文字入力装置、方法および記録媒体 |
JP2000235567A (ja) * | 1999-02-17 | 2000-08-29 | Matsushita Electric Ind Co Ltd | 声調符号無入力式中国語文字変換装置 |
JP3539479B2 (ja) * | 1999-03-11 | 2004-07-07 | シャープ株式会社 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
JP2000298667A (ja) * | 1999-04-15 | 2000-10-24 | Matsushita Electric Ind Co Ltd | 構文情報による漢字変換装置 |
US6453462B1 (en) * | 1999-06-29 | 2002-09-17 | International Business Machines Corporation | Mock translation system, method, and program using multi-byte placeholder characters to test translatability of software that will display multi-byte languages |
US6562078B1 (en) * | 1999-06-29 | 2003-05-13 | Microsoft Corporation | Arrangement and method for inputting non-alphabetic language |
US6507812B1 (en) | 1999-06-29 | 2003-01-14 | International Business Machines Corporation | Mock translation method, system, and program to test software translatability |
US7165019B1 (en) | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7047493B1 (en) * | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6604101B1 (en) | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US20040006560A1 (en) * | 2000-05-01 | 2004-01-08 | Ning-Ping Chan | Method and system for translingual translation of query and search and retrieval of multilingual information on the web |
US6809725B1 (en) * | 2000-05-25 | 2004-10-26 | Jishan Zhang | On screen chinese keyboard |
CN1171137C (zh) * | 2000-06-23 | 2004-10-13 | 谭伟雄 | 改进的hlv汉字拼音输入方法 |
US6920247B1 (en) * | 2000-06-27 | 2005-07-19 | Cardiff Software, Inc. | Method for optical recognition of a multi-language set of letters with diacritics |
US6692170B2 (en) | 2001-02-21 | 2004-02-17 | Eli Abir | Method and apparatus for text input |
US6982658B2 (en) * | 2001-03-22 | 2006-01-03 | Motorola, Inc. | Keypad layout for alphabetic symbol input |
US7319950B2 (en) * | 2001-04-10 | 2008-01-15 | Chang Po Liu | Automated word processor for chinese-style languages |
US6993474B2 (en) | 2001-05-17 | 2006-01-31 | Curry David G | Interactive conversational speech communicator method and system |
US6810374B2 (en) * | 2001-07-23 | 2004-10-26 | Pilwon Kang | Korean romanization system |
US20030110036A1 (en) * | 2001-12-10 | 2003-06-12 | Sayling Wen | Chinese input method for providing auxiliary writing model |
US7174288B2 (en) * | 2002-05-08 | 2007-02-06 | Microsoft Corporation | Multi-modal entry of ideogrammatic languages |
US7228267B2 (en) * | 2002-07-03 | 2007-06-05 | 2012244 Ontario Inc. | Method and system of creating and using Chinese language data and user-corrected data |
EP1691298B1 (en) * | 2002-07-03 | 2007-09-19 | 2012244 Ontario Inc. | Method and system of creating and using Chinese language data and user-corrected data |
KR100712001B1 (ko) | 2002-07-03 | 2007-04-30 | 2012244 온타리오 인크. | 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 |
US7353173B2 (en) * | 2002-07-11 | 2008-04-01 | Sony Corporation | System and method for Mandarin Chinese speech recognition using an optimized phone set |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
US7315982B2 (en) | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
KR100566204B1 (ko) * | 2003-04-22 | 2006-03-29 | 삼성전자주식회사 | 성조가 표기된 한어 병음 입력 방법 및 장치 |
US7884804B2 (en) * | 2003-04-30 | 2011-02-08 | Microsoft Corporation | Keyboard with input-sensitive display device |
US20050010391A1 (en) * | 2003-07-10 | 2005-01-13 | International Business Machines Corporation | Chinese character / Pin Yin / English translator |
US20050010392A1 (en) * | 2003-07-10 | 2005-01-13 | International Business Machines Corporation | Traditional Chinese / simplified Chinese character translator |
US20050027534A1 (en) * | 2003-07-30 | 2005-02-03 | Meurs Pim Van | Phonetic and stroke input methods of Chinese characters and phrases |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
US8137105B2 (en) | 2003-07-31 | 2012-03-20 | International Business Machines Corporation | Chinese/English vocabulary learning tool |
US20050027547A1 (en) * | 2003-07-31 | 2005-02-03 | International Business Machines Corporation | Chinese / Pin Yin / english dictionary |
US20070213971A1 (en) * | 2003-10-17 | 2007-09-13 | Al-Sulaim Mazen M | Method For Operating an Output Device |
JP4213570B2 (ja) * | 2003-11-20 | 2009-01-21 | シャープ株式会社 | 文字入力方法、文字入力装置およびプログラム |
AU2005203870A1 (en) * | 2004-01-06 | 2005-07-21 | In-Seop Lee | The auto translator and the method thereof and the recording medium to program it |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
CA2496872C (en) * | 2004-03-17 | 2010-06-08 | America Online, Inc. | Phonetic and stroke input methods of chinese characters and phrases |
US7398199B2 (en) * | 2004-03-23 | 2008-07-08 | Xue Sheng Gong | Chinese romanization |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
US20060020567A1 (en) * | 2004-07-26 | 2006-01-26 | Li Li | Method for message browsing |
US7595742B2 (en) * | 2004-10-29 | 2009-09-29 | Lenovo (Singapore) Pte. Ltd. | System and method for generating language specific diacritics for different languages using a single keyboard layout |
TWI244638B (en) * | 2005-01-28 | 2005-12-01 | Delta Electronics Inc | Method and apparatus for constructing Chinese new words by the input voice |
US7676357B2 (en) * | 2005-02-17 | 2010-03-09 | International Business Machines Corporation | Enhanced Chinese character/Pin Yin/English translator |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US7516062B2 (en) * | 2005-04-19 | 2009-04-07 | International Business Machines Corporation | Language converter with enhanced search capability |
US7366984B2 (en) * | 2005-07-29 | 2008-04-29 | Microsoft Corporation | Phonetic searching using multiple readings |
US7538692B2 (en) * | 2006-01-13 | 2009-05-26 | Research In Motion Limited | Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components |
WO2007090293A1 (en) * | 2006-02-10 | 2007-08-16 | Zi Corporation Of Canada, Inc. | Method and system of identifying an ideographic character |
US20070250307A1 (en) * | 2006-03-03 | 2007-10-25 | Iq Technology Inc. | System, method, and computer readable medium thereof for language learning and displaying possible terms |
US8275602B2 (en) * | 2006-04-21 | 2012-09-25 | Scomm, Inc. | Interactive conversational speech communicator method and system |
US20080003551A1 (en) * | 2006-05-16 | 2008-01-03 | University Of Southern California | Teaching Language Through Interactive Translation |
US8706471B2 (en) * | 2006-05-18 | 2014-04-22 | University Of Southern California | Communication system using mixed translating while in multilingual communication |
US8032355B2 (en) * | 2006-05-22 | 2011-10-04 | University Of Southern California | Socially cognizant translation by detecting and transforming elements of politeness and respect |
US8032356B2 (en) * | 2006-05-25 | 2011-10-04 | University Of Southern California | Spoken translation system using meta information strings |
US8395586B2 (en) | 2006-06-30 | 2013-03-12 | Research In Motion Limited | Method of learning a context of a segment of text, and associated handheld electronic device |
US7665037B2 (en) * | 2006-06-30 | 2010-02-16 | Research In Motion Limited | Method of learning character segments from received text, and associated handheld electronic device |
US7565624B2 (en) | 2006-06-30 | 2009-07-21 | Research In Motion Limited | Method of learning character segments during text input, and associated handheld electronic device |
KR100837750B1 (ko) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템 |
US20080131031A1 (en) * | 2006-12-05 | 2008-06-05 | Sherryl Lee Lorraine Scott | Handheld electronic device with diacritical selection and text disambiguation |
US8135590B2 (en) | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US20080211777A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Stroke number input |
US8316295B2 (en) * | 2007-03-01 | 2012-11-20 | Microsoft Corporation | Shared language model |
US8677237B2 (en) * | 2007-03-01 | 2014-03-18 | Microsoft Corporation | Integrated pinyin and stroke input |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
CN101286094A (zh) * | 2007-04-10 | 2008-10-15 | 谷歌股份有限公司 | 多模式输入法编辑器 |
CN105204617B (zh) * | 2007-04-11 | 2018-12-14 | 谷歌有限责任公司 | 用于输入法编辑器集成的方法和系统 |
US8457946B2 (en) | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
KR20100029221A (ko) * | 2007-06-01 | 2010-03-16 | 구글 인코포레이티드 | 명칭 엔터티와 신규 단어를 검출하는 것 |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
EP2120130A1 (en) | 2008-05-11 | 2009-11-18 | Research in Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US9009591B2 (en) * | 2008-12-11 | 2015-04-14 | Microsoft Corporation | User-specified phrase input learning |
US20100149190A1 (en) * | 2008-12-11 | 2010-06-17 | Nokia Corporation | Method, apparatus and computer program product for providing an input order independent character input mechanism |
US8296680B2 (en) * | 2009-01-15 | 2012-10-23 | Research In Motion Limited | Method and handheld electronic device for displaying and selecting diacritics |
US20110171617A1 (en) * | 2010-01-11 | 2011-07-14 | Ideographix, Inc. | System and method for teaching pictographic languages |
US8381119B2 (en) * | 2010-01-11 | 2013-02-19 | Ideographix, Inc. | Input device for pictographic languages |
US8947076B2 (en) | 2010-01-18 | 2015-02-03 | Bourns, Inc. | High resolution non-contacting multi-turn position sensor |
US8280954B2 (en) | 2010-03-25 | 2012-10-02 | Scomm, Inc. | Method and system for providing live real-time communication via text between mobile user devices |
JP4940325B2 (ja) * | 2010-03-29 | 2012-05-30 | 株式会社東芝 | 文書校正支援装置、方法およびプログラム |
US10380241B2 (en) * | 2010-05-26 | 2019-08-13 | Warren Daniel Child | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form |
US8473277B2 (en) * | 2010-08-05 | 2013-06-25 | David Lynton Jephcott | Translation station |
EP2661705A4 (en) * | 2011-01-05 | 2016-06-01 | Google Inc | METHOD AND SYSTEM FOR FACILITATING TEXT INPUT |
CN102737535A (zh) * | 2011-03-31 | 2012-10-17 | 赵文志 | 一种快速学习语言的工具设置 |
US9864782B2 (en) * | 2013-08-28 | 2018-01-09 | AV Music Group, LLC | Systems and methods for identifying word phrases based on stress patterns |
CN104699000A (zh) * | 2013-12-05 | 2015-06-10 | 上海能感物联网有限公司 | 非特定人外语语音遥控的机器人系统 |
KR101449376B1 (ko) * | 2014-03-31 | 2014-10-10 | 정창수 | 컴퓨터의 한자입력 장치 및 한자입력 방법 |
US10261674B2 (en) * | 2014-09-05 | 2019-04-16 | Microsoft Technology Licensing, Llc | Display-efficient text entry and editing |
WO2017017738A1 (ja) * | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
CN105242932B (zh) * | 2015-10-21 | 2018-08-31 | 宁波三星医疗电气股份有限公司 | 一种基于delphi工具开发的软件的自动翻译方法 |
US20170364486A1 (en) * | 2016-06-17 | 2017-12-21 | Yan Zhou | Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin |
CN107066104B (zh) * | 2016-11-14 | 2020-12-11 | 高商展 | 电脑汉英互读互译键盘最佳键位 |
KR101880868B1 (ko) * | 2017-12-29 | 2018-07-20 | 영 황보 | 한자입력장치 |
CN108536656B (zh) * | 2018-03-09 | 2021-08-24 | 云知声智能科技股份有限公司 | 基于wfst的文本正则化方法及系统 |
US10885286B2 (en) * | 2018-10-12 | 2021-01-05 | Microsoft Technology Licensing, Llc | Simultaneous and real time translation and language switching across a set of features |
US11869494B2 (en) * | 2019-01-10 | 2024-01-09 | International Business Machines Corporation | Vowel based generation of phonetically distinguishable words |
USD1043702S1 (en) | 2020-09-22 | 2024-09-24 | Kinesis Corporation | Keyboard |
CN114708860B (zh) * | 2022-05-10 | 2024-10-11 | 平安科技(深圳)有限公司 | 语音命令识别方法、装置、计算机设备及计算机可读介质 |
CN118588056B (zh) * | 2024-08-05 | 2025-03-14 | 南京硅基智能科技有限公司 | 基于句法图构建的文本到语音生成方法、装置及电子设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59864B2 (ja) * | 1979-03-30 | 1984-01-09 | シャープ株式会社 | 電子辞書 |
DE3142138C2 (de) * | 1981-10-23 | 1985-06-27 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens |
US5164900A (en) * | 1983-11-14 | 1992-11-17 | Colman Bernath | Method and device for phonetically encoding Chinese textual data for data processing entry |
US5212638A (en) * | 1983-11-14 | 1993-05-18 | Colman Bernath | Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data |
GB2158776A (en) * | 1984-02-24 | 1985-11-20 | Chang Chi Chen | Method of computerised input of Chinese words in keyboards |
US4565459A (en) * | 1984-06-04 | 1986-01-21 | Dilucia Gilbert | Phonetic Chinese printing apparatus |
US5175803A (en) * | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
JPS6231467A (ja) * | 1985-08-01 | 1987-02-10 | Toshiba Corp | 文章作成装置 |
JPS6352143A (ja) * | 1987-08-12 | 1988-03-05 | Matsushita Electric Ind Co Ltd | コ−ド印刷物の作成方法 |
US5109352A (en) * | 1988-08-09 | 1992-04-28 | Dell Robert B O | System for encoding a collection of ideographic characters |
US5047932A (en) * | 1988-12-29 | 1991-09-10 | Talent Laboratory, Inc. | Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof |
US4949260A (en) * | 1989-01-03 | 1990-08-14 | Hsu Su Hsia | Method for inputting chinese information through hieroglyphic approach and keyboard arrangement therefor |
LU87713A1 (de) * | 1989-08-31 | 1990-07-24 | Siemens Ag | Kreuzschaltungsverfahren(cross-connect)fuer stm-1-signale der synchron-digital-multiplexhierarchie |
JPH03101492A (ja) * | 1989-09-14 | 1991-04-26 | Hitachi Ltd | 高密度画面変換処理方式 |
JPH03144846A (ja) * | 1989-10-31 | 1991-06-20 | Yokogawa Hewlett Packard Ltd | アプリケーション・入力サーバ連携方法 |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
JPH04109365A (ja) * | 1990-06-19 | 1992-04-10 | Ricoh Co Ltd | キヤビネツト間の文書コピー機能を有する画像文書フアイリング装置 |
US5270927A (en) * | 1990-09-10 | 1993-12-14 | At&T Bell Laboratories | Method for conversion of phonetic Chinese to character Chinese |
US5255355A (en) * | 1990-10-10 | 1993-10-19 | Fuji Xerox Co., Ltd. | Document processor |
TW268115B (ja) * | 1991-10-14 | 1996-01-11 | Omron Tateisi Electronics Co | |
US5255189A (en) * | 1992-06-09 | 1993-10-19 | Woo Edward P H | Method and system for retrieving ideographic characters and the associated dictionary entries |
US5331557A (en) * | 1993-01-14 | 1994-07-19 | Liu Zhong Yi | Audio-video coding system for Chinese characters |
US5378068A (en) * | 1993-10-12 | 1995-01-03 | Hua; Teyh-Fwu | Word processor for generating Chinese characters |
SG42314A1 (en) * | 1995-01-30 | 1997-08-15 | Mitsubishi Electric Corp | Language processing apparatus and method |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US5832478A (en) * | 1997-03-13 | 1998-11-03 | The United States Of America As Represented By The National Security Agency | Method of searching an on-line dictionary using syllables and syllable count |
-
1995
- 1995-08-16 US US08/515,547 patent/US5893133A/en not_active Expired - Lifetime
- 1995-12-18 TW TW084113517A patent/TW411421B/zh not_active IP Right Cessation
-
1996
- 1996-05-10 CN CNB961058765A patent/CN1191514C/zh not_active Expired - Lifetime
- 1996-06-26 SG SG1996010157A patent/SG55208A1/en unknown
- 1996-06-26 SG SG9903085A patent/SG87039A1/en unknown
- 1996-07-03 JP JP17390296A patent/JP3277123B2/ja not_active Expired - Fee Related
- 1996-07-15 KR KR1019960028558A patent/KR100259407B1/ko not_active IP Right Cessation
-
1997
- 1997-08-29 US US08/920,817 patent/US6073146A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR970012111A (ko) | 1997-03-29 |
SG87039A1 (en) | 2002-03-19 |
KR100259407B1 (ko) | 2000-06-15 |
US6073146A (en) | 2000-06-06 |
JPH09128383A (ja) | 1997-05-16 |
CN1191514C (zh) | 2005-03-02 |
SG55208A1 (en) | 1998-12-21 |
CN1143769A (zh) | 1997-02-26 |
US5893133A (en) | 1999-04-06 |
TW411421B (en) | 2000-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3277123B2 (ja) | 中国語テキストを処理するためのシステムおよび方法 | |
US6014615A (en) | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases | |
US6760695B1 (en) | Automated natural language processing | |
Palmer | Tokenisation and sentence segmentation | |
US7302640B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors | |
US7165019B1 (en) | Language input architecture for converting one text form to another text form with modeless entry | |
JP2515726B2 (ja) | 情報検索方法及び装置 | |
US8977535B2 (en) | Transliterating methods between character-based and phonetic symbol-based writing systems | |
US20050027524A1 (en) | System and method for disambiguating phonetic input | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
CN101667099B (zh) | 一种连笔键盘文字输入的方法和设备 | |
WO1997040453A1 (en) | Automated natural language processing | |
Jiang et al. | Braille to print translations for Chinese | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
KR100268297B1 (ko) | 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법 | |
Saharia et al. | LuitPad: a fully unicode compatible Assamese writing software | |
JP2010073177A (ja) | 国際対応型日本語入力システム | |
Tzoukermann et al. | Tagging French without lexical probabilities—combining linguistic knowledge and statistical learning | |
JPH08272780A (ja) | 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法 | |
Zhang | HONG KONG POLYTECHNIC UNIVERSITY, HONG KONG, CHINA | |
JPH03260687A (ja) | 視覚障害者用点字漢字変換装置 | |
WO2006051647A1 (ja) | テキストデータ構造、テキストデータ処理方法 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH0773174A (ja) | 日本語処理システム | |
JPS60207948A (ja) | カナ漢字変換処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080208 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090208 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100208 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110208 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110208 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120208 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120208 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130208 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |