JP2007034871A

JP2007034871A - 文字入力装置および文字入力装置プログラム

Info

Publication number: JP2007034871A
Application number: JP2005219916A
Authority: JP
Inventors: Akira Nakamura; 明中村
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2005-07-29
Filing date: 2005-07-29
Publication date: 2007-02-08

Abstract

【課題】ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することを目的とする。
【解決手段】文脈辞書生成部２０２が、文書集合に保存されている文書に基づいて文脈辞書を生成し、文脈辞書集合２０３へ出力する。入力部２０４がユーザから文字列が入力されたかどうかを判定する。文脈辞書選択部２０５が、入力中の文書の内容や文脈に応じて最適な文脈辞書を文脈辞書集合２０３から選択する。文字列変換処理部２０６が、ユーザからの入力文字列に基づいて、ユーザの入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出する。出力部２０７が、ユーザの入力希望文字列の予測候補を表示装置１０４に表示させる。
【選択図】図２

Description

本発明は、パーソナルコンピュータのワードプロセッサ機能等で文字を入力して文書を作成するための文字入力装置や文字入力装置プログラムに関する。

近年、パーソナルコンピュータ等のワードプロセッサ機能を用いた文書作成の機会が増加してきている。例えば、従来のビジネス文書や論文等の文書作成の機会に加えて、新たに病院等の医療機関において電子カルテ等が導入されてきたため、医者や看護士による文書作成の機会が増加してきている。

このような状況の中で、キーボード操作に熟練していない人でも、少ないキータッチで情報を正確に入力できるといったユーザの情報入力に関わる負担を軽減することが望まれている。

かかる要請に対する一つの解決方法として、文字列の先頭の“読み”が入力されると、それをキーワードとして、ユーザが望むと思われる文字列を辞書から検索して提示することにより、ユーザの入力負担を軽減する方法が提案されている。

しかしながら、この方法では、単純な辞書に登録されている単語や表現等から、例えば、その“読み”から始まる文字列を単に抽出して提示するだけであるため、辞書に登録されている単語や表現等が増えるに連れ、予測候補が大量に提示されることとなり、その中から所望の候補を探して指定するという操作がかえって繁雑になってしまうという問題がある。

このような問題を解決する方法の一つが以下の特許文献１に記載されている。この特許文献１では、携帯電話のメール機能でメールを作成する場合やその他のアプリケーションで文字入力を行う際に、ユーザの文字入力の負担を軽減するため、辞書を複数備え、携帯電話で使用するアプリケーションや文字入力を行う位置の属性（例えば、メール作成の場合のあて先記入欄）に応じて使用する辞書を切り替える（メールのあて先記入欄に記入する場合は、名前辞書を優先する）という方法が提案されている。しかしながら、この方法では、例えば、パーソナルコンピュータのワードプロセッサ機能により単一のアプリケーション上で文字入力を行い、文書を作成するような場合には、依然として上記課題を解決することができない。
特開2001-325252号

そこで、本発明は、パーソナルコンピュータのワードプロセッサ機能等を利用して文書を作成する場合において、ユーザが文字列を入力する際に、作成中の文書の内容に即して、ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、その結果、ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することを目的とする。

本発明に係る文書入力装置は、ユーザが入力した入力情報を文字列に変換することにより文字入力を行う文字入力装置であって、入力情報を文字列に変換するときに使用する１又は２以上の文脈辞書を備え、文脈辞書選択手段が、文字入力中の文書の内容に基づいて、前記１又は２以上の文脈辞書から使用すべき文脈辞書を選択する。そして、文字列変換手段が、選択された文脈辞書に基づいて入力情報を文字列に変換する。

尚、文脈辞書が１つのみである場合には、文脈辞書選択手段は、必然的にかかる１つの文脈辞書を選択することとなる。

本発明によると、文脈辞書選択手段が、文字入力中の文書のうち入力が確定した文字列の内容に基づいて使用すべき文脈辞書を選択する。したがって、文字入力中の文書を作成するのに適した文脈辞書が選択されるため、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担を軽減することができる。

さらに、入力中の文書内容から適切な文脈辞書が自動的に選択されるため、ユーザは、入力文書に適した文脈辞書を、自ら選択するという操作を行う必要がない。

また、本発明に係る文書入力装置は、文脈辞書生成手段が、１又は２以上の文書からなる文書集合に基づいて１又は２以上の文脈辞書を生成する。

本発明によると、文脈辞書生成手段が文書集合に基づいて、ユーザからの入力情報を文字列に変換するときに使用する１又は２以上の文脈辞書を生成する。したがって、文書入力装置の導入時点では、予め独立して複数の文脈辞書を準備しなくともよいこととなる。また、これまでに作成され保存されている文書集合に基づいて文脈辞書を生成するため、ユーザが頻繁に作成する文書の特性に適した文脈辞書が生成される。したがって、かかる文脈辞書を利用することにより、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。

また、本発明にかかる文字入力装置では、文字列変換手段が、入力情報に基づいてユーザが入力を希望する１又は２以上の文字列候補を、選択された文脈辞書から抽出して表示させる文字列候補表示手段を備える。

本発明によると、ユーザは文字列候補表示手段により表示される文字列候補から入力希望の文字列を選択できる。したがって、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。

また、本発明にかかる文書入力装置は、前記文脈辞書生成手段が、前記文書集合に対してクラスタリング処理を行うことにより、１又は２以上のクラスタを生成し、前記各文書を該１又は２以上のクラスタの何れかに分類する文書分類手段と、前記各クラスタに属する１又は２以上の文書から各文書の内容を反映する言語的な特徴を抽出する第１の言語特徴抽出手段と、抽出された特徴に基づいて前記各クラスタごとに文脈辞書を出力する文脈辞書出力手段と、を備える。

また、本発明にかかる文書入力装置では、前記文脈辞書選択手段は、前記文字入力中の文書の内容を反映した言語的な特徴を抽出する第２の言語特徴抽出手段と、抽出された言語的な特徴と前記各クラスタに対応する前記各文脈辞書の言語的な特徴との類似度を算出する類似度算出手段と、算出された類似度が最も高いクラスタの文脈辞書を抽出し、使用すべき文脈辞書として出力する文脈辞書抽出手段と、を備える。

上記２つの本発明によると、文書集合が、文書の特性に応じて適切にクラスタリングされ、各クラスタに適した文脈辞書が生成される。そして、ユーザが文字入力中の文書を作成する際には、その文書の特性からその文書への文字入力に適した文脈辞書が選択されることとなる。したって、このように選択された文脈辞書により、ユーザは希望の文字列を容易に入力することができる。

また、本発明にかかる文字入力装置では、文字列候補表示手段は、選択された文脈辞書から該文脈辞書の言語的な特徴に応じて文字列候補を抽出して表示させる。

本発明によると、文字列候補表示手段が、文脈辞書の言語的な特徴、例えば、文脈辞書に格納されている文字列の出現頻度等に応じて文字列候補を抽出して表示させる。このような構成とすることにより、ユーザが希望する文字列が文字列候補の上位に表示される。したがって、ユーザは希望の文字列を容易に選択して入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。

また、本発明にかかる文書入力装置では、前記文脈辞書生成手段において、文脈辞書更新手段が、所定のタイミングで文脈辞書の再生成を行う。

本発明によると、文脈辞書が所定期間毎に更新されるため、最適な文脈辞書を利用することができる。

また、新しい内容の文書が増えてきた場合には、この内容を反映した文脈辞書が生成される。したがって、例えば、当初は予定していなかった分野あるいは種類の文書を作成する場合であっても容易に対応することができる。

本発明にかかる文書入力装置プログラムは、前記請求項１乃至５の何れか一項に記載された各手段の機能をコンピュータに付与する文字入力装置のプログラム。

本発明によれば、パーソナルコンピュータのワードプロセッサ機能等を利用して文書を作成する場合に、ユーザが文字を入力する際には、作成中の文書の内容に即して、ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、その結果ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することができる。

本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。

ただし、以下の実施の形態は、あくまでも、本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。

（実施例１）
以下、本発明を病院や診療所等の医療機関で用いられる電子カルテシステムの入力予測処理に実施した形態につき、図面に沿って説明する。

図１は、本発明にかかる文字入力装置の一実施形態の構成図を示している。

図１に示す如く、文字入力装置１００は、記憶装置１０１、ＣＰＵ１０２、入力装置１０３および表示装置１０４からなる。

記憶装置１０１は、後述する文字入力装置１００の機能を実行するためのプログラムを格納すると共に、かかる機能を実行する際に参照される各種テーブルや文書の電子ファイル（以下、単に文書と記載する）等を格納する。ＣＰＵ１０２は、記憶装置１０１に格納された当該文字入力装置プログラムに従って処理を実行する。入力装置１０３は、ユーザが文字入力装置プログラムを実行させるときに必要な文字列等の情報を入力するために使用される。表示装置１０４は、ユーザにより入力される文字列等の情報やＣＰＵ１０２による文字入力装置プログラムの実行結果を表示する。

従って、本発明の文字入力装置１００では、入力装置１０３からユーザにより文字列等の情報が入力されると、ＣＰＵ１０２が、記憶装置１０１に格納されている文字入力装置プログラムを実行し、実行結果を表示装置１０４に表示すると共に、実行の結果作成された文書を記憶装置１０１に保存する。

図２は、文書入力装置１００を構成する機能ブロック図を示している。機能ブロック図とは、文書入力装置１００を、機能ごとに分類し、各機能を実現するブロックごとに表現した図である。

図２において、文字入力装置１００は、これまでに作成された１又は２以上の文書からなる文書集合２０１、該文書集合２０１に基づいて後述する文脈辞書を生成する文脈辞書生成部２０２、１又は２以上の文脈辞書からなる文脈辞書集合２０３、入力装置１０３から入力された入力文字列を取得する入力部２０４、文脈辞書集合２０３のいずれの文脈辞書を使用するかを判定し、選択する文脈辞書選択部２０５、選択した文脈辞書を参照して入力文字列からユーザが希望する文字列を予測する文字列変換部２０６、予測されたユーザ希望文字列の候補を表示装置１０４に表示させる、あるいは確定され入力文字列を文書として文書集合２０１に保存する出力部２０７から構成される。

尚、本実施形態では、文書集合２０１は病院や診療所等の医療機関で作成された複数の患者のカルテの電子ファイル（以下、カルテ文書と記載する。）からなるものとする。

文脈辞書生成部２０２は、複数のカルテ文書に基づいて、後述する文脈辞書を生成する。

具体的には、例えば、最初にＮ個（Ｎ＝１，２，３，・・・）のカルテ文書が文書集合２０１に存在しているとする。文脈辞書生成部２０２は、まず、これらのＮ個のカルテ文書を例えばＣ個（Ｃ≦Ｎ、Ｃ＝１，２，３，・・・）のクラスタに分類する。この結果、おおむねカルテの内容に応じたクラスタが形成される。

尚、このクラスタに分類する処理、即ち、クラスタリング処理には、既存の文書分類技術が適用できる。例えば、各文書を形態素解析してから文書ベクトルを生成し、これらの文書ベクトルに対してk-means法、Ward法などのクラスタリングアルゴリズムを適用することによって各文書をクラスタに分類することができる。

図３は、Ｎ個のカルテ文書がその内容に応じて、例えば、心疾患、消化器疾患、呼吸器疾患等の疾患群ごとにＣ個のクラスタに分類された状態を示している。ここで、クラスタの数である、Ｃは予め設定することとしてもよいし、文書辞書生成部２０２がカルテ文書の内容に応じて自動的に決定することとしてもよい。

尚、実際には、上述の如く厳密に疾患群ごとにクラスタが形成されるとは限らないが、各クラスタに属するカルテ文書の大半が関連する内容となっているような分類結果が得られていれば問題はない。

次に、文脈辞書生成部２０２は、各クラスタに属するカルテ文書から文書の内容を反映した言語的特徴を抽出し、各クラスタごとに後述の文脈辞書を生成する。
ここで、文書内容を反映した言語的特徴とは、例えば、
（１）各クラスタにおける単語単位の出現頻度または出現確率
（２）各クラスタにおける単語間の共起回数または共起確率
（３）各クラスタにおける文字単位の出現頻度または出現確率
（４）各クラスタにおける文字間の共起回数または共起確率
等である。

本実施形態では、文書内容を反映した言語的特徴として各クラスタにおける単語単位の出現頻度を用いる。

文脈辞書生成部２０２は、言語的特徴を抽出するために、まず各カルテ文書を単語単位に分割する処理（形態素解析）を行う（ただし、クラスタ分類の際に形態素解析が行われている場合には、再度、形態素解析は行わない。）。次に、
各クラスタに属するカルテ文書における単語単位の出現頻度を得るために、まず各カルテ文書の形態素解析結果を参照して、カルテ文書中に出現した単語とその出現回数をカウントする。そしてＣ個のクラスタそれぞれについて、各クラスタに属するカルテ文書中に出現した単語の出現回数を単語ごとに集計する。これにより、各クラスタごとの単語出現頻度リストが得られる。

例えば、図３におけるＣ個のクラスタのうち、主として心疾患のカルテ文書から構成されるクラスタをクラスタ１、主として消化器疾患のカルテ文書から構成されるクラスタをクラスタ２とする。

図４および図５はそれぞれ、上述した手順で生成したクラスタ１およびクラスタ２についての単語出現頻度リストを示している。ただし、ここでは、カルテ文書の内容をほとんど反映しないと考えられる助詞、助動詞、接続詞などの機能語はリストから除外し、効率よく辞書サイズを削減するためにカルテ文書の内容を最も反映すると考えられる名詞のみを対象としている。各リストは、図４および図５に示すように、単語の通し番号を示す“Ｎｏ”の列、単語の表記を示す“表記”の列、単語の読みを示す“読み”の列と、単語の品詞を示す“品詞”の列及び単語の出現頻度を示す“出現頻度”の列から構成される。各リストは、出現頻度があらかじめ決めて置いたしきい値以上（図４および図５では閾値２以上）の単語のみで構成され、出現頻度が大きい順に並べられている。この結果、クラスタ１では図４に示す如く不整脈、心電図などn₁個の単語からなるリスト、クラスタ２では図５に示す如く胃粘膜、炎症などn₂個の単語からなるリストが得られている。

文脈辞書生成部２０２は、同様にして、残りのクラスタについても単語出現頻度リストを生成する。

文脈辞書生成部２０２は、上述のように生成したＣ個の単語出現頻度リストを各クラスタに対応する文脈辞書として出力し、
文脈辞書集合２０３に保存する。

次に、文脈辞書選択部２０５および文字列変換処理部２０６による入力予測処理を以下に説明する。

尚、入力予測処理とは、作成中のカルテ文書の入力確定済文字列に応じた文脈辞書を選択し、ユーザが入力中の文字列を認識して入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出し、表示装置１０４に表示させるという一連の処理である。

図６は、腹痛と嘔吐の症状を訴えて来院した患者の診察中に、表示装置１０４に表示されているカルテ文書の入力画面を示している。

図６によると、ユーザがカルテ文書の入力画面中の［主訴・現病歴］の欄に「昨夜より腹痛あり。今朝、朝食後に嘔吐。今も腹痛続く。」、［初診時特有情報］の欄に「既往歴：H8 胃潰瘍」、［生活習慣情報］の欄に「職業：会社員飲酒歴25年」と入力し、これらの入力が確定した後、さらにユーザが、［所見欄］に「急性胃炎の疑い」と入力しようとして入力装置１０３のキーボード（図示せず）から「きゅうせ」まで入力した時点で、予測候補として「急性胃炎」、「急性腹膜炎」、「急性虫垂炎」、「急性大腸炎」、「急性肝炎」、「急性膵炎」の６単語が表示された状態を示している。

文脈辞書選択部２０５は、ユーザからの入力文字列が確定するたびに、すでに入力確定済みの文字列を形態素解析し、名詞とその出現回数を取り出す。図６に示すケースでは、文脈辞書選択部２０５は、未確定文字列「きゅうせ」以前に入力確定した文字列から「昨夜」、「腹痛」（２回）、「今朝」、「朝食」、「嘔吐」、「既往歴」、「胃潰瘍」、「職業」、「会社員」および「飲酒歴」を抽出する。これは、文字入力中のカルテ文書から以下のように単語の出現頻度を重みとするベクトル（以下、文書ベクトルと記載する。）を生成していることに相当する。

(昨夜, 腹痛, 今朝, 朝食, 嘔吐, 既往歴, 胃潰瘍, 職業, 会社員, 飲酒歴)
= (1, 2, 1, 1, 1, 1, 1, 1, 1, 1)
次に、文脈辞書選択部２０５は、抽出した単語とその回数を各クラスタに対応する文脈辞書の“表記”の列に格納されている単語と“出現頻度”の列に格納されている出現頻度と照合する。具体的には、各文脈辞書の “出現頻度”の列に格納されている各単語の出現頻度を“表記”の列に格納されている対応する各単語の重みとする文書ベクトルをそのクラスタを代表する文書ベクトルとみなして、文字入力中のカルテ文書の文書ベクトルと各クラスタの文書ベクトルとの間のコサイン類似度Ｓを求める。即ち、次式（数１）に示すように両者に共に出現する単語の出現頻度を掛け合わせて加算し、これを２つのベクトルのノルムの積で除算する。

d : 現在入力中の文書を表す文書ベクトル

Di ：i番目のクラスタを代表する文書ベクトル

(d∩Di) : dとDiに共通して現れる単語の集合

W(d,w) : ベクトルdにおける単語wの重み（出現頻度）

W(Di,w) : ベクトルDiにおける単語wの重み（出現頻度）

文脈辞書選択部２０５は、Ｃ個の文脈辞書との類似度Ｓを算出し、類似度Ｓが最大である文脈辞書を抽出し、かかる文脈辞書を、出現する単語の傾向が最も似通ったクラスタの文脈辞書として選択する。図６のケースでは、主として消化器疾患のカルテ文書から構成されるクラスタ２をもっとも類似するクラスタとして選択する。

なお、文脈辞書の選択は、使用するＰＣ等の計算機で処理可能な範囲内で、文字列が新たに入力確定されるたび随時行うことができる。ただし、新規文書作成直後など、入力確定文字列が極端に少ない場合には、精度よく文脈辞書の選択を行うことが難しい。そのため、入力確定文字列が一定文字数（あるいは一定単語数）に満たない場合には、あえて文脈辞書の選択を行わない、としてもよい。

文字列変換処理部２０６は、文字入力中の読み文字列を認識してユーザが入力しようとしている文字列を予測する。そして、文脈辞書判定部２０５によって選択された文脈辞書から予測候補を抽出し、出力部２０７に表示させる。

図６のケースでは、文字列変換処理部２０６は、文脈辞書選択部２０５によって選ばれたクラスタ２の文脈辞書から、読みが入力中の読み文字列「きゅうせ」に前方一致する語「急性胃炎」「急性腹膜炎」「急性虫垂炎」…を抽出し、出現頻度の高い順に予測候補として出力部２０７を介してカルテ入力画面に表示させる。

尚、一般的な入力予測方法の詳細は、例えば特開平7-334499や特開平09-274613に開示されている。

図７は、ＣＰＵ１０２によって実行される文字入力装置のプログラムのフローチャートを示している。

ステップＳ３０１では、文脈辞書生成部２０２が、上述の如く文書集合に保存されている文書カルテに基づいて文脈辞書を生成し、文脈辞書集合２０３へ出力する。

ステップＳ３０２では、入力部２０４がユーザから文字列が入力されたかどうかを判定し、文字入力があれば、ステップＳ３０３へ進み、そうでなければ文字入力があるま待機する。

ステップＳ３０３では、文脈辞書選択部２０５が、入力中の文書の内容や文脈に応じて最適な文脈辞書を文脈辞書集合２０３から選択する。

ステップＳ３０４では、文字列変換処理部２０６が、ユーザからの入力文字列に基づいて、ユーザの入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出する。

ステップＳ３０５では、出力部２０７が、ユーザの入力希望文字列の予測候補を表示装置１０４に表示させる。

以上のように、本発明の文字入力装置１００では、単一の文脈辞書から単語を抽出して頻度順に予測候補を構成する方法に比べ、文脈に適合した語を上位に提示することができ、操作性が大きく向上する。たとえば、読みが「きゅうせ」に前方一致する語は「急性〜」で始まる医学用語だけに限っても２００語以上あるため、入力したい語が上位に現れることはめったになく、ユーザは予測候補リストをスクロールして所望の語を探すか、さらに長い読みを入力して候補を絞り込むかする必要がある。

また、最適な文脈辞書を自動的に判定するため、あらかじめ分野ごとに複数の辞書を用意しておき、入力文書の分野をユーザが指示することにより辞書を使い分ける方式と比較すると、辞書選択のための指示操作が不要となる。

また、文脈辞書を既存のカルテ文書に基づいて動的に生成するという構成をとることにより、あらかじめ想定し得るすべての文脈辞書をシステムに用意しておくという方法の場合に発生する、ほとんど必要としない文脈辞書を保持しつづけなければならないという課題も発生しない。

尚、上記の例では文脈辞書と文書ベクトルにおける単語の重み付け尺度として単語の出現頻度ＴＦ(Term Frequency)を用いたが、各単語の重み付け尺度としては、これに限らず既存の各種尺度、たとえば語が少数の特定の文書に出現する度合いを表すＩＤＦ(Inverse Document Frequency)や、ＴＦとＩＤＦの積、など既存の各種尺度を用いることができる。

また、単語単位の出現頻度に加えて（もしくはこれに代わり）単語間の共起確率や連接確率等を採用することもできる。単語間の共起確率とは、ある２つ（もしくは３つ以上）の単語が同じ文書中にともに出現した回数を確率で表した数値であり、一般に共起確率が高いほどこれらの単語間の関連性が高いことを表す。また連接確率とは２つ（もしくは３つ以上）の単語が連続して出現する確率であり、この値が大きいほどこれらの単語が連続して出現する可能性が高いことを示す。これらの統計値を併用して文脈辞書を構成することにより、より適した文脈辞書判定の精度を向上することができ、単語間のつながりやすさを反映したより高精度な予測処理を行うことが可能となる。

さらに、選択した文脈辞書を用いて予測処理を行う際、文脈辞書の選択において類似度が最大となった文脈辞書１つだけを用いる代わりに、場合によっては上位ｋ個（ｋ＜Ｃ）の文脈辞書を併用してもよい（たとえば、文字入力中のカルテ文書との類似度があるしきい値以上となる文脈辞書が複数あればこれらを併用する。）。また、予測候補の漏れを防ぐために、適合した文脈辞書から抽出した語に全クラスタの文脈辞書から抽出した語を追加して予測候補を構成してもよい。

（実施例２）
上記実施例１で述べた電子カルテシステムにおいて、文脈辞書集合２０３に保存されている文脈辞書の更新が行われる場合について以下に説明する。

実施例１では電子カルテシステムの導入時点において既に存在していたＮ個のカルテ文書をＣ個のクラスタに分類することにより、心疾患、消化器疾患、呼吸器疾患、血液疾患など疾患群に対応するＣ個の文脈辞書を生成した。その後、例えば、この医療機関に糖尿病治療を専門とする医師が採用されたことにより、糖尿病の患者が増加し、カルテ文書の内容の傾向に変化が生じてきたとする。このような場合、初期導入時の文脈辞書では作成中の文書の内容や文脈に即した予測処理を十分に精度良く行うことができない。そこでカルテ文書のクラスタリングをやり直すことにより、最新のカルテ文書の傾向を反映したＣ’個のクラスタが得られ、これらに対応したＣ’個の文脈辞書が再構成される。糖尿病患者のカルテ文書が他の疾患群と比べ無視できない数であれば、Ｃ’個のクラスタの内の一つとして、主として糖尿病のカルテ文書から構成されるクラスタが得られ、これに対応した文脈辞書が生成される。これにより、初期導入時の文脈辞書では適切に予測処理を行えなかった糖尿病患者のカルテ文書への入力においても、予測処理の精度が向上する。

また、実運用においては、上述のような場合の他に、以下に示すような所定タイミングごとに文脈辞書の再構築を行うこととしてもよい。
（１）前回の文脈辞書生成から所定時間（日数）の経過後
（２）ユーザによる所定回数のカルテ文書へのアクセス(作成・編集・閲覧・受信等)後
また、タイミングを２段階設定しておき、第１のタイミングでは分類済みクラスタへの更新されたカルテ文書の追加と文脈辞書の生成のみを行い、第２のタイミングではクラスタリングからすべて行う、としてもよい。これは、クラスタリングには計算コストがかかることを考慮したものである。

さらに、文脈辞書の生成に十分な文書が確保できない場合、クラスタリング済みのカルテ文書をクエリとしてネットワーク上から類似カルテ文書を取得し、文脈辞書生成に用いることとしてもよい。

さらにまた、一般に大量の文書のクラスタリングは大きな計算コストがかかるため、例えばカルテ文書のクラスタリングは月に１回だけ行い、週に１回、その週に更新されたカルテ文書を前回生成したクラスタのいずれかに追加し、新たに追加されたカルテ文書内容を反映するように文脈辞書のみ生成し直す、という構成をとることもできる。

さらに、本実施形態では、カルテ文書に基づいて文脈辞書を動的に再構成するため、導入時点では想定し得なかった新たな内容の文脈辞書が必要となった場合であっても、（例えば、数年前のSARS（重症急性呼吸器症候群）のように新たな感染症が流行するケース、C型肝炎のように薬害による感染の可能性が明らかになり検査受診が急増するケースな
ど）文書集合に保存される新たな内容や種類のカルテ文書に基づいて新たに必要な文脈辞書を容易に生成することができる。

（実施例３）
本発明を手書き文字入力装置における文脈処理（文字認識後処理）に用いる場合について説明する。

この場合、ユーザが入力する入力文字列は手書き文字列であり、文脈辞書選択部２０５および文字列変換処理部２０６による入力予測処理は、手書き文字列を文字認識手段により文字認識し、さらにその結果得られた文字認識候補群から言語知識に基づいて適切な文字列候補を出力する処理に相当することとなる。

文字認識における後処理の方法は「特開2000-90201 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置（東京農工大）」や「特開平9-282420 文字パターン認識装置（日立）」などに記述されているように、文字間の連接確率を用いて最適な候補文字の組み合わせを求める方法が一般的であるが、以下に概要を説明する。

手書き入力文字列X={X₁, X₂, ..., X_N}に対する文字列候補C={C₁, C₂, ..., C_N}の文字列評価値L(C | X)を次式（数２）により求め、これを最大化する文字列候補を1位候補とする。

ここで、X₁, X₂, ..., X_Nは手書き入力文字列Xを構成する個々の手書き文字パターン、C₁, C₂, ..., C_Nはある文字列候補Cを構成する個々の文字を表し、S(X_i, C_i)は手書き文字パターンX_iから得られた認識候補文字C_iの類似度（認識スコア）、P(C_i+1| C_i)は文字C_iから文字C_i+1への連接確率、ｗは実験により定める重み定数を表す。

図８は、文字認識手段による連接確率に基づいて手書きで入力された文字列の認識処理を示す図である。

図８では、「本」「日」「は」「晴」の４文字が手書き入力され、「本」に対する認識候補文字として「本」「古」「布」、「日」に対する認識候補文字として「目」「日」「月」、のように各３文字ずつの候補文字が得られている。ここでいう文字認識後処理とは、これら３文字×４の候補文字の組み合わせによって得られる８１通りの候補文字列から、文字間の連接確率に基づいて最適な候補文字列を求める処理である。

一般的な文字認識後処理方法では、後処理に用いる文字間連接確率（文字バイグラム）をあらかじめ大量のテキストから求めておき、これを用いる。

これに対し本発明では、実施例１と同様に、導入時に既存のＮ個の文書をＣ個のクラスタに分類する。そして各クラスタに属する文書からＣ個の文字バイグラム辞書を生成し、これを各クラスタに対応する文脈辞書とする。そして、文脈辞書選択部２０５は、文字入力中の文書の内容から最適な文脈辞書を選択する。続いて、文字列変換処理部２０６が、選択された文脈辞書を用いて文字認識後処理を行う。これにより、単一の汎用的な文字バイグラム辞書を用いるよりも文脈にふさわしい高精度な後処理結果が得られる。

また、実施例２と同様、所定のタイミングで文脈辞書の再構成を行うため、入力文書の傾向が変化しても適切な文字認識後処理を行うことが可能である。

尚、このケースでは、文脈辞書選択部２０５における文脈辞書選択処理において、実施例１のときのように単語単位の出現頻度を用いる代わりに、文字入力中の文書からも文字バイグラムを抽出し、各クラスタの文字バイグラム辞書との一致度から最適な辞書を選択することも可能である。ただし、各クラスタの単語出現頻度も別途求めておいて、実施例１と同様に単語の出現傾向に基づいて文脈辞書の選択を行う構成とすることもできる。

尚、本発明は上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。

本発明の実施形態の一つである文書入力装置の構成を示す図である。本発明の実施形態の一つである文書入力装置の機能ブロックを示す図である。文脈辞書生成部２０２によるカルテ文書のクラスタ分類を示す図である。文脈辞書生成部２０２により生成された単語出現頻度リストの例を示す図である。文脈辞書生成部２０２により生成された単語出現頻度リストの例を示す図である。カルテ文書への入力画面を示す図である。文字入力装置プログラムのフローチャートを示す図である。文字認識手段による手書き文字列の認識処理を示す図である。

符号の説明

１００文字入力装置
２０１文書集合
２０２文脈辞書生成部
２０３文脈辞書集合
２０４入力部
２０５文脈辞書選択部
２０６文字列変換処理部
２０７出力部

Claims

入力情報を文字列に変換することにより文字入力を行う文字入力装置において、
入力情報を文字列に変換するときに使用する１又は２以上の文脈辞書と、
文字入力中の文書の内容に基づいて、前記１又は２以上の文脈辞書から使用すべき文脈辞書を選択する文脈辞書選択手段と、
選択された文脈辞書に基づいて入力情報を文字列に変換する文字列変換手段と、
を備えたことを特徴とする文字入力装置。
１又は２以上の文書からなる文書集合に基づいて、前記１又は２以上の文脈辞書を生成する文脈辞書生成手段を、
備えることを特徴とする請求項１記載の文字入力装置。
前記文字列変換手段は、前記入力情報に基づいてユーザが入力を希望
する１又は２以上の文字列候補を、前記選択された文脈辞書から抽出して表示させる
文字列候補表示手段を、
備えることを特徴とする請求項１又は２に記載の文字入力装置。
前記文脈辞書生成手段は、
前記文書集合に対してクラスタリング処理を行うことにより１又は２以上のクラスタを生成し、前記各文書を該１又は２以上のクラスタの何れかに分類する文書分類手段と、
前記各クラスタに属する１又は２以上の文書から各文書の内容を反映する言語的な特徴を抽出する第１の言語特徴抽出手段と、
抽出された特徴に基づいて前記各クラスタごとに文脈辞書を出力する文脈辞書出力手段と、
を備えることを特徴とする請求項２又は３に記載の文字入力装置。
前記文脈辞書選択手段は、
前記文字入力中の文書の内容を反映した言語的な特徴を抽出する第２の言語特徴抽出手段と、
抽出された言語的な特徴と前記各クラスタに対応する前記各文脈辞書の言語的な特徴との類似度を算出する類似度算出手段と、
算出された類似度が所定値以上であるクラスタの文脈辞書を抽出し、使用すべき文脈辞書として出力する文脈辞書抽出手段と、
を備えることを特徴とする請求項４に記載の文字入力装置。
前記文字列候補表示手段は、前記選択された文脈辞書から該文脈辞書の言語的な特徴に応じて前記文字列候補を抽出して表示させることを特徴とする請求項４又は５に記載の文字入力装置。
前記文脈辞書生成手段は、所定のタイミングで前記１又は２以上の文脈辞書の再生成を行う文脈辞書更新手段、を備えることを特徴とする請求項２乃至６の何れかに記載の文字入力装置。
前記請求項１乃至７の何れか一項に記載された各手段の機能をコンピュータに付与する文字入力装置プログラム。