[go: up one dir, main page]

JP2007034871A - 文字入力装置および文字入力装置プログラム - Google Patents

文字入力装置および文字入力装置プログラム Download PDF

Info

Publication number
JP2007034871A
JP2007034871A JP2005219916A JP2005219916A JP2007034871A JP 2007034871 A JP2007034871 A JP 2007034871A JP 2005219916 A JP2005219916 A JP 2005219916A JP 2005219916 A JP2005219916 A JP 2005219916A JP 2007034871 A JP2007034871 A JP 2007034871A
Authority
JP
Japan
Prior art keywords
context dictionary
context
document
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005219916A
Other languages
English (en)
Inventor
Akira Nakamura
明 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2005219916A priority Critical patent/JP2007034871A/ja
Publication of JP2007034871A publication Critical patent/JP2007034871A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することを目的とする。
【解決手段】文脈辞書生成部202が、文書集合に保存されている文書に基づいて文脈辞書を生成し、文脈辞書集合203へ出力する。入力部204がユーザから文字列が入力されたかどうかを判定する。文脈辞書選択部205が、入力中の文書の内容や文脈に応じて最適な文脈辞書を文脈辞書集合203から選択する。文字列変換処理部206が、ユーザからの入力文字列に基づいて、ユーザの入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出する。出力部207が、ユーザの入力希望文字列の予測候補を表示装置104に表示させる。
【選択図】図2

Description

本発明は、パーソナルコンピュータのワードプロセッサ機能等で文字を入力して文書を作成するための文字入力装置や文字入力装置プログラムに関する。
近年、パーソナルコンピュータ等のワードプロセッサ機能を用いた文書作成の機会が増加してきている。例えば、従来のビジネス文書や論文等の文書作成の機会に加えて、新たに病院等の医療機関において電子カルテ等が導入されてきたため、医者や看護士による文書作成の機会が増加してきている。
このような状況の中で、キーボード操作に熟練していない人でも、少ないキータッチで情報を正確に入力できるといったユーザの情報入力に関わる負担を軽減することが望まれている。
かかる要請に対する一つの解決方法として、文字列の先頭の“読み”が入力されると、それをキーワードとして、ユーザが望むと思われる文字列を辞書から検索して提示することにより、ユーザの入力負担を軽減する方法が提案されている。
しかしながら、この方法では、単純な辞書に登録されている単語や表現等から、例えば、その“読み”から始まる文字列を単に抽出して提示するだけであるため、辞書に登録されている単語や表現等が増えるに連れ、予測候補が大量に提示されることとなり、その中から所望の候補を探して指定するという操作がかえって繁雑になってしまうという問題がある。
このような問題を解決する方法の一つが以下の特許文献1に記載されている。この特許文献1では、携帯電話のメール機能でメールを作成する場合やその他のアプリケーションで文字入力を行う際に、ユーザの文字入力の負担を軽減するため、辞書を複数備え、携帯電話で使用するアプリケーションや文字入力を行う位置の属性(例えば、メール作成の場合のあて先記入欄)に応じて使用する辞書を切り替える(メールのあて先記入欄に記入する場合は、名前辞書を優先する)という方法が提案されている。 しかしながら、この方法では、例えば、パーソナルコンピュータのワードプロセッサ機能により単一のアプリケーション上で文字入力を行い、文書を作成するような場合には、依然として上記課題を解決することができない。
特開2001-325252号
そこで、本発明は、パーソナルコンピュータのワードプロセッサ機能等を利用して文書を作成する場合において、ユーザが文字列を入力する際に、作成中の文書の内容に即して、ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、その結果、ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することを目的とする。
本発明に係る文書入力装置は、ユーザが入力した入力情報を文字列に変換することにより文字入力を行う文字入力装置であって、入力情報を文字列に変換するときに使用する1又は2以上の文脈辞書を備え、文脈辞書選択手段が、文字入力中の文書の内容に基づいて、前記1又は2以上の文脈辞書から使用すべき文脈辞書を選択する。そして、文字列変換手段が、選択された文脈辞書に基づいて入力情報を文字列に変換する。
尚、文脈辞書が1つのみである場合には、文脈辞書選択手段は、必然的にかかる1つの文脈辞書を選択することとなる。
本発明によると、文脈辞書選択手段が、文字入力中の文書のうち入力が確定した文字列の内容に基づいて使用すべき文脈辞書を選択する。したがって、文字入力中の文書を作成するのに適した文脈辞書が選択されるため、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担を軽減することができる。
さらに、入力中の文書内容から適切な文脈辞書が自動的に選択されるため、ユーザは、入力文書に適した文脈辞書を、自ら選択するという操作を行う必要がない。
また、本発明に係る文書入力装置は、文脈辞書生成手段が、1又は2以上の文書からなる文書集合に基づいて1又は2以上の文脈辞書を生成する。
本発明によると、文脈辞書生成手段が文書集合に基づいて、ユーザからの入力情報を文字列に変換するときに使用する1又は2以上の文脈辞書を生成する。したがって、文書入力装置の導入時点では、予め独立して複数の文脈辞書を準備しなくともよいこととなる。また、これまでに作成され保存されている文書集合に基づいて文脈辞書を生成するため、ユーザが頻繁に作成する文書の特性に適した文脈辞書が生成される。したがって、かかる文脈辞書を利用することにより、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。
また、本発明にかかる文字入力装置では、文字列変換手段が、入力情報に基づいてユーザが入力を希望する1又は2以上の文字列候補を、選択された文脈辞書から抽出して表示させる文字列候補表示手段を備える。
本発明によると、ユーザは文字列候補表示手段により表示される文字列候補から入力希望の文字列を選択できる。したがって、ユーザは希望の文字列を容易に入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。
また、本発明にかかる文書入力装置は、前記文脈辞書生成手段が、前記文書集合に対してクラスタリング処理を行うことにより、1又は2以上のクラスタを生成し、前記各文書を該1又は2以上のクラスタの何れかに分類する文書分類手段と、前記各クラスタに属する1又は2以上の文書から各文書の内容を反映する言語的な特徴を抽出する第1の言語特徴抽出手段と、抽出された特徴に基づいて前記各クラスタごとに文脈辞書を出力する文脈辞書出力手段と、を備える。
また、本発明にかかる文書入力装置では、前記文脈辞書選択手段は、前記文字入力中の文書の内容を反映した言語的な特徴を抽出する第2の言語特徴抽出手段と、抽出された言語的な特徴と前記各クラスタに対応する前記各文脈辞書の言語的な特徴との類似度を算出する類似度算出手段と、算出された類似度が最も高いクラスタの文脈辞書を抽出し、使用すべき文脈辞書として出力する文脈辞書抽出手段と、を備える。
上記2つの本発明によると、文書集合が、文書の特性に応じて適切にクラスタリングされ、各クラスタに適した文脈辞書が生成される。そして、ユーザが文字入力中の文書を作成する際には、その文書の特性からその文書への文字入力に適した文脈辞書が選択されることとなる。したって、このように選択された文脈辞書により、ユーザは希望の文字列を容易に入力することができる。
また、本発明にかかる文字入力装置では、文字列候補表示手段は、選択された文脈辞書から該文脈辞書の言語的な特徴に応じて文字列候補を抽出して表示させる。
本発明によると、文字列候補表示手段が、文脈辞書の言語的な特徴、例えば、文脈辞書に格納されている文字列の出現頻度等に応じて文字列候補を抽出して表示させる。このような構成とすることにより、ユーザが希望する文字列が文字列候補の上位に表示される。したがって、ユーザは希望の文字列を容易に選択して入力することができることとなり、ユーザの文字入力負担をさらに軽減することができる。
また、本発明にかかる文書入力装置では、前記文脈辞書生成手段において、文脈辞書更新手段が、所定のタイミングで文脈辞書の再生成を行う。
本発明によると、文脈辞書が所定期間毎に更新されるため、最適な文脈辞書を利用することができる。
また、新しい内容の文書が増えてきた場合には、この内容を反映した文脈辞書が生成される。したがって、例えば、当初は予定していなかった分野あるいは種類の文書を作成する場合であっても容易に対応することができる。
本発明にかかる文書入力装置プログラムは、前記請求項1乃至5の何れか一項に記載された各手段の機能をコンピュータに付与する文字入力装置のプログラム。
本発明によれば、パーソナルコンピュータのワードプロセッサ機能等を利用して文書を作成する場合に、ユーザが文字を入力する際には、作成中の文書の内容に即して、ユーザが入力を希望する単語や表現等の文字列を予測候補の上位に提示することができ、その結果ユーザが予測候補から所望の単語等を煩雑な操作なく選択することができる文書入力装置およびそのプログラムを提供することができる。
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。
ただし、以下の実施の形態は、あくまでも、本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。
(実施例1)
以下、本発明を病院や診療所等の医療機関で用いられる電子カルテシステムの入力予測処理に実施した形態につき、図面に沿って説明する。
図1は、本発明にかかる文字入力装置の一実施形態の構成図を示している。
図1に示す如く、文字入力装置100は、記憶装置101、CPU102、入力装置103および表示装置104からなる。
記憶装置101は、後述する文字入力装置100の機能を実行するためのプログラムを格納すると共に、かかる機能を実行する際に参照される各種テーブルや文書の電子ファイル(以下、単に文書と記載する)等を格納する。CPU102は、記憶装置101に格納された当該文字入力装置プログラムに従って処理を実行する。入力装置103は、ユーザが文字入力装置プログラムを実行させるときに必要な文字列等の情報を入力するために使用される。表示装置104は、ユーザにより入力される文字列等の情報やCPU102による文字入力装置プログラムの実行結果を表示する。
従って、本発明の文字入力装置100では、入力装置103からユーザにより文字列等の情報が入力されると、CPU102が、記憶装置101に格納されている文字入力装置プログラムを実行し、実行結果を表示装置104に表示すると共に、実行の結果作成された文書を記憶装置101に保存する。
図2は、文書入力装置100を構成する機能ブロック図を示している。機能ブロック図とは、文書入力装置100を、機能ごとに分類し、各機能を実現するブロックごとに表現した図である。
図2において、文字入力装置100は、これまでに作成された1又は2以上の文書からなる文書集合201、該文書集合201に基づいて後述する文脈辞書を生成する文脈辞書生成部202、1又は2以上の文脈辞書からなる文脈辞書集合203、入力装置103から入力された入力文字列を取得する入力部204、文脈辞書集合203のいずれの文脈辞書を使用するかを判定し、選択する文脈辞書選択部205、選択した文脈辞書を参照して入力文字列からユーザが希望する文字列を予測する文字列変換部206、予測されたユーザ希望文字列の候補を表示装置104に表示させる、あるいは確定され入力文字列を文書として文書集合201に保存する出力部207から構成される。
尚、本実施形態では、文書集合201は病院や診療所等の医療機関で作成された複数の患者のカルテの電子ファイル(以下、カルテ文書と記載する。)からなるものとする。
文脈辞書生成部202は、複数のカルテ文書に基づいて、後述する文脈辞書を生成する。
具体的には、例えば、最初にN個(N=1,2,3,・・・)のカルテ文書が文書集合201に存在しているとする。文脈辞書生成部202は、まず、これらのN個のカルテ文書を例えばC個(C≦N、C=1,2,3,・・・)のクラスタに分類する。この結果、おおむねカルテの内容に応じたクラスタが形成される。
尚、このクラスタに分類する処理、即ち、クラスタリング処理には、既存の文書分類技術が適用できる。例えば、各文書を形態素解析してから文書ベクトルを生成し、これらの文書ベクトルに対してk-means法、Ward法などのクラスタリングアルゴリズムを適用することによって各文書をクラスタに分類することができる。
図3は、N個のカルテ文書がその内容に応じて、例えば、心疾患、消化器疾患、呼吸器疾患等の疾患群ごとにC個のクラスタに分類された状態を示している。ここで、クラスタの数である、Cは予め設定することとしてもよいし、文書辞書生成部202がカルテ文書の内容に応じて自動的に決定することとしてもよい。
尚、実際には、上述の如く厳密に疾患群ごとにクラスタが形成されるとは限らないが、各クラスタに属するカルテ文書の大半が関連する内容となっているような分類結果が得られていれば問題はない。
次に、文脈辞書生成部202は、各クラスタに属するカルテ文書から文書の内容を反映した言語的特徴を抽出し、各クラスタごとに後述の文脈辞書を生成する。
ここで、文書内容を反映した言語的特徴とは、例えば、
(1)各クラスタにおける単語単位の出現頻度または出現確率
(2)各クラスタにおける単語間の共起回数または共起確率
(3)各クラスタにおける文字単位の出現頻度または出現確率
(4)各クラスタにおける文字間の共起回数または共起確率
等である。
本実施形態では、文書内容を反映した言語的特徴として各クラスタにおける単語単位の出現頻度を用いる。
文脈辞書生成部202は、言語的特徴を抽出するために、まず各カルテ文書を単語単位に分割する処理(形態素解析)を行う(ただし、クラスタ分類の際に形態素解析が行われている場合には、再度、形態素解析は行わない。)。次に、
各クラスタに属するカルテ文書における単語単位の出現頻度を得るために、まず各カルテ文書の形態素解析結果を参照して、カルテ文書中に出現した単語とその出現回数をカウントする。そしてC個のクラスタそれぞれについて、各クラスタに属するカルテ文書中に出現した単語の出現回数を単語ごとに集計する。これにより、各クラスタごとの単語出現頻度リストが得られる。
例えば、図3におけるC個のクラスタのうち、主として心疾患のカルテ文書から構成されるクラスタをクラスタ1、主として消化器疾患のカルテ文書から構成されるクラスタをクラスタ2とする。
図4および図5はそれぞれ、上述した手順で生成したクラスタ1およびクラスタ2についての単語出現頻度リストを示している。ただし、ここでは、カルテ文書の内容をほとんど反映しないと考えられる助詞、助動詞、接続詞などの機能語はリストから除外し、効率よく辞書サイズを削減するためにカルテ文書の内容を最も反映すると考えられる名詞のみを対象としている。各リストは、図4および図5に示すように、単語の通し番号を示す“No”の列、単語の表記を示す“表記”の列、単語の読みを示す“読み”の列と、単語の品詞を示す“品詞”の列及び単語の出現頻度を示す“出現頻度”の列から構成される。各リストは、出現頻度があらかじめ決めて置いたしきい値以上(図4および図5では閾値2以上)の単語のみで構成され、出現頻度が大きい順に並べられている。この結果、クラスタ1では図4に示す如く不整脈、心電図などn1個の単語からなるリスト、クラスタ2では図5に示す如く胃粘膜、炎症などn2個の単語からなるリストが得られている。
文脈辞書生成部202は、同様にして、残りのクラスタについても単語出現頻度リストを生成する。
文脈辞書生成部202は、上述のように生成したC個の単語出現頻度リストを各クラスタに対応する文脈辞書として出力し、
文脈辞書集合203に保存する。
次に、文脈辞書選択部205および文字列変換処理部206による入力予測処理を以下に説明する。
尚、入力予測処理とは、作成中のカルテ文書の入力確定済文字列に応じた文脈辞書を選択し、ユーザが入力中の文字列を認識して入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出し、表示装置104に表示させるという一連の処理である。
図6は、腹痛と嘔吐の症状を訴えて来院した患者の診察中に、表示装置104に表示されているカルテ文書の入力画面を示している。
図6によると、ユーザがカルテ文書の入力画面中の[主訴・現病歴]の欄に「昨夜より腹痛あり。今朝、朝食後に嘔吐。今も腹痛続く。」、[初診時特有情報]の欄に「既往歴:H8 胃潰瘍」、[生活習慣情報]の欄に「職業:会社員 飲酒歴25年」と入力し、これらの入力が確定した後、さらにユーザが、[所見欄]に「急性胃炎の疑い」と入力しようとして入力装置103のキーボード(図示せず)から「きゅうせ」まで入力した時点で、予測候補として「急性胃炎」、「急性腹膜炎」、「急性虫垂炎」、「急性大腸炎」、「急性肝炎」、「急性膵炎」の6単語が表示された状態を示している。
文脈辞書選択部205は、ユーザからの入力文字列が確定するたびに、すでに入力確定済みの文字列を形態素解析し、名詞とその出現回数を取り出す。図6に示すケースでは、文脈辞書選択部205は、未確定文字列「きゅうせ」以前に入力確定した文字列から「昨夜」、「腹痛」(2回)、「今朝」、「朝食」、「嘔吐」、「既往歴」、「胃潰瘍」、「職業」、「会社員」および「飲酒歴」を抽出する。これは、文字入力中のカルテ文書から以下のように単語の出現頻度を重みとするベクトル(以下、文書ベクトルと記載する。)を生成していることに相当する。

(昨夜, 腹痛, 今朝, 朝食, 嘔吐, 既往歴, 胃潰瘍, 職業, 会社員, 飲酒歴)
= (1, 2, 1, 1, 1, 1, 1, 1, 1, 1)
次に、文脈辞書選択部205は、抽出した単語とその回数を各クラスタに対応する文脈辞書の“表記”の列に格納されている単語と“出現頻度”の列に格納されている出現頻度と照合する。具体的には、各文脈辞書の “出現頻度”の列に格納されている各単語の出現頻度を“表記”の列に格納されている対応する各単語の重みとする文書ベクトルをそのクラスタを代表する文書ベクトルとみなして、文字入力中のカルテ文書の文書ベクトルと各クラスタの文書ベクトルとの間のコサイン類似度Sを求める。即ち、次式(数1)に示すように両者に共に出現する単語の出現頻度を掛け合わせて加算し、これを2つのベクトルのノルムの積で除算する。
Figure 2007034871
d : 現在入力中の文書を表す文書ベクトル

Di :i番目のクラスタを代表する文書ベクトル

(d∩Di) : dとDiに共通して現れる単語の集合

W(d,w) : ベクトルdにおける単語wの重み(出現頻度)

W(Di,w) : ベクトルDiにおける単語wの重み(出現頻度)

文脈辞書選択部205は、C個の文脈辞書との類似度Sを算出し、類似度Sが最大である文脈辞書を抽出し、かかる文脈辞書を、出現する単語の傾向が最も似通ったクラスタの文脈辞書として選択する。図6のケースでは、主として消化器疾患のカルテ文書から構成されるクラスタ2をもっとも類似するクラスタとして選択する。
なお、文脈辞書の選択は、使用するPC等の計算機で処理可能な範囲内で、文字列が新たに入力確定されるたび随時行うことができる。ただし、新規文書作成直後など、入力確定文字列が極端に少ない場合には、精度よく文脈辞書の選択を行うことが難しい。そのため、入力確定文字列が一定文字数(あるいは一定単語数)に満たない場合には、あえて文脈辞書の選択を行わない、としてもよい。
文字列変換処理部206は、文字入力中の読み文字列を認識してユーザが入力しようとしている文字列を予測する。そして、文脈辞書判定部205によって選択された文脈辞書から予測候補を抽出し、出力部207に表示させる。
図6のケースでは、文字列変換処理部206は、文脈辞書選択部205によって選ばれたクラスタ2の文脈辞書から、読みが入力中の読み文字列「きゅうせ」に前方一致する語「急性胃炎」「急性腹膜炎」「急性虫垂炎」…を抽出し、出現頻度の高い順に予測候補として出力部207を介してカルテ入力画面に表示させる。
尚、一般的な入力予測方法の詳細は、例えば特開平7-334499や特開平09-274613に開示されている。
図7は、CPU102によって実行される文字入力装置のプログラムのフローチャートを示している。
ステップS301では、文脈辞書生成部202が、上述の如く文書集合に保存されている文書カルテに基づいて文脈辞書を生成し、文脈辞書集合203へ出力する。
ステップS302では、入力部204がユーザから文字列が入力されたかどうかを判定し、文字入力があれば、ステップS303へ進み、そうでなければ文字入力があるま待機する。
ステップS303では、文脈辞書選択部205が、入力中の文書の内容や文脈に応じて最適な文脈辞書を文脈辞書集合203から選択する。
ステップS304では、文字列変換処理部206が、ユーザからの入力文字列に基づいて、ユーザの入力希望文字列を予測し、選択された文脈辞書から予測候補を抽出する。
ステップS305では、出力部207が、ユーザの入力希望文字列の予測候補を表示装置104に表示させる。
以上のように、本発明の文字入力装置100では、単一の文脈辞書から単語を抽出して頻度順に予測候補を構成する方法に比べ、文脈に適合した語を上位に提示することができ、操作性が大きく向上する。たとえば、読みが「きゅうせ」に前方一致する語は「急性〜」で始まる医学用語だけに限っても200語以上あるため、入力したい語が上位に現れることはめったになく、ユーザは予測候補リストをスクロールして所望の語を探すか、さらに長い読みを入力して候補を絞り込むかする必要がある。
また、最適な文脈辞書を自動的に判定するため、あらかじめ分野ごとに複数の辞書を用意しておき、入力文書の分野をユーザが指示することにより辞書を使い分ける方式と比較すると、辞書選択のための指示操作が不要となる。
また、文脈辞書を既存のカルテ文書に基づいて動的に生成するという構成をとることにより、あらかじめ想定し得るすべての文脈辞書をシステムに用意しておくという方法の場合に発生する、ほとんど必要としない文脈辞書を保持しつづけなければならないという課題も発生しない。
尚、上記の例では文脈辞書と文書ベクトルにおける単語の重み付け尺度として単語の出現頻度TF(Term Frequency)を用いたが、各単語の重み付け尺度としては、これに限らず既存の各種尺度、たとえば語が少数の特定の文書に出現する度合いを表すIDF(Inverse Document Frequency)や、TFとIDFの積、など既存の各種尺度を用いることができる。
また、単語単位の出現頻度に加えて(もしくはこれに代わり)単語間の共起確率や連接確率等を採用することもできる。単語間の共起確率とは、ある2つ(もしくは3つ以上)の単語が同じ文書中にともに出現した回数を確率で表した数値であり、一般に共起確率が高いほどこれらの単語間の関連性が高いことを表す。また連接確率とは2つ(もしくは3つ以上)の単語が連続して出現する確率であり、この値が大きいほどこれらの単語が連続して出現する可能性が高いことを示す。これらの統計値を併用して文脈辞書を構成することにより、より適した文脈辞書判定の精度を向上することができ、単語間のつながりやすさを反映したより高精度な予測処理を行うことが可能となる。
さらに、選択した文脈辞書を用いて予測処理を行う際、文脈辞書の選択において類似度が最大となった文脈辞書1つだけを用いる代わりに、場合によっては上位k個(k<C)の文脈辞書を併用してもよい(たとえば、文字入力中のカルテ文書との類似度があるしきい値以上となる文脈辞書が複数あればこれらを併用する。)。また、予測候補の漏れを防ぐために、適合した文脈辞書から抽出した語に全クラスタの文脈辞書から抽出した語を追加して予測候補を構成してもよい。

(実施例2)
上記実施例1で述べた電子カルテシステムにおいて、文脈辞書集合203に保存されている文脈辞書の更新が行われる場合について以下に説明する。
実施例1では電子カルテシステムの導入時点において既に存在していたN個のカルテ文書をC個のクラスタに分類することにより、心疾患、消化器疾患、呼吸器疾患、血液疾患など疾患群に対応するC個の文脈辞書を生成した。その後、例えば、この医療機関に糖尿病治療を専門とする医師が採用されたことにより、糖尿病の患者が増加し、カルテ文書の内容の傾向に変化が生じてきたとする。このような場合、初期導入時の文脈辞書では作成中の文書の内容や文脈に即した予測処理を十分に精度良く行うことができない。そこでカルテ文書のクラスタリングをやり直すことにより、最新のカルテ文書の傾向を反映したC’個のクラスタが得られ、これらに対応したC’個の文脈辞書が再構成される。糖尿病患者のカルテ文書が他の疾患群と比べ無視できない数であれば、C’個のクラスタの内の一つとして、主として糖尿病のカルテ文書から構成されるクラスタが得られ、これに対応した文脈辞書が生成される。これにより、初期導入時の文脈辞書では適切に予測処理を行えなかった糖尿病患者のカルテ文書への入力においても、予測処理の精度が向上する。
また、実運用においては、上述のような場合の他に、以下に示すような所定タイミングごとに文脈辞書の再構築を行うこととしてもよい。
(1)前回の文脈辞書生成から所定時間(日数)の経過後
(2)ユーザによる所定回数のカルテ文書へのアクセス(作成・編集・閲覧・受信等)後
また、タイミングを2段階設定しておき、第1のタイミングでは分類済みクラスタへの更新されたカルテ文書の追加と文脈辞書の生成のみを行い、第2のタイミングではクラスタリングからすべて行う、としてもよい。これは、クラスタリングには計算コストがかかることを考慮したものである。
さらに、文脈辞書の生成に十分な文書が確保できない場合、クラスタリング済みのカルテ文書をクエリとしてネットワーク上から類似カルテ文書を取得し、文脈辞書生成に用いることとしてもよい。
さらにまた、一般に大量の文書のクラスタリングは大きな計算コストがかかるため、例えばカルテ文書のクラスタリングは月に1回だけ行い、週に1回、その週に更新されたカルテ文書を前回生成したクラスタのいずれかに追加し、新たに追加されたカルテ文書内容を反映するように文脈辞書のみ生成し直す、という構成をとることもできる。
さらに、本実施形態では、カルテ文書に基づいて文脈辞書を動的に再構成するため、導入時点では想定し得なかった新たな内容の文脈辞書が必要となった場合であっても、(例えば、数年前のSARS(重症急性呼吸器症候群)のように新たな感染症が流行するケース、C型肝炎のように薬害による感染の可能性が明らかになり検査受診が急増するケースな
ど)文書集合に保存される新たな内容や種類のカルテ文書に基づいて新たに必要な文脈辞書を容易に生成することができる。

(実施例3)
本発明を手書き文字入力装置における文脈処理(文字認識後処理)に用いる場合について説明する。
この場合、ユーザが入力する入力文字列は手書き文字列であり、文脈辞書選択部205および文字列変換処理部206による入力予測処理は、手書き文字列を文字認識手段により文字認識し、さらにその結果得られた文字認識候補群から言語知識に基づいて適切な文字列候補を出力する処理に相当することとなる。
文字認識における後処理の方法は「特開2000-90201 バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置(東京農工大)」や「特開平9-282420 文字パターン認識装置(日立)」などに記述されているように、文字間の連接確率を用いて最適な候補文字の組み合わせを求める方法が一般的であるが、以下に概要を説明する。
手書き入力文字列X={X1, X2, ..., XN}に対する文字列候補C={C1, C2, ..., CN}の文字列評価値L(C | X)を次式(数2)により求め、これを最大化する文字列候補を1位候補とする。
Figure 2007034871
ここで、X1, X2, ..., XNは手書き入力文字列Xを構成する個々の手書き文字パターン、C1, C2, ..., CNはある文字列候補Cを構成する個々の文字を表し、S(Xi, Ci)は手書き文字パターンXiから得られた認識候補文字Ciの類似度(認識スコア)、P(Ci+1 | Ci)は文字Ciから文字Ci+1への連接確率、wは実験により定める重み定数を表す。
図8は、文字認識手段による連接確率に基づいて手書きで入力された文字列の認識処理を示す図である。
図8では、「本」「日」「は」「晴」の4文字が手書き入力され、「本」に対する認識候補文字として「本」「古」「布」、「日」に対する認識候補文字として「目」「日」「月」、のように各3文字ずつの候補文字が得られている。ここでいう文字認識後処理とは、これら3文字×4の候補文字の組み合わせによって得られる81通りの候補文字列から、文字間の連接確率に基づいて最適な候補文字列を求める処理である。
一般的な文字認識後処理方法では、後処理に用いる文字間連接確率(文字バイグラム)をあらかじめ大量のテキストから求めておき、これを用いる。
これに対し本発明では、実施例1と同様に、導入時に既存のN個の文書をC個のクラスタに分類する。そして各クラスタに属する文書からC個の文字バイグラム辞書を生成し、これを各クラスタに対応する文脈辞書とする。そして、文脈辞書選択部205は、文字入力中の文書の内容から最適な文脈辞書を選択する。続いて、文字列変換処理部206が、選択された文脈辞書を用いて文字認識後処理を行う。これにより、単一の汎用的な文字バイグラム辞書を用いるよりも文脈にふさわしい高精度な後処理結果が得られる。
また、実施例2と同様、所定のタイミングで文脈辞書の再構成を行うため、入力文書の傾向が変化しても適切な文字認識後処理を行うことが可能である。
尚、このケースでは、文脈辞書選択部205における文脈辞書選択処理において、実施例1のときのように単語単位の出現頻度を用いる代わりに、文字入力中の文書からも文字バイグラムを抽出し、各クラスタの文字バイグラム辞書との一致度から最適な辞書を選択することも可能である。ただし、各クラスタの単語出現頻度も別途求めておいて、実施例1と同様に単語の出現傾向に基づいて文脈辞書の選択を行う構成とすることもできる。
尚、本発明は上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。

本発明の実施形態の一つである文書入力装置の構成を示す図である。 本発明の実施形態の一つである文書入力装置の機能ブロックを示す図である。 文脈辞書生成部202によるカルテ文書のクラスタ分類を示す図である。 文脈辞書生成部202により生成された単語出現頻度リストの例を示す図である。 文脈辞書生成部202により生成された単語出現頻度リストの例を示す図である。 カルテ文書への入力画面を示す図である。 文字入力装置プログラムのフローチャートを示す図である。 文字認識手段による手書き文字列の認識処理を示す図である。
符号の説明
100 文字入力装置
201 文書集合
202 文脈辞書生成部
203 文脈辞書集合
204 入力部
205 文脈辞書選択部
206 文字列変換処理部
207 出力部

Claims (8)

  1. 入力情報を文字列に変換することにより文字入力を行う文字入力装置において、
    入力情報を文字列に変換するときに使用する1又は2以上の文脈辞書と、
    文字入力中の文書の内容に基づいて、前記1又は2以上の文脈辞書から使用すべき文脈辞書を選択する文脈辞書選択手段と、
    選択された文脈辞書に基づいて入力情報を文字列に変換する文字列変換手段と、
    を備えたことを特徴とする文字入力装置。
  2. 1又は2以上の文書からなる文書集合に基づいて、前記1又は2以上の文脈辞書を生成する文脈辞書生成手段を、
    備えることを特徴とする請求項1記載の文字入力装置。
  3. 前記文字列変換手段は、前記入力情報に基づいてユーザが入力を希望
    する1又は2以上の文字列候補を、前記選択された文脈辞書から抽出して表示させる
    文字列候補表示手段を、
    備えることを特徴とする請求項1又は2に記載の文字入力装置。
  4. 前記文脈辞書生成手段は、
    前記文書集合に対してクラスタリング処理を行うことにより1又は2以上のクラスタを生成し、前記各文書を該1又は2以上のクラスタの何れかに分類する文書分類手段と、
    前記各クラスタに属する1又は2以上の文書から各文書の内容を反映する言語的な特徴を抽出する第1の言語特徴抽出手段と、
    抽出された特徴に基づいて前記各クラスタごとに文脈辞書を出力する文脈辞書出力手段と、
    を備えることを特徴とする請求項2又は3に記載の文字入力装置。
  5. 前記文脈辞書選択手段は、
    前記文字入力中の文書の内容を反映した言語的な特徴を抽出する第2の言語特徴抽出手段と、
    抽出された言語的な特徴と前記各クラスタに対応する前記各文脈辞書の言語的な特徴との類似度を算出する類似度算出手段と、
    算出された類似度が所定値以上であるクラスタの文脈辞書を抽出し、使用すべき文脈辞書として出力する文脈辞書抽出手段と、
    を備えることを特徴とする請求項4に記載の文字入力装置。
  6. 前記文字列候補表示手段は、前記選択された文脈辞書から該文脈辞書の言語的な特徴に応じて前記文字列候補を抽出して表示させることを特徴とする請求項4又は5に記載の文字入力装置。
  7. 前記文脈辞書生成手段は、所定のタイミングで前記1又は2以上の文脈辞書の再生成を行う文脈辞書更新手段、を備えることを特徴とする請求項2乃至6の何れかに記載の文字入力装置。
  8. 前記請求項1乃至7の何れか一項に記載された各手段の機能をコンピュータに付与する文字入力装置プログラム。
JP2005219916A 2005-07-29 2005-07-29 文字入力装置および文字入力装置プログラム Pending JP2007034871A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005219916A JP2007034871A (ja) 2005-07-29 2005-07-29 文字入力装置および文字入力装置プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005219916A JP2007034871A (ja) 2005-07-29 2005-07-29 文字入力装置および文字入力装置プログラム

Publications (1)

Publication Number Publication Date
JP2007034871A true JP2007034871A (ja) 2007-02-08

Family

ID=37794029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005219916A Pending JP2007034871A (ja) 2005-07-29 2005-07-29 文字入力装置および文字入力装置プログラム

Country Status (1)

Country Link
JP (1) JP2007034871A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265758A (ja) * 2008-04-22 2009-11-12 Hitachi Ltd 用語入力支援装置及び方法、並びにプログラム
JP2009288889A (ja) * 2008-05-27 2009-12-10 Sony Ericsson Mobilecommunications Japan Inc 文字入力装置、文字入力方法及びプログラム
JP2011145935A (ja) * 2010-01-15 2011-07-28 Hitachi Medical Corp 医用診断レポートシステム、当該システムとして機能させるためのプログラム、および医用診断レポート作成支援方法
JP2013541786A (ja) * 2010-11-01 2013-11-14 コーニンクレッカ フィリップス エヌ ヴェ テキスト入力の際の関連用語の提案
JP2014535110A (ja) * 2011-10-25 2014-12-25 グーグル・インコーポレーテッド ジェスチャベースの検索
JP2015507252A (ja) * 2011-12-12 2015-03-05 エンパイア テクノロジー ディベロップメント エルエルシー コンテンツベースの自動的な入力プロトコルの選択
JP2016012196A (ja) * 2014-06-27 2016-01-21 富士通株式会社 変換装置、変換プログラム、及び変換方法
JP2016066174A (ja) * 2014-09-24 2016-04-28 富士ゼロックス株式会社 辞書選択装置、文書変換システム、プログラム及び文書変換方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
JP6092462B2 (ja) * 2014-03-12 2017-03-08 株式会社東芝 電子機器、方法及びプログラム
JP2019179445A (ja) * 2018-03-30 2019-10-17 正晃テック株式会社 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム
CN110673748A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 输入法中候选长句的提供方法及装置
CN111665954A (zh) * 2019-03-06 2020-09-15 京瓷办公信息系统株式会社 字符输入装置和存储字符输入程序的非暂时性记录介质
JP2022525089A (ja) * 2019-04-10 2022-05-11 テンセント・アメリカ・エルエルシー 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
WO2025031608A1 (en) * 2023-08-08 2025-02-13 Goodnotes Limited Enhanced spell checking and auto-completion for text that is handwritten on a computer device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158969A (ja) * 1991-12-02 1993-06-25 Nec Corp 言語処理システム
JPH0683812A (ja) * 1992-08-31 1994-03-25 Omron Corp 文書入力装置のかな漢字変換装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158969A (ja) * 1991-12-02 1993-06-25 Nec Corp 言語処理システム
JPH0683812A (ja) * 1992-08-31 1994-03-25 Omron Corp 文書入力装置のかな漢字変換装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265758A (ja) * 2008-04-22 2009-11-12 Hitachi Ltd 用語入力支援装置及び方法、並びにプログラム
JP2009288889A (ja) * 2008-05-27 2009-12-10 Sony Ericsson Mobilecommunications Japan Inc 文字入力装置、文字入力方法及びプログラム
JP2011145935A (ja) * 2010-01-15 2011-07-28 Hitachi Medical Corp 医用診断レポートシステム、当該システムとして機能させるためのプログラム、および医用診断レポート作成支援方法
JP2013541786A (ja) * 2010-11-01 2013-11-14 コーニンクレッカ フィリップス エヌ ヴェ テキスト入力の際の関連用語の提案
US9886427B2 (en) 2010-11-01 2018-02-06 Koninklijke Philips N.V. Suggesting relevant terms during text entry
JP2014535110A (ja) * 2011-10-25 2014-12-25 グーグル・インコーポレーテッド ジェスチャベースの検索
US9348808B2 (en) 2011-12-12 2016-05-24 Empire Technology Development Llc Content-based automatic input protocol selection
JP2015507252A (ja) * 2011-12-12 2015-03-05 エンパイア テクノロジー ディベロップメント エルエルシー コンテンツベースの自動的な入力プロトコルの選択
KR101613155B1 (ko) * 2011-12-12 2016-04-18 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 콘텐트에 기초한 자동 입력 프로토콜 선택
US20160224687A1 (en) * 2011-12-12 2016-08-04 Empire Technology Development Llc Content-based automatic input protocol selection
JP6092462B2 (ja) * 2014-03-12 2017-03-08 株式会社東芝 電子機器、方法及びプログラム
JPWO2015136645A1 (ja) * 2014-03-12 2017-04-06 株式会社東芝 電子機器、方法及びプログラム
JP2016012196A (ja) * 2014-06-27 2016-01-21 富士通株式会社 変換装置、変換プログラム、及び変換方法
JP2016066174A (ja) * 2014-09-24 2016-04-28 富士ゼロックス株式会社 辞書選択装置、文書変換システム、プログラム及び文書変換方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
JP2019179445A (ja) * 2018-03-30 2019-10-17 正晃テック株式会社 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム
JP7036378B2 (ja) 2018-03-30 2022-03-15 正晃テック株式会社 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム
CN111665954A (zh) * 2019-03-06 2020-09-15 京瓷办公信息系统株式会社 字符输入装置和存储字符输入程序的非暂时性记录介质
JP2022525089A (ja) * 2019-04-10 2022-05-11 テンセント・アメリカ・エルエルシー 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
JP7242889B2 (ja) 2019-04-10 2023-03-20 テンセント・アメリカ・エルエルシー 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
CN110673748A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 输入法中候选长句的提供方法及装置
WO2025031608A1 (en) * 2023-08-08 2025-02-13 Goodnotes Limited Enhanced spell checking and auto-completion for text that is handwritten on a computer device

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
US20090299977A1 (en) Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
US10847261B1 (en) Methods and systems for prioritizing comprehensive diagnoses
US20090259487A1 (en) Patient Data Mining
CN111984851B (zh) 医学资料搜索方法、装置、电子装置及存储介质
US20220223245A1 (en) Drug recommendation method, apparatus and system, electronic device and storage medium
JP2005189363A (ja) 質問応答システムおよびプログラム
JP2007034871A (ja) 文字入力装置および文字入力装置プログラム
US10936962B1 (en) Methods and systems for confirming an advisory interaction with an artificial intelligence platform
US11581094B2 (en) Methods and systems for generating a descriptor trail using artificial intelligence
Friedman et al. Natural language and text processing in biomedicine
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
US12087442B2 (en) Methods and systems for confirming an advisory interaction with an artificial intelligence platform
US20210134461A1 (en) Methods and systems for prioritizing comprehensive prognoses and generating an associated treatment instruction set
US20240028838A1 (en) Speech signal processing using artificial intelligence
JP7473314B2 (ja) 医療情報管理装置及び医療レポートのメタデータ付加方法
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备
CN113065355B (zh) 专业百科命名实体识别方法、系统及电子设备
Harkema et al. Information extraction from clinical records
CN113761899A (zh) 一种医疗文本生成方法、装置、设备及存储介质
JP7315165B2 (ja) 診断支援システム
US20240112765A1 (en) Method and system for clinical trials matching
JP2017134693A (ja) 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
JP4169618B2 (ja) テキスト情報管理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005