JP2003241790A

JP2003241790A - 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム

Info

Publication number: JP2003241790A
Application number: JP2002034973A
Authority: JP
Inventors: Yoshinori Tawara; 義則田原; Daisuke Tomota; 大輔友田; Kikuo Mitsubo; 喜久男三坪; Yoshinori Atake; 義徳阿竹
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-02-13
Filing date: 2002-02-13
Publication date: 2003-08-29
Also published as: US7299187B2; US20030154077A1

Abstract

(57)【要約】【課題】ユーザが発声する音声コマンドの認識率を向
上することができる音声コマンド処理システムを提供す
る。【解決手段】ユーザにより発声された音声コマンドが
予め登録されたグラマと一致しない場合には音声コマン
ドを文章として認識させる（ステップＳ３０５）。認識
された文章は、予め登録されたグラマとマッチングさせ
て類似度を算出する（ステップＳ３０７）。類似度が第
１のしきい値（ＴＨ１）より高い場合、コマンドを実行
し（ステップＳ３１５）、第１のしきい値（ＴＨ１）以
下で、第２のしきい値（ＴＨ２）より高い場合、コマン
ドをユーザ提示し、実行するコマンドを選択させる（Ｓ
３１９）。さらに第２のしきい値（ＴＨ２）以下の場合
にはコマンドの実行は行わない（ステップＳ３２１）。
また、一旦実行されたコマンドは、次回以降認証可能と
なるようにグラマに追加される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザの発声した
音声コマンドの認識率を向上することができる音声コマ
ンド処理システム等に関する。

【０００２】

【従来の技術】近年、多くのコンピュータ装置が様々な
箇所で使用されており、これらコンピュータ装置にデー
タを入力する入力手段も種々のものが存在する。例え
ば、複数の入力キーを備えたキーボード、モニタ上の任
意の点をポイントするマウス、感圧性の表面においてペ
ンを走らせることによりデータの入力を行うタッチパッ
ド、ユーザが発した言葉をマイクで拾い、音声データと
して入力する音声認識手段等を挙げることができる。こ
れら入力手段の中でも、音声入力手段では、ただ単に音
声を文字として認識する（ディクテーション）ことがで
きるだけではなく、ユーザが発声した音声コマンドを認
識することにより、アプリケーション等における所定動
作の実行を可能としている。すなわち、この音声入力手
段は、コンピュータ装置やアプリケーションのコマンド
操作をも音声で入力することができ、入力手段として特
に注目を集めている。

【０００３】ところで、この音声コマンドの音声認識に
おいては、コンピュータ装置に接続されたマイクを介し
て入力されたユーザの音声を、コンピュータ装置上で実
行される音声コマンド認識プログラムにて認識処理され
る。音声コマンドは、コンピュータ装置にて実行される
プログラミングの構文記述表記の１つであるＢＮ記法
（Backus-naur Form）により定義されており、音声コマ
ンド認識プログラムが予め定義されて登録された音声コ
マンドの文法（グラマ）と全く同じ音声コマンドを認識
したとき、指定されたアクションが実行される。すなわ
ち、ユーザは予め登録された音声コマンドを正確に発声
することで、希望するアクションを初めて実行させるこ
とが可能となっている。

【０００４】

【発明が解決しようとする課題】しかしながら、音声コ
マンドはアクション毎に定義されるため、その種類が非
常に多く、ユーザが全ての音声コマンドを正確に記憶し
て発声するのは困難である。また、コマンドをうろ覚え
のユーザは、登録されている正しい音声コマンドの代わ
りに、異なる不正な音声コマンドを発声してしまうこと
がある。特に日本語においては、１つの文章における語
順が比較的自由に入れ替わることから、ユーザがこのよ
うな不正な音声コマンドを発してしまう場合が多く存在
する。このように発声された不正な音声コマンドは、音
声コマンドとは認識されず、ユーザは指示したのにアク
ションが起こらないために不快を感じてしまう。それに
対して、ユーザが発声する音声コマンドを想定し、予め
登録しておく方法もある。しかし、登録しなければなら
ない音声コマンドは大量になってしまい、音声コマンド
の認識処理に時間がかかり、また認識率も低下する恐れ
がある。

【０００５】本発明は、上記のような技術的課題に基づ
いてなされたもので、ユーザが発声する音声コマンドの
自由度を高くし、音声コマンドの認識率を向上すること
ができる音声コマンド処理システム等を提供することを
主たる目的とする。

【０００６】

【課題を解決するための手段】かかる目的のもと、本発
明の音声コマンド処理システムは、ユーザが発声した音
声コマンドを処理する音声コマンド処理システムであっ
て、複数の実行可能なコマンドを予め登録する登録手段
と、ユーザにより発声された音声コマンドを取得する取
得手段と、取得手段により取得された音声コマンドが、
登録手段の登録コマンドのいずれかと一致するか否かを
判断する判断手段と、判断手段によりいずれの登録コマ
ンドとも一致しないと判断された場合、音声コマンドを
文章として解析し、登録コマンドと文章との類似度を算
出する算出手段とを備えたことを特徴とするものであ
る。本発明では、類似度を算出することにより、音声コ
マンドに近い登録されたコマンドを認識することが可能
となる。

【０００７】この音声コマンド処理システムは、算出手
段により算出された類似度が所定の範囲の値である登録
コマンドについて実行指示を行う実行指示手段をさらに
備えることができる。なお、類似度が第１の範囲の値で
ある複数の登録コマンドがある場合、または類似度が第
１の範囲より低い値に設定された第２の範囲の値である
１または複数の登録コマンドがある場合において、登録
コマンドをユーザに通知し、登録コマンドを実行するか
否かの判断をユーザに要求する要求手段をさらに備える
ものであってもよい。

【０００８】また、本発明はコンピュータ装置として捉
えることができる。本発明のコンピュータ装置は、ユー
ザが発声した音声コマンドを実行可能なコンピュータ装
置であって、コンピュータ装置において実行可能なコマ
ンドを登録する登録部と、ユーザが発声した音声コマン
ドを受け付け、音声コマンドを実行するための処理を行
う音声コマンド処理部と、音声コマンド処理部により受
け付けられた音声コマンドを文章として解析する音声認
識エンジンと、音声認識エンジンにより解析された文章
と、登録部の登録コマンドとを比較し、類似度を算出す
る類似度計算部とを備えたことを特徴とするものであ
る。

【０００９】このコンピュータ装置では、登録部の登録
コマンドの語句に類似する類似語句、および語句と類似
語句の共通性に基づいて設定されたスコアを登録するス
コアデータ登録部をさらに備え、類似度計算部は、スコ
アを基に類似度を算出するものであってもよい。また、
音声コマンド処理部は、類似度が所定のしきい値より高
い場合に、登録コマンドを実行することができる。

【００１０】さらに、本発明は音声コマンド処理方法と
して捉えることができる。本発明の音声コマンド処理方
法は、ユーザが発声した音声コマンドをコンピュータ装
置において実行するための音声コマンド処理方法であっ
て、ユーザの発声した音声コマンドを受け付けるステッ
プと、受け付けた音声コマンドを予め登録された登録コ
マンドとして認識可能か否かを判断するステップと、登
録コマンドとして認識不可能であると判断すると、音声
コマンドを文章として解析するステップと、類似度を算
出するため、解析された文章の語句と、登録コマンドの
語句とのマッチングを行うステップとを有することを特
徴とする方法である。

【００１１】この音声コマンド処理方法は、マッチング
された文章の語句と登録コマンドの語句との共通性に基
づいたスコアを算出するステップと、スコアから、文章
と登録コマンドとの類似度を算出するステップとをさら
に有することができる。この場合、類似度が所定の範囲
の値である音声コマンドを、文章と関連づけて登録コマ
ンドとして登録するステップをさらに有することができ
る。また、算出された類似度が所定の範囲の値である場
合、類似度が算出された登録コマンドを実行するステッ
プをさらに有することが可能である。その他、類似度が
第１の範囲の値である複数の登録コマンドがある場合、
または類似度が第１の範囲より低い値に設定された第２
の範囲の値である１または複数の登録コマンドがある場
合、の少なくとも１つに該当する場合、類似度が算出さ
れた登録コマンドをユーザに提示し、実行する登録コマ
ンドの選択を要求するステップをさらに有するものであ
ってもよい。

【００１２】また、本発明の音声コマンド処理方法は、
ユーザが発声した音声コマンドをコンピュータ装置にお
いて実行するための音声コマンド処理方法であって、ユ
ーザの発声した音声コマンドを文章として解析するステ
ップと、文章として解析された音声コマンド（Ｗ１）
と、予め登録された登録コマンド（Ｗ２）とを比較して
類似度Ｓ（Ｗ１,Ｗ２）を算出するステップとを有し、
類似度Ｓ（Ｗ１,Ｗ２）は、音声コマンドのｉ番目の単
語（ｗ１（ｉ））と登録コマンドのｊ番目の単語（ｗ２
（ｊ））との共通性に基づくスコア（ｓ）の合計を、類
似度計算に適用可能な単語の個数（Ｖｎ）で除した値に
より表されることを特徴とする方法である。なお、この
類似度Ｓ（Ｗ１,Ｗ２）を式で表現すると、Σｓ（ｗ１
_(i)、ｗ２_(j)）／Ｖｎとなる。

【００１３】この音声コマンド処理方法では、類似度Ｓ
（Ｗ１,Ｗ２）が第１のしきい値（ＴＨ１）より高い場
合、登録コマンドを実行するステップと、類似度Ｓ（Ｗ
１,Ｗ２）が第１のしきい値（ＴＨ１）より低く、且つ
類似度Ｓ（Ｗ１,Ｗ２）が第１のしきい値（ＴＨ１）よ
り低い値に設定された第２のしきい値（ＴＨ２）より高
い場合、登録コマンドをユーザに提示し、登録コマンド
を実行するか否かの判断の要求を行うステップとをさら
に有するものであってもよい。

【００１４】その他、本発明はユーザが発声した音声コ
マンドをコンピュータ装置等で実行させるためのプログ
ラムとして捉えることも可能である。

【００１５】

【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて本発明を詳細に説明する。図１は、本発明の
実施の形態におけるコンピュータ装置の構成を示す図で
ある。図１に示すコンピュータ装置１００は、ＯＡＤＧ
(Open Architecture Developer's Group)仕様に準拠し
て、所定のＯＳ(オペレーティング・システム)を搭載し
ている。コンピュータ装置１００は、ＣＰＵ（中央演算
処理部）１と、メモリ２と、画像を処理するグラフィッ
クチップ４とを備えており、それぞれホストブリッジ３
を介してＰＣＩバス１１に接続されている。なお、グラ
フィックチップ４を介し、イメージデータをユーザに提
示するためのＣＲＴ（ディスプレイ）５がデータの出力
手段の１つとしてコンピュータ装置１００に接続されて
いる。

【００１６】またコンピュータ装置１００は、ＰＣＩバ
ス１１に接続されたキーボード／マウスコントローラ６
を備えている。このキーボード／マウスコントローラ６
を介し、画面位置情報を入力するためのマウス７、キー
入力をサポートするキーボード８が、データの入力手段
としてコンピュータ装置１００に接続されている。

【００１７】さらにコンピュータ装置１００は、外部ネ
ットワークと接続するためのモデム／イーサネット（登
録商標）チップ１２と、ＭＯやＣＤ−ＲＯＭ等が接続可
能なスロット１４、１５を有するカードバスブリッジ１
３と、外部機器を接続するためのＵＳＢ１７と、ＨＤＤ
１８を有するＩＤＥコントローラ１９とを備えており、
それぞれＰＣＩバス１１に接続されている。またコンピ
ュータ装置１００は、ＰＣＩバス１１に接続し、音声信
号を処理するためのオーディオコントローラ２１と、オ
ーディオコントローラ２１に接続されたアンプ２２とを
備えている。なお、オーディオコントローラ２１を介
し、入力手段の１つとして外部の音を集音するマイク２
４が、コンピュータ装置１００に接続されている。ま
た、アンプ２２を介し、オーディオコントローラ２１か
らの音信号を音として出力するスピーカ２３が、コンピ
ュータ装置１００に接続されている。

【００１８】コンピュータ装置１００は、通常のパーソ
ナルコンピュータ（ＰＣ）やワークステーション、テレ
ビやＦＡＸ等の各種電気製品に組み込まれたコンピュー
タ、車両や航空機等に搭載されるコンピュータ（カーナ
ビゲーション・システム等）またはこれらの組み合わせ
によって実現可能である。ただし、図１において説明し
た構成要素は一例であり、本発明は、音声によるコマン
ドおよび文字情報の特定に関するものであるため、図１
に示した構成要素の全ては必須のものでない。また、図
１に示した構成要素以外の要素を含むものであってもよ
い。

【００１９】コンピュータ装置１００のＯＳとしては、
Ｗｉｎｄｏｗｓ（マイクロソフトの商標）、ＯＳ／２
（ＩＢＭの商標）、ＭａｃＯＳ（Ａｐｐｌｅ社の商
標）、などの、標準でＧＵＩマルチウインドウ環境をサ
ポートするものや、ＤＯＳなどのキャラクタ・ベース環
境のもの、さらにはＶｘＷｏｒｋｓ（ＷｉｎｄＲｉｖ
ｅｒＳｙｓｔｅｍｓ，Ｉｎｃ．の商標）等のリアルタ
イムＯＳ、その他ネットワークコンピュータに組み込ま
れたＯＳでも実現可能であり、特定のオペレーティング
・システム環境に限定されるものではない。

【００２０】図２は、コンピュータ装置１００における
音声コマンド処理システムの処理要素を示す機能ブロッ
ク図である。図２に示す音声コマンド処理システムは、
コマンド処理部２０１と、音声コマンド類似度計算部２
０３と、スコア計算用テーブル（スコアデータ登録部）
２０５と、音声認識エンジン２０７と、グラマ登録部２
０９と、辞書２１１と、アプリケーション２１３とを備
えている。

【００２１】コマンド処理部２０１は、アプリケーショ
ン２１３からコマンド情報を入手し、音声コマンド類似
度計算部２０３から渡された類似度に基づいて実行する
コマンドを特定する。音声コマンド類似度計算部２０３
は、認識された音声コマンドの文章と、グラマ登録部２
０９に登録されたコマンドのグラマとの類似度を、スコ
ア計算用テーブル２０５を用いて計算する。音声認識エ
ンジン２０７は、辞書２１１を用いて音声情報を解析
し、音声認識文字列である文章を出力する。グラマ登録
部２０９は、実行可能なコマンドをグラマとして登録す
る。辞書２１１は、音声コマンドに使用される単語を登
録する。

【００２２】アプリケーション２１３は、ワードプロセ
ッサ、プレゼンテーション用ソフトウェア、ウエブ・ブ
ラウザ等の文字情報を扱うことのできるソフトウェア
や、文字情報に変換可能な画像情報を扱うソフトウェア
であればよい。また、アプリケーション２１３は、コマ
ンド処理部２０１からの要求により指定されたコマンド
を実行する。

【００２３】なお、図２に示す機能ブロックは、論理的
機能ブロックであり、各々１つのまとまりを持ったハー
ドウェアやソフトウェアによって実現されることを意味
するのではなく、複合し、または共通したハードウェア
やソフトウェアによって実現可能である。

【００２４】以上述べたコンピュータ装置１００では、
アプリケーション２１３上の所定の動作を行うためユー
ザにより発声された音声コマンドが認識され、その音声
コマンドにより指定されたアクションが実行される。こ
こで、音声コマンドとは、コンピュータ装置１００のＯ
Ｓ（オペレーティング・システム）やアプリケーション
において所定の操作を音声を通じて実行するための指示
である。本実施の形態では、ユーザが発声した音声コマ
ンドが、予めグラマ登録部２０９に登録されたグラマと
完全に一致しなくても、その登録されたグラマにどの程
度類似しているか（類似度）を参照することで、音声コ
マンドを実行することが可能となる。以下、このような
音声コマンドの認識システムについて詳細を説明する。

【００２５】図３は、音声コマンド処理システムにおけ
る処理の流れを説明する図である。まず、コンピュータ
装置１００において、ユーザが発声した音声コマンド
が、グラマ登録部２０９に実行可能なコマンドとして登
録されたグラマと一致するか否かが判断される（ステッ
プＳ３０１）。具体的には、ユーザが発声した音声コマ
ンドがマイク２４を介して入力される。そして、その音
声コマンドが、グラマ登録部２０９に既に登録されてい
る実行可能なグラマとコマンド処理部２０１において比
較され、音声コマンドとグラマが完全に一致するか否か
が判断される。ステップＳ３０１において音声コマンド
が登録されたグラマのいずれかと一致すると判断される
と、そのコマンドをアプリケーション２１３において実
行し（ステップＳ３０３）、本処理を終了する。

【００２６】一方、ステップＳ３０１において、ユーザ
が発声した音声コマンドは、いずれのグラマとも一致し
ないと判断されると、その音声コマンドについてディク
テーションによる文章認識を行う（ステップＳ３０
５）。ディクテーションとは、音声認識エンジン２０７
が、辞書２１１を参照して読みが一致する単語を抽出
し、音声を文字として認識する処理である。なお、辞書
２１１には、例えば図４に示すような単語と読みと発音
が登録されている。続けて、コマンド処理部２０１は、
ステップＳ３０５において認識された文章（Ｗ１）を音
声コマンド類似度計算部２０３へ送出し、実行可能なグ
ラマとのマッチングを行い、類似度Ｓを計算する（ステ
ップＳ３０７）。ここで、音声コマンド類似度計算部２
０３における類似度Ｓの計算について具体的に説明す
る。

【００２７】図５は、類似度の計算における処理の流れ
を示す図である。まず、音声コマンド類似度計算部２０
３は、ステップＳ３０５におけるディクテーションによ
る認識の結果、得られた文章（Ｗ１）について、類似度
計算に有効な有効単語の解析が行われる（ステップＳ４
０１）。ここで、ディクテーションによる認識の結果、
ユーザが発声した音声コマンドとして次のような文章
（音声コマンド（Ｗ１））が得られた場合を例に挙げて
説明する。（Ｗ１）"１０センチ右に今のウィンドウを移動"

【００２８】ステップＳ４０１では、この音声コマンド
（Ｗ１）について語句毎に単語が区切られ、それぞれに
ついて品詞等の種類が特定される。以下に、上記音声コ
マンド（Ｗ１）についての解析結果を示す。なお、以下
において下線が引かれている単語（ここでは、接続語以
外の単語）が、類似度計算に適用可能と判断された単語
である。

【００２９】（Ｗ１）；"１０センチ右に今のウィンド
ウを移動" を解析した結果；１０ …＜数字＞センチ …＜単位＞右 …＜方向＞に …＜接続詞＞今 …＜状態＞の …＜接続詞＞ウィンドウ …＜項目＞を …＜接続詞＞移動 …＜動作＞

【００３０】ステップＳ４０１の次に、音声コマンド類
似度計算部２０３において、コマンド処理部２０１を介
してアプリケーション２１３から得られた情報を基に、
グラマ登録部２０９に登録され、且つそのアプリケーシ
ョン２１３において実行可能なグラマ（Ｗ２）のうち、
１つが取得される（ステップＳ４０３）。図６に、グラ
マ登録部２０９に登録されているグラマの一例を示す。
なお、図６に示したものは登録されたグラマの一部を示
す例であり、この他に多くの実行可能なグラマが登録さ
れている。また、グラマはＢＮ記法によって定義されて
いるが、その他の方法であってもよい。ここで、ステッ
プＳ４０３において取得されたグラマの一例（Ｗ
２₍₁₎）を次に挙げる。Ｗ２₍₁₎；"＜数字１〜９＞つ＜前、後／上、下＞の行に
移動"

【００３１】続けて、ステップＳ４０３において取得さ
れたグラマ（Ｗ２₍₁₎）について、上記音声コマンド
（Ｗ１）と同様に、類似度計算に適用可能な単語の解析
が行われる（ステップＳ４０５）。以下に、上記（Ｗ２
₍₁₎）についての解析結果を示す。

【００３２】（Ｗ２₍₁₎）"＜数字１〜９＞つ＜前、後／
上、下＞の行に移動" を解析した結果；＜数字１〜９＞ …＜数字＞つ …＜単位＞＜前、後／上、下＞ …＜方向＞の …＜接続詞＞行 …＜項目＞に …＜接続詞＞移動 …＜動作＞

【００３３】ステップＳ４０５に続けて、ユーザにより
発声された音声コマンド（Ｗ１）の単語と、グラマ（Ｗ
２₍₁₎）の単語と、のマッチングが行われ、単語の組み
合わせ毎のスコアの算出が行われる（ステップＳ４０
７）。具体的には、まず類似度計算に適用可能な単語に
おいて、種類が同じ単語同士を文章の語順に沿って組み
合わせる処理が行われる。例えば、音声コマンド（Ｗ
１）の＜数字＞に該当する単語と、グラマ（Ｗ２₍₁₎）
の＜数字＞に該当する単語とを組み合わせる、といった
ような処理が音声コマンド（Ｗ１）において類似度計算
に適用可能な単語について行われる。そして、それぞれ
の単語の組み合わせに対してスコアが算出される。さら
に続けて、音声コマンド（Ｗ１）とグラマ（Ｗ２₍₁₎）
の語順を考慮せずにマッチングが行われ、スコアを算出
する。

【００３４】ステップＳ４０７におけるマッチングされ
た単語のスコアの算出は、以下に説明するスコアの計算
方法に基づき、スコア計算用テーブル２０５に登録され
たデータを参照することにより行われる。例えば、スコ
ア（ｓ）は、０≦ｓ≦１の前提において、音声コマンド
（Ｗ１）の単語が以下のいずれに該当するかによってス
コアを特定する。なお、ここでは、単語の類似度が高い
程、スコアが高得点となるように設定されている。

【００３５】スコアの計算方法；・グラマが指定する単語と完全に一致する単語…1.0 ・グラマでは変数として定義され、その変数に当てはま
る単語…0.9 ・スコア計算用テーブル２０５の「類似する単語」に一
致する単語…スコア計算用テーブル２０５で指定された
スコアの得点・単語としては一致しないが、文法の語順において文頭
からの順位が一致…0.1 ・以上のいずれにも該当しない…0

【００３６】図７に、スコア計算用テーブル２０５に登
録されたデータの一例を示す。図７に示すように、スコ
ア計算用テーブル２０５には、所定の単語と類似関係に
ある単語について、スコアが登録されている。発声され
た音声コマンドの単語が、グラマの「アクティブ」に該
当すると仮定した場合に、図７に示す類似する単語のい
ずれかに該当すると、右隣に記載された数値がスコアと
なる。なお、各スコアの設定は適宜調整される。

【００３７】以上のようにして音声コマンド（Ｗ１）と
グラマ（Ｗ２₍₁₎）において、スコア計算用テーブル２
０５を参照し、それぞれの項目において最終的に算出さ
れたスコア（ｓ）の例を示す。ここで最終的に算出され
たスコアとは、１つの単語について複数の組み合わせが
想定された場合に、全ての組み合わせにおいてスコアを
計算し、その中で最も高いスコアとなったものである。
なお、下記のスコア（ｓ）の結果においては、＜種類
＞：Ｓ（Ｗ１の項目，Ｗ２₍₁₎の項目）の順で示されて
いる。

【００３８】音声コマンド（Ｗ１）とグラマ（Ｗ
２₍₁₎）のスコア結果（ｓ）；＜数字＞：ｓ（１０，＜数字１〜９＞）＝0.1 ＜単位＞：ｓ（センチ，つ）＝0.2 ＜方向＞：ｓ（右，前、後／上、下＞）＝0.4 ＜項目＞：ｓ（ウィンドウ，行）＝0.1 ＜動作＞：ｓ（移動，移動）＝1.0

【００３９】続いて、図５に示されているように、これ
らのスコアの結果を基に、下記の式（１）に従って、類
似度Ｓ（Ｗ１,Ｗ２）を算出する（ステップＳ４０
９）。

【００４０】Ｓ（Ｗ１,Ｗ２）＝Σｓ（ｗ１_(i)、ｗ２_(j)）／Ｖｎ…（式１）ここで、（式１）における各項は以下のとおりである。ｗ１_(i)…発声された音声コマンドのｉ番目の単語（１
≦ｉ≦ｍ）ｗ２_(j)…発声された音声コマンドのｊ番目の単語（１
≦ｊ≦ｎ）Ｗ１…発声された音声コマンドＷ２…対象となるグラマＶｎ…類似度計算に適用可能な単語の個数

【００４１】算出された結果、音声コマンド（Ｗ１）と
グラマ（Ｗ２₍₁₎）の類似度Ｓ（Ｗ１，Ｗ２₍₁₎）は、
（0.1+0.1+0.5+0.1+1.0）/5＝0.36となる。なお、類似
度Ｓの算出においては、ステップＳ４０７で得られたス
コアを使用するが、単語の種類によって重み付けを行っ
て、類似度Ｓを算出するものであってもよい。例えば、
主語となり得る＜項目＞については、コマンドの意味を
左右する場合が多いため、＜項目＞のスコアが高くなる
ように重み付けを行った状態で類似度Ｓを算出すること
も可能である。

【００４２】ステップＳ４０９に続けて、グラマ登録部
２０９に登録されたグラマのうち、実施可能なグラマは
全て解析済みか否かが判断される（ステップＳ４１
１）。具体的には、音声コマンド（Ｗ１）について、実
行可能なグラマのそれぞれと組み合わされ、それぞれの
グラマについて図５に示すステップＳ４０５〜Ｓ４０９
の処理が行われたか否かを判断する。ここで、全て解析
済みであると判断した場合、本処理を終了し、図３に示
す後述のステップＳ３０９の処理が行われる。

【００４３】ステップＳ４１１について、全てのグラマ
は解析済みではないと判断された場合、ステップＳ４０
３へ戻って、実行可能なグラマを１つ抽出し、上記同様
にして処理を繰り返す。ここで具体例として、処理の対
象となるグラマ（Ｗ２₍₁₎）の次に、音声コマンド（Ｗ
１）に対応して処理されたグラマ（Ｗ２₍₂₎）（Ｗ
２₍ ₃₎）について、グラマ（Ｗ２₍₁₎）と同様に処理を行
うことにより類似度Ｓを算出した結果について説明す
る。なお、図５に示す各ステップＳ４０３〜Ｓ４０９に
おける処理は、グラマ（Ｗ２₍₁₎）と同じであり、詳細
な説明は省略する。

【００４４】（Ｗ２₍₂₎₎）"カーソルを＜左、右、上、
下＞に移動"について、ステップＳ４０７において解析
された結果；カーソル …＜項目＞を …＜接続詞＞＜左、右、上、下＞ …＜方向＞に …＜接続詞＞移動 …＜動作＞

【００４５】ステップＳ４０７において算出された、音
声コマンド（Ｗ１）とグラマ（Ｗ２ ₍₂₎）のスコア結果
（ｓ）；＜項目＞：ｓ（ウィンドウ，カーソル）＝0.1 ＜方向＞：ｓ（右，＜前、後／上、下＞）＝0.9 ＜動作＞：ｓ（移動，移動）＝1.0

【００４６】ステップＳ４０９において算出された、音
声コマンド（Ｗ１）とグラマ（Ｗ２ ₍₂₎）の類似度Ｓ
（Ｗ１，Ｗ２₍₁₎）；（0.1+0.9+1.0）/3＝0.67

【００４７】（Ｗ２₍₃₎）"アクティブなウィンドウを＜
数字＞＜単位＞＜左、右、上、下＞に移動"について、
ステップＳ４０５において、解析された結果；アクティブ …＜状態＞な …＜接続詞＞ウィンドウ …＜項目＞を …＜接続詞＞数字 …＜数字＞単位 …＜単位＞＜左、右、上、下＞ …＜方向＞に …＜接続詞＞移動 …＜動作＞

【００４８】ステップＳ４０７において算出された、音
声コマンド（Ｗ１）とグラマ（Ｗ２ ₍₃₎）のスコア結果
（ｓ）；＜状態＞：ｓ（今，アクティブ）＝0.5 ＜項目＞：ｓ（ウィンドウ，ウィンドウ）＝1.0 ＜数字＞：ｓ（１０，＜数字＞）＝0.9 ＜単位＞：ｓ（センチ，＜単位＞）＝0.9 ＜方向＞：ｓ（右，＜左、右、上、下＞）＝0.9 ＜動作＞：ｓ（移動，移動）＝1.0

【００４９】ステップＳ４０９において算出された、音
声コマンド（Ｗ１）とグラマ（Ｗ２ ₍₃₎）の類似度Ｓ
（Ｗ１，Ｗ２₍₃₎）；（0.5+1.0+0.9+0.9+0.9+1.0）/6＝0.87

【００５０】このようにして、実行可能なグラマについ
て音声コマンド類似度計算部２０３において類似度Ｓの
計算が行われ、ステップＳ４１１において実行可能なグ
ラマは全て解析済みであると判断されると、図３に示す
ステップＳ３０９の処理が行われる。なお、ここでは説
明を簡単にするため、実行可能なグラマとして、グラマ
（Ｗ２₍₁₎）（Ｗ２₍₂₎）（Ｗ２₍₃₎）の３つが解析され
ているが、実際は実行可能なグラマの全てが解析される
ので、多数のグラマのそれぞれについて類似度Ｓが算出
される。

【００５１】続いて、図３のステップＳ３０７において
１つの音声コマンド（Ｗ１）に対して複数のグラマ（Ｗ
２₍₁₎）（Ｗ２₍₂₎）（Ｗ２₍₃₎）…から得られた類似度
Ｓのうち、第１のしきい値（ＴＨ１、所定値）より高い
ものがあるか否かが、コマンド処理部２０１により判断
される（ステップＳ３０９）。ここで、第１のしきい値
（ＴＨ１）は、例えば０.９である。グラマ（Ｗ２₍₁₎）
（Ｗ２₍₂₎）（Ｗ２₍₃₎）の類似度Ｓは図８に示すとおり
であり、第１のしきい値（ＴＨ１）である０.９より高
いものはない。このように第１のしきい値より高い類似
度Ｓを有するグラマはないと判断した場合、後述のステ
ップＳ３１７の処理が行われる。

【００５２】一方、ステップＳ３０９において第１のし
きい値（ＴＨ１）より高い類似度Ｓが存在すると判断し
た場合、第１のしきい値（ＴＨ１）より高い類似度Ｓは
１つだけであるか否かが判断される（ステップＳ３１
１）。第１のしきい値（ＴＨ１）より高い類似度Ｓは１
つだけ存在すると判断された場合、その第１のしきい値
（ＴＨ１）より高い類似度Ｓを算出したグラマ（Ｗ２
_(x)）が指定するコマンドの実行命令をアプリケーショ
ン２１３へ送出し、コマンドが実行されて（ステップＳ
３１５）、本処理は終了する。一方、ステップＳ３１１
において第１のしきい値（ＴＨ１）より高い類似度Ｓが
２つ以上あると判断された場合、すなわち、類似度Ｓが
第１のしきい値（ＴＨ１）より高い、実行可能なグラマ
が複数あると判断された場合、後述のステップＳ３１９
の処理が行われる。

【００５３】また、ステップＳ３０９において、１つの
音声コマンド（Ｗ１）に対して複数のグラマから得られ
た類似度Ｓのうち、第１のしきい値（ＴＨ１）より高い
類似度Ｓがないと判断されると、第１のしきい値（ＴＨ
１）以下の値に設定された第２のしきい値（ＴＨ２、下
限値）より高い類似度Ｓがあるか否かを判断する（ステ
ップＳ３１７）。ここで、第２のしきい値は、例えば
０.５である。第２のしきい値（ＴＨ２）より高い類似
度Ｓはないと判断した場合、即ち、グラマの類似度Ｓは
全て第２のしきい値以下であると判断した場合、音声コ
マンドは通常に入力される文章として処理し（ステップ
Ｓ３２１）、本処理を終了する。一方、ステップＳ３１
７において、第２のしきい値（ＴＨ２）より高いものが
あると判断した場合、例えば、図８に示すように類似度
Ｓが第２のしきい値（ＴＨ２）の０.５より高いグラマ
（Ｗ２₍₂₎）（Ｗ２₍₃₎）が存在する場合、コマンド選択
処理を行い（ステップＳ３１９）、本処理を終了する。

【００５４】なお、ここでは、２つのしきい値を設けた
実施例のみ示したが、かかるしきい値の数は２に限れら
れないことは言うまでもない。設けるしきい値の数や数
値は、所望の処理速度や精度に応じて可変である。判断
基準を「所定のしきい位置より高い値」とするか、「所
定のしきい値以上の値」とするか等は任意である。要す
るに、本発明におけるステップＳ３０９、Ｓ３１１およ
びＳ３１７においては、類似度が所定の範囲内の値にあ
るか否かが判断され、その結果に応じて異なった処理が
なされる。

【００５５】図９は、ステップＳ３１９におけるコマン
ド選択処理についての処理の流れを説明する図である。
まず、図３に示すステップＳ３１７において第２のしき
い値（ＴＨ２）より高い類似度Ｓのグラマ（Ｗ２₍₂₎）
（Ｗ２₍₃₎）を、ユーザに対して提示し、実行するコマ
ンドとしてグラマの選択要求を行う（ステップＳ５０
１）。ここでは、コンピュータ装置１００に接続された
ＣＲＴ５に図１０に示すような画面を表示させる。図１
０に示すように、画面には第２のしきい値（ＴＨ２）よ
り高い類似度Ｓのグラマ（Ｗ２₍₂₎）（Ｗ２₍₃₎）が表示
されて、本来ユーザが実行しようとしていたコマンドに
該当するグラマを、マウス７やキーボード８を用いてユ
ーザ自身によって選択させる。そして、コマンド処理部
２０１は、ユーザが選択したグラマについての選択要求
を受け付ける（ステップＳ５０３）。

【００５６】続けて、コマンド処理部２０１は、ステッ
プＳ５０３において受け付けられたグラマと、ユーザが
一番初めに発声した音声コマンドとを関連づけ、グラマ
登録部２０９に新たなグラマとして登録する（ステップ
Ｓ５０５）。そして、登録された新規なグラマを実行し
（ステップＳ５０７）、本処理を終了する。

【００５７】ここで、グラマ登録部２０９に新たに登録
されるグラマは、ユーザが発声した音声コマンドをその
まま記録するものではなく、ＢＮ記法に沿って、所定の
単語に置き換えられたときも認識可能となるようなグラ
マとして記録される。例えば、上記のようにユーザが発
声した音声コマンド（Ｗ１）が「１０センチ右に今のウ
ィンドウを移動」であり、図１０に示す画面においてユ
ーザが「アクティブなウィンドウを１０センチ右に移
動」（Ｗ２₍₃₎）を選択した場合について説明する。こ
のとき、グラマ登録部２０９には既にグラマ（Ｗ
２₍₃₎）として図６に示す＜ｃｏｍｍａｎｄ３＞が登録
されている。この＜ｃｏｍｍａｎｄ３＞を以下に示すよ
うなコマンドに変更する。ここでは、既に登録されてい
るグラマと、新たに追加するグラマが、「ｏｒ」で接続
され、且つ＜状態＞の定義に「今の」という単語が追加
されている。

【００５８】＜ｃｏｍｍａｎｄ３＞＝＜状態＞＜項目＞を＜数字＞＜単位＞＜方向＞に移動
｜＜数字＞＜単位＞＜方向＞に＜状態＞＜項目＞を移動＜状態＞＝アクティブな｜……｜＜今の＞

【００５９】以上のように、本実施の形態の音声コマン
ド処理システムでは、ユーザが発声した音声コマンド
が、登録されているグラマと完全に一致しない場合であ
っても、既に登録されているグラマと類似度が高い場合
には、その音声コマンドを実行することができる。した
がって、ユーザは全ての音声コマンドを正確に覚える必
要が無い。また、ユーザは、発声した音声コマンドが認
識されないことに対する不快感を軽減することができ
る。

【００６０】さらに、ユーザが発声した音声コマンドを
既に登録されているグラマとを結び付けて登録する、す
なわちグラマを再構築することにより、処理できる音声
コマンドの幅を拡張することができる。また、この方法
では、ユーザの音声コマンドをそのまま登録するもので
はないので、グラマの登録量が爆発的に多くならず、音
声コマンドの認識において精度（認識率）をさほど落と
さずに済む。また、音声コマンド処理システムの初期設
定において予め登録しておくグラマのバリエーションを
少なくし、それぞれのユーザの嗜好に沿ったコマンドを
使用中に新たに登録することで、それぞれのユーザにと
って使い易いものへと変化する。

【００６１】なお、本実施の形態で示したような処理を
行うためのプログラムは、以下のような記憶媒体、プロ
グラム伝送装置の形態とすることもできる。すなわち、
記憶媒体としては、コンピュータ装置に実行させるプロ
グラムを、ＣＤ−ＲＯＭ、ＤＶＤ、メモリ、ハードディ
スク等の記憶媒体に、コンピュータ装置が読み取り可能
に記憶させれば良い。また、プログラム伝送装置として
は、上記したようなプログラムを記憶させたＣＤ−ＲＯ
Ｍ、ＤＶＤ、メモリ、ハードディスク等の記憶手段と、
この記憶手段から当該プログラムを読み出し、当該プロ
グラムを実行する装置側に、コネクタ、あるいはインタ
ーネットやＬＡＮ等のネットワークを介して当該プログ
ラムを伝送する伝送手段とを備える構成とすれば良い。

【００６２】上記以外にも、本発明の主旨を逸脱しない
限り、上記実施の形態で挙げた構成を取捨選択したり、
他の構成に適宜変更することが可能である。

【００６３】

【発明の効果】このように本発明によれば、音声コマン
ド処理システムにおいて音声コマンドの認識率を向上さ
せることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態におけるコンピュータ装
置の構成を示す図である。

【図２】コンピュータ装置における音声コマンド処理
システムの処理要素を示す機能ブロック図である。

【図３】音声コマンド処理システムにおける処理の流
れを説明する図である。

【図４】辞書に登録されるデータの一例を示す図であ
る。

【図５】類似度の計算における処理の流れを示す図で
ある。

【図６】グラマ登録部に登録されているグラマの一例
を示す。

【図７】スコア計算用テーブルに登録されたデータの
一例を示す。

【図８】音声コマンドに対する各グラマの類似度を示
す図である。

【図９】コマンド選択処理についての処理の流れを説
明する図である。

【図１０】ユーザに対して選択要求を行う画面の例を
示す図である。

【符号の説明】

１…ＣＰＵ、１８…ＨＤＤ、２４…マイク、１００…コ
ンピュータ装置、２０１…コマンド処理部、２０３…音
声コマンド類似度計算部、２０５…スコア計算用テーブ
ル、２０７…音声認識エンジン、２０９…グラマ登録
部、２１１…辞書、２１３…アプリケーション

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５３７Ａ 15/28 (72)発明者田原義則神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内 (72)発明者友田大輔神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内 (72)発明者三坪喜久男神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内 (72)発明者阿竹義徳神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内Ｆターム(参考） 5D015 GG06 HH21 KK02 LL02 LL04 LL11

Claims

【特許請求の範囲】

【請求項１】ユーザが発声した音声コマンドを処理す
る音声コマンド処理システムであって、複数の実行可能なコマンドを予め登録する登録手段と、ユーザにより発声された音声コマンドを取得する取得手
段と、前記取得手段により取得された前記音声コマンドが、前
記登録手段の登録コマンドのいずれかと一致するか否か
を判断する判断手段と、前記判断手段によりいずれの登録コマンドとも一致しな
いと判断された場合、前記音声コマンドを文章として解
析し、前記登録コマンドと当該文章との類似度を算出す
る算出手段とを備えたことを特徴とする音声コマンド処
理システム。
【請求項２】前記算出手段により算出された前記類似
度が所定の範囲の値である前記登録コマンドについて実
行指示を行う実行指示手段をさらに備えたことを特徴と
する請求項１記載の音声コマンド処理システム。
【請求項３】前記類似度が第１の範囲の値である複数
の前記登録コマンドがある場合、前記登録コマンドをユ
ーザに通知し、当該登録コマンドを実行するか否かの判
断を当該ユーザに要求する要求手段をさらに備えたこと
を特徴とする請求項１記載の音声コマンド処理システ
ム。
【請求項４】前記類似度が前記第１の範囲より低い値
に設定された第２の範囲の値である１または複数の前記
登録コマンドがある場合、前記登録コマンドをユーザに
通知し、当該登録コマンドを実行するか否かの判断を当
該ユーザに要求する要求手段をさらに備えたことを特徴
とする請求項３記載の音声コマンド処理システム。
【請求項５】ユーザが発声した音声コマンドを実行可
能なコンピュータ装置であって、前記コンピュータ装置において実行可能なコマンドを登
録する登録部と、ユーザが発声した音声コマンドを受け付け、当該音声コ
マンドを実行するための処理を行う音声コマンド処理部
と、前記音声コマンド処理部により受け付けられた前記音声
コマンドを文章として解析する音声認識エンジンと、前記音声認識エンジンにより解析された前記文章と、前
記登録部の登録コマンドとを比較し、類似度を算出する
類似度計算部と、を備えたことを特徴とするコンピュータ装置。
【請求項６】前記登録コマンドの語句に類似する類似
語句、および当該登録コマンドの語句と前記類似語句の
共通性に基づいて設定されたスコアを登録するスコアデ
ータ登録部をさらに備え、前記類似度計算部は、前記スコアを基に前記類似度を算
出することを特徴とする請求項５記載のコンピュータ装
置。
【請求項７】前記音声コマンド処理部は、前記類似度
が所定のしきい値より高い場合に、前記登録コマンドを
実行することを特徴とする請求項５記載のコンピュータ
装置。
【請求項８】ユーザが発声した音声コマンドをコンピ
ュータ装置において実行するための音声コマンド処理方
法であって、ユーザの発声した音声コマンドを受け付けるステップ
と、受け付けた前記音声コマンドを予め登録された登録コマ
ンドとして認識可能か否かを判断するステップと、前記登録コマンドとして認識不可能であると判断する
と、前記音声コマンドを文章として解析するステップ
と、類似度を算出するため、解析された前記文章の語句と、
前記登録コマンドの語句とのマッチングを行うステップ
とを有することを特徴とする音声コマンド処理方法。
【請求項９】マッチングされた前記文章の前記語句と
前記登録コマンドの前記語句との共通性に基づいたスコ
アを算出するステップと、前記スコアから、前記文章と前記登録コマンドとの類似
度を算出するステップとをさらに有することを特徴とす
る請求項８記載の音声コマンド処理方法。
【請求項１０】前記類似度が所定の範囲の値である前
記音声コマンドを、前記文章と関連づけて前記登録コマ
ンドとして登録するステップをさらに有することを特徴
とする請求項９記載の音声コマンド処理方法。
【請求項１１】算出された前記類似度が所定の範囲の
値である場合、当該類似度が算出された前記登録コマン
ドを実行するステップをさらに有することを特徴とする
請求項９記載の音声コマンド処理方法。
【請求項１２】前記類似度が第１の範囲の値である複
数の前記登録コマンドがある場合、または前記類似度が
前記第１の範囲より低い値に設定された第２の範囲の値
である１または複数の前記登録コマンドがある場合、の
少なくとも１つに該当する場合、当該類似度が算出され
た前記登録コマンドをユーザに提示し、実行する前記登
録コマンドの選択を要求するステップをさらに有するこ
とを特徴とする請求項９記載の音声コマンド処理方法。
【請求項１３】ユーザが発声した音声コマンドをコン
ピュータ装置において実行するための音声コマンド処理
方法であって、ユーザの発声した音声コマンドを文章として解析するス
テップと、前記文章として解析された前記音声コマンド（Ｗ１）
と、予め登録された登録コマンド（Ｗ２）とを比較して
類似度Ｓ（Ｗ１,Ｗ２）を算出するステップとを有し、前記類似度Ｓ（Ｗ１,Ｗ２）は、音声コマンドのｉ番目
の単語（ｗ１（ｉ））と登録コマンドのｊ番目の単語
（ｗ２（ｊ））との共通性に基づくスコア（ｓ）の合計
を、類似度計算に適用可能な単語の個数（Ｖｎ）で除し
た値により表されることを特徴とする音声コマンド処理
方法。
【請求項１４】前記類似度Ｓ（Ｗ１,Ｗ２）が第１の
しきい値（ＴＨ１）より高い場合、前記登録コマンドを
実行するステップと、前記類似度Ｓ（Ｗ１,Ｗ２）が前記第１のしきい値（Ｔ
Ｈ１）より低く、且つ当該類似度Ｓ（Ｗ１,Ｗ２）が当
該第１のしきい値（ＴＨ１）より低い値に設定された第
２のしきい値（ＴＨ２）より高い場合、前記登録コマン
ドをユーザに提示し、当該登録コマンドを実行するか否
かの判断の要求を行うステップと、をさらに有することを特徴とする請求項１３記載の音声
コマンド処理方法。
【請求項１５】ユーザが発声した音声コマンドをコン
ピュータ装置で実行させるためのプログラムであって、ユーザの発声した音声コマンドを受け付ける手順と、受け付けた前記音声コマンドを予め登録された登録コマ
ンドとして認識可能か否かを判断する手順と、類似度を算出するため、前記登録コマンドとして認識不
可能であると判断すると、前記音声コマンドを文章とし
て認識する手順と、前記文章の語句と、前記登録コマンドの語句とのマッチ
ングを行う手順とを前記コンピュータ装置に実行させる
ことを特徴とするプログラム。
【請求項１６】マッチングされた前記文章の前記語句
と、前記登録コマンドの前記語句の共通性に基づいたス
コアを算出する手順と、前記スコアから、前記文章と前記登録コマンドの類似度
を算出する手順と、をさらに前記コンピュータ装置に実行させることを特徴
とする請求項１５記載のプログラム。
【請求項１７】前記類似度が所定の範囲の値である前
記音声コマンドを、前記文章と関連づけて前記登録コマ
ンドとして登録する手順をさらに前記コンピュータ装置
に実行させることを特徴とする請求項１６記載のプログ
ラム。
【請求項１８】算出された前記類似度が所定の範囲の
値である場合、当該類似度が算出された前記登録コマン
ドを実行する手順をさらに前記コンピュータ装置に実行
させることを特徴とする請求項１６記載のプログラム。
【請求項１９】前記類似度が第１の範囲の値である複
数の前記登録コマンドがある場合、または前記類似度が
前記第１の範囲より低い値に設定された第２の範囲の値
である１または複数の前記登録コマンドがある場合、の
少なくとも１つに該当する場合、当該類似度が算出され
た前記登録コマンドをユーザに提示して実行するか否か
を問い合わせる手順をさらに前記コンピュータ装置に実
行させることを特徴とする請求項１６記載のプログラ
ム。