[go: up one dir, main page]

JP2003241790A - 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム - Google Patents

音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム

Info

Publication number
JP2003241790A
JP2003241790A JP2002034973A JP2002034973A JP2003241790A JP 2003241790 A JP2003241790 A JP 2003241790A JP 2002034973 A JP2002034973 A JP 2002034973A JP 2002034973 A JP2002034973 A JP 2002034973A JP 2003241790 A JP2003241790 A JP 2003241790A
Authority
JP
Japan
Prior art keywords
command
similarity
voice command
registration
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002034973A
Other languages
English (en)
Inventor
Yoshinori Tawara
義則 田原
Daisuke Tomota
大輔 友田
Kikuo Mitsubo
喜久男 三坪
Yoshinori Atake
義徳 阿竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2002034973A priority Critical patent/JP2003241790A/ja
Priority to US10/361,547 priority patent/US7299187B2/en
Publication of JP2003241790A publication Critical patent/JP2003241790A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 ユーザが発声する音声コマンドの認識率を向
上することができる音声コマンド処理システムを提供す
る。 【解決手段】 ユーザにより発声された音声コマンドが
予め登録されたグラマと一致しない場合には音声コマン
ドを文章として認識させる(ステップS305)。認識
された文章は、予め登録されたグラマとマッチングさせ
て類似度を算出する(ステップS307)。類似度が第
1のしきい値(TH1)より高い場合、コマンドを実行
し(ステップS315)、第1のしきい値(TH1)以
下で、第2のしきい値(TH2)より高い場合、コマン
ドをユーザ提示し、実行するコマンドを選択させる(S
319)。さらに第2のしきい値(TH2)以下の場合
にはコマンドの実行は行わない(ステップS321)。
また、一旦実行されたコマンドは、次回以降認証可能と
なるようにグラマに追加される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの発声した
音声コマンドの認識率を向上することができる音声コマ
ンド処理システム等に関する。
【0002】
【従来の技術】近年、多くのコンピュータ装置が様々な
箇所で使用されており、これらコンピュータ装置にデー
タを入力する入力手段も種々のものが存在する。例え
ば、複数の入力キーを備えたキーボード、モニタ上の任
意の点をポイントするマウス、感圧性の表面においてペ
ンを走らせることによりデータの入力を行うタッチパッ
ド、ユーザが発した言葉をマイクで拾い、音声データと
して入力する音声認識手段等を挙げることができる。こ
れら入力手段の中でも、音声入力手段では、ただ単に音
声を文字として認識する(ディクテーション)ことがで
きるだけではなく、ユーザが発声した音声コマンドを認
識することにより、アプリケーション等における所定動
作の実行を可能としている。すなわち、この音声入力手
段は、コンピュータ装置やアプリケーションのコマンド
操作をも音声で入力することができ、入力手段として特
に注目を集めている。
【0003】ところで、この音声コマンドの音声認識に
おいては、コンピュータ装置に接続されたマイクを介し
て入力されたユーザの音声を、コンピュータ装置上で実
行される音声コマンド認識プログラムにて認識処理され
る。音声コマンドは、コンピュータ装置にて実行される
プログラミングの構文記述表記の1つであるBN記法
(Backus-naur Form)により定義されており、音声コマ
ンド認識プログラムが予め定義されて登録された音声コ
マンドの文法(グラマ)と全く同じ音声コマンドを認識
したとき、指定されたアクションが実行される。すなわ
ち、ユーザは予め登録された音声コマンドを正確に発声
することで、希望するアクションを初めて実行させるこ
とが可能となっている。
【0004】
【発明が解決しようとする課題】しかしながら、音声コ
マンドはアクション毎に定義されるため、その種類が非
常に多く、ユーザが全ての音声コマンドを正確に記憶し
て発声するのは困難である。また、コマンドをうろ覚え
のユーザは、登録されている正しい音声コマンドの代わ
りに、異なる不正な音声コマンドを発声してしまうこと
がある。特に日本語においては、1つの文章における語
順が比較的自由に入れ替わることから、ユーザがこのよ
うな不正な音声コマンドを発してしまう場合が多く存在
する。このように発声された不正な音声コマンドは、音
声コマンドとは認識されず、ユーザは指示したのにアク
ションが起こらないために不快を感じてしまう。それに
対して、ユーザが発声する音声コマンドを想定し、予め
登録しておく方法もある。しかし、登録しなければなら
ない音声コマンドは大量になってしまい、音声コマンド
の認識処理に時間がかかり、また認識率も低下する恐れ
がある。
【0005】本発明は、上記のような技術的課題に基づ
いてなされたもので、ユーザが発声する音声コマンドの
自由度を高くし、音声コマンドの認識率を向上すること
ができる音声コマンド処理システム等を提供することを
主たる目的とする。
【0006】
【課題を解決するための手段】かかる目的のもと、本発
明の音声コマンド処理システムは、ユーザが発声した音
声コマンドを処理する音声コマンド処理システムであっ
て、複数の実行可能なコマンドを予め登録する登録手段
と、ユーザにより発声された音声コマンドを取得する取
得手段と、取得手段により取得された音声コマンドが、
登録手段の登録コマンドのいずれかと一致するか否かを
判断する判断手段と、判断手段によりいずれの登録コマ
ンドとも一致しないと判断された場合、音声コマンドを
文章として解析し、登録コマンドと文章との類似度を算
出する算出手段とを備えたことを特徴とするものであ
る。本発明では、類似度を算出することにより、音声コ
マンドに近い登録されたコマンドを認識することが可能
となる。
【0007】この音声コマンド処理システムは、算出手
段により算出された類似度が所定の範囲の値である登録
コマンドについて実行指示を行う実行指示手段をさらに
備えることができる。なお、類似度が第1の範囲の値で
ある複数の登録コマンドがある場合、または類似度が第
1の範囲より低い値に設定された第2の範囲の値である
1または複数の登録コマンドがある場合において、登録
コマンドをユーザに通知し、登録コマンドを実行するか
否かの判断をユーザに要求する要求手段をさらに備える
ものであってもよい。
【0008】また、本発明はコンピュータ装置として捉
えることができる。本発明のコンピュータ装置は、ユー
ザが発声した音声コマンドを実行可能なコンピュータ装
置であって、コンピュータ装置において実行可能なコマ
ンドを登録する登録部と、ユーザが発声した音声コマン
ドを受け付け、音声コマンドを実行するための処理を行
う音声コマンド処理部と、音声コマンド処理部により受
け付けられた音声コマンドを文章として解析する音声認
識エンジンと、音声認識エンジンにより解析された文章
と、登録部の登録コマンドとを比較し、類似度を算出す
る類似度計算部とを備えたことを特徴とするものであ
る。
【0009】このコンピュータ装置では、登録部の登録
コマンドの語句に類似する類似語句、および語句と類似
語句の共通性に基づいて設定されたスコアを登録するス
コアデータ登録部をさらに備え、類似度計算部は、スコ
アを基に類似度を算出するものであってもよい。また、
音声コマンド処理部は、類似度が所定のしきい値より高
い場合に、登録コマンドを実行することができる。
【0010】さらに、本発明は音声コマンド処理方法と
して捉えることができる。本発明の音声コマンド処理方
法は、ユーザが発声した音声コマンドをコンピュータ装
置において実行するための音声コマンド処理方法であっ
て、ユーザの発声した音声コマンドを受け付けるステッ
プと、受け付けた音声コマンドを予め登録された登録コ
マンドとして認識可能か否かを判断するステップと、登
録コマンドとして認識不可能であると判断すると、音声
コマンドを文章として解析するステップと、類似度を算
出するため、解析された文章の語句と、登録コマンドの
語句とのマッチングを行うステップとを有することを特
徴とする方法である。
【0011】この音声コマンド処理方法は、マッチング
された文章の語句と登録コマンドの語句との共通性に基
づいたスコアを算出するステップと、スコアから、文章
と登録コマンドとの類似度を算出するステップとをさら
に有することができる。この場合、類似度が所定の範囲
の値である音声コマンドを、文章と関連づけて登録コマ
ンドとして登録するステップをさらに有することができ
る。また、算出された類似度が所定の範囲の値である場
合、類似度が算出された登録コマンドを実行するステッ
プをさらに有することが可能である。その他、類似度が
第1の範囲の値である複数の登録コマンドがある場合、
または類似度が第1の範囲より低い値に設定された第2
の範囲の値である1または複数の登録コマンドがある場
合、の少なくとも1つに該当する場合、類似度が算出さ
れた登録コマンドをユーザに提示し、実行する登録コマ
ンドの選択を要求するステップをさらに有するものであ
ってもよい。
【0012】また、本発明の音声コマンド処理方法は、
ユーザが発声した音声コマンドをコンピュータ装置にお
いて実行するための音声コマンド処理方法であって、ユ
ーザの発声した音声コマンドを文章として解析するステ
ップと、文章として解析された音声コマンド(W1)
と、予め登録された登録コマンド(W2)とを比較して
類似度S(W1,W2)を算出するステップとを有し、
類似度S(W1,W2)は、音声コマンドのi番目の単
語(w1(i))と登録コマンドのj番目の単語(w2
(j))との共通性に基づくスコア(s)の合計を、類
似度計算に適用可能な単語の個数(Vn)で除した値に
より表されることを特徴とする方法である。なお、この
類似度S(W1,W2)を式で表現すると、Σs(w1
(i)、w2(j))/Vnとなる。
【0013】この音声コマンド処理方法では、類似度S
(W1,W2)が第1のしきい値(TH1)より高い場
合、登録コマンドを実行するステップと、類似度S(W
1,W2)が第1のしきい値(TH1)より低く、且つ
類似度S(W1,W2)が第1のしきい値(TH1)よ
り低い値に設定された第2のしきい値(TH2)より高
い場合、登録コマンドをユーザに提示し、登録コマンド
を実行するか否かの判断の要求を行うステップとをさら
に有するものであってもよい。
【0014】その他、本発明はユーザが発声した音声コ
マンドをコンピュータ装置等で実行させるためのプログ
ラムとして捉えることも可能である。
【0015】
【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて本発明を詳細に説明する。図1は、本発明の
実施の形態におけるコンピュータ装置の構成を示す図で
ある。図1に示すコンピュータ装置100は、OADG
(Open Architecture Developer's Group)仕様に準拠し
て、所定のOS(オペレーティング・システム)を搭載し
ている。コンピュータ装置100は、CPU(中央演算
処理部)1と、メモリ2と、画像を処理するグラフィッ
クチップ4とを備えており、それぞれホストブリッジ3
を介してPCIバス11に接続されている。なお、グラ
フィックチップ4を介し、イメージデータをユーザに提
示するためのCRT(ディスプレイ)5がデータの出力
手段の1つとしてコンピュータ装置100に接続されて
いる。
【0016】またコンピュータ装置100は、PCIバ
ス11に接続されたキーボード/マウスコントローラ6
を備えている。このキーボード/マウスコントローラ6
を介し、画面位置情報を入力するためのマウス7、キー
入力をサポートするキーボード8が、データの入力手段
としてコンピュータ装置100に接続されている。
【0017】さらにコンピュータ装置100は、外部ネ
ットワークと接続するためのモデム/イーサネット(登
録商標)チップ12と、MOやCD−ROM等が接続可
能なスロット14、15を有するカードバスブリッジ1
3と、外部機器を接続するためのUSB17と、HDD
18を有するIDEコントローラ19とを備えており、
それぞれPCIバス11に接続されている。またコンピ
ュータ装置100は、PCIバス11に接続し、音声信
号を処理するためのオーディオコントローラ21と、オ
ーディオコントローラ21に接続されたアンプ22とを
備えている。なお、オーディオコントローラ21を介
し、入力手段の1つとして外部の音を集音するマイク2
4が、コンピュータ装置100に接続されている。ま
た、アンプ22を介し、オーディオコントローラ21か
らの音信号を音として出力するスピーカ23が、コンピ
ュータ装置100に接続されている。
【0018】コンピュータ装置100は、通常のパーソ
ナルコンピュータ(PC)やワークステーション、テレ
ビやFAX等の各種電気製品に組み込まれたコンピュー
タ、車両や航空機等に搭載されるコンピュータ(カーナ
ビゲーション・システム等)またはこれらの組み合わせ
によって実現可能である。ただし、図1において説明し
た構成要素は一例であり、本発明は、音声によるコマン
ドおよび文字情報の特定に関するものであるため、図1
に示した構成要素の全ては必須のものでない。また、図
1に示した構成要素以外の要素を含むものであってもよ
い。
【0019】コンピュータ装置100のOSとしては、
Windows(マイクロソフトの商標)、OS/2
(IBMの商標)、MacOS(Apple社の商
標)、などの、標準でGUIマルチウインドウ環境をサ
ポートするものや、DOSなどのキャラクタ・ベース環
境のもの、さらにはVxWorks(Wind Riv
erSystems, Inc.の商標)等のリアルタ
イムOS、その他ネットワークコンピュータに組み込ま
れたOSでも実現可能であり、特定のオペレーティング
・システム環境に限定されるものではない。
【0020】図2は、コンピュータ装置100における
音声コマンド処理システムの処理要素を示す機能ブロッ
ク図である。図2に示す音声コマンド処理システムは、
コマンド処理部201と、音声コマンド類似度計算部2
03と、スコア計算用テーブル(スコアデータ登録部)
205と、音声認識エンジン207と、グラマ登録部2
09と、辞書211と、アプリケーション213とを備
えている。
【0021】コマンド処理部201は、アプリケーショ
ン213からコマンド情報を入手し、音声コマンド類似
度計算部203から渡された類似度に基づいて実行する
コマンドを特定する。音声コマンド類似度計算部203
は、認識された音声コマンドの文章と、グラマ登録部2
09に登録されたコマンドのグラマとの類似度を、スコ
ア計算用テーブル205を用いて計算する。音声認識エ
ンジン207は、辞書211を用いて音声情報を解析
し、音声認識文字列である文章を出力する。グラマ登録
部209は、実行可能なコマンドをグラマとして登録す
る。辞書211は、音声コマンドに使用される単語を登
録する。
【0022】アプリケーション213は、ワードプロセ
ッサ、プレゼンテーション用ソフトウェア、ウエブ・ブ
ラウザ等の文字情報を扱うことのできるソフトウェア
や、文字情報に変換可能な画像情報を扱うソフトウェア
であればよい。また、アプリケーション213は、コマ
ンド処理部201からの要求により指定されたコマンド
を実行する。
【0023】なお、図2に示す機能ブロックは、論理的
機能ブロックであり、各々1つのまとまりを持ったハー
ドウェアやソフトウェアによって実現されることを意味
するのではなく、複合し、または共通したハードウェア
やソフトウェアによって実現可能である。
【0024】以上述べたコンピュータ装置100では、
アプリケーション213上の所定の動作を行うためユー
ザにより発声された音声コマンドが認識され、その音声
コマンドにより指定されたアクションが実行される。こ
こで、音声コマンドとは、コンピュータ装置100のO
S(オペレーティング・システム)やアプリケーション
において所定の操作を音声を通じて実行するための指示
である。本実施の形態では、ユーザが発声した音声コマ
ンドが、予めグラマ登録部209に登録されたグラマと
完全に一致しなくても、その登録されたグラマにどの程
度類似しているか(類似度)を参照することで、音声コ
マンドを実行することが可能となる。以下、このような
音声コマンドの認識システムについて詳細を説明する。
【0025】図3は、音声コマンド処理システムにおけ
る処理の流れを説明する図である。まず、コンピュータ
装置100において、ユーザが発声した音声コマンド
が、グラマ登録部209に実行可能なコマンドとして登
録されたグラマと一致するか否かが判断される(ステッ
プS301)。具体的には、ユーザが発声した音声コマ
ンドがマイク24を介して入力される。そして、その音
声コマンドが、グラマ登録部209に既に登録されてい
る実行可能なグラマとコマンド処理部201において比
較され、音声コマンドとグラマが完全に一致するか否か
が判断される。ステップS301において音声コマンド
が登録されたグラマのいずれかと一致すると判断される
と、そのコマンドをアプリケーション213において実
行し(ステップS303)、本処理を終了する。
【0026】一方、ステップS301において、ユーザ
が発声した音声コマンドは、いずれのグラマとも一致し
ないと判断されると、その音声コマンドについてディク
テーションによる文章認識を行う(ステップS30
5)。ディクテーションとは、音声認識エンジン207
が、辞書211を参照して読みが一致する単語を抽出
し、音声を文字として認識する処理である。なお、辞書
211には、例えば図4に示すような単語と読みと発音
が登録されている。続けて、コマンド処理部201は、
ステップS305において認識された文章(W1)を音
声コマンド類似度計算部203へ送出し、実行可能なグ
ラマとのマッチングを行い、類似度Sを計算する(ステ
ップS307)。ここで、音声コマンド類似度計算部2
03における類似度Sの計算について具体的に説明す
る。
【0027】図5は、類似度の計算における処理の流れ
を示す図である。まず、音声コマンド類似度計算部20
3は、ステップS305におけるディクテーションによ
る認識の結果、得られた文章(W1)について、類似度
計算に有効な有効単語の解析が行われる(ステップS4
01)。ここで、ディクテーションによる認識の結果、
ユーザが発声した音声コマンドとして次のような文章
(音声コマンド(W1))が得られた場合を例に挙げて
説明する。 (W1)"10センチ右に今のウィンドウを移動"
【0028】ステップS401では、この音声コマンド
(W1)について語句毎に単語が区切られ、それぞれに
ついて品詞等の種類が特定される。以下に、上記音声コ
マンド(W1)についての解析結果を示す。なお、以下
において下線が引かれている単語(ここでは、接続語以
外の単語)が、類似度計算に適用可能と判断された単語
である。
【0029】(W1);"10センチ右に今のウィンド
ウを移動" を解析した結果;10 …<数字>センチ …<単位> …<方向> に …<接続詞> …<状態> の …<接続詞>ウィンドウ …<項目> を …<接続詞>移動 …<動作>
【0030】ステップS401の次に、音声コマンド類
似度計算部203において、コマンド処理部201を介
してアプリケーション213から得られた情報を基に、
グラマ登録部209に登録され、且つそのアプリケーシ
ョン213において実行可能なグラマ(W2)のうち、
1つが取得される(ステップS403)。図6に、グラ
マ登録部209に登録されているグラマの一例を示す。
なお、図6に示したものは登録されたグラマの一部を示
す例であり、この他に多くの実行可能なグラマが登録さ
れている。また、グラマはBN記法によって定義されて
いるが、その他の方法であってもよい。ここで、ステッ
プS403において取得されたグラマの一例(W
(1))を次に挙げる。 W2(1);"<数字1〜9>つ<前、後/上、下>の行に
移動"
【0031】続けて、ステップS403において取得さ
れたグラマ(W2(1))について、上記音声コマンド
(W1)と同様に、類似度計算に適用可能な単語の解析
が行われる(ステップS405)。以下に、上記(W2
(1))についての解析結果を示す。
【0032】(W2(1))"<数字1〜9>つ<前、後/
上、下>の行に移動" を解析した結果;<数字1〜9> …<数字> …<単位><前、後/上、下> …<方向> の …<接続詞> …<項目> に …<接続詞>移動 …<動作>
【0033】ステップS405に続けて、ユーザにより
発声された音声コマンド(W1)の単語と、グラマ(W
(1))の単語と、のマッチングが行われ、単語の組み
合わせ毎のスコアの算出が行われる(ステップS40
7)。具体的には、まず類似度計算に適用可能な単語に
おいて、種類が同じ単語同士を文章の語順に沿って組み
合わせる処理が行われる。例えば、音声コマンド(W
1)の<数字>に該当する単語と、グラマ(W2(1)
の<数字>に該当する単語とを組み合わせる、といった
ような処理が音声コマンド(W1)において類似度計算
に適用可能な単語について行われる。そして、それぞれ
の単語の組み合わせに対してスコアが算出される。さら
に続けて、音声コマンド(W1)とグラマ(W2(1)
の語順を考慮せずにマッチングが行われ、スコアを算出
する。
【0034】ステップS407におけるマッチングされ
た単語のスコアの算出は、以下に説明するスコアの計算
方法に基づき、スコア計算用テーブル205に登録され
たデータを参照することにより行われる。例えば、スコ
ア(s)は、0≦s≦1の前提において、音声コマンド
(W1)の単語が以下のいずれに該当するかによってス
コアを特定する。なお、ここでは、単語の類似度が高い
程、スコアが高得点となるように設定されている。
【0035】スコアの計算方法; ・グラマが指定する単語と完全に一致する単語…1.0 ・グラマでは変数として定義され、その変数に当てはま
る単語…0.9 ・スコア計算用テーブル205の「類似する単語」に一
致する単語…スコア計算用テーブル205で指定された
スコアの得点 ・単語としては一致しないが、文法の語順において文頭
からの順位が一致…0.1 ・以上のいずれにも該当しない…0
【0036】図7に、スコア計算用テーブル205に登
録されたデータの一例を示す。図7に示すように、スコ
ア計算用テーブル205には、所定の単語と類似関係に
ある単語について、スコアが登録されている。発声され
た音声コマンドの単語が、グラマの「アクティブ」に該
当すると仮定した場合に、図7に示す類似する単語のい
ずれかに該当すると、右隣に記載された数値がスコアと
なる。なお、各スコアの設定は適宜調整される。
【0037】以上のようにして音声コマンド(W1)と
グラマ(W2(1))において、スコア計算用テーブル2
05を参照し、それぞれの項目において最終的に算出さ
れたスコア(s)の例を示す。ここで最終的に算出され
たスコアとは、1つの単語について複数の組み合わせが
想定された場合に、全ての組み合わせにおいてスコアを
計算し、その中で最も高いスコアとなったものである。
なお、下記のスコア(s)の結果においては、<種類
>:S(W1の項目,W2(1)の項目)の順で示されて
いる。
【0038】音声コマンド(W1)とグラマ(W
(1))のスコア結果(s); <数字>:s(10,<数字1〜9>)=0.1 <単位>:s(センチ,つ) =0.2 <方向>:s(右,前、後/上、下>)=0.4 <項目>:s(ウィンドウ,行) =0.1 <動作>:s(移動,移動) =1.0
【0039】続いて、図5に示されているように、これ
らのスコアの結果を基に、下記の式(1)に従って、類
似度S(W1,W2)を算出する(ステップS40
9)。
【0040】 S(W1,W2)=Σs(w1(i)、w2(j))/Vn…(式1) ここで、(式1)における各項は以下のとおりである。 w1(i)…発声された音声コマンドのi番目の単語(1
≦i≦m) w2(j)…発声された音声コマンドのj番目の単語(1
≦j≦n) W1…発声された音声コマンド W2…対象となるグラマ Vn…類似度計算に適用可能な単語の個数
【0041】算出された結果、音声コマンド(W1)と
グラマ(W2(1))の類似度S(W1,W2(1))は、
(0.1+0.1+0.5+0.1+1.0)/5=0.36となる。なお、類似
度Sの算出においては、ステップS407で得られたス
コアを使用するが、単語の種類によって重み付けを行っ
て、類似度Sを算出するものであってもよい。例えば、
主語となり得る<項目>については、コマンドの意味を
左右する場合が多いため、<項目>のスコアが高くなる
ように重み付けを行った状態で類似度Sを算出すること
も可能である。
【0042】ステップS409に続けて、グラマ登録部
209に登録されたグラマのうち、実施可能なグラマは
全て解析済みか否かが判断される(ステップS41
1)。具体的には、音声コマンド(W1)について、実
行可能なグラマのそれぞれと組み合わされ、それぞれの
グラマについて図5に示すステップS405〜S409
の処理が行われたか否かを判断する。ここで、全て解析
済みであると判断した場合、本処理を終了し、図3に示
す後述のステップS309の処理が行われる。
【0043】ステップS411について、全てのグラマ
は解析済みではないと判断された場合、ステップS40
3へ戻って、実行可能なグラマを1つ抽出し、上記同様
にして処理を繰り返す。ここで具体例として、処理の対
象となるグラマ(W2(1))の次に、音声コマンド(W
1)に対応して処理されたグラマ(W2(2))(W
( 3))について、グラマ(W2(1))と同様に処理を行
うことにより類似度Sを算出した結果について説明す
る。なお、図5に示す各ステップS403〜S409に
おける処理は、グラマ(W2(1))と同じであり、詳細
な説明は省略する。
【0044】(W2(2)))"カーソルを<左、右、上、
下>に移動"について、ステップS407において解析
された結果;カーソル …<項目> を …<接続詞><左、右、上、下> …<方向> に …<接続詞>移動 …<動作>
【0045】ステップS407において算出された、音
声コマンド(W1)とグラマ(W2 (2))のスコア結果
(s); <項目>:s(ウィンドウ,カーソル)=0.1 <方向>:s(右,<前、後/上、下>)=0.9 <動作>:s(移動,移動)=1.0
【0046】ステップS409において算出された、音
声コマンド(W1)とグラマ(W2 (2))の類似度S
(W1,W2(1)); (0.1+0.9+1.0)/3=0.67
【0047】(W2(3))"アクティブなウィンドウを<
数字><単位><左、右、上、下>に移動"について、
ステップS405において、解析された結果;アクティブ …<状態> な …<接続詞>ウィンドウ …<項目> を …<接続詞>数字 …<数字>単位 …<単位><左、右、上、下> …<方向> に …<接続詞>移動 …<動作>
【0048】ステップS407において算出された、音
声コマンド(W1)とグラマ(W2 (3))のスコア結果
(s); <状態>:s(今,アクティブ)=0.5 <項目>:s(ウィンドウ,ウィンドウ)=1.0 <数字>:s(10,<数字>)=0.9 <単位>:s(センチ,<単位>)=0.9 <方向>:s(右,<左、右、上、下>)=0.9 <動作>:s(移動,移動)=1.0
【0049】ステップS409において算出された、音
声コマンド(W1)とグラマ(W2 (3))の類似度S
(W1,W2(3)); (0.5+1.0+0.9+0.9+0.9+1.0)/6=0.87
【0050】このようにして、実行可能なグラマについ
て音声コマンド類似度計算部203において類似度Sの
計算が行われ、ステップS411において実行可能なグ
ラマは全て解析済みであると判断されると、図3に示す
ステップS309の処理が行われる。なお、ここでは説
明を簡単にするため、実行可能なグラマとして、グラマ
(W2(1))(W2(2))(W2(3))の3つが解析され
ているが、実際は実行可能なグラマの全てが解析される
ので、多数のグラマのそれぞれについて類似度Sが算出
される。
【0051】続いて、図3のステップS307において
1つの音声コマンド(W1)に対して複数のグラマ(W
(1))(W2(2))(W2(3))…から得られた類似度
Sのうち、第1のしきい値(TH1、所定値)より高い
ものがあるか否かが、コマンド処理部201により判断
される(ステップS309)。ここで、第1のしきい値
(TH1)は、例えば0.9である。グラマ(W2(1)
(W2(2))(W2(3))の類似度Sは図8に示すとおり
であり、第1のしきい値(TH1)である0.9より高
いものはない。このように第1のしきい値より高い類似
度Sを有するグラマはないと判断した場合、後述のステ
ップS317の処理が行われる。
【0052】一方、ステップS309において第1のし
きい値(TH1)より高い類似度Sが存在すると判断し
た場合、第1のしきい値(TH1)より高い類似度Sは
1つだけであるか否かが判断される(ステップS31
1)。第1のしきい値(TH1)より高い類似度Sは1
つだけ存在すると判断された場合、その第1のしきい値
(TH1)より高い類似度Sを算出したグラマ(W2
(x))が指定するコマンドの実行命令をアプリケーショ
ン213へ送出し、コマンドが実行されて(ステップS
315)、本処理は終了する。一方、ステップS311
において第1のしきい値(TH1)より高い類似度Sが
2つ以上あると判断された場合、すなわち、類似度Sが
第1のしきい値(TH1)より高い、実行可能なグラマ
が複数あると判断された場合、後述のステップS319
の処理が行われる。
【0053】また、ステップS309において、1つの
音声コマンド(W1)に対して複数のグラマから得られ
た類似度Sのうち、第1のしきい値(TH1)より高い
類似度Sがないと判断されると、第1のしきい値(TH
1)以下の値に設定された第2のしきい値(TH2、下
限値)より高い類似度Sがあるか否かを判断する(ステ
ップS317)。ここで、第2のしきい値は、例えば
0.5である。第2のしきい値(TH2)より高い類似
度Sはないと判断した場合、即ち、グラマの類似度Sは
全て第2のしきい値以下であると判断した場合、音声コ
マンドは通常に入力される文章として処理し(ステップ
S321)、本処理を終了する。一方、ステップS31
7において、第2のしきい値(TH2)より高いものが
あると判断した場合、例えば、図8に示すように類似度
Sが第2のしきい値(TH2)の0.5より高いグラマ
(W2(2))(W2(3))が存在する場合、コマンド選択
処理を行い(ステップS319)、本処理を終了する。
【0054】なお、ここでは、2つのしきい値を設けた
実施例のみ示したが、かかるしきい値の数は2に限れら
れないことは言うまでもない。設けるしきい値の数や数
値は、所望の処理速度や精度に応じて可変である。判断
基準を「所定のしきい位置より高い値」とするか、「所
定のしきい値以上の値」とするか等は任意である。要す
るに、本発明におけるステップS309、S311およ
びS317においては、類似度が所定の範囲内の値にあ
るか否かが判断され、その結果に応じて異なった処理が
なされる。
【0055】図9は、ステップS319におけるコマン
ド選択処理についての処理の流れを説明する図である。
まず、図3に示すステップS317において第2のしき
い値(TH2)より高い類似度Sのグラマ(W2(2)
(W2(3))を、ユーザに対して提示し、実行するコマ
ンドとしてグラマの選択要求を行う(ステップS50
1)。ここでは、コンピュータ装置100に接続された
CRT5に図10に示すような画面を表示させる。図1
0に示すように、画面には第2のしきい値(TH2)よ
り高い類似度Sのグラマ(W2(2))(W2(3))が表示
されて、本来ユーザが実行しようとしていたコマンドに
該当するグラマを、マウス7やキーボード8を用いてユ
ーザ自身によって選択させる。そして、コマンド処理部
201は、ユーザが選択したグラマについての選択要求
を受け付ける(ステップS503)。
【0056】続けて、コマンド処理部201は、ステッ
プS503において受け付けられたグラマと、ユーザが
一番初めに発声した音声コマンドとを関連づけ、グラマ
登録部209に新たなグラマとして登録する(ステップ
S505)。そして、登録された新規なグラマを実行し
(ステップS507)、本処理を終了する。
【0057】ここで、グラマ登録部209に新たに登録
されるグラマは、ユーザが発声した音声コマンドをその
まま記録するものではなく、BN記法に沿って、所定の
単語に置き換えられたときも認識可能となるようなグラ
マとして記録される。例えば、上記のようにユーザが発
声した音声コマンド(W1)が「10センチ右に今のウ
ィンドウを移動」であり、図10に示す画面においてユ
ーザが「アクティブなウィンドウを10センチ右に移
動」(W2(3))を選択した場合について説明する。こ
のとき、グラマ登録部209には既にグラマ(W
(3))として図6に示す<command3>が登録
されている。この<command3>を以下に示すよ
うなコマンドに変更する。ここでは、既に登録されてい
るグラマと、新たに追加するグラマが、「or」で接続
され、且つ<状態>の定義に「今の」という単語が追加
されている。
【0058】<command3> =<状態><項目>を<数字><単位><方向>に移動
|<数字><単位><方向>に<状態><項目>を移動 <状態>=アクティブな|……|<今の>
【0059】以上のように、本実施の形態の音声コマン
ド処理システムでは、ユーザが発声した音声コマンド
が、登録されているグラマと完全に一致しない場合であ
っても、既に登録されているグラマと類似度が高い場合
には、その音声コマンドを実行することができる。した
がって、ユーザは全ての音声コマンドを正確に覚える必
要が無い。また、ユーザは、発声した音声コマンドが認
識されないことに対する不快感を軽減することができ
る。
【0060】さらに、ユーザが発声した音声コマンドを
既に登録されているグラマとを結び付けて登録する、す
なわちグラマを再構築することにより、処理できる音声
コマンドの幅を拡張することができる。また、この方法
では、ユーザの音声コマンドをそのまま登録するもので
はないので、グラマの登録量が爆発的に多くならず、音
声コマンドの認識において精度(認識率)をさほど落と
さずに済む。また、音声コマンド処理システムの初期設
定において予め登録しておくグラマのバリエーションを
少なくし、それぞれのユーザの嗜好に沿ったコマンドを
使用中に新たに登録することで、それぞれのユーザにと
って使い易いものへと変化する。
【0061】なお、本実施の形態で示したような処理を
行うためのプログラムは、以下のような記憶媒体、プロ
グラム伝送装置の形態とすることもできる。すなわち、
記憶媒体としては、コンピュータ装置に実行させるプロ
グラムを、CD−ROM、DVD、メモリ、ハードディ
スク等の記憶媒体に、コンピュータ装置が読み取り可能
に記憶させれば良い。また、プログラム伝送装置として
は、上記したようなプログラムを記憶させたCD−RO
M、DVD、メモリ、ハードディスク等の記憶手段と、
この記憶手段から当該プログラムを読み出し、当該プロ
グラムを実行する装置側に、コネクタ、あるいはインタ
ーネットやLAN等のネットワークを介して当該プログ
ラムを伝送する伝送手段とを備える構成とすれば良い。
【0062】上記以外にも、本発明の主旨を逸脱しない
限り、上記実施の形態で挙げた構成を取捨選択したり、
他の構成に適宜変更することが可能である。
【0063】
【発明の効果】このように本発明によれば、音声コマン
ド処理システムにおいて音声コマンドの認識率を向上さ
せることができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態におけるコンピュータ装
置の構成を示す図である。
【図2】 コンピュータ装置における音声コマンド処理
システムの処理要素を示す機能ブロック図である。
【図3】 音声コマンド処理システムにおける処理の流
れを説明する図である。
【図4】 辞書に登録されるデータの一例を示す図であ
る。
【図5】 類似度の計算における処理の流れを示す図で
ある。
【図6】 グラマ登録部に登録されているグラマの一例
を示す。
【図7】 スコア計算用テーブルに登録されたデータの
一例を示す。
【図8】 音声コマンドに対する各グラマの類似度を示
す図である。
【図9】 コマンド選択処理についての処理の流れを説
明する図である。
【図10】 ユーザに対して選択要求を行う画面の例を
示す図である。
【符号の説明】
1…CPU、18…HDD、24…マイク、100…コ
ンピュータ装置、201…コマンド処理部、203…音
声コマンド類似度計算部、205…スコア計算用テーブ
ル、207…音声認識エンジン、209…グラマ登録
部、211…辞書、213…アプリケーション
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 537A 15/28 (72)発明者 田原 義則 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 友田 大輔 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 三坪 喜久男 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 (72)発明者 阿竹 義徳 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 大和事業所内 Fターム(参考) 5D015 GG06 HH21 KK02 LL02 LL04 LL11

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 ユーザが発声した音声コマンドを処理す
    る音声コマンド処理システムであって、 複数の実行可能なコマンドを予め登録する登録手段と、 ユーザにより発声された音声コマンドを取得する取得手
    段と、 前記取得手段により取得された前記音声コマンドが、前
    記登録手段の登録コマンドのいずれかと一致するか否か
    を判断する判断手段と、 前記判断手段によりいずれの登録コマンドとも一致しな
    いと判断された場合、前記音声コマンドを文章として解
    析し、前記登録コマンドと当該文章との類似度を算出す
    る算出手段とを備えたことを特徴とする音声コマンド処
    理システム。
  2. 【請求項2】 前記算出手段により算出された前記類似
    度が所定の範囲の値である前記登録コマンドについて実
    行指示を行う実行指示手段をさらに備えたことを特徴と
    する請求項1記載の音声コマンド処理システム。
  3. 【請求項3】 前記類似度が第1の範囲の値である複数
    の前記登録コマンドがある場合、前記登録コマンドをユ
    ーザに通知し、当該登録コマンドを実行するか否かの判
    断を当該ユーザに要求する要求手段をさらに備えたこと
    を特徴とする請求項1記載の音声コマンド処理システ
    ム。
  4. 【請求項4】 前記類似度が前記第1の範囲より低い値
    に設定された第2の範囲の値である1または複数の前記
    登録コマンドがある場合、前記登録コマンドをユーザに
    通知し、当該登録コマンドを実行するか否かの判断を当
    該ユーザに要求する要求手段をさらに備えたことを特徴
    とする請求項3記載の音声コマンド処理システム。
  5. 【請求項5】 ユーザが発声した音声コマンドを実行可
    能なコンピュータ装置であって、 前記コンピュータ装置において実行可能なコマンドを登
    録する登録部と、 ユーザが発声した音声コマンドを受け付け、当該音声コ
    マンドを実行するための処理を行う音声コマンド処理部
    と、 前記音声コマンド処理部により受け付けられた前記音声
    コマンドを文章として解析する音声認識エンジンと、 前記音声認識エンジンにより解析された前記文章と、前
    記登録部の登録コマンドとを比較し、類似度を算出する
    類似度計算部と、 を備えたことを特徴とするコンピュータ装置。
  6. 【請求項6】 前記登録コマンドの語句に類似する類似
    語句、および当該登録コマンドの語句と前記類似語句の
    共通性に基づいて設定されたスコアを登録するスコアデ
    ータ登録部をさらに備え、 前記類似度計算部は、前記スコアを基に前記類似度を算
    出することを特徴とする請求項5記載のコンピュータ装
    置。
  7. 【請求項7】 前記音声コマンド処理部は、前記類似度
    が所定のしきい値より高い場合に、前記登録コマンドを
    実行することを特徴とする請求項5記載のコンピュータ
    装置。
  8. 【請求項8】 ユーザが発声した音声コマンドをコンピ
    ュータ装置において実行するための音声コマンド処理方
    法であって、 ユーザの発声した音声コマンドを受け付けるステップ
    と、 受け付けた前記音声コマンドを予め登録された登録コマ
    ンドとして認識可能か否かを判断するステップと、 前記登録コマンドとして認識不可能であると判断する
    と、前記音声コマンドを文章として解析するステップ
    と、 類似度を算出するため、解析された前記文章の語句と、
    前記登録コマンドの語句とのマッチングを行うステップ
    とを有することを特徴とする音声コマンド処理方法。
  9. 【請求項9】 マッチングされた前記文章の前記語句と
    前記登録コマンドの前記語句との共通性に基づいたスコ
    アを算出するステップと、 前記スコアから、前記文章と前記登録コマンドとの類似
    度を算出するステップとをさらに有することを特徴とす
    る請求項8記載の音声コマンド処理方法。
  10. 【請求項10】 前記類似度が所定の範囲の値である前
    記音声コマンドを、前記文章と関連づけて前記登録コマ
    ンドとして登録するステップをさらに有することを特徴
    とする請求項9記載の音声コマンド処理方法。
  11. 【請求項11】 算出された前記類似度が所定の範囲の
    値である場合、当該類似度が算出された前記登録コマン
    ドを実行するステップをさらに有することを特徴とする
    請求項9記載の音声コマンド処理方法。
  12. 【請求項12】 前記類似度が第1の範囲の値である複
    数の前記登録コマンドがある場合、または前記類似度が
    前記第1の範囲より低い値に設定された第2の範囲の値
    である1または複数の前記登録コマンドがある場合、の
    少なくとも1つに該当する場合、当該類似度が算出され
    た前記登録コマンドをユーザに提示し、実行する前記登
    録コマンドの選択を要求するステップをさらに有するこ
    とを特徴とする請求項9記載の音声コマンド処理方法。
  13. 【請求項13】 ユーザが発声した音声コマンドをコン
    ピュータ装置において実行するための音声コマンド処理
    方法であって、 ユーザの発声した音声コマンドを文章として解析するス
    テップと、 前記文章として解析された前記音声コマンド(W1)
    と、予め登録された登録コマンド(W2)とを比較して
    類似度S(W1,W2)を算出するステップとを有し、 前記類似度S(W1,W2)は、音声コマンドのi番目
    の単語(w1(i))と登録コマンドのj番目の単語
    (w2(j))との共通性に基づくスコア(s)の合計
    を、類似度計算に適用可能な単語の個数(Vn)で除し
    た値により表されることを特徴とする音声コマンド処理
    方法。
  14. 【請求項14】 前記類似度S(W1,W2)が第1の
    しきい値(TH1)より高い場合、前記登録コマンドを
    実行するステップと、 前記類似度S(W1,W2)が前記第1のしきい値(T
    H1)より低く、且つ当該類似度S(W1,W2)が当
    該第1のしきい値(TH1)より低い値に設定された第
    2のしきい値(TH2)より高い場合、前記登録コマン
    ドをユーザに提示し、当該登録コマンドを実行するか否
    かの判断の要求を行うステップと、 をさらに有することを特徴とする請求項13記載の音声
    コマンド処理方法。
  15. 【請求項15】 ユーザが発声した音声コマンドをコン
    ピュータ装置で実行させるためのプログラムであって、 ユーザの発声した音声コマンドを受け付ける手順と、 受け付けた前記音声コマンドを予め登録された登録コマ
    ンドとして認識可能か否かを判断する手順と、 類似度を算出するため、前記登録コマンドとして認識不
    可能であると判断すると、前記音声コマンドを文章とし
    て認識する手順と、 前記文章の語句と、前記登録コマンドの語句とのマッチ
    ングを行う手順とを前記コンピュータ装置に実行させる
    ことを特徴とするプログラム。
  16. 【請求項16】 マッチングされた前記文章の前記語句
    と、前記登録コマンドの前記語句の共通性に基づいたス
    コアを算出する手順と、 前記スコアから、前記文章と前記登録コマンドの類似度
    を算出する手順と、 をさらに前記コンピュータ装置に実行させることを特徴
    とする請求項15記載のプログラム。
  17. 【請求項17】 前記類似度が所定の範囲の値である前
    記音声コマンドを、前記文章と関連づけて前記登録コマ
    ンドとして登録する手順をさらに前記コンピュータ装置
    に実行させることを特徴とする請求項16記載のプログ
    ラム。
  18. 【請求項18】 算出された前記類似度が所定の範囲の
    値である場合、当該類似度が算出された前記登録コマン
    ドを実行する手順をさらに前記コンピュータ装置に実行
    させることを特徴とする請求項16記載のプログラム。
  19. 【請求項19】 前記類似度が第1の範囲の値である複
    数の前記登録コマンドがある場合、または前記類似度が
    前記第1の範囲より低い値に設定された第2の範囲の値
    である1または複数の前記登録コマンドがある場合、の
    少なくとも1つに該当する場合、当該類似度が算出され
    た前記登録コマンドをユーザに提示して実行するか否か
    を問い合わせる手順をさらに前記コンピュータ装置に実
    行させることを特徴とする請求項16記載のプログラ
    ム。
JP2002034973A 2002-02-13 2002-02-13 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム Pending JP2003241790A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002034973A JP2003241790A (ja) 2002-02-13 2002-02-13 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
US10/361,547 US7299187B2 (en) 2002-02-13 2003-02-10 Voice command processing system and computer therefor, and voice command processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002034973A JP2003241790A (ja) 2002-02-13 2002-02-13 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2003241790A true JP2003241790A (ja) 2003-08-29

Family

ID=27654953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002034973A Pending JP2003241790A (ja) 2002-02-13 2002-02-13 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム

Country Status (2)

Country Link
US (1) US7299187B2 (ja)
JP (1) JP2003241790A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006514753A (ja) * 2003-03-25 2006-05-11 シーメンス アクチエンゲゼルシヤフト 話者に依存する音声認識方法および音声認識システム
WO2007114226A1 (ja) * 2006-03-31 2007-10-11 Pioneer Corporation 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
JP2009515260A (ja) * 2005-11-07 2009-04-09 ゼネラル・エレクトリック・カンパニイ 放射線医療のディクテーションおよびuiコマンドにおける音声下対話のシステムおよび方法
JP2009252238A (ja) * 2008-04-08 2009-10-29 Lg Electronics Inc 移動端末機及びそのメニュー制御方法
JP2014138421A (ja) * 2013-01-17 2014-07-28 Samsung Electronics Co Ltd 映像処理装置及びその制御方法、並びに映像処理システム
CN110910869A (zh) * 2018-09-14 2020-03-24 成都启英泰伦科技有限公司 一种语音识别方法和设备

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
JP4181590B2 (ja) * 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
JP2008233345A (ja) * 2007-03-19 2008-10-02 Toshiba Corp インタフェース装置及びインタフェース処理方法
US9081852B2 (en) * 2007-10-05 2015-07-14 Fujitsu Limited Recommending terms to specify ontology space
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
WO2011027442A1 (ja) * 2009-09-03 2011-03-10 三菱電機株式会社 エレベータの制御装置
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9384733B2 (en) * 2011-03-25 2016-07-05 Mitsubishi Electric Corporation Call registration device for elevator
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
KR101944414B1 (ko) * 2012-06-04 2019-01-31 삼성전자주식회사 음성 인식 서비스를 제공하기 위한 방법 및 그 전자 장치
WO2015030474A1 (ko) * 2013-08-26 2015-03-05 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 방법
DE112015001468T5 (de) * 2014-03-27 2016-12-15 Sony Corporation Elektronische Vorrichtung und Verfahren zum Identifizieren von Eingabebefehlen eines Benutzers
CA2953619A1 (en) 2014-06-05 2015-12-10 Interdev Technologies Inc. Systems and methods of interpreting speech data
CN104103272B (zh) * 2014-07-15 2017-10-10 无锡中感微电子股份有限公司 语音识别方法、装置和蓝牙耳机
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
WO2016045735A1 (en) * 2014-09-25 2016-03-31 Siemens Aktiengesellschaft Method and system for performing a configuration of an automation system
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US20160260029A1 (en) * 2015-03-06 2016-09-08 Speaktoit, Inc. Example-driven machine learning scheme for dialog system engines
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10896671B1 (en) * 2015-08-21 2021-01-19 Soundhound, Inc. User-defined extensions of the command input recognized by a virtual assistant
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
CN108320756B (zh) * 2018-02-07 2021-12-03 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
KR102773717B1 (ko) 2018-11-15 2025-02-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법
US11487837B2 (en) * 2019-09-24 2022-11-01 Searchmetrics Gmbh Method for summarizing multimodal content from webpages
CN114611523B (zh) * 2022-01-25 2024-12-27 北京探境科技有限公司 一种命令采集方法、装置和智能设备
US11714539B1 (en) 2022-10-28 2023-08-01 Honeywell International Inc. Cursor management methods and systems
US11960668B1 (en) 2022-11-10 2024-04-16 Honeywell International Inc. Cursor management methods and systems for recovery from incomplete interactions
US12236165B2 (en) 2023-04-05 2025-02-25 Honeywell International Inc. Methods and systems for decoupling user input using context
US11954325B1 (en) 2023-04-05 2024-04-09 Honeywell International Inc. Methods and systems for assigning text entry components to cursors

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064264A (ja) * 1992-06-18 1994-01-14 Ricoh Co Ltd 音声入出力システム
JPH08278794A (ja) * 1995-04-07 1996-10-22 Sony Corp 音声認識装置および音声認識方法並びに音声翻訳装置
WO1998009228A1 (en) * 1996-08-29 1998-03-05 Bcl Computers, Inc. Natural-language speech control
JP2000029585A (ja) * 1998-07-08 2000-01-28 Canon Inc 音声コマンド認識画像処理装置
JP2000242494A (ja) * 1999-02-22 2000-09-08 Yamaha Corp データ転送方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5255341A (en) * 1989-08-14 1993-10-19 Kabushiki Kaisha Toshiba Command input device for voice controllable elevator system
JP2964518B2 (ja) * 1990-01-30 1999-10-18 日本電気株式会社 音声制御方式
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
JP3284832B2 (ja) * 1995-06-22 2002-05-20 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6314411B1 (en) * 1996-06-11 2001-11-06 Pegasus Micro-Technologies, Inc. Artificially intelligent natural language computational interface system for interfacing a human to a data processor having human-like responses
WO1998050907A1 (en) * 1997-05-06 1998-11-12 Speechworks International, Inc. System and method for developing interactive speech applications
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6208972B1 (en) * 1998-12-23 2001-03-27 Richard Grant Method for integrating computer processes with an interface controlled by voice actuated grammars
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
JP2000242464A (ja) 1999-02-23 2000-09-08 Sharp Corp 音声情報処理装置及び方法並びに音声情報処理プログラムを記憶した記憶媒体
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064264A (ja) * 1992-06-18 1994-01-14 Ricoh Co Ltd 音声入出力システム
JPH08278794A (ja) * 1995-04-07 1996-10-22 Sony Corp 音声認識装置および音声認識方法並びに音声翻訳装置
WO1998009228A1 (en) * 1996-08-29 1998-03-05 Bcl Computers, Inc. Natural-language speech control
JP2000029585A (ja) * 1998-07-08 2000-01-28 Canon Inc 音声コマンド認識画像処理装置
JP2000242494A (ja) * 1999-02-22 2000-09-08 Yamaha Corp データ転送方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006514753A (ja) * 2003-03-25 2006-05-11 シーメンス アクチエンゲゼルシヤフト 話者に依存する音声認識方法および音声認識システム
JP2009515260A (ja) * 2005-11-07 2009-04-09 ゼネラル・エレクトリック・カンパニイ 放射線医療のディクテーションおよびuiコマンドにおける音声下対話のシステムおよび方法
JP4551961B2 (ja) * 2006-03-31 2010-09-29 パイオニア株式会社 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
WO2007114226A1 (ja) * 2006-03-31 2007-10-11 Pioneer Corporation 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
JPWO2007114226A1 (ja) * 2006-03-31 2009-08-13 パイオニア株式会社 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置
US8560324B2 (en) 2008-04-08 2013-10-15 Lg Electronics Inc. Mobile terminal and menu control method thereof
JP2009252238A (ja) * 2008-04-08 2009-10-29 Lg Electronics Inc 移動端末機及びそのメニュー制御方法
JP2014138421A (ja) * 2013-01-17 2014-07-28 Samsung Electronics Co Ltd 映像処理装置及びその制御方法、並びに映像処理システム
KR20140096202A (ko) * 2013-01-17 2014-08-05 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
KR102019719B1 (ko) * 2013-01-17 2019-09-09 삼성전자 주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
JP2019153314A (ja) * 2013-01-17 2019-09-12 三星電子株式会社Samsung Electronics Co.,Ltd. 映像処理装置及びその制御方法、並びに映像処理システム
CN110910869A (zh) * 2018-09-14 2020-03-24 成都启英泰伦科技有限公司 一种语音识别方法和设备
CN110910869B (zh) * 2018-09-14 2022-02-18 成都启英泰伦科技有限公司 一种语音识别方法和设备

Also Published As

Publication number Publication date
US7299187B2 (en) 2007-11-20
US20030154077A1 (en) 2003-08-14

Similar Documents

Publication Publication Date Title
JP2003241790A (ja) 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
JP3848319B2 (ja) 情報処理方法及び情報処理装置
CN112673421B (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US6795806B1 (en) Method for enhancing dictation and command discrimination
US20150325240A1 (en) Method and system for speech input
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
JP2001282282A (ja) 音声情報処理方法および装置および記憶媒体
TW201517018A (zh) 語音辨識方法及其電子裝置
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
JP2023503718A (ja) 音声認識
US12080275B2 (en) Automatic learning of entities, words, pronunciations, and parts of speech
Sim Speak-as-you-swipe (SAYS) a multimodal interface combining speech and gesture keyboard synchronously for continuous mobile text entry
CN106537489B (zh) 用于识别包括单词序列的语音的方法和系统
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP2002229585A (ja) 音声認識文章入力装置
JP5196114B2 (ja) 音声認識装置およびプログラム
Rudzionis et al. Web services based hybrid recognizer of Lithuanian voice commands
JP4962962B2 (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050906

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20051007