JP7117972B2 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents
音声認識装置、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP7117972B2 JP7117972B2 JP2018197858A JP2018197858A JP7117972B2 JP 7117972 B2 JP7117972 B2 JP 7117972B2 JP 2018197858 A JP2018197858 A JP 2018197858A JP 2018197858 A JP2018197858 A JP 2018197858A JP 7117972 B2 JP7117972 B2 JP 7117972B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- speech recognition
- unit
- recognition
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
以下の実施の形態では、第1の実施形態に係る音声認識システム100の構成、音声認識装置10の構成、音声認識装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
図1は、第1の実施形態に係る音声認識システムの構成例を示すブロック図である。第1の実施形態に係る音声認識システム100は、音声認識装置10および複数の自動車20を有し、音声認識装置10と自動車20とはネットワーク30を介して互いに接続されている。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。例えば、音声認識装置10が自動車20とネットワーク30を介して互いに接続されていている場合に限定されるものではなく、例えば、音声認識装置10は、自動車20の中に設置されていてもよい。
次に、図2を用いて、音声認識装置10の構成を説明する。図2は、第1の実施形態に係る音声認識装置の構成例を示すブロック図である。図2に示すように、この音声認識装置10は、通信処理部11、制御部12および記憶部13を有する。以下に音声認識装置10が有する各部の処理を説明する。
次に、図6~図8を用いて、第1の実施形態に係る音声認識装置10による処理手順の例を説明する。図6は、第1の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。図7は、第1の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。
第1の実施形態に係る音声認識装置10では、カメラにより撮像された画像に含まれるユーザを識別し、識別したユーザに関する属性情報を取得し、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。また、音声認識装置10は、ユーザの音声データを入力として、該ユーザに対応するモデルを用いて、音声認識を行う。このため、音声認識装置10では、音声認識の精度を向上させることが可能である。
上述した第1の実施形態では、自動車20の乗っている各ユーザの音声データに対して音声認識を行う場合を説明したが、これに限定されるものではなく、例えば、会社のオフィスや自宅等における各ユーザの音声データに対して音声認識を行うようにしてもよい。
また、上記した音声認識装置10が実行する処理の一部をユーザの端末が実行するようにしてもよい。例えば、図2に例示した音声認識装置10(サーバ)の認識部12dの機能を端末が有していてもよい。
図12は、変形例に係るサーバおよび端末の構成例を示すブロック図である。図12に例示するように、サーバ50と端末60とはネットワーク30を介して互いに接続されている。ここでサーバ50は、図2に例示した音声認識装置10の認識部12d以外の機能を有するものとする。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、上記実施形態において説明した音声認識装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る音声認識装置10が実行する処理をコンピュータが実行可能な言語で記述した音声認識プログラムを作成することもできる。この場合、コンピュータが音声認識プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された音声認識プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
11 通信処理部
12 制御部
12a 識別部
12b 取得部
12c 学習部
12d 認識部
12e 制御部
13 記憶部
13a プロファイル記憶部
13b モデル情報記憶部
20 自動車
30 ネットワーク
40A、40B 室内カメラ
50 サーバ
60 端末
61 受付部
62 認識部
100、100A 音声認識システム
Claims (6)
- カメラにより撮像された画像に含まれるユーザを識別する識別部と、
前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習部と、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識部と
を有し、
前記学習部は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識部は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識装置。 - 前記認識部によって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する制御部をさらに有することを特徴とする請求項1に記載の音声認識装置。
- 前記識別部は、自動車に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザの着座位置のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。 - 前記識別部は、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザがいる部屋のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。 - 音声認識装置によって実行される音声認識方法であって、
カメラにより撮像された画像に含まれるユーザを識別する識別工程と、
前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習工程と、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識工程と
を含み、
前記学習工程は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識工程は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識方法。 - カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、
前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、
各ユーザの音声データを用いて、前記各ユーザの前記属性情報に対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、
前記ユーザの音声データを入力として、該ユーザの前記属性情報に対応する前記モデルを用いて、音声認識を行う認識ステップと
をコンピュータに実行させ、
前記学習ステップは、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識ステップは、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197858A JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197858A JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020064267A JP2020064267A (ja) | 2020-04-23 |
JP7117972B2 true JP7117972B2 (ja) | 2022-08-15 |
Family
ID=70388269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197858A Active JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7117972B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6977004B2 (ja) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
KR102502387B1 (ko) * | 2022-06-15 | 2023-02-23 | 주식회사 모아시스템즈 | 음성 인식 기반 물류 처리 방법, 장치 및 시스템 |
CN115376512B (zh) * | 2022-08-22 | 2023-05-30 | 深圳市长量智能有限公司 | 一种基于人物画像的语音识别系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010221893A (ja) | 2009-03-24 | 2010-10-07 | Mitsubishi Electric Corp | 車載情報機器 |
WO2015029379A1 (ja) | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
US20150161999A1 (en) | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
WO2017145373A1 (ja) | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
WO2018175959A1 (en) | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
-
2018
- 2018-10-19 JP JP2018197858A patent/JP7117972B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010221893A (ja) | 2009-03-24 | 2010-10-07 | Mitsubishi Electric Corp | 車載情報機器 |
WO2015029379A1 (ja) | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
US20150161999A1 (en) | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
WO2017145373A1 (ja) | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
WO2018175959A1 (en) | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
Non-Patent Citations (1)
Title |
---|
原信一,今村弘樹,顔画像を用いた個人識別による話者適応型音声認識手法,電子情報通信学会技術研究報告,2012年07月,第112巻,第141号,p.29-32 |
Also Published As
Publication number | Publication date |
---|---|
JP2020064267A (ja) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515640B2 (en) | Generating dialogue based on verification scores | |
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
US10818296B2 (en) | Method and system of robust speaker recognition activation | |
US12046237B2 (en) | Speech interaction method and apparatus, computer readable storage medium and electronic device | |
US11600269B2 (en) | Techniques for wake-up word recognition and related systems and methods | |
US20210065712A1 (en) | Automotive visual speech recognition | |
US9293133B2 (en) | Improving voice communication over a network | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
EP2987312B1 (en) | System and method for acoustic echo cancellation | |
JP7117972B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US20190355352A1 (en) | Voice and conversation recognition system | |
JP6466385B2 (ja) | サービス提供装置、サービス提供方法およびサービス提供プログラム | |
EP3955245A1 (en) | Apparatus, method and program for parsing an utterance using a speaker feature vector | |
KR20160098771A (ko) | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 | |
US11626104B2 (en) | User speech profile management | |
WO2022206602A1 (zh) | 语音唤醒方法、装置、存储介质及系统 | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
US20230103202A1 (en) | Voice assistant error detection system | |
KR20200041642A (ko) | 차량용 음성인식 시스템 및 그 제어 방법 | |
US20220262371A1 (en) | Voice request sequencing | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
US20230252987A1 (en) | Vehicle and control method thereof | |
US20250058726A1 (en) | Voice assistant optimization dependent on vehicle occupancy | |
JP7604273B2 (ja) | 音声加工装置及び音声加工方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7117972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |