JP2020064267A - 音声認識装置、端末、音声認識方法および音声認識プログラム - Google Patents
音声認識装置、端末、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP2020064267A JP2020064267A JP2018197858A JP2018197858A JP2020064267A JP 2020064267 A JP2020064267 A JP 2020064267A JP 2018197858 A JP2018197858 A JP 2018197858A JP 2018197858 A JP2018197858 A JP 2018197858A JP 2020064267 A JP2020064267 A JP 2020064267A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice recognition
- unit
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】音声認識装置10は、カメラにより撮像された画像に含まれるユーザを識別する。そして、音声認識装置10は、識別したユーザに関する属性情報を取得する。続いて、音声認識装置10は、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。また、音声認識装置10は、ユーザの音声データを入力として、該ユーザに対応するモデルを用いて、音声認識を行う。
【選択図】図1
Description
以下の実施の形態では、第1の実施形態に係る音声認識システム100の構成、音声認識装置10の構成、音声認識装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
図1は、第1の実施形態に係る音声認識システムの構成例を示すブロック図である。第1の実施形態に係る音声認識システム100は、音声認識装置10および複数の自動車20を有し、音声認識装置10と自動車20とはネットワーク30を介して互いに接続されている。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。例えば、音声認識装置10が自動車20とネットワーク30を介して互いに接続されていている場合に限定されるものではなく、例えば、音声認識装置10は、自動車20の中に設置されていてもよい。
次に、図2を用いて、音声認識装置10の構成を説明する。図2は、第1の実施形態に係る音声認識装置の構成例を示すブロック図である。図2に示すように、この音声認識装置10は、通信処理部11、制御部12および記憶部13を有する。以下に音声認識装置10が有する各部の処理を説明する。
次に、図6〜図8を用いて、第1の実施形態に係る音声認識装置10による処理手順の例を説明する。図6は、第1の実施形態に係る音声認識装置におけるプロファイル作成処理の流れの一例を示すフローチャートである。図7は、第1の実施形態に係る音声認識装置における学習処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る音声認識装置における制御実行処理の流れの一例を示すフローチャートである。
第1の実施形態に係る音声認識装置10では、カメラにより撮像された画像に含まれるユーザを識別し、識別したユーザに関する属性情報を取得し、各ユーザの音声データを用いて、各ユーザに対応する音声認識に関するモデルをそれぞれ学習する。また、音声認識装置10は、ユーザの音声データを入力として、該ユーザに対応するモデルを用いて、音声認識を行う。このため、音声認識装置10では、音声認識の精度を向上させることが可能である。
上述した第1の実施形態では、自動車20の乗っている各ユーザの音声データに対して音声認識を行う場合を説明したが、これに限定されるものではなく、例えば、会社のオフィスや自宅等における各ユーザの音声データに対して音声認識を行うようにしてもよい。
また、上記した音声認識装置10が実行する処理の一部をユーザの端末が実行するようにしてもよい。例えば、図2に例示した音声認識装置10(サーバ)の認識部12dの機能を端末が有していてもよい。
図12は、変形例に係るサーバおよび端末の構成例を示すブロック図である。図12に例示するように、サーバ50と端末60とはネットワーク30を介して互いに接続されている。ここでサーバ50は、図2に例示した音声認識装置10の認識部12d以外の機能を有するものとする。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、上記実施形態において説明した音声認識装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る音声認識装置10が実行する処理をコンピュータが実行可能な言語で記述した音声認識プログラムを作成することもできる。この場合、コンピュータが音声認識プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された音声認識プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
11 通信処理部
12 制御部
12a 識別部
12b 取得部
12c 学習部
12d 認識部
12e 制御部
13 記憶部
13a プロファイル記憶部
13b モデル情報記憶部
20 自動車
30 ネットワーク
40A、40B 室内カメラ
50 サーバ
60 端末
61 受付部
62 認識部
100、100A 音声認識システム
Claims (8)
- カメラにより撮像された画像に含まれるユーザを識別する識別部と、
前記識別部によって識別されたユーザに関する属性情報を取得する取得部と、
各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習部と、
前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識部と
を有することを特徴とする音声認識装置。 - 前記学習部は、前記ユーザおよびユーザの位置の組み合わせに対応する前記モデルをそれぞれ学習し、
前記認識部は、前記ユーザの音声データを入力として、該ユーザおよびユーザの位置に対応する前記モデルを用いて、音声認識を行うことを特徴とする請求項1に記載の音声認識装置。 - 前記認識部によって認識された音声に所定の指示が含まれ、かつ、該指示が所定の条件を満たす場合には、該指示に対応する処理を実行するように制御する制御部をさらに有することを特徴とする請求項1に記載の音声認識装置。
- 前記識別部は、自動車に搭載されたカメラにより撮像された車内の画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザの着座位置のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。 - 前記識別部は、室内に搭載されたカメラにより撮像された画像に含まれるユーザを識別し、
前記取得部は、前記識別部によって識別されたユーザに関する属性情報として、前記ユーザの性別、前記ユーザの年齢および前記ユーザがいる部屋のいずれか一つまたは複数を取得することを特徴とする請求項1に記載の音声認識装置。 - ユーザの音声データを受け付ける受付部と、
前記受付部によってユーザの音声データが受け付けられると、各ユーザの音声データを用いてユーザ別に学習された複数の音声認識に関するモデルのうち前記ユーザに対応する前記モデルに対して、前記受付部によって受け付けたユーザの音声データを入力し、前記モデルの出力データに基づいて、音声認識を行う認識部と
を有することを特徴とする端末。 - 音声認識装置によって実行される音声認識方法であって、
カメラにより撮像された画像に含まれるユーザを識別する識別工程と、
前記識別工程によって識別されたユーザに関する属性情報を取得する取得工程と、
各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習工程と、
前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識工程と
を含むことを特徴とする音声認識方法。 - カメラにより撮像された画像に含まれるユーザを識別する識別ステップと、
前記識別ステップによって識別されたユーザに関する属性情報を取得する取得ステップと、
各ユーザの音声データを用いて、前記各ユーザに対応する音声認識に関するモデルをそれぞれ学習する学習ステップと、
前記ユーザの音声データを入力として、該ユーザに対応する前記モデルを用いて、音声認識を行う認識ステップと
をコンピュータに実行させることを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197858A JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197858A JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020064267A true JP2020064267A (ja) | 2020-04-23 |
JP7117972B2 JP7117972B2 (ja) | 2022-08-15 |
Family
ID=70388269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197858A Active JP7117972B2 (ja) | 2018-10-19 | 2018-10-19 | 音声認識装置、音声認識方法および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7117972B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
CN115376512A (zh) * | 2022-08-22 | 2022-11-22 | 深圳市长量智能有限公司 | 一种基于人物画像的语音识别系统及方法 |
KR102502387B1 (ko) * | 2022-06-15 | 2023-02-23 | 주식회사 모아시스템즈 | 음성 인식 기반 물류 처리 방법, 장치 및 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010221893A (ja) * | 2009-03-24 | 2010-10-07 | Mitsubishi Electric Corp | 車載情報機器 |
WO2015029379A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
WO2017145373A1 (ja) * | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
WO2018175959A1 (en) * | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
-
2018
- 2018-10-19 JP JP2018197858A patent/JP7117972B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010221893A (ja) * | 2009-03-24 | 2010-10-07 | Mitsubishi Electric Corp | 車載情報機器 |
WO2015029379A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
WO2017145373A1 (ja) * | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
WO2018175959A1 (en) * | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
Non-Patent Citations (1)
Title |
---|
原信一,今村弘樹: "顔画像を用いた個人識別による話者適応型音声認識手法", 電子情報通信学会技術研究報告, vol. 第112巻,第141号, JPN6022011741, July 2012 (2012-07-01), pages 29 - 32, ISSN: 0004736759 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
KR102502387B1 (ko) * | 2022-06-15 | 2023-02-23 | 주식회사 모아시스템즈 | 음성 인식 기반 물류 처리 방법, 장치 및 시스템 |
CN115376512A (zh) * | 2022-08-22 | 2022-11-22 | 深圳市长量智能有限公司 | 一种基于人物画像的语音识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7117972B2 (ja) | 2022-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515640B2 (en) | Generating dialogue based on verification scores | |
CN106816149B (zh) | 车辆自动语音识别系统的优先化内容加载 | |
US12046237B2 (en) | Speech interaction method and apparatus, computer readable storage medium and electronic device | |
WO2019205642A1 (zh) | 基于情绪识别的安抚方法、装置、系统、计算机设备以及计算机可读存储介质 | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
CN110001549A (zh) | 用于控制车辆的方法和装置 | |
JP7117972B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US20140067201A1 (en) | Method and Apparatus for Subjective Command Control of Vehicle Systems | |
DE102018125966A1 (de) | System und verfahren zur erfassung von stichworten in einer unterhaltung | |
CN110100447A (zh) | 信息处理方法及装置、多媒体设备及存储介质 | |
KR20160098771A (ko) | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 | |
EP3674882B1 (en) | Localized virtual personal assistant | |
US9963096B2 (en) | Vehicle infotainment and connectivity system | |
KR20230118089A (ko) | 사용자 스피치 프로파일 관리 | |
JP2018027731A (ja) | 車載装置、車載装置の制御方法およびコンテンツ提供システム | |
DE102016217026A1 (de) | Sprachsteuerung eines Kraftfahrzeugs | |
EP4276818A1 (en) | Speech operation method for device, apparatus, and electronic device | |
US20230206916A1 (en) | Service management system and service management method for a vehicle | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
JP5376072B1 (ja) | 車載情報システムおよび音声認識適応方法 | |
WO2020017165A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
CN112397066A (zh) | 语音识别方法、装置、车辆及计算机存储介质 | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
US20230252987A1 (en) | Vehicle and control method thereof | |
US20250058726A1 (en) | Voice assistant optimization dependent on vehicle occupancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7117972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |