JP6276513B2 - 音声認識装置および音声認識プログラム - Google Patents
音声認識装置および音声認識プログラム Download PDFInfo
- Publication number
- JP6276513B2 JP6276513B2 JP2013084104A JP2013084104A JP6276513B2 JP 6276513 B2 JP6276513 B2 JP 6276513B2 JP 2013084104 A JP2013084104 A JP 2013084104A JP 2013084104 A JP2013084104 A JP 2013084104A JP 6276513 B2 JP6276513 B2 JP 6276513B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- similar
- recognition
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(ハードウェア構成)
本実施の形態に係る音声認識装置は、たとえばPC(Personal Computer)などの汎用コンピュータによって実現可能である。
図2は、本発明の実施の形態に係る音声認識装置1の機能構成を示す機能ブロック図である。図2を参照して、音声認識装置1は、一般的な音声認識装置と同様に、1次認識処理部100、1次HMMデータ201および出力部116を含む。1次HMMデータ201は、全てのキーワードそれぞれに対応しており、1次認識処理部100による1次認識の際に用いられる。各1次HMMは、キーワードの音声全体から生成されたモデルパラメータである。本実施の形態では、2次認識処理部110にて用いられるHMM(2次HMMデータ202)と区別するために「1次HMM」と表わしている。1次HMMには、それぞれに識別番号が対応付けられている。
図3は、本発明の実施の形態における類似語データベース203のデータ構造例を示す図である。図3を参照して、類似語データベース203は、複数の行および複数のカラム31〜45により構成されている。本実施の形態では、複数の行それぞれは全てのキーワードに対応しているものとする。
(音声認識処理)
図4は、本発明の実施の形態における音声認識処理を示すフローチャートである。図4のフローチャートに示す処理手順は、予めプログラムとしてROM12に格納されており、CPU11が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。
たとえば、1次認識処理(S4〜S8)により得られた推定単語が「きゅう」であったと仮定する。また、「きゅう」の1次HMMは、11個の状態を有していると仮定する。
上記実施の形態では、2つの類似語が存在した場合、1次認識で尤度が高い方の類似語について2次認識を行ったが、尤度が低い方の類似語も含めて2次認識を行ってもよい。
Claims (8)
- 音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第1の単語を推定するための第1の認識処理手段と、
音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、
前記類似語情報を参照することで、前記第1の認識処理手段により推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するための判断手段と、
前記判断手段により前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、
前記抽出手段により抽出された前記部分音声信号の特徴量を用いて認識処理を実行するための第2の認識処理手段とを備え、
前記第1の認識処理手段は、前記音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出する第1の分析手段を含み、
前記第2の認識処理手段は、
前記部分音声信号を前記第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出する第2の分析手段と、
前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段とを含む、音声認識装置。 - 前記類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、前記類似するキーワードについての識別情報を含み、
前記記憶部は、前記特定のキーワードごとに、前記特定の区間を定めた区間情報をさらに記憶し、
前記抽出手段は、所定のアルゴリズムで前記音声信号を複数の区間に分割し、分割された前記複数の区間と前記区間情報とに基づいて、前記部分音声信号を抽出する、請求項1に記載の音声認識装置。 - 前記判定手段により前記認識結果として判定されたキーワードを出力するための出力手段をさらに備え、
前記出力手段は、前記判断手段により前記第2の単語が存在しないと判断された場合には、前記第1の認識処理手段により推定された前記第1の単語を前記認識結果として出力する、請求項1または2に記載の音声認識装置。 - 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、前記第1の認識処理手段における認識処理において、尤度が高かった方のキーワードを前記第2の単語として、前記判定処理を実行する、請求項1〜3のいずれかに記載の音声認識装置。
- 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、前記第1の単語および複数の類似するキーワードそれぞれについての前記第2のモデルパラメータを用いて、前記第1の単語および前記複数の類似するキーワードのうち最も尤度が高いキーワードを前記認識結果として判定する、請求項1〜3のいずれかに記載の音声認識装置。
- 前記判定手段は、前記判断手段により前記第1の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての前記第2のモデルパラメータを用いて前記複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを前記第2の単語として前記判定処理を実行する、請求項1〜3のいずれかに記載の音声認識装置。
- 前記特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている、請求項1〜6のいずれかに記載の音声認識装置。
- 音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記音声信号の特徴量を算出するステップと、
算出された前記音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、前記複数のキーワードから第1の単語を推定するステップと、
予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するステップと、
前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、
抽出された前記部分音声信号を前記第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出するステップと、
算出された前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる、音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084104A JP6276513B2 (ja) | 2013-04-12 | 2013-04-12 | 音声認識装置および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084104A JP6276513B2 (ja) | 2013-04-12 | 2013-04-12 | 音声認識装置および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014206642A JP2014206642A (ja) | 2014-10-30 |
JP6276513B2 true JP6276513B2 (ja) | 2018-02-07 |
Family
ID=52120222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013084104A Active JP6276513B2 (ja) | 2013-04-12 | 2013-04-12 | 音声認識装置および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6276513B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102623272B1 (ko) | 2016-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
JP6824554B2 (ja) * | 2017-08-22 | 2021-02-03 | アルパイン株式会社 | 音声認識システム |
KR102052634B1 (ko) * | 2018-01-15 | 2019-12-06 | 네이버 주식회사 | 호출음 인식장치 및 호출음 인식방법 |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
JP7191792B2 (ja) * | 2019-08-23 | 2022-12-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60121499A (ja) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | 音声照合装置 |
JPS63306500A (ja) * | 1987-06-08 | 1988-12-14 | 株式会社リコー | 音声認識後処理方式 |
JPH05303391A (ja) * | 1992-04-24 | 1993-11-16 | Seiko Epson Corp | 音声認識装置 |
JP3428058B2 (ja) * | 1993-03-12 | 2003-07-22 | 松下電器産業株式会社 | 音声認識装置 |
JP2001083978A (ja) * | 1999-07-15 | 2001-03-30 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
-
2013
- 2013-04-12 JP JP2013084104A patent/JP6276513B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014206642A (ja) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
KR102442020B1 (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
CN102074234A (zh) | 语音变异模型建立装置、方法及语音辨识系统和方法 | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
US20110218802A1 (en) | Continuous Speech Recognition | |
JPWO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
CN103366737B (zh) | 在自动语音识别中应用声调特征的装置和方法 | |
JP2010078877A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
WO2012150658A1 (ja) | 音声認識装置および音声認識方法 | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP7035476B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
KR20200114019A (ko) | 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치 | |
KR100981540B1 (ko) | 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6276513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |