JP2007316330A - 韻律識別装置及び方法、並びに音声認識装置及び方法 - Google Patents
韻律識別装置及び方法、並びに音声認識装置及び方法 Download PDFInfo
- Publication number
- JP2007316330A JP2007316330A JP2006145729A JP2006145729A JP2007316330A JP 2007316330 A JP2007316330 A JP 2007316330A JP 2006145729 A JP2006145729 A JP 2006145729A JP 2006145729 A JP2006145729 A JP 2006145729A JP 2007316330 A JP2007316330 A JP 2007316330A
- Authority
- JP
- Japan
- Prior art keywords
- identification
- input
- speech
- speech recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 入力部11からの入力音声を音響分析部12に送り、認識に必要な特徴量を抽出して識別部13に送る。識別部13では、パラメータ記憶部14のパラメータを用いて未知音声データに対する認識処理を行う。音響分析部12では、周波数特性分析部21にて入力音声から周波数特性への変換処理を行い、得られた周波数特性を特徴量分布移動変化量計算部22に送って、周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求め、識別部13に出力する。
【選択図】 図1
Description
図1は、本発明の実施の形態に用いられる韻律識別装置のシステム構成の一例を概略的に示すブロック図であり、基本的に一般の音声認識装置とほぼ同様の構成となっている。この図1に示す韻律識別装置は、入力部11、音響分析部12、識別部13、及び出力部15を有して構成されている。
本発明の実施の形態の音響分析部12は、図1に示すように、周波数特性分析部21と特徴量分布移動変化量計算部22の2つを有して成る。
次に、本発明の実施の形態のシステムを、一般的な音声認識装置と並列に使用する場合について説明する。図12に、本発明の実施の形態システムを一般的な音声認識装置と並列に使用した場合のシステム構成図を、また図13にそのフローチャートを示す。
Claims (8)
- 入力音声の韻律的特徴に基づいて識別を行う韻律識別装置において、
入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求める音響分析手段と、
この音響分析手段からの出力に基づいて認識処理を行う識別手段と
を有することを特徴とする韻律識別装置。 - 上記特徴量分布の移動変化量として、特徴量分布の重心の時間差分を利用することを特徴とする請求項1記載の韻律識別装置。
- 上記特徴量分布として、入力音声信号の周波数特性の自己相関行列における対角方向の所望の成分を用いることを特徴とする請求項1記載の韻律識別装置。
- 入力音声の韻律的特徴に基づいて識別を行う韻律識別方法において、
入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量を求める音響分析工程と、
この音響分析工程からの出力に基づいて認識処理を行う識別工程と
を有することを特徴とする韻律識別方法。 - 音声信号を入力する入力手段と、
この入力手段からの入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量に基づいて韻律識別を行う韻律識別手段と、
上記入力手段からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識手段と、
上記韻律識別手段からの出力と上記音声認識手段からの出力とを選択・統合して出力する選択手段と
を有することを特徴とする音声認識装置。 - 上記特徴量分布の移動変化量として、特徴量分布の重心の時間差分を利用することを特徴とする請求項5記載の音声認識装置。
- 上記特徴量分布として、入力音声信号の周波数特性の自己相関行列における対角方向の所望の成分を用いることを特徴とする請求項5記載の音声認識装置。
- 音声信号を入力する入力工程と、
この入力工程からの入力音声の周波数特性の自己相関行列から得られる特徴量分布の移動変化量に基づいて韻律識別を行う韻律識別工程と、
上記入力工程からの入力音声を音響分析して得られる特徴量に基づいて音声認識を行う音声認識工程と、
上記韻律識別工程からの出力と上記音声認識工程からの出力とを選択・統合して出力する選択工程と
を有することを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006145729A JP4353202B2 (ja) | 2006-05-25 | 2006-05-25 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
US11/805,371 US7908142B2 (en) | 2006-05-25 | 2007-05-23 | Apparatus and method for identifying prosody and apparatus and method for recognizing speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006145729A JP4353202B2 (ja) | 2006-05-25 | 2006-05-25 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007316330A true JP2007316330A (ja) | 2007-12-06 |
JP4353202B2 JP4353202B2 (ja) | 2009-10-28 |
Family
ID=38750621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006145729A Expired - Fee Related JP4353202B2 (ja) | 2006-05-25 | 2006-05-25 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7908142B2 (ja) |
JP (1) | JP4353202B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8571862B2 (en) * | 2006-11-30 | 2013-10-29 | Ashwin P. Rao | Multimodal interface for input of text |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
CN101785051B (zh) * | 2007-08-22 | 2012-09-05 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
JP7135896B2 (ja) * | 2019-01-28 | 2022-09-13 | トヨタ自動車株式会社 | 対話装置、対話方法及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0466999A (ja) | 1990-07-04 | 1992-03-03 | Sharp Corp | 文節境界検出装置 |
JPH0822296A (ja) | 1994-07-07 | 1996-01-23 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法 |
JP3351746B2 (ja) | 1997-10-03 | 2002-12-03 | 松下電器産業株式会社 | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
JP4221537B2 (ja) | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
DE10140507A1 (de) | 2001-08-17 | 2003-02-27 | Philips Corp Intellectual Pty | Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers |
JP2004061567A (ja) | 2002-07-25 | 2004-02-26 | Nec Engineering Ltd | ノイズキャンセラ |
JP4357867B2 (ja) | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
US7542903B2 (en) * | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
JP4291728B2 (ja) | 2004-04-15 | 2009-07-08 | 日本電信電話株式会社 | 音声認識方法およびこの方法を実施する装置 |
US20050246165A1 (en) * | 2004-04-29 | 2005-11-03 | Pettinelli Eugene E | System and method for analyzing and improving a discourse engaged in by a number of interacting agents |
US8214214B2 (en) * | 2004-12-03 | 2012-07-03 | Phoenix Solutions, Inc. | Emotion detection device and method for use in distributed systems |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
-
2006
- 2006-05-25 JP JP2006145729A patent/JP4353202B2/ja not_active Expired - Fee Related
-
2007
- 2007-05-23 US US11/805,371 patent/US7908142B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7908142B2 (en) | 2011-03-15 |
JP4353202B2 (ja) | 2009-10-28 |
US20070276659A1 (en) | 2007-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4264841B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Friedland et al. | Prosodic and other long-term features for speaker diarization | |
JP2009031452A (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US20230178099A1 (en) | Using optimal articulatory event-types for computer analysis of speech | |
US7627468B2 (en) | Apparatus and method for extracting syllabic nuclei | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2015055653A (ja) | 音声認識装置及び方法、並びに、電子機器 | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
Přibil et al. | GMM-based evaluation of emotional style transformation in czech and slovak | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP3493849B2 (ja) | 音声認識装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2006010739A (ja) | 音声認識装置 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
JP2004139049A (ja) | 話者正規化方法及びそれを用いた音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090707 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090720 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120807 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130807 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |