JP2013164572A - 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム - Google Patents
音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム Download PDFInfo
- Publication number
- JP2013164572A JP2013164572A JP2012053506A JP2012053506A JP2013164572A JP 2013164572 A JP2013164572 A JP 2013164572A JP 2012053506 A JP2012053506 A JP 2012053506A JP 2012053506 A JP2012053506 A JP 2012053506A JP 2013164572 A JP2013164572 A JP 2013164572A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- spectrum
- average time
- audio
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 102
- 238000001228 spectrum Methods 0.000 claims description 213
- 230000005236 sound signal Effects 0.000 claims description 87
- 230000011218 segmentation Effects 0.000 abstract 2
- 238000006243 chemical reaction Methods 0.000 description 42
- 238000000034 method Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000000052 comparative effect Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000005484 gravity Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】実施形態によれば、音声特徴量抽出装置は、切り出し部101と、算出部106とを含む。切り出し部101は、入力音声信号10及び入力音声信号10から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号11及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。算出部106は、複数の周波数帯域の各々における単位音声信号11の平均時間及び複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量16を得る。
【選択図】図1
Description
図1に例示されるように、第1の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、第3のスペクトル算出部103と、フィルタバンク適用部104,105と、帯域別平均時間算出部106と、軸変換部107とを備える。図1の音声特徴量抽出装置は、入力音声信号10から音声特徴量17を抽出する。
前述の第1の実施形態において、例えば上記数式(8)に従って、パワースペクトル及び第3のスペクトルに基づいて帯域別平均時間が算出される。他方、上記数式(6)によれば、群遅延スペクトル及びパワースペクトルに基づいて帯域別平均時間を算出することもできる。
図7に例示されるように、第3の実施形態に係る音声認識装置は、特徴量抽出部400と、デコーダ401と、音響モデル記憶部402と、言語モデル記憶部403とを備える。図7の音声認識装置は、入力音声信号10に対して音声認識処理を行って、当該入力音声信号10の内容を示す言語テキストを音声認識結果として出力する。
図8に例示されるように、第4の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、フィルタバンク適用部104と、帯域別平均時間算出部513と、軸変換部107とを備える。図8の音声特徴量抽出装置は、入力音声信号10から音声特徴量32を抽出する。
図13に例示されるように、第5の実施形態に係る音声特徴量抽出装置は、バンドパスフィルタ適用部614と、波形切り出し部615と、帯域別平均時間算出部616と、軸変換部107とを備える。図13の音声特徴量抽出装置は、入力音声信号10から音声特徴量44を抽出する。
11・・・単位音声信号
12・・・パワースペクトル
13・・・第3のスペクトル
14・・・フィルタ処理されたパワースペクトル
15・・・フィルタ処理された第3のスペクトル
16,21,31,43・・・帯域別平均時間
17,22,32,44・・・音声特徴量
18・・・群遅延スペクトル
19・・・乗算スペクトル
20・・・フィルタ処理された乗算スペクトル
41・・・サブバンド入力音声信号
42・・・サブバンド単位音声信号
101,615・・・波形切り出し部
102・・・パワースペクトル算出部
103・・・第3のスペクトル算出部
104,105,210・・・フィルタバンク適用部
106,211,513,616・・・帯域別平均時間算出部
107・・・軸変換部
208・・・群遅延スペクトル
209・・・スペクトル乗算部
400・・・特徴量抽出部
401・・・デコーダ
402・・・音響モデル記憶部
403・・・言語モデル記憶部
614・・・バンドパスフィルタ適用部
Claims (10)
- 入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し部と、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第1の算出部と
を具備する、音声特徴量抽出装置。 - 前記単位音声信号のパワースペクトルを算出する第2の算出部を更に具備し、
前記切り出し部は、前記入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記単位音声信号を生成し、
前記第1の算出部は、前記パワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項1の音声特徴量抽出装置。 - 前記単位音声信号の第1のスペクトルの実部と前記単位音声信号及び時刻の積の第2のスペクトルの実部との第1の積を算出し、前記第1のスペクトルの虚部と前記第2のスペクトルの虚部との第2の積を算出し、前記第1の積及び前記第2の積を加算することによって、第3のスペクトルを得る第3の算出部を更に具備し、
前記第1の算出部は、前記パワースペクトル及び前記第3のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項2の音声特徴量抽出装置。 - 前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
前記第3のスペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された第3のスペクトルを得る第2の適用部と
を更に具備し、
前記第1の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された第3のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項3の音声特徴量抽出装置。 - 前記単位音声信号の群遅延スペクトルを算出する第3の算出部と、
前記群遅延スペクトルを前記パワースペクトルに乗算することによって、乗算スペクトルを得る乗算部と
を更に具備し、
前記第1の算出部は、前記パワースペクトル及び前記乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項2の音声特徴量抽出装置。 - 前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
前記乗算スペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された乗算スペクトルを得る第2の適用部と
を更に具備し、
前記第1の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項5の音声特徴量抽出装置。 - 前記パワースペクトルにフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る適用部を更に具備し、
前記第1の算出部は、前記フィルタ処理されたパワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項2の音声特徴量抽出装置。 - 前記入力音声信号に複数のバンドパスフィルタを適用することによって、前記複数のサブバンド入力音声信号を得る適用部を更に具備し、
前記切り出し部は、前記複数のサブバンド入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記複数のサブバンド単位音声信号を生成し、
前記第1の算出部は、前記複数のサブバンド単位音声信号の各々の平均時間を算出することによって、前記音声特徴量を得る、
請求項1の音声特徴量抽出装置。 - 入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成することと、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得ることと
を具備する、音声特徴量抽出方法。 - コンピュータを、
入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し手段、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第1の算出手段
として機能させるための音声特徴量抽出プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012053506A JP2013164572A (ja) | 2012-01-10 | 2012-03-09 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
US13/728,287 US9754603B2 (en) | 2012-01-10 | 2012-12-27 | Speech feature extraction apparatus and speech feature extraction method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012002133 | 2012-01-10 | ||
JP2012002133 | 2012-01-10 | ||
JP2012053506A JP2013164572A (ja) | 2012-01-10 | 2012-03-09 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015216661A Division JP6092345B2 (ja) | 2012-01-10 | 2015-11-04 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013164572A true JP2013164572A (ja) | 2013-08-22 |
Family
ID=48744521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012053506A Pending JP2013164572A (ja) | 2012-01-10 | 2012-03-09 | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9754603B2 (ja) |
JP (1) | JP2013164572A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786272B2 (en) | 2013-12-24 | 2017-10-10 | Kabushiki Kaisha Toshiba | Decoder for searching a digraph and generating a lattice, decoding method, and computer program product |
US10008200B2 (en) | 2013-12-24 | 2018-06-26 | Kabushiki Kaisha Toshiba | Decoder for searching a path according to a signal sequence, decoding method, and computer program product |
US10042345B2 (en) | 2014-01-31 | 2018-08-07 | Kabushiki Kaisha Toshiba | Conversion device, pattern recognition system, conversion method, and computer program product |
US10055511B2 (en) | 2013-12-24 | 2018-08-21 | Kabushiki Kaisha Toshiba | Search device, search method, and computer program product |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
US10650800B2 (en) | 2015-09-16 | 2020-05-12 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
US10878801B2 (en) | 2015-09-16 | 2020-12-29 | Kabushiki Kaisha Toshiba | Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations |
EP3783911A4 (en) * | 2018-04-19 | 2021-09-29 | The University of Electro-Communications | INFORMATION PROCESSING DEVICE, USER MIXING DEVICE, AND LATENCY REDUCTION PROCESS |
US11222649B2 (en) | 2018-04-19 | 2022-01-11 | The University Of Electro-Communications | Mixing apparatus, mixing method, and non-transitory computer-readable recording medium |
US11308975B2 (en) | 2018-04-17 | 2022-04-19 | The University Of Electro-Communications | Mixing device, mixing method, and non-transitory computer-readable recording medium |
CN118335089A (zh) * | 2024-06-14 | 2024-07-12 | 武汉攀升鼎承科技有限公司 | 一种基于人工智能的语音互动方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8970420B2 (en) * | 2013-03-15 | 2015-03-03 | Intel Mobile Communications GmbH | Bipolar time-to-digital converter |
EP2984649B1 (en) | 2013-04-11 | 2020-07-29 | Cetin CETINTURK | Extraction of acoustic relative excitation features |
KR102051966B1 (ko) * | 2014-03-27 | 2019-12-04 | 한국전자통신연구원 | 음성 인식 향상 장치 및 방법 |
EP3624113A1 (en) | 2018-09-13 | 2020-03-18 | Nxp B.V. | Apparatus for processing a signal |
CN113409756B (zh) * | 2020-03-16 | 2022-05-03 | 阿里巴巴集团控股有限公司 | 语音合成方法、系统、设备及存储介质 |
CN113160797B (zh) * | 2021-04-25 | 2023-06-02 | 北京华捷艾米科技有限公司 | 音频特征处理方法及装置、存储介质及电子设备 |
CN113178199B (zh) * | 2021-06-29 | 2021-08-31 | 中国科学院自动化研究所 | 基于相位偏移检测的数字音频篡改取证方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249674A (ja) * | 2000-03-06 | 2001-09-14 | Japan Science & Technology Corp | 駆動信号分析装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
US4852175A (en) * | 1988-02-03 | 1989-07-25 | Siemens Hearing Instr Inc | Hearing aid signal-processing system |
JP2000066691A (ja) | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP4464797B2 (ja) | 2004-11-17 | 2010-05-19 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP5315904B2 (ja) | 2008-10-02 | 2013-10-16 | ヤマハ株式会社 | 音場支援装置、音場支援方法およびプログラム |
EP2249333B1 (en) * | 2009-05-06 | 2014-08-27 | Nuance Communications, Inc. | Method and apparatus for estimating a fundamental frequency of a speech signal |
-
2012
- 2012-03-09 JP JP2012053506A patent/JP2013164572A/ja active Pending
- 2012-12-27 US US13/728,287 patent/US9754603B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249674A (ja) * | 2000-03-06 | 2001-09-14 | Japan Science & Technology Corp | 駆動信号分析装置 |
Non-Patent Citations (3)
Title |
---|
JPN6014052599; Donglai Zhu, et al.: 'Product of Power Spectrum and Group Delay Function for Speech Recognition' Proc. ICASSP 2004 Vol.1, 20040517, pp.125-128, ISCA * |
JPN6014052600; 山本一公,外2名: '長時間分析に基づく位相情報を用いた音声認識の検討' 電子情報通信学会技術研究報告 Vol.110, No.143, 20100715, pp.31-36, 社団法人電子情報通信学会 * |
JPN6014052601; 森勢将雅,外3名: '帯域毎の持続時間に基づく音響イベント検出と位置推定への応用' 電子情報通信学会技術研究報告 Vol.106, No.371, 20061116, pp.19-24, 社団法人電子情報通信学会 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786272B2 (en) | 2013-12-24 | 2017-10-10 | Kabushiki Kaisha Toshiba | Decoder for searching a digraph and generating a lattice, decoding method, and computer program product |
US10008200B2 (en) | 2013-12-24 | 2018-06-26 | Kabushiki Kaisha Toshiba | Decoder for searching a path according to a signal sequence, decoding method, and computer program product |
US10055511B2 (en) | 2013-12-24 | 2018-08-21 | Kabushiki Kaisha Toshiba | Search device, search method, and computer program product |
US10042345B2 (en) | 2014-01-31 | 2018-08-07 | Kabushiki Kaisha Toshiba | Conversion device, pattern recognition system, conversion method, and computer program product |
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10650800B2 (en) | 2015-09-16 | 2020-05-12 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
US10878801B2 (en) | 2015-09-16 | 2020-12-29 | Kabushiki Kaisha Toshiba | Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations |
US11170756B2 (en) | 2015-09-16 | 2021-11-09 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
US11348569B2 (en) | 2015-09-16 | 2022-05-31 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product using compensation parameters |
US11423874B2 (en) | 2015-09-16 | 2022-08-23 | Kabushiki Kaisha Toshiba | Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
US11308975B2 (en) | 2018-04-17 | 2022-04-19 | The University Of Electro-Communications | Mixing device, mixing method, and non-transitory computer-readable recording medium |
EP3783911A4 (en) * | 2018-04-19 | 2021-09-29 | The University of Electro-Communications | INFORMATION PROCESSING DEVICE, USER MIXING DEVICE, AND LATENCY REDUCTION PROCESS |
US11222649B2 (en) | 2018-04-19 | 2022-01-11 | The University Of Electro-Communications | Mixing apparatus, mixing method, and non-transitory computer-readable recording medium |
US11516581B2 (en) | 2018-04-19 | 2022-11-29 | The University Of Electro-Communications | Information processing device, mixing device using the same, and latency reduction method |
CN118335089A (zh) * | 2024-06-14 | 2024-07-12 | 武汉攀升鼎承科技有限公司 | 一种基于人工智能的语音互动方法 |
Also Published As
Publication number | Publication date |
---|---|
US20130179158A1 (en) | 2013-07-11 |
US9754603B2 (en) | 2017-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013164572A (ja) | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
US20150081287A1 (en) | Adaptive noise reduction for high noise environments | |
Rajan et al. | Using group delay functions from all-pole models for speaker recognition | |
Dişken et al. | A review on feature extraction for speaker recognition under degraded conditions | |
JP5530812B2 (ja) | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム | |
Ganapathy et al. | Feature extraction using 2-d autoregressive models for speaker recognition. | |
Hoang et al. | Blind phone segmentation based on spectral change detection using Legendre polynomial approximation | |
Bharath et al. | New replay attack detection using iterative adaptive inverse filtering and high frequency band | |
Loweimi et al. | Source-filter separation of speech signal in the phase domain | |
Kumar | Spectral subtraction using modified cascaded median based noise estimation for speech enhancement | |
Lyubimov et al. | Non-negative matrix factorization with linear constraints for single-channel speech enhancement | |
Close et al. | The effect of spoken language on speech enhancement using self-supervised speech representation loss functions | |
Zhang et al. | A hierarchical framework approach for voice activity detection and speech enhancement | |
Oh et al. | Improvement of speech detection using ERB feature extraction | |
Ganapathy et al. | Temporal envelope compensation for robust phoneme recognition using modulation spectrum | |
Sripriya et al. | Pitch estimation using harmonic product spectrum derived from DCT | |
Abd El-Moneim et al. | Hybrid speech enhancement with empirical mode decomposition and spectral subtraction for efficient speaker identification | |
Khonglah et al. | Speech enhancement using source information for phoneme recognition of speech with background music | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
JP6092345B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Zeremdini et al. | Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150804 |