JP6483578B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP6483578B2 JP6483578B2 JP2015181038A JP2015181038A JP6483578B2 JP 6483578 B2 JP6483578 B2 JP 6483578B2 JP 2015181038 A JP2015181038 A JP 2015181038A JP 2015181038 A JP2015181038 A JP 2015181038A JP 6483578 B2 JP6483578 B2 JP 6483578B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- word
- expression word
- voice quality
- speech synthesizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Description
図1は、第1実施形態の音声合成装置100の機能的な構成例を示すブロック図である。図1に示すように、本実施形態の音声合成装置100は、話者データベース101と、表現語データベース102と、声質評価部103と、上位表現語得点記憶部104と、下位表現語得点記憶部105と、音響モデル学習部106と、音響モデル記憶部107と、得点変換モデル学習部108と、得点変換モデル記憶部109と、編集支援部110と、得点変換部120と、音声合成部130と、を備える。
μ=Hξ+b
ξ=[v1,v2,・・・,vL] ・・・(1)
ξ=Gη+d
η=[w1,w2,・・・,wM] ・・・(2)
(参考文献1)Keiichi Tokuda et al.,“Speech Synthesis Based on Hidden Markov Models”,Proceedings of the IEEE,101(5),pp.1234-1252,2013.
次に、第2実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、声質編集を補助する機能を追加したものである。以下、第1実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第2実施形態に特徴的な部分を説明する。
次に、第3実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、第2実施形態とは異なる方法で声質編集を補助する機能を追加したものである。以下、第1実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第3実施形態に特徴的な部分を説明する。
次に、第4実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、第2実施形態や第3実施形態とは異なる方法で声質編集を補助する機能を追加したものである。具体的には、上述した第2の実施形態と同様に制御可能範囲を計算するとともに、第2操作に応じて制御可能範囲からランダムに値を設定する機能を追加している。以下、第1実施形態や第2実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第4実施形態に特徴的な部分を説明する。
以上説明した音声合成装置100は、音響モデルや得点変換モデルの学習を行う機能と、これら音響モデルや得点変換モデルを用いて合成音を生成する機能との双方を持つ構成であるが、実施形態の音声合成装置100は、音響モデルや得点変換モデルの学習を行う機能を持たない構成としてもよい。すなわち、実施形態の音声合成装置100は、少なくとも、編集支援部110と、得点変換部120と、音声合成部130とを備える構成であればよい。
108 得点変換モデル学習部
110 編集支援部
111 表示制御部
112 第1操作受付部
113 第2操作受付部
120 得点変換部
130 音声合成部
140 範囲計算部
150 方向計算部
160 設定部
ES 編集画面
LE 下位表現語
UE 上位表現語
Claims (13)
- 声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける第1操作受付部と、
前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する得点変換部と、
前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する音声合成部と、を備える音声合成装置。 - 変換された前記下位表現語の得点を変更する第2操作を受け付ける第2操作受付部をさらに備え、
前記音声合成部は、前記第2操作に応じて変更された前記下位表現語の得点に基づいて前記合成音を生成する、請求項1に記載の音声合成装置。 - 変換された前記下位表現語の得点を提示するとともに前記第2操作を入力させるための編集画面を表示装置に表示させる表示制御部をさらに備え、
前記第2操作受付部は、前記編集画面上で入力された前記第2操作を受け付ける、請求項2に記載の音声合成装置。 - 前記第1操作により指定された声質の特徴を維持できる前記下位表現語の得点の範囲を計算する範囲計算部をさらに備え、
前記表示制御部は、変換された前記下位表現語の得点を前記範囲とともに提示する前記編集画面を前記表示装置に表示させる、請求項3に記載の音声合成装置。 - 前記第1操作により指定された声質の特徴を強めるために前記下位表現語の得点を変更する場合の方向および強まる度合いを計算する方向計算部をさらに備え、
前記表示制御部は、変換された前記下位表現語の得点を前記方向および前記強まる度合いとともに提示する前記編集画面を前記表示装置に表示させる、請求項3または4に記載の音声合成装置。 - 前記第1操作により指定された声質の特徴を維持できる前記下位表現語の得点の範囲を計算する範囲計算部と、
前記第2操作に従って、前記範囲内から前記下位表現語の得点をランダムに設定する設定部と、をさらに備える、請求項3乃至5のいずれか一項に記載の音声合成装置。 - 前記表示制御部は、前記第1操作を入力させるための第1領域と、変換された前記下位表現語の得点を提示するとともに前記第2操作を入力させるための第2領域とを含む前記編集画面を前記表示装置に表示させ、
前記第1操作受付部は、前記第1領域上で入力された前記第1操作を受け付け、
前記第2操作受付部は、前記第2領域上で入力された前記第2操作を受け付ける、請求項3乃至6のいずれか一項に記載の音声合成装置。 - 前記音声合成部は、音響モデルを使用して、前記下位表現語の得点に応じた合成音を生成する、請求項1乃至7のいずれか一項に記載の音声合成装置。
- 前記得点変換モデルを保持するモデル記憶部をさらに備え、
前記得点変換部は、前記モデル記憶部が保持する前記得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する、請求項1乃至8のいずれか一項に記載の音声合成装置。 - 前記得点変換モデルは、任意の音声に対する評価結果として得られた前記上位表現語の得点および前記下位表現語の得点を学習データとして学習された統計モデルである、請求項1乃至9のいずれか一項に記載の音声合成装置。
- 任意の音声に対する評価結果として得られた前記上位表現語の得点および前記下位表現語の得点を学習データとして前記得点変換モデルを学習するモデル学習部をさらに備える、請求項10に記載の音声合成装置。
- 音声合成装置において実行される音声合成方法であって、
声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付けるステップと、
前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換するステップと、
前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成するステップと、を含む音声合成方法。 - コンピュータに、
声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける機能と、
前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する機能と、
前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する機能と、を実現させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181038A JP6483578B2 (ja) | 2015-09-14 | 2015-09-14 | 音声合成装置、音声合成方法およびプログラム |
US15/256,220 US10535335B2 (en) | 2015-09-14 | 2016-09-02 | Voice synthesizing device, voice synthesizing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181038A JP6483578B2 (ja) | 2015-09-14 | 2015-09-14 | 音声合成装置、音声合成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058411A JP2017058411A (ja) | 2017-03-23 |
JP6483578B2 true JP6483578B2 (ja) | 2019-03-13 |
Family
ID=58237017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015181038A Active JP6483578B2 (ja) | 2015-09-14 | 2015-09-14 | 音声合成装置、音声合成方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10535335B2 (ja) |
JP (1) | JP6483578B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6639285B2 (ja) | 2016-03-15 | 2020-02-05 | 株式会社東芝 | 声質嗜好学習装置、声質嗜好学習方法及びプログラム |
JP6908863B2 (ja) * | 2017-05-02 | 2021-07-28 | 日本電信電話株式会社 | 信号変更装置、方法、及びプログラム |
CN108092875B (zh) * | 2017-11-08 | 2021-06-01 | 网易乐得科技有限公司 | 一种表情提供方法、介质、装置和计算设备 |
CN108417198A (zh) * | 2017-12-28 | 2018-08-17 | 中南大学 | 一种基于频谱包络和基音周期的男女语音转换方法 |
KR102401512B1 (ko) * | 2018-01-11 | 2022-05-25 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
WO2020089961A1 (ja) * | 2018-10-29 | 2020-05-07 | 健一 海沼 | 音声処理装置、およびプログラム |
CN109410913B (zh) * | 2018-12-13 | 2022-08-05 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
WO2020230926A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 |
US11715485B2 (en) * | 2019-05-17 | 2023-08-01 | Lg Electronics Inc. | Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same |
KR20210057569A (ko) * | 2019-11-12 | 2021-05-21 | 엘지전자 주식회사 | 음성 신호를 처리하는 방법 및 이를 적용한 장치 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JPH1097267A (ja) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | 声質変換方法および装置 |
JPH10254473A (ja) | 1997-03-14 | 1998-09-25 | Matsushita Electric Ind Co Ltd | 音声変換方法及び音声変換装置 |
JP3616250B2 (ja) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 |
US6226614B1 (en) | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JPH1115488A (ja) | 1997-06-24 | 1999-01-22 | Hitachi Ltd | 合成音声評価・合成装置 |
JPH11103226A (ja) | 1997-09-26 | 1999-04-13 | Matsushita Electric Ind Co Ltd | 音響再生装置 |
EP1256931A1 (en) * | 2001-05-11 | 2002-11-13 | Sony France S.A. | Method and apparatus for voice synthesis and robot apparatus |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
US7457752B2 (en) * | 2001-08-14 | 2008-11-25 | Sony France S.A. | Method and apparatus for controlling the operation of an emotion synthesizing device |
US7401020B2 (en) * | 2002-11-29 | 2008-07-15 | International Business Machines Corporation | Application of emotion-based intonation and prosody to speech in text-to-speech systems |
JP3823930B2 (ja) * | 2003-03-03 | 2006-09-20 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成プログラム |
JP2007041012A (ja) * | 2003-11-21 | 2007-02-15 | Matsushita Electric Ind Co Ltd | 声質変換装置および音声合成装置 |
JP4125362B2 (ja) * | 2005-05-18 | 2008-07-30 | 松下電器産業株式会社 | 音声合成装置 |
JP4745036B2 (ja) | 2005-11-28 | 2011-08-10 | パナソニック株式会社 | 音声翻訳装置および音声翻訳方法 |
JP4246790B2 (ja) * | 2006-06-05 | 2009-04-02 | パナソニック株式会社 | 音声合成装置 |
JP4296231B2 (ja) | 2007-06-06 | 2009-07-15 | パナソニック株式会社 | 声質編集装置および声質編集方法 |
US10088976B2 (en) * | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
US8731932B2 (en) * | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
CN102385858B (zh) * | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
US9431027B2 (en) * | 2011-01-26 | 2016-08-30 | Honda Motor Co., Ltd. | Synchronized gesture and speech production for humanoid robots using random numbers |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
US9767789B2 (en) * | 2012-08-29 | 2017-09-19 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
US9640173B2 (en) * | 2013-09-10 | 2017-05-02 | At&T Intellectual Property I, L.P. | System and method for intelligent language switching in automated text-to-speech systems |
US20150149178A1 (en) * | 2013-11-22 | 2015-05-28 | At&T Intellectual Property I, L.P. | System and method for data-driven intonation generation |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US20160365087A1 (en) * | 2015-06-12 | 2016-12-15 | Geulah Holdings Llc | High end speech synthesis |
-
2015
- 2015-09-14 JP JP2015181038A patent/JP6483578B2/ja active Active
-
2016
- 2016-09-02 US US15/256,220 patent/US10535335B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017058411A (ja) | 2017-03-23 |
US20170076714A1 (en) | 2017-03-16 |
US10535335B2 (en) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6483578B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US10930264B2 (en) | Voice quality preference learning device, voice quality preference learning method, and computer program product | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
CN105280177A (zh) | 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法 | |
JP2014038282A (ja) | 韻律編集装置、方法およびプログラム | |
JPWO2015092936A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
TWI470620B (zh) | 文字到語音轉換之方法和系統 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
WO2016103652A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
US20200013409A1 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP5726822B2 (ja) | 音声合成装置、方法及びプログラム | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
JP6193737B2 (ja) | ポーズ推定装置、方法、プログラム | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム | |
KR20240154429A (ko) | 사용자의 발화로부터 추출된 명령에 기초하여 디바이스를 제어하는 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190214 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6483578 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |