CN114207706A - 使用组合的韵律信息经由神经网络生成声学序列 - Google Patents
使用组合的韵律信息经由神经网络生成声学序列 Download PDFInfo
- Publication number
- CN114207706A CN114207706A CN202080056837.1A CN202080056837A CN114207706A CN 114207706 A CN114207706 A CN 114207706A CN 202080056837 A CN202080056837 A CN 202080056837A CN 114207706 A CN114207706 A CN 114207706A
- Authority
- CN
- China
- Prior art keywords
- sequence
- linguistic
- observations
- information
- prosody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 26
- 239000013598 vector Substances 0.000 description 23
- 239000011295 pitch Substances 0.000 description 20
- 238000012545 processing Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- IAXXETNIOYFMLW-UHFFFAOYSA-N (4,7,7-trimethyl-3-bicyclo[2.2.1]heptanyl) 2-methylprop-2-enoate Chemical compound C1CC2(C)C(OC(=O)C(=C)C)CC1C2(C)C IAXXETNIOYFMLW-UHFFFAOYSA-N 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
示例系统包括处理器,用于接收语言学序列和韵律信息偏移。该处理器可以经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。观察的数目包括评估预定时间段内的韵律分量的统计测量的线性组合。该处理器可以,经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
Description
背景技术
本技术涉及控制韵律。更具体地,这些技术涉及经由神经网络控制韵律。
发明内容
根据本文描述的实施例,一种系统可以包括处理器,用于接收语言学序列和韵律信息偏移。处理器还可以:经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。该多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合。处理器还可以:经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
根据本文描述的另一实施例,一种方法可以包括接收语言学序列和韵律信息偏移。该方法还可以包括:经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合韵律信息。该多个观察包括评估在预定时间段内的韵律分量的统计测量的线性组合。该方法还可以进一步包括:经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
根据本文描述的另一实施例,一种用于自动控制韵律的计算机程序产品可以包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序代码。计算机可读存储介质本身不是瞬态信号。该程序代码由处理器可执行以使处理器接收语言学序列和韵律信息偏移。该程序代码还可以使处理器基于语言学序列来生成包括多个观察的组合的韵律信息。该多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合。该程序代码还可以使处理器基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
根据一个方面,提供了一种系统,包括处理器,用于:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息,其中该多个观察包括评估在预定时间段内的韵律分量的统计测量的线性组合;以及经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
根据另一方面,提供了一种计算机实现的方法,包括:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于语言学序列并且与语言学序列对齐地生成包括多个观察的组合的韵律信息,其中多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及经由训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
根据另一方面,提供了一种用于自动控制韵律的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序代码,其中计算机可读存储介质本身不是瞬态信号,该程序代码由处理器可执行以使处理器:接收语言学序列和韵律信息偏移;基于语言学序列来生成包括多个观察的组合的韵律信息,其中多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
附图说明
现在将参考附图仅通过示例的方式描述本发明的实施例,在附图中:
图1是用于训练神经网络以使用韵律信息自动控制韵律的示例系统的框图;
图2是用于生成嵌入的韵律信息的示例系统的框图;
图3是可以训练神经网络以使用韵律信息自动控制韵律的示例方法的框图;
图4是可以生成具有自动被控制的韵律的声学序列的示例方法的框图;
图5是可以使用韵律信息自动控制韵律的示例计算设备的框图;
图6是根据本文描述的实施例的示例云计算环境的图解;
图7是根据本文描述的实施例的示例抽象模型层的图解;以及
图8是可以使用韵律信息自动控制韵律的示例有形非瞬态计算机可读介质。
具体实施方式
文本到语音(TTS)系统,诸如序列到序列(seq2seq)神经TTS系统,可以接收语言学序列作为输入,并且输出语音声学序列。例如,语音声学序列可以由逐帧语音参数或由语音波形来表示。这样的系统可以生成具有韵律有一些变化的接近自然的语音质量的语音。韵律可以包括音素持续时间、语调和音量。然而,这样的系统隐式地生成语音韵律,因此这样的系统中的韵律控制可能是非常有限的。例如,如果不被引导,则这样的系统可能生成以随机的说话风格和韵律特性发出的输出。
此外,在许多应用中,可能存在控制韵律的请求,包括在推理时间的说话风格、情绪状态、说话速率和表达性。半监督方法利用韵律/说话风格标记,其可以部分或完全由人类主体生成。然而,人类标记是昂贵的、容易出错的并且耗时的。另外,存在非常少的用于语音合成的已标记资源。在基于范例的韵律控制方法中,语音的声学/韵律实现可以由任何说话方使用适当的潜在空间表示从给定的口语示例转变。然而,这些方法在大多数实际TTS应用中可能是不可行的。在无监督的方法中,可以自动训练语音声学的潜在空间。可以解开潜在参数以使它们能够在推理时间独立地操作。然而,自动被训练的潜在表示可能经常是不可解释的且严重依赖于数据的。此外,它们的可控性和合成的语音质量也可能不一致。
根据本公开的实施例,一种系统可以包括处理器,用于接收语言学序列和韵律信息偏移。处理器可以经由训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。观察可以是统计测量的线性组合,其评估预定时间段内的韵律分量。处理器还可以经由训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。因此,本公开的实施例提供了一种全自动方法,其在系统中显式地对韵律进行建模,并且使得能够在连续的尺度上进行逐句子的说话步调和表达性控制。本文描述的技术还改进合成语音的整体质量和表达性。
现在参考图1,框图示出了用于训练神经网络以使用嵌入的韵律信息自动控制韵律的示例系统。系统100可以用于实现方法300和400,并且可使用图5的计算设备500或图8的计算机可读介质800来实现。作为一个示例,系统100可以是神经序列以对注意力进行排序。图1的系统100包括语言学编码器102。例如,语言学编码器102可以包括线性嵌入层,后面是一维卷积层,以及长短期记忆(LSTM)层。如本文所使用的,编码器的输出包括嵌入向量的序列,即离散输入向量的学习到的连续向量表示的序列。长期短期记忆是人工循环神经网络架构。LSTM具有反馈连接,并且旨在处理数据序列。系统100包括韵律信息预测器104,韵律信息预测器104通信地耦合到语言学编码器102。例如,韵律信息预测器104可以具有被馈送到堆叠的(stacked)LSTM(128×3)中的嵌入的语言学序列,其后是线性全连接(FC)层。系统100还包括通信地耦合到韵律信息预测器104的连接器106。系统100还包括通信地耦合到韵律信息预测器104的组合器108。系统100包括韵律信息编码器110,韵律信息编码器110通信地耦合到韵律信息预测器104和连接器106。例如,韵律信息编码器110可以包括FC层,其后是双曲正切非线性。系统100还包括通信地耦合到连接器106的声学解码器112。例如,声学解码器112可以包括自回归梅尔频谱预测器。在一些实例中,声学解码器112可包含具有注意机制的两个堆叠的LSTM层。在各种示例中,声学解码器112的最终层是输出80维梅尔频谱图序列和1维停止位序列的完全连接层(FC)。系统100被示出为接收语言学序列114以及输出声学序列116。语言学编码器102被示出为生成嵌入的语言学序列118。韵律信息预测器104被示出为生成组合的韵律信息119。组合器108被示为接收组合的韵律信息119和一组韵律信息偏移120。韵律信息编码器110被示出为生成嵌入的韵律信息121。系统100包括观察到的韵律信息生成器122,其被示出为向韵律信息预测器104和韵律信息编码器110发送训练目标124。系统100还包括观察道的频谱生成器126,其被示出为向声学解码器112发送训练目标128。
在图1的示例中,系统100可以被训练为接收语言学序列114并输出声学序列116。特别地,输入到seq2seq神经TTS系统的语言学序列114可以用韵律信息来增强。如本文所使用的韵律信息指的是一组可解释的时间观察。例如,观察可以在不同的时间跨度全局地和/或局部地和分层地被评估。每个观察是统计测量的线性组合或线性组合的集,其在预定的时间段内评估韵律分量。在人类语音中,可以以许多方式传达相同的言语信息。语言学嵌入序列118封装了系统中使用的所有言语信息,而在训练期间从记录中提取的训练目标124形式的韵律信息观察提供了关于如何传达该言语信息的附加提示。在各种示例中,被包括在韵律信息中的观察可以被解开并且容易地可解释。例如,具有针对配速(pace)、音高和响度的不同分量。在一些示例中,任何数目的分量可以用于观察。例如,如果话音语料库具有均匀的响度,则可以省略响度控制,留下配速和音高控制作为所使用的两个分量。
在各种示例中,语言学序列114可以是由独热或稀疏二进制向量表示的符号的语音序列,其描述输入音素。作为一个示例,语言学序列114可以是与音素的离散字母表相对应的索引的语音序列。在各种示例中,声学序列116可以是声学参数的序列。例如,声学序列116可以包括帧宽频谱图或恒定帧频谱图。在各种示例中,频谱图可以使用声码器而被转换成语音。作为一个示例,可以使用任何适当的声码器将声学序列116转换成语音。声码器是用于分析并合成人类话音信号以进行音频数据压缩、多路复用、话音加密、话音变换等的编解码器。作为一个示例,声码器可以是神经网络声码器。
仍然参考图1,在训练和推理阶段,语言学编码器102可以接收语言学序列114以及生成语言学嵌入序列118。嵌入可以是某个语音上下文中的音素的向量表示。例如,向量表示可以是128个数的形式。在各种示例中,向量表示的形式在神经网络100的联合训练期间是可学习的。语言学嵌入序列118可以被发送给连接器106和韵律信息预测器104两者。
在训练阶段,系统100可以分别从观察到的韵律信息生成器122和观察到的频谱生成器126接收训练目标124和训练目标128。例如,可以将观察到的韵律信息向量馈送给系统。在各种示例中,针对输入话语的训练集自动计算韵律信息向量序列。话语可以包括记录和记录的转录两者。在一些示例中,可以自动生成转录。例如,可以使用音高和能量估计器来计算音高和能量轨迹,并且应用自动语音对齐来将时间信号划分成音素、音节、词语和短语段。然后可以针对各种时间跨度导出音高、持续时间和能量观察值。然后,可以将观察彼此对齐和组合,以生成组合的韵律信息向量序列。在一些示例中,可以针对训练的前五个时期将韵律信息设置为零,以便于在训练的初始步骤处的对齐收敛。作为一个示例,韵律信息可以被设置为零,用于大约1500个小批次步骤。
在各种示例中,在训练完成之后,可以通过最小化均方误差(MSE)损失来单独训练韵律信息预测器104。例如,韵律信息预测器104可以被馈送以语言学嵌入序列118,并且从语言学嵌入序列118预测出组合的韵律信息。在一些示例中,预测是利用3层堆叠的LSTM完成的,该LSTM在每层具有128个单元,随后是线性层,该线性层产生具有输出大小为2的韵律信息向量,在一些示例中,韵律信息预测器104可以与系统100的其余部分一起使用多目标训练作为子网络被联合训练。例如,两组训练目标124和训练目标128都可以用于联合训练韵律信息预测器104和系统100。在各种示例中,附加损失可以被添加到与输出声学序列损失相关联的损失,以联合训练韵律信息预测器104。在一些示例中,韵律信息预测器104可以单独地被训练。例如,韵律信息预测器104可以被单独训练为seq2seq声学神经网络,以从语言学序列114预测组合的韵律信息。在一些示例中,韵律信息观察还可以包括声学观察。例如,声学观察可以包括对可能与说话风格相关的语音声学的其他非语言方面的观察,诸如语音呼吸度、嘶哑、有声努力等。
在推理阶段,韵律信息预测器104接收语言学嵌入序列118,并且产生组合的韵律信息119。例如,组合的韵律信息119包括多个观察。该观察包括评估预定时间段内的韵律分量的统计测量的线性组合。在各种示例中,观察可以在不同的时间跨度处全局地或局部地和分层地被评估。例如,全局观察可以在话语级。分层局部被评估的观察可以在每个段落、句子、短语、词语、音节或音素段的级别。如本文所使用的,段指的是段落/句子/短语/词语/音节/音素的这种分层时间结构内的时间跨度。然后,通过连结或求和,观察可以被对齐并且彼此组合,以生成组合的韵律信息。然后,可以经由韵律信息编码器110嵌入组合的韵律信息119,以生成嵌入的韵律信息121。
在各种示例中,观察集可以至少包括段内的对数音高观察、段内的子段对数持续时间观察、段内的对数能量观察、或其任何组合。例如,对数音高观察可以是被评估为话语对数音高轨迹的0.95分位数减去0.05分位数的对数音高的跨度。如本文所使用的,子段是指与另一段相比在该层次中更深的段。例如,对数持续时间观察可以是作为话语的步速测量的平均音素持续时间(不包括静默)的对数。在一些示例中,子段对数持续时间观查可以测量短语内的词语的持续时间。在各种示例中,观察中的每个观察可以是统计测量的线性组合。观察中的每个观察可以包括至少某种形式的统计测量,诸如均值、一组分位数、跨度、标准偏差、方差或其任意组合。在各种示例中,观察针对每个说话方而被归一化。关于图2更详细地讨论观察。
韵律信息预测器104因此生成用于描述输入语言学序列的各种韵律参数的一组观察。因为这些观察是归一化的并且易处理的,所以在推理期间可以应用一个或多个韵律信息偏移120以调整最终的声学序列116的韵律。韵律信息可以通过在[-1,1]范围内添加逐分量偏移而被故意改变。例如,通过将对应的子段对数持续时间观察值趋向-1调整,可以使话语、段落、句子、短语或词语变慢,或者通过趋向1调整,可以使话语、段落、句子、短语或词语变快,类似地,通过将对应的对数音高观察或对数能量观察值趋向-1或1修改,可以调整整个话语或其任何段落、句子、短语或词语的音高或响度的变化,以分别使输出声学序列116更单调或更具表达性。
在各种示例中,组合的韵律信息向量被嵌入到2维潜在空间中,并且与语言学编码器输出序列中的每个向量连结。例如,韵律信息向量可以由具有双曲正切非线性的单个完全连接的无偏层来嵌入。因此,解码器通过输入上下文向量而暴露于韵律信息。
组合的韵律信息观察因此被进一步馈送给主seq2seq声学神经网络中。声音解码器112可以是神经网络,其从连结器106接收连结的序列,并且生成声学序列116。
作为一个示例,系统100可以具有二维全局(逐话语)观察:对数音高跨度,以及与二维词语级观察连结的中值音素对数持续时间:对数音高跨度和中值音素对数持续时间。所有观察可以归一化为[-1:1]。由于全局观察,系统用户可以控制全局语音配速和表达性。例如,用户可以添加正的全局持续时间修改量以减慢语音或使语音更清晰。此外,用户可添加正的全局音高跨度修改量以增加语音表现力。使用组合的韵律信息中的词语级观察,系统100可以控制期望的词语强调。例如,这样的词语强调可以在对话应用中是有用的。在一些示例中,用户可以故意将正的持续时间修改量和正的音高跨距修改量应用于与期望词语相对应的观察的子序列。在利用所提出的对若干话音语料库的韵律信息控制的实验中,示例系统响应于逐分量韵律信息推理时间修改,而成功地减慢或加速作为对配速分量修改的响应,并且响应于音高分量修改而增加或降低表达性。
应当理解,图1的框图不旨在指示系统100应包括图1中所示的所有组件,而是,系统100可以包括更少的组件或图1中未示出的附加组件(例如,附加的客户端设备或附加的资源服务器等)。
现在参考图2,框图示出了用于编码韵律信息的示例系统。示例系统200可以用于实现图3的方法,并且可以使用图5的计算设备500或图8的计算机可读介质800来实现。
图2的系统200包括韵律信息编码器110,韵律信息编码器110耦合到观察到的韵律信息生成器122。系统202可以接收输入话语202并且输出嵌入的韵律信息204。例如,输入话语202可以是用于使用嵌入的韵律信息204来训练图1的系统100的训练数据。在各种示例中,输入话语202可以包括已记录的段落、句子、词语等。
在图2的示例中,观察韵律信息生成器122接收输入话语,并产生一组韵律观察。如图2所示,韵律观察可以包括在各种级别的观察,包括句子韵律观察206、短语韵律观察208和词语韵律观察210,以及其它可能的级别的韵律观察。在各种示例中,韵律观察206、208、210的类型中的每个类型可以包括以下中的至少一些类型:段内的对数音高观察、段内的子段对数持续时间观察、以及段内的对数能量观察。例如,其他类型的韵律观察可以是呼吸度、噪声水平、鼻音、话音质量等。例如,呼吸度可以通过有声话音部分处的谐波噪声比被评估。在一些示例中,噪声水平可以通过在静默时的SNR估计被评估。在各种示例中,鼻音可以使用平均共振峰分析被评估。在一些示例中,话音质量可以使用声门脉冲建模以及对有声语音部分的声门闭合和打开间隔的分析被评估。例如,所使用的声门脉冲建模可以是Liljencrants-Fant声门脉冲建模。通常,观察中的每个观察可以是统计测量的线性组合。每个观察可以包括统计测量,例如均值、分位数集、标准偏差、方差或其任意组合。例如,分位数集合可以是以下形式:[0.1,0.5,0.9]。如上所述,可以对每个发言者适当地归一化观察。例如,观察中的每个观察的有效跨度可以被归一化为[-1,1]。有效跨度可以被计算为:[中位数-3*STD,中位数+3*STD],其中STD是该集的标准偏差。在一些示例中,可以使用分位数来表达跨度,诸如跨度:0.95-分位数减0.05-分位数。
在各种示例中,对齐器和组合器212可以对齐和组合分层观察206、208和210。例如,对齐器和组合器212可以通过求和或连结来对齐和组合分层的观察206、208和210,以产生与输入语言学序列同步的组合的韵律信息,其可以包括观察向量的序列。
仍然参考图2,嵌入器214可以嵌入来自对齐器和组合器212的组合的韵律信息,以生成嵌入的韵律信息204。例如,嵌入的韵律信息204可以包括与输入语言学序列同步的每发声的单个嵌入向量或者嵌入向量的序列。在各种示例中,嵌入的韵律信息204然后可以用于训练声学解码器,如图1中所描述的。
应当理解,图2的框图不旨在指示系统200应包括图2所示的所有组件,而是,系统200可以包括更少的组件或图2中未示出的附加组件(例如,附加输入、观察到的韵律信息的类型、或附加嵌入的韵律信息等)。例如,在推理期间,代替于观察到的韵律生成器122,韵律信息预测器可以被馈送到韵律信息编码器110或嵌入器214中。
图3是可以训练神经网络以使用嵌入的韵律信息自动控制韵律的示例方法的处理流程图。方法300可以利用任何合适的计算设备来实现,诸如图5的计算设备500,并且参考图1和图2的系统100和系统200来描述,例如,方法300可以由图5的计算设备500的训练器模块536或者图8的计算机可读介质800的训练器模块818来实现。
在方框302,语言学序列和对应的声学序列被接收。例如,语言学序列可以对应于用于训练的输入话语。
在框304,基于语言学序列和对应的声学序列来生成观察到的组合的韵律信息。例如,观察到的组合的韵律信息可以是从用于训练的输入话语自动被计算并与之对应的针对不同时间跨度的观察到的韵律信息的序列。观察到的韵律信息可以例如通过使用连结或求和而被临时对齐和组合,以获取观察到的组合的韵律信息的序列。在各种示例中,观察到的韵律信息可以包括观察的任何组合(包括与输入话语相关联的统计测量),诸如段内的对数音高观察、段内的子段对数持续时间观察、段内的对数能量观察或其任何组合。
在框306处,观察到的组合的韵律信息与语言学和声学序列一起被用于训练神经网络以预测声学序列。例如,神经网络可以包括韵律信息编码器、语言学编码器和声学解码器。作为一个示例,嵌入的韵律信息和嵌入的语言学序列被馈送到输出梅尔频谱图序列的声学解码器中。例如,可以使用梅尔频谱的均方误差(MSE)损失来训练神经网络。
在框308,韵律信息预测器被训练以使用语言学序列来预测组合的韵律信息观察。在一些示例中,韵律信息预测器可以被训练为预测分层韵律信息观察,分层韵律信息观察可被进一步对齐和组合以生成组合的韵律信息。在各种示例中,或韵律信息预测器可以被训练为直接预测组合的韵律信息观察。在各种示例中,韵律信息预测器可以与解码器分开地或联合地被训练。作为一个实例,在框306中,解码器可以单独地被训练。然后,可以基于语言学序列和训练目标来训练韵律信息预测器。在一些示例中,可以基于来自经训练的语言学编码器的嵌入的语言学序列来训练韵律信息预测器。
作为一个示例,韵律信息预测器可以与序列到序列梅尔频谱特征预测模块组合。例如,梅尔谱特征预测模块可基于2018年发布的Tachron2架构,包括具有使用双向LSTM实现的终端递归层的卷积编码器。梅尔谱特征预测模块可以将语言学序列编码成嵌入的语言学序列,与自回归注意力解码器(attentive decoder)串联,该自回归注意力解码器将嵌入式语言学序列扩展到固定帧梅尔谱特征向量的序列。
具体地,Tacotron2解码器从取决于由注意力模块生成的输入上下文向量xc的经预网络(pre-net)处理的先前频谱帧sp,每次预测一个频谱帧。解码器利用双层堆叠的LSTM网络生成其隐藏状态向量hc。与输入上下文向量xc组合的隐藏状态向量hc被馈送至最终线性层以产生当前梅尔频谱和序列结束标志。最后,还可以存在精化整个话语梅尔频谱图以改进保真度的卷积后网。
Tacotron2模型可以直接消耗文本字符。然而,在一些示例中,系统可以被馈送有来自扩展的语音词典的符号序列,以简化训练。例如,扩展的语音词典可包括电话身份、词汇应力和短语类型,其富含不同的断词和静默符号。词汇应力可以是3路参数,包括初级、次级、无应力。短语类型可以是包括肯定值、询问值、感叹值和“其他”值的4路参数。在一些示例中,这种语言学输入序列可以由基于外部字素到音素规则的TTS前端模块(例如,2006年发布的单元选择TTS)生成。
在一些实例中,可以通过将应用于当前与先前梅尔频谱之间的差的均方误差(MSE)并入到最终系统损失中来获取更好的合成语音质量。例如,给定后网络(post-net)之前的时间t处的预测梅尔频谱yt、时间t处的最终预测梅尔频谱Zt、以及时间t处的梅尔频谱目标qt,可使用以下等式计算频谱损失(loss):
Lossspc=0.5MSE(yt,qt)+0.25MSE(zt,qt)+0.25MSE(zt-zt-1,qt-qt-1,) 等式1
在各种示例中,与预测是自回归的推理过程相对,训练过程可遵循教师强制的方法。例如,当前梅尔频谱的预测基于真实的先前梅尔频谱被执行并且由预网络处理。在一些示例中,可以在训练期间应用双馈送。例如,解码器的预网络可以被馈送有连结在一起的真实的先前梅尔频谱和预测的梅尔频谱。在推理时间,当真实帧不可用时,所预测的梅尔频谱可以简单地被复制。虽然将总网络大小仅增加0.1%,但该修改将总模型回归损失减少约15%,如对两个专业记录的13小时和22小时的美国英语语料库所测试的。
图3的过程流程图并非旨在指示方法300的操作要以任何特定顺序执行,或者方法300的所有操作要包括在每个情况中。此外,方法300可以包括任何合适数目的附加操作。
图4是可以生成具有自动被控制韵律的序列的示例方法的过程流程图。方法400可以利用任何合适的计算设备来实现,诸如图5的计算设备500,并且参考图1和2的系统100和系统200来描述。例如,方法400可以由图5和图8的计算设备500和计算机可读介质800实现。
在框402,语言学序列和韵律信息偏移被接收。例如,语言学序列可以是文本序列。韵律信息偏移可以是用于故意移位合成语音的韵律特性的一组外部逐分量修改。例如,韵律信息偏移可以用于改变语音配速、音高变异性、音量变异性等。
在框404,组合的韵律信息经由经训练的韵律信息预测器基于语言学序列被生成。例如,组合的韵律信息可以包括多个观察。观察包括评估预定时间段内的韵律分量的统计测量的线性组合。例如,可以在话语级评估观察。在一些示例中,观察在不同的时间跨度处局部地和分层地被评估。在各种示例中,观察可以进一步在时间上被对齐和组合以获得组合的韵律信息观察。备选地,可以从语言学序列中直接预测组合的韵律信息。在一些示例中,可以基于嵌入的语言学序列来生成韵律信息。在一些示例中,嵌入的语言学序列可以是离散变量的嵌入的序列,即,被映射到连续嵌入空间的离散语言学序列。
在框406,声学序列经由经训练的神经网络基于组合的韵律信息、韵律信息偏移和语言学序列被生成。例如,经训练的神经网络可以包括韵律信息编码器、语言学编码器和声学解码器。在一些示例中,基于韵律信息偏移来修改组合的韵律信息分量。例如,韵律信息偏移可以被添加到对应的观察。在一些示例中,组合的韵律信息穿过韵律信息嵌入器以生成嵌入的韵律信息。例如,韵律信息嵌入器可以对齐、组合和嵌入观察以生成嵌入的韵律信息。然后,嵌入的韵律信息可以与语言学序列或嵌入的语言学序列连结,并且由解码器用于生成声学序列。
图4的处理流程图不旨在指示方法400的操作将以任何特定次序执行,或者方法400的所有操作将被包括在每个情况中。此外,方法400可以包括任何合适数目的附加操作。例如,方法400可以包括基于声学序列来生成音频。
在一些场景中,本文所描述的技术可以在云计算环境中实现。如下文参照至少图5-图8更详细讨论的,被配置成使用嵌入的韵律信息自动控制韵律的计算设备可以在云计算环境中实现。提前理解的是,虽然本公开可以包括关于云计算的描述,但是本文所引用的教导的实现不限于云计算环境。而是,本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问,该可配置计算资源可以用最小的管理努力或与服务提供方的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消耗方可按需自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与服务的提供方的人类交互。
广泛的网络接入:能力通过网络上可用并且通过标准机制被访问,该标准机制促进由异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用。
资源池化:提供方的计算资源被池化以使用多租户模型服务于多个消耗方,其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的意义,因为消耗方通常对所提供资源的确切位置不具有控制或知识,但是可以能够在较高抽象层级(例如,国家、州或数据中心)处指定位置。
快速弹性:可以快速且弹性地、在一些情况下自动地供应能力以快速缩小、并且快速释放以快速放大。对于消耗方,可用于供应的能力通常显得不受限制,并且可以在任何时间以任何数量购买。
测量的服务:云系统通过利用适于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象水平的计量能力来自动控制和优化资源使用。可监视、控制和报告资源使用,从而为所利用的服务的提供方和消耗方两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消耗方的能力是使用在云基础设施上运行的提供方的应用。应用通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备可访问。消耗方不管理或控制包括网络、服务器、操作系统、存储装置或甚至个体应用能力的底层云基础设施,可能的例外是有限的用户特定的应用配置设置。
平台即服务(PaaS):提供给消耗方的能力是将消耗方创建或获取的应用部署到云基础设施上,该应用是使用提供方所支持的编程语言和工具来创建的。消耗方不管理或控制包括网络、服务器、操作系统或存储装置的底层云基础设施,但是具有对所部署的应用以及可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消耗方的能力是供应消耗方能够部署和运行可以包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消耗方不管理或控制底层云基础设施,但是具有对操作系统、存储装置、所部署的应用的控制,以及可能地对选择联网组件(例如,主机防火墙)的有限的控制。
部署模型如下:
私有云:云基础设施仅为组织而被操作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础设施由若干组织共享并且支持具有共享的关注(例如,任务、安全性要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理,并且可以存在于现场或场外。
公共云:使云基础设施对公众或大型产业组可用并且由销售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共的)的组合,这些云保持独特的实体但是通过标准化或专有技术被绑定在一起,这些技术实现数据和应用可移植性(例如,用于云之间的负载平衡的云爆发)。
云计算环境是面向服务的,关注于无状态性、低耦合性、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
图5是可以使用嵌入的韵律信息自动控制韵律的示例计算装置的框图。计算设备500可以是例如服务器、台式计算机、膝上型计算机、平板计算机或智能电话。在一些示例中,计算设备500可以是云计算节点。计算设备500可以在计算机系统可执行指令的一般上下文中描述,诸如由计算机系统执行的程序模块。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算设备500可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
计算设备500可以包括用于执行所存储的指令的处理器502、用于在操作期间为所述指令的操作提供临时存储器空间的存储器设备504。处理器可以是单核处理器、多核处理器、计算集群或任何数目的其他配置。存储器504可以包括随机存取存储器(RAM)、只读存储器、闪存或任何其他合适的存储器系统。
处理器502可以通过系统互连506(例如,PCI、PCI等)连接到适于将计算设备500连接到一个或多个I/O设备510的输入/输出(I/O)设备接口508。I/O设备510可以包括例如键盘和指点设备,其中指示设备可以包括触摸板或触摸屏等。I/O设备510可以是计算设备500的内置组件,或者可以是外部连接到计算设备500的设备。
处理器502还可以通过系统互连506链接到适于将计算设备500连接到显示设备514的显示接口512。显示设备514可以包括作为计算设备500的内置组件的显示屏。显示设备514还可以包括外部连接到计算设备500的计算机监视器、电视机或投影仪等。另外,网络接口控制器(NIC)516可以适于通过系统互连506将计算设备500连接到网络518。在一些实施例中,NIC 516可使用任何合适的接口或协议来传输数据,诸如互联网小型计算机系统接口等。网络518可以是蜂窝网络、无线电网络、广域网(WAN)、局域网(LAN)或互联网等。外部计算设备520可以通过网络518连接到计算设备500。在一些示例中,外部计算设备520可以是外部网络服务器520。在一些示例中,外部计算设备520可以是云计算节点。
处理器502还可以通过系统互连506链接到存储设备522,其可以包括硬盘驱动器、光盘驱动器、USB闪存驱动器、驱动器阵列或其任何组合。在一些示例中,存储设备可以包括接收器模块524、语言学编码器模块526、预测器模块528、韵律编码器模块530、连结器模块532、声学解码器模块534和训练器模块536。接收器模块524可以接收语言学序列和韵律信息偏移。例如,语言学序列可以是文本序列。语言学编码器模块526可以基于所接收的语言学序列生成嵌入的语言学序列。预测器模块528可以基于语言学序列或嵌入的语言学序列生成包括在各个时间段上的多个观察的组合的韵律信息。观察可以与语言学序列对齐,并且通过求和或连结来组合。观察包括评估预定时间段内的韵律分量的统计测量的线性组合。例如,观察可以是评估配速分量、音高分量、响度分量或其任何组合的统计测量的线性组合或线性组合的集。在一些示例中,观察可以包括句子韵律观察、短语韵律观察和词语韵律观察或其任何组合。韵律编码器模块530可以基于韵律信息偏移修改观察,以便以特定的预定方式调整声学序列的韵律。韵律编码器模块530还可以嵌入观察以生成嵌入的韵律信息。连接器模块532可以将嵌入的韵律信息与嵌入的语言学序列连结。声学解码器模块534可以基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。例如,解码器模块534可以基于组合的韵律信息观察和韵律信息偏移来生成声学序列。训练器模块536可以基于从未标记训练数据提取的观察到的韵律信息来训练韵律信息预测器。例如,训练器模块536可以基于从训练期间的记录提取的观察到的频谱来训练语言学编码器模块526和声学解码器模块534。在一些示例中,训练器模块536可以基于由利用观察到的韵律信息所训练的系统生成的嵌入的语言学序列来训练韵律信息预测器。
应当理解,图5的框图不旨在指示计算设备500要包括图5中所示的所有组件,而是计算设备500可以包括更少的组件或图5中未示出的附加组件(例如,附加存储器组件、嵌入的控制器、模块、附加网络接口等)。此外,接收器524、语言学编码器模块526、预测器模块528、韵律编码器模块530、连结器模块532、声学解码器模块534和训练器模块536的功能性中的任何功能性可以部分地或全部地以硬件和/或以处理器502来实现。例如,功能性可以利用专用集成电路、在嵌入式控制器中实现的逻辑或者在处理器502中实现的逻辑等来实现。在一些实施例中,接收器模块524、语言学编码器模块526和预测器模块528、韵律编码器模块530、连结器模块532、声学解码器模块534和训练器模块536的功能性可以用逻辑来实现,其中,如本文所提到的,逻辑可以包括任何合适的硬件(例如,处理器等)、软件(例如,应用等)、固件或硬件、软件和固件的任何合适的组合。
现在参考图6,描绘了说明性云计算环境600。如图所示,云计算环境600包括云消耗方所使用的本地计算设备可以与其通信的一个或多个云计算节点602,本地计算设备诸如例如是个人数字助理(PDA)或蜂窝电话604A、台式计算机604B、膝上型计算机604C和/或汽车计算机系统604N。节点602可以彼此通信。它们可以物理地或虚拟地被分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境600提供基础设施、平台和/或软件作为服务,云消耗方不需要为其维护本地计算设备上的资源。应当理解,图6中所示的计算设备604A-N的类型仅旨在说明,并且计算节点602和云计算环境600可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算设备通信。
现在参考图7,示出了由云计算环境600(图6)提供的一组功能抽象层。应当预先理解,图7中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描述的,提供了下面的层和对应的功能。
硬件和软件层700包括硬件和软件组件。硬件组件的示例包括大型机,在一个示例中为系统;基于RISC(精简指令集计算机)架构的服务器,在一个示例中为IBM系统;IBM系统;IBM系统;存储设备;网络和联网组件。软件组件的示例包括网络应用服务器软件,在一个示例中为IBM应用服务器软件;以及数据库软件,在一个实例中为IBM数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCerter、WebSphere和DB2是在全世界许多管辖区注册的国际商业机器公司的商标)。
虚拟化层702提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器;虚拟存储装置;虚拟网络,包括虚拟专用网络;虚拟应用和操作系统;以及虚拟客户端。在一个示例中,管理层704可以提供下面描述的功能。资源供应提供了对被用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价提供了在云计算环境中利用资源时的成本跟踪,以及针对这些资源的消耗开账单或开发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消耗方和任务提供身份验证,以及为数据和其他资源提供保护。用户门户为消耗方和系统管理员提供对云计算环境的访问。服务级别管理提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行提供了云计算资源的预安排和采购,其中根据SLA来预计未来需求。
工作负载层706提供了可以利用云计算环境的功能性的示例。可以从该层提供的工作负载和功能的示例包括:地图绘制和导航;软件开发和生命周期管理;虚拟教室教育递送;数据分析处理;事务处理;自动韵律控制。
本技术可以是系统、方法或计算机程序产品。该计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多种介质),该计算机可读程序指令用于使处理器执行本发明的方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机盘,硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存),静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码的设备(诸如穿孔卡片或者具有记录在其上的指令的凹槽中的凸起结构),以及前述各项的任何合适的组合。如本文中所使用的,计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质被下载到相应的计算/处理设备,或者经由网络(例如,互联网、局域网、广域网和/或无线网络)被下载到外部计算机或者外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并且转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本技术的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任何组合编写的代码或目标代码,包括诸如Smalltalk、C++等面向对象的编程语言,以及常规的过程式编程语言,诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供方的互联网)。在一些实施例中,包括例如可编程逻辑电路装置、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路装置个性化,以便执行本发明的方面。
本文中参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各个框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机的处理器,专用计算机或者其他可编程数据处理装置以产生机器,使得经由计算机的处理器或其他可编程数据处理装置执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以被存储在可以引导计算机、可编程数据处理装置,和/或以特定方式起作用的其他设备的计算机可读存储介质中,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或者其他设备上,以使一系列操作步骤在计算机、其他可编程装置或者其他设备产生计算机实现的过程,使得在计算机、其他可编程装置或者其他设备上执行的指令实现流程图和/或框图中的一个或多个框中指定的功能/动作。
现在参考图6,描述了可以使用嵌入的韵律信息来自动控制韵律的示例有形非瞬态计算机可读介质600的框图。有形非瞬态计算机可读介质800可以由处理器802通过计算机互连804访问。此外,有形的非瞬态计算机可读介质800可以包括用于引导处理器802执行图3和图4的方法300和400的操作的代码。
如图8所示,本文讨论的各种软件组件可以存储在有形的、非瞬态的计算机可读介质800上,例如,接收器模块806包括用于接收语言学序列和韵律信息偏移的代码。语言学编码器模块808包括用于基于语言学序列来生成嵌入的语言学序列的代码。预测器模块810还包括用于基于语言学序列来生成包括各种时间段之上的观察的组合的韵律信息的代码。观察可以与语言学序列对齐,并且通过求和或连结来组合。观察包括在预定时间段内评估韵律分量的统计测量的线性组合。韵律编码器模块812包括用于对观察进行编码以生成嵌入的韵律信息的代码。在一些示例中,韵律编码器模块812包括用于基于韵律信息偏移来修改观察的代码。例如,韵律编码器模块812包括用于将韵律信息偏移添加到对应的观察的代码。连结器模块814包括将嵌入的韵律信息与嵌入的语言学序列连结的代码。声学解码器模块816包括用于基于嵌入的韵律信息、韵律信息偏移和语言学序列或嵌入的语言学序列来生成声学序列的代码。训练器模块818包括用于基于从未标记得训练数据中所提取的观察到的韵律信息来训练韵律信息预测器的代码。应当理解,取决于特定应用,图8中未示出的任何数目的附加软件组件可以被包括在有形的、非瞬态的计算机可读介质800内。
附图中的流程图和框图图示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能性和操作。对此,流程图或框图中的每个框可以标识模块、段或指令的一部分,其包括用于实现(多个)指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中所标注的功能可以不以图中所标注的顺序发生。例如,取决于所涉及的功能性,连续示出的两个框实际上可以基本同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,该基于专用硬件的系统执行指定的功能或动作或者执行专用硬件与计算机指令的组合。应当理解,取决于具体应用,图8中未示出的任何数目的附加软件组件可以被包括在有形的、非瞬态的计算机可读介质800内。例如,计算机可读介质800还可以包括用于基于声学序列来生成音频的代码。
已经出于说明的目的呈现了本技术的不同实施例的描述,但是并不旨在是穷尽性的或者限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域的普通技术人员而言将是明显的。本文使用的术语被选择以最佳地解释实施例的原理、实际应用或者对在市场上找到的技术上的技术改进,或者使得本领域普通技术人员能够理解本文中所公开的实施例。
Claims (21)
1.一种系统,包括处理器,所述处理器用以:
接收语言学序列和韵律信息偏移;
经由经训练的韵律信息预测器,基于所述语言学序列来生成组合的韵律信息,所述组合的韵律信息包括多个观察,其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及
经由经训练的神经网络,基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。
2.根据权利要求1所述的系统,其中所述处理器可操作以:基于从未标记训练数据所提取的观察到的韵律信息来训练所述韵律信息预测器。
3.根据权利要求1所述的系统,其中所述处理器可操作以:基于嵌入的语言学序列来训练所述韵律信息预测器,所述嵌入的语言学序列是由利用所述观察到的韵律信息所训练的系统生成的。
4.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:基于从训练期间的记录所提取的观察到的频谱来训练所述神经网络,所述神经网络包括序列到序列神经网络,所述序列到序列神经网络包括韵律信息编码器、语言学编码器和声学解码器。
5.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:基于所述韵律信息偏移来修改所述多个观察,以用特定的预定方式来调整所述声学序列的韵律。
6.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:经由语言学编码器,基于所述语言学序列来生成嵌入的语言学序列。
7.根据前述权利要求中任一项所述的系统,其中所述韵律分量包括配速分量、音高分量、响度分量或其任何组合。
8.一种计算机实现的方法,包括:
接收语言学序列和韵律信息偏移;
经由经训练的韵律信息预测器,基于所述语言学序列并且与所述语言学序列对齐地生成组合的韵律信息,所述组合的韵律信息包括多个观察,其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及
经由经训练的神经网络,基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。
9.根据权利要求8所述的计算机实现的方法,包括:
经由经训练的编码器,基于所述语言学序列来生成嵌入的语言学序列;以及
通过求和或连结来组合所述多个观察并且对所述多个观察进行编码以生成嵌入的韵律信息,并且将所述嵌入的韵律信息与所述嵌入的语言学序列连结。
10.根据权利要求8所述的计算机实现的方法,包括基于所述韵律信息偏移来修改所述多个观察。
11.根据权利要求10所述的计算机实现的方法,其中修改所述多个观察包括将所述韵律信息偏移添加到对应观察。
12.根据权利要求8至11中任一项所述的计算机实现的方法,其中所述多个观察在话语级被评估。
13.根据权利要求8至11中任一项所述的计算机实现的方法,其中所述多个观察在不同的时间跨度上局部地和分层地被评估。
14.根据权利要求8至13中任一项所述的计算机实现的方法,包括基于所述声学序列来生成音频。
15.一种用于自动控制韵律的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序代码,其中所述计算机可读存储介质本身不是瞬态信号,所述程序代码由处理器可执行以使所述处理器:
接收语言学序列和韵律信息偏移;
基于所述语言学序列来生成组合的韵律信息,所述组合的韵律信息包括多个观察,其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及
基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。
16.根据权利要求15所述的计算机程序产品,还包括由所述处理器可执行以用于以下的程序代码:基于所述语言学序列来生成嵌入的语言学序列,以及对齐、组合和嵌入所述多个观察以生成所述嵌入的韵律信息,并且将所述嵌入的韵律信息与所述嵌入的语言学序列连结。
17.根据权利要求15所述的计算机程序产品,还包括由所述处理器可执行以基于所述韵律信息偏移来修改所述多个观察的程序代码。
18.根据权利要求15所述的计算机程序产品,还包括由所述处理器可执行以将所述韵律信息偏移添加到所述韵律信息的对应观察的程序代码。
19.根据权利要求15所述的计算机程序产品,还包括由所述处理器可执行以基于从未标记训练数据所提取的观察到的韵律信息来训练所述韵律信息预测器的程序代码。
20.根据权利要求15至19中任一项所述的计算机程序产品,还包括由所述处理器可执行以基于所述声学序列来生成音频的程序代码。
21.一种计算机程序,包括程序代码装置,当所述程序在计算机上运行时,所述程序代码装置适于执行根据权利要求8至14中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/568,289 | 2019-09-12 | ||
US16/568,289 US11322135B2 (en) | 2019-09-12 | 2019-09-12 | Generating acoustic sequences via neural networks using combined prosody info |
PCT/IB2020/058313 WO2021048727A1 (en) | 2019-09-12 | 2020-09-07 | Generating acoustic sequences via neural networks using combined prosody info |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114207706A true CN114207706A (zh) | 2022-03-18 |
Family
ID=74866635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080056837.1A Pending CN114207706A (zh) | 2019-09-12 | 2020-09-07 | 使用组合的韵律信息经由神经网络生成声学序列 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11322135B2 (zh) |
JP (1) | JP7517778B2 (zh) |
CN (1) | CN114207706A (zh) |
DE (1) | DE112020003698T5 (zh) |
GB (1) | GB2604752B (zh) |
WO (1) | WO2021048727A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
US12080272B2 (en) * | 2019-12-10 | 2024-09-03 | Google Llc | Attention-based clockwork hierarchical variational encoder |
US11735197B2 (en) * | 2020-07-07 | 2023-08-22 | Google Llc | Machine-learned differentiable digital signal processing |
US11783813B1 (en) * | 2021-05-02 | 2023-10-10 | Abbas Rafii | Methods and systems for improving word discrimination with phonologically-trained machine learning models |
CN114255736B (zh) * | 2021-12-23 | 2024-08-23 | 思必驰科技股份有限公司 | 韵律标注方法及系统 |
CN114826718B (zh) * | 2022-04-19 | 2022-11-04 | 中国人民解放军战略支援部队航天工程大学 | 一种基于多维度信息的内部网络异常检测方法及系统 |
US12153879B2 (en) * | 2022-04-19 | 2024-11-26 | International Business Machines Corporation | Syntactic and semantic autocorrect learning |
CN118354301A (zh) * | 2023-01-16 | 2024-07-16 | 维沃移动通信有限公司 | 信息传输方法、装置及通信设备 |
CN116156011B (zh) * | 2023-04-18 | 2023-07-04 | 安徽中科锟铻量子工业互联网有限公司 | 一种应用于量子网关的通信天线 |
CN117079352A (zh) * | 2023-10-17 | 2023-11-17 | 山东大学 | 一种基于视频序列的人体动作识别方法、系统及存储介质 |
CN118200852B (zh) * | 2024-05-15 | 2024-07-30 | 广州易而达科技股份有限公司 | 一种基于Wi-Fi的室内定位方法、装置、设备及存储介质 |
CN118588057B (zh) * | 2024-08-05 | 2025-03-28 | 南京硅基智能科技有限公司 | 语音合成方法、语音合成装置和可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
US20040019484A1 (en) * | 2002-03-15 | 2004-01-29 | Erika Kobayashi | Method and apparatus for speech synthesis, program, recording medium, method and apparatus for generating constraint information and robot apparatus |
JP2006215109A (ja) * | 2005-02-01 | 2006-08-17 | Nippon Hoso Kyokai <Nhk> | 音声合成装置及び音声合成プログラム |
JP2014098802A (ja) * | 2012-11-14 | 2014-05-29 | Yamaha Corp | 音声合成装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US20190172443A1 (en) * | 2017-12-06 | 2019-06-06 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5605066B2 (ja) | 2010-08-06 | 2014-10-15 | ヤマハ株式会社 | 音合成用データ生成装置およびプログラム |
US9484015B2 (en) * | 2013-05-28 | 2016-11-01 | International Business Machines Corporation | Hybrid predictive model for enhancing prosodic expressiveness |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9997154B2 (en) * | 2014-05-12 | 2018-06-12 | At&T Intellectual Property I, L.P. | System and method for prosodically modified unit selection databases |
US9824681B2 (en) | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US20180082679A1 (en) | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
US11321890B2 (en) * | 2016-11-09 | 2022-05-03 | Microsoft Technology Licensing, Llc | User interface for generating expressive content |
US10860685B2 (en) | 2016-11-28 | 2020-12-08 | Google Llc | Generating structured text content using speech recognition models |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10937444B1 (en) * | 2017-11-22 | 2021-03-02 | Educational Testing Service | End-to-end neural network based automated speech scoring |
CN108492818B (zh) | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
WO2019202941A1 (ja) * | 2018-04-18 | 2019-10-24 | 日本電信電話株式会社 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
KR20200015418A (ko) * | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
US11270684B2 (en) * | 2019-09-11 | 2022-03-08 | Artificial Intelligence Foundation, Inc. | Generation of speech with a prosodic characteristic |
US12265796B2 (en) * | 2021-01-21 | 2025-04-01 | Servicenow, Inc. | Lookup source framework for a natural language understanding (NLU) framework |
-
2019
- 2019-09-12 US US16/568,289 patent/US11322135B2/en active Active
-
2020
- 2020-09-07 CN CN202080056837.1A patent/CN114207706A/zh active Pending
- 2020-09-07 JP JP2022515917A patent/JP7517778B2/ja active Active
- 2020-09-07 GB GB2204059.6A patent/GB2604752B/en active Active
- 2020-09-07 DE DE112020003698.7T patent/DE112020003698T5/de active Pending
- 2020-09-07 WO PCT/IB2020/058313 patent/WO2021048727A1/en active Application Filing
-
2022
- 2022-04-28 US US17/731,570 patent/US11842728B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
US20040019484A1 (en) * | 2002-03-15 | 2004-01-29 | Erika Kobayashi | Method and apparatus for speech synthesis, program, recording medium, method and apparatus for generating constraint information and robot apparatus |
JP2006215109A (ja) * | 2005-02-01 | 2006-08-17 | Nippon Hoso Kyokai <Nhk> | 音声合成装置及び音声合成プログラム |
JP2014098802A (ja) * | 2012-11-14 | 2014-05-29 | Yamaha Corp | 音声合成装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US20190172443A1 (en) * | 2017-12-06 | 2019-06-06 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
Also Published As
Publication number | Publication date |
---|---|
US20220328041A1 (en) | 2022-10-13 |
US11842728B2 (en) | 2023-12-12 |
GB2604752B (en) | 2023-02-22 |
GB2604752A (en) | 2022-09-14 |
US20210082408A1 (en) | 2021-03-18 |
JP2022547685A (ja) | 2022-11-15 |
GB202204059D0 (en) | 2022-05-04 |
US11322135B2 (en) | 2022-05-03 |
DE112020003698T5 (de) | 2022-04-28 |
WO2021048727A1 (en) | 2021-03-18 |
JP7517778B2 (ja) | 2024-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
EP4172984B1 (en) | Two-level speech prosody transfer | |
US12249315B2 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
US10394963B2 (en) | Natural language processor for providing natural language signals in a natural language output | |
CN113892135A (zh) | 多语言语音合成和跨语言话音克隆 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
US10394861B2 (en) | Natural language processor for providing natural language signals in a natural language output | |
US20220246132A1 (en) | Generating Diverse and Natural Text-To-Speech Samples | |
US12136414B2 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
US11011161B2 (en) | RNNLM-based generation of templates for class-based text generation | |
CN111161695B (zh) | 歌曲生成方法和装置 | |
JP2022551771A (ja) | 区別可能な言語音を生成するための音声合成のトレーニング | |
US11960852B2 (en) | Robust direct speech-to-speech translation | |
JP2024501173A (ja) | スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
CN116129859A (zh) | 韵律标注方法、声学模型训练方法、语音合成方法及装置 | |
Mao et al. | Personalized Lao language synthesis via disentangled neural codec language model | |
JP2025502950A (ja) | ニューラル・トランスデューサ・モデルに統合された外部言語モデル情報 | |
CN119649791A (zh) | 语音合成方法、模型训练方法及相关装置 | |
CN116778907A (zh) | 基于多模态的语音合成方法、装置、设备及存储介质 | |
CN119339703A (zh) | 一种语音合成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |