[go: up one dir, main page]

CN107767858A - 发音词典生成方法及装置、存储介质、电子设备 - Google Patents

发音词典生成方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN107767858A
CN107767858A CN201710805626.3A CN201710805626A CN107767858A CN 107767858 A CN107767858 A CN 107767858A CN 201710805626 A CN201710805626 A CN 201710805626A CN 107767858 A CN107767858 A CN 107767858A
Authority
CN
China
Prior art keywords
pronunciation
unit
score value
path
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710805626.3A
Other languages
English (en)
Other versions
CN107767858B (zh
Inventor
方昕
刘俊华
魏思
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710805626.3A priority Critical patent/CN107767858B/zh
Publication of CN107767858A publication Critical patent/CN107767858A/zh
Application granted granted Critical
Publication of CN107767858B publication Critical patent/CN107767858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种发音词典生成方法及装置、存储介质、电子设备。该方法包括:获取待确定发音词语对应的语音片段,并针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;计算所述发音路径表示的发音的置信度,并利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。如此方案,可以使生成的发音词典更符合用户的实际发音,准确性更高。

Description

发音词典生成方法及装置、存储介质、电子设备
技术领域
本公开涉及语音识别领域,具体地,涉及一种发音词典生成方法及装置、存储介质、电子设备。
背景技术
随着语音识别技术的不断发展,语音识别在很多领域得以广泛应用,例如,语音输入法、会议转写、影视字幕生成等领域。
语音识别技术中重要的一项资源就是发音词典,发音词典一般是将词语映射到音素串。例如,中文发音词典“拔b a2”表示,“拔”这个词语的发音为“b a2”,其中,“b”、“a2”是单音子音素,是声学模型建模的表征单元,一般是一个稳定的发声单元,表示了一个词语如何发音。也就是说,准确的发音词典直接决定了声学模型的质量,进而可以影响语音识别模型的整体识别效果。
目前,大多针对不同的语言类型采用不同的方案生成发音词典:
对于根据字符就能得到发音信息的语言,即拼音性语言,例如维语、韩语等,这种语言对应的词语本身是由音素拼写而成,一般不需要人工构造发音词典。例如,经拉丁转写的词语KoGun:K o G u n,其中,冒号前面的是词语,冒号后面的是发音的音素串。
对于根据字符不能直接得到发音信息的语音,即意音性语言,例如中文等,这种语言的特点是词语表义居多,无法直接从词语文字本身得到发音,需要人工构造发音词典。如上文所举示例,词语“拔”对应的发音的音素串“b a2”无法从词语文字本身得到。
在实际应用过程中,无论是拼音性语言还是意音性语言,都存在大量的音变现象。举例来说,维语中的清化,例如词语“kitablar”中的“b”在读时会清化成“p”;维语中的浊化,例如词语“qelikiN”中的“k”在读时会浊化成“g”;维语中的脱落,例如词语“kitablar”中的“r”在读时会脱落;中文方言,例如合肥方言会将“洗澡”读成“si澡”。
由于音变现象的存在,对于拼音性语言的词典生成方案来说,可能导致生成的发音词典与实际发音存在偏差;对于意音性语言的词典生成方案来说,很难通过人工标出词语所有的音变发音。
发明内容
本公开的主要目的是提供一种发音词典生成方法及装置、存储介质、电子设备,使得生成的发音词典更符合用户的实际发音,准确性更高。
为了实现上述目的,本公开提供一种发音词典生成方法,所述方法包括:
获取待确定发音词语对应的语音片段,并针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;
利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;
计算所述发音路径表示的发音的置信度,并利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
可选地,所述待确定发音词语为拼音性语言,所述针对所述待确定发音词语构建发音识别网络,包括:
按照所述待确定发音词语的拼写顺序,依序设置各正确发音单元的层级;
对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;
设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
可选地,所述利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,包括:
将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;
将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,计算所述备选发音路径的得分值的方式为:
获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;
利用各发音单元的最终分值进行数学运算,获得所述备选发音路径的得分值。
可选地,所述待确定发音词语为意音性语言,所述针对所述待确定发音词语构建发音识别网络,包括:
顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;
设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
可选地,所述利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,包括:
将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;
判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;
确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,计算所述备选发音路径的得分值的方式为:
获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;
利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。
可选地,如果获得M种发音路径,M≥1,则按照以下方式获得每种发音路径表示的发音的置信度:
获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM
将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。
本公开提供一种发音词典生成装置,所述装置包括:
语音片段获取模块,用于获取待确定发音词语对应的语音片段;
发音识别网络构建模块,用于针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;
发音路径确定模块,用于利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;
置信度计算模块,用于计算所述发音路径表示的发音的置信度;
发音词典生成模块,用于利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
可选地,所述待确定发音词语为拼音性语言,
所述发音识别网络构建模块,用于对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
可选地,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;
发音路径确定子模块,用于将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值进行数学运算,得到所述备选发音路径的得分值。
可选地,所述待确定发音词语为意音性语言,
所述发音识别网络构建模块,用于顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
可选地,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;
发音路径确定子模块,用于确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。
可选地,如果获得M种发音路径,M≥1,
所述置信度计算模块,用于获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM;将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。
本公开提供一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述发音词典生成方法的步骤。
本公开提供一种电子设备,所述电子设备包括;
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本公开方案中,可以针对待确定发音词语构建发音识别网络,且使发音识别网络中包括该待确定发音词语的正确发音单元以及音变发音单元,这样,便可利用发音识别网络对待确定发音词语对应的语音片段进行解码,得到语音片段对应的发音路径,进而根据发音路径表示的发音的置信度,得到待确定发音词语的发音,生成发音词典。如此方案,可以使生成的发音词典更符合用户的实际发音,准确性更高。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开方案发音词典生成方法的流程示意图;
图2为本公开方案中一种发音识别网络的示意图;
图3为本公开方案中另一种发音识别网络的示意图;
图4为本公开方案发音词典生成装置的构成示意图;
图5为本公开方案用于生成发音词典的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
参见图1,示出了本公开发音词典生成方法的流程示意图。可以包括以下步骤:
S101,获取待确定发音词语对应的语音片段。
可以理解地,本公开方案中的待确定发音词语可以是不同类型的语言,例如,拼音性语言、意音性语言等;也可以是不同语种的语言,例如,中文、维语等;还可以是同一语种中的不同方言,例如,中文的合肥方言、南京方言等。本公开方案对待确定发音词语的形式可不做具体限定。
本公开方案中,可以采用多种方式获取待确定发音词语对应的语音片段,下面进行举例说明。
方式一,可以通过人工标注的方式,建立待确定发音词语与语音片段的对应关系,并在需要时,根据对应关系获取待确定发音词语对应的语音片段。
方式二,通过自动识别的方式,获取待确定发音词语对应的语音片段。
例如,可以对历史语音数据进行识别解码,从音频格式转换为文本格式后,再通过强制对齐切分,从历史语音数据中得到待确定发音词语对应的语音片段,即,确定出待确定发音词语对应到历史语音数据的时间信息。
举例来说,针对意音性语言中的中文,如果一条历史语音数据标注为“洗衣服”,经过强制对齐切分后,可得到下表1所示时间信息。
表1
词语 起始时间 结束时间 持续时间
20ms 39ms 20ms
衣服 40ms 79ms 40ms
如果待确定发音词语为“衣服”,则可将该条历史语音数据中40~79ms对应的语音片段,确定为“衣服”对应的语音片段。
举例来说,针对拼音性语言中的维语,如果一条历史语音数据标注为“nurGunkitablar bar”,经过强制对齐切分后,可得到下表2所示时间信息。
表2
单音子音素 起始时间 结束时间 持续时间
nurGun 20ms 59ms 40ms
kitablar 60ms 109ms 50ms
bar 110ms 139ms 30ms
如果待确定发音词语为“kitablar”,则可将该条历史语音数据中60~109ms对应的语音片段,确定为“kitablar”对应的语音片段。
S102,针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元。
在实际应用过程中,拼音性语言的音变通常具有一定的规律性,如上文介绍的维语中的清化、浊化、脱落,而意音性语言的音变规律性较差,如由普通话衍生的各种地方方言,针对于此,本公开方案提供如下两种发音识别网络的构建方案。
可以理解地,本公开方案可以结合实际应用需求,设置发音识别网络中的发音单元的粒度。例如,发音单元的粒度可以为音素级别,或者,发音单元的粒度可以为音节级别,本公开方案对此可不做具体限定,保证网络中同层级的发音单元的粒度一致即可。
1.待确定发音词语为拼音性语言
对应于此,可以按照所述待确定发音词语的拼写顺序,依序设置各正确发音单元的层级;对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
作为一种示例,可以结合音变的规律性,确定出存在音变可能的层级。例如,对于维语中的词语“kitablar”来说,本身的正确发音为“k i t a b l a r”,但在实际发音过程中,音素“b”可能会清化成“p”,音素“r”可能会脱落不发音,如果发音单元的粒度为音素级别,则发音单元“b”、“r”所在层级可被认定为存在音变可能的层级。针对于此,可以先依序设置正确发音单元“k”、“i”、“t”、“a”、“b”、“l”、“a”、“r”的层级,再将音变发音单元“p”设置为“b”的同级节点,并在“r”处拟合脱落音变,构建出图2所示发音识别网络。
2.待确定发音词语为意音性语言
对应于此,可以顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
作为一种示例,为了确保构造出所有可能的音变发音,当发音单元的粒度为音素级别时,音变发音单元可以是中文词典包含的所有音素。
作为一种示例,还可以结合实际应用需求,在网络中设置拟合脱落音变的音变发音单元。
如果待确定发音词语为中文词语“洗”,对应的正确发音为“x i3”,即“x”和“i3”为待确定发音词语的正确发音单元,在构建网络时,除正确发音单元之外,还可以将中文词典包含的所有音素、脱落音变作为音变发音单元,设置为正确发音单元的同级并列节点,构建出图3所示发音识别网络。
可以理解地,针对待确定发音词语,可以按照图1所示先获取语音片段再构建发音识别网络;或者,也可以先构建发音识别网络再获取语音片段;或者,同时执行这两个动作,本公开方案对此可不做具体限定。
S103,利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成。
根据上文介绍的两种发音识别网络,本公开方案提供如下两种解码方案,下面分别进行解释说明。
1.针对拼音性语言构建的发音识别网络
具体地,可以将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
以图2所示网络为例,通过“start”节点顺序经过不发生音变的“k”、“i”、“t”、“a”层级后,可以经过正确发音单元“b”,也可以经过音变发音单元“p”;然后再顺序经过不发生音变的“l”、“a”层级后,可以经过正确发音单元“r”,也可以经过拟合脱离音变处的空弧,最终到达“end”节点,即,可以得到4条备选发音路径。如此,便可计算每条备选发音路径的得分值,并将得分值最高的确定为语音片段对应的发音路径,即,待确定发音词语“kitablar”的发音为得分值最高的路径表示的发音。
需要说明的是,图2中标注的L为各发音单元对应的评分值,可以理解为每个发音单元对应的惩罚分值。在利用发音识别网络解码时,除脱落类型的音变发音单元之外,其他发音单元还对应有一个解码的声学分值,作为一种示例,声学分值可以体现为语音片段解码为该发音单元时对应的概率值。
具体地,可以通过以下方式计算备选发音路径的得分值:获得所述备选发音路径包括的所有发音单元的最终分值;利用各发音单元的最终分值进行数学运算,获得所述备选发音路径的得分值。其中,如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到。本公开方案中的数学运算可以为相加、相乘等,本公开方案对此可不做具体限定。
2.针对意音性语言构建的发音识别网络
具体地,可以将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
以图3所示网络为例,通过“start”节点经过“x”节点,到达空节点“null”后,由于该语音片段的解码尚未结束,故可由“null”节点层级回跳至发音单元层级,然后再经过“i3”节点后到达“null”节点,此时语音片段的解码结束,故可最终到达“end”节点,得到一条备选发音路径。本示例中,备选发音路径可以包括2个发音单元、1次层级回跳。
按照上述过程,可以得到语音片段对应的所有备选发音路径,即,得到待确定发音词语“洗”所有可能的发音。如此,便可计算每条备选发音路径的得分值,并将得分值最高的确定为语音片段对应的发音路径,即,待确定发音词语“洗”的发音为得分值最高的路径表示的发音。
需要说明的是,图3中标注的L为各发音单元对应的评分值,可以理解为每个发音单元对应的惩罚分值。在利用发音识别网络解码时,除脱落类型的音变发音单元之外,其他发音单元还对应有一个解码的声学分值,作为一种示例,声学分值可以体现为语音片段解码为该发音单元时对应的概率值。此外,需要说明的是,解码过程中,每进行一次回跳还对应有一个层级回跳的评分值,同样可用于计算备选发音路径的得分值。
具体地,可以通过以下方式计算备选发音路径的得分值:获得所述备选发音路径包括的所有发音单元的最终分值;利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。其中,如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到。本公开方案中的数学运算可以为相加、相乘等,本公开方案对此可不做具体限定。
作为一种示例,在设置惩罚分值时,可以将待确定发音词语的原始发音对应的发音单元的惩罚分值设置为0,将其他发音单元、层级回跳等的惩罚分值设置为-10。这主要是因为词语的音变通常是少数情况,且不会变化太强烈,如此设置惩罚分值可以使解码的结果不会太混乱。作为一种示例,如果待确定发音词语为“洗”,若用户读成“xi澡”,则原始发音对应的发音单元为“x”和“i3”;如果用户读成“si澡”,则原始发音对应的发音单元为“s”和“i3”。
作为一种示例,可以根据实验经验确定惩罚分值。例如,选取多个标准普通话的待确定发音词语,按照本公开方案构建网络并解码,当所有待确定发音词语解码出的发音路径的正确率高于预设阈值时,便可获取此时各发音单元、层级回跳等对应的惩罚分值。作为一种示例,预设阈值可以为95%。本公开方案中,正确率可以理解为解码出的发音路径表示的发音,与用户的原始发音相同。
S104,计算所述发音路径表示的发音的置信度,并利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
本公开方案可以基于置信度以及预设值,筛选出待确定发音词语对应的发音,如此,便可将确定出的发音添加/替换到原发音词典中,形成新的发音词典。本公开方案对预设值的取值可不做限定,具体可结合实际应用需求设置。
作为一种示例,如果获得M种发音路径,M≥1,则可按照以下方式计算置信度:获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM;进而将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。可以体现为以下公式:
其中,S(i,j)表示待确定发音词语i的第j种发音路径表示的发音的置信度;表示待确定发音词语i的第j种发音路径的得分值Sj表示M种发音路径的得分值之和S。
以中文合肥方言的词语“洗”为例,假设共获取到1000个语音片段,按照上文所做介绍,可以得到1000条发音路径以及每条发音路径的得分值。可以理解地,在1000条发音路径中,可能有一部分发音路径是相同的,也可能全部的发音路径都各不相同,也就是说,发音路径的种类M≤1000,利用公式1可以计算出每种发音路径表示的发音的置信度。
作为一种示例,可以将预设值设定为0.5,若待确定发音词语“洗”对应的1000个语音片段中,对应有3种发音路径,且每种发音路径表示的发音的置信度如下:发音为“x i3”的置信度为0.38,发音为“s i3”的置信度为0.52,发音为“q i3”的阈值为0.1,则可将“si3”作为待确定发音词语“洗”在合肥方言中的发音,生成发音词典。
作为一种示例,可以将预设值设定为0.3,若待确定发音词语“kitablar”对应的1000个语音片段中,对应有4种发音路径,且每种发音路径表示的发音的置信度如下:发音为“k i t a b l a r”的置信度为0.2;发音为“k i t a p l a r”的置信度为0.31,发音为“k i t a b l a”的置信度为0.35,发音为“k i t a p l a”的置信度为0.14,则可将“k it a p l a r”与“k i t a b l a”作为待确定发音词语“kitablar”在维语中的发音,生成发音词典。
综上,利用本公开方案生成拼音性语言的发音词典时,有助于解决现有技术未考虑实际音变带来的偏差问题;利用本公开方案生成意音性语言的发音词典时,有助于解决现有技术难以通过人工标出词语所有的音变发音的问题。也就是说,本公开方案生成的发音词典更符合用户的实际发音,准确性更高,基于该发音词典进行语音识别,有助于提高声学模型的质量,进而提高语音识别模型的整体识别效果。
参见图4,示出了本公开发音词典生成装置的构成示意图。所述装置可以包括:
语音片段获取模块201,用于获取待确定发音词语对应的语音片段;
发音识别网络构建模块202,用于针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;
发音路径确定模块203,用于利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;
置信度计算模块204,用于计算所述发音路径表示的发音的置信度;
发音词典生成模块205,用于利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
可选地,所述待确定发音词语为拼音性语言,
所述发音识别网络构建模块,用于对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
可选地,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;
发音路径确定子模块,用于将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值进行数学运算,得到所述备选发音路径的得分值。
可选地,所述待确定发音词语为意音性语言,
所述发音识别网络构建模块,用于顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
可选地,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;
发音路径确定子模块,用于确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
可选地,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。
可选地,如果获得M种发音路径,M≥1,
所述置信度计算模块,用于获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM;将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参见图5,示出了本公开用于生成发音词典的电子设备300的结构示意图。参照图5,电子设备300包括处理组件301,其进一步包括一个或多个处理器,以及由存储介质302所代表的存储设备资源,用于存储可由处理组件301的执行的指令,例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件301被配置为执行指令,以执行上述发音词典生成方法。
电子设备300还可以包括一个电源组件303,被配置为执行电子设备300的电源管理;一个有线或无线网络接口306,被配置为将电子设备300连接到网络;和一个输入输出(I/O)接口305。电子设备300可以操作基于存储在存储介质302的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (18)

1.一种发音词典生成方法,其特征在于,所述方法包括:
获取待确定发音词语对应的语音片段,并针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;
利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;
计算所述发音路径表示的发音的置信度,并利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
2.根据权利要求1所述的方法,其特征在于,所述待确定发音词语为拼音性语言,所述针对所述待确定发音词语构建发音识别网络,包括:
按照所述待确定发音词语的拼写顺序,依序设置各正确发音单元的层级;
对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;
设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
3.根据权利要求2所述的方法,其特征在于,所述利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,包括:
将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;
将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
4.根据权利要求3所述的方法,其特征在于,计算所述备选发音路径的得分值的方式为:
获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;
利用各发音单元的最终分值进行数学运算,获得所述备选发音路径的得分值。
5.根据权利要求1所述的方法,其特征在于,所述待确定发音词语为意音性语言,所述针对所述待确定发音词语构建发音识别网络,包括:
顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;
设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
6.根据权利要求5所述的方法,其特征在于,所述利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,包括:
将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;
判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;
确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
7.根据权利要求6所述的方法,其特征在于,计算所述备选发音路径的得分值的方式为:
获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;
利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。
8.根据权利要求1至7任一项所述的方法,其特征在于,如果获得M种发音路径,M≥1,则按照以下方式获得每种发音路径表示的发音的置信度:
获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM
将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。
9.一种发音词典生成装置,其特征在于,所述装置包括:
语音片段获取模块,用于获取待确定发音词语对应的语音片段;
发音识别网络构建模块,用于针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;
发音路径确定模块,用于利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;
置信度计算模块,用于计算所述发音路径表示的发音的置信度;
发音词典生成模块,用于利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。
10.根据权利要求9所述的装置,其特征在于,所述待确定发音词语为拼音性语言,
所述发音识别网络构建模块,用于对于存在音变可能的层级,在该层级并列增加所述正确发音单元对应的音变发音单元;设置各正确发音单元以及各音变发音单元对应的评分值,形成所述发音识别网络。
11.根据权利要求10所述的装置,其特征在于,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,依序遍历各层级,确定出所述语音片段对应的所有备选发音路径;
发音路径确定子模块,用于将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
12.根据权利要求11所述的装置,其特征在于,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值进行数学运算,得到所述备选发音路径的得分值。
13.根据权利要求9所述的装置,其特征在于,所述待确定发音词语为意音性语言,
所述发音识别网络构建模块,用于顺序设置发音单元层级和空节点层级,所述发音单元层级包括并列设置的正确发音单元和音变发音单元,所述空节点层级用于在语音片段解码结束之前进行层级回跳;设置各正确发音单元、各音变发音单元、以及层级回跳对应的评分值,形成所述发音识别网络。
14.根据权利要求13所述的装置,其特征在于,所述发音路径确定模块包括:
备选发音路径确定模块,用于将所述语音片段作为所述发音识别网络的输入,经所述发音单元层级后到达所述空节点层级;判断所述语音片段是否解码结束,如果所述语音片段解码未结束,则回跳至所述发音单元层级,直至所述语音片段解码结束得到一条备选发音路径;
发音路径确定子模块,用于确定出所述语音片段对应的所有备选发音路径后,将所述备选发音路径中得分值最高的确定为所述语音片段对应的发音路径。
15.根据权利要求14所述的装置,其特征在于,所述发音路径确定模块还包括:
得分值获得模块,用于获得所述备选发音路径包括的所有发音单元的最终分值:如果所述发音单元为脱落类型的音变发音单元,则该发音单元的最终分值为音变发音单元对应的评分值;否则该发音单元的最终分值由解码得到的发音单元的声学分值以及发音单元对应的评分值进行数学运算得到;利用各发音单元的最终分值、以及所述备选发音路径中所有的层级回跳对应的评分值,进行数学运算,获得所述备选发音路径的得分值。
16.根据权利要求9至15任一项所述的装置,其特征在于,如果获得M种发音路径,M≥1,
所述置信度计算模块,用于获得第j种发音路径的得分值Sj,以及所述M种发音路径的得分值之和S=S1+…+Sj+…SM;将Sj与S的比值,确定为所述第j种发音路径表示的发音的置信度。
17.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1至8任一项所述方法的步骤。
18.一种电子设备,其特征在于,所述电子设备包括;
权利要求17所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
CN201710805626.3A 2017-09-08 2017-09-08 发音词典生成方法及装置、存储介质、电子设备 Active CN107767858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710805626.3A CN107767858B (zh) 2017-09-08 2017-09-08 发音词典生成方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710805626.3A CN107767858B (zh) 2017-09-08 2017-09-08 发音词典生成方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN107767858A true CN107767858A (zh) 2018-03-06
CN107767858B CN107767858B (zh) 2021-05-04

Family

ID=61265107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710805626.3A Active CN107767858B (zh) 2017-09-08 2017-09-08 发音词典生成方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN107767858B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN111369974A (zh) * 2020-03-11 2020-07-03 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111798834A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 多音字的识别方法、装置、可读介质和电子设备
CN112579734A (zh) * 2019-09-30 2021-03-30 北京声智科技有限公司 一种发音预测方法及电子设备
CN113506559A (zh) * 2021-07-21 2021-10-15 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
CN1538384A (zh) * 2003-03-31 2004-10-20 索尼电子有限公司 有效地实施普通话汉语语音识别字典的系统和方法
CN1763843A (zh) * 2005-11-18 2006-04-26 清华大学 用于语言学习机的发音质量评价方法
US20060129398A1 (en) * 2004-12-10 2006-06-15 Microsoft Corporation Method and system for obtaining personal aliases through voice recognition
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
JP2015079064A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106155341A (zh) * 2015-03-25 2016-11-23 李佳俊 象形文字及声调语言的拉丁化方案及其和汉字的计算机文字输入方法
CN106653007A (zh) * 2016-12-05 2017-05-10 苏州奇梦者网络科技有限公司 一种语音识别系统
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1233803A (zh) * 1998-04-29 1999-11-03 松下电器产业株式会社 利用判定树生成拼写单词的发音和对其评分的方法和设备
CN1538384A (zh) * 2003-03-31 2004-10-20 索尼电子有限公司 有效地实施普通话汉语语音识别字典的系统和方法
US20060129398A1 (en) * 2004-12-10 2006-06-15 Microsoft Corporation Method and system for obtaining personal aliases through voice recognition
CN1763843A (zh) * 2005-11-18 2006-04-26 清华大学 用于语言学习机的发音质量评价方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
JP2015079064A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN106155341A (zh) * 2015-03-25 2016-11-23 李佳俊 象形文字及声调语言的拉丁化方案及其和汉字的计算机文字输入方法
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN105513589A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106653007A (zh) * 2016-12-05 2017-05-10 苏州奇梦者网络科技有限公司 一种语音识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈江: "基于发音词典自适应的民族语口音汉语普通话语音识别", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579734A (zh) * 2019-09-30 2021-03-30 北京声智科技有限公司 一种发音预测方法及电子设备
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN111369974A (zh) * 2020-03-11 2020-07-03 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置
CN111369974B (zh) * 2020-03-11 2024-01-19 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111798834A (zh) * 2020-07-03 2020-10-20 北京字节跳动网络技术有限公司 多音字的识别方法、装置、可读介质和电子设备
CN113506559A (zh) * 2021-07-21 2021-10-15 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法
CN113506559B (zh) * 2021-07-21 2023-06-09 成都启英泰伦科技有限公司 一种根据越南语书写文本生成发音词典的方法

Also Published As

Publication number Publication date
CN107767858B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN107767858A (zh) 发音词典生成方法及装置、存储介质、电子设备
Aleksic et al. Bringing contextual information to google speech recognition.
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
Huang et al. Class LM and word mapping for contextual biasing in end-to-end ASR
US8126714B2 (en) Voice search device
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
CN107464559A (zh) 基于汉语韵律结构和重音的联合预测模型构建方法及系统
US20080154600A1 (en) System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US20040039570A1 (en) Method and system for multilingual voice recognition
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN106935239A (zh) 一种发音词典的构建方法及装置
CN113299282B (zh) 一种语音识别方法、装置、设备及存储介质
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
CN110310619A (zh) 多音字预测方法、装置、设备及计算机可读存储介质
CN109119070A (zh) 一种语音端点检测方法、装置、设备及存储介质
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
JP2016001242A (ja) 質問文生成方法、装置、及びプログラム
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
Park et al. Phonemic-level duration control using attention alignment for natural speech synthesis
JP6485941B2 (ja) 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
Parthasarathy et al. Long-span language modeling for speech recognition
Tran et al. Joint modeling of text and acoustic-prosodic cues for neural parsing
Nakata et al. Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech Synthesis.
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant