CN113113024A - 语音识别方法、装置、电子设备和存储介质 - Google Patents
语音识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113113024A CN113113024A CN202110474762.5A CN202110474762A CN113113024A CN 113113024 A CN113113024 A CN 113113024A CN 202110474762 A CN202110474762 A CN 202110474762A CN 113113024 A CN113113024 A CN 113113024A
- Authority
- CN
- China
- Prior art keywords
- user
- decoding
- preset state
- recognized
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。本发明提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的迅速发展,语音识别技术在智能家居、智能机器人等交互领域得到了广泛应用。由于语音识别使用用户的不断增多,用户之间发音习惯的差异性亦趋明显,导致通用的语音识别方法无法对所有用户均取得较好的识别效果。
现有的语音识别方法,为了实现针对各用户的个性化语音识别,从而提高语音识别准确性,通常会基于某一用户大量的历史语音数据构建针对该用户的个性化语音识别系统。然而,该方式的优化效果有限,且部署维护难度大,实用性较差。
发明内容
本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中语音识别优化效果欠佳、实用性不足的缺陷。
本发明提供一种语音识别方法,包括:
确定用户的待识别语音;
基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
根据本发明提供一种的语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
确定所述待识别语音对应的音素序列;
基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。
根据本发明提供的一种语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
确定与所述用户的地域信息相关联的地域名词;
基于各地域名词扩充解码网络中地名对应的预设状态转移路径。
根据本发明提供的一种语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;
基于所述相似热词,扩展上一解码位置对应的预设状态转移路径。
根据本发明提供的一种语音识别方法,所述基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词,包括:
基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;
基于所述用户的各个热词,确定与当前解码位置处的音素序列和/或所述相似音素序列对应的相似热词;所述热词是基于所述历史输入信息确定的。
根据本发明提供的一种语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
基于语言模型,结合所述预设状态转移路径,对所述待识别语音进行语音识别解码;
其中,所述语言模型与所述用户当前使用的设备类型对应;任一设备类型对应的语言模型是基于所述任一设备类型的应用场景文本训练得到的。
根据本发明提供的一种语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
确定所述用户的声纹特征;
基于所述预设状态转移路径,结合所述待识别语音的音频特征和所述用户的声纹特征,对所述待识别语音进行语音识别解码。
本发明还提供一种语音识别装置,包括:
语音数据确定单元,用于确定用户的待识别语音;
语音识别解码单元,用于基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。
本发明提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的语音识别方法的流程示意图;
图2为本发明提供的路径扩充方法的流程示意图之一;
图3为本发明提供的地域信息扩充路径的示意图;
图4为本发明提供的路径扩充方法的流程示意图之二;
图5为本发明提供的相似热词扩展路径的示意图;
图6为本发明提供的相似热词确定方法的流程示意图;
图7为本发明提供的语言模型选取的示意图;
图8为本发明提供的语音识别系统的结构示意图;
图9为本发明提供的语音识别装置的结构示意图;
图10为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着人工智能产业的迅猛发展,语音识别技术在智能家居、智能机器人等交互领域得到了广泛应用。近年来,很多有关语音识别的开发技术在不断创新,语音作为最方便、快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。随着语音使用用户的不断增多,用户之间发音习惯的差异性变得越来越明显,在此情况下,传统的采用统一通用语音识别系统进行语音识别的方法,由于通用语音识别系统需要覆盖更多的用户和更多的场景,因此无法对所有用户都取得很好的识别准确率。
因此,如何利用每个用户的个性化信息,增强语音识别系统的针对性,从而提升每个用户语音识别准确率,成为了目前语音识别领域的重要研究方向。现有的个性化语音识别方法通常是基于大量的用户历史语音数据,构建针对各个用户的个性化语音识别系统。然而,这种方法对于新用户而言,由于缺乏该用户的历史数据,难以构建可靠的语音识别系统,导致该方法的个性化增强效果有限;而对于老用户而言,由于各用户的历史语音数量差异大且需要每个用户单独定制存储一套识别模型(例如传统基于隐马尔可夫模型识别系统中的声学模型,或是Encode-Decode模型),部署维护难度大,因此实用性较差。
对此,本发明实施例提供了一种语音识别方法,可以有效进行语音识别的个性化增强,提升语音识别的准确性。图1为本发明实施例提供的语音识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定用户的待识别语音;
步骤120,基于预设状态转移路径,对待识别语音进行语音识别解码,得到语音识别结果;预设状态转移路径是基于用户的地域信息和/或历史输入信息扩充得到的。
具体地,获取用户的待识别语音。其中,待识别语音可以是用户通过电子设备实时录制的语音数据,也可以是已存储或接收到的语音数据,本发明实施例对此不作具体限定。
随后,利用预设状态转移路径对该待识别语音进行语音识别解码,得到语音识别结果。其中,预设状态转移路径可以为解码网络中任意两个相邻节点之间的路径。此处,解码网络可以作为一个搜索空间,从中寻找到一条从初始节点到终止节点的最优路径,实现待识别语音的解码。具体而言,可以利用声学模型将待识别语音中各语音帧转换为状态序列或音素序列后,基于解码网络将状态序列或音素序列映射到词序列;也可以结合端到端的语言识别模型,例如Encode-Decode模型,将待识别语音转换为字序列后,再基于解码网络将字序列映射到词序列。此外,解码网络可以基于声学模型、发音词典、语言模型等知识源构建得到,例如可以基于加权有限状态机(weighted finite-state transducers,WFST)的建立方式建立,本发明实施例对此不作具体限定。
在对待识别语音进行语音识别解码时,会根据待识别语音的状态序列、音素序列或字序列,从初始节点开始逐步搜寻解码网络中的预设状态转移路径并计算得分,从而寻找到最优路径。因此,预设状态转移路径的构建是个性化语音识别过程中的重要一环,预设状态转移路径与当前用户越贴合,解码得到的语音识别结果的准确性越高。
对此,本发明实施例在构建解码网络时,除了利用声学模型、发音词典、语言模型等知识源之外,还会根据用户的地域信息和/或历史输入信息,对解码网络中的预设状态转移路径进行扩充。其中,可以在已有的解码网络基础上进行针对当前用户的路径扩充,使得本发明实施例提供的方法可以仅需针对当前用户存储较少的个性化信息,并对已有的解码网络进行少量改动,即可实现个性化语音识别,增强了语音识别方法的实用性。例如,可以根据用户的地域信息和/或历史输入信息,在解码网络中的对应节点之间新增若干条新的路径,并基于语言模型计算上述新增路径的得分。
其中,用户的地域信息可以提供用户当前所在的位置信息,根据该用户的地域信息,可以推测该用户下一步可能前往的目的地,并将其扩充至解码网络中。当用户使用语音进行导航时,语音识别解码时可以搜索到扩充的预设状态转移路径,即使用户的发音不标准或导航目的地的名称较难识别时,也能准确识别出用户输入的语音内容。除此之外,用户的历史输入信息也可以额外提供该用户的表达习惯,从而帮助推导用户当前可能表达的词语。因此,还可以对用户的历史输入信息进行提炼并扩充至解码网络中,以提高语音识别的准确性。
本发明实施例提供的方法,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了该方法的实用性。
基于上述实施例,步骤120包括:
确定待识别语音对应的音素序列;
基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。
具体地,对待识别语音的各个语音帧进行识别,得到待识别语音对应的音素序列。此处,可以对待识别语音的各个语音帧进行声学特征提取,得到各个语音帧的声学特征,再基于声学模型对各个语音帧的声学特征进行识别,确定各个语音帧所属的状态,进而将状态组合成音素,得到待识别语音的音素序列。
随后,对待识别语音的音素序列进行解码。解码过程中,会从解码网络的初始节点开始,根据待识别语音的音素序列,找寻合适的预设状态转移路径,从而到达下一节点,并重复上述步骤,直至到达终止节点。假设当前解码至待识别语音的当前解码位置,需要对当前解码位置的音素序列进行解码。对应地,在解码网络中,当前搜索至节点t,需要找到一条合适路径以行进至下一节点。此时,可以基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。其中,上一解码位置对应的预设状态转移路径为解码网络中当前所在节点与其下一节点之间的预设状态转移路径,即从节点t出发的预设状态转移路径。基于上一解码位置对应的预设状态转移路径的得分,对当前解码位置处的音素序列解码,选定其中一条预设状态转移路径,从而确定当前解码位置处的解码结果。
基于上述任一实施例,图2为本发明实施例提供的路径扩充方法的流程示意图之一,如图2所示,该方法包括:
步骤210,确定与用户的地域信息相关联的地域名词;
步骤220,基于各地域名词扩充解码网络中地名对应的预设状态转移路径。
具体地,根据该用户的地域信息,确定与该地域信息相关联的地域名词。其中,可以以该地域信息为中心,获取周边活动范围内的其他地点的地域名词。例如,可以获取周边活动范围内的热门地点的名称,或是根据该用户的历史定位信息和/或历史导航数据,获取周边活动范围内用户曾前往的地点名称,作为相关联的地域名词。
基于各个地域名词,可以对解码网络中地名对应的预设状态转移路径进行扩充。图3为本发明实施例提供的地域信息扩充路径的示意图,如图3上部分所示,可以预先构建具备通用地名($地点)路径的基础解码网络。其中,除了通用地名路径以外,还可以扩充若干热门地名路径。在获取到与用户的地域信息相关联的地域名词(例如美亚光电、先研院)后,如图3中间部分所示,可以先构建各地域名词对应的预设状态转移路径,其中各地域名词对应的预设状态转移路径所连接的节点相同。随后,如图3下部分所示,将各地域名词对应的预设状态转移路径,扩充至基础解码网络中通用地名对应的预设状态转移路径处。
本发明实施例提供的方法,通过与用户的地域信息相关联的地域名词扩充解码网络中地名对应的预设状态转移路径,对预设状态转移路径进行了个性化扩充,有助于提高语音识别的准确性。
基于上述任一实施例,图4为本发明实施例提供的路径扩充方法的流程示意图之二,如图4所示,该方法包括:
步骤410,基于用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;
步骤420,基于相似热词,扩展上一解码位置对应的预设状态转移路径。
具体地,该用户的历史输入信息可以提供该用户的语言表达习惯,例如该用户常说的单词或词组等,当当前解码位置处的音素序列与该历史输入信息中的部分单词或词组的发音相同或相似时,表明该用户可能表达的是该单词或词组,因而可以将其扩充至解码网络中。因此,在解码过程中,可以基于用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词。其中,相似热词为该用户的历史输入信息中与当前解码位置处的音素序列发音相同或相似的热词。
基于获取的相似热词,可以生成新的预设状态转移路径,并扩充至上一解码位置对应的预设状态转移路径的相应位置。图5为本发明实施例提供的相似热词扩展路径的示意图,如图5所示,当前解码位置处的音素序列对应的相似热词为“十里桃花”,生成该相似热词对应的新路径,并在上一解码位置对应的预设状态转移路径处插入该新路径,实现路径的动态扩充。
本发明实施例提供的方法,通过在解码过程中,利用当前解码位置处的音素序列对应的相似热词扩展上一解码位置对应的预设状态转移路径,对预设状态转移路径进行了个性化地动态扩充,有助于提高语音识别的准确性。
基于上述任一实施例,图6为本发明实施例提供的相似热词确定方法的流程示意图,如图6所示,步骤410包括:
步骤411,基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;
步骤412,基于用户的各个热词,确定与当前解码位置处的音素序列和/或相似音素序列对应的相似热词;热词是基于历史输入信息确定的。
具体地,可以预先根据发音词典,构建发音相似矩阵。如图5所示,发音相似矩阵中可以存储发音相似的音素序列。根据当前解码位置处的音素序列,在发音相似矩阵中进行查找,找到与当前解码位置处的音素序列发音相似的相似音素序列。
基于该用户的各个热词,从中确定发音与当前解码位置处的音素序列和/或相似音素序列对应的热词,作为相似热词。其中,各个热词是根据该用户的历史输入信息确定的。例如,可以获取该用户历史手动输入的文字信息,根据用户输入的频率,从中筛选出频率较高的词语作为热词,构建该用户的热词列表。
基于上述任一实施例,步骤120包括:
基于语言模型,结合预设状态转移路径,对待识别语音进行语音识别解码;
其中,语言模型与用户当前使用的设备类型对应;任一设备类型对应的语言模型是基于该设备类型的应用场景文本训练得到的。
具体地,随着各类电子设备的普及,用户通常会在不同应用场景使用不同的电子设备。例如,对于电视等大屏电子设备,用户通常会使用语音交互进行电视台控制和网络视频点播等;对于智能音箱设备,用户更多会使用语音交互进行天气查询和歌曲点播等;而对于车载电脑设备,用户更多会使用语音交互进行地址导航等。
因此,可以预先确定不同设备类型的应用场景,并收集各应用场景下的应用场景文本,再基于各设备类型的应用场景文本训练该设备类型对应的语言模型,以备不同类型的设备在进行语音识别时使用。其中,当电子设备使用的语音识别系统为基于隐马尔可夫模型(Hidden Markov Model,HMM)的识别系统时,上述语言模型即指传统的语言模型,例如基于n-gram的语言模型,其可以直接替换原始语音识别系统中的语言模型;当电子设备使用的语音识别系统为基于Encode-Decode的识别系统时,上述语言模型可以是神经网络语言模型,其识别结果可以通过各种融合方法与原语音识别系统的识别结果进行融合。
确定产生待识别语音的设备信息,例如手机、车载电脑、电视或智能音箱等,从而确定该设备对应的语言模型。基于该语言模型以及预设状态转移路径,可以对待识别语音进行语音识别解码。图7为本发明实施例提供的语言模型选取的示意图,如图7所示,根据输入语音的设备ID,从多种设备类型对应的语言模型中动态选取当前设备对应的语言模型。得到的语言模型可以和声学模型组合,也可以与Encode-Decode模型进行组合,以实现语音识别,得到输入语音的识别结果。
本发明实施例提供的方法,通过动态选择与用户当前使用的设备类型对应的语言模型,结合预设状态转移路径,对待识别语音进行语音识别解码,进一步提高了语音识别的准确性。
基于上述任一实施例,步骤120包括:
确定用户的声纹特征;
基于预设状态转移路径,结合待识别语音的音频特征和用户的声纹特征,对待识别语音进行语音识别解码。
具体地,由于不同用户的口音和说话风格不同,在进行语音识别时,可以根据当前用户的发音特性进行自适应语音识别,以适应不同用户的语音数据,从而提高语音识别的准确率。因此,可以获取当前用户的声纹特征。其中,声纹特征可以表达该用户的发音特性和发音习惯。此处,可以利用现有的i-vector提取模型,例如通用背景模型UBM,提取当前用户的身份认证矢量,作为其声纹特征。此方法提取得到的声纹特征中包含有说话人信息和信道信息等,具有较高的稳定性。此外,还可以利用深度学习框架下的x-vector提取模型提取该用户的声纹特征,本发明实施例对此不作具体限定。随后,基于预设状态转移路径,结合待识别语音数据的音频特征和用户的声纹特征,对待识别语音进行语音识别解码。其中,音频特征中包含该语音数据的语义信息,再结合该用户的声纹特征中包含的发音特性,可以提升针对该用户的语音识别准确性。
本发明实施例提供的方法,通过确定用户的声纹特征,再结合待识别语音的音频特征和用户的声纹特征,对待识别语音进行语音识别解码,进一步提高了语音识别的准确性。
基于上述任一实施例,图8为本发明实施例提供的语音识别系统的结构示意图,如图8所示,该系统可以基于现有的语音识别模型建立,并利用多维度的个性化识别增强模块进行语音识别增强。其中,个性化识别增强模块包括四个:动态路径扩展模块、动态热词激励模块、动态语音模型选取模块以及动态声纹增强模块。
其中,动态路径扩展模块用于基于用户的地域信息,对解码网络中地名对应的预设状态转移路径进行扩展,具体扩展方式与上述实施例中相同,在此不再赘述。
动态热词激励模块用于基于用户的历史输入信息,构建该用户的热词库,并基于热词库进行热词激励。若该系统是由基于HMM的识别模型建立得到,则动态热词激励模块可以用于在实际解码过程中,从热词库中选择与当前解码位置处的音素序列对应的相似热词,并利用上述相似热词扩展解码网络中上一解码位置对应的预设状态转移路径,此处的具体扩展方式与上述实施例中相同,在此不再赘述。若该系统是由基于Encode-Decode的识别模型建立得到,则动态热词激励模块可以基于热词编码器(Bias Encoder)将每个热词表示为固定维的热词编码,然后利用上一解码时刻解码器(Decoder)输出的状态信息通过注意力机制选出与输入语音相吻合的热词编码作为输出,与输入语音的音频特征一起送入解码器进行解码,得到识别结果。
动态语音模型选取模块用于基于用户的设备信息,动态选择与用户当前使用的设备类型对应的语言模型,以对待识别语音进行语音识别解码。
动态声纹增强模块用于确定用户的声纹特征,再结合待识别语音的音频特征和用户的声纹特征,对待识别语音进行语音识别解码。
需要说明的是,该语音识别系统中各个性化识别增强模块可以单独使用,也可以多个模块联合使用,以提升语音识别的准确性。
基于上述任一实施例,图9为本发明实施例提供的语音识别装置的结构示意图,如图9所示,该装置包括:语音数据确定单元910和语音识别解码单元920。
其中,语音数据确定单元910用于确定用户的待识别语音;
语音识别解码单元920用于基于预设状态转移路径,对待识别语音进行语音识别解码,得到语音识别结果;预设状态转移路径是基于用户的地域信息和/或历史输入信息扩充得到的。
本发明实施例提供的装置,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了该装置的实用性。
基于上述任一实施例,语音识别解码单元920用于:
确定待识别语音对应的音素序列;
基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。
基于上述任一实施例,该装置还包括第一路径扩充单元,用于:
确定与用户的地域信息相关联的地域名词;
基于各地域名词扩充解码网络中地名对应的预设状态转移路径。
本发明实施例提供的装置,通过与用户的地域信息相关联的地域名词扩充解码网络中地名对应的预设状态转移路径,对预设状态转移路径进行了个性化扩充,有助于提高语音识别的准确性。
基于上述任一实施例,该装置还包括第二路径扩充单元,用于:
基于用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;
基于相似热词,扩展上一解码位置对应的预设状态转移路径。
本发明实施例提供的装置,通过在解码过程中,利用当前解码位置处的音素序列对应的相似热词扩展上一解码位置对应的预设状态转移路径,对预设状态转移路径进行了个性化地动态扩充,有助于提高语音识别的准确性。
基于上述任一实施例,基于用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词,包括:
基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;
基于用户的各个热词,确定与当前解码位置处的音素序列和/或相似音素序列对应的相似热词;热词是基于历史输入信息确定的。
基于上述任一实施例,语音识别解码单元920用于:
基于语言模型,结合预设状态转移路径,对待识别语音进行语音识别解码;
其中,语言模型与用户当前使用的设备类型对应;任一设备类型对应的语言模型是基于该设备类型的应用场景文本训练得到的。
本发明实施例提供的装置,通过动态选择与用户当前使用的设备类型对应的语言模型,结合预设状态转移路径,对待识别语音进行语音识别解码,进一步提高了语音识别的准确性。
基于上述任一实施例,语音识别解码单元920用于:
确定用户的声纹特征;
基于预设状态转移路径,结合待识别语音的音频特征和用户的声纹特征,对待识别语音进行语音识别解码。
本发明实施例提供的装置,通过确定用户的声纹特征,再结合待识别语音的音频特征和用户的声纹特征,对待识别语音进行语音识别解码,进一步提高了语音识别的准确性。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行语音识别方法,该方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法,该方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
确定用户的待识别语音;
基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
2.根据权利要求1所述的语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
确定所述待识别语音对应的音素序列;
基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。
3.根据权利要求1所述的语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
确定与所述用户的地域信息相关联的地域名词;
基于各地域名词扩充解码网络中地名对应的预设状态转移路径。
4.根据权利要求2所述的语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;
基于所述相似热词,扩展上一解码位置对应的预设状态转移路径。
5.根据权利要求4所述的语音识别方法,所述基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词,包括:
基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;
基于所述用户的各个热词,确定与当前解码位置处的音素序列和/或所述相似音素序列对应的相似热词;所述热词是基于所述历史输入信息确定的。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
基于语言模型,结合所述预设状态转移路径,对所述待识别语音进行语音识别解码;
其中,所述语言模型与所述用户当前使用的设备类型对应;任一设备类型对应的语言模型是基于所述任一设备类型的应用场景文本训练得到的。
7.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
确定所述用户的声纹特征;
基于所述预设状态转移路径,结合所述待识别语音的音频特征和所述用户的声纹特征,对所述待识别语音进行语音识别解码。
8.一种语音识别装置,其特征在于,包括:
语音数据确定单元,用于确定用户的待识别语音;
语音识别解码单元,用于基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474762.5A CN113113024B (zh) | 2021-04-29 | 2021-04-29 | 语音识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474762.5A CN113113024B (zh) | 2021-04-29 | 2021-04-29 | 语音识别方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113113024A true CN113113024A (zh) | 2021-07-13 |
CN113113024B CN113113024B (zh) | 2024-08-23 |
Family
ID=76720452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110474762.5A Active CN113113024B (zh) | 2021-04-29 | 2021-04-29 | 语音识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113024B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838456A (zh) * | 2021-09-28 | 2021-12-24 | 科大讯飞股份有限公司 | 音素提取方法、语音识别方法、装置、设备及存储介质 |
CN114220444A (zh) * | 2021-10-27 | 2022-03-22 | 安徽讯飞寰语科技有限公司 | 语音解码方法、装置、电子设备和存储介质 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140048A (ja) * | 2005-11-17 | 2007-06-07 | Oki Electric Ind Co Ltd | 音声認識システム |
CN102016502A (zh) * | 2008-03-07 | 2011-04-13 | 谷歌公司 | 基于场境的语音识别语法选择 |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
KR20170134115A (ko) * | 2016-05-27 | 2017-12-06 | 주식회사 케이티 | Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법 |
US20190152065A1 (en) * | 2017-11-22 | 2019-05-23 | Shenzhen Xiluo Robot Co., Ltd. | Intelligent device system and intelligent device control method |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN111354347A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于自适应热词权重的语音识别方法及系统 |
CN111508497A (zh) * | 2019-01-30 | 2020-08-07 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
KR20200117826A (ko) * | 2019-04-05 | 2020-10-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
CN112071310A (zh) * | 2019-06-11 | 2020-12-11 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN112102815A (zh) * | 2020-11-13 | 2020-12-18 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-29 CN CN202110474762.5A patent/CN113113024B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140048A (ja) * | 2005-11-17 | 2007-06-07 | Oki Electric Ind Co Ltd | 音声認識システム |
CN102016502A (zh) * | 2008-03-07 | 2011-04-13 | 谷歌公司 | 基于场境的语音识别语法选择 |
CN107331389A (zh) * | 2008-03-07 | 2017-11-07 | 谷歌公司 | 基于场境的语音识别语法选择方法和系统 |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
KR20170134115A (ko) * | 2016-05-27 | 2017-12-06 | 주식회사 케이티 | Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법 |
US20190152065A1 (en) * | 2017-11-22 | 2019-05-23 | Shenzhen Xiluo Robot Co., Ltd. | Intelligent device system and intelligent device control method |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN111354347A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于自适应热词权重的语音识别方法及系统 |
CN111508497A (zh) * | 2019-01-30 | 2020-08-07 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
KR20200117826A (ko) * | 2019-04-05 | 2020-10-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
CN112071310A (zh) * | 2019-06-11 | 2020-12-11 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN112102815A (zh) * | 2020-11-13 | 2020-12-18 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
晁浩;: "融合音素串编辑距离的随机段模型解码算法", 计算机工程与应用, no. 06, 15 March 2015 (2015-03-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838456A (zh) * | 2021-09-28 | 2021-12-24 | 科大讯飞股份有限公司 | 音素提取方法、语音识别方法、装置、设备及存储介质 |
WO2023050541A1 (zh) * | 2021-09-28 | 2023-04-06 | 科大讯飞股份有限公司 | 音素提取方法、语音识别方法、装置、设备及存储介质 |
CN113838456B (zh) * | 2021-09-28 | 2024-05-31 | 中国科学技术大学 | 音素提取方法、语音识别方法、装置、设备及存储介质 |
CN114220444A (zh) * | 2021-10-27 | 2022-03-22 | 安徽讯飞寰语科技有限公司 | 语音解码方法、装置、电子设备和存储介质 |
CN114220444B (zh) * | 2021-10-27 | 2022-09-06 | 安徽讯飞寰语科技有限公司 | 语音解码方法、装置、电子设备和存储介质 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
CN114242046B (zh) * | 2021-12-01 | 2022-08-16 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113113024B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
US12249332B2 (en) | Proactive command framework | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
JP2020086437A (ja) | 音声認識方法及び音声認識装置 | |
CN110111775A (zh) | 一种流式语音识别方法、装置、设备及存储介质 | |
US11093110B1 (en) | Messaging feedback mechanism | |
JP7051919B2 (ja) | ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
US10872601B1 (en) | Natural language processing | |
CN113113024A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN105190614A (zh) | 使用声调细微差别的搜索结果 | |
US11915683B2 (en) | Voice adaptation using synthetic speech processing | |
CN116964662A (zh) | 在对话期间文本转语音中的即时学习 | |
US20240087562A1 (en) | Interactive content output | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
KR20230156795A (ko) | 단어 분할 규칙화 | |
CN114141179A (zh) | 基于智能语音交互的公园导览与景区介绍系统 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN114360514B (zh) | 语音识别方法、装置、设备、介质及产品 | |
TWI731921B (zh) | 語音識別方法及裝置 | |
US11328713B1 (en) | On-device contextual understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230508 Address after: 230026 No. 96, Jinzhai Road, Hefei, Anhui Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui Applicant before: IFLYTEK Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |