CN105913841B - 语音识别方法、装置及终端 - Google Patents
语音识别方法、装置及终端 Download PDFInfo
- Publication number
- CN105913841B CN105913841B CN201610509372.6A CN201610509372A CN105913841B CN 105913841 B CN105913841 B CN 105913841B CN 201610509372 A CN201610509372 A CN 201610509372A CN 105913841 B CN105913841 B CN 105913841B
- Authority
- CN
- China
- Prior art keywords
- voice
- calibration
- letter
- recognized
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
本公开是关于一种语音识别方法、装置及终端。该方法包括:获取输入的待识别语音;根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。应用本公开实施例的方案,能更准确识别用户的语音。
Description
技术领域
本公开涉及移动通信技术领域,尤其涉及一种语音识别方法、装置及终端。
背景技术
目前,语音识别技术在现阶段得到了广泛应用,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
为了适应用户的不同需求,语音识别技术中开始增加方言适配,例如:粤语、四川话等。但是,对于有标准发音字母结构的语种,例如普通话和英语,在语音识别系统中都是设置了默认字母标准语音,如果用户发出的语音是带地方口音的拼读方式,且口音相差很大,就会导致语音识别率极低,语音识别功能几乎失效。
发明内容
本公开提供了一种语音识别方法、装置及终端,能更准确识别用户的语音。
根据本公开实施例的第一方面,提供一种语音识别方法,包括:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
可选的,所述根据文字校准语音识别所述待识别语音,包括:
使用所述字母校准语音组成新的文字校准语音;
根据所述文字校准语音识别所述输入的待识别语音。
可选的,所述根据文字校准语音识别所述待识别语音,包括:
获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;
根据所述获取的文字校准语音识别所述输入的待识别语音。
可选的,所述字母校准语音替换系统默认字母标准语音包括:
通过录制字母表所有字母的发音采集字母校准语音;
将所述采集的字母标准语音替换系统默认字母标准语音。
可选的,所述根据所述文字校准语音识别输入的待识别语音,包括:
获取所述文字校准语音和所述待识别语音的语音特征信息;
根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
可选的,所述语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
可选的,所述使用所述字母校准语音组成新的文字校准语音包括:
通过单个字母校准音拼读得到新的文字校准语音;或,
通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
可选的,所述字母校准语音中的设定字母之间设置模糊近似关系。
根据本公开实施例的第二方面,提供一种语音识别装置,包括:
获取模块,用于获取输入的待识别语音;
语音识别模块,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
可选的,所述语音识别模块包括:
第一识别子模块,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,
第二识别子模块,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
可选的,所述装置还包括:
字母语音替换模块,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。
可选的,所述语音识别模块获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
可选的,所述第一识别子模块通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
可选的,所述装置还包括:
模糊设置模块,用于在所述字母校准语音中的设定字母之间设置模糊近似关系。
根据本公开实施例的第三方面,提供一种移动终端,包括:
处理器和用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
进一步的,本公开还可以有两种处理方式,可以是使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;还可以是获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;根据所述获取的文字校准语音识别所述输入的待识别语音,因此就可以根据文字校准语音识别输入的待识别语音,这样也可以提高语音识别能力和识别效率。
进一步的,本公开可以通过录制字母表所有字母的发音作为字母校准语音。
进一步的,本公开可以根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
进一步的,本公开可以通过单个字母校准音拼读得到新的文字校准语音,或者通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
进一步的,本公开可以将字母校准语音中的设定字母之间设置模糊近似关系,可以解决一些地方口音的个别字母发音相似的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种语音识别方法的流程图。
图2是本公开根据一示例性实施例示出的另一种语音识别方法的流程图。
图3是本公开根据一示例性实施例示出的一种语音识别装置的框图。
图4是本公开根据一示例性实施例示出的另一种语音识别装置的框图。
图5是本公开根据一示例性实施例示出的一种移动终端的一结构框图。
图6是本公开根据一示例性实施例示出的一种设备的一结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开提供了一种语音识别方法、装置及终端,能更准确识别用户的语音。
图1是本公开根据一示例性实施例示出的一种语音识别方法的流程图。
该方法可以应用于终端中,如图1所示,该方法可以包括以下步骤:
在步骤101中,获取输入的待识别语音。
在步骤102中,根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
该步骤可以使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
其中,该步骤可以通过录制字母表所有字母的发音采集字母校准语音;将采集的字母标准语音替换系统默认字母标准语音。
该步骤可以获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
该步骤使用所述字母校准语音组成新的文字校准语音可以包括:通过单个字母校准音拼读得到新的文字校准语音;或,通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
该步骤可以获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
由该实施例可见,本公开的实施例提供的技术方案可以包括以下有益效果:本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
图2是本公开根据一示例性实施例示出的另一种语音识别方法流程图。
该方法可以应用于终端中,该实施例相对于图1更详细描述了本公开的技术方案。
以下结合图2详细描述技术方案。如图2所示,该方法可以包括以下步骤:
在步骤201中,采集用户将字母表所有的字母发音一一自行录制所得到的字母校准语音。
本公开将用户录制的所有字母发音称为字母校准语音。本公开提供针对标准发音字母的自行录入功能,用户将所有发音字母自行录制一遍,得到字母校准语音,后续以字母校准语音作为标准,这样可以解决有标准发音字母结构的发音的口音问题。
其中,上述字母例如可以为英文字母、中文字母或其他语言的字母等。
在步骤202中,将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音。
因为系统的默认字母标准语音是很难识别带有地方口音的字母发音,因此本公开将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音,这样系统设置的字母发音标准将以采集的字母校准语音作为识别标准,带有地方口音的字母发音就很容易被识别。
在步骤203中,使用字母校准语音组成新的文字校准语音。
考虑到人在朗读任何一个字或单词的发音时,都是通过单个字母发出发音或组合多个单字母并根据相应连读规则发出发音,语音识别系统也可以学习人的这种连读行为。因此本公开该步骤可以通过单个字母校准音拼读得到新的文字校准语音;或,通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
例如:苹果的拼音为pingguo,可以组合单个字母或字母组合p、ing、g、u、o并按照连读方式p-ing-g-u-o来拼读,从而可得到新的文字标准语音。也就是说,语音识别系统使用用户自行录制的字母校准语音替换掉默认配置的字母标准语音后,再用相同的连读规则重新组合多个字母校准语音或直接使用单个字母校准音(例如有些是单个字母组成一个字)得到新的文字校准语音,并可以将新的文字校准语音替换系统自带的根据字母标准语音得到的文字语音。
其中,所说的连读,是指例如在英语的同一意群中,前一词以辅音音素结尾,后一词以元音音素开头,在说话或朗读句子时,习惯上很自然地将这两个音素合拼在一起读出来,这种语音现象叫连读。连读所构成的音节一般都不重读,只需顺其自然地一带而过,不可读得太重。连读规则,是指连读的习惯,例如对于“辅音+元音”型连读的情况,连读规则是如果相邻两词中的前一个词是以辅音结尾,后一个词是以元音开头,这就要将辅音与元音拼起来连读。
需说明的是,系统一般可以自带文字语音库,将一些常用单词或词汇按默认字母标准语音拼读并存储。本公开可以将系统自带的所有文字语音用字母校准语音重新拼读得到新的文字标准语音后,替换掉原来的文字语音。
在步骤204中,根据文字校准语音识别用户所说的待识别语音。
该步骤,获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
需说明的是,根据语音特征信息识别输入的待识别语音,可以采用现有的识别算法进行识别,本公开不加以限定。
还需说明的是,考虑到地方口音会存在一些发音混淆的发音,本公开可以在字母校准语音中的设定字母之间设置模糊近似关系,将可能会存在发音混淆的发音关联起来,例如:设置字母发音s=sh,c=ch等。
本公开的方案,用户根据自己口音情况设置字母校准语音,将所有发音字母自行录制一遍作为字母校准语音,替换系统的字母标准语音,再用使用字母校准语音组成新的文字校准语音来识别输入的待识别语音,这样可以解决有标准发音字母结构的发音的口音问题,可以提升语音输入的识别度。
还需说明的是,本公开还可以根据字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,然后就可以直接获取存储的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
与前述应用功能实现方法实施例相对应,本公开还提供了一种语音识别装置、终端及相应的的实施例。
图3是本公开根据一示例性实施例示出的一种语音识别装置的框图。
该装置可以是设置在终端中。如图3所示,在一种语音识别装置中可以包括:获取模块31、语音识别模块32。
获取模块31,用于获取输入的待识别语音。
语音识别模块32,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
其中,语音识别模块32可以使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
由该实施例可见,本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
图4是本公开根据一示例性实施例示出的多方通话的装置的另一框图。
该装置可以是设置在终端中。如图4所示,在一种语音识别装置中可以包括:获取模块31、语音识别模块32、字母语音替换模块33、模糊设置模块34。
获取模块31、语音识别模块32的功能可参见图3中的描述。
其中,语音识别模块32可以包括:第一识别子模块321或第二识别子模块322。
第一识别子模块321,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音。
第二识别子模块322,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
其中,根据文字校准语音识别输入的待识别语音可以包括:获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
其中,所述装置还可以包括:字母语音替换模块33。
字母语音替换模块33,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。因为系统的默认字母标准语音是很难识别带有地方口音的字母发音,因此本公开将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音,这样系统设置的字母发音标准将以采集的字母校准语音作为识别标准,带有地方口音的字母发音就很容易被识别。
其中,所述语音识别模块32获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
其中,所述第一识别子模块321通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
其中,所述装置还可以包括:模糊设置模块34。
模糊设置模块34,用于在字母校准语音中的设定字母之间设置模糊近似关系。考虑到地方口音会存在一些发音混淆的发音,本公开可以在字母校准语音中的设定字母之间设置模糊近似关系,将可能会存在发音混淆的发音关联起来,例如:设置字母发音s=sh,c=ch等。
因此,本公开的方案,用户根据自己口音情况设置字母校准语音,将所有发音字母自行录制一遍作为字母校准语音,替换系统的字母标准语音,再用使用字母校准语音组成新的文字校准语音来识别输入的待识别语音,这样可以解决有标准发音字母结构的发音的口音问题,可以提升语音输入的识别度。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图5是本公开根据一示例性实施例示出的一种框图。
如图5所示,包括:处理器501和用于存储处理器可执行指令的存储器502;
其中,处理器501被配置为:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
还需说明的是,存储器502存储的其他程序,具体参见前面方法流程中的描述,此处不再赘述,处理器501还用于执行存储器502存储的其他程序。
图6是本公开根据一示例性实施例示出的一种设备的一结构框图。
例如,设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,设备600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如组件为设备600的显示器和小键盘,传感器组件614还可以检测设备600或设备600一个组件的位置改变,用户与设备600接触的存在或不存在,设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由设备600的处理器620执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当存储介质中的指令由终端设备的处理器执行时,使得终端能够执行语音识别方法,方法包括:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种语音识别方法,其特征在于,包括:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音;所述字母校准语音中的设定字母之间设置模糊近似关系;
所述根据文字校准语音识别所述待识别语音,包括:
获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;
根据所述获取的文字校准语音识别所述输入的待识别语音。
2.根据权利要求1所述的方法,其特征在于,所述根据文字校准语音识别所述待识别语音,包括:
使用所述字母校准语音组成新的文字校准语音;
根据所述文字校准语音识别所述输入的待识别语音。
3.根据权利要求1所述的方法,其特征在于,所述字母校准语音替换系统默认字母标准语音包括:
通过录制字母表所有字母的发音采集字母校准语音;
将所述采集的字母标准语音替换系统默认字母标准语音。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文字校准语音识别输入的待识别语音,包括:
获取所述文字校准语音和所述待识别语音的语音特征信息;
根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
5.根据权利要求4所述的方法,其特征在于,所述语音特征信息包括下述一项或多项:语音的音色、音高、音长和音强。
6.根据权利要求2所述的方法,其特征在于,所述使用所述字母校准语音组成新的文字校准语音包括:
通过单个字母校准音拼读得到新的文字校准语音;或,
通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
7.一种语音识别装置,其特征在于,包括:
获取模块,用于获取输入的待识别语音;
语音识别模块,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音;所述字母校准语音中的设定字母之间设置模糊近似关系;
所述语音识别模块包括:第二识别子模块,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
8.根据权利要求7所述的语音识别装置,其特征在于,所述语音识别模块还包括:
第一识别子模块,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音。
9.根据权利要求7所述的装置,其特征在于,还包括:
字母语音替换模块,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。
10.根据权利要求7所述的装置,其特征在于:
所述语音识别模块获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
11.根据权利要求8所述的装置,其特征在于:
所述第一识别子模块通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
12.一种移动终端,其特征在于,包括:
处理器和用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取输入的待识别语音;
根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音;所述字母校准语音中的设定字母之间设置模糊近似关系;
所述根据文字校准语音识别所述待识别语音,包括:
获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;
根据所述获取的文字校准语音识别所述输入的待识别语音。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当由一个或多个处理器执行时,使得处理器执行权利要求1至6任一所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610509372.6A CN105913841B (zh) | 2016-06-30 | 2016-06-30 | 语音识别方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610509372.6A CN105913841B (zh) | 2016-06-30 | 2016-06-30 | 语音识别方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105913841A CN105913841A (zh) | 2016-08-31 |
CN105913841B true CN105913841B (zh) | 2020-04-03 |
Family
ID=56753927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610509372.6A Active CN105913841B (zh) | 2016-06-30 | 2016-06-30 | 语音识别方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913841B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710484B (zh) * | 2018-03-12 | 2021-09-21 | 西安艾润物联网技术服务有限责任公司 | 一种通过语音修改车牌号的方法、存储介质及装置 |
EP3544001B8 (en) * | 2018-03-23 | 2022-01-12 | Articulate.XYZ Ltd | Processing speech-to-text transcriptions |
CN111540353B (zh) * | 2020-04-16 | 2022-11-15 | 重庆农村商业银行股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1465042A (zh) * | 2001-05-02 | 2003-12-31 | 索尼公司 | 机器人装置、字符识别方法和装置、控制程序和记录媒体 |
CN101141508A (zh) * | 2006-09-05 | 2008-03-12 | 美商富迪科技股份有限公司 | 通信系统以及语音识别方法 |
CN101958118A (zh) * | 2003-03-31 | 2011-01-26 | 索尼电子有限公司 | 有效地实施语音识别字典的系统和方法 |
CN103594085A (zh) * | 2012-08-16 | 2014-02-19 | 百度在线网络技术(北京)有限公司 | 一种提供语音识别结果的方法及系统 |
CN104282302A (zh) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
CN105096945A (zh) * | 2015-08-31 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种终端的语音识别方法和装置 |
CN105355195A (zh) * | 2015-09-25 | 2016-02-24 | 小米科技有限责任公司 | 音频识别方法及装置 |
CN105513594A (zh) * | 2015-11-26 | 2016-04-20 | 许传平 | 语音操控系统 |
-
2016
- 2016-06-30 CN CN201610509372.6A patent/CN105913841B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1465042A (zh) * | 2001-05-02 | 2003-12-31 | 索尼公司 | 机器人装置、字符识别方法和装置、控制程序和记录媒体 |
CN101958118A (zh) * | 2003-03-31 | 2011-01-26 | 索尼电子有限公司 | 有效地实施语音识别字典的系统和方法 |
CN101141508A (zh) * | 2006-09-05 | 2008-03-12 | 美商富迪科技股份有限公司 | 通信系统以及语音识别方法 |
CN103594085A (zh) * | 2012-08-16 | 2014-02-19 | 百度在线网络技术(北京)有限公司 | 一种提供语音识别结果的方法及系统 |
CN104282302A (zh) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
CN105096945A (zh) * | 2015-08-31 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种终端的语音识别方法和装置 |
CN105355195A (zh) * | 2015-09-25 | 2016-02-24 | 小米科技有限责任公司 | 音频识别方法及装置 |
CN105513594A (zh) * | 2015-11-26 | 2016-04-20 | 许传平 | 语音操控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105913841A (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106024009B (zh) | 音频处理方法及装置 | |
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN110210310B (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
CN112562675B (zh) | 语音信息处理方法、装置及存储介质 | |
CN109961791B (zh) | 一种语音信息处理方法、装置及电子设备 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN113488022B (zh) | 一种语音合成方法和装置 | |
CN108628813B (zh) | 处理方法和装置、用于处理的装置 | |
CN107945806B (zh) | 基于声音特征的用户识别方法及装置 | |
CN111640452B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN112735396A (zh) | 语音识别纠错方法、装置及存储介质 | |
CN113409765B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
CN112133295B (zh) | 语音识别方法、装置及存储介质 | |
CN105913841B (zh) | 语音识别方法、装置及终端 | |
CN114154459A (zh) | 语音识别文本处理方法、装置、电子设备及存储介质 | |
CN113539233A (zh) | 一种语音处理方法、装置和电子设备 | |
CN109887492B (zh) | 一种数据处理方法、装置和电子设备 | |
CN110930977B (zh) | 一种数据处理方法、装置和电子设备 | |
CN106339160A (zh) | 浏览交互处理方法及装置 | |
CN114154485A (zh) | 一种文本纠错方法和装置 | |
CN111816174B (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN113589954B (zh) | 一种数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |