CN111489740A - 语音处理方法及装置、电梯控制方法及装置 - Google Patents
语音处理方法及装置、电梯控制方法及装置 Download PDFInfo
- Publication number
- CN111489740A CN111489740A CN202010325555.9A CN202010325555A CN111489740A CN 111489740 A CN111489740 A CN 111489740A CN 202010325555 A CN202010325555 A CN 202010325555A CN 111489740 A CN111489740 A CN 111489740A
- Authority
- CN
- China
- Prior art keywords
- voice
- feature
- speech
- elevator
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音处理方法及装置、电梯控制方法及装置,所述语音处理方法包括:提取待处理语音的第一语音特征;对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;基于所述第二语音特征获取所述待处理语音的处理结果。本发明实施例能够提高语音处理过程中网络模型的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语音处理方法及装置、电梯控制方法及装置。
背景技术
自然语言是指通过自然进化产生的人类之间用于交流的语言。自然语言处理(Natural Language Processing,NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理技术可以基于网络模型对语音进行处理,满足各个使用场景的需求,例如,在语音识别使用场景,可以基于语音识别网络模型将语音处理为文字。
在进行语音处理的过程中,相同的语音内容,音量不同,导致语音的幅值不同,从而语音特征也呈现较大的差异性,但实际上,语音处理的结果是相同的,从而会使得网络模型的性能较差。
发明内容
本发明实施例提供一种语音处理方法及装置、电梯控制方法及装置,以解决现有技术中音量不同导致语音的幅值不同,从而语音特征呈现较大的差异性,使得网络模型的性能较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音处理方法,所述方法包括:
提取待处理语音的第一语音特征;
对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
基于所述第二语音特征获取所述待处理语音的处理结果。
第二方面,本发明实施例提供了一种电梯控制方法,所述方法包括:
接收用户在使用电梯场景下输入的目标语音;
采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
控制电梯执行所述第一控制信息对应的第一操作。
第三方面,本发明实施例提供了一种语音处理装置,所述语音处理装置包括:
提取模块,用于提取待处理语音的第一语音特征;
分离模块,用于对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
获取模块,用于基于所述第二语音特征获取所述待处理语音的处理结果。
第四方面,本发明实施例提供了一种电梯控制装置,所述电梯控制装置包括:
第一接收模块,用于接收用户在使用电梯场景下输入的目标语音;
识别模块,用于采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
第一控制模块,用于控制电梯执行所述第一控制信息对应的第一操作。
第五方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音处理方法中的步骤,或者,所述程序被所述处理器执行时实现如第二方面所述的电梯控制方法中的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音处理方法中的步骤,或者,所述计算机程序被处理器执行时实现如第二方面所述的电梯控制方法中的步骤。
本发明实施例中,提取待处理语音的第一语音特征;对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;基于所述第二语音特征获取所述待处理语音的处理结果。这样,相同的语音内容且不同音量的语音信号,可以表征为语音幅度存在放大倍数,通过对所述第一语音特征进行语音幅度特征分离处理,可以降低由于音量不同导致的语音特征的差异性,从而可以提高网络模型的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音处理方法的流程图;
图2是本发明实施例提供的一种网络模型学习的示意图;
图3是本发明实施例提供的一种语音处理装置的结构示意图;
图4是本发明实施例提供的一种电梯控制装置的结构示意图之一;
图5是本发明实施例提供的一种电梯控制装置的结构示意图之二;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种语音处理方法的流程图,如图1所示,包括以下步骤:
步骤101、提取待处理语音的第一语音特征。
其中,所述第一语音特征可以包括多个第一特征值。所述多个第一特征值可以基于取对数运算获得,可以是以常数e为底数取对数,或者还可以,以其他数为底数取对数,本发明实施例对此不进行限定。所述第一语音特征可以为filter banks(滤波器组)特征。
步骤102、对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征。
其中,所述第二语音特征可以包括多个第二特征值。所述对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征,可以包括:对所述多个第一特征值进行特征平均处理,得到语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征,基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
步骤103、基于所述第二语音特征获取所述待处理语音的处理结果。
其中,所述基于所述第二语音特征获取所述待处理语音的处理结果,可以是,基于所述第二语音特征进行语音识别,得到语音识别的结果;或者还可以是,基于所述第二语音特征进行语音翻译,得到语音翻译的结果;或者还可以是,将所述第二语音特征用于其他使用场景,得到所述待处理语音的处理结果,本发明实施例对此不进行限定。可以在对网络模型进行训练的过程中,将第二语音特征输入网络模型进行训练;或者,还可以是在使用网络模型进行预测的过程中,将第二语音特征输入网络模型进行预测。
在实际应用中,分别以对第一语音和第二语音进行语音处理为例,第二语音可以与第一语音的语音内容相同,且第二语音可以由第一语音的音量放大n倍得到,第一语音的第一语音特征和第二语音的第一语音特征可以均为filter banks特征。第一语音的多个第一特征值可以为(a1,a2,a3,…,ai),由于第二语音由第一语音的音量放大n倍得到,且filter banks特征基于取对数运算获得,第二语音的多个第一特征值为(a1+ln(n),a2+ln(n),a3+ln(n),…,ai+ln(n))。所述语音幅度特征值可以为所述多个第一特征值的平均值,第一语音的多个第一特征值的平均值为:aavg=(a1+a2+a3+…+ai)/i,第二语音的多个第一特征值的平均值为:aavg+ln(n),可以分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,得到所述每个第一特征值对应的第二特征值,计算得到的第一语音的多个第二特征值可以为(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg),计算得到的第二语音的多个第二特征值可以为(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg)。
在实际应用中,可以在改进的filter banks特征中增加一维特征值用于表征待处理语音的语音幅度特征,语音幅度特征可以表示音量,使得其他维度的特征值与音量无关,例如,可以将(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg,aavg)作为第一语音的改进的filterbanks特征,可以将(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg,aavg+ln(n))作为第二语音的改进的filter banks特征;或者,可以将(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg)作为第一语音的改进的filter banks特征,可以将(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg)作为第二语音的改进的filter banks特征。对于相同的语音内容,改变语音幅度,改进的filter banks特征前i维是固定值,不会改变,只有最后一维表征平均值的特征值会改变,前i维是纯粹的特征,与幅值大小毫无关系,有利于网络模型学习。使用相同的网络模型,改进的filter banks特征在语音处理过程中性能比filter banks特征可以提升3%到10%。
需要说明的是,语音的音量在一定范围内,例如,语音的音量大于预设值,相同的语音内容,语音识别的结果是相同的。音量对语音特征的特征向量的每一维均存在相同的影响,在语音处理的过程中会降低网络模型学习的效率。以filter banks特征为例,filterbanks特征可以将待处理语音依次通过傅里叶变换、梅尔滤波及取对数运算获得,若语音的音量放大n倍,n为正整数,则语音的幅值放大n倍,通过傅里叶变换,在频谱上,相应放大n倍;通过梅尔滤波,维持放大n倍;通过取对数运算,音量放大n倍的语音比未放大的语音的filter banks特征中,每一维增加ln(n)。如图2所示,对于网络模型来说,在输入语音内容均为A,但音量不同的多个语音的filter banks特征时,同样的语音内容,因为语音幅值大小不一样,A随着幅值影响在一条直线上平移,然而进行语音识别等语音处理时,得到的结果都是A。由于音量不同,filter banks特征每一维在做相同的平移,语音幅值对每一维都有着相同的影响,会增加网络模型的负担。
本发明实施例中,提取待处理语音的第一语音特征;对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;基于所述第二语音特征获取所述待处理语音的处理结果。这样,相同的语音内容且不同音量的语音信号,可以表征为语音幅度存在放大倍数,通过对所述第一语音特征进行语音幅度特征分离处理,可以降低由于音量不同导致的语音特征的差异性,从而可以提高网络模型的性能。
可选的,所述第一语音特征包括多个第一特征值,所述第二语音特征包括多个第二特征值;
所述对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征,包括:
对所述多个第一特征值进行特征平均处理,得到语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征;
基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
其中,所述多个第一特征值可以基于取对数运算获得,可以是以常数e为底数取对数,或者还可以,以其他数为底数取对数,本发明实施例对此不进行限定。
另外,所述对所述多个第一特征值进行特征平均处理,可以是,基于所述多个第一特征值计算所述多个第一特征值的平均值,所述语音幅度特征值可以为所述多个第一特征值的平均值。所述基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值,可以是,分别基于所述多个第一特征值中每个第一特征值与所述多个第一特征值的平均值,获取所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
另外,所述分别基于所述多个第一特征值中每个第一特征值与所述多个第一特征值的平均值,获取所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值,可以包括,可以分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,得到所述每个第一特征值对应的第二特征值;或者,可以包括,分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,并将所述差值与第一预设值相乘得到所述每个第一特征值对应的第二特征值;或者,可以包括,分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,并将所述差值与第二预设值相减得到所述每个第一特征值对应的第二特征值,等等,本发明实施例对此不进行限定。
优选的,所述分别基于所述多个第一特征值中每个第一特征值与所述多个第一特征值的平均值,获取所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值,可以包括:分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,得到所述每个第一特征值对应的第二特征值。能够使得相同的语音内容且不同音量的至少两个语音信号中,每个语音信号的第二特征值为相同值,从而可以进一步降低由于音量不同导致的语音特征的差异性,进而可以提高网络模型的性能。
以第一语音和第二语音为例,第二语音可以与第一语音的语音内容相同,且第二语音可以由第一语音的音量放大n倍得到,第二语音的第一语音特征中的第一特征值可以基于取对数运算获得,第一语音的第一语音特征中的第一特征值可以基于取对数运算获得,因此,第二语音的第一语音特征中每个第一特征值比第一语音的第一语音特征中对应的第一特征值增加ln(n)或者log(n)。
以第一语音的第一语音特征和第二语音的第一语音特征均为filter banks特征为例,第二语音的第一语音特征中每个第一特征值比第一语音的第一语音特征中对应的第一特征值增加ln(n),第一语音的多个第一特征值可以为(a1,a2,a3,…,ai),第二语音的多个第一特征值可以为(a1+ln(n),a2+ln(n),a3+ln(n),…,ai+ln(n)),i为正整数。第一语音的多个第一特征值的平均值可以为:aavg=(a1+a2+a3+…+ai)/i,第二语音的多个第一特征值的平均值可以为:aavg+ln(n),可以分别计算所述多个第一特征值中每个第一特征值与所述平均值的差值,得到所述每个第一特征值对应的第二特征值,计算得到的第一语音的多个第二特征值可以为(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg),计算得到的第二语音的多个第二特征值可以为(a1-aavg,a2-aavg,a3-aavg,…,ai-aavg)。
该实施方式中,通过对所述多个第一特征值进行特征平均处理,能够快捷且准确地对所述第一语音特征进行语音幅度特征分离处理。
可选的,所述第二语音特征还包括所述语音幅度特征值。
其中,所述语音幅度特征值可以为所述多个第一特征值的平均值。以多个第一特征值为(x1,x2,x3,…,xk),多个第一特征值的平均值为xavg为例,对应于每个所述第一特征值的所述第二特征值可以为:(x1-xavg,x2-xavg,x3-xavg,…,xk-xavg,xavg)。可以将(x1-xavg,x2-xavg,x3-xavg,…,xk-xavg,xavg)输入网络模型,从而进一步对语音进行处理。
该实施方式中,所述第二语音特征还包括所述语音幅度特征值,可以将语音信号中与音量相关的特征单独提取出来,作为语音特征的一部分,从而可以降低由于音量不同导致的语音特征的差异性,从而可以提高网络模型的性能;并且,所述语音幅度特征值还可以用于区分噪声,通过语音幅度特征值可以区分噪声和语音,在进行语音处理的过程中需要使用噪声的情况下,包括所述语音幅度特征值的第二语音特征进行语音处理的效果较好。
可选的,所述第二语音特征的维度大于或等于所述第一语音特征的维度。
其中,所述第一语音特征可以包括多个第一特征值,所述第二语音特征可以包括多个第二特征值。第一特征值可以与第二特征值一一对应,从而第二语音特征的维度可以等于所述第一语音特征的维度。第二语音特征还可以包括语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征,从而所述第二语音特征的维度大于所述第一语音特征的维度。进一步的,第二语音特征还可以包括用于表征待处理语音的其他特征的特征值,本发明实施例对此不进行限定。
该实施方式中,所述第二语音特征的维度大于或等于所述第一语音特征的维度,从而可以获取更多的待处理语音的特征,进而可以提高语音处理的效果。
可选的,所述第一语音特征包括filter banks滤波器组特征。
其中,filter banks特征,也就是,Fbank特征,是目前常用的语音特征,人耳对声音频谱的响应是非线性的,Fbank特征可以模仿人耳的方式对语音进行处理,在语音识别过程中,采用Fbank特征可以提高语音识别的性能。可以通过对语音逐帧进行傅里叶变换和梅尔滤波,然后通过取对数,得到Fbank特征。在实际应用中,可以将待处理语音进行傅里叶变换,得到待处理语音的频域特征,对所述待处理语音的频域特征进行梅尔滤波,得到滤波结果,对所述滤波结果取对数,得到待处理语音的Fbank特征。
以第一语音和第二语音为例,第二语音可以与第一语音的语音内容相同,且第二语音可以由第一语音的音量放大n倍得到,第一语音的第一语音特征和第二语音的第一语音特征可以均为filter banks特征。例如,在对第一语音进行傅里叶变换和梅尔滤波后,可以得到(b1,b2,b3,…,bi),通过取对数,可以得到第一语音的第一语音特征(ln b1,ln b2,lnb3,…,ln bi)。在对第二语音进行傅里叶变换和梅尔滤波后,可以得到(nb1,nb2,nb3,…,nbi),通过取对数,可以得到第二语音的第一语音特征(ln b1+ln(n),ln b2+ln(n),ln b3+ln(n),…,ln bi+ln(n))。
该实施方式中,所述第一语音特征包括filter banks特征,filter banks特征对声音的音量较为敏感,音量对filter banks特征的特征向量的每一维均存在相同的影响,通过分离出所述待处理语音的语音幅度特征,能够提取出语音信号中与音量相关的特征,计算得到第二语音特征,可以实现对filter banks特征的改进,可以降低由于音量不同导致的语音特征的差异性,从而采用改进后的filter banks特征进行语音处理可以提高网络模型的性能。
本发明实施例还提供一种电梯控制方法,所述方法包括:
接收用户在使用电梯场景下输入的目标语音;
采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
控制电梯执行所述第一控制信息对应的第一操作。
其中,电梯控制方法可以应用于电梯中的电梯控制装置,用于控制电梯前往某个楼层或者取消前往某个楼层,又或者控制电梯开门或者关门,电梯控制装置还可以控制电梯进行其他操作,本发明实施例对此不做限制。电梯控制装置接收用户输入的目标语音的实现方式可以为:电梯控制装置响应于接收到用户输入的唤醒词后,接收输入的语音作为目标语音。其中,唤醒词可以根据需要设定,例如,唤醒词可以为“你好,电梯”。或者,电梯控制装置也可以直接接收输入的语音作为目标语音。
另外,所述采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息,可以是,提取目标语音的第一语音特征;对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;基于所述第二语音特征获取所述第一控制信息。
需要说明的是,基于所述第二语音特征获取所述第一控制信息,可以是,基于所述第二语音特征进行离线意图识别,得到所述第一控制信息,具体的,可以将第二语音特征输入用于离线意图识别的网络模型,得到第一控制信息。所述基于第二语音特征进行离线意图识别,得到第一控制信息的实现方式有两种,第一种方式是直接根据第二语音特征获取第一控制信息,第二种方式是基于第二语音特征将目标语音转换为文本,根据该文本获取第一控制信息。
例如,在对电梯进行电梯控制的场景下,第一控制信息可以包括对电梯控制的控制指令和该控制指令对应的楼层,其中,控制指令可以包括确认指令,用于控制电梯前往某个楼层,还可以包括取消指令,用于取消电梯前往某个楼层的操作。需要说明的一点是,上述第一控制信息是示例性说明,第一控制信息可以根据应用场景改变,本发明实施例对此不做限制。
在第一种方式中,电梯控制装置可以预先存储语音命令词库,该语音命令词库用于存储多个语音命令词,可以存储有每个语音命令词的语音特征,且一个语音命令词对应一个意图信息。所述基于第二语音特征进行离线意图识别,得到第一控制信息的实现方式可以为:从语音命令词库中选择与第二语音特征相似度最高的语音特征对应的语音命令词,将该语音命令词对应的意图信息作为第一控制信息。
在第二种方式中,电梯控制装置可以存储文本命令词库,该文本命令词库用于存储多个文本命令词,且一个文本命令词对应一个意图信息。所述基于第二语音特征进行离线意图识别,得到第一控制信息的实现方式可以为:获取第二语音特征对应的第一文本,从文本命令词库中选择与第一文本相似度最高的文本命令词,将该文本命令词对应的意图信息作为第一控制信息。
现有技术中,在线语音识别需要经过网络传输,响应速度慢,并且,在线语音识别易受网络质量的影响,在网络质量差的情况下,响应的延迟较大,从而导致电梯控制的效率低。
本发明实施例中,接收用户在使用电梯场景下输入的目标语音;采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;控制电梯执行所述第一控制信息对应的第一操作。通过本发明实施例的语音处理方法进行离线意图识别,可以提高识别的效率,由于离线识别一般比在线识别的响应速度快,通过进行离线意图识别,得到第一控制信息,执行第一控制信息对应的第一操作,保证了电梯控制的响应速度,从而可提高电梯控制的效率。将该方法应用于控制电梯的场景下,可以大大提高电梯启动和运行的效率,提高用户粘性。
可选的,所述方法还包括:
向服务器发送所述目标语音,以使所述服务器对所述目标语音进行在线意图识别;
接收所述服务器发送的第二控制信息;
若所述第二控制信息与所述第一控制信息不一致,则控制所述电梯取消执行所述第一操作,并执行所述第二控制信息对应的第二操作。
其中,第二控制信息与第一控制信息同理,此处不做赘述。服务器对目标语音进行在线意图识别,可以得到第二控制信息。得到第二控制信息的实现方式可以与电梯控制装置进行离线意图识别,得到第一控制信息的实现方式同理,此处不再赘述。需要说明的是,由于在线意图识别的语音命令词库和文本命令词库存储在云端,其中的样本数据更加丰富,语音识别的成功率和准确率很高。例如,语音命令词库可以用于控制电梯,在线意图识别的语音命令词库可以包括语音命令词“去餐厅”,“去餐厅”对应的意图信息可以为“确认指令-3楼”,从而电梯控制更加智能。
电梯控制装置若确定第二控制信息与第一控制信息一致,则可以忽略第二控制信息,继续控制电梯执行第一操作。电梯控制装置若确定第二控制信息与第一控制信息不一致,可以直接控制所述电梯取消执行所述第一操作,并执行所述第二控制信息对应的第二操作,方法简单,效率高。
以第一控制信息为“确认指令-3楼”为例,对应的第一操作为前往3楼,第二控制信息可以为“确认指令-5楼”,对应的第二操作为前往5楼,则电梯可以直接取消前往3楼的操作,前往5楼。
该实施方式中,通过服务器进行在线意图识别,由于在线识别的准确率一般比离线识别的准确率高,若第二控制信息与第一控制信息不一致,控制所述电梯取消执行第一操作,执行第二控制信息对应的第二操作,保证了电梯控制的准确性。
参见图3,图3是本发明实施例提供的一种语音处理装置的结构示意图,如图3所示,语音处理装置200包括:
提取模块201,用于提取待处理语音的第一语音特征;
分离模块202,用于对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
获取模块203,用于基于所述第二语音特征获取所述待处理语音的处理结果。
可选的,所述第一语音特征包括多个第一特征值,所述第二语音特征包括多个第二特征值;
所述分离模块202具体用于:
对所述多个第一特征值进行特征平均处理,得到语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征;
基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
可选的,所述第二语音特征还包括所述语音幅度特征值。
可选的,所述第二语音特征的维度大于或等于所述第一语音特征的维度。
可选的,所述第一语音特征包括filter banks滤波器组特征。
语音处理装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
参见图4,图4是本发明实施例提供的一种电梯控制装置的结构示意图之一,如图4所示,电梯控制装置300包括:
第一接收模块301,用于接收用户在使用电梯场景下输入的目标语音;
识别模块302,用于采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
第一控制模块303,用于控制电梯执行所述第一控制信息对应的第一操作。
可选的,如图5所示,所述电梯控制装置300还包括:
发送模块304,用于向服务器发送所述目标语音,以使所述服务器对所述目标语音进行在线意图识别;
第二接收模块305,用于接收所述服务器发送的第二控制信息;
第二控制模块306,用于若所述第二控制信息与所述第一控制信息不一致,则控制所述电梯取消执行所述第一操作,并执行所述第二控制信息对应的第二操作。
电梯控制装置能够实现本发明实施例中电梯控制方法中实现的各个过程,为避免重复,这里不再赘述。
在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及电梯等。
请参见图6,图6是本发明实施例提供的一种电子设备的结构示意图,如图6所示,电子设备400包括:存储器402、处理器401及存储在所述存储器402上并可在所述处理器401上运行的程序,其中:
作为一种实施方式,所述处理器401读取存储器402中的程序,用于执行:
提取待处理语音的第一语音特征;
对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
基于所述第二语音特征获取所述待处理语音的处理结果。
可选的,所述第一语音特征包括多个第一特征值,所述第二语音特征包括多个第二特征值;
所述处理器401用于执行的对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征,包括:
对所述多个第一特征值进行特征平均处理,得到语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征;
基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
可选的,所述第二语音特征还包括所述语音幅度特征值。
可选的,所述第二语音特征的维度大于或等于所述第一语音特征的维度。
可选的,所述第一语音特征包括filter banks滤波器组特征。
作为另一种实施方式,所述处理器401读取存储器402中的程序,用于执行:
接收用户在使用电梯场景下输入的目标语音;
采用本发明实施例所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
控制电梯执行所述第一控制信息对应的第一操作。
可选的,所述处理器401还用于执行:
向服务器发送所述目标语音,以使所述服务器对所述目标语音进行在线意图识别;
接收所述服务器发送的第二控制信息;
若所述第二控制信息与所述第一控制信息不一致,则控制所述电梯取消执行所述第一操作,并执行所述第二控制信息对应的第二操作。
在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器401负责管理总线架构和通常的处理,存储器402可以存储处理器401在执行操作时所使用的数据。
需要说明的是,本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述电梯控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
提取待处理语音的第一语音特征;
对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
基于所述第二语音特征获取所述待处理语音的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述第一语音特征包括多个第一特征值,所述第二语音特征包括多个第二特征值;
所述对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征,包括:
对所述多个第一特征值进行特征平均处理,得到语音幅度特征值,所述语音幅度特征值用于表征所述待处理语音的语音幅度特征;
基于所述语音幅度特征值,分别对每个所述第一特征值进行语音幅度特征分离处理,得到所述第二语音特征中分别对应于每个所述第一特征值的所述第二特征值。
3.根据权利要求2所述的方法,其特征在于,所述第二语音特征还包括所述语音幅度特征值。
4.根据权利要求1所述的方法,其特征在于,所述第二语音特征的维度大于或等于所述第一语音特征的维度。
5.根据权利要求1所述的方法,其特征在于,所述第一语音特征包括filter banks滤波器组特征。
6.一种电梯控制方法,其特征在于,所述方法包括:
接收用户在使用电梯场景下输入的目标语音;
采用权利要求1-5中任一项所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
控制电梯执行所述第一控制信息对应的第一操作。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
向服务器发送所述目标语音,以使所述服务器对所述目标语音进行在线意图识别;
接收所述服务器发送的第二控制信息;
若所述第二控制信息与所述第一控制信息不一致,则控制所述电梯取消执行所述第一操作,并执行所述第二控制信息对应的第二操作。
8.一种语音处理装置,其特征在于,所述语音处理装置包括:
提取模块,用于提取待处理语音的第一语音特征;
分离模块,用于对所述第一语音特征进行语音幅度特征分离处理,得到第二语音特征;
获取模块,用于基于所述第二语音特征获取所述待处理语音的处理结果。
9.一种电梯控制装置,其特征在于,所述电梯控制装置包括:
第一接收模块,用于接收用户在使用电梯场景下输入的目标语音;
识别模块,用于采用权利要求1-5中任一项所述的语音处理方法对所述目标语音进行离线意图识别,得到第一控制信息;
第一控制模块,用于控制电梯执行所述第一控制信息对应的第一操作。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音处理方法中的步骤;或者,所述程序被所述处理器执行时实现如权利要求6至7中任一项所述的电梯控制方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325555.9A CN111489740A (zh) | 2020-04-23 | 2020-04-23 | 语音处理方法及装置、电梯控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325555.9A CN111489740A (zh) | 2020-04-23 | 2020-04-23 | 语音处理方法及装置、电梯控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111489740A true CN111489740A (zh) | 2020-08-04 |
Family
ID=71813137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010325555.9A Pending CN111489740A (zh) | 2020-04-23 | 2020-04-23 | 语音处理方法及装置、电梯控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489740A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571069A (zh) * | 2021-08-03 | 2021-10-29 | 北京房江湖科技有限公司 | 一种信息处理的方法、装置和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829578A (en) * | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
JP2005079781A (ja) * | 2003-08-29 | 2005-03-24 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法、ブラインド信号分離プログラム及び記録媒体 |
WO2017081977A1 (ja) * | 2015-11-12 | 2017-05-18 | 三菱電機株式会社 | モータ制御装置およびこれを用いたエレベータ |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
US20170294195A1 (en) * | 2016-04-07 | 2017-10-12 | Canon Kabushiki Kaisha | Sound discriminating device, sound discriminating method, and computer program |
CN107464567A (zh) * | 2017-07-24 | 2017-12-12 | 深圳云知声信息技术有限公司 | 语音识别方法及装置 |
CN110097884A (zh) * | 2019-06-11 | 2019-08-06 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法和装置 |
CN110890087A (zh) * | 2018-09-10 | 2020-03-17 | 北京嘉楠捷思信息技术有限公司 | 一种基于余弦相似度的语音识别方法和装置 |
-
2020
- 2020-04-23 CN CN202010325555.9A patent/CN111489740A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829578A (en) * | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
JP2005079781A (ja) * | 2003-08-29 | 2005-03-24 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法、ブラインド信号分離プログラム及び記録媒体 |
WO2017081977A1 (ja) * | 2015-11-12 | 2017-05-18 | 三菱電機株式会社 | モータ制御装置およびこれを用いたエレベータ |
US20170294195A1 (en) * | 2016-04-07 | 2017-10-12 | Canon Kabushiki Kaisha | Sound discriminating device, sound discriminating method, and computer program |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
CN107464567A (zh) * | 2017-07-24 | 2017-12-12 | 深圳云知声信息技术有限公司 | 语音识别方法及装置 |
CN110890087A (zh) * | 2018-09-10 | 2020-03-17 | 北京嘉楠捷思信息技术有限公司 | 一种基于余弦相似度的语音识别方法和装置 |
CN110097884A (zh) * | 2019-06-11 | 2019-08-06 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法和装置 |
Non-Patent Citations (1)
Title |
---|
林麒麟 等: "基于语音识别的电梯辅助控制系统设计" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571069A (zh) * | 2021-08-03 | 2021-10-29 | 北京房江湖科技有限公司 | 一种信息处理的方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
US10178228B2 (en) | Method and apparatus for classifying telephone dialing test audio based on artificial intelligence | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
CN108922553B (zh) | 用于音箱设备的波达方向估计方法及系统 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
US7987090B2 (en) | Sound-source separation system | |
CN111583906A (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN113299306B (zh) | 回声消除方法、装置、电子设备及计算机可读存储介质 | |
CN111048118B (zh) | 一种语音信号处理方法、装置及终端 | |
US10978089B2 (en) | Method, apparatus for blind signal separating and electronic device | |
JP7335460B2 (ja) | テキストエコー消去 | |
JP7548482B2 (ja) | 音声通話の制御方法、装置、コンピュータプログラム及び電子機器 | |
CN111489740A (zh) | 语音处理方法及装置、电梯控制方法及装置 | |
CN112750469A (zh) | 语音中检测音乐的方法、语音通信优化方法及对应的装置 | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN111798862A (zh) | 音频降噪方法、系统、设备及存储介质 | |
CN114171043B (zh) | 回声的确定方法、装置、设备以及存储介质 | |
CN116994568A (zh) | 车载语音识别模型的优化方法、车载语音识别方法及装置 | |
CN110648681B (zh) | 语音增强的方法、装置、电子设备及计算机可读存储介质 | |
WO2022063215A1 (zh) | 结合ai模型的特征域语音增强方法及相关产品 | |
CN114220430A (zh) | 多音区语音交互方法、装置、设备以及存储介质 | |
CN108766430B (zh) | 一种基于巴氏距离的语音特征映射方法及系统 | |
CN112820313A (zh) | 模型训练方法、语音分离方法、装置及电子设备 | |
JP2009042754A (ja) | 音源分離システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201116 Address after: 266100 Room 2002, 20th Floor, Building 2, Darong Century Complex (Darong Center), 180 Haier Road, Laoshan District, Qingdao City, Shandong Province Applicant after: Shandong Shengzhi Wulian Technology Co.,Ltd. Address before: Room 306, floor 3, NO.67, Beisihuan West Road, Haidian District, Beijing 100098 Applicant before: SOUNDAI TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |
|
RJ01 | Rejection of invention patent application after publication |