CN111179913B - 一种语音处理方法及装置 - Google Patents
一种语音处理方法及装置 Download PDFInfo
- Publication number
- CN111179913B CN111179913B CN201911421818.XA CN201911421818A CN111179913B CN 111179913 B CN111179913 B CN 111179913B CN 201911421818 A CN201911421818 A CN 201911421818A CN 111179913 B CN111179913 B CN 111179913B
- Authority
- CN
- China
- Prior art keywords
- time length
- voice data
- context information
- module
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供了一种语音处理方法及装置,应用于语音处理系统,所述方法包括:所述语音处理系统获取当前的语境信息;接收用户的语音数据;根据所述语境信息计算所述语音数据的时间长度;根据所述时间长度分配处理内存;调用所述处理内存对所述语音数据进行识别处理。本实施例提出的语音处理方法,操作简便,识别能力强,可以快速识别用户的指令信息,既可以大大减少了语音信息的识别过程中的计算量,降低了系统功耗,又可以提高了语音信息匹配的准确度。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种语音处理方法以及一种语音处理装置。
背景技术
随着互联网的不断普及,人工智能系统也逐渐进入人们的生活一部分,为人们生活提供便利。
人工智能系统可以通过识别用户的语音数据,从而执行语音数据对应的操作,为用户的生活提供便利。
而常用的识别方法有通过函数或模型计算等等,可以快速识别用户的语音数据对应的文本,提取该文本对应的文字,根据该文字执行对应的操作。
但在识别的过程中,需要调用对应的内存确定函数或模型进行计算识别,但由于用户发送的语音数据的时间长度不一,有可能长有可能短,若长时间的语音数据对应的处理内存超过了人工智能系统的预设内存,会使得人工智能系统无法识别,无法执行对应的操作,需要用户重新分拆语音数据,大大降低了用户的使用体验。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音处理方法以及一种语音处理装置。
为了解决上述问题,本发明实施例公开了一种语音处理方法,所述方法应用于语音处理系统,所述方法包括:
所述语音处理系统获取当前的语境信息;
接收用户的语音数据;
根据所述语境信息计算所述语音数据的时间长度;
根据所述时间长度分配处理内存;
调用所述处理内存对所述语音数据进行识别处理。
可选地,所述语境信息包括人物语境信息,所述根据所述语境信息计算所述语音数据的时间长度,包括:
确定所述语境信息是否为人物语境信息;
若是人物语境信息,则获取所述语音数据的容量大小;
根据所述容量大小计算对应的时间长度。
可选地,所述根据所述时间长度分配处理内存,包括:
判断所述时间长度是否小于或等于预设的时间长度;
若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配处理内存。
可选地,所述方法还包括:
若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据;
获取所述切分语音数据的切分数量;
根据所述切分数量分配切分处理内存。
本发明实施例还公开了一种语音处理装置,应用于语音处理系统,所述装置包括:
获取模块,用于获取当前的语境信息;
接收模块,用于接收用户的语音数据;
计算模块,用于根据所述语境信息计算所述语音数据的时间长度;
分配模块,用于根据所述时间长度分配处理内存;
调用模块,用于调用所述处理内存对所述语音数据进行识别处理。
可选地,所述语境信息包括人物语境信息,所述计算模块,包括:
确定模块,用于确定所述语境信息是否为人物语境信息;
容量模块,用于若是人物语境信息,则获取所述语音数据的容量大小;
计算长度模块,用于根据所述容量大小计算对应的时间长度。
可选地,所述分配模块,包括:
判断模块,用于判断所述时间长度是否小于或等于预设的时间长度;
分配内存模块,用于若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配处理内存。
可选地,所述装置还包括:
切分模块,用于若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据;
获取数量模块,用于获取所述切分语音数据的切分数量;
分配切分内存模块,用于根据所述切分数量分配切分处理内存。
本发明实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上述实施例所述的一个或多个方法。
本发明实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述实施例所述的任一项所述方法。
本发明实施例包括以下优点:可以通过所述语音处理系统获取当前的语境信息;接收用户的语音数据;根据所述语境信息计算所述语音数据的时间长度;根据所述时间长度分配处理内存;调用所述处理内存对所述语音数据进行识别处理。本实施例提出的语音处理方法,操作简便,识别能力强,可以快速识别用户的指令信息,既可以大大减少了语音信息的识别过程中的计算量,降低了系统功耗,又可以提高了语音信息匹配的准确度。
附图说明
图1是本发明的语音处理方法实施例一的步骤流程图;
图2是本发明的语音处理方法实施例二的步骤流程图;
图3是本发明的语音处理装置实施例一的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的语音处理方法实施例一的步骤流程图,在本实施例中,该方法可以应用于语音处理系统,该语音处理系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该语音处理系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤101,所述语音处理系统获取当前的语境信息。
在本实施例中,当该语音系统在接收了语音指令时,或者在触发启动时,或者在启动某一应用时,又或者在接收用户的唤醒操作时,该语音处理系统可以获取当前的语境信息。
在可选的实施例中,该语境信息可以是当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。
在本实施例中,在该语音处理系统刚唤醒或刚接收语音指令的时候,可以先获取当前的语境信息,根据语境信息确定当前该语音处理系统是否会出现无法识别的情况,若是不能识别,可以提前提醒用户,使得用户可以执行对应的语音操作,或者以非语音指令的方式控制该语音处理系统进行对应的操作,例如直接在该语音处理系统中输入指令。从而可以提前避免语音处理系统无法执行用户的指定操作的情况。
例如,该该语音处理系统确定当前时间为凌晨2点,地点为蹦迪,人物数量为50人。则该语音处理系统可以确定当前无法识别用户的语音数据,可以向用户发送提示信息,通知用户需要对该语音处理系统发送非语音数据的指令信息;若该语音处理系统确定当前时间为中午1点,地点为教师,人物数量为1人,则该语音处理系统可以确定当前可以识别用户的语音数据。
步骤102,接收用户的语音数据。
在本实施例中,当该语音处理系统采集的语境信息后,该语音处理系统可以确定当前环境是否可以接收用户发送的语音数据,在语音处理系统确定可以接收时,等待用户发送。
若用户发送语音数据,则该语音处理系统可以接收用户发送的语音数据。在本实施例中,该语音处理系统可以包括语音接收设备,该语音接收设备可以麦克风。
在其中一种可选的实施例中,该语音处理系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备,可以通过智能终端或智能设备接收用户的语音数据,再由智能终端或智能设备将语音数据发送至语音处理系统中。
步骤103,根据所述语境信息计算所述语音数据的时间长度。
在本实施例中,当语音处理系统接收了用户的语音数据后,可以通过语境信息,计算语音数据的时间长度,使得该语音数据可以与该语境信息进行配合,从而该语音处理系统可以判断是否可以直接识别用户发送的语音数据。可以避免语音处理系统无法识别或者无法确定用户的指令的情况,也可以让该语音处理系统更加灵敏准确地识别用户对应的指令,从而可以执行对应的操作。
在其中一种实施例中,所述语境信息包括人物语境信息。该人物语境信息可以是用户数量,地理信息等等。
可以通过用户数量确定是否需要拆分或切分语音数据进行识别,从而可以提高语音数据识别的准确率。
步骤104,根据所述时间长度分配处理内存。
在本实施例中,在获取了用户的语音数据的时间长度后,可以根据时间长度确定识别该语音数据的处理内存。
具体地,若时间长度为30秒,可以分配500k的处理内存。
步骤105,调用所述处理内存对所述语音数据进行识别处理。
在本实施例中,在确定了对应的处理内存后,语音处理系统可以直接调用处理内存分别对切分语音数据进行识别,从而可以提高识别的准确率。
在本实施例中提出了一种语音处理方法,可以通过所述语音处理系统获取当前的语境信息;接收用户的语音数据;根据所述语境信息计算所述语音数据的时间长度;根据所述时间长度分配处理内存;调用所述处理内存对所述语音数据进行识别处理。本实施例提出的语音处理方法,操作简便,识别能力强,可以快速识别用户的指令信息,既可以大大减少了语音信息的识别过程中的计算量,降低了系统功耗,又可以提高了语音信息匹配的准确度。
参照图2,示出了本发明的语音处理方法实施例二的步骤流程图,在本实施例中,该方法可以应用于语音处理系统,该语音处理系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该语音处理系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤201,所述语音处理系统获取当前的语境信息。
在本实施例中,当该语音系统在接收了语音指令时,或者在触发启动时,或者在启动某一应用时,又或者在接收用户的唤醒操作时,该语音处理系统可以获取当前的语境信息。
在可选的实施例中,该语境信息可以是当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。
在本实施例中,在该语音处理系统刚唤醒或刚接收语音指令的时候,可以先获取当前的语境信息,根据语境信息确定当前该语音处理系统是否会出现无法识别的情况,若是不能识别,可以提前提醒用户,使得用户可以执行对应的语音操作,或者以非语音指令的方式控制该语音处理系统进行对应的操作,例如直接在该语音处理系统中输入指令。从而可以提前避免语音处理系统无法执行用户的指定操作的情况。
例如,该该语音处理系统确定当前时间为凌晨2点,地点为蹦迪,人物数量为50人。则该语音处理系统可以确定当前无法识别用户的语音数据,可以向用户发送提示信息,通知用户需要对该语音处理系统发送非语音数据的指令信息;若该语音处理系统确定当前时间为中午1点,地点为教师,人物数量为1人,则该语音处理系统可以确定当前可以识别用户的语音数据。
步骤202,接收用户的语音数据。
在本实施例中,当该语音处理系统采集的语境信息后,该语音处理系统可以确定当前环境是否能接收用户发送的语音数据,在语音处理系统确定可以接收时,可以等待用户发送。
若用户发送语音数据,则该语音处理系统可以接收用户发送的语音数据。在本实施例中,该语音处理系统可以包括语音接收设备,该语音接收设备可以麦克风。
在其中一种可选的实施例中,该语音处理系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备,可以通过智能终端或智能设备接收用户的语音数据,再由智能终端或智能设备将语音数据发送至语音处理系统中。
步骤203,根据所述语境信息计算所述语音数据的时间长度。
在本实施例中,当语音处理系统接收了用户的语音数据后,可以通过语境信息,计算语音数据的时间长度,使得该语音数据可以与该语境信息进行配合,从而该语音处理系统可以判断是否可以直接识别用户发送的语音数据。可以避免语音处理系统无法识别或者无法确定用户的指令的情况,也可以让该语音处理系统更加灵敏准确地识别用户对应的指令,从而可以执行对应的操作。
在其中一种实施例中,所述语境信息包括人物语境信息。该人物语境信息可以是用户数量,地理信息等等。
可以通过用户数量确定是否需要拆分或切分语音数据进行识别,从而可以提高语音数据识别的准确率。
可选地,所述步骤203可以包括以下子步骤:
子步骤2031,确定所述语境信息是否为人物语境信息。
在本实施例中,确定所述语境信息是否为人物语境信息可以是确定语境信息是否用户数量信息。
在可选的实施例中,可以是判断当前的用户数量。具体地,该语音处理系统可以设置热量传感器,可以是采用热量传感器获取语音采集设备的可采集音频半径内的热量数据,根据热源确定当前的用户数量。
在实际操作中,当用户数量等于一时,可以确定当前语境信息是人物语境信息。可以确定当前只有一个用户在设备旁边,只有该用户向语音处理设备下发语音数据,该语音处理系统可以识别该用户的语音数据。
子步骤2032,若是人物语境信息,则获取所述语音数据的容量大小。
在本实施例中,当确定当前用户数量为一时,语音处理系统可以确定该语境信息为人物语境信息。
具体地,当语音处理系统可以确定当前用户数量为一时,语音处理下系统可以获取语音数据的容量大小。
在可选的实施例中,容量大小可以是语音数据的存储容量大小。
子步骤2033,根据所述容量大小计算对应的时间长度。
在本实施例中,该语音处理系统可以根据语音数据的存储容量大小计算该语音数据的时间长度。
具体地,该语音数据的存储容量为150k,对应地时间长度可以是30秒,可以是40秒,可以是50秒。
步骤204,根据所述时间长度分配处理内存。
在本实施例中,在获取了用户的语音数据的时间长度后,可以根据时间长度确定识别该语音数据的处理内存。
具体地,若时间长度为30秒,可以分配500k的处理内存。
在可选的实施例中,步骤204可以包括以下子步骤:
子步骤2041,判断所述时间长度是否小于或等于预设的时间长度。
在本实施例中,为了可以提高识别的准确率,以及避免无法识别或者误解用户指示的情况,可以判断该时间长于是否小于或等于预设的时间长度。
具体地,该预设的时间长度可以是语音处理系统的预设可运行内存对应的时间长度。例如,若该语音处理系统的预设可运行内存为100兆,该内存对应的时间长度可以是5分钟,10分钟或者10秒等等。具体可以根据实际需要进行调整。
采用可运行内存对语音数据进行识别,可以有效提高语音数据的识别准确率,也无需拆分该语音数据,避免对语音数据的识别出现误解。
子步骤2042,若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配处理内存。
在本实施例中,当时间长度小于或等于预设的时间长度时,语音处理系统可以确定采用预设的可运行内存对该语音数据进行识别处理。
在具体实现中,为了可以降低能耗,提高资源的利用率,可以根据时间长度计算对应的处理内存,采用对应的处理内存对该语音数据进行识别,也可以提高识别的准确性。
在可选的实施例中,可以采用DTW(Dynamic Time Warping,动态时间归整)算法,该DTW算法基于动态规划(DP)的思想,可以用于孤立词识别,从而可以从用户的语音数据中,识别对应的文本字词信息。
在使用时,用户可以预先在语音处理系统中存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,在本实施例中测试模板可以是用户的语音数据,该语音数据可以表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与语音数据一般采用相同类型的特征矢量(如MFCC,LPC系数)、相同的帧长、相同的窗函数和相同的帧移。
语音数据和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。为了计算这一失真距离,可以从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量。在一种优选的实施例中,在DTW算法中可以采用欧氏距离。最后可以将距离D(n,m)输出,作为模板匹配的结果。若距离越小,则相似度越高,从而可以确定用户的语音数据对应的文本信息,在根据该文本信息确定对应的操作。
在另一可选的实施例中,步骤204还可以包括以下子步骤:
子步骤2043,若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据。
在本实施例中,用户在输入语音数据时,可能需要向语音处理系统下发多个操作指令,有可能会发送长语音数据至语音处理系统中,因此该长语音数据的时间长度可以超过预设的时间长度。
为了可以提高识别的准确率,避免出现重复或识别不清楚的情况,可以将语音数据进行切分。而将多个语音数据进行切分,可以分别对每个切分语音数据进行识别,从而可以提高准确率。
具体地,可以按照预设的时间长度对语音数据进行切分。该预设的时间长度可以根据实际需要进行调整,可以是100秒,10秒,1分钟,5分钟等等。
子步骤2044,获取所述切分语音数据的切分数量。
在本实施例中,当对语音数据进行切分后,可以统计多个切分的语音数据的数量,再根据切分的数据确定需要处理的内存,从而可以提高识别的效率。
子步骤2045,根据所述切分数量分配切分处理内存。
在本实施例中,语音处理系统可以根据切分数量确定对应的切分处理内存。
在具体实现中,由于预设的时间长度由用户预设好,该预设的时间长度对应的处理内存也是对应的,例如,预测是时间长度为50秒,对应的处理内存为500k,若语音数据的时间长度为250秒,需要切分的切分语音数据为5个,则需要对应处理内存为500k*5=2500k。
步骤205,调用所述处理内存对所述语音数据进行识别处理。
在本实施例中,在确定了对应的处理内存后,语音处理系统可以直接调用处理内存分别对切分语音数据进行识别,从而可以提高识别的准确率。
步骤206,生成识别结果,并执行对应的操作。
在本实施例中,当语音处理系统生成识别结果后,可以执行识别结果对应的操作。例如,当生成的识别结果为播放音乐,该语音处理系统可以打开音乐播放软件;当生成的识别结果为照相,该语音处理系统可以打开相机软件等等。
本实施例提出了一种语音处理方法,可以通过所述语音处理系统获取当前的语境信息;接收用户的语音数据;根据所述语境信息计算所述语音数据的时间长度;根据所述时间长度分配处理内存;调用所述处理内存对所述语音数据进行识别处理;最后生成识别结果,并执行对应的操作。本实施例提出的语音处理方法,操作简便,识别能力强,可以快速识别用户的指令信息,既可以大大减少了语音信息的识别过程中的计算量,降低了系统功耗,又可以提高了语音信息匹配的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的语音处理装置实施例一的结构示意图,在本实施例中,应用于语音处理系统,所述装置包括:
获取模块301,用于获取当前的语境信息;
接收模块302,用于接收用户的语音数据;
计算模块303,用于根据所述语境信息计算所述语音数据的时间长度;
分配模块304,用于根据所述时间长度分配处理内存;
调用模块305,用于调用所述处理内存对所述语音数据进行识别处理。
可选地,所述语境信息包括人物语境信息,所述计算模块,包括:
确定模块,用于确定所述语境信息是否为人物语境信息;
容量模块,用于若是人物语境信息,则获取所述语音数据的容量大小;
计算长度模块,用于根据所述容量大小计算对应的时间长度。
可选地,所述分配模块,包括:
判断模块,用于判断所述时间长度是否小于或等于预设的时间长度;
分配内存模块,用于若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配处理内存。
可选地,所述装置还包括:
切分模块,用于若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据;
获取数量模块,用于获取所述切分语音数据的切分数量;
分配切分内存模块,用于根据所述切分数量分配切分处理内存;
识别处理模块,用于调用所述切分处理内存对所述语音数据进行语音识别处理。
可选地,所述装置还可以包括:
生成模块,用于生成识别结果,并执行对应的操作。
本实施例提出了一种语音处理装置,可以通过获取模块301,用于获取当前的语境信息;接收模块302,用于接收用户的语音数据;计算模块303,用于根据所述语境信息计算所述语音数据的时间长度;分配模块304,用于根据所述时间长度分配处理内存;调用模块305,用于调用所述处理内存对所述语音数据进行识别处理。本实施例提出的语音处理装置,结果简单,操作简便,识别能力强,可以快速识别用户的指令信息,既可以大大减少了语音信息的识别过程中的计算量,降低了系统功耗,又可以提高了语音信息匹配的准确度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例还提供了一种装置,包括:
包括一个或多个处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的机器可读介质,该机器可读介质被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音处理方法以及一种语音处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种语音处理方法,其特征在于,应用于语音处理系统,所述方法包括:
所述语音处理系统获取当前的语境信息;
接收用户的语音数据;
根据所述语境信息计算所述语音数据的时间长度;
根据所述时间长度分配处理内存;
调用所述处理内存对所述语音数据进行识别处理;
其中,所述语境信息包括人物语境信息,所述根据所述语境信息计算所述语音数据的时间长度,包括:
确定所述语境信息是否为人物语境信息;
若是所述人物语境信息,则获取所述语音数据的容量大小;
根据所述容量大小计算对应的时间长度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述时间长度分配处理内存,还包括:
判断所述时间长度是否小于或等于预设的时间长度;
若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配所述处理内存。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据;
获取所述切分语音数据的切分数量;
根据所述切分数量分配所述处理内存。
4.一种语音处理装置,其特征在于,应用于语音处理系统,所述装置包括:
获取模块,用于获取当前的语境信息;
接收模块,用于接收用户的语音数据;
计算模块,用于根据所述语境信息计算所述语音数据的时间长度;
分配模块,用于根据所述时间长度分配处理内存;
调用模块,用于调用所述处理内存对所述语音数据进行识别处理;
其中,所述语境信息包括人物语境信息,所述计算模块,包括:
确定模块,用于确定所述语境信息是否为人物语境信息;
容量模块,用于若是所述人物语境信息,则获取所述语音数据的容量大小;
计算长度模块,用于根据所述容量大小计算对应的时间长度。
5.根据权利要求4所述的装置,其特征在于,所述分配模块,包括:
判断模块,用于判断所述时间长度是否小于或等于预设的时间长度;
分配内存模块,用于若所述时间长度小于或等于预设的时间长度,则根据所述预设的时间长度分配所述处理内存。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
切分模块,用于若所述时间长度大于预设的时间长度,则按照所述预设的时间长度将所述语音数据切分为若干个切分语音数据;
获取数量模块,用于获取所述切分语音数据的切分数量;
分配切分内存模块,用于根据所述切分数量分配所述处理内存。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1至3任一项所述方法。
8.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至3任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421818.XA CN111179913B (zh) | 2019-12-31 | 2019-12-31 | 一种语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421818.XA CN111179913B (zh) | 2019-12-31 | 2019-12-31 | 一种语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179913A CN111179913A (zh) | 2020-05-19 |
CN111179913B true CN111179913B (zh) | 2022-10-21 |
Family
ID=70652478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911421818.XA Active CN111179913B (zh) | 2019-12-31 | 2019-12-31 | 一种语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179913B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883128B (zh) * | 2020-07-31 | 2024-08-13 | 中国工商银行股份有限公司 | 语音处理方法及系统、语音处理装置 |
CN112669852B (zh) | 2020-12-15 | 2023-01-31 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1213107A (zh) * | 1997-09-24 | 1999-04-07 | 索尼电影娱乐公司 | 实时音频处理的内存分配 |
CN101950272A (zh) * | 2010-09-10 | 2011-01-19 | 北京捷通华声语音技术有限公司 | 一种嵌入式系统中内存管理的方法和装置 |
CN102945170A (zh) * | 2011-12-30 | 2013-02-27 | 新游游戏株式会社 | 使用内存和临时存储器的补丁方法及补丁服务器和客户端 |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
CN110493196A (zh) * | 2019-07-24 | 2019-11-22 | 深圳市瑞讯云技术有限公司 | 一种视频转码单元及视频转码组件 |
CN110505499A (zh) * | 2019-07-24 | 2019-11-26 | 深圳市瑞讯云技术有限公司 | 一种分布式转码系统及分布式转码装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0325788D0 (en) * | 2003-11-05 | 2003-12-10 | Ibm | Memory allocation |
US8694049B2 (en) * | 2004-08-06 | 2014-04-08 | Digimarc Corporation | Fast signal detection and distributed computing in portable computing devices |
US9256468B2 (en) * | 2010-08-24 | 2016-02-09 | Red Hat, Inc. | Dynamic incremental memory allocation on program stack |
-
2019
- 2019-12-31 CN CN201911421818.XA patent/CN111179913B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1213107A (zh) * | 1997-09-24 | 1999-04-07 | 索尼电影娱乐公司 | 实时音频处理的内存分配 |
CN101950272A (zh) * | 2010-09-10 | 2011-01-19 | 北京捷通华声语音技术有限公司 | 一种嵌入式系统中内存管理的方法和装置 |
CN102945170A (zh) * | 2011-12-30 | 2013-02-27 | 新游游戏株式会社 | 使用内存和临时存储器的补丁方法及补丁服务器和客户端 |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
CN110493196A (zh) * | 2019-07-24 | 2019-11-22 | 深圳市瑞讯云技术有限公司 | 一种视频转码单元及视频转码组件 |
CN110505499A (zh) * | 2019-07-24 | 2019-11-26 | 深圳市瑞讯云技术有限公司 | 一种分布式转码系统及分布式转码装置 |
Non-Patent Citations (2)
Title |
---|
Data-Aware Scheduling of Legacy Kernels on Heterogeneous Platforms with Distributed Memory;Michela Becchi,等;《Proceeding of the twenty-second ACM symposium on Parallelism in algorithms architeures》;20101231;第82-91页 * |
改进的Spark Sh咖e内存分配算法;侯伟凡,等;《计算机应用》;20171210;第37卷(第12期);第3401—3405,3429页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111179913A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
CN110970016B (zh) | 一种唤醒模型生成方法、智能终端唤醒方法及装置 | |
CN108320738B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
US20180012593A1 (en) | Keyword detection modeling using contextual information | |
CN109086329A (zh) | 基于话题关键词引导的进行多轮对话方法及装置 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN109840052B (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN118737132A (zh) | 端到端流关键词检出 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
WO2015103836A1 (zh) | 一种语音控制方法及装置 | |
CN110600008A (zh) | 语音唤醒的优化方法及系统 | |
CN111179913B (zh) | 一种语音处理方法及装置 | |
CN112634911A (zh) | 人机对话方法、电子设备及计算机可读存储介质 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
KR20240090400A (ko) | 디지털 신호 프로세서 기반 연속 대화 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN112185382B (zh) | 一种唤醒模型的生成和更新方法、装置、设备及介质 | |
CN111192588A (zh) | 一种系统唤醒方法及装置 | |
CN117121099B (zh) | 自适应视觉语音识别 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |