CN113450767A - 语音识别测试方法、装置、测试设备及存储介质 - Google Patents
语音识别测试方法、装置、测试设备及存储介质 Download PDFInfo
- Publication number
- CN113450767A CN113450767A CN202110706771.2A CN202110706771A CN113450767A CN 113450767 A CN113450767 A CN 113450767A CN 202110706771 A CN202110706771 A CN 202110706771A CN 113450767 A CN113450767 A CN 113450767A
- Authority
- CN
- China
- Prior art keywords
- voice
- tested
- recognition
- text
- devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 161
- 238000010998 test method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请涉及人工智能领域,提供了一种语音识别测试方法、装置、测试设备及存储介质,该方法包括:获取测试文件,该测试文件包括多个基于不同收音角度生成的语音文件、以及各语音文件对应的收音角度和标准文本;将多个语音文件发送给多个待测设备,并指示多个待测设备各自对多个语音文件进行语音识别,以使多个待测设备各自生成与多个语音文件一一对应的多个识别文本;获取多个待测设备各自生成的多个识别文本;将对应同一语音文件的识别文本与标准文本进行文本比对,确定多个待测设备各自对各语音文件的识别结果;根据多个待测设备各自对多个语音文件的识别结果,确定多个待测设备各自的语音识别准确率。因此,本申请能够提高批量测试时的准确性。
Description
技术领域
本申请涉及人工智能,提供一种语音识别测试方法、装置、测试设备及存储介质。
背景技术
随着人工智能的发展,越来越多的电子设备具备语音识别功能,例如AI机器人、智能家电、智能玩具等等,可理解,此类电子设备对自然语音的识别准确率是非常关键的指标,这直接影响了设备的有效性和用户的使用体验,因此,针对语音识别的准确率测试必不可少。
为了提高测试效率,对同一种电子设备进行的语音识别测试通常采用批量测试的方式,即多个电子设备同时进行测试,具体的,在批量测试时,播放源播放多条自然语音,如此每个电子设备可以各自进行语音测试。但在批量测试的过程中,各个电子设备与播放源的位置角度都是随机的,且各个电子设备之间互相存在干扰,从而影响了批量测试的准确性。
发明内容
基于此,本申请实施例提供了一种语音识别测试方法、装置、测试设备及存储介质,以提高批量测试时的准确性。
第一方面,本申请实施例提供了一种语音识别测试方法,用于测试设备,所述方法包括:
获取测试文件,所述测试文件中包括多个基于不同收音角度生成的语音文件、各所述语音文件对应的收音角度、以及各所述语音文件对应的标准文本;
将所述多个语音文件发送给多个待测设备,并指示所述多个待测设备各自对所述多个语音文件进行语音识别,以使所述多个待测设备各自生成与所述多个语音文件一一对应的多个识别文本;
获取所述多个待测设备各自生成的多个识别文本;
将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述多个待测设备各自对各所述语音文件的识别结果;
根据所述多个待测设备各自对多个语音文件的识别结果,确定所述多个待测设备各自的语音识别准确率。
第二方面,本申请实施例提供了一种语音识别测试装置,包括:
第一数据获取模块,用于获取测试文件,所述测试文件中包括多个基于不同收音角度生成的语音文件、各所述语音文件对应的收音角度、以及各所述语音文件对应的标准文本;
数据发送模块,用于将所述多个语音文件发送给多个待测设备,并指示所述多个待测设备各自对所述多个语音文件进行语音识别,以使所述多个待测设备各自生成与所述多个语音文件一一对应的多个识别文本;
第二数据获取模块,用于获取所述多个待测设备各自生成的多个识别文本;
文本比对模块,用于将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述多个待测设备各自对各所述语音文件的识别结果;
结果确定模块,用于根据所述多个待测设备各自对多个语音文件的识别结果,确定所述待测设备的语音识别准确率。
第三方面,本申请实施例提供了一种测试设备,包括处理器与存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如第一方面所述的语音识别测试方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如第一方面所述的语音识别测试方法。
本申请实施例提供的语音识别测试方法、装置、测试设备及存储介质,该方法包括:获取测试文件,该测试文件包括多个基于不同收音角度生成的语音文件、以及各语音文件对应的收音角度和标准文本;将多个语音文件发送给多个待测设备,并指示多个待测设备各自对多个语音文件进行语音识别,以使多个待测设备各自生成与多个语音文件一一对应的多个识别文本;获取多个待测设备各自生成的多个识别文本;将对应同一语音文件的识别文本与标准文本进行文本比对,确定多个待测设备各自对各语音文件的识别结果;根据多个待测设备各自对多个语音文件的识别结果,确定多个待测设备各自的语音识别准确率。由此可知,在进行批量测试时,测试设备可以将多个语音文件发送给多个待测设备,进而确定各个待测设备的语音识别准确率,可理解,多个语音文件是基于不同收音角度生成的,则在多个语音文件的生成过程中,不仅不存在外界干扰且播音方向、收音方向也是确定的,从而提高了批量测试的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中具备语音识别功能的电子设备的一种示例性结构示意图;
图2为现有技术中进行批量测试的一种示例性的场景示意图;
图3为本申请实施例提供的语音识别测试方法的一种流程示意图;
图4为本申请实施例中测试文件生成的一种示例性场景图;
图5为本申请实施例提供的测试设备的一种结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,本申请的说明书、权利要求书或上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如图1所示,具备语音识别功能的电子设备可以包括麦克风阵列、音频处理模块和语音识别模块等等。其中,麦克风阵列用于接收自然语音,比如接收自然语音“今天天气怎么样”;音频处理模块用于对麦克风阵列接收到自然语音进行音频处理,例如对自然语音做去混响、降噪、增益补偿等音频处理,并在音频处理后向语音识别模块输出音频流文件,比如,对麦克风阵列接收到的自然语音“今天天气怎么样啦”进行音频处理后生成相应的音频流文件;语音识别模块则用于对音频处理模块输入的音频流文件进行语音识别,以生成识别文本,比如根据前述音频流文件生成识别文本“今天天气什么样”。可理解,识别文本并一定与自然语音的实际内容完全相同,而若电子设备的语音识别准确率过低,则会影响设备的有效性和用户体验,因此针对语音识别的准确率测试必不可少。
在现有技术中,对同一种电子设备进行的语音识别测试通常采用批量测试的方式,具体的,播放源在实验室中播放多条自然语音,如此每个电子设备可以各自进行语音识别,从而可以分别确定每个设备的语音识别准确率。发明人发现:在批量测试的过程中,各个电子设备与播放源的位置角度都是随机的,也即,播放源的播音方向、各个电子设备的收音方向都是随机的,且各个电子设备之间互相存在干扰,从而影响了测试结果的准确性。示例性的,如图2所示,图中各个电子设备与播放源的位置角度都是随机的,并且彼此之间还存在干扰。
为此,本申请实施例提供了一种语音识别测试方法,用于测试设备,测试设备例如可以包括终端设备或者服务器,其中终端设备例如包括个人计算机等等。
如图3所示,该方法包括步骤S10至步骤S50。
步骤S10、获取测试文件,其中,该测试文件中包括多个基于不同收音角度生成的语音文件、各个语音文件对应的收音角度、以及各个语音文件对应的标准文本。
具体的,测试设备获取测试文件主要用于语音识别的批量测试,而为了确保测试结果的准确性,测试文件中的多个语音文件是基于不同收音角度生成的,也即,基于多个收音角度生成的。
其中,多个语音文件可以是一语音处理装置在不同收音角度下接收自然语音生成的。具体而言,语音处理装置可以接收自然语音、并对接收到的自然语音进行音频处理,从而输出音频流文件,也即,语音文件是一种音频流文件;同时,语音处理装置与待测设备中相应的装置可以是同一种装置,示例性的,语音处理装置可以包括麦克风阵列和音频处理模块,则语音处理装置中的麦克风阵列与待测设备中的麦克风阵列是同一种电子元器件,相似的,语音处理装置中的音频处理模块与待测设备中的音频处理模块是同一种软件和/或硬件模块。可理解,多个语音文件对于每一个待测设备而言,都相当于待测设备自身在不同收音角度下接收自然语音生成的,也即,本申请实施例不需要每个待测设备单独地去接收自然语音并生成语音文件。在一实施例中,多个语音文件可以是目标设备在不同收音角度下接收自然语音生成的,其中,目标设备可以是多个待测设备中的一个,可理解,由于目标设备是多个待测设备的其中之一、且目标设备跟其他待测设备是同一种设备,因此由目标设备生成多个语音文件,可以提高批量测试的便捷性。
其中,语音文件对应的收音角度用于表征语音处理装置在接收自然语音时与播音源之间的相对位置关系,可以将收音角度简单理解为语音处理装置在接收自然语音时的接收角度。语音文件对应的标准文本指的是对应自然语音的实际内容,例如,某个语音文件是语音处理装置在一收音角度接收自然语音“您好”生成的,则该语音文件对应的标准文本即为“您好”。
可理解,测试设备获取到的多个语音文件,是语音处理装置独自去接收自然语音生成的,则在此过程中,语音处理装置在接收自然语音时,不仅不存在外界干扰(例如没有其他待测设备带来的干扰),且在接收自然语音时与播放源之间的相对位置关系也是确定的,也即,播放源的播音方向是确定的,语音处理装置的收音方向也是确定的,因此,这能够提高批量测试的准确性。
示例性的,测试设备获取到的测试文件,可以示例性的通过下文所述方式生成。在图4所示的示例性场景中,播放源可以在图中四个预设位置播放自然语音,则可理解,播放源在不同的预设位置播放自然语音时,语音处理装置与播放源之间的相对位置关系是不相同的,也即收音角度是不相同的,具体的,播放源在图中四个预设位置播放自然语音时,收音角度分别为45°、90°、135°、225°;另还需说明,播放源可以在同一个预设位置播放不同的自然语音,也可以在不同的预设位置播放相同的自然语音,本申请实施例并不作限制,例如,播放源在图中四个预设位置都播放自然语音“今天天气怎么样啦”、“今天有什么新闻”、“播放音乐”。基于此,在播放完成之后,语音处理装置能够生成多个语音文件,而每个语音文件对应的收音角度和标准文本可以人为地生成,如此,测试设备可以获取到测试文件。
步骤S20、将多个语音文件发送给多个待测设备,并指示多个待测设备各自对多个语音文件进行语音识别,以使多个待测设备各自生成与多个语音文件一一对应的多个识别文本。
测试设备在获取到测试文件之后即可进行批量测试,具体的,测试设备可以将测试文件中的多个语音文件都发送给各个待测设备,并指示各个待测设备都对这些语音文件进行语音识别,可理解,每个待测设备在完成语音识别后都会生成与这些语音文件一一对应的多个识别文本,也即,对于一个待测设备而言,在对这些语音文件进行语音识别后可以生成一一对应的多个识别文本,即每个待测设备的每个语音文件都有与之对应的识别文本。在一实施方式中,测试设备将多个语音文件发送给待测设备,可以通过调用待测设备上预设的SDK接口服务,从而将多个语音文件发送给待测设备。
由前文论述可知,多个语音文件可以视为待测设备自身在不同收音角度下接收自然语音生成的,因此待测设备对这些语音文件进行语音识别而生成的识别文本,并不会影响语音识别的准确性,故而可理解,由于待测设备是直接对语音文件进行语音识别,也即跳过了接收自然语音这个过程,因此,本申请实施例可以提高批量测试的效率。
示例性的,多个语音文件可以包括语音文件1和语音文件2,语音文件1对应的收音角度可以为45°、标注文本可以为“今天天气怎么样啦”,语音文件2对应的收音角度可以为90°、标注文本可以为“今天有什么新闻”。则测试设备可以将这两个语音文件发送给每个待测设备,并指示每个待测设备进行语音识别,具体的,由于这两个语音文件已处于可识别状态,因此每个待测设备都可以直接识别这两个语音文件,以生成与每个语音文件一一对应的识别文本,例如,某个待测设备为语音文件1生成的识别文本为“今天天气怎么样”,为语音文件2生成的识别文本为“今天有什么新闻”。
步骤S30、获取多个待测设备各自生成的多个识别文本。
步骤S40、将对应同一语音文件的识别文本与标准文本进行文本比对,确定多个待测设备各自对各个语音文件的识别结果。
每个待测设备在生成多个识别文本后,测试设备可以获取各个待测设备生成的识别文本,并以此进行文本比对。具体的,由前文论述可知,测试文件中的每个语音文件都有与之对应的标准文本,而每个识别文本是待测设备根据这些语音文件生成的,因此可理解,一个语音文件对应一个标准文件和一个识别文本。示例性的,对应语音文件1的标准文本为A,而待测设备1根据语音文件1生成的识别文本为B1,则标准文本A、识别文本B1对应同一个语音文件,相似的,待测设备2根据语音文件1生成的识别文本为B2,则标准文本A、识别文本B2对应同一个语音文件。
基于此,对于一个待测设备而言,测试设备可以将对应同一语音文件的识别文本与标准文本进行文本比对(即进行文本内容比对),确定该待测设备对各个语音文件的识别结果。可理解,按照相同的方式,测试设备可以确定每个待测设备对每个语音文件的识别结果。
示例性的,待测设备可以包括待测设备A和待测设备B,测试文件中的多个语音文件可以包括语音文件A和语音文件B,且语音文件A对应标准文本A,语音文件B对应标准文本B。则测试设备可以将这两个语音文件都发送给两个待测设备,并指示这两个待测设备都进行语音识别。基于此,测试设备A可以分别为语音文件A和语音文件B生成识别文本A1和识别文本A2,测试设备B可以分别为语音文件A和语音文件B生成识别文本B1和识别文本B2。因此,测试设备可以获取每个待测设备生成的识别文本,并进行文本比对,具体的,对于待测设备A而言,将对应语音文件A的识别文本A1和标准文本A进行文本比对,以及将对应语音文件B的识别文本A2和标准文本B进行文本比对,从而确定待测设备A对这两个语音文件的识别结果,待测设备B类似不赘述。
在一实施例中,步骤S40中的“将对应同一语音文件的识别文本与标准文本进行文本比对,确定待测设备对该语音文件的识别结果”,包括:
步骤S410、确定识别文本的文本内容与标准文本的文本内容是否一致。
步骤S420、若一致,则确定该待测设备对该语音文件的识别结果为有效。
具体的,文本比对可以采用一致性比对策略,也即,判断识别文本的文本内容是否与标准文本的文本内容一致,若一致,则确定待测设备对该语音文件的识别结果为有效,若不一致,则可确定待测设备对该语音文件的识别结果为无效,其中,待测设备对语音文件的识别结果为有效指的是待测设备能够成功识别该语音文件对应的自然语音,相反的,待测设备对语音文件的识别结果为无效指的是待测设备不能成功识别该语音文件对应的自然语音。示例性的,语音文件对应的标准文本可以是“今天有什么新闻”,且待测设备进行语音识别后生成的识别文本可以是“今天有什么新闻”,如此,测试设备在获取到此识别文本后可以进行文本比对,显然能够确定两者的文本内容是一致的,因此可以确定待测设备对该语音文件的识别结果为有效。可理解,按照相同的方式,可以确定每个待测设备对每个语音文件的识别结果。
在一实施例中,在步骤S410之后,该方法还包括:
S430、若不一致,则确定识别文本的文本内容与标准文本的文本内容之间的相似度。
S440、若该相似度大于或等于预设阈值,则确定该待测设备对该语音文件的识别结果为有效。
S450、若该相似度小于预设阈值,则确定该待测设备对该语音文件的识别结果为无效。
在某些情况下,自然语音的实际内容可能会包括一些不易被待测设备接收到的语气助词(例如“啦”)等等,这可能会导致识别文本的文本内容与标准文本的内容不一致,例如,标准文本的文本内容是“今天天气怎么样啦”,而识别文本的文本内容是“今天天气怎么样”,在此情况下,若直接将识别结果确定为无效,则可能会影响待测设备的语音识别准确率。基于此,为了进一步提高批量测试的准确性,本申请实施例在文本内容不一致的情况下还做进一步判断,具体的,可以确定两者在文本内容上的相似度,若相似度超过预设阈值,则确定待测设备对语音文件的识别结果为有效,若相似度低于预设阈值,则确定待测设备对语音文件的识别结果为无效,其中,预设阈值可以根据实际情况合理设置。示例性的,识别文本的文本内容可以是“今天天气怎么样”,标准文本的文本内容是“今天天气怎么样啦”,预设阈值的值可以是90%,则很明显,两者之间文本内容的相似度已超过了预设阈值,因此可以确定语音文件的识别结果为有效。
在一实施例中,步骤S430中的“确定识别文本的文本内容与标准文本的文本内容之间的相似度”,包括:
S431、将该识别文本转化为第一句子向量,以及将该标准文本转化为第二句子向量。
S432、基于第一句子向量和第二句子向量确定余弦角度距离值,并将该余弦角度距离值作为相似度。
具体的,测试设备可以通过预设的word2vec模型,将识别文本和标准文本都转化为句子向量,进而根据这两个句子向量计算出余弦角度距离值,即可确定识别文本和标准文本在文本内容上的相似度。
在一实施方式中,由识别文本的文本内容转化的第一句子向量可以表示为Y=[y1,y2,y3,...,yn],其中,Y表示的是第一句子向量,yn表示的是词向量,n表示的是识别文本的字符数量,例如,识别文本的文本内容是“今天天气怎么样”,则n为7,y1为“今”所对应的词向量;由标准文本的文本内容转化的第二句子向量可以表示为X=[x1,x2,x3,...,xn],其中,X表示的是第二句子向量,xn表示的是词向量,n表示的是标准文本的字符数量,例如,标准文本的文本内容是“今天天气怎么样啦”,则n为8,x8为“啦”所对应的词向量。基于此,可以通过以下公式计算余弦角度距离值cosθ,并将该余弦角度距离值作为识别文本和标准文本在文本内容上的相似度。
步骤S50、根据多个待测设备各自对多个语音文件的识别结果,确定多个待测设备各自的语音识别准确率。
对于一个待测设备而言,测试设备在完成文本比对之后可以根据该待测设备对多个语音文件的识别结果,确定该待测设备的语音识别准确率。因此按照相同的方式,测试设备可以确定各个待测设备的语音识别准确率。
可理解,本申请实施例可以确定待测设备总体的语音识别准确率,而由前文论述可知语音文件对应有收音角度,因此本申请实施例还可以确定待测设备在某一个收音角度下的语音识别准确率、在某一个收音角度范围下的语音识别准确率等等。
在一实施方式中,测试设备可以将待测设备的语音识别准确率存储在区块链节点中,其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一实施例中,步骤S50包括以下至少一种:
根据对应同一收音角度的多个语音文件的识别结果,确定该待测设备在该收音角度下的语音识别准确率;
根据对应预设收音角度范围的多个语音文件的识别结果,确定该待测设备在该收音角度范围下的语音识别准确率;以及
根据所有语音文件的识别结果,确定该待测设备总体的语音识别准确率。
由前文论述可知,每个语音文件均对应一个收音角度,因此当要确定播音源处于某一位置时待测设备的语音识别准确率(即待测设备在收音角度为目标收音角度下的语音识别准确率)时,可以根据所有对应目标收音角度的语音文件的识别结果,确定语音识别准确率。示例性的,对应目标收音角度的语音文件的数量可以为100,且在这些语音文件中,识别结果为有效的占91,则待测设备在目标收音角度下的语音识别准确率为91%。
相似的,当要确定播音源处于某一位置范围时待测设备的语音识别准确率(即待测设备在目标收音角度范围下的语音识别准确率)时,可以根据所有收音角度在此范围内的语音文件的识别结果,确定语音识别准确率。示例性的,目标收音角度范围为30°至150°,则收音角度在此范围内的语音文件的数量可以为100,且在这些语音文件中,识别结果为有效的占90,则待测设备在目标收音角度范围下的语音识别准确率为90%。
当然,若要确定待测设备总体的语音识别准确率,则可以根据所有语音文件的识别结果进行确定,例如,语音文件的数量可以为100,且在这些语音文件中,识别结果为有效的占89,则待测设备总体的语音识别准确率为89%。
在一实施例中,测试设备可以通过TCP(Transmission Control Protocol)/UDP(User Datagram Protocol)协议与待测设备建立连接。可理解,在进行批量测试时,测试设备与待测设备之间的数据传输可以不需要第三方设备(例如第三方服务器)的参与,因此测试设备可以通过TCP/UDP协议与各个待测设备建立连接,如此,测试设备与待测设备之间可以基于TCP/UDP协议进行数据传输,例如,测试设备基于TCP/UDP协议将多个过程语音文件发送给待测设备。由此可知,基于TCP/UDP协议进行的数据传输,可以确保批量测试过程中数据传输的安全性。
结合前文论述可知,本申请实施例提供的语音识别测试方法,包括:获取测试文件,该测试文件包括多个基于不同收音角度生成的语音文件、以及各语音文件对应的收音角度和标准文本;将多个语音文件发送给多个待测设备,并指示多个待测设备各自对多个语音文件进行语音识别,以使多个待测设备各自生成与多个语音文件一一对应的多个识别文本;获取多个待测设备各自生成的多个识别文本;将对应同一语音文件的识别文本与标准文本进行文本比对,确定多个待测设备各自对各语音文件的识别结果;根据多个待测设备各自对多个语音文件的识别结果,确定多个待测设备各自的语音识别准确率。由此可知,在进行批量测试时,测试设备可以将多个语音文件发送给多个待测设备,进而确定各个待测设备的语音识别准确率,可理解,多个语音文件是基于不同收音角度生成的,则在多个语音文件的生成过程中,不仅不存在外界干扰且播音方向、收音方向也是确定的,从而提高了批量测试的准确性。
本申请实施例还提供了一种语音识别测试装置,该装置包括:
第一数据获取模块,用于获取测试文件,所述测试文件中包括多个基于不同收音角度生成的语音文件、各所述语音文件对应的收音角度、以及各所述语音文件对应的标准文本;
数据发送模块,用于将所述多个语音文件发送给多个待测设备,并指示所述多个待测设备各自对所述多个语音文件进行语音识别,以使所述多个待测设备各自生成与所述多个语音文件一一对应的多个识别文本;
第二数据获取模块,用于获取所述多个待测设备各自生成的多个识别文本;
文本比对模块,用于将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述多个待测设备各自对各所述语音文件的识别结果;
结果确定模块,用于根据所述多个待测设备各自对多个语音文件的识别结果,确定所述待测设备的语音识别准确率。
上述方案的具体实施参见前文论述,此处不再赘述。
本申请实施例还提供了一种测试设备,如图5所示,所述测试设备包括处理器与存储器,所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现本申请实施例提供的任一项语音识别测试方法。
应当理解的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),所述处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器实现本申请实施例提供的任一项语音识别测试方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
示例性的,所述计算机可读存储介质可以是前述实施例所述的测试设备的内部存储单元,例如所述测试设备的硬盘或内存。所述计算机可读存储介质也可以是所述测试设备的外部存储设备,例如所述计算机终端上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音识别测试方法,其特征在于,用于测试设备,所述方法包括:
获取测试文件,所述测试文件中包括多个基于不同收音角度生成的语音文件、各所述语音文件对应的收音角度、以及各所述语音文件对应的标准文本;
将所述多个语音文件发送给多个待测设备,并指示所述多个待测设备各自对所述多个语音文件进行语音识别,以使所述多个待测设备各自生成与所述多个语音文件一一对应的多个识别文本;
获取所述多个待测设备各自生成的多个识别文本;
将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述多个待测设备各自对各所述语音文件的识别结果;
根据所述多个待测设备各自对多个语音文件的识别结果,确定所述多个待测设备各自的语音识别准确率。
2.根据权利要求1所述的方法,其特征在于,所述将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述待测设备对所述语音文件的识别结果,包括:
确定所述识别文本的文本内容与所述标准文本的文本内容是否一致;
若一致,则确定所述待测设备对所述语音文件的识别结果为有效。
3.根据权利要求2所述的方法,其特征在于,所述将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述待测设备对所述语音文件的识别结果,还包括:
若确定所述识别文本的文本内容与所述标准文本的文本内容不一致,则确定所述识别文本的文本内容与所述标准文本的文本内容之间的相似度;
若所述相似度大于或等于预设阈值,则确定所述待测设备对所述语音文件的识别结果为有效;
若所述相似度小于所述预设阈值,则确定所述待测设备对所述语音文件的识别结果为无效。
4.根据权利要求3所述的方法,其特征在于,所述确定所述识别文本的文本内容与所述标准文本的文本内容之间的相似度,包括:
将所述识别文本转化为第一句子向量;
将所述标准文本转化为第二句子向量;
基于所述第一句子向量和所述第二句子向量确定余弦角度距离值,并将所述余弦角度距离值作为所述相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待测设备对多个语音文件的识别结果,确定所述待测设备的语音识别准确率,包括以下至少一种:
根据对应同一收音角度的多个语音文件的识别结果,确定所述待测设备在所述收音角度下的语音识别准确率;
根据对应预设收音角度范围的多个语音文件的识别结果,确定所述待测设备在所述收音角度范围下的语音识别准确率;以及
根据所有语音文件的识别结果,确定所述待测设备总体的语音识别准确率。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述多个语音文件是目标设备在不同收音角度下接收自然语音生成的,所述目标设备是所述多个待测设备中的一个。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述测试设备通过TCP/UDP协议与所述待测设备建立连接。
8.一种语音识别测试装置,其特征在于,包括:
第一数据获取模块,用于获取测试文件,所述测试文件中包括多个基于不同收音角度生成的语音文件、各所述语音文件对应的收音角度、以及各所述语音文件对应的标准文本;
数据发送模块,用于将所述多个语音文件发送给多个待测设备,并指示所述多个待测设备各自对所述多个语音文件进行语音识别,以使所述多个待测设备各自生成与所述多个语音文件一一对应的多个识别文本;
第二数据获取模块,用于获取所述多个待测设备各自生成的多个识别文本;
文本比对模块,用于将对应同一语音文件的识别文本与标准文本进行文本比对,确定所述多个待测设备各自对各所述语音文件的识别结果;
结果确定模块,用于根据所述多个待测设备各自对多个语音文件的识别结果,确定所述待测设备的语音识别准确率。
9.一种测试设备,其特征在于,包括处理器与存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的语音识别测试方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语音识别测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706771.2A CN113450767A (zh) | 2021-06-24 | 2021-06-24 | 语音识别测试方法、装置、测试设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706771.2A CN113450767A (zh) | 2021-06-24 | 2021-06-24 | 语音识别测试方法、装置、测试设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113450767A true CN113450767A (zh) | 2021-09-28 |
Family
ID=77812607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110706771.2A Pending CN113450767A (zh) | 2021-06-24 | 2021-06-24 | 语音识别测试方法、装置、测试设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450767A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN107221319A (zh) * | 2017-05-16 | 2017-09-29 | 厦门盈趣科技股份有限公司 | 一种语音识别测试系统和方法 |
CN108206981A (zh) * | 2017-12-29 | 2018-06-26 | 歌尔科技有限公司 | 拾音测试方法及设备 |
US20180268808A1 (en) * | 2015-10-21 | 2018-09-20 | Samsung Electronics Co., Ltd. | Electronic apparatus, speech recognition method thereof, and non-transitory computer readable recording medium |
CN111369976A (zh) * | 2018-12-25 | 2020-07-03 | 华为技术有限公司 | 测试语音识别设备的方法及测试装置 |
CN111899740A (zh) * | 2020-07-23 | 2020-11-06 | 深圳慕智科技有限公司 | 一种基于测试需求的语音识别系统众包测试用例生成方法 |
CN112151029A (zh) * | 2020-09-04 | 2020-12-29 | 深圳创维-Rgb电子有限公司 | 语音唤醒与识别自动化测试方法、存储介质及测试终端 |
-
2021
- 2021-06-24 CN CN202110706771.2A patent/CN113450767A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US20180268808A1 (en) * | 2015-10-21 | 2018-09-20 | Samsung Electronics Co., Ltd. | Electronic apparatus, speech recognition method thereof, and non-transitory computer readable recording medium |
CN107221319A (zh) * | 2017-05-16 | 2017-09-29 | 厦门盈趣科技股份有限公司 | 一种语音识别测试系统和方法 |
CN108206981A (zh) * | 2017-12-29 | 2018-06-26 | 歌尔科技有限公司 | 拾音测试方法及设备 |
CN111369976A (zh) * | 2018-12-25 | 2020-07-03 | 华为技术有限公司 | 测试语音识别设备的方法及测试装置 |
CN111899740A (zh) * | 2020-07-23 | 2020-11-06 | 深圳慕智科技有限公司 | 一种基于测试需求的语音识别系统众包测试用例生成方法 |
CN112151029A (zh) * | 2020-09-04 | 2020-12-29 | 深圳创维-Rgb电子有限公司 | 语音唤醒与识别自动化测试方法、存储介质及测试终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10193772B1 (en) | User behavior analyzer | |
US20200312315A1 (en) | Acoustic environment aware stream selection for multi-stream speech recognition | |
CN112202908B (zh) | 一种设备与账号的关联方法、装置、电子设备及系统 | |
CN107909998B (zh) | 语音指令处理方法、装置、计算机设备和存储介质 | |
KR20190024762A (ko) | 음악추천방법, 장치, 디바이스 및 저장매체 | |
CN111309883A (zh) | 基于人工智能的人机对话方法、模型训练方法及装置 | |
CN110400572B (zh) | 音频增强方法及系统 | |
CN111798852A (zh) | 语音唤醒识别性能测试方法、装置、系统及终端设备 | |
US20200193979A1 (en) | Method and apparatus for recognizing voice | |
CN108521612B (zh) | 视频摘要的生成方法、装置、服务器及存储介质 | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112735381B (zh) | 一种模型更新方法及装置 | |
CN110418181B (zh) | 对智能电视的业务处理方法、装置、智能设备及存储介质 | |
CN107437967A (zh) | 基于声波的数据传输方法、发送设备和接收设备 | |
CN111653284A (zh) | 交互以及识别方法、装置、终端设备及计算机存储介质 | |
CN111225114A (zh) | 拨测方法、装置、计算机设备及存储介质 | |
CN113450767A (zh) | 语音识别测试方法、装置、测试设备及存储介质 | |
CN111951808B (zh) | 语音交互方法、装置、终端设备及介质 | |
CN117278156B (zh) | 信道仿真方法、装置、存储介质及电子设备 | |
CN112201227A (zh) | 语音样本生成方法及装置、存储介质、电子装置 | |
CN108766448B (zh) | 混音测试系统、方法、装置及存储介质 | |
CN114329042B (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114333861B (zh) | 音频处理方法、装置、存储介质、设备及产品 | |
CN112331192B (zh) | 音频数据的处理方法、终端设备及计算机可读存储介质 | |
CN115456014A (zh) | 一种控制器识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210928 |
|
RJ01 | Rejection of invention patent application after publication |