CN118918891B - 一种基于声音识别的浴霸开关控制方法及系统 - Google Patents
一种基于声音识别的浴霸开关控制方法及系统 Download PDFInfo
- Publication number
- CN118918891B CN118918891B CN202410928695.3A CN202410928695A CN118918891B CN 118918891 B CN118918891 B CN 118918891B CN 202410928695 A CN202410928695 A CN 202410928695A CN 118918891 B CN118918891 B CN 118918891B
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- recognized
- speech
- time point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24D—DOMESTIC- OR SPACE-HEATING SYSTEMS, e.g. CENTRAL HEATING SYSTEMS; DOMESTIC HOT-WATER SUPPLY SYSTEMS; ELEMENTS OR COMPONENTS THEREFOR
- F24D19/00—Details
- F24D19/10—Arrangement or mounting of control or safety devices
- F24D19/1096—Arrangement or mounting of control or safety devices for electric heating systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Thermal Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Bathtub Accessories (AREA)
Abstract
本发明涉及语音识别技术领域,更具体涉及一种基于声音识别的浴霸开关控制方法及系统。该方法包括:步骤S1:在实时声音包括预设频率范围的声音时,收集实时语音;步骤S2:获取目标语音的第一曲线,基于第一曲线通过均值滤波获取第二曲线,获取目标语音的起始时间点和结束时间点,获取目标语音中的语音时间段,将语音时间段中间隔时间段删除,获取待识别语音;步骤S3:提取用户的语音特征和语速,生成多个设定控制内容的参考语音;步骤S4:通过语音模型输出待识别语音与多个参考语音的近似度,获取待识别语音的识别结果;步骤S5:基于控制内容控制浴霸的开关操作。本发明解决了语音识别精度不高的问题,提高了语音识别精度。
Description
技术领域
本发明涉及语音识别技术领域,更具体涉及一种基于声音识别的浴霸开关控制方法及系统。
背景技术
随着语音识别技术和浴霸产品的智能化发展,用户可以通过简单的语音指令轻松操控浴霸,无需手动按键,既方便又高效,但是由于浴室噪声比较大,在获取语音信号时,精度不够,例如:中国专利CN112786038A,该发明属于语音控制技术领域,具体涉及一种洗浴系统的语音控制方法、装置、服务器及洗浴系统,旨在解决现有洗浴系统语音控制灵活性差的问题,提供的洗浴系统的语音控制方法包括:获取语音预约信号;根据所述语音预约信号确定洗浴时间和洗浴场景;当所述洗浴场景为预设洗浴场景时,根据所述预设洗浴场景和洗浴时间生成所述洗浴系统的控制指令,以根据所述控制指令控制所述洗浴系统,实现了根据用户语音预约信号对应的不同洗浴场景,对洗浴系统进行不同的参数控制,提高了洗浴系统语音控制的灵活性,提高了用户洗浴的舒适性。还例如:美国专利US10379507B2,公开了一种语音控制型洗浴系统及其操作方法。语音控制式洗浴系统用于按摩浴设备,包括至少一个用于致动按摩浴设备的附接设备,用于接收至少一个语音信号的语音接收单元,用于分析至少一种语音的语音分析模块产生至少一个控制命令的信号;主控制装置,其用于根据所述至少一个控制命令控制所述至少一个附接设备以致动所述按摩浴设备和/或用于根据所述至少一个控制命令来控制所述至少一个附接设备的致动。上述两篇专利都实现了通过语音控制浴霸的功能,但是,语音识别的精度不高,而且不能准确的识别语音的起始时间和结束时间,不能够连续获取完整的语音信息,从而降低了语音信号识别精度。
发明内容
为了更好的解决上述问题,本发明提供一种基于声音识别的浴霸开关控制方法,所述方法包括如下步骤:
步骤S1:通过声音检测单元实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音保存至存储单元;
步骤S2:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
步骤S3:从所述待识别语音中提取用户的语音特征和语速,通过参照生成单元生成与所述用户的所述语音特征和所述语速相同的多个设定内容的参考语音;
步骤S4:将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于近似最高的所述参考语音的控制内容获取所述识别语音的识别结果;
步骤S5:基于所述控制内容控制目标浴霸的操作。
作为本发明的一种优选技术方案,所述步骤S1中,所述实时声音包括背景噪声,所述预设频率范围为人的声音频率范围,将所述实时语音进行去噪包括将所述实时语音中的所述背景噪声滤掉,其中,人的所述声音频率范围与所述背景噪声的频率不同。
作为本发明的一种优选技术方案,所述步骤S2包括如下步骤:
步骤S21:基于所述目标语音按照时间顺序划分为多个第一时间段,判断在每一所述第一时间段内的语音状态,在第一时间段内检测到所述预设频率范围的声音时,所述第一时间段内对应的所述语音状态值设置为第一阈值,反之,所述语音状态值设置为第二阈值,将全部所述第一时间段的所述语音状态值连接获取所述第一曲线;
步骤S22:将所述第一曲线以预设窗口进行均值滤波获取所述第二曲线,并将所述第二曲线中对应数值由小于第一设定阈值变为大于等于所述第一设定阈值的时间点作为第一时间点,并将所述第一时间点之前最近的拐点作为所述起始时间点,所述拐点为所述数值变化趋势由不变或者变小到变大的点,将所述起始时间点之后所述数值从大于等于第二设定阈值变为小于所述第二设定阈值的时间点作为第二时间点,在所述第二时间点之后所述数值持续至少预设时间小于所述第二设定阈值时,所述第二时间点为所述结束时间点,否则,所述第二时间点为间隔时间点,其中,所述第一设定阈值大于所述第二设定阈值;
步骤S23:获取所述间隔时间点之前最近的所述数值由增大趋势变为减小趋势的第三时间点,将所述第二时间点和所述间隔时间点之间的时间段作为间隔时间段,将所述目标语音中对应多个所述间隔时间段的第二语音删除,获取所述待识别语音,其中,每一所述时间段的时长相同。
作为本发明的一种优选技术方案,所述步骤S2还包括所述第一时间段的时长小于等于所述待识别语音中单位语素的最小时长,所述均值滤波器的窗口为N个所述第一时间段的时长,其中N的取值为大于等于2小于等于5的正整数。
作为本发明的一种优选技术方案,所述步骤S3包括:
从所述待识别语音中提取出所述用户的语音特征和语速,其中,所述语音特征包括用户的音色、语音频率和音强;通过所述参照生成单元基于多个所述设定内容和所述用户的所述语音特征和所述语速生成多个所述参考语音。
作为本发明的一种优选技术方案,所述步骤S4包括如下步骤:
步骤S41:将所述待识别语音和多个所述参考语音输入所述语音模型,其中所述语音模型为经过训练的机器学习模型;
步骤S42:所述语音模型输出所述待识别语音与每一所述参考语音的相似度,并将所述相似度最高且所述相似度大于设定阈值的所述参考语音对应的所述控制内容作为所述待识别语音的识别结果。
作为本发明的一种优选技术方案,所述步骤S4还包括:在所述待识别语音与多个所述参考语音的相似度都小于设定相似度,或者至少两个所述参考语音与所述待识别语音的所述相似度差值大于等于所述设定相似度且两者差值小于等于设定差值时,重复所述步骤S2的方法,并调整所述均值滤波的窗口重新获取所述待识别语音。
作为本发明的一种优选技术方案,所述步骤S5还包括:将所述控制内容与当前所述目标浴霸的状态进行对比,在所述控制内容与所述目标浴霸的状态冲突时,提示用户重新发出语音指令。
本发明一种基于声音识别的浴霸开关控制系统,所述系统用于实现上述的方法,其特征在于,所述系统包括:
声音检测单元,用于实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音;
所述存储单元,用于保存所述目标语音;
处理单元配置为:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
参照生成单元,用于从所述待识别语音中提取用户的语音特征和语速,生成与所述用户的所述语音特征和所述语速相同的多个设定内容的参考语音;
识别单元,用于将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于近似最高的所述参考语音的控制内容获取所述识别语音的识别结果;
执行单元,用于基于所述控制内容控制目标浴霸的操作。
本发明还提供一种计算机存储介质,所述存储介质存储有程序指令,其中在所述程序指令运行时控制所述存储介质所在设备执行上述的方法。
与现有技术相比,本发明的有益效果至少如下所述:
本发明通过声音检测单元实时检测目标区域中的实时语音,并进行去噪后获取目标语音,将上述目标语音划分为多个时长相等的第一时间段,获取上述目标语音中每一上述第一时间段内的语音状态,并根据每一上述第一时间段的语音状态设置语音状态值,将上述目标语音状态进行量化,并获取上述目标语音对应语音状态的第一曲线,上述第一曲线反映了语音时间和间隔时间的分布状态,通将上述第一曲线以上述预设窗口进行均值滤波获取上述第二曲线,能够更加准确的获取上述待识别语音的起始时间点和结束时间点,从而提高上述待识别语音的识别精度,由于间隔时间段持续时间较长,影响上述目标语音的连续性,因此,通过将上述间隔时间段对应的第二语音从目标语音中删除,从而获取连续的上述待识别语音,提高了上述待识别语音的识别精度,又由于每个用户的语音特征和语速不同,不能用同一参考语音来识别不同用户的语音,因此,通过从用户的上述待识别语音中提取出上述用户的语音特征和语速,生成基于上述用户的语音特征和语速及多个设定控制内容的多个上述参考语音,通过将上述待识别语音和多个参考语音输入上述语音模型,输出上述待识别语音与每一上述参考语音的相似度,并将相似度最高且大于设定阈值的上述参考语音对应的控制内容作为上述待识别语音的控制内容,在通过上述语音模型输出上述待识别语音与多个上述参考语音的相似度,在上述待识别语音与多个上述参考语音的相似度都小于上述设定相似度时,或者与两个上述参考语音的相似度都比较大时,可能是上述均值滤波的窗口大小设置不合适,使得上述待识别语音不够完整或者不够准确,因此,重复上述步骤S2,通过调整上述均值滤波的窗口大小,重新获取上述待识别语音,并重新识别上述重新获取的上述待识别语音,通过上述技术方案相互配合,提高了语音识别的精度。
附图说明
图1为本发明一种基于声音识别的浴霸开关控制方法流程图;
图2为本发明一种基于声音识别的浴霸开关控制系统结构图;
图3为本发明实施例第一曲线和第二曲线示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于声音识别的浴霸开关控制方法,如图1所示,所述方法包括如下步骤:
步骤S1:通过声音检测单元实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音保存至存储单元;
具体地,通过上述声音检测单元实时检测上述目标区域中的实时声音,上述目标区域可以为浴室,浴室的声音主要为水流声和人说话声,其中,水流声和人说话声的频率不同,在上述实时声音包括上述预设频率范围的上述目标声音时,上述预设频率范围为人说话声音频率,即检测到有人说话的声音且声强大于设定声强时,将上述实时语音去噪后作为上述目标语音,并保存至上述存储单元,便于通过进一步处理获取待识别语音。
步骤S2:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
具体地,通过将上述目标语音划分为多个时长相等的第一时间段,获取上述目标语音中每一上述第一时间段内的语音状态,并根据每一上述第一时间段的语音状态设置语音状态值,将上述目标语音状态进行量化,并获取上述目标语音对应语音状态的第一曲线,上述第一曲线反映了语音时间和间隔时间的分布状态,为获取语音的起始时间点和结束时间点奠定基础,通将上述第一曲线以上述预设窗口进行均值滤波,将上述第一曲线的方波波形平滑处理并获取上述第二曲线,如图3所示,其中,实线方波为上述第一曲线,虚线为上述第二曲线,其中上述t1时刻对应时间点为上述第一时间点,t0时刻为上述拐点,虽然t1时刻的数值大于上述第一设定阈值,其中所述第一设定阈值的取值大于等于上述第一阈值与第二阈值差值的1/2,由于t1时刻的上述数值是在t0时刻之后开始累积的,因此t0时刻才是真正的语音起始时间点,图3中t5时刻和t3时刻都为上述第二时间点,由于上述t5时刻之后上述数值持续小于上述第二设定阈值,且持续时间大于上述预设时间,因此,上述t5时刻为结束时间点,由于t3时刻之后上述数值持续小于上述第二设定阈值的时长小于上述预设时间,因此上述t3时刻为间隔时间点,通过上述技术方案,能够更加准确的获取上述待识别语音的起始时间点和结束时间点,从而提高上述待识别语音的识别精度,t3时刻为上述间隔时间点,t2时刻为上述第三时间点,t2时刻和t3时刻之间的时间段为上述间隔时间段,由于间隔时间段持续时间较长,影响上述目标语音的连续性,因此,通过将上述间隔时间段对应的第二语音从目标语音中删除,从而获取连续的上述待识别语音,提高了上述待识别语音的识别精度。
步骤S3:从所述待识别语音中提取用户的语音特征和语速,通过参照生成单元生成与所述用户的所述语音特征和所述语速相同的多个设定控制内容的参考语音;
具体地,由于每个用户的语音特征和语速不同,不能用同一参考语音来识别不同用户的语音,因此,通过从用户的上述待识别语音中提取出上述用户的语音特征和语速,其中上述语音特征包括用户的音色、语音频率和音强,生成单元基于上述用户的语音特征和语速及多个设定控制内容生成多个上述参考语音,为基于上述参考语音准确识别上述待识别语音奠定基础。
步骤S4:将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于所述近似度获取所述识别语音的控制内容;
具体地,将上述待识别语音和多个参考语音输入上述语音模型,其中上述语音模型为经过训练的机器学习模型,并且机器学习模型的训练为现有技术在此不再赘述,上述语音模型可以输出上述待识别语音与每一上述参考语音的相似度,并将相似度最高且大于设定阈值的上述参考语音对应的控制内容作为上述待识别语音的控制内容,通过上述技术方案,可以精准的识别上述待识别语音对应的上述控制内容。
步骤S5:基于所述控制内容控制目标浴霸的操作。
具体地,通过上述控制内容控制上述目标浴霸的操作,从而实现免手动操作。
进一步地,所述步骤S1中,所述实时声音包括背景噪声,所述预设频率范围为人的声音频率范围,将所述实时语音进行去噪包括将所述实时语音中的所述背景噪声滤掉,其中,人的所述声音频率范围与所述背景噪声的频率不同。
具体地,由于浴室内可能会有水流声即背景噪声和人说话声音即上述预设频率范围内的声音,通过将上述背景噪声滤除保留上述人的说话声即目标语音,为通过将上述目标语音经过处理获取精准的控制内容奠定基础。
进一步地,所述步骤S2包括如下步骤:
步骤S21:从所述存储单元中读取所述目标语音,并基于所述目标语音按照时间顺序划分为多个第一时间段,判断在每一所述第一时间段内的语音状态,在第一时间段内检测到所述预设频率范围的声音时,所述第一时间段内对应的所述语音状态值设置为第一阈值,反之,所述语音状态值设置为第二阈值,将全部所述第一时间段的所述语音状态值连接获取所述第一曲线;
具体地,通过获取上述目标语音中每一上述第一时间段内的语音状态,并根据每一上述第一时间段的语音状态设置语音状态值,在上述第一时间段内有人的声音时,对应的上述语音状态值设为第一阈值,第一阈值为大于0的正整数,反之,在上述第一时间段内没有人的声音时,对应的语音状态值设置为第二阈值,第二阈值为0,通过上述技术方案,将上述目标语音状态进行量化,并获取上述目标语音对应语音状态的第一曲线,上述第一曲线反映了语音时间和间隔时间的分布状态,为获取语音的起始时间点和结束时间点奠定基础。
步骤S22:将所述第一曲线以预设窗口进行均值滤波获取所述第二曲线,并将所述第二曲线中对应数值由小于第一设定阈值变为大于等于所述第一设定阈值的时间点作为第一时间点,并将所述第一时间点之前最近的拐点作为所述起始时间点,所述拐点为所述数值变化趋势由不变或者变小到变大的点,将所述起始时间点之后所述数值从大于等于第二设定阈值变为小于所述第二设定阈值的时间点作为第二时间点,在所述第二时间点之后所述数值持续至少预设时间小于所述第二设定阈值时,所述第二时间点为所述结束时间点,否则,所述第二时间点为间隔时间点,其中,所述第一设定阈值大于所述第二设定阈值;
具体地,通过将上述第一曲线以上述预设窗口进行均值滤波,将上述第一曲线的方波波形平滑处理并获取上述第二曲线,如图3所示,其中,实线方波为上述第一曲线,虚线为上述第二曲线,其中上述t1时刻对应时间点为上述第一时间点,t0时刻为上述拐点,虽然t1时刻的数值大于上述第一设定阈值,其中所述第一设定阈值的取值大于等于上述第一阈值与第二阈值差值的1/2,由于t1时刻的上述数值是在t0时刻之后开始累积的,因此t0时刻才是真正的语音起始时间点,图3中t5时刻和t3时刻都为上述第二时间点,由于上述t5时刻之后上述数值持续小于上述第二设定阈值,且持续时间大于上述预设时间,因此,上述t5时刻为结束时间点,由于t3时刻之后上述数值持续小于上述第二设定阈值的时长小于上述预设时间,因此上述t3时刻为间隔时间点,通过上述技术方案,能够更加准确的获取上述待识别语音的起始时间点和结束时间点,从而提高上述待识别语音的识别精度。
步骤S23:获取所述间隔时间点之前最近的所述数值由增大趋势变为减小趋势的第三时间点,将所述第二时间点和所述间隔时间点之间的时间段作为间隔时间段,将所述目标语音中对应多个所述间隔时间段的第二语音删除,获取所述待识别语音,其中,每一所述时间段的时长相同。
具体地,在图3中,t3时刻为上述间隔时间点,t2时刻为上述第三时间点,t2时刻和t3时刻之间的时间段为上述间隔时间段,由于该间隔时间段持续时间较长,影响上述目标语音的连续性,因此,通过将上述间隔时间段从上述间隔时间段对应的第二语音删除,从而获取连续的上述待识别语音,提高了上述待识别语音的识别精度。
进一步地,所述步骤S2还包括:所述第一时间段的时长小于等于所述待识别语音中单位语素的最小时长,所述均值滤波器的窗口为N个所述第一时间段的时长,其中N的取值为大于等于2小于等于5的正整数。
具体地,通过上述第一时间段的设置能够准确的获取上述待识别语音中每一时间点的语音状态,进而获取较准确的上述第一曲线,还通过设置上述均值滤波器的窗口,并基于上述第一曲线获取平滑第二曲线,为提取较准确的上述目标语音的起始时间点和结束时间点奠定基础,从而获取准确的待识别语音,进而提高上述待识别语音的识别精度。
进一步地,所述步骤S3包括:
从所述待识别语音中提取出所述用户的语音特征和语速,其中,所述语音特征包括用户的音色、语音频率和音强;通过所述参照生成单元基于多个所述设定控制内容和所述用户的所述语音特征和所述语速生成多个所述参考语音。
具体地,由于每个用户的语音特征和语速不同,不能用同一参考语音来识别不同用户的语音,因此,通过从用户的上述待识别语音中提取出上述用户的语音特征和语速,参照生成单元基于上述用户的语音特征和语速及多个设定控制内容生成多个上述参考语音,为根据上述参考语音准确识别上述待识别语音奠定基础。
进一步地,所述步骤S4包括如下步骤:
步骤S41:将所述待识别语音和多个所述参考语音输入所述语音模型,其中所述语音模型为经过训练的机器学习模型;
步骤S42:所述语音模型输出所述待识别语音与每一所述参考语音的相似度,并将所述相似度最高且所述相似度大于设定相似度的所述参考语音对应的所述控制内容作为所述待识别语音的识别结果。
具体地,将上述待识别语音和多个参考语音输入上述语音模型,其中上述语音模型为经过训练的机器学习模型,上述语音模型可以输出上述待识别语音与每一上述参考语音的相似度,并将相似度最高且大于相似度的上述参考语音对应的控制内容作为上述待识别语音的控制内容,通过上述技术方案,可以精准的识别上述待识别语音对应的上述控制内容,从而提高识别精度。
进一步地,所述步骤S4还包括:在所述待识别语音与多个所述参考语音的所述相似度都小于设定相似度,或者至少两个所述参考语音与所述待识别语音的所述相似度差值大于等于所述设定相似度且两者差值小于等于设定差值时,重复所述步骤S2的方法,并调整所述均值滤波的窗口重新获取所述待识别语音。
具体地,在通过上述语音模型输出上述待识别语音与多个上述参考语音的相似度,在上述待识别语音与多个上述参考语音的相似度都小于上述设定相似度时,或者与两个上述参考语音的相似度都比较大时,可能是上述均值滤波的窗口大小设置不合适,使得上述待识别语音不够完整或者不够准确,因此,重复上述步骤S2,通过调整上述均值滤波的窗口大小,增大M个上述第一时间段或者减小M个上述第一时间段作为新的上述均值滤波窗口,M为大于等于1小于等于3的正整数,其中,上述第一时间段为上述第一曲线的判断时间单元,重新获取上述待识别语音,并重新识别上述重新获取的上述待识别语音,从而提高识别精度。
进一步地,所述步骤S5还包括:将所述控制内容与当前所述目标浴霸的状态进行对比,在所述控制内容与所述目标浴霸的状态冲突时,提示用户重新发出语音指令。
具体地,通过将上述待识别语音识别出来的上述控制内容与上述目标浴霸的状态进行比较,例如:浴霸处于开启状态,上述控制内容也为开启指令时,通过语音提示用户重新发出语音指令。
本发明还提供一种基于声音识别的浴霸开关控制系统,所述系统用于实现上述的方法,如图2所示,所述系统包括:
声音检测单元,用于实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音;
所述存储单元,用于保存所述目标语音;
处理单元配置为:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
参照生成单元,用于从所述待识别语音中提取用户的语音特征和语速,生成与所述用户的所述语音特征和所述语速相同的多个设定内容的参考语音;
识别单元,用于将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于近似最高的所述参考语音的控制内容获取所述识别语音的识别结果;
执行单元,用于基于所述控制内容控制目标浴霸的操作。
本发明还提供一种计算机存储介质,所述存储介质存储有程序指令,其中在所述程序指令运行时控制所述存储介质所在设备执行上述的方法。
综上所述,本发明通过声音检测单元实时检测目标区域中的实时语音,并进行去噪后获取目标语音,将上述目标语音划分为多个时长相等的第一时间段,获取上述目标语音中每一上述第一时间段内的语音状态,并根据每一上述第一时间段的语音状态设置语音状态值,将上述目标语音状态进行量化,并获取上述目标语音对应语音状态的第一曲线,上述第一曲线反映了语音时间和间隔时间的分布状态,通将上述第一曲线以上述预设窗口进行均值滤波获取上述第二曲线,能够更加准确的获取上述待识别语音的起始时间点和结束时间点,从而提高上述待识别语音的识别精度,由于间隔时间段持续时间较长,影响上述目标语音的连续性,因此,通过将上述间隔时间段对应的第二语音从目标语音中删除,从而获取连续的上述待识别语音,提高了上述待识别语音的识别精度,又由于每个用户的语音特征和语速不同,不能用同一参考语音来识别不同用户的语音,因此,通过从用户的上述待识别语音中提取出上述用户的语音特征和语速,生成基于上述用户的语音特征和语速及多个设定控制内容的多个上述参考语音,通过将上述待识别语音和多个参考语音输入上述语音模型,输出上述待识别语音与每一上述参考语音的相似度,并将相似度最高且大于设定阈值的上述参考语音对应的控制内容作为上述待识别语音的控制内容,在通过上述语音模型输出上述待识别语音与多个上述参考语音的相似度,在上述待识别语音与多个上述参考语音的相似度都小于上述设定相似度时,或者与两个上述参考语音的相似度都比较大时,可能是上述均值滤波的窗口大小设置不合适,使得上述待识别语音不够完整或者不够准确,因此,重复上述步骤S2,通过调整上述均值滤波的窗口大小,重新获取上述待识别语音,并重新识别上述重新获取的上述待识别语音,通过上述技术方案相互配合,提高了语音识别的精度。
以上上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于声音识别的浴霸开关控制方法,其特征在于,所述方法包括如下步骤:
步骤S1:通过声音检测单元实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音保存至存储单元;
步骤S2:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
步骤S3:从所述待识别语音中提取用户的语音特征和语速,通过参照生成单元生成与所述用户的所述语音特征和所述语速相同的多个设定内容的参考语音;
步骤S4:将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于近似最高的所述参考语音的控制内容获取所述识别语音的识别结果;
步骤S5:基于所述控制内容控制目标浴霸的操作;
其中,所述步骤S2包括如下步骤:
步骤S21:基于所述目标语音按照时间顺序划分为多个第一时间段,判断在每一所述第一时间段内的语音状态,在第一时间段内检测到所述预设频率范围的声音时,所述第一时间段内对应的所述语音状态值设置为第一阈值,反之,所述语音状态值设置为第二阈值,将全部所述第一时间段的所述语音状态值连接获取所述第一曲线;
步骤S22:将所述第一曲线以预设窗口进行均值滤波获取所述第二曲线,并将所述第二曲线中对应数值由小于第一设定阈值变为大于等于所述第一设定阈值的时间点作为第一时间点,并将所述第一时间点之前最近的拐点作为所述起始时间点,所述拐点为所述数值变化趋势由不变或者变小到变大的点,将所述起始时间点之后所述数值从大于等于第二设定阈值变为小于所述第二设定阈值的时间点作为第二时间点,在所述第二时间点之后所述数值持续至少预设时间小于所述第二设定阈值时,所述第二时间点为所述结束时间点,否则,所述第二时间点为间隔时间点,其中,所述第一设定阈值大于所述第二设定阈值;
步骤S23:获取所述间隔时间点之前最近的所述数值由增大趋势变为减小趋势的第三时间点,将所述第二时间点和所述间隔时间点之间的时间段作为间隔时间段,将所述目标语音中对应多个所述间隔时间段的第二语音删除,获取所述待识别语音,其中,每一所述时间段的时长相同。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,所述实时声音包括背景噪声,所述预设频率范围为人的声音频率范围,将所述实时语音进行去噪包括将所述实时语音中的所述背景噪声滤掉,其中,人的所述声音频率范围与所述背景噪声的频率不同。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2还包括所述第一时间段的时长小于等于所述待识别语音中单位语素的最小时长,均值滤波器的窗口为N个所述第一时间段的时长,其中N的取值为大于等于2小于等于5的正整数。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
从所述待识别语音中提取出所述用户的语音特征和语速,其中,所述语音特征包括用户的音色、语音频率和音强;通过所述参照生成单元基于多个所述设定内容和所述用户的所述语音特征和所述语速生成多个所述参考语音。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4包括如下步骤:
步骤S41:将所述待识别语音和多个所述参考语音输入所述语音模型,其中所述语音模型为经过训练的机器学习模型;
步骤S42:所述语音模型输出所述待识别语音与每一所述参考语音的相似度,并将所述相似度最高且所述相似度大于设定阈值的所述参考语音对应的所述控制内容作为所述待识别语音的识别结果。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4还包括:在所述待识别语音与多个所述参考语音的相似度都小于设定相似度,或者至少两个所述参考语音与所述待识别语音的所述相似度差值大于等于所述设定相似度且两者差值小于等于设定差值时,重复所述步骤S2的方法,并调整所述均值滤波的窗口重新获取所述待识别语音。
7.根据权利要求1所述的方法,其特征在于,所述步骤S5还包括:将所述控制内容与当前所述目标浴霸的状态进行对比,在所述控制内容与所述目标浴霸的状态冲突时,提示用户重新发出语音指令。
8.一种基于声音识别的浴霸开关控制系统,所述系统用于实现如权利要求1-7任一项所述的方法,其特征在于,所述系统包括:
声音检测单元,用于实时检测目标区域内的实时声音,在所述实时声音包括预设频率范围的声音且所述实时声音的声强大于设定声强时,收集所述实时声音对应的实时语音,并将所述实时语音进行去噪后作为目标语音;
所述存储单元,用于保存所述目标语音;
处理单元配置为:从所述存储单元中读取所述目标语音,并获取所述目标语音关于时间的语音状态第一曲线,基于所述第一曲线通过均值滤波获取第二曲线,通过所述第二曲线获取所述目标语音的起始时间点和结束时间点,将所述起始时间点和所述结束时间点之间的时间段作为语音时间段,获取所述语音时间段的间隔时间段,将所述目标语音中所述语音时间段内的所述间隔时间段删除,获取待识别语音;
参照生成单元,用于从所述待识别语音中提取用户的语音特征和语速,生成与所述用户的所述语音特征和所述语速相同的多个设定内容的参考语音;
识别单元,用于将所述待识别语音和多个所述参考语音输入语音模型,并通过所述语音模型输出所述待识别语音与多个所述参考语音的近似度,并基于近似最高的所述参考语音的控制内容获取所述识别语音的识别结果;
执行单元,用于基于所述控制内容控制目标浴霸的操作。
9.一种计算机存储介质,其特征在于,所述存储介质存储有程序指令,其中在所述程序指令运行时控制所述存储介质所在设备执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410928695.3A CN118918891B (zh) | 2024-07-11 | 2024-07-11 | 一种基于声音识别的浴霸开关控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410928695.3A CN118918891B (zh) | 2024-07-11 | 2024-07-11 | 一种基于声音识别的浴霸开关控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118918891A CN118918891A (zh) | 2024-11-08 |
CN118918891B true CN118918891B (zh) | 2025-03-18 |
Family
ID=93303843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410928695.3A Active CN118918891B (zh) | 2024-07-11 | 2024-07-11 | 一种基于声音识别的浴霸开关控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118918891B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078464A (zh) * | 2022-01-19 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及设备 |
CN114553639A (zh) * | 2022-02-21 | 2022-05-27 | 中国人民解放军国防科技大学 | Morse信号检测与识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
WO1987003127A1 (en) * | 1985-11-08 | 1987-05-21 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
JP5109050B2 (ja) * | 2007-07-13 | 2012-12-26 | 学校法人早稲田大学 | 音声処理装置およびプログラム |
JP2010249940A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ低減方法 |
CN106953887B (zh) * | 2017-01-05 | 2020-04-24 | 北京中瑞鸿程科技开发有限公司 | 一种细粒度电台音频内容个性化组织推荐方法 |
KR20220112596A (ko) * | 2021-02-04 | 2022-08-11 | 삼성전자주식회사 | 음성 인식을 지원하는 전자 장치 및 그 동작 방법 |
-
2024
- 2024-07-11 CN CN202410928695.3A patent/CN118918891B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078464A (zh) * | 2022-01-19 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及设备 |
CN114553639A (zh) * | 2022-02-21 | 2022-05-27 | 中国人民解放军国防科技大学 | Morse信号检测与识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118918891A (zh) | 2024-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741838B (zh) | 语音唤醒方法及装置 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
WO2018033038A1 (zh) | 一种智能机器人的用户注册方法和装置 | |
JP2019533193A (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
CN107871499B (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN109448711A (zh) | 一种语音识别的方法、装置及计算机存储介质 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN113539294A (zh) | 一种生猪异常状态声音采集及识别方法 | |
CN108847218B (zh) | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 | |
CN118918891B (zh) | 一种基于声音识别的浴霸开关控制方法及系统 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN111477226B (zh) | 控制方法、智能设备和存储介质 | |
Noh et al. | Smart home with biometric system recognition | |
CN104545890B (zh) | 一种基于心电信号的身份识别方法和装置 | |
JPH02184915A (ja) | 音声認識装置及び方法 | |
CN114550746A (zh) | 基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其存储介质 | |
WO2020220345A1 (zh) | 一种语音命令识别的方法及装置 | |
CN104217715B (zh) | 一种实时语音样本检测方法及系统 | |
CN119380715A (zh) | 一种基于语音识别的浴霸开关控制方法及系统 | |
CN113689858B (zh) | 烹饪设备的控制方法、装置、电子设备及存储介质 | |
CN117894321B (zh) | 一种语音交互方法、语音交互提示系统、装置 | |
CN116072118B (zh) | 基于语音识别的智能控制方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |