[go: up one dir, main page]

CN117612567A - 基于语音情感识别的家宽装维满意度推理方法及系统 - Google Patents

基于语音情感识别的家宽装维满意度推理方法及系统 Download PDF

Info

Publication number
CN117612567A
CN117612567A CN202310361449.XA CN202310361449A CN117612567A CN 117612567 A CN117612567 A CN 117612567A CN 202310361449 A CN202310361449 A CN 202310361449A CN 117612567 A CN117612567 A CN 117612567A
Authority
CN
China
Prior art keywords
voice
voice signal
dimension
emotion recognition
satisfaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310361449.XA
Other languages
English (en)
Inventor
陈文玉
陈小超
郑昌国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN202310361449.XA priority Critical patent/CN117612567A/zh
Publication of CN117612567A publication Critical patent/CN117612567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了基于语音情感识别的家宽装维满意度推理方法及系统,属于人工智能技术领域,要解决的技术问题为如何基于代维人员在装维过程的语音情感,分析装维过程中代维人员的服务态度以及用户满意度。包括如下步骤:对代维人员的装维过程进行实时录像,得到语音信号;对语音信号进行数据预处理;基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;对语音特征行数据降维处理,得到优化后语音特征;以情感为标签、基于随机森林方法对优化后语音特征进行分类识别,得到情感识别结果;基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标;基于情感识别结果,推测代维人员的服务态度及客户满意度。

Description

基于语音情感识别的家宽装维满意度推理方法及系统
技术领域
本发明涉及人工智能技术领域,具体地说是基于语音情感识别的家宽装维满意度推理方法及系统。
背景技术
随着经济、科技的发展,运营商都将用户满意度纳入了业务指标进行考察。针对家宽装维场景,为了提升客户对工单处理的满意度,减少后期投诉数量,已采用现场调查问卷、事后调查短信、电话回访的方式分析用户满意度,能够在一定程度上做到事中管控、事后评估。但数据采集情况具有极大不确定性,无法获取全量用户反馈数据。为此,运营商也引入AI技术,在多种场景下实现了投诉预测及投诉定界,致力于发掘重点投诉场景下的潜在问题,力争做到事前预测,提前处理,最大化减少投诉数量。然而,投诉预测定界在事中管控环节无法发挥效用,且主要应用于某一类别、范围,单场景、单用户针对性较弱。
如何基于代维人员在装维过程的语音情感,分析装维过程中代维人员的服务态度以及用户满意度,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于语音情感识别的家宽装维满意度推理方法及系统,来解决如何基于代维人员在装维过程的语音情感,分析装维过程中代维人员的服务态度以及用户满意度的技术问题。
第一方面,本发明一种基于语音情感识别的家宽装维满意度推理方法,包括如下步骤:
对代维人员的装维过程进行实时录像,得到语音信号;
对语音信号进行数据预处理,得到预处理后语音信号;
基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;
对所述语音特征行数据降维处理,得到优化后语音特征;
以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果;
基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标;
基于情感识别结果,推测代维人员的服务态度及客户满意度。
作为优选,对语音信号进行数据预处理,包括如下步骤:
预加重处理:对语音信号进行平均功率和频谱计算时,对语音信号进行预加重以减少口鼻辐射的影响;
分帧处理:将连续的语音信号分为具有一定长度的片段,得到多段语音信号帧,并利用帧移保存语音信号帧之间相关数据;
加窗处理:对每个语音信号帧加窗函数,所述窗函数包括矩形窗、汉宁窗和海明窗;
端点检测:通过语音端点检测方法识别出语音信号帧中的有声部分和静音部分,从而确定有声部分的起始时刻和终止时刻;
特征归一化:通过z归一化方法对语音信号帧中有声部分进行特征归一化;
降噪处理:通过降噪处理消除或降低语音信号中的噪声。
作为优选,基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,包括如下步骤:
通过快速傅里叶变换对预处理后的各语音信号进行倒谱计算,得到绝对值或平方值后,通过Mel滤波器组对进行快速傅里叶变换的各语音信号进行滤波,在语音信号的幅度谱上加Mel滤波器组,得到Mel滤波器的输出结果;
对Mel滤波器的全部输出结果取对数,并进行离散余弦变换,得到原始的静态MFCC参数;
对原始的静态MFCC参数进行一阶差分,再对得到的静态MFCC参数进行二阶差分,获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
作为优选,通过主成分分析方法对所述语音特征行数据降维处理,得到优化后语音特征。
作为优选,以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,包括如下步骤:
以历史语音信号对应的优化后语音特征为样本数据,对样本数据进行有放回抽取,得到多个样本集合,并从候选特征中随机选取m个特征,作为当前节点下决策可备用的特征;
将多个样本集合作为训练样本,构建决策树;
在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
在确定了所需要的决策树数量之后,通过随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
第二方面,本发明一种基于语音情感识别的家宽装维满意度推理系统,用于通过如第一方面任一项所述的基于语音情感识别的家宽装维满意度推理方法进行满意度预测,所述系统包括:
语音信号采集模块,所述语义信号采集模块用于对代维人员的装维过程进行实时录像,得到语音信号;
语音信号预处理模块,所述语音信号预处理模块用于对语音信号进行数据预处理,得到预处理后语音信号;
语音特征提取模块,所述语音特征提取模块用于基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;
语音特征优化模块,所述语音特征优化模块用于对所述语音特征行数据降维处理,得到优化后语音特征;
语音识别模块,所述语音识别模块用于以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果;
结果优化模块,所述结果优化模块用于基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标。
评价模块,所述评价模块用于基于情感识别结果,推测代维人员的服务态度及客户满意度。
作为优选,所述语音信号预处理模块用于执行如下对语音信号进行数据预处理:
预加重处理:对语音信号进行平均功率和频谱计算时,对语音信号进行预加重以减少口鼻辐射的影响;
分帧处理:将连续的语音信号分为具有一定长度的片段,得到多段语音信号帧,并利用帧移保存语音信号帧之间相关数据;
加窗处理:对每个语音信号帧加窗函数,所述窗函数包括矩形窗、汉宁窗和海明窗;
端点检测:通过语音端点检测方法识别出语音信号帧中的有声部分和静音部分,从而确定有声部分的起始时刻和终止时刻;
特征归一化:通过z归一化方法对语音信号帧中有声部分进行特征归一化;
降噪处理:通过降噪处理消除或降低语音信号中的噪声。
作为优选,所述语音特征提取模块用于执行如下基于梅尔频率倒谱系数对预处理后语音信号进行特征提取:
通过快速傅里叶变换对预处理后的各语音信号进行倒谱计算,得到绝对值或平方值后,通过Mel滤波器组对进行快速傅里叶变换的各语音信号进行滤波,在语音信号的幅度谱上加Mel滤波器组,得到Mel滤波器的输出结果;
对Mel滤波器的全部输出结果取对数,并进行离散余弦变换,得到原始的静态MFCC参数;
对原始的静态MFCC参数进行一阶差分,再对得到的静态MFCC参数进行二阶差分,获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
作为优选,所述语音特征优化模块用于通过主成分分析方法对所述语音特征行数据降维处理,得到优化后语音特征。
作为优选,所述语音识别模块用于执行如下进行分类识别:
以历史语音信号对应的优化后语音特征为样本数据,对样本数据进行有放回抽取,得到多个样本集合,并从候选特征中随机选取m个特征,作为当前节点下决策可备用的特征;
将多个样本集合作为训练样本,构建决策树;
在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
在确定了所需要的决策树数量之后,通过随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
本发明的基于语音情感识别的家宽装维满意度推理方法及系统具有以下优点:
1、通过家宽维修线程进行音频录制,通过语音信号的分析推测用户满意度,不需要分析工单,也不需通过现场二维码、短信和电话调查进行满意度调查,提升了用户体验,并节省了人力;
2、通过实时识别用户与代维人员的语音情感,分析装维过程中代维人员服务态度及用户满意度,挖掘用户投诉概率高的事件节点,相较传统满意度提升手段,本方法可针对单场景单用户,分析更精准,更具针对性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于语音情感识别的家宽装维满意度推理方法的流程框图;
图2为实施例1基于语音情感识别的家宽装维满意度推理方法中语音信号预处理流程框图;
图3为实施例1基于语音情感识别的家宽装维满意度推理方法中语音特征提取流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于语音情感识别的家宽装维满意度推理方法及系统,用于解决如何基于代维人员在装维过程的语音情感,分析装维过程中代维人员的服务态度以及用户满意度的技术问题。
实施例1:
本发明一种基于语音情感识别的家宽装维满意度推理方法,在装维过程录制中实时识别用户与代维人员的语音情感,分析装维过程中代维人员服务态度及用户满意度,引导发现可能引发用户投诉的事件节点,降低用户投诉概率。该方法包括如下步骤:
S100、对语音信号进行数据预处理,得到预处理后语音信号;
S200、基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;
S300、对所述语音特征行数据降维处理,得到优化后语音特征;
S400、以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果;
S500、基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标;
S600、基于情感识别结果,推测代维人员的服务态度及客户满意度。
本实施例步骤S100中代维人员进行现场装维时,使用代维软件上的录像功能,实时记录装维过程,得到语音数据进行后续处理。
由于录制音频存在噪声、背景音、说话间隔等干扰因素,为了实现语音信号的高提纯,适配音频数据的特征提取,通过步骤S200对语音数据进行预处理,有效防止说话人和语音数据的改变,步骤如下:
(1)预加重:语音信号的功率谱会受到口鼻辐射的一定影响,导致高频部分能量少,信噪比小,低频能量多。鉴于上述情况,对语音信号进行平均功率和频谱计算时,对语音信号进行预加重处理能够有效地解决这些问题。预加重是一种相当于高通滤波器的技术,它可以在一定程度上改善语音信号高频段的频谱值及分辨率的同时,减少低频段能量,使语音信号分布更平均,同时也使得语音的频谱更加稳定。消除口鼻的辐射影响,一般采用一阶数字滤波器来完成,见公式(1)示,μ为预加重系数,近似1,通常选取0.95或1。
(2)分帧:分帧技术是将连续的语音信号分成一定长度的片段,以减小时变性对语音信号的影响。因为信号不稳定,所以语音所包含的情绪也会随时间而改变。但是,如果时间足够短,那么该时段内的话音信号可以视为恒定,例如20至30ms。该方法对语音信号进行分帧处理,使其能够持续地接近平稳状态,从而获取到语音局部特性。此外,该方法还能利用帧移保存帧间相关数据。适当的分帧处理可以使语音中的情感信息得到更好的提取。分帧主要有交叠分帧和连续分帧两种。交叠分帧法能够保证小段语音信号的平滑。其中,帧移表示前、后两个语音帧的重叠量,通常默认为帧长的二分之一,一般为30ms的帧长和15ms的帧移。分帧主要借助窗函数来实现,其基本思想是利用窗函数对内部特定区域的采样帧进行波形强化,同时对外部波形进行衰减,类似于图像变换或矩形运算。
(3)加窗:在语音信号帧被设定后,接下来的步骤一般是对帧加窗函数。加窗函数是为了降低因信号边界不连续性而导致的快速傅立叶变换(FFT)过程中数据泄露的影响。常用的窗函数有:矩形窗、汉宁窗、海明窗。其中,矩形窗函数具有较为优越的平滑性,主瓣较窄,主频准确度较高;汉明窗的衰减速率稍快,主瓣最宽;而汉明窗的频谱泄漏量则相对较少。选取时应尽可能地使窗函数频谱的主瓣宽度窄,这样才能在频率上实现较高分辨率,为了减小频谱的拖尾,又应该尽可能地增大旁瓣的衰减。具体选取时,要综合考虑信号的种类类型和分析对象。
(4)端点检测:端点检测也叫做语音活动检测,一段语音一般可分为有声段、过渡段和静音段。发声时,声带会对声道进行周期性的刺激,刺激的强弱决定了语音所处的阶段。通过端点检测,可以识别出语音中的有声部分和静音部分,从而确定有声音频部分的起始、终止时刻。在语音情感识别中,语音信号并非完全是有声段,而是有声段、过渡段、静音段交错重叠,但只有有声段含有的数据能促进识别语音情感。因此,端点检测算法的优劣将直接影响到语音情绪识别的准确性。优良的端点检测算法能够准确地掌握动态环境中的静音段和有声段,消除静音区域,提高模型的识别精度。同时,消除语音中存在的大量的噪静音和噪音,可降低模型运算的复杂性。一般的语音端点检测算法大致可分成三类:
(a)基于阈值的端点检测
利用提取频域(MFCC、谱熵等)特征或时域(短时能量、短期过零率等)特征的方法,对门限进行合理设置,以实现语音和非语音的区分。
(b)基于分类器的端点检测
可以将语音检测看作语音和非语音的二元分类问题,从而采用机器学习的方式去训练分类器,以实现对语音的检测。
(c)基于模型的端点检测
可以以解码为基础,通过采取一个完整的声学模型,利用全局信息去判别语音段和非语音段。
(4)归一化:特征归一化是减小说话者和录音的变化的一个重要环节,运用的同时又不损失特征的识别能力,对特征归一化,可以增强特征的泛化能力。归一化可以在不同层中进行,如函数层和语料库层。惯用的归一化方法是z归一化。在平均值μ和标准差σ给定的条件下,z归一化可由公式(2)计算得出。
(5)降噪:现实生活中,噪声无处不在,在语音情感数据的采集过程中,势必会将环境中的噪声与包含情感信息的语音信号一起记录下来。如果音频中的信噪比太小,甚至语音信号淹没在噪声中,这样的音频信号就无法用来进行语音情感识别,因此必须使用一些降噪技术来消除或降低噪声。这里使用常见方法中,降噪最为有效的最小均方误差估计(Min Mean Square Error,MMSE)方法。
完成语音数据预处理后,语音识别首先要做的就是特征抽取,为模型提供更加高质量的输入,以达到更好的识别结果。本实施例步骤S300采用梅尔频率倒谱系数(MFCC)。
针对MFCC和实际频率的特性,可以基于以下操作提取MFCC特征值:利用快速傅里叶变换(FFT)对预处理后的各帧语音信号进行倒谱运算。在得到绝对值或平方值之后,让完成前一步骤的信号经过Mel滤波器组,也就是在幅度谱上加上Mel滤波器组;将Mel滤波器的全部输出结果取对数,然后用离散余弦变换(DCT),得到原始的静态MFCC参数;对静态MFCC参数进行一阶差分,再对得到的系数进行二阶差分,以获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
经特征提取后,得到了最优MFCC的参数,步骤S400利用数据降维技术对所得到的特征进行二次优化,作为具体实施,使用主成分分析(PCA)进行降维处理,可以对MFCC模型中的复杂数据进行分析,保留低频部分有价值的特征值,筛选高频部分的特征信息,在高频和低频之间进行分离结合高低频进行特征提取,由此得到MFCC的特征向量,且MFCC的特征向量能够具备降低的维度、减小的数量级,情感特征信息不会变。
PCA的基本算法有:
(1)为了便于模型的应用,组织数据格式;
(2)对样本各特性进行平均值计算;
(3)归一化处理,让各样本数据减去对应特征平均值;
(4)求取协方差矩阵;
(5)寻找协方差矩阵的特征值和特征向量;
(6)按从大到小重新排列特征值和特征向量;
(7)为特征值计算累积的贡献率;
(8)根据一定比例,对累积贡献率选取特征向量集的子集合。
在降维完成后,要对数据进行分类识别,以获得正确的识别结果。本实施例步骤S500通过随机森林的方法进行情感识别。以信息增益为最佳属性的选择依据,将各分支结点按其进行划分,最终获取决策树,经随机森林对决策树进行的训练后,投票决定各样本所属的类别,从而完成开心、悲伤、愤怒、中立、恐惧、无聊、厌烦等情感的分类工作。
随机森林的基本方法是:
(1)对样本数据进行有放回抽取,从而获得多个样本集合,也就是说,每一次都会从原N个训练样本中随机抽取N个(可能产生重复),在此基础上,从各候选特征中随机选取m个特征,作为当前结点下的决策可备用选择的特征,从中选出对训练样本进行最佳划分的特征;
(2)将各样本集当作训练样本,建立决策树;
(3)在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
(4)在确定了所需要的决策树数量之后,再用随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
为保证识别准确率,需对语音情感识别的结果进行分析,这里运用混淆矩阵分析语音情感识别的准确率,作为结果的评价指标。
混淆矩阵是机器学习中对分类模型的预测结果进行归总的一种情况分析表,以真实类型和分类模型的分类判定为标准将数据集中的记录集结,能够很轻易地显示出多个分类之间的混淆情况,即一个类型被预测为另外一个。混淆矩阵是一个类×类的矩阵,本次采用了七种类型,即7×7矩阵,如表1所示。在该模型中,True Positive(真正,TP)表征模型预测结果为正的正样本,True Negative(真负,TN)表征模型预测结果为负的负样本,FalsePositive(假正,FP)表征模型预测结果为正的负样本,False Negative(假负,FN)表征模型预测结果为负的正样本。
表1
针对具体混淆情况,对数据处理、识别模型进行优化,直到达到预期的准确率。
在准确率达标后,基于装维过程的语音情感识别结果,推测代维人员服务态度与客户满意度。
若代维人员语音识别结果为开心,则推测服务态度较好;若代维人员语音识别结果为无聊,则推测服务态度一般;若代维人员语音识别结果为悲伤、愤怒、厌烦,则推测服务态度较差。
若客户语音识别结果为开心,则推测满意度较好;若客户语音识别结果为无聊,则推测满意度一般;若代维人员语音识别结果为悲伤、愤怒、厌烦、恐惧,则推测满意度较差。
基于对代维人员服务态度与客户满意度的推测结果,可在服务态度较差及满意度较差时,发送短信提示,减少后期投诉。
实施例2:
本发明一种基于语音情感识别的家宽装维满意度推理系统,包括语音信号采集模块、语音信号预处理模块、语音特征提取模块、语音特征优化模块、语音识别模块、结果优化模块以及评价模块,该系统执行实施例1公开的方法进行满意度预测。
语义信号采集模块用于对代维人员的装维过程进行实时录像,得到语音信号。
代维人员进行现场装维时,语义信号采集模块用于使用代维软件上的录像功能,实时记录装维过程,得到语音数据进行后续处理。
语音信号预处理模块用于对语音信号进行数据预处理,得到预处理后语音信号。
由于录制音频存在噪声、背景音、说话间隔等干扰因素,为了实现语音信号的高提纯,适配音频数据的特征提取,本实施例语音信号预处理模块用于对语音数据进行预处理,有效防止说话人和语音数据的改变,作为具体实施,预处理包括预加重、分帧、加窗、端点检测、归一化和降噪处理。
(1)预加重:语音信号的功率谱会受到口鼻辐射的一定影响,导致高频部分能量少,信噪比小,低频能量多。鉴于上述情况,对语音信号进行平均功率和频谱计算时,对语音信号进行预加重处理能够有效地解决这些问题。预加重是一种相当于高通滤波器的技术,它可以在一定程度上改善语音信号高频段的频谱值及分辨率的同时,减少低频段能量,使语音信号分布更平均,同时也使得语音的频谱更加稳定。消除口鼻的辐射影响,一般采用一阶数字滤波器来完成,见公式(1)示,μ为预加重系数,近似1,通常选取0.95或1。
(2)分帧:分帧技术是将连续的语音信号分成一定长度的片段,以减小时变性对语音信号的影响。因为信号不稳定,所以语音所包含的情绪也会随时间而改变。但是,如果时间足够短,那么该时段内的话音信号可以视为恒定,例如20至30ms。该方法对语音信号进行分帧处理,使其能够持续地接近平稳状态,从而获取到语音局部特性。此外,该方法还能利用帧移保存帧间相关数据。适当的分帧处理可以使语音中的情感信息得到更好的提取。分帧主要有交叠分帧和连续分帧两种。交叠分帧法能够保证小段语音信号的平滑。其中,帧移表示前、后两个语音帧的重叠量,通常默认为帧长的二分之一,一般为30ms的帧长和15ms的帧移。分帧主要借助窗函数来实现,其基本思想是利用窗函数对内部特定区域的采样帧进行波形强化,同时对外部波形进行衰减,类似于图像变换或矩形运算。
(3)加窗:在语音信号帧被设定后,接下来的步骤一般是对帧加窗函数。加窗函数是为了降低因信号边界不连续性而导致的快速傅立叶变换(FFT)过程中数据泄露的影响。常用的窗函数有:矩形窗、汉宁窗、海明窗。其中,矩形窗函数具有较为优越的平滑性,主瓣较窄,主频准确度较高;汉明窗的衰减速率稍快,主瓣最宽;而汉明窗的频谱泄漏量则相对较少。选取时应尽可能地使窗函数频谱的主瓣宽度窄,这样才能在频率上实现较高分辨率,为了减小频谱的拖尾,又应该尽可能地增大旁瓣的衰减。具体选取时,要综合考虑信号的种类类型和分析对象。
(4)端点检测:端点检测也叫做语音活动检测,一段语音一般可分为有声段、过渡段和静音段。发声时,声带会对声道进行周期性的刺激,刺激的强弱决定了语音所处的阶段。通过端点检测,可以识别出语音中的有声部分和静音部分,从而确定有声音频部分的起始、终止时刻。在语音情感识别中,语音信号并非完全是有声段,而是有声段、过渡段、静音段交错重叠,但只有有声段含有的数据能促进识别语音情感。因此,端点检测算法的优劣将直接影响到语音情绪识别的准确性。优良的端点检测算法能够准确地掌握动态环境中的静音段和有声段,消除静音区域,提高模型的识别精度。同时,消除语音中存在的大量的噪静音和噪音,可降低模型运算的复杂性。一般的语音端点检测算法大致可分成三类:
(a)基于阈值的端点检测
利用提取频域(MFCC、谱熵等)特征或时域(短时能量、短期过零率等)特征的方法,对门限进行合理设置,以实现语音和非语音的区分。
(b)基于分类器的端点检测
可以将语音检测看作语音和非语音的二元分类问题,从而采用机器学习的方式去训练分类器,以实现对语音的检测。
(c)基于模型的端点检测
可以以解码为基础,通过采取一个完整的声学模型,利用全局信息去判别语音段和非语音段。
(4)归一化:特征归一化是减小说话者和录音的变化的一个重要环节,运用的同时又不损失特征的识别能力,对特征归一化,可以增强特征的泛化能力。归一化可以在不同层中进行,如函数层和语料库层。惯用的归一化方法是z归一化。在平均值μ和标准差σ给定的条件下,z归一化可由公式(2)计算得出。
(5)降噪:现实生活中,噪声无处不在,在语音情感数据的采集过程中,势必会将环境中的噪声与包含情感信息的语音信号一起记录下来。如果音频中的信噪比太小,甚至语音信号淹没在噪声中,这样的音频信号就无法用来进行语音情感识别,因此必须使用一些降噪技术来消除或降低噪声。这里使用常见方法中,降噪最为有效的最小均方误差估计(Min Mean Square Error,MMSE)方法。
语音特征提取模块用于基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征。
针对MFCC和实际频率的特性,本实施例语音特征提取模块用于基于以下操作提取MFCC特征值:利用快速傅里叶变换(FFT)对预处理后的各帧语音信号进行倒谱运算。在得到绝对值或平方值之后,让完成前一步骤的信号经过Mel滤波器组,也就是在幅度谱上加上Mel滤波器组;将Mel滤波器的全部输出结果取对数,然后用离散余弦变换(DCT),得到原始的静态MFCC参数;对静态MFCC参数进行一阶差分,再对得到的系数进行二阶差分,以获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
语音特征优化模块用于对所述语音特征行数据降维处理,得到优化后语音特征。
经特征提取后,得到了最优MFCC的参数,本实施例语音特征优化模块用于利用数据降维技术对所得到的特征进行二次优化,作为具体实施,使用主成分分析(PCA)进行降维处理,可以对MFCC模型中的复杂数据进行分析,保留低频部分有价值的特征值,筛选高频部分的特征信息,在高频和低频之间进行分离结合高低频进行特征提取,由此得到MFCC的特征向量,且MFCC的特征向量能够具备降低的维度、减小的数量级,情感特征信息不会变。
PCA的基本算法有:
(1)为了便于模型的应用,组织数据格式;
(2)对样本各特性进行平均值计算;
(3)归一化处理,让各样本数据减去对应特征平均值;
(4)求取协方差矩阵;
(5)寻找协方差矩阵的特征值和特征向量;
(6)按从大到小重新排列特征值和特征向量;
(7)为特征值计算累积的贡献率;
(8)根据一定比例,对累积贡献率选取特征向量集的子集合。
语音识别模块用于以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果。
在降维完成后,要对数据进行分类识别,以获得正确的识别结果。本实施例语音识别模块用于通过随机森林的方法进行情感识别。以信息增益为最佳属性的选择依据,将各分支结点按其进行划分,最终获取决策树,经随机森林对决策树进行的训练后,投票决定各样本所属的类别,从而完成开心、悲伤、愤怒、中立、恐惧、无聊、厌烦等情感的分类工作。
随机森林的基本方法是:
(1)对样本数据进行有放回抽取,从而获得多个样本集合,也就是说,每一次都会从原N个训练样本中随机抽取N个(可能产生重复),在此基础上,从各候选特征中随机选取m个特征,作为当前结点下的决策可备用选择的特征,从中选出对训练样本进行最佳划分的特征;
(2)将各样本集当作训练样本,建立决策树;
(3)在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
(4)在确定了所需要的决策树数量之后,再用随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
评价模块用于基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标。
为保证识别准确率,需对语音情感识别的结果进行分析,这里运用混淆矩阵分析语音情感识别的准确率,作为结果的评价指标。
混淆矩阵是机器学习中对分类模型的预测结果进行归总的一种情况分析表,以真实类型和分类模型的分类判定为标准将数据集中的记录集结,能够很轻易地显示出多个分类之间的混淆情况,即一个类型被预测为另外一个。混淆矩阵是一个类×类的矩阵,本次采用了七种类型,即7×7矩阵。在该模型中,True Positive(真正,TP)表征模型预测结果为正的正样本,True Negative(真负,TN)表征模型预测结果为负的负样本,False Positive(假正,FP)表征模型预测结果为正的负样本,False Negative(假负,FN)表征模型预测结果为负的正样本。
针对具体混淆情况,对数据处理、识别模型进行优化,直到达到预期的准确率。
在准确率达标后,基于装维过程的语音情感识别结果,推测代维人员服务态度与客户满意度。
评价模块用于基于情感识别结果,推测代维人员的服务态度及客户满意度。
若代维人员语音识别结果为开心,则推测服务态度较好;若代维人员语音识别结果为无聊,则推测服务态度一般;若代维人员语音识别结果为悲伤、愤怒、厌烦,则推测服务态度较差。
若客户语音识别结果为开心,则推测满意度较好;若客户语音识别结果为无聊,则推测满意度一般;若代维人员语音识别结果为悲伤、愤怒、厌烦、恐惧,则推测满意度较差。
基于对代维人员服务态度与客户满意度的推测结果,可在服务态度较差及满意度较差时,发送短信提示,减少后期投诉。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种基于语音情感识别的家宽装维满意度推理方法,其特征在于,包括如下步骤:
对代维人员的装维过程进行实时录像,得到语音信号;
对语音信号进行数据预处理,得到预处理后语音信号;
基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;
对所述语音特征行数据降维处理,得到优化后语音特征;
以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果;
基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标;
基于情感识别结果,推测代维人员的服务态度及客户满意度。
2.根据权利要求1所述的基于语音情感识别的家宽装维满意度推理方法,其特征在于,对语音信号进行数据预处理,包括如下步骤:
预加重处理:对语音信号进行平均功率和频谱计算时,对语音信号进行预加重以减少口鼻辐射的影响;
分帧处理:将连续的语音信号分为具有一定长度的片段,得到多段语音信号帧,并利用帧移保存语音信号帧之间相关数据;
加窗处理:对每个语音信号帧加窗函数,所述窗函数包括矩形窗、汉宁窗和海明窗;
端点检测:通过语音端点检测方法识别出语音信号帧中的有声部分和静音部分,从而确定有声部分的起始时刻和终止时刻;
特征归一化:通过z归一化方法对语音信号帧中有声部分进行特征归一化;
降噪处理:通过降噪处理消除或降低语音信号中的噪声。
3.根据权利要求1或2所述的基于语音情感识别的家宽装维满意度推理方法,其特征在于,基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,包括如下步骤:
通过快速傅里叶变换对预处理后的各语音信号进行倒谱计算,得到绝对值或平方值后,通过Mel滤波器组对进行快速傅里叶变换的各语音信号进行滤波,在语音信号的幅度谱上加Mel滤波器组,得到Mel滤波器的输出结果;
对Mel滤波器的全部输出结果取对数,并进行离散余弦变换,得到原始的静态MFCC参数;
对原始的静态MFCC参数进行一阶差分,再对得到的静态MFCC参数进行二阶差分,获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
4.根据权利要求1或2所述的基于语音情感识别的家宽装维满意度推理方法,其特征在于,通过主成分分析方法对所述语音特征行数据降维处理,得到优化后语音特征。
5.根据权利要求1或2所述的基于语音情感识别的家宽装维满意度推理方法,其特征在于,以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,包括如下步骤:
以历史语音信号对应的优化后语音特征为样本数据,对样本数据进行有放回抽取,得到多个样本集合,并从候选特征中随机选取m个特征,作为当前节点下决策可备用的特征;
将多个样本集合作为训练样本,构建决策树;
在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
在确定了所需要的决策树数量之后,通过随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
6.一种基于语音情感识别的家宽装维满意度推理系统,其特征在于,用于通过如权利要求1-5任一项所述的基于语音情感识别的家宽装维满意度推理方法进行满意度预测,所述系统包括:
语音信号采集模块,所述语义信号采集模块用于对代维人员的装维过程进行实时录像,得到语音信号;
语音信号预处理模块,所述语音信号预处理模块用于对语音信号进行数据预处理,得到预处理后语音信号;
语音特征提取模块,所述语音特征提取模块用于基于梅尔频率倒谱系数对预处理后语音信号进行特征提取,得到语音特征;
语音特征优化模块,所述语音特征优化模块用于对所述语音特征行数据降维处理,得到优化后语音特征;
语音识别模块,所述语音识别模块用于以情感为标签、基于随机森林方法对所述优化后语音特征进行分类识别,得到情感识别结果;
结果优化模块,所述结果优化模块用于基于混淆矩阵分析情感识别结果的准确率,作为情感识别结果的评价指标;
评价模块,所述评价模块用于基于情感识别结果,推测代维人员的服务态度及客户满意度。
7.根据权利要求6所述的基于语音情感识别的家宽装维满意度推理系统,其特征在于,所述语音信号预处理模块用于执行如下对语音信号进行数据预处理:
预加重处理:对语音信号进行平均功率和频谱计算时,对语音信号进行预加重以减少口鼻辐射的影响;
分帧处理:将连续的语音信号分为具有一定长度的片段,得到多段语音信号帧,并利用帧移保存语音信号帧之间相关数据;
加窗处理:对每个语音信号帧加窗函数,所述窗函数包括矩形窗、汉宁窗和海明窗;
端点检测:通过语音端点检测方法识别出语音信号帧中的有声部分和静音部分,从而确定有声部分的起始时刻和终止时刻;
特征归一化:通过z归一化方法对语音信号帧中有声部分进行特征归一化;
降噪处理:通过降噪处理消除或降低语音信号中的噪声。
8.根据权利要求6或7所述的基于语音情感识别的家宽装维满意度推理系统,其特征在于,所述语音特征提取模块用于执行如下基于梅尔频率倒谱系数对预处理后语音信号进行特征提取:
通过快速傅里叶变换对预处理后的各语音信号进行倒谱计算,得到绝对值或平方值后,通过Mel滤波器组对进行快速傅里叶变换的各语音信号进行滤波,在语音信号的幅度谱上加Mel滤波器组,得到Mel滤波器的输出结果;
对Mel滤波器的全部输出结果取对数,并进行离散余弦变换,得到原始的静态MFCC参数;
对原始的静态MFCC参数进行一阶差分,再对得到的静态MFCC参数进行二阶差分,获得动态的一阶MFCC参数和二阶MFCC参数,最后给出相应的输出特征。
9.根据权利要求6或7所述的基于语音情感识别的家宽装维满意度推理系统,其特征在于,所述语音特征优化模块用于通过主成分分析方法对所述语音特征行数据降维处理,得到优化后语音特征。
10.根据权利要求6或7所述的基于语音情感识别的家宽装维满意度推理系统,其特征在于,所述语音识别模块用于执行如下进行分类识别:
以历史语音信号对应的优化后语音特征为样本数据,对样本数据进行有放回抽取,得到多个样本集合,并从候选特征中随机选取m个特征,作为当前节点下决策可备用的特征;
将多个样本集合作为训练样本,构建决策树;
在生成样本集合与确定特征后,采用CART算法进行运算,不需要修剪旁枝;
在确定了所需要的决策树数量之后,通过随机森林的方式对其输出进行投票,选出得票数最高的类别作为随机森林的决策。
CN202310361449.XA 2023-04-03 2023-04-03 基于语音情感识别的家宽装维满意度推理方法及系统 Pending CN117612567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310361449.XA CN117612567A (zh) 2023-04-03 2023-04-03 基于语音情感识别的家宽装维满意度推理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310361449.XA CN117612567A (zh) 2023-04-03 2023-04-03 基于语音情感识别的家宽装维满意度推理方法及系统

Publications (1)

Publication Number Publication Date
CN117612567A true CN117612567A (zh) 2024-02-27

Family

ID=89954764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310361449.XA Pending CN117612567A (zh) 2023-04-03 2023-04-03 基于语音情感识别的家宽装维满意度推理方法及系统

Country Status (1)

Country Link
CN (1) CN117612567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118486297A (zh) * 2024-07-12 2024-08-13 北京珊瑚礁科技有限公司 一种基于语音情感识别的响应方法及智能语音助手系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118486297A (zh) * 2024-07-12 2024-08-13 北京珊瑚礁科技有限公司 一种基于语音情感识别的响应方法及智能语音助手系统

Similar Documents

Publication Publication Date Title
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
US8428945B2 (en) Acoustic signal classification system
CN111816218A (zh) 语音端点检测方法、装置、设备及存储介质
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN112992153B (zh) 音频处理方法、声纹识别方法、装置、计算机设备
AU744678B2 (en) Pattern recognition using multiple reference models
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
Ganchev Speaker recognition
Yudin et al. Speaker’s voice recognition methods in high-level interference conditions
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
Bonet et al. Speech enhancement for wake-up-word detection in voice assistants
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
CN117612567A (zh) 基于语音情感识别的家宽装维满意度推理方法及系统
Stefanakis et al. An open-access system for long-range chainsaw sound detection
Kajita et al. Speech analysis and speech recognition using subbandautocorrelation analysis
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Wrigley et al. Feature selection for the classification of crosstalk in multi-channel audio
US20240079022A1 (en) General speech enhancement method and apparatus using multi-source auxiliary information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination