CN108388942A

CN108388942A - 基于大数据的信息智能处理方法

Info

Publication number: CN108388942A
Application number: CN201810163995.1A
Authority: CN
Inventors: 王兰鹰
Original assignee: Sichuan Songyuan Cloud Technology Co Ltd
Current assignee: Sichuan Songyuan Cloud Technology Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2018-08-10

Abstract

本发明提供了一种基于大数据的信息智能处理方法，该方法包括：训练原始语音数据中有效语音块的多层卷积神经网络，获得各帧的多项式表示；选取预定义数量的音频块为初始结果，并对其进行重建，获得初始语音库和重建系数；根据下一音频块更新卷积神经网络参数，同时对该音频块进行重建并计算重建误差，若误差大于设定阈值，则将该音频块加入概要语音数据。本发明的方法基于语音大数据处理，抗噪性更强，准确率更高，具备更高的召回率，显著提高了用户获取知识的效率。

Description

基于大数据的信息智能处理方法

技术领域

本发明涉及语音数据处理，特别涉及一种基于大数据的信息智能处理方法。

背景技术

随着科技进步和网络技术的发展，网络中存在海量的可利用媒体信息，如通话记录、微信语音、会议记录，面对大量的音频数据，用户需要更快速理解语音信息，节约用户时间，提高工作效率。随着信息检索技术的快速发展，语音概要生成技术也日益成熟。从最初基于词频的方法，到引入机器学习，性能均有很大的提升。现有方案一般采用监督学习方法，在训练集中，利用分类模型对训练集进行训练，得到最优的加权系数向量，并对测试集进行分类预测；但依赖监督学习模型，需要标注数据，通常由人工标注实现，非常耗时，且具有主观性，并且容易忽略句间的语义相似度，降低了计算结果的准确性。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于大数据的信息智能处理方法，包括：

训练原始语音数据中有效语音块的多层卷积神经网络，获得各帧的多项式表示；选取预定义数量的音频块为初始结果，并对其进行重建，获得初始语音库和重建系数；根据下一音频块更新卷积神经网络参数，同时对该音频块进行重建并计算重建误差，若误差大于设定阈值，则将该音频块加入概要语音数据。

优选地，所述训练原始语音数据中有效语音块的多层卷积神经网络，获得各帧的多项式表示，进一步包括：

利用去噪编码器初步训练多层卷积神经网络；

在每一层对各帧音频进行如下操作：

首先，通过添加高斯噪声、随机设输入变量为任意值生成各帧音频噪声；

然后，音频噪声进行映射得到其多项式表示；

对卷积神经网络的各层参数进行调整更新。

优选地，所述对该音频块进行重建，进一步包括：

获取原始语音的前m个音频块，m为正整数，即共有m×t帧音频，X_k对应第k个原始音频块；

通过初步训练卷积神经网络得到相应的多项式表示为{Y₁,Y₂,…,Y_k,…Y_m}，Y_k对应第k个音频块的多项式表示；

若初始语音库D由n_d个元素组成，即D＝{d_j}_j∈[1,nd]，d_j对应第j个元素；设重建系数为C，其元素个数对应帧数量，其维度对应库的元素数量，即C＝{C_i}_i∈[1,nf]，C_k对应第k个音频块系数，cⁱ对应第i帧语音；

利用以下公式分别得到初始语音库D和重建系数C，即：

其中，符号||·||₂表示变量的l₂范数，正则化参数λ为大于0的系数，多元函数F(Y_k,C_k,D)的具体表达为：

其中，参数γ为大于0的系数，符号中的数学式表示使用库D对第i帧音频进行重建，具体为：

先固定参数D，使上述目标函数变成参数C的凸函数；然后固定参数C，使上述目标函数变成参数D的凸函数，迭代交替更新两个参数。

本发明相比现有技术，具有以下优点：

本发明的方法基于语音大数据处理，抗噪性更强，准确率更高，具备更高的召回率，显著提高了用户获取知识的效率。

附图说明

图1是根据本发明实施例的基于大数据的信息智能处理方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于大数据的信息智能处理方法。图1是根据本发明实施例的基于大数据的信息智能处理方法流程图。

本发明首先获取原始语音数据，进行以下操作：

1)将语音切分为多个音频块，每个音频块包含多帧，提取各帧音频的统计特征，形成相应的特征向量；

2)训练有效语音块多层卷积神经网络，获得各帧的多项式表示；

3)选取前m个音频块为初始结果，并对其进行重建，获得初始语音库和重建系数；

4)根据下一音频块更新卷积神经网络参数，同时对该音频块进行重建并计算重建误差，若误差大于设定阈值，则将该音频块加入概要语音库中并更新该库；

5)按照步骤4)依次在线处理新的音频块直到结束，更新的概要语音数据即为生成的概要语音数据。

步骤1)中所述的提取各帧音频的统计特征形成相应特征向量，具体是：

1)设原始语音均匀分为n个音频块，即每个音频块包含t帧音频，将各帧音频转换成统一码率并保持原始采样率；

2)提取各帧的局部特征，包括过零率平均幅度差和LPC系数；

3)顺序组合各帧的上述音频特征，形成维度为nf的特征向量。

步骤2)中的初步训练有效语音块多层卷积神经网络获得各帧的多项式表示，具体是：

利用去噪编码器初步训练多层卷积神经网络；

a、在每一层对各帧音频进行如下操作：首先，通过添加高斯噪声、随机设输入变量为任意值生成各帧音频噪声；然后，音频噪声进行映射得到其多项式表示；

b、对卷积神经网络的各层参数进行调整更新；

步骤3)中的对概要语音数据进行重建，具体是：

1)概要语音数据由原始语音的前m个音频块组成，m为正整数，即共有m×t帧音频，X_k对应第k个原始音频块；通过初步训练卷积神经网络得到相应的多项式表示为{Y₁,Y₂,…,Y_k,Y_m}，Y_k对应第k个音频块的多项式表示；

2)设初始语音库D由n_d个元素组成，即D＝{d_j}_j∈[1,nd]，d_j对应第j个元素；设重建系数为C，其元素个数对应帧数量，其维度对应库的元素数量，即C＝{C_i}_i∈[1,nf]，C_k对应第k个音频块系数，cⁱ对应第i帧语音；

3)利用以下公式分别得到初始语音库D和重建系数C，即：

其中，参数γ为大于0的系数，符号中的数学式表示使用库D对第i帧音频进行重建。具体为：先固定参数D，使上述目标函数变成参数C的凸函数；然后固定参数C，使上述目标函数变成参数D的凸函数，迭代交替更新两个参数。

步骤4)中的根据下一音频块更新卷积神经网络参数并对该音频块进行重建和计算重建误差，具体是：

1)对该音频块的各帧音频依次做如下操作：

a.更新卷积神经网络中最后一层的参数，即加权系数W和偏移量b；

b.利用BP算法更新卷积神经网络中其他层的参数；

2)根据新的参数更新各帧音频的多项式表示；

3)基于现有语音库D，对当前音频块进行重建并计算误差ε，即对当前音频块X_k的多项式表示Y_k进行重建，具体步骤为：先最小化多元函数F(Y_k,C_k,D)得到最优重建系数然后代入的第一项即l₂范数中并计算其值即为当前重建误差ε。

步骤4)中的若误差大于设定阈值则将当前音频块加入概要语音库中并更新该库，具体是：

1)若对当前音频块X_k的多项式表示Y_k计算得到的重建误差ε大于设定阈值θ，则将当前音频块X_k加入概要语音库S中。

2)若当前概要语音库S中含有q个音频块，则更新该库的帧音频多项式表示集合为y_q，则使用Y_k∈y_q更新该库D即求解目标函数：

其中，参数λ为大于0的系数，用于调节正则化项的影响。

其中，在语音块提取时，本发明首先提取模拟语音信号时域的LPC系数最大值和频域的平均幅度差，然后将提取的特征组成二维向量作为卷积神经网络的输入，利用神经网络的输出判断信号是否为模拟语音信号。

在消除直流分量后，提取语音的LPC系数最大值和平均幅度差。设定网络输出值当中的众数的倍为阈值对网络输出的一维向量进行判断，高于等于这个阈值确定为语音段，低于这个阈值确定为非语音段。

提取模拟语音信号的LPC系数最大值和平均幅度差两个特征。模拟语音信号s(n)的LPC系数R_w(k)：

式中，s_w(n)为加窗语音；N为有效语音块长；k为延迟量；

对s_w(n)取最大值，即可得到LPC系数最大值。

模拟语音信号s(n)的平均幅度差Ω由下式给出：

式中，N为帧长；S(k)为s(n)的FFT变换；E为模拟语音信号频域幅度的均值。

卷积神经网络的输入向量是LPC系数最大值和平均幅度差组成的2维向量，即输入层神经元的个数为2。输出是判断当前帧是有效语音块还是非有效语音块的1维向量，输出层神经元的个数为1。隐藏层神经元个数为5。

在前向传递中，输入信号经隐藏层逐层处理，直至输出层。每一层的神经元状态只影响下一层神经元状态。设w_ij是输入层与隐藏层的连接加权系数，w_jk是隐藏层与输出层的连接加权系数，a_j是隐藏层的阈值，b_k是输出层的阈值，i代表输入层，j代表隐藏层，k代表输出层。如果输出层得不到期望输出，则转入反向传播，根据预测误差调整网络加权系数和阈值使卷积神经网络预测输出逼近期望输出。

采用遗传算法优化卷积神经网络的初始加权系数和阈值，包括：

(1)采用系数编码对个体进行编码，每个个体均为一个数字串，由输入层与隐藏层连接加权系数、隐藏层阈值、隐藏层与输出层连接加权系数以及输出层阈值4部分组成；个体包含了神经网络全部加权系数和阈值，在网络结构已知的情况下，就可以构成一个结构、加权系数、阈值确定的神经网络。

(2)根据个体得到卷积神经网络的初始加权系数和阈值，用训练数据训练卷积神经网络后预测系统输出，将预测输出和期望输出之间的误差绝对值和作为个体适应度值，即适应度函数F设置为：

n为卷积神经网络输出节点数；y_i为卷积神经网络第i个节点的期望输出；o_i为卷积神经网络第i个节点的预测输出；k为预定义系数。

(3)基于适应比例的选择策略，每个个体i的选择概率p_i为：

f_i＝k/F_i

式中，F_i为个体i的适应度值；

K为系数，这里取10；

N为种群个体数量，这里取10。

(4)在交叉操作中采用系数交叉法，第k个染色体a_k和第l个染色体a_l在j位的交叉操作方法如下：

a_kj＝a_kj(1-b)+a_ljb

a_lj＝a_lj(1-b)+a_kjb

式中，b为[0,1]间的随机数。

(5)选取第i个个体的第j个基因a_ij进行变异：

a_ij＝a_ij+(a_ij-a_max)*f(g)r>0.5

a_ij＝a_ij+(a_min-a_ij)*f(g)r≤0.5

式中，a_max，a_min-分别为基因a_ij的上界和下界；

f(g)＝r₂(1-g/G_max)²；

其中r₂为随机数；g为当前迭代次数；G_max为最大进化次数；r取[0,1]间的随机数。

语音临界点检测实现步骤如下：

1)采用2-5-1的卷积神经网络结构，首先提取原始语音的LPC系数最大值和平均幅度差两个特征，将该二维向量作为神经网络的输入。利用输出层判断该帧是否为有效语音块，随机初始化加权系数和阈值。

2)随机选择原始音频块，标记出每帧信号的类别，若是语音则标记为1，若不是则标记为0。分别提取出该段音频块的LPC系数最大值和平均幅度差，形成一个二维的特征向量，作为卷积神经网络的输入向量。

3)将训练样本输入卷积神经网络来训练网络的参数，并对卷积神经网络进行优化，使网络输出值与期望值之间的误差达到预设标准。

4)分别提取出每个音频块的LPC系数最大值和平均幅度差，形成一个二维的特征向量，作为测试样本输入卷积神经网络进行检验。本文采用改进的阈值T，即卷积神经网络输出的1维向量中所有元素的众数，大于等于T则确定为有效语音块；小于T，则确定为非有效语音块。将卷积神经网络的输出值与预先标记的值进行对比，若正确率较低，则对网络进行重新训练。

5)利用网络的输出值判断是否为语音段。

语音块输入信号向量为X(n)＝[x₁(n),x₂(n),..x_M(n)]^T，则X(n)通过语音增强滤波器后得到的y(n)表示为:

y(n)＝coef[β₁x(n)+β₂x(n)+…+β_nb+1x(n)]

式中，B＝[β₁,β₂,…β_nb+1]为滤波器加权系数系数向量,coef为自适应参数

然后将这个自适应参数coef引入ILMS自适应滤波器模型中对语音块进行去噪处理。对去噪后的语音计算SNR_i,SNR_i取最大值时对应的coef值即为最终coef训练输出值：

SNR_i＝∏_snr(f_LM(coef_i,s(n)))

式中，coef_i为步长为1的自然数；s(n)为待增强语音块；f_LM为自适应滤波器算法函数，根据coefⁱ的值对s(n)进行语音去噪增强；∏_snr()为计算分段信噪比的函数；

对SNR_i求最大值，并将最大值所对应的下标i赋给coef：

coef＝argmax(SNR₁,SNR₂,,…)

式中，argmax为求取最大值所对应的下标的函数。

最后，在自适应噪声滤波器中，根据coef值，对每个待增强语音块进行增强。基于增强后的语音块进行语音-文本转换。

将语音块进行文本识别后，就可以进行概要语音自动抽取，本发明首先利用卷积神经网络算法训练特征词的特征向量，进而准确计算句间相似度，迭代计算更新句加权系数，然后基于句间相似度来消除精简语音中的信息冗余，具体包括以下步骤：

1、利用卷积神经网络模型训练语素获取特征词的特征向量表示：从大数据存储中采集语素集并对该语素集进行预处理，所述预处理包括对语素集中的语素进行分句处理，得到训练特征语素集；设置训练参数，以训练特征语素集为训练数据，对卷积神经网络模型进行训练，以将训练特征语素集中的每个词作为特征词经过训练以特征向量的形式输出，得到特征词的特征向量表示形式；

为从大量非结构化语音数据中训练特征词的特征向量表示，本发明利用当前词的特征向量预测指定窗口上下文的特征向量。给定特征语素w₁,w₂,w₃,…,w_T作为训练数据，目标函数是：

其中，c是决定上下文窗口大小的参数，c越大则需要越多的训练数据，T为训练数据个数。

本发明将输出层的W个词作为叶子节点，对高频词分配较短路径。每个特征语素w都可以从树的根节点沿着唯一的一条路径被访问。假如n(w,j)为从根节点到w路径上的第j个节点，L(w)为这条路径的长度，因此n(w,1)＝root,n(w,L(w))＝w。对于任一内部节点n，ch(n)为节点n的任一子节点。则定义：

其中函数表示：

定义上式后，使用随机梯度下降方法求解目标函数，最后生成词的特征向量表示形式。

S2、根据预设查询词在步骤S1采集到的语素集中进行检索，将检索到的语音块作为候选块集，对所述候选块集进行分句处理并去除候选块集中重复的句，得到候选块集；

其中S_i为候选块集S中的任意句，N为语句的总数；利用步骤S1得到的特征词的特征向量，通过计算句间语义相似度作为图中边的加权系数，构成语句DAG图模型；

对候选块集中任意两句S_i和S_j，分别包含特征词t_i和t_j的特征向量和即和经过步骤S1的卷积神经网络模型训练得到对应的特征向量，则句S_i和S_j间的语义相似度Sim(Si,Sj)公式为：

其中，对于句S_i中的特征词t_i的特征向量表示在句S_j中和特征词t_i属于相同词性的所有特征词的特征向量与的最大相似度值；|S_i|和|S_j|分别表示S_i和S_j的长度；

S3、对步骤S2得到的DAG图模型，根据步骤S2中的平均初始加权系数及句间语义相似度利用如下公式迭代更新每个节点的加权系数weight(S_i)，直至收敛，从而得到能够反映语句重要性的分值：

其中d为阻尼系数，取值范围为[0,1]。

Assoc(S_i)表示和S_i相连的句集合，即与句S_i相似度大于0的句集合，||Assoc(S_i)||则为该集合中句总数；

利用步骤S2中节点的平均初始加权系数与句间语义相似度所构成的相似性矩阵，迭代计算DAG图模型中各个节点的加权系数，直至收敛。最终每个节点将得到一个计分，为下一步生成概要语音做准备。

S4，如果一个语句与概要集合中已有句具有较高的相似性，则对该句进行弱化，即选择加权系数最大且无冗余的句组成精简集合，具体步骤为：

1)、初始化空的精简语音队列；将DAG图模型中各节点所对应的语句作为初始的候选精简语音队列；

2)、根据步骤S3对候选精简语音队列中的各DAG图模型节点所对应的句加权系数降序排列，将排序后的各节点所对应的句作为候选概要语句序列；

3)、按照候选概要语句序列，将排列在第一位的句转移至精简语音队列中，对候选精简语音队列中的剩余句利用如下公式更新它们的加权系数：

Weight(S_j)＝Weight(S_j)-ω×Sim(S_i,S_j)

其中，i≠j，ω为弱化因子，当待更新加权系数的语句与精简语音队列中的语句存在相似性时，弱化因子ω为1.0。Sim(S_i,S_j)为步骤S2中得到的语义相似度；

4)、重复执行步骤2)和3)，直至精简语音队列中的语句集达到预设的概要语音长度。

假设原始语音T的语句总数为m，将概要语音的精简率设为λ，需要抽取的文摘句的总数为n，则λ＝n/m。m为原始语音识别得到的语句总数。文本是语句的线性组合，句是词的线性组合，而词又可视为语素的线性组合，即由语素的重要程度可间接地得到句的重要程度。因此，基于预定义精简率的概要语音抽取过程如下：

①计算得出语素网络中各个节点的重要程度，以句中各语素的重要程度的平均值代替相应句的重要程度，由此得到带有重要程度的句簇S＝{S₁,S₂…,S_m}：

w(n_i)_t是w(n_i)的第t次迭代，ε为衰减因数，C(n_i)是语素集合，该集合中每个语素与节点n_i表示的语素都存在同时出现关系；Coexsit(n_i,n_j)为语素网络中节点n_i和n_j所代表的语素的同时出现率；n是语素网络中所包含的语素的总数。

②对句簇S进行多领域的划分；假设得到k个子领域的句簇，以各子领域句簇中语句的综合重要程度代替各子领域句簇的重要程度，并按照重要程度将k个子领域句簇降序排列，记为MS₁,MS₂…，MS_k(k<m)，各子领域句簇中的语句同样按照重要程度高低降序排列；

③对子领域句簇中的句进行上述去冗余处理。然后依据概要语音的精简率λ，从各领域句簇按重要程度顺序分别抽取前个语句。如果；λ×m能被k整除，则可得到最后要输出的λ×m个精简语句；如果不能被k整除，则再从句簇MS₁,MS₂…，MS_(λ×m％k)中分别抽取第个语句与刚才所抽取的个语句一起组成语音T的概要句，这样，就得到了最后的精简句簇，并将其记为S’＝{S’₁,S’₂…,S’_λ×m}；

④将集合S’中的语句按照原始的顺序依次输出，得到概要语音。

对于社交网络语音数据的处理，本发明在识别出语音文本的句和词之后，优选地，进一步将每个句中相邻的两个词组合成一个词对，每个句由一串词对序列表示。词对结合了上下文信息，互相增强了对方作为关键词的可能性和整句的重要性，并根据共同出现的词对来抽取概要语句，生成概要语音数据。

首先分别提取N个能准确反映文本集合某个子主题的词对作为关键词对，得到一个关键词对集合。每个词对的权值可由以下公式计算得出：

W_TF(b_i)＝fre(b_i)*log₂(ifre(b_i))

其中fre(b_i)为词对b_i的词频即b_i在整个文本集合中出现的频率。

ifre(b_i)为语句总数与出现b_i的语句数量比值。

将所有词对按照其W_TF值降序排列，然后取前N个作为关键词对。

计算主题和词对的分布矩阵。该矩阵中每一行是主题在词对集合上的概率分布，每个元素表征了该词对相对于该主题的重要程度。对该矩阵按列求和，将得到的值作为每个词对在主题集合上的全局计分。

基于此全局计分对词对降序排序，取前N个词对构成关键词对集合。

基于上述关键词对集合，计算候选句与关键词对集合中重叠的词对个数在整个关键词对集合中的比例。

同时，为了弱化过长或者过短的句，对该分值进行正则化，而正则化因子取的是候选句本身的长度和句集合的平均句长中较大的数值。计算的候选句计分可公式化定义如下：

其中S表示候选句，KBS表示关键词对集合，b_i即为同时出现的关键词对。|S|和|KBS|分别表示候选句长度和关键词对集合的大小，Avlen为句集合中所有句的平均长度。

概要语句抽取是在引进相似度阈值以防止冗余的基础上，从排序靠前的句中提取M个满足相似度条件的句作为概要语句。抽取概要语句的流程具体步骤如下：

(1)初始化空的精简语音队列；并初始化候选集合；

(2)取当前排序首位的句作为候选句Sc；

(3)当精简语音队列为空时，直接将候选句添加至精简语音队列；否则依次计算候选句Sc与每个概要语句Ss的相似度：

一旦出现sim(S_c，S_s)＞Sim_td的情况，直接转(5)，其中Sim_td为相似度阈值；

(4)将候选句添加至精简语音队列；

(5)从候选集中移除当前候选句；

(6)若精简语音队列中的句数少于预设数量M，则转(1)，否则转(7)；

(7)输出精简语音队列。

其中，如果概要语句包含时间信息，则按时序组合；如果多条概要语句属于语素中的同一主题，则按照原始语音中的语句顺序组合。

综上所述，本发明的方法基于语音大数据处理，抗噪性更强，准确率更高，具备更高的召回率，显著提高了用户获取知识的效率。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于大数据的信息智能处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述训练原始语音数据中有效语音块的多层卷积神经网络，获得各帧的多项式表示，进一步包括：

利用去噪编码器初步训练多层卷积神经网络；

在每一层对各帧音频进行如下操作：

然后，音频噪声进行映射得到其多项式表示；

对卷积神经网络的各层参数进行调整更新。

3.根据权利要求1所述的方法，其特征在于，所述对该音频块进行重建，进一步包括：

利用以下公式分别得到初始语音库D和重建系数C，即：