CN109584897B

CN109584897B - 视频降噪方法、移动终端及计算机可读存储介质

Info

Publication number: CN109584897B
Application number: CN201811631799.9A
Authority: CN
Inventors: 李春宝
Original assignee: Xizang Hanling Technology Co ltd
Current assignee: Shenzhen Yongzhida Technology Co.,Ltd.
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-11-10
Anticipated expiration: 2038-12-28
Also published as: CN109584897A

Abstract

本发明公开了一种视频降噪方法，该方法包括：当监测到视频降噪指令时，依据所述视频降噪指令获取待降噪视频文件；从所述待降噪视频文件中分离出人声音频数据和背景声音频数据；依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件。本发明还公开了一种移动终端及计算机可读存储介质。本发明能够提高视频中人声的清晰度。

Description

视频降噪方法、移动终端及计算机可读存储介质

技术领域

本发明涉及视频降噪的技术领域，尤其涉及一种视频降噪方法、移动终端及计算机可读存储介质。

背景技术

随着移动终端技术的快速发展，移动终端集通讯、拍摄和影音等功能于一体，成为人们日常生活中不可缺少的部分。由于高清摄像头的技术突破，移动终端摄像头的拍照像素越来越高，使得移动终端的拍照效果可以和照相机媲美，并且移动终端携带方便，人们在正常的生活和旅游中，越来越倾向于用移动终端代替传统照相机进行拍照或录制视频。

目前，随着社交网络的发展，人们越来越喜欢在旅行或日常生活过程中，通过移动终端录制自己的所见所闻，并将录制的视频分享到社交网络，然而，录制的视频中包含各种嘈杂的声音，容易掩盖用户自己的声音，需要用户多次拍摄，才能得到包含清晰度较高的人声的视频，因此，如何提高视频中人声的清晰度是目前亟待解决的问题。

发明内容

本发明的主要目的在于提供一种视频降噪方法、移动终端及计算机可读存储介质，旨在提高视频中人声的清晰度。

为实现上述目的，本发明提供一种视频降噪方法，

当监测到视频降噪指令时，依据所述视频降噪指令获取待降噪视频文件；

从所述待降噪视频文件中分离出人声音频数据和背景声音频数据；

依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件。

可选地，所述依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件的步骤包括：

从所述待降噪视频文件中剔除所述背景声音频数据，得到仅包含所述人声音频数据的目标视频文件。

获取预设声纹，并从所述人声音频数据中获取包含所述预设声纹的第一人声音频数据和不包含所述预设声纹的第二人声音频数据；

从所述待降噪视频文件中剔除所述背景声音频数据和所述第二人声音频数据，得到仅包含所述第一人声音频数据的目标视频文件。

基于预设的背景声分类模型，对所述背景声音频数据中的各种背景声进行标记，得到包含若干背景声标签的背景声音频数据；

判断标记的背景声音频数据中是否存在包含预设背景声标签的第一背景声音频数据；

若标记的背景声音频数据中存在包含预设背景声标签的第一背景声音频数据，则从标记后的背景声音频数据中获取背景声标签不为所述预设背景声标签的第二背景声音频数据；

从所述待降噪视频文件中剔除所述第二背景声音频数据，得到包含所述第一背景声音频数据和所述人声音频数据的目标视频文件。

可选地，所述判断标记的背景声音频数据中是否存在包含预设背景声标签的第一背景声音频数据的步骤之后，还包括：

若标记的背景声音频数据中不存在包含预设背景声标签的第一背景声音频数据，则显示背景声剔除界面，并接收基于所述背景声剔除界面选择的第一背景声标签；

从标记后的背景声音频数据中获取背景声标签为所述第一背景声标签的第三背景声音频数据；

从标记后的背景声音频数据中获取背景声标签不为所述第一背景声标签的第四背景声音频数据；

从所述待降噪视频文件中剔除所述第三背景声音频数据，得到包含所述第四背景声音频数据和所述人声音频数据的目标视频文件。

可选地，所述依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件的步骤之后，还包括：

当监测到背景声配置指令时，显示背景声配置界面，并接收基于所述背景音配置界面选择的第二背景声标签；

获取预设背景声库，并从所述预设背景声库中获取与所述第二背景声标签对应的第五背景声音频数据；

将所述第五背景声音频数据插入至所述目标视频文件中。

可选地，所述视频降噪方法还包括:

当监测到背景声入库指令时，依据所述背景声入库指令，获取对应的视频文件，并从所述视频文件中分离出背景声音频数据；

显示背景声入库界面，并接收基于所述背景声入库界面选择的第三背景声标签；

从标记的背景声音频数据中获取背景声标签为所述第三背景声标签的第六背景声音频数据；

将所述第六背景声音频数据存储至所述预设背景声库中。

可选地，所述视频降噪方法还包括:

当监测到背景声删除指令时，从所述背景声删除指令中获取第四背景声标签，并从预设背景声库中删除所述第四背景声标签对应的背景声音频数据。

此外，为实现上述目的，本发明还提供一种移动终端，所述移动终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频降噪程序，所述视频降噪程序被所述处理器执行时实现如上所述的视频降噪方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频降噪程序，所述视频降噪程序被处理器执行时实现如上所述的视频降噪方法的步骤。

本发明提出了一种视频降噪方法、移动终端及计算机可读存储介质，本发明当监测到视频降噪指令时，依据该视频降噪指令获取待降噪视频文件，并从该待降噪视频文件中分离出人声音频数据和背景声音频数据，然后依据预设降噪算法、人声音频数据和背景声音频数据，对待降噪视频文件执行对应的降噪操作，得到目标视频文件，通过对视频文件进行降噪操作，可以减少录制的视频中背景声对人声的影响，有效的提高视频中人声的清晰度。

附图说明

图1为实现本发明各个实施例的一种移动终端的硬件结构示意图；

图2为本发明实施例提供的一种通信网络系统架构图；

图3为本发明视频降噪方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

如图1所示，作为一种计算机存储介质的存储器109中可以包括操作系统、网络通信模块、用户接口模块以及视频降噪程序，处理器110可以用于调用存储器109中存储的视频降噪程序，并执行以下步骤：

进一步地，处理器110可以用于调用存储器109中存储的视频降噪程序，还执行以下步骤：

将所述第五背景声音频数据插入至所述目标视频文件中。

将所述第六背景声音频数据存储至所述预设背景声库中。

其中，本发明移动终端的具体实施例与下述视频降噪方法的各实施例基本相同，在此不作赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明视频降噪方法各个实施例。

本发明提供一种视频降噪方法。

参照图3，图3本发明视频降噪方法第一实施例的流程示意图。

本实施例中，该视频降噪方法包括：

步骤S101，当监测到视频降噪指令时，依据所述视频降噪指令获取待降噪视频文件；

本实施例中，该视频降噪方法应用于移动终端，该移动终端中安装有用于视频降噪的程序应用，该程序应用的桌面图标被触控时，移动终端显示对应的视频降噪界面，且该视频降噪界面显示有本地视频降噪控件和实时视频降噪控件，当监测到视频降噪界面中的本地视频降噪控件被触控时，该移动终端显示本地视频选择界面，并接收基于该本地视频选择界面选择的待降噪视频文件，且切换到视频降噪界面，然后当监测到该视频降噪界面中的开始降噪控件被触控时，触发对应的视频降噪指令；当监测到该视频降噪界面中的实时视频降噪控件被触控时，该移动终端调用摄像头开始录制视频，并在录制视频结束后，将录制得到的视频文件作为待降噪视频文件，然后切换到视频降噪界面，并当监测到该视频降噪界面中的开始降噪控件被触控时，触发对应的视频降噪指令。当监测到视频降噪指令时，该移动终端依据该视频降噪指令获取待降噪视频文件，即从该视频降噪指令中获取视频文件名称，并从视频文件库中获取与该视频文件名称对应的待降噪视频文件。

步骤S102，从所述待降噪视频文件中分离出人声音频数据和背景声音频数据；

本实施例中，在获取到待降噪视频文件之后，该移动终端从该待降噪视频文件中分离出人声音频数据和背景声音频数据，即从该待降噪视频文件中读取音频数据，并通过盲源分离算法，从该音频数据中分离出人声音频数据和背景声音频数据。可选地，该移动终端还可以基于预设音频分离模型，从待降噪视频文件中分离出人声音频数据和背景声音频数据，其中，该预设音频分离模型是通过机器学习得到的，具体为收集大数据量的音频数据，并通过大数据量的音频数据，对音频分离模型进行训练，直到音频分离模型收敛，然后将收敛后的音频分离模型固化在移动终端中。

步骤S103，依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件。

本实施例中，在分离出人声音频数据和背景声音频数据之后，该移动终端依据预设降噪算法，该人声音频数据和背景声音频数据，对待降噪视频文件执行对应的降噪操作，得到目标视频文件。可选地，该移动终端从待降噪视频文件中剔除该背景声音频数据，得到仅包含人声音频数据的目标视频文件，即从该待降噪视频文件中读取音频数据，并从音频数据中剔除该背景声音频数据，得到仅包含人声音频数据的目标视频文件。例如，从待降噪视频文件中分离出的人声音频数据和背景声音频数据分别为A和B，则对待降噪视频文件执行降噪操作之后，目标视频文件中仅包含人声音频数据，即仅包含A。

具体地，该移动终端获取预设声纹，并从该人声音频数据中获取包含该预设声纹的第一人声音频数据和不包含该预设声纹的第二人声音频数据，然后从该待降噪视频文件中剔除该背景声音频数据和该第二人声音频数据，得到仅包含第一人声音频数据的目标视频文件。需要说明的是，上述预设声纹可由用户自行设置，本实施例对此不作具体限定，该预设声纹可选为移动终端拥有者的声纹。得到的目标视频文件中仅包含预设声纹的人声音频数据，不存在其他背景音及其他人声，进一步地提高了视频中人声的清晰度。

具体地，该移动终端还基于预设的背景声分类模型，对背景声音频数据中的各种背景声进行标记，得到包含若干背景声标签的背景声音频数据，并判断标记的背景声音频数据中是否存在包含预设背景声标签的第一背景声音频数据，如果标记的背景声音频数据中存在包含预设背景声标签的第一背景声音频数据，则从标记后的背景声音频数据中获取背景声标签不为预设背景声标签的第二背景声音频数据，并从待降噪视频文件中剔除该第二背景声音频数据，得到包含第一背景声音频数据和该人声音频数据的目标视频文件。其中，该背景声标签包括但不限于风声对应的标签、海浪声对应的标签、音乐背景声对应的标签，该背景声分类模型通过机器学习得到的，具体为收集大数据量的背景声音频数据，并通过大数据量的背景声音频数据，对背景声分类模型进行训练，直到背景声分类模型收敛，然后将收敛后的背景声分类模型固化在移动终端中。需要说明的是，该预设背景声标签对应的背景声音频数据对人声的影响较小，上述预设背景声标签可由用户基于实际情况自行设置，本实施例对此不作具体限定。降噪后得到的目标视频文件中包含人声音频数据和对人声影响较小的背景声音频数据，可以在保证一定背景声的同时，提高视频中人声的清晰度。

本实施例中，本发明当监测到视频降噪指令时，依据该视频降噪指令获取待降噪视频文件，并从该待降噪视频文件中分离出人声音频数据和背景声音频数据，然后依据预设降噪算法、人声音频数据和背景声音频数据，对待降噪视频文件执行对应的降噪操作，得到目标视频文件，通过对视频文件进行降噪操作，可以减少录制的视频中背景声对人声的影响，有效的提高视频中人声的清晰度。

进一步地，基于上述第一实施例，提出了本发明视频降噪方法第二实施例，与前述实施例的区别在于，如果标记的背景声音频数据中不存在包含预设背景声标签的第一背景声音频数据，则该移动终端显示背景声剔除界面，以供用户基于该背景声剔除界面选择需要剔除的背景声音频数据对应的背景声标签，并接收基于背景声剔除界面选择的第一背景声标签，然后从标记后的背景声音频数据中获取背景声标签为该第一背景声标签的第三背景声音频数据，并从标记后的背景声音频数据中获取背景声标签不为该第一背景声标签的第四背景声音频数据，最后从待降噪视频文件中剔除第三背景声音频数据，得到包含第四背景声音频数据和人声音频数据的目标视频文件。

具体实施中，在得到包含第四背景声音频数据和人声音频数据的目标视频文件之后，还可以获取预设声纹，并从该人声音频数据中获取包含该预设声纹的一人声音频数据和不包含该预设声纹的另一人声音频数据，然后从目标视频文件中剔除包含该预设声纹的一人声音频数据，得到包含第四背景声音频数据和不包含该预设声纹的另一人声音频数据的视频文件。

进一步地，在得到包含第四背景声音频数据和人声音频数据的目标视频文件之后，可以获取第四背景声音频数据的背景声标签，并判断预设背景声库中是否存在与该背景声标签对应的背景声音频数据，如果预设背景声库中不存在与该背景声标签对应的背景声音频数据，则将该第四背景声音频数据存储至预设背景声库中，如果预设背景声库中存在与该背景声标签对应的背景声音频数据，则不作处理。

本实施例中，本发明通过显示背景声剔除界面，供用户选择需要剔除的背景声音频数据对应的背景声标签，然后移动终端在待降噪视频文件中剔除该背景声标签对应的背景声音频数据，能够在保留一定背景声的同时，提高视频中人声的清晰度。

进一步地，基于上述第一或第二实施例，提出了本发明视频降噪方法的第三实施例，与前述实施例的区别在于，在得到目标视频文件之后，还可以在目标视频文件中配置背景声，具体为当监测到背景声配置指令时，该移动终端显示背景声配置界面，并接收用户基于该背景音配置界面选择的第二背景声标签，然后获取预设背景声库，并从预设背景声库中获取与第二背景声标签对应的第五背景声音频数据，且将第五背景声音频数据插入至该目标视频文件中。可以在目标视频文件中加入背景声，可以在保留一定背景声的同时，提高视频中人声的清晰度。

进一步地，当监测到背景声入库指令时，该移动终端依据该背景声入库指令，获取对应的视频文件，并从该视频文件中分离出背景声音频数据，然后基于预设的背景声分类模型，对该背景声音频数据中的各种背景声进行标记，得到包含若干背景声标签的背景声音频数据，并显示背景声入库界面，且接收基于该背景声入库界面选择的第三背景声标签，最后从标记的背景声音频数据中获取背景声标签为该第三背景声标签的第六背景声音频数据，并量将第六背景声音频数据存储至预设背景声库中。实现背景音的入库，便于后续获取。具体实施中，当监测到背景声删除指令时，从背景声删除指令中获取第四背景声标签，并从预设背景声库中删除第四背景声标签对应的背景声音频数据。

本实施例中，本发明还可以将背景声加入视频文件中，可以在保留背景声的同时，提高视频中人声的清晰度。

本发明还提供一种视频降噪装置，该视频降噪装置包括：

获取模块，用于当监测到视频降噪指令时，依据所述视频降噪指令获取待降噪视频文件；

数据分离模块，用于从所述待降噪视频文件中分离出人声音频数据和背景声音频数据；

降噪模块，用于依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件。

进一步地，所述降噪模块还用于：

进一步地，所述视频降噪装置还包括：

显示模块，用于当监测到背景声配置指令时，显示背景声配置界面，并接收基于所述背景音配置界面选择的第二背景声标签；

所述获取模块，用于获取预设背景声库，并从所述预设背景声库中获取与所述第二背景声标签对应的第五背景声音频数据；

背景音插入模块，用于将所述第五背景声音频数据插入至所述目标视频文件中。

进一步地，所述视频降噪装置还包括：

所述获取模块，还用于当监测到背景声入库指令时，依据所述背景声入库指令，获取对应的视频文件；

所述数据分离模块，还用于从所述视频文件中分离出背景声音频数据；

所述数据分离模块，还用于基于预设的背景声分类模型，对所述背景声音频数据中的各种背景声进行标记，得到包含若干背景声标签的背景声音频数据；

所述显示模块，还用于显示背景声入库界面，并接收基于所述背景声入库界面选择的第三背景声标签；

所述获取模块，还用于从标记的背景声音频数据中获取背景声标签为所述第三背景声标签的第六背景声音频数据；

存储模块，用于将所述第六背景声音频数据存储至所述预设背景声库中。

进一步地，所述视频降噪装置还包括：

背景声删除模块，用于当监测到背景声删除指令时，从所述背景声删除指令中获取第四背景声标签，并从预设背景声库中删除所述第四背景声标签对应的背景声音频数据。

其中，上述视频降噪装置的具体实施例与上述视频降噪方法的各实施例基本相同，在此不作赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频降噪程序，所述视频降噪程序被处理器执行时实现以下步骤：

进一步地，所述视频降噪程序被处理器执行时还实现以下步骤：

将所述第五背景声音频数据插入至所述目标视频文件中。

将所述第六背景声音频数据存储至所述预设背景声库中。

其中，本发明计算机可读存储介质的具体实施例与上述视频降噪方法的各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频降噪方法，其特征在于，所述视频降噪方法包括以下步骤：

依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件；

所述依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件的步骤包括：

从所述待降噪视频文件中剔除所述第二背景声音频数据，得到包含所述第一背景声音频数据和所述人声音频数据的目标视频文件；

所述判断标记的背景声音频数据中是否存在包含预设背景声标签的第一背景声音频数据的步骤之后，还包括：

从所述待降噪视频文件中剔除所述第三背景声音频数据，得到包含所述第四背景声音频数据和所述人声音频数据的目标视频文件；

其中，

所述背景声标签包括风声对应的标签、海浪声对应的标签以及音乐背景声对应的标签；

移动终端中安装有用于视频降噪的程序应用，所述程序应用的桌面图标被触控时，所述移动终端显示对应的视频降噪界面，且所述视频降噪界面显示有本地视频降噪控件和实时视频降噪控件；

当监测到所述视频降噪界面中的所述本地视频降噪控件被触控时，所述移动终端显示本地视频选择界面，并接收基于所述本地视频选择界面选择的待降噪视频文件，且切换到所述视频降噪界面，当监测到所述视频降噪界面中的开始降噪控件被触控时，触发对应的视频降噪指令；

当监测到所述视频降噪界面中的所述实时视频降噪控件被触控时，所述移动终端调用摄像头开始录制视频，并在录制视频结束后，将录制得到的视频文件作为待降噪视频文件，且切换到所述视频降噪界面，并当监测到所述视频降噪界面中的所述开始降噪控件被触控时，触发对应的视频降噪指令。

2.如权利要求1所述的视频降噪方法，其特征在于，所述依据预设降噪算法、所述人声音频数据和所述背景声音频数据，对所述待降噪视频文件执行对应的降噪操作，得到目标视频文件的步骤之后，还包括：

当监测到背景声配置指令时，显示背景声配置界面，并接收基于所述背景声配置界面选择的第二背景声标签；

将所述第五背景声音频数据插入至所述目标视频文件中。

3.如权利要求2所述的视频降噪方法，其特征在于，所述视频降噪方法还包括:

将所述第六背景声音频数据存储至所述预设背景声库中。

4.如权利要求3所述的视频降噪方法，其特征在于，所述视频降噪方法还包括:

5.一种移动终端，其特征在于，所述移动终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频降噪程序，所述视频降噪程序被所述处理器执行时实现如权利要求1至4中任一项所述的视频降噪方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频降噪程序，所述视频降噪程序被处理器执行时实现如权利要求1至4中任一项所述的视频降噪方法的步骤。