CN107369450A

CN107369450A - 收录方法和收录装置

Info

Publication number: CN107369450A
Application number: CN201710665002.6A
Authority: CN
Inventors: 郭昌雄; 吴剑海; 瞿向雷; 李君�; 杜歆文; 金圣韬; 仲亚军; 孟琳
Original assignee: Suzhou Broadcasting Syetem
Current assignee: Suzhou Broadcasting Syetem
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-11-21
Anticipated expiration: 2037-08-07
Also published as: CN107369450B

Abstract

本发明公开了一种收录方法和收录装置，该收录方法包括：根据电子节目指南设置语音识别任务；根据智能处理服务器的状态分发所述语音识别任务；所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理，并存储语音识别处理后的文字信息，从而用户可以通过与所述文字信息相关的关键字搜索到相应的视频素材。本发明的技术方案根据电子节目指南设置语音识别任务，通过智能语音识别，自动的将收录素材语音信息识别并呈现为文字信息；素材管理平台可根据语音信息快速定位素材，给后期生产平台提供有力的支持。

Description

收录方法和收录装置

技术领域

本发明涉及媒资管理技术领域，具体而言，涉及一种收录方法和收录装置。

背景技术

随着节目生产全流程的数字化、网络化、信息化，以及互联网和移动互联网的发展，传统电视逐渐与互联网进行融合，由此电视台有了“融媒体”业务的需求。同时，为了应对媒介发展新格局，为包括电视、广播、网站、手机、互联网电视在内的媒体平台提供内容的共享、管理和生产服务。

随着视频素材量呈现爆炸式增长，为了更好的利用视频资源，对接融媒体生产平台，为台内生产提供服务，提出一种收录节目内容方法迫在眉睫。

发明内容

鉴于上述问题，本发明提供了一种新的收录方法和收录装置。

本发明的一个实施方式提供一种收录方法，包括：

根据电子节目指南设置语音识别任务；

根据智能处理服务器的状态分发所述语音识别任务；

所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理，并存储语音识别处理后的文字信息。

在上述的收录方法中，从外部系统接口接收所述电子节目指南。

在上述的收录方法中，所述智能处理服务器通过访问索引文件获取所述视频素材。

在上述的收录方法中，在所述视频素材进行语音识别处理的同时，所述智能处理服务器对所述视频素材进行拆条处理。

在上述的收录方法中，所述拆条处理包括转场识别处理、人脸识别处理和字幕识别处理。

本发明的另一实施方式提供一种收录装置，包括：

语音识别任务设置模块，根据电子节目指南设置语音识别任务；

任务分发模块，根据智能处理服务器的状态分发所述语音识别任务；

存储模块，所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理，并存储语音识别处理后的文字信息。

在上述的收录装置中，电子节目指南获取模块，从外部系统接口接收所述电子节目指南。

在上述的收录装置中，所述智能处理服务器通过访问索引文件获取所述视频素材。

在上述的收录装置中，在所述视频素材进行语音识别处理的同时，所述智能处理服务器对所述视频素材进行拆条处理。

在上述的收录装置中，所述拆条处理包括转场识别处理、人脸识别处理和字幕识别处理。

本发明的技术方案根据电子节目指南设置语音识别任务，通过建设收录系统同时提供智能语音识别，通过智能语音识别，自动地将收录素材语音信息识别并呈现为文字信息；素材管理平台可根据语音识别信息快速定位素材，给后期生产平台提供有力的支持。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。

图1示出了实施例1的收录方法的流程图。

图2示出了实施例2的收录装置的示意结构图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本发明的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本发明的各种实施例中，表述“A或/和B中的至少一个”包括同时列出的文字的任何组合或所有组合。例如，表述“A或/和B中的至少一个”可包括A、可包括B或可包括A和B二者。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明用于智能电视系统、转码中心进行配合工作，获取保存在共享区域的收录文件，通过智能语音识别服务器处理可供广播电视台内其他系统使用。

实施例1

图1示出了实施例1的收录方法的流程图。

在步骤S110中，根据电子节目指南设置语音识别任务。

电子节目指南(EPG：Electronic Program Guide)包含了每天收录的所有频道的播出单。针对需要语音识别处理的视频节目设置语音识别任务，例如，可以设置在一段时期内，对每天19:00-19:30CCTV1新闻联播执行语音识别。

可以从诸如智能电视系统的外部系统接口获取电子节目指南。

在步骤S120中，根据智能处理服务器的状态分发所述语音识别任务。

由于广播电视台存在各种各样的大量信息、任务需要处理，可能有多个智能处理服务器对这些信息、任务进行处理。因此，可以根据智能处理服务器的当前状态来分配语音识别任务，例如，可以将更多的任务分配给相对空闲的智能处理服务器。

在步骤S130中，在所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理后，存储语音识别处理后的文字信息。

智能处理服务器可通过访问索引文件获取所述视频素材。例如，智能处理服务器从共享文件夹中访问m3u8而获取视频素材。切片服务器可读取EPG信息生成m3u8文件。也可通过ffmpeg将H264和AAC编码的MP4文件进行切片处理，生成m3u8播放列表(索引文件)和多个.ts文件，并将其(m3u8、多个ts)放置指定目录下。m3u8是文件索引，一档节目录制下来会有很多数据文件，可形成一个m3u8文件索引。

智能处理服务器对相应的视频素材进行语音识别处理以获得相应的文字信息。

语音识别包括两个阶段：训练和识别。为了更好的进行语音识别，智能处理服务器可以是经提前训练的智能处理服务器。不管是训练还是识别，都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出。这样，最终就达到了语音识别的目的。

在视频素材进行语音识别处理的同时，智能处理服务器可以对所述视频素材进行拆条处理。

拆条处理主要根据转场识别技术和人脸识别技术。转场识别技术识别出视频中镜头转换的画面，为后续智能识别处理提供帧精确处理数据。转场识别技术基于直方图的切变镜头自动检测算法，保证识别的准确性。

转场识别是在收录素材迁移的环节进行，通过底层识别库自动抽取素材转场帧来辅助快速定位片段切点，节省了拆条时seek素材的时间，尤其对新闻类节目的拆条效率有很大提升。拆条客户端在执行拆条素材审核时会根据数据库中记录的素材信息，自动加载素材对应的转场帧，用户可直接对转场帧进行操作。对于收录素材的边采边编，刷新素材的同时也实现了转场帧的刷新加载。

人脸识别技术主要应用于新闻主持人画面的精确定位，为后续智能处理区分主持人画面和其他画面提供基础数据。

例如，可首先对新闻视频解码，解码后进行分组，例如每5帧为一组，然后利用例如opencv技术进行人脸识别，通过直方图进行相关性分析后形成片段，再选取关键帧。然后，可利用多尺度LBP特性、直方图、Hog特征、hash指纹等进行相似度分析，最后通过分类统计确定主持人。

此外，拆条处理还可以采用字幕识别技术，节目画面中往往已经有编辑好的标题，可以直接用于拆条后素材片段的标题，使用字幕识别技术，拆条系统只需要框选需要识别的标题画面，系统会自动将画面识别成标题文字，简单快捷。

在上述实施例1中，因为使用了电子节目指南(EPG)来进行定位，从而可以准确定位识别素材属于哪档节目、准确定位节目的开始位置，而不需要现有技术中通常采用的画面识别技术，从而大大减轻了数据处理量，而且定位更准确。

根据上述实施例1，根据电子节目指南设置语音识别任务，通过建设收录系统同时提供智能语音识别，通过智能语音识别，自动地将收录素材语音信息识别并呈现为文字信息；在将视频素材语音识别为文字信息后，支持全文检索，用户在例如检索框输入对应关键字后能定位到具体的视频素材，即素材管理平台可根据语音信息快速定位素材，给后期生产平台提供了有力的支持。

实施例2

图2示出了实施例2的收录装置的结构示意图。

收录装置200包括语音识别任务设置模块210，根据电子节目指南设置语音识别任务。

任务分发模块220，根据智能处理服务器的状态分发所述语音识别任务。

存储模块230，在所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理后存储语音识别后的文件。

此外，在视频素材进行语音识别处理的同时，智能处理服务器可以对所述视频素材进行拆条处理。如上文所述，拆条处理主要根据转场识别技术和人脸识别技术，还可采用字幕识别技术。

在上述实施例2中，因为使用了电子节目指南(EPG)来进行定位，从而可以准确定位识别素材属于哪档节目、准确定位节目的开始位置，而不需要现有技术中通常采用的画面识别技术，从而大大减轻了数据处理量，而且定位更准确。

根据上述实施例2，根据电子节目指南设置语音识别任务，通过建设收录系统同时提供智能语音识别，通过智能语音识别，自动地将收录素材语音信息识别并呈现为文字信息；在将视频素材语音识别为文字信息后，支持全文检索，用户在例如检索框输入对应关键字后能定位到具体的视频素材，素材管理平台可根据语音信息快速定位素材，给后期生产平台提供了有力的支持。

收录系统可包括两部分：一部分是后台服务部分，另一部分是应用部分。

系统所用存储和交换均为标准设备，系统采用以太单网架构，便于建设及维护。为保证系统安全、稳定，所有服务器可采用双机热备方式部署。

收录系统中的资料根据需要可进行下载，通过调用广播电视台内离线转码中心服务，可将打点部分内容下载转码后迁移到目标系统。

后台服务模块：收录系统将提供数据服务、收录服务、关键帧服务、智能分发服务、接口服务、智能内容语音识别服务。

应用服务模块：收录系统将提供B/S应用服务，包括检索、资料预览、打点、下载等应用。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是例如个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种收录方法，其特征在于，包括：

根据电子节目指南设置语音识别任务；

根据智能处理服务器的状态分发所述语音识别任务；

所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理，并存储语音识别处理后的文字信息，从而用户可以通过与所述文字信息相关的关键字搜索到相应的视频素材。

2.根据权利要求1所述的收录方法，其特征在于，

从外部系统接口接收所述电子节目指南。

3.根据权利要求1所述的收录方法，其特征在于，

所述智能处理服务器通过访问索引文件获取所述视频素材。

4.根据权利要求1所述的收录方法，其特征在于，

在所述视频素材进行语音识别处理的同时，所述智能处理服务器对所述视频素材进行拆条处理。

5.根据权利要求4所述的收录方法，其特征在于，

所述拆条处理包括转场识别处理、人脸识别处理和字幕识别处理。

6.一种收录装置，其特征在于，包括：

存储模块，在所述智能处理服务器根据所述语音识别任务对相应的视频素材进行语音识别处理后存储语音识别处理后的文字信息，从而用户可以通过与所述文字信息相关的关键字搜索到相应的视频素材。

7.根据权利要求6所述的收录装置，其特征在于，

电子节目指南获取模块，从外部系统接口接收所述电子节目指南。

8.根据权利要求6所述的收录装置，其特征在于，

所述智能处理服务器通过访问索引文件获取所述视频素材。

9.根据权利要求6所述的收录装置，其特征在于，

10.根据权利要求9所述的收录装置，其特征在于，