CN104038792B - 用于iptv监管的视频内容分析方法及设备 - Google Patents
用于iptv监管的视频内容分析方法及设备 Download PDFInfo
- Publication number
- CN104038792B CN104038792B CN201410245373.5A CN201410245373A CN104038792B CN 104038792 B CN104038792 B CN 104038792B CN 201410245373 A CN201410245373 A CN 201410245373A CN 104038792 B CN104038792 B CN 104038792B
- Authority
- CN
- China
- Prior art keywords
- semantic
- visual
- video content
- feature
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于IPTV监管的视频内容分析方法及设备。方法包括:对待分析视频内容在时间域和空间域的稳定性进行分析,确定视频内容中需要进行语义识别的目标区域;根据目标区域的纹理特性确定目标区域中可以表征目标区域的特征点,并计算特征点的特征描述子;将特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得特征描述子的语义标注,视觉树检索库包含已标注视觉词和已标注视觉词的语义标注;根据特征描述子的语义标注,确定目标区域的语义标注。本发明技术方案可以实现对具多样性、复杂性、实时性等特点的视频内容的分析,解决IPTV监管场景下的应用需求。
Description
【技术领域】
本发明涉及互联网协议电视(Internet Protocol Television,IPTV)技术领域,尤其涉及一种用于IPTV监管的视频内容分析方法及设备。
【背景技术】
作为广播电视传播的新形式,IPTV以广域宽带网络为基础通过一定的网络协议为用户提供广播电视服务。在此技术形态下,视频内容的数量和大小都呈几何级数增长,同时视频内容提供商呈现多元化特点,这些使得视频内容呈现一定的多样性、复杂性、实时性。从IPTV监管的角度来说,需要对所监管的视频内容所体现的意识形态进行深入的分析,并通过分析结果帮助监管决策。
现有用于IPTV监管场景的视频内容分析方法主要是场景检测技术。场景检测技术利用场景内的总体信息来对场景进行地理信息分析,能够提供场景的特性,场景检测属于概括性分析,其分析目标不明确,无法针对视频内容中特定目标所体现的意识形态给出具体的分析语义,不适于IPTV监管应用场景。针对IPTV监管场景,需要一种可以对具有多样性、复杂性、实时性等特点的视频内容进行分析的方法。
【发明内容】
本发明的多个方面提供一种用于IPTV监管的视频内容分析方法及设备,用以实现对具多样性、复杂性、实时性等特点的视频内容的分析,解决IPTV监管场景下的应用需求。
本发明的一方面,提供一种用于IPTV监管的视频内容分析方法,包括:
对待分析视频内容在时间域和空间域的稳定性进行分析,确定所述视频内容中需要进行语义识别的目标区域;
根据所述目标区域的纹理特性确定所述目标区域中可以表征所述目标区域的特征点,并计算所述特征点的特征描述子;
将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注,所述视觉树检索库包含已标注视觉词和所述已标注视觉词的语义标注;
根据所述特征描述子的语义标注,确定所述目标区域的语义标注。
本发明的另一方面,提供一种用于IPTV监管的视频内容分析设备,包括:
第一确定模块,用于对待分析视频内容在时间域和空间域的稳定性进行分析,确定所述视频内容中需要进行语义识别的目标区域;
第二确定模块,用于根据所述目标区域的纹理特性确定所述目标区域中可以表征所述目标区域的特征点;
计算模块,用于计算所述特征点的特征描述子;
查找模块,用于将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注,所述视觉树检索库包含已标注视觉词和所述已标注视觉词的语义标注;
第三确定模块,用于根据所述特征描述子的语义标注,确定所述目标区域的语义标注。
在本发明技术方案中,对视频内容在时间域和空间域的稳定性同时进行分析,有利于确定视频内容中各种需要进行语义识别的区域,另外本发明通过视觉树检索库存储已标注视觉词及对应的语义标注,通过丰富已标注视觉词的大小和种类,有利于提高对目标区域的识别精度,由此可见,本发明技术方案可用于对具多样性、复杂性、实时性等特点的视频内容进行分析,解决了IPTV监管场景下的应用需求。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的用于IPTV监管的视频内容分析方法的流程示意图;
图2为本发明一实施例提供的步骤101的一种实施方式的流程示意图;
图3为本发明一实施例提供的用于对快速角点检测算法进行说明的示意图;
图4为本发明一实施例提供的视觉树检索库的结构示意图;
图5为本发明一实施例提供的用于IPTV监管的视频内容分析设备的结构示意图;
图6为本发明一实施例提供的第一确定模块51的一种结构示意图;
图7为本发明一实施例提供的第三确定模块55的一种结构示意图;
图8为本发明另一实施例提供的用于IPTV监管的视频内容分析设备的结构示意图;
图9为本发明一实施例提供的查找模块54的一种结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的用于IPTV监管的视频内容分析方法的流程图。如图1所示,该方法包括:
101、对待分析视频内容在时间域和空间域的稳定性进行分析,确定该视频内容中需要进行语义识别的目标区域。
在确定待分析视频内容后,需要确定该视频内容中需要进行识别的对象,例如徽标图案、文字、人脸等。本发明实施例中将视频内容中需要进行识别的对象称为目标区域。考虑到视频内容中不同对象在时间域的特征相类似,但在空间域的特征却不相同,因此本实施例同时在时间域和空间域对该视频内容进行稳定性分析,以便确定视频内容中所有需要进行语义识别的目标区域,适应视频内容多样性、复杂性的要求。
在一可选实施方式中,步骤101的一种实施方式如图2所示,该实施方式包括:
1011、分别采用帧间差过滤法、帧均值边缘过滤法和边缘累加法对视频内容进行分析,获得三类初始区域;
1012、由上述三类初始区域进行加权综合获得特征区域;
1013、采用区域最大搜索方法和形态学处理法对上述特征区域进行处理,获得两个处理结果;
1014、基于上述两个处理结果进行区域生长处理,获得目标区域。
在本实施例中,帧间差分法主要是针对透明背景的目标区域,能够将稳定的目标区域从变化的背景中抽离出来。
帧均值边缘过滤法主要针对不透明背景的目标区域,能够将纯净背景中的目标区域分割出来。
边缘累加法是通过对视频帧二值化边缘的累加过滤,提取出边缘稳定且显著的轮廓,该方法可针对任意背景的目标区域。
在本实施例中,使用帧间差分、帧均值边缘过滤及边缘累加三种方法能够对复杂背景下的目标区域进行互补性空间域特征分析,以适应不同视频环境下的目标区域定位需求。本实施例同时采用上述三种方法对视频内容进行分析可以获得三类初始区域;之后,由上述三种方法确定的初始区域进行加权综合获得特征区域,例如,可以取三类初始区域的交集作为特征区域,或者可以取三类初始区域的并集作为特征区域等等。同时采用三种方法有利于提高识别目标区域的准确度。
在IPTV视频内容制作中制作单位为了对节目做标识或适应不同分辨率转换,往往会在视频内容的边界部分引入边框,这会对目标区域的定位产生干扰。因此,可选的,在获得特征区域后,可以通过霍夫变换(Hough Transform)将上述特征区域中可能存在的直线纹理干扰去除,从而达到去噪的目的。这个过程可以称为长直线去除处理。
在获得特征区域后,对特征区域在空间域的稳定性进行分析处理。具体的,分别采用区域最大搜索方法和形态学处理法对上述特征区域进行处理。其中,区域最大搜索方法是遍历的最大数值搜索方法,主要对上述特征区域分别进行灰度最大值搜索的处理,达到定位局部最大值位置的效果。而通过形态学处理基于既定形状的模板优化上述特征区域的外部轮廓以保证特征区域的完整性。可选的,在进行形态学处理之后,还可以对特征区域进行区域过滤。
将上述两种方法的处理结果进行区域生长处理,即将相似区域链接完成区域间的合并,并经过一定的几何特征验证以生成最终的目标区域。
进一步优选的,在确定目标区域后,可以对目标区域进行噪声过滤、合并排序等优化处理,并存储目标区域。
在此说明,上述确定的目标区域可以是一个或多个。无论目标区域是一个还是多个,对每个目标区域的处理方式均相同,如后续步骤。
102、根据上述目标区域的纹理特性确定目标区域中可以表征目标区域的特征点,并计算特征点的特征描述子。
在确定需要进行语义识别的目标区域后,可确定目标区域中的特征点,特征点是指目标区域中纹理特性能够突出表现该目标区域的区域点。其中,目标区域的纹理特性可以是灰度、梯度、曲度、高斯梯度差空间稳定性等。
在一可选实施方式中,可以采用快速角点检测算法对目标区域的纹理特性进行分析,确定特征点。结合图3简单对快速角点检测算法的过程进行说明:
假设图3中的“0”所在位置为待判断点,快速角点检测算法寻找一定邻域半径上与该待判断点灰度差异较大的连续弧线,若弧线覆盖角度达到270度即判定该点为特征点。如图3中5->9->13->1构成的弧线是与“0”点灰度差异较大的连续弧线,该弧线覆盖的角度为270。与传统的哈里斯角点检测方法不同,快速角点检测算法只需少量的像素点即可完成计算;同时由于快速角点检测算法能够以任意角度和尺度挖掘角点,此算法有一定的尺度和旋转不变性;进一步利用该算法确定特征点能够保证特征点在空间内具有一定的抗噪能力。
确定特征点之后,可以对特征点周围邻域的纹理特性进行分析,确定特诊点的特征描述子。特征点的特征描述子用于对特征点周围邻域的纹理特性进行描述。
在一可选实施方式中,可以采用尺度恒定特征变换算法计算特征点的特征描述子。尺度恒定特征变换算法的特点是通过对特征点邻域的纹理方向和相对应的强度进行混合采样编码。根据图形学理论,物体经过旋转、倾斜等刚性变换后,其纹理方向及相对应的强度绝对值恒定,就能证明采用尺度恒定特征变换算法得到的特征描述子对于旋转等目标变换有稳定的描述能力。
在此说明,目标区域中的特征点至少为一个。当特征点有多个时,特征点的特征描述子就会构成特征描述子实数矩阵,这就相当于将目标区域变换成了对应的特征描述子实数矩阵。
103、将上述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得特征描述子的语义标注;该视觉树检索库包含已标注视觉词。
在确定上述特征点的特征描述子之后,可以将特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得该特征描述子的语义标注。
其中,视觉树检索库是预先根据已标注视觉词和已标注视觉词的语义标注经过训练生成的。在本实施例中,视觉树检索库以视觉词为单位进行存储,在查找时也是以视觉词为单位进行查找。在本实施例中,视觉词是指一系列的视觉特征,例如可以是边缘,转角,弧切面的非线性组合。相应的,本实施例中的特征描述子实际上是对边缘,转角,弧切面的非线性组合的描述。
下面对本实施例预先生成视觉树检索库的过程进行说明:
第一步:对已标注视觉词进行归一化处理,获得归一化视觉词;
归一化处理实际上是将已标注视觉词最大强度等比例限幅为1,该操作可以保证已标注视觉词之间的平衡性。该归一化操作是可选的。
第二步:使用分治算法对K均值模型中的参数K进行递归二分添加,直到根据公式(1)确定的置信度落于置信区间为止;
其中,n为被分到聚类中心下的已标注视觉词的个数,n<M;M为已标注视觉词的总个数;zi为通过高斯函数对聚类中心下第i个已标注视觉词进行映射得到的分布函数。公式(1)所示置信度函数的判定测试基于概率统计分布测试(Anderson-Darling)。
第三步:根据公式(2)确定视觉树检索库的层数;
其中,M为已标注视觉词的总个数;N为视觉树检索库的层数。
第四步:对归一化视觉词进行N级递归K均值聚类处理,获得个K均值的聚类中心和KN个叶子节点;
第五步:在每一个叶子节点,统计所有被分类至该叶子节点的语义标注出现的频率并按照语义标注出现的频率进行排序,生成该叶子节点的倒排文档;
第六步:存储所有K均值的聚类中心和每个叶子节点的倒排文档,生成视觉树检索库。
基于上述生成过程,本实施例中视觉树检索库的结构如图4所示,一共有N层,个节点(包括叶子节点),每个叶子节点对应一个倒排文档。
对应上述视觉树检索库的生成过程,步骤103的一种实施方式包括:
对上述特征描述子进行归一化处理,获得归一化特征描述子;
采用余弦相似度算法在视觉树检索库中查找上述归一化特征描述子对应的叶子节点;
具体的,可以采用以下公式(3)来计算上述归一化特征描述子与当前层中各聚类中心的相似度,然后选择相似度最大的聚类中心所在的节点,继续往下搜索直到到达叶子节点。
其中,表示计算出的相似度;
Ai表示上述归一化特征描述子中第i个离散值;
Bi表示视觉树检索库当前层的聚类中心的第i个离散值;
m表示特征描述子或聚类中心的维度。其中,特征描述子的维度和聚类中心的维度相同,维度也就是特征描述子或聚类中心包含的离散值的个数。
在上述归一化特征描述子对应的叶子节点的倒排文档中,选择出现频率最高的y个语义标注作为待定语义标注;
采用随机采样一致性算法计算每个待定语义标注的置信度,选择置信度最高的待定语义标注作为上述特征描述子的语义标注。
y是自然数,且小于倒排文档中出现的语义标注的个数。
本实施例采用视觉树检索库在检索速度上有着极大的优势。假设视觉树检索库中已标注视觉词的总个数为M,视觉树检索库为N层K均值结构,则采用视觉树检索库的搜索速度可以达到传统图像检索算法的M/(N×K)倍。而在IPTV监管的实际应用中,为了满足视频内容中目标多样性的需求,M往往在百万量级,而N×K的大小往往只有千位量级,由此可见本实施例在检索速度上有极大的提升。
104、根据上述特征描述子的语义标注,确定目标区域的语义标注。
步骤104的一种实施方式包括:
对所有特征描述子的语义标注进行汇总,确定同一语义标注出现的次数,选择次数出现最多的x个语义标注作为候选语义标注;
采用随机采样一致性算法计算每个候选语义标注的置信度,选择置信度最高的候选语义标注作为目标区域的语义标注;
其中,x为自然数,且小于上述汇总出的语义标注的个数。
在上述步骤103的实施方式的基础上,本发明的一可选实施方式还可以在确定目标区域的语义标注之后,将该目标区域的语义标注添加到该目标区域对应的归一化特征描述子对应的叶子节点的倒排文档中。这样可以不断丰富视觉树检索库,以便于对后续视频内容进行更高效、更准确的语义识别,有利于满足应用场景对实时性的要求。
在此说明,将目标区域的语义标注添加对应的倒排文档中的过程,与在视觉树检索库中查找特征描述子的语义标注的过程相类似,两者的区别在于找到叶子节点之后的操作有所不同。对将目标区域的语义标注添加对应的倒排文档中的过程来说,在找到对应的叶子节点之后,判断叶子节点对应的倒排文档中是否存在该目标区域对应的语义标注,如果存在就将该语义标注的出现频率加1;如果不存在,则将该语义标注加到该倒排文档中。
进一步可选的,在将目标区域的语义标注添加到对应叶子节点的倒排文档之前,可以人工对上面方法确定出的目标区域的语义标注进行判断,以保证加入倒排文档中的语义标注的正确性,有利于提高基于视觉树检索库对后续视频内容进行识别时的准确性。
在本实施例中,对视频内容在时间域和空间域的稳定性同时进行分析,有利于确定视频内容中各种需要进行语义识别的区域,另外本发明通过视觉树检索库存储已标注视觉词及对应的语义标注,通过丰富已标注视觉词的大小和种类,有利于提高对目标区域的识别精度,由此可见,本实施例可用于对具多样性、复杂性、实时性等特点的视频内容进行分析,解决了IPTV监管场景下的应用需求。
在视频内容中定位和识别台标区域本质上来说是不适定问题,即单独的使用任何视觉定位或检索方法都无法将台标内容识别出来。但是采用本实施例提供的方法可以将台标从视频内容中识别出来,是本发明技术方案的一种应用场景,具体流程可参见上面实施例。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图5为本发明一实施例提供的用于IPTV监管的视频内容分析设备的结构示意图。如图5所示,该设备包括:第一确定模块51、第二确定模块52、计算模块53、查找模块54和第三确定模块55。
第一确定模块51,用于对待分析视频内容在时间域和空间域的稳定性进行分析,确定视频内容中需要进行语义识别的目标区域。
第二确定模块52,与第一确定模块51连接,用于根据第一确定模块51所确定的目标区域的纹理特性确定目标区域中可以表征该目标区域的特征点。
计算模块53,与第二确定模块52连接,用于计算第二确定模块52所确定的特征点的特征描述子。
查找模块54,与计算模块53连接,用于将计算模块53计算出的特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得该特征描述子的语义标注,该视觉树检索库包含已标注视觉词和已标注视觉词的语义标注。
第三确定模块55,与查找模块54连接,用于根据查找模块54获得的特征描述子的语义标注,确定目标区域的语义标注。
在一可选实施方式中,如图6所示,第一确定模块51包括:时域分析单元511和空域分析单元512。
时域分析单元511,用于分别采用帧间差过滤法、帧均值边缘过滤法和边缘累加法对视频内容进行分析,获得三类初始区域,由这三类初始区域进行加权综合获得特征区域。
空域分析单元512,与时域分析单元511连接,用于采用区域最大搜索方法和形态学处理法对时域分析单元511获得的特征区域进行处理,获得两个处理结果,基于这两个处理结果进行区域生长处理,获得目标区域。空域分析单元512与第二确定模块52连接(未示出),用于向第二确定模块52提供目标区域。
在一可选实施方式中,第二确定模块52具体可用于采用快速角点检测算法对目标区域的纹理特性进行分析,确定特征点。
在一可选实施方式中,如图7所示,第三确定模块55包括:第一选择单元551和第一确定单元552。
第一选择单元551,用于对查找模块54获得的所有特征描述子的语义标注进行汇总,确定同一语义标注出现的次数,选择次数出现最多的x个语义标注作为候选语义标注;
第一确定单元552,与第一选择单元551连接,用于采用随机采样一致性算法计算由第一选择单元551选择出的每个候选语义标注的置信度,选择置信度最高的候选语义标注作为目标区域的语义标注;
其中,x为自然数。
在一可选实施方式中,如图8所示,该视频内容分析设备还包括:归一化模块56、第四确定模块57和生成模块58。
归一化模块56,用于对已标注视觉词进行归一化处理,获得归一化视觉词。
第四确定模块57,用于使用分治算法对K均值模型中的参数K进行递归二分添加,直到根据公式(1)确定的置信度落于置信区间为止,并根据公式(2)确定视觉树检索库的层数。关于公式(1)和公式(2)可参见前述方法实施例的描述。
生成模块58,与归一化模块56和第四确定模块57连接,用于对归一化模块56获得的归一化视觉词进行N级递归K均值聚类处理,获得个K均值的聚类中心和KN个叶子节点,在每一个叶子节点,统计所有被分类至所述叶子节点的语义标注出现的频率并按照语义标注出现的频率进行排序,生成该叶子节点的倒排文档,存储所有K均值的聚类中心和每个叶子节点的倒排文档,生成视觉树检索库。生成模块58还与查找模块54连接,用于向查找模块54提供视觉树检索库。
在一可选实施方式中,如图9所示,查找模块54包括:归一化单元541、查找单元542、第二选择单元543和第二确定单元544。
归一化单元541,用于对计算模块53计算出的特征描述子进行归一化处理,获得归一化特征描述子;
查找单元542,与归一化单元541连接,用于采用余弦相似度算法在视觉树检索库中查找归一化单元541获得的归一化特征描述子对应的叶子节点;
第二选择单元543,与查找单元542连接,用于在查找单元542查找到的归一化特征描述子对应的叶子节点的倒排文档中,选择出现频率最高的y个语义标注作为待定语义标注;
第二确定单元544,与第二选择单元543连接,用于采用随机采样一致性算法计算由第二选择单元543选择的每个待定语义标注的置信度,选择置信度最高的待定语义标注作为特征描述子的语义标注;其中,y为自然数。第二确定单元54还与第三确定模块55连接(未示出),用于向第三确定模块55提供特征描述子的语义标注。
本实施例提供的视频内容分析设备的各功能模块或单元可用于执行上述方法实施例的流程,其具体工作原理不再赘述,详见方法实施例的描述。
本实施例提供的视频内容分析设备,对视频内容在时间域和空间域的稳定性同时进行分析,有利于确定视频内容中各种需要进行语义识别的区域,另外本实施例提供的设备通过视觉树检索库存储已标注视觉词及对应的语义标注,通过丰富已标注视觉词的大小和种类,有利于提高对目标区域的识别精度。由此可见,本实施例提供的设备可用于对具多样性、复杂性、实时性等特点的视频内容进行分析,解决了IPTV监管场景下的应用需求。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于互联网协议电视IPTV监管的视频内容分析方法,其特征在于,包括:
对待分析视频内容在时间域和空间域的稳定性进行分析,确定所述视频内容中需要进行语义识别的目标区域;
根据所述目标区域的纹理特性确定所述目标区域中可以表征所述目标区域的特征点,并计算所述特征点的特征描述子;
将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注,所述视觉树检索库包含已标注视觉词和所述已标注视觉词的语义标注;
根据所述特征描述子的语义标注,确定所述目标区域的语义标注;其中,
所述对待分析视频内容在时间域和空间域的稳定性进行分析,确定所述视频内容中需要进行语义识别的目标区域,包括:
分别采用帧间差过滤法、帧均值边缘过滤法和边缘累加法对所述视频内容进行分析,获得三类初始区域;
由所述三类初始区域进行加权综合获得特征区域;
采用区域最大搜索方法和形态学处理法对所述特征区域进行处理,获得两个处理结果;
基于所述两个处理结果进行区域生长处理,获得所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标区域的纹理特性确定所述目标区域中可以表征所述目标区域的特征点,并计算所述特征点的特征描述子,包括:
采用快速角点检测算法对所述目标区域的纹理特性进行分析,确定所述特征点。
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征描述子的语义标注,确定所述目标区域的语义标注,包括:
对所有所述特征描述子的语义标注进行汇总,确定同一语义标注出现的次数,选择次数出现最多的x个语义标注作为候选语义标注;
采用随机采样一致性算法计算每个所述候选语义标注的置信度,选择置信度最高的候选语义标注作为所述目标区域的语义标注;
其中,x为自然数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注之前,还包括:
对所述已标注视觉词进行归一化处理,获得归一化视觉词;
使用分治算法对K均值模型中的参数K进行递归二分添加,直到根据公式确定的置信度落于置信区间为止;
根据公式确定所述视觉树检索库的层数;
对所述归一化视觉词进行N级递归K均值聚类处理,获得个K均值的聚类中心和KN个叶子节点;
在每一个叶子节点,统计所有被分类至所述叶子节点的语义标注出现的频率并按照语义标注出现的频率进行排序,生成所述叶子节点的倒排文档;
存储所有K均值的聚类中心和每个叶子节点的倒排文档,生成所述视觉树检索库;
其中,
M为所述已标注视觉词的总个数;
N为所述视觉树检索库的层数;
n为被分到聚类中心下的所述已标注视觉词的个数,n<M;
zi为通过高斯函数对聚类中心下第i个所述已标注视觉词进行映射得到的映射值。
5.根据权利要求4所述的方法,其特征在于,所述将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注,包括:
对所述特征描述子进行归一化处理,获得归一化特征描述子;
采用余弦相似度算法在所述视觉树检索库中查找所述归一化特征描述子对应的叶子节点;
在所述归一化特征描述子对应的叶子节点的倒排文档中,选择出现频率最高的y个语义标注作为待定语义标注;
采用随机采样一致性算法计算每个所述待定语义标注的置信度,选择置信度最高的待定语义标注作为所述特征描述子的语义标注;
其中,y为自然数。
6.一种用于IPTV监管的视频内容分析设备,其特征在于,包括:
第一确定模块,用于对待分析视频内容在时间域和空间域的稳定性进行分析,确定所述视频内容中需要进行语义识别的目标区域;
第二确定模块,用于根据所述目标区域的纹理特性确定所述目标区域中可以表征所述目标区域的特征点;
计算模块,用于计算所述特征点的特征描述子;
查找模块,用于将所述特征描述子作为待标注的视觉词,在预先生成的视觉树检索库中进行匹配处理,获得所述特征描述子的语义标注,所述视觉树检索库包含已标注视觉词和所述已标注视觉词的语义标注;
第三确定模块,用于根据所述特征描述子的语义标注,确定所述目标区域的语义标注;其中,
所述第一确定模块包括:
时间域分析单元,用于分别采用帧间差过滤法、帧均值边缘过滤法和边缘累加法对所述视频内容进行分析,获得三类初始区域,由所述三类初始区域进行加权综合获得特征区域;
空间域分析单元,用于采用区域最大搜索方法和形态学处理法对所述特征区域进行处理,获得两个处理结果,基于所述两个处理结果进行区域生长处理,获得所述目标区域。
7.根据权利要求6所述的设备,其特征在于,所述第二确定模块具体用于采用快速角点检测算法对所述目标区域的纹理特性进行分析,确定所述特征点。
8.根据权利要求6所述的设备,其特征在于,所述第三确定模块包括:
第一选择单元,用于对所有所述特征描述子的语义标注进行汇总,确定同一语义标注出现的次数,选择次数出现最多的x个语义标注作为候选语义标注;
第一确定单元,用于采用随机采样一致性算法计算每个所述候选语义标注的置信度,选择置信度最高的候选语义标注作为所述目标区域的语义标注;
其中,x为自然数。
9.根据权利要求6-8任一项所述的设备,其特征在于,还包括:
归一化模块,用于对所述已标注视觉词进行归一化处理,获得归一化视觉词;
第四确定模块,用于使用分治算法对K均值模型中的参数K进行递归二分添加,直到根据公式确定的置信度落于置信区间为止,并根据公式确定所述视觉树检索库的层数;
生成模块,用于对所述归一化视觉词进行N级递归K均值聚类处理,获得个K均值的聚类中心和KN个叶子节点,在每一个叶子节点,统计所有被分类至所述叶子节点的语义标注出现的频率并按照语义标注出现的频率进行排序,生成所述叶子节点的倒排文档,存储所有K均值的聚类中心和每个叶子节点的倒排文档,生成所述视觉树检索库;
其中,
M为所述已标注视觉词的总个数;
N为所述视觉树检索库的层数;
n为被分到聚类中心下的所述已标注视觉词的个数,n<M;
zi为通过高斯函数对聚类中心下第i个所述已标注视觉词进行映射得到的映射值。
10.根据权利要求9所述的设备,其特征在于,所述查找模块包括:
归一化单元,用于对所述特征描述子进行归一化处理,获得归一化特征描述子;
查找单元,用于采用余弦相似度算法在所述视觉树检索库中查找所述归一化特征描述子对应的叶子节点;
第二选择单元,用于在所述归一化特征描述子对应的叶子节点的倒排文档中,选择出现频率最高的y个语义标注作为待定语义标注;
第二确定单元,用于采用随机采样一致性算法计算每个所述待定语义标注的置信度,选择置信度最高的待定语义标注作为所述特征描述子的语义标注;
其中,y为自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410245373.5A CN104038792B (zh) | 2014-06-04 | 2014-06-04 | 用于iptv监管的视频内容分析方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410245373.5A CN104038792B (zh) | 2014-06-04 | 2014-06-04 | 用于iptv监管的视频内容分析方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104038792A CN104038792A (zh) | 2014-09-10 |
CN104038792B true CN104038792B (zh) | 2017-06-16 |
Family
ID=51469362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410245373.5A Active CN104038792B (zh) | 2014-06-04 | 2014-06-04 | 用于iptv监管的视频内容分析方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104038792B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700402B (zh) * | 2015-02-06 | 2018-09-14 | 北京大学 | 基于场景三维点云的视觉定位方法及装置 |
CN104700410B (zh) * | 2015-03-14 | 2017-09-22 | 西安电子科技大学 | 基于协同过滤的教学视频标注方法 |
CN106503639A (zh) * | 2016-10-15 | 2017-03-15 | 成都育芽科技有限公司 | 基于描述符的视频特征提取方法及装置 |
CN109063428A (zh) * | 2018-06-27 | 2018-12-21 | 武汉大学深圳研究院 | 一种数字动画的篡改检测方法及其系统 |
CN110688292B (zh) * | 2018-07-04 | 2023-11-24 | 葛建新 | 一种基于注意机制的软件测试视觉检测方法 |
CN110008934B (zh) * | 2019-04-19 | 2023-03-24 | 上海天诚比集科技有限公司 | 一种人脸识别方法 |
CN110765921B (zh) * | 2019-10-18 | 2022-04-19 | 北京工业大学 | 一种基于弱监督学习和视频时空特征的视频物体定位方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1777916A (zh) * | 2003-04-21 | 2006-05-24 | 日本电气株式会社 | 识别视频图像对象的设备和方法、应用视频图像注释的设备和方法及识别视频图像对象的程序 |
CN1801930A (zh) * | 2005-12-06 | 2006-07-12 | 南望信息产业集团有限公司 | 基于视频内容分析的可疑静止物检测方法 |
CN1945628A (zh) * | 2006-10-20 | 2007-04-11 | 北京交通大学 | 一种基于时空显著单元的视频内容表示方法 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
-
2014
- 2014-06-04 CN CN201410245373.5A patent/CN104038792B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1777916A (zh) * | 2003-04-21 | 2006-05-24 | 日本电气株式会社 | 识别视频图像对象的设备和方法、应用视频图像注释的设备和方法及识别视频图像对象的程序 |
CN1801930A (zh) * | 2005-12-06 | 2006-07-12 | 南望信息产业集团有限公司 | 基于视频内容分析的可疑静止物检测方法 |
CN1945628A (zh) * | 2006-10-20 | 2007-04-11 | 北京交通大学 | 一种基于时空显著单元的视频内容表示方法 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
Non-Patent Citations (1)
Title |
---|
Visual Vocabulary Tree Construction Research Using Adaptive Fuzzy K-Means Clustering;Jian Wu et.al;《Advanced Science Letters》;20120530;第11卷;第258-262页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104038792A (zh) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104038792B (zh) | 用于iptv监管的视频内容分析方法及设备 | |
Tan et al. | Mirror detection with the visual chirality cue | |
Sun et al. | Saliency region detection based on Markov absorption probabilities | |
Farabet et al. | Scene parsing with multiscale feature learning, purity trees, and optimal covers | |
CN110765921B (zh) | 一种基于弱监督学习和视频时空特征的视频物体定位方法 | |
Yang et al. | A framework for improved video text detection and recognition | |
Gharbi et al. | Key frame extraction for video summarization using local description and repeatability graph clustering | |
Alaei et al. | A complete logo detection/recognition system for document images | |
Cao et al. | 3D convolutional siamese network for few-shot hyperspectral classification | |
Idan et al. | Fast shot boundary detection based on separable moments and support vector machine | |
Manjunath Aradhya et al. | Decade research on text detection in images/videos: a review | |
El Abbadi | Scene Text detection and Recognition by Using Multi-Level Features Extractions Based on You Only Once Version Five (YOLOv5) and Maximally Stable Extremal Regions (MSERs) with Optical Character Recognition (OCR) | |
Mahapatra et al. | Automatic hierarchical table of contents generation for educational videos | |
Gao et al. | Occluded person re-identification based on feature fusion and sparse reconstruction | |
Shang et al. | Instance segmentation by learning deep feature in embedding space | |
Zhang et al. | Saliency detection via sparse reconstruction and joint label inference in multiple features | |
Mallick et al. | Video retrieval using salient foreground region of motion vector based extracted keyframes and spatial pyramid matching | |
Pavithra et al. | An improved seed point selection-based unsupervised color clustering for content-based image retrieval application | |
Kumar et al. | Keyframes and shot boundaries: The attributes of scene segmentation and classification | |
Liu et al. | A two step salient objects extraction framework based on image segmentation and saliency detection | |
Pourian et al. | Pixnet: A localized feature representation for classification and visual search | |
He et al. | Fully convolution neural network combined with K-means clustering algorithm for image segmentation | |
Qi et al. | Graph-Boolean map for salient object detection | |
Du et al. | Exploiting multiple contexts for saliency detection | |
Da et al. | A method of TV Logo Recognition based on SIFT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |