CN107704862A - 一种基于语义实例分割算法的视频对象分割方法 - Google Patents
一种基于语义实例分割算法的视频对象分割方法 Download PDFInfo
- Publication number
- CN107704862A CN107704862A CN201711075943.0A CN201711075943A CN107704862A CN 107704862 A CN107704862 A CN 107704862A CN 201711075943 A CN201711075943 A CN 201711075943A CN 107704862 A CN107704862 A CN 107704862A
- Authority
- CN
- China
- Prior art keywords
- semantic
- segmentation
- network
- pixel
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000638 solvent extraction Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于语义实例分割算法的视频对象分割方法,其主要内容包括:利用共享基础网络(VGG)进行特征提取、语义选择和语义传播、使用条件分类器集成网络中的层、训练和推论,其过程为,先利用共享基础网络进行特征提取,三个像素分类器产生语义先验的顶级匹配实例,然后利用语义实例分割算法作为输入估计待分割对象的语义,接着使用完全卷积网络的密集标注通常表达为每像素分类问题,最后训练和测试网络,实现视频对象的分割。本发明利用共享基础网络进行特征提取,从而实现视频对象的有效分割,解决了当物体被遮挡或者一些帧在序列中丢失时分割结果不理想的问题,提高了分割效率和分割精度。
Description
技术领域
本发明涉及视频对象分割领域,尤其是涉及了一种基于语义实例分割算法的视频对象分割方法。
背景技术
随着信息技术的发展,多媒体技术日益受到人们的关注。数字视频是尤为重要的一种多媒体数据形式,它有着广泛的应用空间,是电影、电视、电子出版物等媒体信息进行数字化的重要基础。因此,对于视频类的处理技术就显得越来越重要,其中,视频对象分割技术以其广泛的应用受到研究人员的广泛关注。视频对象分割的原理主要是利用运动信息,同时结合其他颜色、纹理、边缘、区域等信息,把前景对象从背景中分离出来。它已经广泛运用于视频编码、视频检索、多媒体操作、图像处理、模式识别、视频压缩编码和视频数据库操作等,还可以用于交通流视频监控、工业自动化监控、安防以及网络多媒体交互等实际生产生活中。然而在原有的技术中,当物体被遮挡或者一些帧在序列中丢失时,分割结果则不理想,所需时间也较长。
本发明提出了一种基于语义实例分割算法的视频对象分割方法,先利用共享基础网络进行特征提取,三个像素分类器产生语义先验的顶级匹配实例,然后利用语义实例分割算法作为输入估计待分割对象的语义,接着使用完全卷积网络的密集标注通常表达为每像素分类问题,最后训练和测试网络,实现视频对象的分割。本发明利用共享基础网络进行特征提取,从而实现视频对象的有效分割,解决了当物体被遮挡或者一些帧在序列中丢失时分割结果不理想的问题,提高了分割效率和分割精度。
发明内容
针对分割结果不理想、所需时间长的问题,本发明的目的在于提供一种基于语义实例分割算法的视频对象分割方法,先利用共享基础网络进行特征提取,三个像素分类器产生语义先验的顶级匹配实例,然后利用语义实例分割算法作为输入估计待分割对象的语义,接着使用完全卷积网络的密集标注通常表达为每像素分类问题,最后训练和测试网络,实现视频对象的分割。
为解决上述问题,本发明提供一种基于语义实例分割算法的视频对象分割方法,其主要内容包括:
(一)利用共享基础网络(VGG)进行特征提取;
(二)语义选择和语义传播;
(三)使用条件分类器集成网络中的层;
(四)训练和推论。
其中,所述的利用共享基础网络(VGG)进行特征提取,共享基础网络(VGG)作为特征提取器,共同学习了三个像素分类器;
第一个分类器,第一轮前景估计,是原始单次视频对象分割开端,它以外观为基础,并产生了第一个前景估计;该分类器的结果和来自外部语义实例分割系统的信息在语义选择和传播步骤中组合,产生语义先验的顶级匹配实例;
条件分类器中的另外两个分类器对公共基本网络和语义先验的特征进行操作,并且彼此依赖:一个对具有前景的像素负责,而另一个用于后台;最后,将两组预测融入最终预测。
其中,所述的语义选择和语义传播,利用语义实例分割算法作为输入来估计待分割对象的语义;选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法,通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割,可以显著提升视频对象分割的效率。
进一步地,所述的任务网络级联和完全卷积实例感知语义分割,任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络:共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器;使用两种算法的可用模型分别进行预先训练;
实例分割算法的输出给定为一组二进制掩码、掩码的类别以及它们作为实际对象的置信度;在最有把握的掩码池中搜索感兴趣的对象,在整个视频中找到一个具有一致语义的掩码子集作为语义先验。
进一步地,所述的实例分割算法,该过程可以分为语义选择和语义传播两个阶段;语义选择发生在第一帧中,根据给定的标定好的真实数据的掩码来选择匹配对象的掩码;实例数量及其类别在整个视频中实现一致性;有两种语义选择可能失败的情况:
(1)感兴趣的对象不是实例分割器语义词汇的一部分;
(2)通过此步骤选择错误的实例;
结果表明,分类器对这种故障很稳定,在这两种情况下仍能保持高质量的输出;因此,用于选择实例的快速贪婪搜索足以保持高性能。
其中,所述的使用条件分类器集成网络中的层,使用完全卷积网络的密集标注通常表达为每像素分类问题;因此,可以理解为在整个图像上滑动的全局分类器,并且根据单片外观模型将前景或背景标签分配给每个像素;将最终分类之前的语义合并,这将作为当前框架中最好的实例(或一组实例)的掩码;
如果语义实例分割完美,可以直接选择外观模型的最佳匹配实例,但实际上结果并不完美;因此,只能使用实例分割掩码作为该实例的限制指导或猜测,仍然需要执行细化步骤;并入该掩模但仍然保持每像素分类的解决方案是训练两个分类器,并根据在该像素中作为实例的一部分的置信度对它们进行加权;对整个图像使用一组参数是次优的。
进一步地,所述的训练两个分类器,形式上,对于每个像素i,估计给定图像的前景像素的概率:p(i|I);概率可以分解为由先前加权的k个条件概率的和:
在实验中,使用K=2,并且构建两个条件分类器,一个集中在实例前景像素上,另一个侧重于实例背景像素;基于实例分割输出来估计先验项p(k|I);具体来说,如果像素位于实例分割掩码内,则像素依赖于实例前景分类器;并且如果实例背景分类器脱离实例分割掩码,则更重要的是实例背景分类器;在实验中,应用高斯滤波器将所选掩模的空间平滑作为语义先验;条件分类器被实现为能够以端到端可训练的方式集成到网络中的层。
进一步地,所述的网络中的层,该层采用两个预测图f1和f2以及来自语义选择的权重映射p(k|I);假设k=1对应于语义先验的前景;为了方便,设置w=p(k=1|I),1-w=(k=2|I)(背景之前);其中每个输入元素与权重图相乘,然后与其他地图中的相应元素相加:
fout(x,y)=w(x,y)f1(x,y)+(1-w(x,y))f2(x,y) (2)
由实例前景分类器f1(x,y)做出对所选实例附近的像素的决定,而实例背景分类器f2(x,y)决定其余像素;
类似地,在反向传播步骤中,根据权重图将顶部gtop的梯度传播到两个部分:
g1(x,y)=w(x,y)gtop(x,y) (3)
g2(x,y)=(1-w(x,y))gtop(x,y) (4)
条件分类器是必要的,以纳入语义先验信息;可以用作仅包含单个分类器的替代方法的技术,背景分类器能够恢复该区域,将其正确地分类为前景。
其中,所述的训练和推论,遵循与单次视频对象分割相同的想法来训练和测试网络,每一步都丰富了语义选择和传播步骤;使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络;类似地,在在线微调期间,使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧;每个框架都是独立于其他框架进行处理的;实例分割模块的插件显著提高了最终分段的质量。
进一步地,所述的单次视频对象分割,该算法微调卷积神经网络,以便为第一个注释帧构建视频对象分割的强外观模型;训练一个完全卷积神经网络(FCN),用于将前景对象与背景分离的二进制分类任务;使用两个连续的训练步骤:首先,对离散的各种对象进行训练,构建一个能够区分前景对象的概念的模型;然后,在测试时对目标分割的特定实例上的少量迭代进行微调。
附图说明
图1是本发明一种基于语义实例分割算法的视频对象分割方法的系统流程图。
图2是本发明一种基于语义实例分割算法的视频对象分割方法的利用共享基础网络(VGG)进行特征提取。
图3是本发明一种基于语义实例分割算法的视频对象分割方法的语义选择和语义传播。
图4是本发明一种基于语义实例分割算法的视频对象分割方法的使用条件分类器集成网络中的层。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于语义实例分割算法的视频对象分割方法的系统流程图。主要包括利用共享基础网络(VGG)进行特征提取,语义选择和语义传播,使用条件分类器集成网络中的层,训练和推论。
训练和推论遵循与单次视频对象分割相同的想法来训练和测试网络,每一步都丰富了语义选择和传播步骤;使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络;类似地,在在线微调期间,使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧;每个框架都是独立于其他框架进行处理的;实例分割模块的插件显著提高了最终分段的质量。
单次视频对象分割算法微调卷积神经网络,以便为第一个注释帧构建视频对象分割的强外观模型;训练一个完全卷积神经网络(FCN),用于将前景对象与背景分离的二进制分类任务;使用两个连续的训练步骤:首先,对离散的各种对象进行训练,构建一个能够区分前景对象的概念的模型;然后,在测试时对目标分割的特定实例上的少量迭代进行微调。
图2是本发明一种基于语义实例分割算法的视频对象分割方法的利用共享基础网络(VGG)进行特征提取。共享基础网络(VGG)作为特征提取器,共同学习了三个像素分类器;
第一个分类器,第一轮前景估计,是原始单次视频对象分割开端,它以外观为基础,并产生了第一个前景估计;该分类器的结果和来自外部语义实例分割系统的信息在语义选择和传播步骤中组合,产生语义先验的顶级匹配实例;
条件分类器中的另外两个分类器对公共基本网络和语义先验的特征进行操作,并且彼此依赖:一个对具有前景的像素负责,而另一个用于后台;最后,将两组预测融入最终预测。
图3是本发明一种基于语义实例分割算法的视频对象分割方法的语义选择和语义传播。利用语义实例分割算法作为输入来估计待分割对象的语义;选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法,通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割,可以显著提升视频对象分割的效率。
任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络:共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器;使用两种算法的可用模型分别进行预先训练;
实例分割算法的输出给定为一组二进制掩码、掩码的类别以及它们作为实际对象的置信度;在最有把握的掩码池中搜索感兴趣的对象,在整个视频中找到一个具有一致语义的掩码子集作为语义先验。
实例分割算法过程可以分为语义选择和语义传播两个阶段;语义选择发生在第一帧中,根据给定的标定好的真实数据的掩码来选择匹配对象的掩码;实例数量及其类别在整个视频中实现一致性;有两种语义选择可能失败的情况:
(1)感兴趣的对象不是实例分割器语义词汇的一部分;
(2)通过此步骤选择错误的实例;
结果表明,分类器对这种故障很稳定,在这两种情况下仍能保持高质量的输出;因此,用于选择实例的快速贪婪搜索足以保持高性能。
图4是本发明一种基于语义实例分割算法的视频对象分割方法的使用条件分类器集成网络中的层。使用完全卷积网络的密集标注通常表达为每像素分类问题;因此,可以理解为在整个图像上滑动的全局分类器,并且根据单片外观模型将前景或背景标签分配给每个像素;将最终分类之前的语义合并,这将作为当前框架中最好的实例(或一组实例)的掩码;
如果语义实例分割完美,可以直接选择外观模型的最佳匹配实例,但实际上结果并不完美;因此,只能使用实例分割掩码作为该实例的限制指导或猜测,仍然需要执行细化步骤;并入该掩模但仍然保持每像素分类的解决方案是训练两个分类器,并根据在该像素中作为实例的一部分的置信度对它们进行加权;对整个图像使用一组参数是次优的。
形式上,对于每个像素i,估计给定图像的前景像素的概率:p(i|I);概率可以分解为由先前加权的k个条件概率的和:
在实验中,使用K=2,并且构建两个条件分类器,一个集中在实例前景像素上,另一个侧重于实例背景像素;基于实例分割输出来估计先验项p(k|I);具体来说,如果像素位于实例分割掩码内,则像素依赖于实例前景分类器;并且如果实例背景分类器脱离实例分割掩码,则更重要的是实例背景分类器;在实验中,应用高斯滤波器将所选掩模的空间平滑作为语义先验;条件分类器被实现为能够以端到端可训练的方式集成到网络中的层。
该层采用两个预测图f1和f2以及来自语义选择的权重映射p(k|I);假设k=1对应于语义先验的前景;为了方便,设置w=p(k=1|I),1-w=(k=2|I)(背景之前);其中每个输入元素与权重图相乘,然后与其他地图中的相应元素相加:
fout(x,y)=w(x,y)f1(x,y)+(1-w(x,y))f2(x,y) (2)
由实例前景分类器f1(x,y)做出对所选实例附近的像素的决定,而实例背景分类器f2(x,y)决定其余像素;
类似地,在反向传播步骤中,根据权重图将顶部gtop的梯度传播到两个部分:
g1(x,y)=w(x,y)gtop(x,y) (3)
g2(x,y)=(1-w(x,y))gtop(x,y) (4)
条件分类器是必要的,以纳入语义先验信息;可以用作仅包含单个分类器的替代方法的技术,背景分类器能够恢复该区域,将其正确地分类为前景。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于语义实例分割算法的视频对象分割方法,其特征在于,主要包括利用共享基础网络(VGG)进行特征提取(一);语义选择和语义传播(二);使用条件分类器集成网络中的层(三);训练和推论(四)。
2.基于权利要求书1所述的利用共享基础网络(VGG)进行特征提取(一),其特征在于,共享基础网络(VGG)作为特征提取器,共同学习了三个像素分类器;
第一个分类器,第一轮前景估计,是原始单次视频对象分割开端,它以外观为基础,并产生了第一个前景估计;该分类器的结果和来自外部语义实例分割系统的信息在语义选择和传播步骤中组合,产生语义先验的顶级匹配实例;
条件分类器中的另外两个分类器对公共基本网络和语义先验的特征进行操作,并且彼此依赖:一个对具有前景的像素负责,而另一个用于后台;最后,将两组预测融入最终预测。
3.基于权利要求书1所述的语义选择和语义传播(二),其特征在于,利用语义实例分割算法作为输入来估计待分割对象的语义;选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法,通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割,可以显著提升视频对象分割的效率。
4.基于权利要求书3所述的任务网络级联和完全卷积实例感知语义分割,其特征在于,任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络:共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器;使用两种算法的可用模型分别进行预先训练;
实例分割算法的输出给定为一组二进制掩码、掩码的类别以及它们作为实际对象的置信度;在最有把握的掩码池中搜索感兴趣的对象,在整个视频中找到一个具有一致语义的掩码子集作为语义先验。
5.基于权利要求书4所述的实例分割算法,其特征在于,该过程可以分为语义选择和语义传播两个阶段;语义选择发生在第一帧中,根据给定的标定好的真实数据的掩码来选择匹配对象的掩码;实例数量及其类别在整个视频中实现一致性;有两种语义选择可能失败的情况:
(1)感兴趣的对象不是实例分割器语义词汇的一部分;
(2)通过此步骤选择错误的实例;
结果表明,分类器对这种故障很稳定,在这两种情况下仍能保持高质量的输出;因此,用于选择实例的快速贪婪搜索足以保持高性能。
6.基于权利要求书1所述的使用条件分类器集成网络中的层(三),其特征在于,使用完全卷积网络的密集标注通常表达为每像素分类问题;因此,可以理解为在整个图像上滑动的全局分类器,并且根据单片外观模型将前景或背景标签分配给每个像素;将最终分类之前的语义合并,这将作为当前框架中最好的实例(或一组实例)的掩码;
如果语义实例分割完美,可以直接选择外观模型的最佳匹配实例,但实际上结果并不完美;因此,只能使用实例分割掩码作为该实例的限制指导或猜测,仍然需要执行细化步骤;并入该掩模但仍然保持每像素分类的解决方案是训练两个分类器,并根据在该像素中作为实例的一部分的置信度对它们进行加权;对整个图像使用一组参数是次优的。
7.基于权利要求书6所述的训练两个分类器,其特征在于,形式上,对于每个像素i,估计给定图像的前景像素的概率:p(i|I);概率可以分解为由先前加权的k个条件概率的和:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>|</mo>
<mi>I</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>|</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
在实验中,使用K=2,并且构建两个条件分类器,一个集中在实例前景像素上,另一个侧重于实例背景像素;基于实例分割输出来估计先验项p(k|I);具体来说,如果像素位于实例分割掩码内,则像素依赖于实例前景分类器;并且如果实例背景分类器脱离实例分割掩码,则更重要的是实例背景分类器;在实验中,应用高斯滤波器将所选掩模的空间平滑作为语义先验;条件分类器被实现为能够以端到端可训练的方式集成到网络中的层。
8.基于权利要求书7所述的网络中的层,其特征在于,该层采用两个预测图f1和f2以及来自语义选择的权重映射p(k|I);假设k=1对应于语义先验的前景;为了方便,设置w=p(k=1|I),1-w=(k=2|I)(背景之前);其中每个输入元素与权重图相乘,然后与其他地图中的相应元素相加:
fout(x,y)=w(x,y)f1(x,y)+(1-w(x,y))f2(x,y) (2)
由实例前景分类器f1(x,y)做出对所选实例附近的像素的决定,而实例背景分类器f2(x,y)决定其余像素;
类似地,在反向传播步骤中,根据权重图将顶部gtop的梯度传播到两个部分:
g1(x,y)=w(x,y)gtop(x,y) (3)
g2(x,y)=(1-w(x,y))gtop(x,y) (4)
条件分类器是必要的,以纳入语义先验信息;可以用作仅包含单个分类器的替代方法的技术,背景分类器能够恢复该区域,将其正确地分类为前景。
9.基于权利要求书1所述的训练和推论(四),其特征在于,遵循与单次视频对象分割相同的想法来训练和测试网络,每一步都丰富了语义选择和传播步骤;使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络;类似地,在在线微调期间,使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧;每个框架都是独立于其他框架进行处理的;实例分割模块的插件显著提高了最终分段的质量。
10.基于权利要求书1所述的单次视频对象分割,其特征在于,该算法微调卷积神经网络,以便为第一个注释帧构建视频对象分割的强外观模型;训练一个完全卷积神经网络(FCN),用于将前景对象与背景分离的二进制分类任务;使用两个连续的训练步骤:首先,对离散的各种对象进行训练,构建一个能够区分前景对象的概念的模型;然后,在测试时对目标分割的特定实例上的少量迭代进行微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711075943.0A CN107704862A (zh) | 2017-11-06 | 2017-11-06 | 一种基于语义实例分割算法的视频对象分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711075943.0A CN107704862A (zh) | 2017-11-06 | 2017-11-06 | 一种基于语义实例分割算法的视频对象分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107704862A true CN107704862A (zh) | 2018-02-16 |
Family
ID=61177895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711075943.0A Withdrawn CN107704862A (zh) | 2017-11-06 | 2017-11-06 | 一种基于语义实例分割算法的视频对象分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704862A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635812A (zh) * | 2018-11-29 | 2019-04-16 | 中国科学院空间应用工程与技术中心 | 图像的实例分割方法及装置 |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN109858539A (zh) * | 2019-01-24 | 2019-06-07 | 武汉精立电子技术有限公司 | 一种基于深度学习图像语义分割模型的roi区域提取方法 |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
CN110008808A (zh) * | 2018-12-29 | 2019-07-12 | 北京迈格威科技有限公司 | 全景分割方法、装置和系统及存储介质 |
CN110070056A (zh) * | 2019-04-25 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110072119A (zh) * | 2019-04-11 | 2019-07-30 | 西安交通大学 | 一种基于深度学习网络的内容感知视频自适应传输方法 |
CN110222664A (zh) * | 2019-06-13 | 2019-09-10 | 河南牧业经济学院 | 一种基于视频活跃性分析的智能化猪圈养监视系统 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110414620A (zh) * | 2019-08-06 | 2019-11-05 | 厦门大学 | 一种语义分割模型训练方法、计算机设备及存储介质 |
CN110889851A (zh) * | 2018-09-11 | 2020-03-17 | 苹果公司 | 针对深度和视差估计的语义分割的稳健用途 |
CN111127502A (zh) * | 2019-12-10 | 2020-05-08 | 北京地平线机器人技术研发有限公司 | 生成实例掩码的方法、装置及电子设备 |
CN111312403A (zh) * | 2020-01-21 | 2020-06-19 | 山东师范大学 | 基于实例和特征共享级联的疾病预测系统、设备及介质 |
CN111837140A (zh) * | 2018-09-18 | 2020-10-27 | 谷歌有限责任公司 | 视频代码化的感受野一致卷积模型 |
CN111950478A (zh) * | 2020-08-17 | 2020-11-17 | 浙江东鼎电子股份有限公司 | 一种动态平板秤称重区域汽车s型行驶行为检测方法 |
CN112351928A (zh) * | 2018-07-10 | 2021-02-09 | 铁路视像有限公司 | 基于轨道分段的铁路障碍物检测的方法与系统 |
CN112489060A (zh) * | 2020-12-07 | 2021-03-12 | 北京医准智能科技有限公司 | 一种用于肺炎病灶分割的系统及方法 |
CN112990356A (zh) * | 2021-04-16 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频实例分割系统和方法 |
CN113792738A (zh) * | 2021-08-05 | 2021-12-14 | 北京旷视科技有限公司 | 实例分割方法、装置、电子设备和计算机可读存储介质 |
US11321848B2 (en) | 2019-11-19 | 2022-05-03 | Samsung Electronics Co., Ltd. | Method and apparatus with video segmentation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
CN107301400A (zh) * | 2017-06-23 | 2017-10-27 | 深圳市唯特视科技有限公司 | 一种语义导向的半监督视频对象分割方法 |
CN107316049A (zh) * | 2017-05-05 | 2017-11-03 | 华南理工大学 | 一种基于半监督自训练的迁移学习分类方法 |
-
2017
- 2017-11-06 CN CN201711075943.0A patent/CN107704862A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780536A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于对象掩码网络的形状感知实例分割方法 |
CN107316049A (zh) * | 2017-05-05 | 2017-11-03 | 华南理工大学 | 一种基于半监督自训练的迁移学习分类方法 |
CN107301400A (zh) * | 2017-06-23 | 2017-10-27 | 深圳市唯特视科技有限公司 | 一种语义导向的半监督视频对象分割方法 |
Non-Patent Citations (1)
Title |
---|
K.-K. MANINIS ET AL.: "Video Object Segmentation Without Temporal Information", 《ARXIV》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112351928A (zh) * | 2018-07-10 | 2021-02-09 | 铁路视像有限公司 | 基于轨道分段的铁路障碍物检测的方法与系统 |
CN112351928B (zh) * | 2018-07-10 | 2023-11-10 | 铁路视像有限公司 | 基于轨道分段的铁路障碍物检测的方法与系统 |
CN110889851A (zh) * | 2018-09-11 | 2020-03-17 | 苹果公司 | 针对深度和视差估计的语义分割的稳健用途 |
CN110889851B (zh) * | 2018-09-11 | 2023-08-01 | 苹果公司 | 针对深度和视差估计的语义分割的稳健用途 |
CN111837140A (zh) * | 2018-09-18 | 2020-10-27 | 谷歌有限责任公司 | 视频代码化的感受野一致卷积模型 |
CN109635812A (zh) * | 2018-11-29 | 2019-04-16 | 中国科学院空间应用工程与技术中心 | 图像的实例分割方法及装置 |
CN109635812B (zh) * | 2018-11-29 | 2019-11-08 | 中国科学院空间应用工程与技术中心 | 图像的实例分割方法及装置 |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN110008808B (zh) * | 2018-12-29 | 2021-04-09 | 北京迈格威科技有限公司 | 全景分割方法、装置和系统及存储介质 |
CN110008808A (zh) * | 2018-12-29 | 2019-07-12 | 北京迈格威科技有限公司 | 全景分割方法、装置和系统及存储介质 |
CN109858539A (zh) * | 2019-01-24 | 2019-06-07 | 武汉精立电子技术有限公司 | 一种基于深度学习图像语义分割模型的roi区域提取方法 |
CN109886272B (zh) * | 2019-02-25 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
US11810377B2 (en) | 2019-02-25 | 2023-11-07 | Tencent Technology (Shenzhen) Company Limited | Point cloud segmentation method, computer-readable storage medium, and computer device |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
CN110072119A (zh) * | 2019-04-11 | 2019-07-30 | 西安交通大学 | 一种基于深度学习网络的内容感知视频自适应传输方法 |
CN110070056B (zh) * | 2019-04-25 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110070056A (zh) * | 2019-04-25 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110222664A (zh) * | 2019-06-13 | 2019-09-10 | 河南牧业经济学院 | 一种基于视频活跃性分析的智能化猪圈养监视系统 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110378348B (zh) * | 2019-07-11 | 2021-07-09 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110414620B (zh) * | 2019-08-06 | 2021-08-31 | 厦门大学 | 一种语义分割模型训练方法、计算机设备及存储介质 |
CN110414620A (zh) * | 2019-08-06 | 2019-11-05 | 厦门大学 | 一种语义分割模型训练方法、计算机设备及存储介质 |
US11321848B2 (en) | 2019-11-19 | 2022-05-03 | Samsung Electronics Co., Ltd. | Method and apparatus with video segmentation |
US11880979B2 (en) | 2019-11-19 | 2024-01-23 | Samsung Electronics Co., Ltd. | Method and apparatus with video segmentation |
CN111127502B (zh) * | 2019-12-10 | 2023-08-29 | 北京地平线机器人技术研发有限公司 | 生成实例掩码的方法、装置及电子设备 |
CN111127502A (zh) * | 2019-12-10 | 2020-05-08 | 北京地平线机器人技术研发有限公司 | 生成实例掩码的方法、装置及电子设备 |
CN111312403A (zh) * | 2020-01-21 | 2020-06-19 | 山东师范大学 | 基于实例和特征共享级联的疾病预测系统、设备及介质 |
CN111950478B (zh) * | 2020-08-17 | 2021-07-23 | 浙江东鼎电子股份有限公司 | 一种动态平板秤称重区域汽车s型行驶行为检测方法 |
CN111950478A (zh) * | 2020-08-17 | 2020-11-17 | 浙江东鼎电子股份有限公司 | 一种动态平板秤称重区域汽车s型行驶行为检测方法 |
CN112489060A (zh) * | 2020-12-07 | 2021-03-12 | 北京医准智能科技有限公司 | 一种用于肺炎病灶分割的系统及方法 |
CN112990356A (zh) * | 2021-04-16 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频实例分割系统和方法 |
CN112990356B (zh) * | 2021-04-16 | 2021-08-03 | 广东众聚人工智能科技有限公司 | 一种视频实例分割系统和方法 |
CN113792738A (zh) * | 2021-08-05 | 2021-12-14 | 北京旷视科技有限公司 | 实例分割方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704862A (zh) | 一种基于语义实例分割算法的视频对象分割方法 | |
US11023710B2 (en) | Semi-supervised hybrid clustering/classification system | |
Grubb et al. | Speedboost: Anytime prediction with uniform near-optimality | |
US20190122072A1 (en) | Reverse neural network for object re-identification | |
US20190034737A1 (en) | Inter-trajectory anomaly detection using adaptive voting experts in a video surveillance system | |
Benabbas et al. | Motion pattern extraction and event detection for automatic visual surveillance | |
CN107301400A (zh) | 一种语义导向的半监督视频对象分割方法 | |
US20100067863A1 (en) | Video editing methods and systems | |
CN111222450B (zh) | 模型的训练及其直播处理的方法、装置、设备和存储介质 | |
WO2011022276A2 (en) | Intra-trajectory anomaly detection using adaptive voting experts in a video surveillance system | |
Varatharasan et al. | Improving learning effectiveness for object detection and classification in cluttered backgrounds | |
WO2011022275A2 (en) | Adaptive voting experts for incremental segmentation of sequences with prediction in a video surveillance system | |
CN115359566A (zh) | 基于关键点及光流的人体行为识别方法、装置及设备 | |
Gaba et al. | Motion detection, tracking and classification for automated Video Surveillance | |
US20090310823A1 (en) | Object tracking method using spatial-color statistical model | |
CN112927266A (zh) | 基于不确定性引导训练的弱监督时域动作定位方法及系统 | |
Liu et al. | Scene background estimation based on temporal median filter with Gaussian filtering | |
CN104376538B (zh) | 一种图像的稀疏去噪方法 | |
Pavlov et al. | Application for video analysis based on machine learning and computer vision algorithms | |
CN116563304B (zh) | 图像处理方法和装置、图像处理模型的训练方法和装置 | |
CN115424164A (zh) | 一种场景自适应视频数据集的构建方法及系统 | |
CN115375722A (zh) | 基于前背景解耦的抠图方法 | |
Casagrande et al. | Abnormal motion analysis for tracking-based approaches using region-based method with mobile grid | |
Dorudian et al. | Moving object detection using adaptive blind update and RGB-D camera | |
Fleites et al. | Enhancing product detection with multicue optimization for TV shopping applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180216 |
|
WW01 | Invention patent application withdrawn after publication |