CN108228915B - 一种基于深度学习的视频检索方法 - Google Patents
一种基于深度学习的视频检索方法 Download PDFInfo
- Publication number
- CN108228915B CN108228915B CN201810268186.7A CN201810268186A CN108228915B CN 108228915 B CN108228915 B CN 108228915B CN 201810268186 A CN201810268186 A CN 201810268186A CN 108228915 B CN108228915 B CN 108228915B
- Authority
- CN
- China
- Prior art keywords
- video
- similarity
- feature vector
- network
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 235000002566 Capsicum Nutrition 0.000 claims description 3
- 239000006002 Pepper Substances 0.000 claims description 3
- 235000016761 Piper aduncum Nutrition 0.000 claims description 3
- 235000017804 Piper guineense Nutrition 0.000 claims description 3
- 235000008184 Piper nigrum Nutrition 0.000 claims description 3
- 150000003839 salts Chemical class 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 244000203593 Piper nigrum Species 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 230000011218 segmentation Effects 0.000 abstract description 6
- 238000000691 measurement method Methods 0.000 abstract description 3
- 241000722363 Piper Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的视频检索方法,主要包含以下部分:利用卷积神经网络做视频预处理;用长短记忆网络对预处理后的视频提取特征向量;最后通过一个相似度学习算法,学习得到距离计算方法,依据该方法进行相似度计算并排序,得出视频检索结果;本发明通过卷积神经网络做场景分割和关键帧选择,提取表征视频的高级语义,从而获取恰当数量的关键帧序列,能够有效避免镜头分割的误检和漏检。本发明通过长短记忆网络有效提取视频的时序特征,从而获得更准确的检索结果。通过相似度学习和基于文本的匹配方法,能够提升相似度度量方法的匹配精确度。通过上述方法,本发明能够实现对大规模视频的精准检索。
Description
技术领域
本发明属于计算机视觉领域,尤其设计一种利用深度学习和数字处理技术的视频检索方法。
背景技术
近年来,互联网和多媒体技术得到了广泛的发展和运用,风潮席卷全球。在人们的日常生活、工作和学习过程中产生了海量的视频数据,面对这些爆炸性增长的多媒体数据,我们越来越需要一种能够准确且有效地对海量视频进行检索和管理的方法。
一个完整的视频检索过程通常包含三个主要步骤:视频预处理,即去冗余帧的过程包括镜头检测和关键帧提取;视频特征提取;特征匹配,即相似度计算。在视频预处理领域,现有技术主要运用像素差法、直方图法和边缘探测法对视频做镜头检测和关键帧提取。这些方法使用视频图像的底层特征,往往不能准确提取出表征待检索视频的镜头和关键帧序列。而经过大量数据训练的卷积神经网络能够提取表征视频的高级语义,从而有效避免镜头分割的误检和漏检,获取恰当帧数的关键帧序列。在视频特征提取方面,现有技术往往是将视频割裂成一序列静态的图像的集合然后提取图像集合的特征描述子,这样丢失了视频在时序上区别于静态图像序列的特征。长短记忆网络擅长处理长期依赖问题,能够有效提取视频的时序特征,从而获得更准确的检索结果。另外,由于视频是复杂数据结构,现有的特征匹配方法不能准确描述高维特征之间的差异,通过相似度学习能够提升相似度度量方法的性能。
为了满足人们对大规模视频做精准检索的需求,目前需要一种能够准确提取视频摘要,又能够表征视频时序特征的描述子,进而能够准确检索视频的方法。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于深度学习的视频检索方法。通过卷积神经网络做场景分割和关键帧选择、长短记忆网络做视频时序特征提取、相似度学习和基于文本的匹配方法做检索,能够改善上述缺陷,实现对大规模视频的精准检索。
本发明的目的采用如下技术方案实现。
一种基于深度学习的视频检索方法,其包括以下步骤:
步骤1)利用训练数据,对视频预处理网络进行训练;
步骤2)利用所述步骤1)得到的视频预处理网络,分割待检索视频,形成镜头单元并提取镜头的关键帧序列;
步骤3)根据所述步骤2)得到的镜头关键帧序列的长短,分为长镜头和短镜头两类;判断是否通过长短记忆网络LSTM,若为短镜头,跳转到所述步骤5);
步骤4)利用训练完成的长短记忆网络提取关键帧序列的特征向量,生成特征向量文本;
步骤5)利用训练完成的相似度学习算法,获得相似距离计算公式K(xi,xj),其中xi和xj是待匹配的特征向量对,K是学习得到的算法。;
步骤6)依据步骤5)得到的相似度计算方法,计算待检索样本与数据库视频的相似度,得到检索结果。
进一步的,步骤1)中,构造视频预处理网络,使用Inception V3的网络结构,对训练数据样本做旋转、亮度调节和加噪处理,以增强网络的鲁棒性;初始化网络参数,进行训练;所述的视频预处理训练方法可以包括:损失函数的选择和为保证网络鲁棒性而做的训练数据特征不变性处理。
进一步的,步骤2)中,利用深度学习网络提取视频的深度特征,根据该特征完成镜头检测和关键帧提取,得到能够准确表征视频的关键帧序列。
进一步的,步骤3)所述的长短记忆网络提取关键帧序列时序特征并构造特征向量文本,特征向量文本保存了视频的时序特征,能够提高视频检索的查准度。
进一步的,步骤1)中,所述训练视频预处理网络使用YouTuBe-8M做训练数据集,对训练数据集做额外的预处理,包括以设定的角度做旋转、调节视频亮度、随机加入椒盐噪声中的一种以上。所述的相似度学习网络的训练和使用方法。相较于传统的相似度距离计算方法,通过学习得到的相似度算法具有更高的相似匹配能力。
进一步的,步骤3)中,所述长短记忆网络LSTM不仅能够提取视频的静态特征,还能够有效地处理长期依赖问题,长短记忆网络LSTM的训练过程同样使用YouTuBe-8M数据集,约束网络的损失函数如下:
其中,min(Lloss)代表最小损失函数,i,j是数据库中的视频编号,ui是视频Vi通过长短记忆网络的输出向量,K是输出向量的维度,Si,j是待匹配视频对(Vi和Vj)的位相似度,定义如下:
进一步的,步骤5)中,相似度学习算法通过OASIS(Online Algorithm forScalable Image Similarity Learning)方法习得。
进一步的,步骤6)计算待检索视频特征向量和视频数据库特征向量集之间的距离;相似度距离公式使用预训练中得到的K(xi,xj),使用类似字符串匹配算法KMP,求得整体相似度;依据相似度的高低顺序,给出检索结果。本发明由视频预处理网络、长短记忆网络和相似度学习网络构成的一个视频检索系统整体。其中预处理网络提取视频关键帧序列,丢弃冗余数据;长短记忆网络提取视频的时序特征;相似度学习算法做相似度计算,根据相似程度给出检索结果。
与现有技术相比,本发明具有如下优点和技术效果:
本发明通过卷积神经网络做场景分割和关键帧选择,提取表征视频的高级语义,从而获取恰当数量的关键帧序列,能够有效避免镜头分割的误检和漏检。通过长短记忆网络有效提取视频的时序特征,从而获得更准确的检索结果。通过相似度学习和基于文本的匹配方法,能够提升相似度度量方法的匹配精确度。通过上述方法,本发明能够实现对大规模视频的精准检索。
附图说明
图1为实例中一种基于深度学习的视频检索方法的流程图。
图2为实例中长短记忆网络的单元结构图。
图3为实例中的相似度计算示意图。
具体实施方式
以下结合附图对本发明的具体实施作进一步说明,但本发明的实施和保护不限于此,需指出的是,以下若有未特别详细说明之处,均是本领域技术人员可参照现有技术实现或理解的。
本发明实施例提供了一种基于深度学习的视频检索方法,步骤如图1所示;所述方法的具体实施步骤如下:
网络训练部分:
步骤1)构造视频预处理网络,使用Inception Net V3的网络结构。Inception Net是一个拥有22层深的卷积神经网络,网络的最后一层拥有最好的分类效果,因此选取最后一层的输出作为输入的特征向量。
步骤2)训练视频预处理网络。使用YouTuBe-8M做训练数据集,该数据集有800万个视频,共4800个标注分类。为了增强网络的鲁棒性,对训练数据集做额外的预处理,如以一定的角度做旋转、调节视频亮度、随机加入椒盐噪声等等。
步骤3)训练长短记忆网络。长短记忆网络LSTM不仅能够提取视频的静态特征,还能够有效地处理长期依赖问题,它的结构单元如图2所示。训练过程同样使用YouTuBe-8M数据集,约束网络的损失函数如下:
其中,min(Lloss)代表最小损失函数,i,j是数据库中的视频编号,ui是视频Vi通过长短记忆网络的输出向量,K是输出向量的维度,Si,j是待匹配视频对(Vi和Vj)的位相似度,定义如下:
其中yi和yj分别代表视频Vi和Vj的特征向量。
步骤4)通过相似度学习算法,获得相似距离计算公式K(xi,xj),其中xi和xj是待匹配的特征向量对,K是学习得到的算法。该算法通过OASIS(Online Algorithm forScalable Image Similarity Learning)方法习得,更适合用于度量向量稀疏表示的相似距离。
本实例的视频检索部分:
步骤1)待检索视频样本X={xt:t=1,...,M},其中xt表示视频样本中的图像帧,t表示帧号,M表示总帧数。通过视频预处理网络得到特征向量集V={vt:t=1,...,M},其中vt表示图像帧的特征向量,t表示帧号,M表示总帧数。我们用特征向量集V作为镜头检测和关键帧提取的数据集。
步骤2)计算特征向量集V中相邻向量vm和vn的汉明距离D(vm,vn),其中m,n是相邻向量的编号,若D(vm,vn)小于关键帧判定阀值Tf,则丢弃该帧向量,选取下一帧向量作为vn;若D(vm,vn)大于关键帧判定阀值且小于镜头判定阀值Ts,则选取该帧作为关键帧,同时计算关键帧权重Wn=D(vm,vn)/(Ts-Tf),其中Ts是镜头判定阀值,Tf是关键帧判定阀值;若D(vm,vn)大于镜头判定阀值Ts,则判定为镜头边界。根据上述规则得到视频各镜头的特征向量集S={si:i=1,...,N}和特征向量权重集W={wi:i=1,...,N},其中i表示元素下标,N表示数据集中元素的个数。
步骤3)计算由步骤2)所得的各镜头长度。若镜头长度小于阀值Ls,则认为该镜头时序特征不显著,使用预处理网络提取的特征,跳转到步骤4),否则,以各镜头的特征向量集作为一个单元,通过训练好的长短记忆网络,得到包含长期依赖信息的特征向量集E={ei:i=1,...,N},其中i表示特征向量集中元素的下标,N表示特征向量集元素的个数。
Claims (5)
1.一种基于深度学习的视频检索方法,其特征在于包括以下步骤:
步骤1)利用训练数据,对视频预处理网络进行训练;所述视频预处理网络使用Inception V3的网络结构,对训练数据样本做旋转、亮度调节和加噪处理,初始化视频预处理网络参数进行训练;
通过视频预处理网络得到特征向量集V={vt:t=1,...,M},其中vt表示图像帧的特征向量,t表示帧号,M表示总帧数,用特征向量集V作为镜头检测和关键帧提取的数据集;
步骤2)利用所述步骤1)得到的视频预处理网络,分割待检索视频的特征向量集V,形成镜头单元并提取镜头关键帧序列的向量集;
计算特征向量集V中相邻向量vm和vn的汉明距离为D(vm,vn),其中m,n是相邻向量的编号,若D(vm,vn)小于关键帧判定阀值Tf,则丢弃此时邻向量vn对应的特征向量,选取下一帧向量作为vn;若D(vm,vn)大于关键帧判定阀值Tf且小于镜头判定阀值Ts,则选取特征向量集V中对应的特征向量作为关键帧,同时计算关键帧权重Wn=D(vm,vn)/(Ts-Tf),其中Ts是镜头判定阀值,Tf是关键帧判定阀值;若D(vm,vn)大于镜头判定阀值Ts,则判定为镜头边界,以此得到视频各镜头关键帧序列的向量集S={si:i=1,...,N}和特征向量权重集W={wi:i=1,...,N},其中i表示元素下标,N表示数据集中元素的个数;步骤3)根据所述步骤2)得到的镜头关键帧序列的长短,分为长镜头和短镜头两类;若为长镜头则跳转到步骤4),若为短镜头则跳转到步骤5);
步骤4)利用训练完成的长短记忆网络提取关键帧序列的特征向量,生成特征向量文本;
所述长短记忆网络LSTM不仅能够提取视频的静态特征,还能够有效地处理长期依赖问题,长短记忆网络LSTM的训练过程同样使用YouTuBe-8M数据集,约束网络的损失函数如下:
其中,min(Lloss)代表最小损失函数,i,j是数据库中的视频编号,ui是视频Vi通过长短记忆网络的输出向量,K是输出向量的维度,Si,j是待匹配视频对即Vi和Vj的位相似度,定义如下:
其中yi和yj分别代表对应视频Vi和Vj的特征向量;
步骤5)利用训练完成的相似度学习算法,获得特征向量的相似距离计算公式K(xi,xj),其中xi和xj是待匹配的特征向量对;
步骤6)依据步骤5)得到的相似度,计算待检索样本与数据库视频的相似度距离,得到检索结果;
具体的,计算待检索特征向量和视频数据库特征向量集之间的距离;相似度距离公式使用预训练中得到的K(xi,xj),使用字符串匹配算法KMP,求得整体相似度;依据相似度的高低顺序,给出检索结果。
2.根据权利要求1所述的一种基于深度学习的视频检索方法,其特征在于,步骤2)中,利用深度学习网络提取视频的深度特征,根据该特征完成镜头检测和关键帧提取,得到能够准确表征视频的关键帧序列。
3.根据权利要求2所述的一种基于深度学习的视频检索方法,其特征在于,步骤3)所述的长短记忆网络提取关键帧序列时序特征并构造特征向量文本,特征向量文本保存了视频的时序特征,能够提高视频检索的查准度。
4.根据权利要求3所述的一种基于深度学习的视频检索方法,其特征在于,步骤1)中,所述训练视频预处理网络使用YouTuBe-8M做训练数据集,对训练数据集做额外的预处理,包括以设定的角度做旋转、调节视频亮度、随机加入椒盐噪声中的一种以上。
5.根据权利要求4所述的一种基于深度学习的视频检索方法,其特征在于,步骤5)中,相似度学习算法通过OASIS(Online Algorithm for Scalable Image SimilarityLearning)方法习得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810268186.7A CN108228915B (zh) | 2018-03-29 | 2018-03-29 | 一种基于深度学习的视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810268186.7A CN108228915B (zh) | 2018-03-29 | 2018-03-29 | 一种基于深度学习的视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108228915A CN108228915A (zh) | 2018-06-29 |
CN108228915B true CN108228915B (zh) | 2021-10-26 |
Family
ID=62659222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810268186.7A Expired - Fee Related CN108228915B (zh) | 2018-03-29 | 2018-03-29 | 一种基于深度学习的视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228915B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189989B (zh) * | 2018-07-23 | 2020-11-03 | 北京市商汤科技开发有限公司 | 一种视频描述方法及装置、计算机设备和存储介质 |
CN109101964B (zh) * | 2018-08-15 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 确定多媒体文件中首尾区域的方法、设备及存储介质 |
CN110879952B (zh) * | 2018-09-06 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 一种视频帧序列的处理方法及装置 |
CN109461447B (zh) * | 2018-09-30 | 2023-08-18 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109948721B (zh) * | 2019-03-27 | 2021-07-09 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN109978072A (zh) * | 2019-04-03 | 2019-07-05 | 青岛伴星智能科技有限公司 | 一种基于深度学习的字符比对方法和比对系统 |
CN110659390A (zh) * | 2019-07-30 | 2020-01-07 | 广东工业大学 | 一种基于深度卷积网络的视频内容检索方法 |
CN110516210B (zh) * | 2019-08-22 | 2023-06-27 | 北京影谱科技股份有限公司 | 文本相似度的计算方法和装置 |
CN110738128A (zh) * | 2019-09-19 | 2020-01-31 | 天津大学 | 一种基于深度学习的重复视频检测方法 |
CN110688524B (zh) * | 2019-09-24 | 2023-04-14 | 深圳市网心科技有限公司 | 视频检索方法、装置、电子设备及存储介质 |
CN110598049A (zh) * | 2019-09-26 | 2019-12-20 | 北京字节跳动网络技术有限公司 | 用于检索视频的方法、装置、电子设备和计算机可读介质 |
CN110688529A (zh) * | 2019-09-26 | 2020-01-14 | 北京字节跳动网络技术有限公司 | 用于检索视频的方法、装置和电子设备 |
CN113051984A (zh) * | 2019-12-26 | 2021-06-29 | 北京中科闻歌科技股份有限公司 | 视频拷贝检测方法和装置、存储介质和电子装置 |
CN111339369A (zh) * | 2020-02-25 | 2020-06-26 | 佛山科学技术学院 | 基于深度特征的视频检索方法、系统、计算机设备及存储介质 |
CN112784102B (zh) * | 2021-01-20 | 2023-07-28 | 北京百度网讯科技有限公司 | 视频检索方法、装置和电子设备 |
CN113191262B (zh) * | 2021-04-29 | 2022-08-19 | 桂林电子科技大学 | 一种视频描述数据处理方法、装置及存储介质 |
CN114595360A (zh) * | 2022-01-20 | 2022-06-07 | 浙江阿蚂科技有限公司 | 一种基于时序特征的同源视频检索方法及系统 |
CN114567798B (zh) * | 2022-02-28 | 2023-12-12 | 南京烽火星空通信发展有限公司 | 一种针对互联网短视频变种的溯源方法 |
US12222985B2 (en) * | 2022-03-07 | 2025-02-11 | Twelve Labs, Inc. | Video retrieval method and apparatus using vectorized segmented videos based on key frame detection |
CN114579806B (zh) * | 2022-04-27 | 2022-08-09 | 阿里巴巴(中国)有限公司 | 视频检测方法、存储介质和处理器 |
CN115187917B (zh) * | 2022-09-13 | 2022-11-25 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117313A (zh) * | 2010-12-29 | 2011-07-06 | 天脉聚源(北京)传媒科技有限公司 | 一种视频检索方法和系统 |
CN105677735B (zh) * | 2015-12-30 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN105844239B (zh) * | 2016-03-23 | 2019-03-29 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106203277B (zh) * | 2016-06-28 | 2019-08-20 | 华南理工大学 | 基于sift特征聚类的固定镜头实时监控视频特征提取方法 |
CN106682108B (zh) * | 2016-12-06 | 2022-07-12 | 浙江大学 | 一种基于多模态卷积神经网络的视频检索方法 |
CN106934352A (zh) * | 2017-02-28 | 2017-07-07 | 华南理工大学 | 一种基于双路分形网络和lstm的视频描述方法 |
CN107480178B (zh) * | 2017-07-01 | 2020-07-07 | 暗物智能科技(广州)有限公司 | 一种基于图像与视频跨模态比对的行人重识别方法 |
CN107391646B (zh) * | 2017-07-13 | 2020-04-10 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
-
2018
- 2018-03-29 CN CN201810268186.7A patent/CN108228915B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108228915A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
WO2021135193A1 (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN112004111B (zh) | 一种全域深度学习的新闻视频信息抽提方法 | |
CN102549603B (zh) | 基于相关性的图像选择 | |
Murray et al. | A deep architecture for unified aesthetic prediction | |
CN101976258B (zh) | 基于对象分割和特征加权融合的视频语义提取方法 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN110909673A (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN106649490B (zh) | 一种基于深度特征的图像检索方法及装置 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN117521012B (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN111506773A (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN109492129B (zh) | 一种基于双流神经网络的相似视频搜索方法和系统 | |
CN109918539A (zh) | 一种基于用户点击行为的音、视频互相检索方法 | |
CN111104555A (zh) | 基于注意力机制的视频哈希检索方法 | |
CN108763295B (zh) | 一种基于深度学习的视频近似拷贝检索算法 | |
CN106127222B (zh) | 一种基于视觉的字符串相似度计算方法及相似性判断方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN112434553A (zh) | 一种基于深度字典学习的视频鉴别方法及系统 | |
CN105183746B (zh) | 从多相关图片中挖掘显著特征实现图像检索的方法 | |
CN110415309A (zh) | 基于生成对抗网络实现指纹图片自动生成的方法 | |
Wohlhart et al. | Multiple instance boosting for face recognition in videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211026 |
|
CF01 | Termination of patent right due to non-payment of annual fee |