CN105103153A

CN105103153A - 视频的图像概要

Info

Publication number: CN105103153A
Application number: CN201380075515.1A
Authority: CN
Inventors: Z.陈; D.刘; X.古; F.张
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2015-11-25
Also published as: JP2016517641A; KR20150127070A; EP2965280A1; US20150382083A1; WO2014134802A1

Abstract

各种实现方式涉及提供图像概要，还涉及漫画书或叙述摘要。在一个特定实现方式中，访问视频中的第一部分，并且访问视频中的第二部分。确定第一部分的权重，并且确定第二部分的权重。确定第一数量和第二数量。第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像。第一数量是一个或多个，并且基于第一部分的权重来确定第一数量。第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像。第二数量是一个或多个，并且基于第二部分的权重来确定第二数量。

Description

视频的图像概要

技术领域

描述了涉及视频的图像概要的实现方式。各种具体实现方式涉及用可配置的、细粒度的、分层的、基于场景的分析来创建视频的图像概要。

背景技术

视频可能经常很长，这使得为潜在用户确定视频所包含的东西以及确定用户是否想要观看视频变得很难。存在创建图像概要(也被称为故事书或漫画书或叙述摘要)的各种工具。图像概要提供了旨在概括或表示视频的内容的一系列静止镜头。存在改进用于创建图像概要的可用工具以及改进所创建的图像概要的持续需要。

发明内容

根据总的方面，访问视频中的第一部分，并且访问视频中的第二部分。确定第一部分的权重，并且确定第二部分的权重。确定第一数量和第二数量。第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像。第一数量是一个或多个，并且基于第一部分的权重来确定第一数量。第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像。第二数量是一个或多个，并且基于第二部分的权重来确定第二数量。

在附图和下面的描述中公开了一个或多个实现方式的细节。虽然采用特定的方式描述，但是应当清楚的是可以以各种方式来配置或体现实现方式。例如，可以将实现方式作为方法来执行，或者作为装置(诸如例如，被配置为执行一组操作的装置或者存储用于执行一组操作的指令的装置)来体现，或者以信号来体现。根据结合附图和权利要求来考虑的以下详细描述，其它方面和特征将变得显而易见。

附图说明

图1提供了视频序列的分层结构的示例。

图2提供了带注释的脚本或剧本的示例。

图3提供了用于生成图像概要的过程的示例的流程图。

图4提供了用于生成图像概要的系统的示例的框图。

图5提供了对于用于生成图像概要的过程的用户界面的示例的屏幕截图。

图6提供了来自图像概要的输出页面的示例的屏幕截图。

图7提供了用于将图像概要中的图像分配给场景的过程的示例的流程图。

图8提供了用于基于期望数量的页面生成图像概要的过程的示例的流程图。

图9提供了用于基于来自配置指南的参数生成图像概要的过程的示例的流程图。

具体实施方式

可以在例如包括快速视频浏览、媒体银行预览或媒体库预览、以及管理(搜索、取回等)用户所生成和/或非用户所生成内容的许多环境和应用中有利地使用图像概要。考虑到对于媒体消费的需求不断增加，可以使用图像概要的环境和应用有望增加。

图像概要生成工具可以是全自动的，或者允许用于配置的用户输入。每个都有其优点和缺点。例如，来自全自动解决方案的结果被快速提供，但可能不能吸引广泛的消费者。然而，与此相反，具有用户可配置的解决方案的复杂交互允许灵活性和控制，但可能会使新手消费者感到沮丧。在本申请中提供了各种实现方式，包括尝试平衡自动操作和用户可配置操作的实现方式。一种实现方式为消费者提供了通过指定期望用于输出图像概要的页面数量的简单输入来定制图像概要的能力。

参考图1，提供了对于视频序列110的分层结构100。视频序列110包括一系列场景，其中图1示出了开始视频序列110的场景1112、在场景1112后面的场景2114、在距视频序列110的两端的未指定距离处的场景的场景i116、以及视频序列110中的最后场景的场景M118。

场景i116包括一系列镜头，其中分层结构100示出了开始场景i116的镜头1122、在距场景i116的两端的未指定距离处的镜头的镜头j124、以及场景i116中的最后镜头的镜头K_i126。

镜头j124包括一系列图像。在形成图像概要的过程中，典型地选择这些图像中的一个或多个作为突出图像(通常被称为突出帧)。分层结构100示出了被选择作为突出图像的三个图像，包括第一突出图像132、第二突出图像134和第三突出图像136。在典型的实现方式中，对图像作为突出图像的选择还导致图像被包含在图像概要中。

参考图2，提供了带注释的脚本或剧本200。脚本200示出了典型脚本的各种组件，以及组件之间的关系。可以采用例如包括文字处理文档的各种形式来提供脚本。

脚本或剧本经常被定义为电影或电视节目的编剧的书面工作。在脚本中，典型地描述每个场景来定义例如“何人”(一个或多个角色)、“何事”(情形)、“何时”(一天中的时间)、“何处”(动作的地点)、以及“为何”(动作的目的)。脚本200用于单一场景，并且包括以下组件，连同对这些组件的典型定义和解释：

1.场景标题：以一些词语缩写以及所有词语大写在一行中键入的场景标题被写来指示新的场景开始。具体地，将场景的位置列在场景发生的一天中的时间之前。内部被简称为INT，并且例如是指结构的里面。外部被简称为EXT，并且例如是指户外。

脚本200包括将场景的位置标识为外部，即琼斯牧场处的小木屋的前面的场景标题210。场景标题210还将一天中的时间标识为日落。

2.场景描述：从左边距朝右边距跨页面键入的场景的描述是场景描述。在描述中第一次使用角色的名字时，全部用大写字母来显示它们。场景描述典型描述在屏幕上出现的东西，并且这可以以词语“在视频上”作为序言(preface)来指示。

脚本200包括描述在视频上出现的东西的场景描述220，正如由词语“在视频上”所指示的。场景描述220包括三个部分。场景描述220的第一部分介绍汤姆·琼斯，给出他的年龄(“22”)、外貌(“饱经风霜的脸”)、背景(“在户外生活”)、位置(“在篱笆上”)以及当前活动(“望着地平线”)。

场景描述220的第二部分描述在单一时间点上汤姆的思想状态(“像一些小鸟飞过头顶那样思想漫游”)。场景描述220的第三部分描述响应于杰克提供的帮助的动作(“看着我们并且站了起来”)。

3.说话角色：使用所有大写字母来指示正在说话的角色的名字。

脚本200包括三个说话角色指示符230。第一个和第三个说话角色指示符230指示汤姆正在说话。第二个说话角色指示符230指示杰克正在说话，并且还有杰克在屏幕之外(“O.S.”)，即在屏幕中不可见。

4.独白：角色正在说话的文本集中在如上所述采用所有大写字母的角色名字的下面的页面的中央。

脚本200包括四个部分独白，由独白指示符240指示。第一和第二部分是汤姆的第一次说话，描述了汤姆的狗的问题以及对于这些问题的汤姆的反应。独白的第三部分是杰克提供的帮助(“想要我为你训练它吗？”)。独白的第四部分是汤姆的回答(“是啊，你会吗？”)。

5.对话指示：对话指示描述了在角色的独白开始前或者当它开始时，角色看起来或者说话的样子。在角色的名字下面或者在独白内的单独的行上在括号中键入这种对话指示。

脚本200包括两个对话指示250。第一个对话指示250指示汤姆“发出哼声”。第二个对话指示250指示汤姆“一脸感激的吃惊表情”。

6.视频过渡：视频过渡是不言自明的，指示视频中的过渡。

脚本200包括所显示的场景的结尾处的视频过渡260。视频过渡260包括淡出为黑色，并且然后淡入为下一个场景(未示出)。

图3提供了用于生成图像概要的过程300的示例的流程图。过程300包括接收用户输入(310)。由于例如参数可以是固定的并且不要求由用户所进行的选择，因此接收用户输入是可选操作。然而，在各种实现方式中，用户输入包括以下的一个或多个：

(i)标识图像概要被期望的视频的信息，例如包括视频文件名称、视频分辨率和视频模式，

(ii)标识与视频对应的脚本的信息，例如包括脚本文件名称，

(iii)描述期望的图像概要输出的信息，例如包括图像概要所期望的最大页面数量、图像概要中的页面的大小、和/或图像概要的页面的格式化信息(例如，图像概要中的图像之间的间隙的大小)，

(iv)在生成图像概要时将要使用的视频的范围，

(v)在场景加权时使用的参数，诸如例如，(i)在本申请中讨论的关于加权的任一参数，(ii)要在加权中强调的首要角色的名字(例如，詹姆斯邦德)，(iii)要在加权中强调的主要角色的数量的值，(iv)要在加权中强调的突出动作或对象的列表(例如，用户可能主要对电影中的汽车追逐感兴趣)，

(vi)在对视频的各个部分(例如，场景)进行图像概要中可用页面的预算时使用的参数，诸如例如描述图像概要所期望的最大页面数量的信息，

(vii)在评价视频中的图像时使用的参数，诸如例如，选择图像质量的量度的参数，和/或

(viii)在从场景中选择用于包含在图像概要中的图像时使用的参数，诸如例如，每一个镜头将要选择的图像的数量。

过程300包括将彼此对应的脚本和视频同步(320)。例如，在典型实现方式中，视频和脚本均用于单一电影。同步操作320的至少一个实现方式将脚本与已经与视频同步的字幕同步。各种实现方式通过将脚本的文本与字幕进行相关来执行同步。因此，通过字幕将脚本与包括视频定时信息的视频同步。一个或多个这样的实现方式使用已知的技术，诸如例如在2006年英国机器视觉会议记录中的M.Everingham、J.Sivic和A.Zisserman的“‘Hello！Mynameis...Buffy.’AutomaticNamingofCharactersinTVVideo”(以下简称“Everingham”参考文献)中描述的动态时间规整方法来执行脚本字幕同步。为了包含但不限于对动态时间规整的讨论的所有目的，通过引用将Everingham参考文献的内容全部并入本文。

同步操作320提供同步的视频作为输出。同步的视频包括原始视频，以及以某种方式指示与脚本的同步的附加信息。各种实现方式通过例如为与脚本的各个部分对应的图像确定视频时间戳，然后将这些视频时间戳插入到脚本的对应部分来使用视频时间戳。

在各种实现方式中，来自同步操作320的输出是未经改变(例如，注释)的原始视频以及例如如上所述的带注释的脚本。其它实现方式不是改变脚本而是改变视频，或者除了改变脚本之外还改变视频。还有其它实现方式既不改变视频也不改变脚本，但分别提供同步信息。然而，另外的实现方式甚至不执行同步。

过程300包括将视频中的一个或多个场景进行加权(330)。其它实现方式将诸如例如镜头或场景的分组之类的视频的不同部分进行加权。各种实现方式在确定场景的权重时使用以下因素的一个或多个：

1.视频中的开始场景和/或视频中的结束场景：在各种实现方式中，使用时间指示符、图像数量指示符或场景数量指示符来指示开始和/或结束场景。

a.S_start指示视频中的开始场景。

b.S_end指示视频中的结束场景。

2.主要角色的出现频率：

a.C_rank[j],j＝1,2,3,...,N，C_rank[j]是视频中第j个角色的出现频率，其中N是视频中角色的总数。

b.C_rank[j]＝AN[j]/TOTAL，其中AN[j]是第j个角色的出现数量，并且出现数量(角色出现)是角色处于视频中的次数。因此，C_rank[j]的值是0和1之间的数量，并且C_rank[j]的值基于所有角色在视频中出现的次数来提供所有角色的排名。

可以以各种方式(诸如例如通过搜索脚本)来确定角色出现。例如，在图2的场景中，名字“汤姆”在场景描述220中出现2次，并且在说话角色230中出现2次。通过计数名字“汤姆”的发生，我们可以积累例如(i)正如由脚本中的词语“汤姆”的任意出现所确定的一个发生，以反映汤姆在场景中出现的事实，(ii)正如例如由“汤姆”在说话角色230文本中出现的次数所确定的两个发生，以反映没有另一角色介入独白的独白的数量，(iii)两个发生，以反映“汤姆”在场景描述220文本中出现的次数，或者(iv)四个发生，以反映“汤姆”作为场景描述220文本或说话角色230文本的部分出现的次数。

c.将C_rank[j]按降序排序。因此，C_rank[1]是最频繁发生的角色的出现频率。

3.场景的长度

a.LEN[i],i＝1,2,...,M是第i个场景的长度，典型地按图像的数量来测量，其中M是在脚本中定义的场景的总数。

b.可以在稍后参考图4描述的同步单元410中计算LEN[i]。将在脚本中描述的每一个场景映射到视频中的一时段的图像。场景的长度可以被定义为例如与场景对应的图像的数量。其它实现方式将场景的长度定义为例如与场景对应的时间的长度。

c.在各种实现方式中，通过以下公式将每个场景的长度标准化：

S_LEN[i]＝LEN[i]/Video_Len,i＝1,2,...M，

其中

V i d e o_L e n = Σ_{i = 1}^{M} L E N [i] .

4.场景中突出动作或对象的级别：

a.L_high[i],i＝1,2,...,M被定义为第i个场景中突出动作或对象的级别，其中M是在脚本中定义的场景的总数。

b.可以通过例如脚本中的突出词语检测来检测具有突出动作或对象的场景。例如，通过检测诸如例如看、转向、跑、爬、吻等各种突出动作词语(或词语的分组)，或者通过检测诸如例如门、桌、水、汽车、枪、办公室等各种突出对象词语。

c.在至少一个实施例中，可以由例如在第i个场景的场景描述中出现的突出词语的数量来简单定义L_high[i]，由以下公式缩放L_high[i]：

L_high[i]＝L_high[i]/maximum(L_high[i],i＝1,2,...,M)。

在至少一个实现方式中，除了开始场景和结束场景，通过以下公式计算(如场景“i”的权重所示的)所有其它场景权重：

\begin{matrix} {SCE}_{W e i g h t} [i] = {(Σ_{j = 1}^{N} W [j] * C_{r a n k} [j] * S H O W [j] [i] + 1)}^{1 + α} * S_{L E N} [i] * {(1 + L_{h i g h} [i])}^{1 + β} \\ i = 2, 3, ..., M - 1 \end{matrix}

其中：

-SHOW[j][i]是对于场景“i”，视频的第j个主要角色的出现数量。这是在场景“i”中发生的AN[j]的一部分。可以通过扫描场景并且执行与为了确定AN[j]所进行的相同类型的计数来计算SHOW[j][i]。

-W[j],j＝1,2,...,N，α和β是权重参数。可以经由根据基准数据集的数据训练来定义这些参数，使得能够取得所期望的结果。可替换地，可以由用户来设置权重参数。在一个特定实施例中：

W[1]＝5，W[2]＝3，以及W[j]＝0，j＝3,...,N，以及

α＝0.5，以及

β＝0.1。

在各种这样的实现方式中，为了增加在图像概要中开始场景和结束场景的表示，S_start和S_end被给定最高权重。这么做是因为在视频的叙述中开始场景和结束场景通常很重要。对于一种这样的实现方式，如下计算开始场景和结束场景的权重：

SCE_Weight[1]＝SCE_Weight[M]

＝maximum(SCE_Weight[i],i＝2,3,...,M-1)+1

过程300包括在视频的场景之中对图像概要图像做预算(340)。各种实现方式允许用户在用户输入操作310中配置根据视频(例如，电影内容)生成的图像概要的最大长度(即，最大页面数量，被称为PAGES)。使用以下公式将变量PAGES转换成图像概要突出图像的最大数T_highlight：

T_highlight＝PAGES*NUMF_p，

其中，NUMF_p是被分配给图像概要的每一页的(经常被称为帧的)图像的平均数，在至少一个实施例中NUMF_p被设置为5，并且还可以由用户交互操作(例如，在用户输入操作310中)来设置NUMF_p。

通过使用此输入，至少一个实现方式根据以下公式(为图像概要的突出图像选择)确定将要被分配给第i个场景的图像预算：

F B u g [i] = c e i l (T_{h i g h l i g h t} * {SCE}_{W e i g h t} [i] / Σ_{i = 1}^{M} {SCE}_{W e i g h t} [i])

此公式基于总权重的场景的分数来分配可用图像的分数，并且然后使用上限函数来向上取整。可以预料的是接近预算操作的结束时，可能不能够在不超过T_highlight的情况下对所有场景预算进行向上取整。在这样的情况下，例如超过T_highlight的各种实现方式和其它实现方式例如开始向下取整。

回顾一下，各种实现方式将视频的部分而不是场景进行加权。在许多这样的实现方式中，经常用在视频的加权部分(不一定是场景)之中对图像概要图像做预算的操作来代替操作340。

过程300包括评价场景中或者更一般地视频中的图像(350)。在各种实现方式中，对于每个场景“i”，如下为场景中的每个图像计算吸引质量：

1.AQ[k],k＝1,2,...,T_i指示第i个场景中每个影像的吸引质量，其中T_i是第i个场景中图像的总数。

2.可以基于影像质量因素来计算吸引质量，所述图像质量因素诸如例如PSNR(峰值信噪比)、清晰度级别、颜色协调级别(例如，主观分析以评估图像的颜色是否彼此协调)、和/或审美级别(例如，颜色、布局等的主观评价)。

3.在至少一个实施例中，AQ[k]被定义为例如使用以下函数计算的图像的清晰度级别：

AQ[k]＝PIX_edges/PIX_total

其中：

-PIX_edges是图像中的边缘像素的数量，以及

-PIX_total是图像中的像素的总数。

过程300包括为图像概要选择图像(360)。此操作(360)通常被称为选择突出图像。在各种实现方式中，对于每个场景“i”，执行以下操作：

-将AQ[k],k＝1,2,...,T_i按降序排序，并且选择顶端FBug[i]图像作为将要被包含在最后的图像概要中的对于场景“i”的突出图像。

-如果(i)AQ[m]＝AQ[n]，或者更一般地，如果AQ[m]在AQ[n]的阈值内，并且(ii)图像m和图像n在同一镜头中，则仅选择图像m和图像n中的一个用于最后的图像概要。这有助于确保具有相似质量的来自同一镜头的图像不会都被包含在最后的图像概要中。相反，则选择另一图像。通常，对于该场景，包含的附加图像(即，包含的最后图像)将来自不同镜头。例如，如果(i)对场景做出三个图像的预算，图像“1”、“2”和“3”，并且(ii)AQ[1]在AQ[2]的阈值内，并且因此(iii)不包含图像“2”但包含图像“4”，然后(iv)通常将会是图像4来自于与图像2不同的镜头的情况。

其它实现方式执行各种方法的任一种来确定来自场景(或已经应用预算的视频的其它部分)的哪些图像要包含在图像概要中。一种实现方式从每个镜头取走具有最高吸引质量(即，AQ[1])的图片，并且如果在FBug[i]中存在剩余图像，则不管镜头而选择具有最高吸引质量的剩余图像。

过程300包括提供图像概要(370)。在各种实现方式中，提供(370)包括：在屏幕上显示图像概要。其它实现方式提供用于存储和/或传输的图像概要。

参考图4，提供了系统400的框图。系统400是用于生成图像概要的系统的示例。可以使用系统400例如来执行过程300。

系统400接受视频404、脚本406和用户输入408作为输入。这些输入的供应可以例如对应于用户输入操作310。

视频404和脚本406彼此对应。例如，在典型实现方式中，视频404和脚本406都用于单一电影。如下面所解释的，用户输入408包括用于各种单元的一个或多个的输入。

系统400包括将脚本406与视频404同步的同步单元410。同步单元的至少一个实现方式执行同步操作320。

同步单元410提供同步的视频作为输出。同步的视频包括原始视频404，以及以某种方式指示与脚本406的同步的附加信息。正如前面所描述的，各种实现方式通过例如为与脚本的各个部分对应的图像确定视频时间戳，然后将这些视频时间戳插入到脚本的对应部分来使用视频时间戳。其它实现方式为场景或镜头而不是图像确定并且插入视频时间戳。例如可以(i)以本领域已知的各种方式、(ii)本申请中描述的各种方式、或者(iii)阅读脚本并且观看视频的人类操作员来执行确定脚本的部分与视频的部分之间的对应关系。

在各种实现方式中，来自同步单元410的输出是未经改变(例如，注释)的原始视频以及例如如上所述的带注释的脚本。其它实现方式不是改变脚本而是改变视频，或者除了改变脚本之外还改变视频。还有其它实现方式既不改变视频也不改变脚本，但分别提供同步信息。然而，另外的实现方式甚至不执行同步。正如应当清楚的，取决于来自同步单元410的输出的类型，各种实现方式不需要向系统400的其它单元(诸如例如，下面描述的加权单元420)提供原始脚本406。

系统400包括从同步单元410接收(i)脚本406、(ii)视频404和同步信息，以及(iii)用户输入408作为输入的加权单元420。加权单元420使用这些输入来执行例如加权操作330。各种实现方式允许用户例如使用用户输入408来指定第一个和最后一个场景是否具有最高权重。

加权单元420提供对于正在被分析的每个场景的场景权重作为输出。注意到，在一些实现方式中，用户可能期望准备电影的仅一部分的图像概要，诸如例如，电影的仅第一个十分钟。因此，不必要在每个视频中分析所有场景。

系统400包括(i)从加权单元420接收场景权重、以及接收(ii)用户输入408作为输入的预算单元430。预算单元430使用这些输入来执行例如预算操作340。各种实现方式允许用户使用用户输入408来例如指定在预算操作340的预算计算中是否使用上限函数(或，例如，下限函数)。还有其它实现方式允许用户指定各种预算公式，包括不基于场景权重与场景成比例地分派图像概要的图像的非线性等式。例如，一些实现方式将不断增加的较高百分比给予较高加权的场景。

预算单元430提供对于每个场景的图像预算作为输出(即，分配给每个场景的图像的数量)。其它实现方式提供了不同的预算输出，诸如例如，对于每个场景的页面预算，或者对于每个镜头的预算(例如，图像或页面)。

系统400包括(i)从同步单元410接收视频404和同步信息、以及接收(ii)用户输入408作为输入的评价单元440。评价单元440使用这些输入来执行例如评价操作350。各种实现方式允许用户使用用户输入408来例如指定将要使用什么类型的吸引质量因素(例如，PSNR、清晰度级别、颜色协调级别、审美级别)，并且甚至在可用等式之中指定特定的等式或选择。

评价单元440提供在考虑之下的一个或多个图像的评价作为输出。各种实现方式提供在考虑之下的每个图像的评价。然而，其它实现方式例如仅提供每个镜头中的第一个图像的评价。

系统400包括(i)从同步单元410接收视频404和同步信息、(ii)从评价单元440接收评价、(iii)从预算单元430接收预算、以及(iii)接收用户输入408作为输入的选择单元450。选择单元450使用这些输入来执行例如选择操作360。各种实现方式允许用户使用用户输入408来例如指定是否将要选择每个镜头中的最佳图像。

选择单元450提供图像概要作为输出。选择单元450执行例如提供操作370。在各种实现方式中，将图像概要提供给存储装置、传输装置或呈现装置。在各种实现方式中，提供输出作为数据文件或传输的比特流。

系统400包括从例如选择单元450、存储装置(未示出)、或接收例如包含图像概要的广播流的接收器(未示出)处接收图像概要作为输入的呈现单元460。呈现单元460包括例如电视机、计算机、膝上型计算机、平板、蜂窝电话或一些其它通信装置或处理装置。在各种实现方式中，呈现单元460提供分别如下面图5和图6中所示的用户界面和/或屏幕显示。

可以通过例如硬件、软件、固件或其组合来实现系统400的元件。例如，可以使用具有用于将要执行的功能的适当编程的一个或多个处理装置来实现系统400。

参考图5，提供了用户界面屏幕500。从用于生成图像概要的工具输出用户界面屏幕500。在图5中，工具被标记为“Movie2Comic”。可以使用用户界面屏幕500作为过程300的实现方式的一部分，并且可以使用系统400的实现方式来生成用户界面屏幕500。

屏幕500包括视频部分505和漫画书(图像概要)部分510。屏幕500还包括提供软件的进度的指示的进度栏515。屏幕500的进度栏515正在显示表明“显示页面布局…”的更新，以指示软件现在正在显示页面布局。进度栏515将根据软件的进程改变所显示的更新。

视频部分505允许用户指定视频信息的各种项目，并且与视频进行交互，包括：

-使用分辨率栏520来指定视频分辨率，

-使用宽度栏522和高度栏524来指定视频中的图像的宽度和高度，

-使用模式栏526来指定视频模式，

-使用文件名栏528来指定视频的源文件名，

-使用浏览按钮530来浏览可用视频文件，并且使用打开按钮532来打开视频文件，

-使用图像数量栏534来指定(在单独的窗口中)要显示的图像数量，

-使用滑动条536来选择(在单独的窗口中)要显示的视频图像，以及

-使用导航按钮组538在(被显示在单独的窗口中的)视频内导航。

漫画书部分510允许用户指定图像概要的各种信息，并且与图像概要进行交互，包括：

-使用阅读配置栏550来指示是否要生成新的图像概要(“否”)或者是否要再使用先前生成的图像概要(“是”)(例如，如果已经生成了图像概要，则软件可以阅读配置来显示先前生成的图像概要而无需重复先前计算)，

-使用卡通化栏552来指定是否要生成具有动画外观的图像概要，

-使用开始范围栏554和结束范围栏556来指定用于生成图像概要的视频的范围，

-使用最大页面数量栏558来指定图像概要的页面的最大数量，

-使用都以像素的数量(其它实现方式使用其它单位)来指定的页面宽度栏560和页面高度栏562来指定图像概要页面的大小，

-使用都以像素的数量(其它实现方式使用其它单位)来指定的水平间隙栏564和垂直间隙栏566来指定图像概要页面上的图像之间的间隔，

-使用分析按钮568来启动生成图像概要的过程，

-使用取消按钮570来放弃生成图像概要的过程并且关闭工具，以及

-使用导航按钮组572来导航(被显示在单独的窗口中的)图像概要。

应当清楚的是，屏幕500提供配置指南的实现方式。屏幕500允许用户指定各种所讨论的参数。其它实现方式在提供或不提供在屏幕500中指示的所有参数的情况下提供附加参数。各种实现方式还自动地指定某些参数和/或在屏幕500中提供缺省值。正如上面所讨论的，屏幕500的漫画书部分510允许用户至少指定以下的一个或多个：(i)将要在生成图像概要时使用的视频的范围，(ii)所生成的图像概要中的图像的宽度，(iii)所生成的图像概要中的图像的高度，(iv)所生成的图像概要中分离的图像的水平间隙，(v)所生成的图像概要中分离的图像的垂直间隙，或(vi)指示所生成的图像概要的期望页面数量的值。

参考图6，提供了来自图5的讨论中提及的“Movie2Comic”工具的输出的屏幕镜头600。屏幕镜头600是根据在用户界面屏幕500中示出的规格而生成的一页图像概要。例如：

-屏幕镜头600具有500像素的页面宽度(参见页面宽度栏560)，

-屏幕镜头600具有700像素的页面高度(参见页面高度栏562)，

-图像概要仅仅具有一页(参见最大页面数量栏558)，

-屏幕镜头600具有8像素的图像之间的垂直间隙602(参见垂直间隙栏566)，以及

-屏幕镜头600具有6像素的图像之间的水平间隙604(参见水平间隙栏564)。

屏幕镜头600包括六个图像，所述六个图像是来自在用户界面屏幕500中标识(参见文件名栏528)的视频的突出图像。按在视频中出现的顺序，六个图像是：

-第一图像605，其是六个图像中最大的一个并且被沿着屏幕镜头600的顶端放置，并且其示出了一个人敬礼的前视图，

-第二图像610，其大约是第一图像605的一半大小并且被放置在第一图像605的左手部分下面沿着屏幕镜头600的左手边的中途(mid-way)，并且其示出了当一个女人与她旁边的一个男人交谈时的这个女人的脸，

-第三图像615，其与第二图像610大小相同并且被放置在第二图像610的下面，并且其示出了建筑物的正面的一部分和标志性符号，

-第四图像620，其是最小的图像并且比第二图像610的一半大小还更小，并且被放置在第一图像605的右手边的下面，并且其提供了正在彼此交谈的两个男人的阴影影像的前视图，

-第五图像625，其比第二图像610稍微更小一点并且近似于第四图像620的两倍大小，并且被放置在第四图像620的下面，并且其示出了墓地的视图，以及

-第六图像630，其与第五图像625大小相同并且被放置在第五图像625的下面，并且其示出了在不同会话中彼此交谈的来自第二图像610的女人和男人的另一影像，女人的脸再次成为图像的焦点。

自动对六个图像605-630的每一个图像进行调整大小和裁剪，以便将图像聚焦于感兴趣的对象上。工具还允许用户使用图像605-630中的任一个来导航视频。例如，当用户点击或者(在某些实现方式中)将光标放在图像605-630之一上时，视频从视频的该点开始播放。在各种实现方式中，用户可以倒带、快进、以及使用其它导航操作。

各种实现方式以遵循以下或基于以下的顺序来放置图像概要的图像：(i)视频中的图像的时间顺序，(ii)由图像表示的场景的场景排名，(iii)图像概要的图像的吸引质量(AQ)评级，和/或(iv)以像素为单位的图像概要的图像的大小。此外，在若干实现方式中优化图像概要的图像的布局(例如，图像605-630)。更一般地，在某些实现方式中，根据在EP专利申请号2207111中描述的一个或多个实现方式来产生图像概要，为了所有目的，通过引用将该专利申请的全部内容并入本文。

正如应当清楚的，在典型实现方式中，使用例如视频时间戳来注释脚本，但视频没有改变。因此，图像605-630取自原始视频，并且在点击图像605-630之一时，原始视频从该图像开始播放。其它实现方式除了改变脚本之外还改变视频，或者不是改变脚本而是改变视频。还有其它实现方式既不改变脚本也不改变视频，而是提供单独的同步信息。

六个图像605-630是来自视频的实际图像。即，还未使用例如卡通化特征来将图像制成动画。然而，其它实现方式还在将图像包含在图像概要中之前将图像制成动画。

参考图7，提供了过程700的流程图。一般来说，过程700将图像概要中的图像分配或预算给不同场景。过程700的变型允许将图像预算给视频的不同部分，其中所述部分不一定是场景。

过程700包括访问第一场景和第二场景(710)。在至少一个实现方式中，通过访问视频中的第一场景以及视频中的第二场景来执行操作710。

过程700包括为第一场景确定权重(720)以及为第二场景确定权重(730)。在至少一个实现方式中，使用图3的操作330来确定权重。

过程700包括基于第一场景的权重确定用于第一场景的图像的数量(740)。在至少一个实现方式中，通过确定标识有多少来自第一部分的图像要在视频的图像概要中使用的第一数量来执行操作740。在若干这样的实现方式中，第一数量是一个或多个，并且基于第一部分的权重来确定第一数量。在至少一个实现方式中，使用图3的操作340来确定图像的数量。

过程700包括基于第二场景的权重确定用于第二场景的图像的数量(750)。在至少一个实现方式中，通过确定标识有多少来自第二部分的图像要在视频的图像概要中使用的第二数量来执行操作750。在若干这样的实现方式中，第二数量是一个或多个，并且基于第二部分的权重来确定第二数量。在至少一个实现方式中，使用图3的操作340来确定图像的数量。

参考图8，提供了过程800的流程图。一般来说，过程800为视频生成图像概要。过程800包括访问指示图像概要的期望页面数量的值(810)。在至少一个实现方式中，使用图3的操作310来访问这个值。

过程800包括访问视频(820)。过程800还包括基于所访问的值为视频生成具有页面计数的图像概要(830)。在至少一个实现方式中，通过为视频生成图像概要来执行操作830，其中图像概要具有总页面数量，并且总页面数量基于指示图像概要的期望页面数量的所访问的值。

参考图9，提供了过程900的流程图。一般来说，过程900为视频生成图像概要。过程900包括访问来自图像概要的配置指南的参数(910)。在至少一个实现方式中，通过访问来自包含一个或多个参数以用于配置视频的图像概要的配置指南的一个或多个参数来执行操作910。在至少一个实现方式中，使用图3的操作310来访问一个或多个参数。

过程900包括访问视频(920)。过程900还包括基于所访问的参数为视频生成图像概要(930)。在至少一个实现方式中，通过为视频生成图像概要来执行操作930，其中图像概要符合来自配置指南的一个或多个所访问的参数。

过程900或其它过程的各种实现方式包括访问与视频本身相关的一个或多个参数。正如前面参考屏幕500的视频部分505所描述的，这些参数包括例如视频分辨率、视频宽度、视频高度和/或视频模式，以及其它参数。在各种实现方式中，例如(i)由系统自动提供、(ii)由用户输入提供、和/或(iii)由用户输入屏幕(诸如例如，屏幕500)中的缺省值提供(与图像概要、视频或一些其它方面相关的)所访问的参数。

在各种实现方式中，使用系统400执行过程300的选择的操作来执行过程700。同样，在各种实现方式中，使用系统400执行过程300的选择的操作来执行过程800和900。

在各种实现方式中，图像概要中没有足够多的图像来表示所有的场景。对于其它实现方式，理论上可能有足够的图像，但考虑到较高加权的场景被给予较多的图像，这些实现方式在表示图像概要的所有场景之前用完可用图像。因此，这些实现方式的许多的变型包括首先向较高加权的场景分配(图像概要中的)图像的特征。这样，如果实现方式用完(图像概要中的)可用图像，则已经表示了较高加权的场景。许多这样的实现方式以降低场景权重的顺序来处理场景，并且因此不将(图像概要中的)图像分配给一个场景直到所有较高加权的场景都已经具有分配给它们的(图像概要中的)图像为止。

在不具有“足够”图像以表示图像概要中的所有场景的各种实现方式中，所生成的图像概要使用来自视频的一个或多个场景的图像，并且基于在包括所述一个或多个场景的视频的场景之间进行区分的排名来确定所述一个或多个场景。某些实现方式将此特征应用于除了场景之外的视频的部分，使得所生成的图像概要使用来自视频的一个或多个部分的图像，并且基于在包括所述一个或多个部分的视频的部分之间进行区分的排名来确定所述一个或多个部分。若干实现方式通过将第一部分的权重与视频的其它部分的各自的权重进行比较来确定在图像概要中是否表示(例如，视频的)第一部分。在某些实现方式中，所述部分例如是镜头。

应当清楚的是，一些实现方式使用(例如，场景的)排名来(i)确定是否在图像概要中表示场景，以及(ii)确定有多少来自所表示的场景的图像要被包含在图像概要中。例如，若干实现方式以降低权重(在场景之间进行区分的排名)的顺序来处理场景，直到填充图像概要中的所有位置为止。由于以降低权重的顺序来处理场景，因此这样的实现方式基于权重确定在图像概要中表示哪些场景。这样的实现方式还例如通过使用场景的权重确定场景的预算图像的数量来确定有多少来自每一个所表示的场景的图像要被包含在图像概要中。

给定图像概要中的图像的数量，上述实现方式的一些的变型最初确定在图像概要中是否将能够表示所有场景。如果答案是“否”，由于缺少(图像概要中的)可用图像，则若干这样的实现方式改变分配方案以便能够在图像概要中表示更多场景(例如，仅分配一个图像给每个场景)。这种处理产生与改变场景权重相似的结果。再一次，如果答案是“否”，由于缺少(图像概要中的)可用图像，则根据完全为图像概要而考虑，一些其它实现方式使用对场景权重的阈值来消除较低加权的场景。

注意到，各种实现方式仅仅将所选择的图像复制到图像概要中。然而，其它实现方式在将所选择的图像插入到图像概要中之前对所选择的图像执行各种处理技术的一个或多个。这些处理技术包括例如裁剪、调整大小、缩放、动画(例如，应用“卡通化”效果)、过滤(例如，低通滤波或噪声过滤)、色彩增强或修改，以及光线级别增强或修改。即使所选择的图像在被插入到图像概要中之前被处理了，所选择的图像仍然被认为是在图像概要中“使用”。

描述了允许用户为图像概要指定图像或页面的期望数量的各种实现方式。然而，若干实现方式在没有用户输入的情况下确定图像或页面的数量。其它实现方式允许用户指定图像或页面的数量，但如果用户不提供值，则这些实现方式在没有用户输入的情况下做出确定。在没有用户输入的情况下确定图像或页面的数量的各种实现方式中，基于例如视频(例如，电影)的长度或者视频中场景的数量来设置数量。对于具有两个小时运行长度的视频，图像概要的(在各种实现方式中的)页面的典型数量大约是三十页。如果每页存在六个图像，则在这样的实现方式中图像的典型数量是大约一百八十个。

已经描述了多个实现方式。根据本公开考虑这些实现方式的变型。由以下事实获得多个变型：附图中以及实现方式中的许多元件在各种实现方式中是可选的。例如：

-在某些实现方式中，用户输入操作310和用户输入408是可选的。例如，在某些实现方式中，不包括用户输入操作310和用户输入408。若干这样的实现方式固定所有的参数，并且不允许用户配置参数。通过(在此以及本申请的其它地方)说明在某些实现方式中特定特征是可选的，可以理解的是，一些实现方式将要求这些特征，其它实现方式将不包括这些特征，然而其它实现方式将提供这些特征作为可用选项并且允许(例如)用户确定是否使用该特征。

-在某些实现方式中，同步操作320和同步单元410是可选的。由于在生成图像概要的工具接收到脚本和视频时，脚本和视频已经同步，因此若干实现方式不必执行同步。其它实现方式不执行脚本和视频的同步是因为这些实现方式执行不具有脚本的场景分析。不使用脚本的各种这样的实现方式取而代之地使用和分析以下的一个或多个：(i)隐藏式标题文本，(ii)字幕文本，(iii)已经使用语音识别软件转化成文本的音频，(iv)在视频图像上执行以标识例如突出对象和角色的对象识别，或(v)提供在同步中有用的先前生成的信息的元数据。

-在某些实现方式中，评价操作350和评价单元440是可选的。若干实现方式不评价视频中的图像。这样的实现方式基于除了图像的吸引质量之外的一个或多个准则来执行选择操作360。

-在某些实现方式中，呈现单元460是可选的。如前所述，在不呈现图像概要的情况下，各种实现方式提供用于存储或传输的图像概要。

通过修改而不是消除附图中以及实现方式中的一个或多个元件来获得多个变型。例如：

-加权操作330和加权单元420可以以多种不同方式将场景进行加权，诸如例如：

1.场景的加权可以例如基于场景中图像的数量。一个这样的实现方式分派与场景中图像的数量成比例的权重。因此，权重例如等于场景中图像的数量(LEN[i])除以视频中图像的总数量。

2.场景的加权可以与场景中突出动作或对象的级别成比例。因此，在一个这样的实现方式中，权重等于场景“i”的突出动作或对象的级别(L_high[i])除以视频中突出动作或对象的总级别(对于所有“i”的L_high[i]的总和)。

3.场景的加权可以与场景中一个或多个角色的出现数量成比例。因此，在各种这样的实现方式中，场景“i”的权重等于SHOW[j][i](对于j＝1…F)的总和，其中F被选择或设置为例如3(指示仅考虑视频的前三个主要角色)或一些其它数字。在不同的实现方式中并且为了不同的视频内容，不同地设置F的值。例如，在詹姆斯邦德电影中，可以将F设置为相对小的数字，以便图像概要集中在詹姆斯邦德和首要反派上。

4.上面示例的变型提供场景权重的缩放。例如，在各种这样的实现方式中，场景“i”的权重等于(gamma[i]*SHOW[j][i])的总和，对于j＝1…F，“gamma[i]”是缩放值(即，权重)，并且可以被用来例如给予首要角色(例如，詹姆斯邦德)的出现更多的强调。

5.在不同实现方式中，可以由不同类型的值来表示“权重”。例如，在各种实现方式中，“权重”是排名、逆(相反顺序)排名、或者计算的度量或得分(例如，LEN[i])。此外，在各种实现方式中，没有将权重标准化，但在其它实现方式中，将权重标准化以便得到的权重在0和1之间。

6.可以使用对于其它实现方式所讨论的加权策略的一个或多个的组合来执行场景的加权。组合可以例如是总和、乘积、比率、差值、上限、下限、平均值、中位数、众数等。

7.其它实现方式不考虑场景在视频中的位置而对场景进行加权，并且因此没有将最高权重分派给第一个和最后一个场景。

8.各种附加实现方式以不同方式执行场景分析和加权。例如，一些实现方式搜索脚本的不同或附加部分(例如，为了动作或对象的突出词语，除了场景描述之外，还搜索所有独白)。此外，在执行场景分析和加权时，各种实现方式搜索除了脚本之外的项目，并且这样的项目包括例如：(i)隐藏式标题文本，(ii)字幕文本，(iii)已经使用语音识别软件转化成文本的音频，(iv)在视频图像上执行以标识例如突出对象(或动作)和角色出现的对象识别，或(v)提供用于在执行场景分析时使用的先前生成的信息的元数据。

9.各种实现方式将加权的概念应用于不同于场景的一组图像。在(例如，涉及短视频的)各种实现方式中，将镜头(而非场景)进行加权，并且基于镜头权重在镜头之中分配突出图像预算。在其它实现方式中，被加权的单元比场景更大(例如，将场景分组或者将镜头分组)或者比镜头更小(例如，基于例如图像的“吸引质量”将单个图像进行加权)。在各种实现方式中，基于各种属性将场景或镜头进行分组。一些示例包括：(i)基于长度将场景或镜头分组在一起(例如，分组相邻的短场景)，(ii)将具有相同类型的突出动作或对象的场景或镜头分组在一起，或(iii)将具有相同主要角色的场景或镜头分组在一起。

-预算操作340和预算单元430可以以各种方式将图像概要图像分配或分派给场景(或视频的一些其它部分)。若干这样的实现方式基于例如将图像的不成比例的较高(或较低)共享给予较高加权的场景的非线性分派来分派图像。若干其它实现方式仅分派一个图像给每个镜头。

-评价操作350和评价单元440可以基于例如在图像中呈现的角色和/或场景中图像的位置来评价图像(例如，场景中的第一个图像和场景中的最后一个图像可以受到较高评价)。其它实现方式评价整个镜头或场景，产生对于整个镜头或场景而不是对于每一个单个图像的单一评价(典型地，一个数字)。

-选择操作360和选择单元450可以使用其它准则来选择图像作为要被包含在图像概要中的突出图像。若干这样的实现方式选择每个镜头中的第一个或最后一个图像作为突出图像而不管图像的质量如何。

-呈现单元460可以体现在各种不同的呈现装置中。这样的呈现装置包括例如(有或没有画中画(“PIP”)功能的)电视(“TV”)、计算机显示器、膝上型计算机显示器、个人数字助理(“PDA”)显示器、蜂窝电话显示器和平板(例如，iPad)显示器。在不同实现方式中，呈现装置是主要或辅助屏幕。还有其它实现方式使用提供不同的或附加的感知呈现的呈现装置。呈现装置通常提供视觉呈现。然而，其它呈现装置例如提供：(i)例如使用扬声器的听觉呈现，或(ii)例如使用例如提供特定振动模式的振动装置或提供其它触觉(基于触觉的)感知指示的装置的触觉呈现。

-可以重新排序或重新布置所描述的实现方式的许多元件以产生更进一步的实现方式。例如，正如由系统400的讨论所建议的，可以重新排序过程300的许多操作。各种实现方式将用户输入操作移动到过程300中的一个或多个其它位置，诸如例如，就在加权操作330、预算操作340、评价操作350或选择操作360的一个或多个之前。各种实现方式将评价操作350移动到过程300中的一个或多个其它位置，诸如例如，就在加权操作330或预算操作340的一个或多个之前。

描述的实现方式的若干变型涉及添加另外的特征。这种特征的一个示例是“无剧透”功能，以便不会无意揭露关键故事点。视频的关键故事点可以包括例如凶手是谁，或者如何完成营救或逃生。各种实现方式的“无剧透”特征例如通过不包含来自例如作为高潮、结局、压轴或后记的一部分的任何场景或可替换地任意镜头的突出来操作。可以例如通过以下来确定这些场景或镜头：(i)假设应当排除视频的(例如)最后十分钟以内的所有场景或镜头，或者(ii)标识要被排除的场景和/或镜头的元数据，其中例如由评论者、内容制作者或内容提供者提供元数据。

各种实现方式将权重分派给分层细粒度结构的一个或多个不同级别。结构包括例如场景、镜头和图像。正如在整个本申请中所描述的，各种实现方式以一个或多个方式对场景进行加权。各种实现方式还要或者可替换地使用也在整个本申请中描述的一个或多个方式对镜头和/或图像进行加权。可以例如以下面方式的一个或多个来执行镜头和/或图像的加权：

(i)图像的吸引质量(AQ)可以提供图像的隐式权重(例如参见过程300的操作350)。在某些实现方式中，给定图像的权重是给定图像的AQ的实际值。在其它实现方式中，权重基于(但不等于)AQ的实际值，诸如例如，权重是AQ的缩放或标准化版本。

(ii)在其它实现方式中，给定图像的权重等于或基于AQ值的有序列表中的AQ值的排名(例如参见对AQ值进行排名的过程300的操作360)。

(iii)AQ还提供对于镜头的加权。在各种实现方式中，任何给定镜头的实际权重等于(或基于)镜头的构成图像的AQ值。例如，镜头具有等于镜头中的图像的平均AQ的权重，或者等于镜头中的任意图像的最高AQ的权重。

(iv)在其它实现方式中，给定镜头的权重等于或基于AQ值的有序列表中的镜头的构成图像的排名(例如参见对AQ值进行排名的过程300的操作360)。例如，具有较高AQ值的图像在有序列表(这是一个排名)中出现得较高，并且包括那些“较高排名”图像的镜头具有被表示在最后的图像概要中(或者使用较多图像来表示)的较高概率。即使附加规则限制可以被包含在最后的图像概要中的来自任何给定镜头的图像的数量，这也是真实的。在各种实现方式中，任何给定镜头的实际权重等于(或基于)有序AQ列表中的镜头的构成图像的位置。例如，镜头具有等于(或基于)镜头的图像(在有序AQ列表中)的平均位置的权重，或者等于(或基于)镜头的图像的任一个的最高位置的权重。

在本申请中提供了多个独立系统或产品。例如，本申请描述了用于以原始视频和脚本开始的生成图像概要的系统。然而，本申请还描述了多个其它系统，例如包括：

-系统400的每一个单元可以独立作为分离且不依赖的实体和发明。因此，例如，同步系统可以对应于例如同步单元410，加权系统可以对应于加权单元420，预算系统可以对应于预算单元430，评价系统可以对应于评价单元440，选择系统可以对应于选择单元450，并且呈现系统可以对应于呈现单元460。

-此外，至少一个加权和预算系统包括对场景(或视频的其它部分)进行加权并且基于权重在场景(或视频的其它部分)之中分配图像预算的功能。加权和预算系统的一个实现方式包括加权单元420和预算单元430。

-此外，至少一个评价和选择系统包括评价视频中的图像并且基于评价选择要包含在图像概要中的某些图像的功能。评价和选择系统的一个实现方式包括评价单元440和选择单元450。

-此外，至少一个预算和选择系统包括在视频中的场景之中分配图像预算并且然后(基于预算)选择要包含在图像概要中的某些图像的功能。预算和选择系统的一个实现方式包括预算单元430和选择单元450。类似于由评价单元440执行的评价功能的评价功能也被包含在预算和选择系统的各种实现方式中。

在本申请中描述的实现方式提供各种优点的一个或多个。这些优点例如包括：

-提供用于生成图像概要的过程，其中过程是(i)适用于用户输入的，(ii)通过评价视频中的每个图像而细粒度的，和/或(iii)通过分析场景、镜头和单个图像而分层的，

-将权重分派给包括场景、镜头和突出图像的分层细粒度结构的不同级别，

-通过考虑诸如例如视频内的场景位置、主要角色的出现频率、场景的长度以及场景中突出动作或对象的级别/数量这样的一个或多个特征来对场景(或视频的其它部分)标识不同级别的重要性(权重)，

-在选择图像概要的突出图像时考虑图像的“吸引质量”因素，

-在定义场景、镜头和突出图像的权重时保持叙述属性，其中保持“叙述属性”是指保留图像概要中的视频的故事，使得图像概要的典型观看者通过仅仅观看图像概要仍然可以理解视频的故事，

-在确定权重或排名时诸如例如通过考虑突出动作/词语的存在以及主要角色的存在来考虑与场景、镜头或图像是多么“有趣”相关的因素，和/或

-在生成图像概要时分析场景、镜头和单个图像的分层的过程中使用以下因素的一个或多个：(i)有利于开始场景和结束场景，(ii)主要人物的出现频率，(iii)场景的长度，(iv)场景中突出动作或对象的级别，或(v)图像的“吸引质量”因素。

本申请提供可以在各种不同环境中使用并且可以用于各种不同目的的实现方式。一些示例包括但不限于：

-实现方式被用于DVD或通过顶端(OTT)视频访问的自动场景选择菜单。

-实现方式被用于伪预告片的生成。例如，提供图像概要作为广告。图像概要中的每一个图像通过在图像上单击为用户提供从该图像开始的视频的剪辑。可以以各种方式来确定剪辑的长度。

-将实现方式打包作为例如应用程序，并且允许(例如，各种电影或电视连续剧的)粉丝来创建各集、各季、整个系列等的概要。例如，粉丝选择相关视频，或者选择一季或一系列的指示符。例如，当用户想要在不必观看每个节目的每一分钟的情况下“观看”持续几天的整季节目时，这些实现方式是有用的。这些实现方式对于回顾前一(几)季或者提醒自己先前已观看过的东西是有用的。还可以将这些实现方式用作娱乐日记，允许用户跟踪用户已经观看的内容。

在没有完全结构化(例如，仅具有隐藏式标题)的脚本的情况下操作的实现方式可以通过检查和处理TV信号而在电视上操作。TV信号不具有脚本，但这样的实现方式不需要具有附加的信息(例如，脚本)。若干这样的实现方式可以被设置为自动创建所观看的所有节目的图像概要。例如，(i)在创建娱乐日记时，或者(ii)在家长追踪他们的孩子已经在TV上观看的东西时，这些实现方式是有用的。

-无论是否如上所述地在TV中操作，实现方式都用于改善电子节目指南(“EPG”)节目描述。例如，某些EPG仅显示电影或连续剧集的三行文本描述。各种实现方式却提供为潜在观看者给出节目的要点的具有对应、相关的对话的图像(或剪辑)的自动摘录。若干这样的实现方式在播出节目之前在由提供商所提供的节目上批量运行，并且所得的摘录通过EPG变得可用。

本申请提供了多个附图，包括图1的分层结构、图2的脚本、图4的框图、图3和7-8的流程图、以及图5-6的屏幕截图。这些附图的每一个都提供了各种实现方式的公开。

-例如，框图肯定描述装置或系统的功能块的互连。然而，还应当清楚的是，框图提供处理流程的描述。作为示例，图4还呈现了用于执行图4的块的功能的流程图。例如，加权单元420的块还表示执行场景加权的操作，并且预算单元430的块还表示执行场景预算的操作。在描述此流程处理时类似地解读图4的其它块。

-例如，流程图肯定描述流程处理。然而，还应当清楚的是，流程图提供用于执行流程处理的系统或装置的功能块之间的互连。例如，关于图3，用于同步操作320的块还表示用于执行将视频和脚本进行同步的功能的块。在描述此系统/装置时类似地解读图3的其它块。此外，也可以以类似的方式来解读图7-8以便描述各自的系统或装置。

-例如，屏幕截图肯定描述显示给用户的屏幕。然而，还应当清楚的是，屏幕截图描述用于与用户进行交互的流程处理。例如，图5还描述了以下过程：为用户呈现用于构造图像概要的模板、接受来自用户的输入、然后构造图像概要、以及可能地迭代该过程并且精细化图像概要。此外，也可以以类似的方式来解读图6以便描述各自的流程处理。

因此，我们提供了多个实现方式。然而，应当注意的是，所描述的实现方式的变型以及附加应用被考虑并且被认为是在我们公开的范围以内。此外，可以将所描述的实现方式的特征和方面进行调适以用于其它实现方式。

各种实现方式涉及“影像”和/或“图像”。在整个文档中可互换地使用术语“影像”和“图像”，并且术语“影像”和“图像”意图是广泛的术语。“影像”和“图像”可以例如是帧或半帧的全部或部分。术语“视频”是指影像(或图像)的序列。影像或图像可以例如包括任意各种视频组件或它们的组合。这样的组件或它们的组合例如包括亮度、色度、(YUV或YCbCr或YPbPr的)Y、(YUV的)U、(YUV的)V、(YCbCr的)Cb、(YCbCr的)Cr、(YPbPr的)Pb、(YPbPr的)Pr、(RGB的)红、(RGB的)绿、(RGB的)蓝、S-Video以及任意这些组件的底片或正片。“影像”或“图像”也可以或者可替代地指例如包括典型的二维视频、曝光图、二维视频图像的视差图、与二维视频图像对应的深度图或者边缘图的各种不同类型的内容。

提及本原理的“一个实施例”或“一实施例”或“一个实现方式”或“一实现方式”、以及其它变型，意味着结合实施例而描述的特定的特征、结构、特性等被包含在本原理的至少一个实施例中。因此，在整个说明书的各个位置出现的短语“一个实施例”或“一实施例”或“一个实现方式”或“一实现方式”以及任何其它变型，不必全都指向同一实施例。

此外，本申请或其权利要求可能提及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或者从存储器取回信息中的一个或多个。

此外，本申请或其权利要求可能提及“访问”各种信息。访问信息可包括例如接收信息、取回信息(例如，从存储器取回)、存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息中的一个或多个。

要理解的是，例如在“A/B”、“A和/或B”、以及“A和B中的至少一个”的情况下，以下“/”、“和/或”、以及“至少一个”的任意一个的使用意图包含仅第一个列出的选项(A)的选择、或者仅第二个列出的选项(B)的选择、或者两个选项(A和B)的选择。作为进一步的示例，在“A、B和/或C”、和“A、B和C中的至少一个”以及“A、B或C中的至少一个”的情况下，这种短语意图包含仅第一个列出的选项(A)的选择、或者仅第二个列出的选项(B)的选择，或者仅第三个列出的选项(C)的选择、或者仅第一个和第二个列出的选项(A和B)的选择、或者仅第一个和第三个列出的选项(A和C)的选择、或者仅第二个和第三个列出的选项(B和C)的选择、或者所有三个选项(A和B和C)的选择。正如由本领域和相关领域的普通技术人员显而易见的，这可以被扩展用于列出许多项目时。

此外，可以在诸如例如后处理器或预处理器这样的处理器中实施许多实现方式。在各种实现方式中，在本申请中所讨论的处理器包括被共同配置为例如执行过程、功能或操作的多个处理器(子处理器)。例如，可以使用被共同配置为执行系统400的操作的多个子处理器来实现系统400。

在此所描述的实现方式可以例如以方法或过程、装置、软件程序、数据流或信号实现。即使仅在单一形式的实现方式的上下文中讨论(例如，仅作为方法而讨论)，所讨论的特征的实现方式也可以采用其它形式来实现(例如，装置或程序)。装置可例如以适当的硬件、软件和固件实现。方法可以例如在诸如例如处理器的装置中实现，其中处理器一般是指例如包括计算机、微处理器、集成电路或可编程逻辑器件的处理设备。处理器还包括诸如例如计算机、膝上型计算机、蜂窝电话、平板、便携式/个人数字助理(“PDA”)以及其它促进终端用户之间的信息通信的通信设备。

在此描述的各种过程和特征的实现方式可以体现在各种不同的装备或应用中。这种装备的示例包括编码器、解码器、后处理器、预处理器、视频编码器、视频解码器、视频编解码器、web服务器、电视机、机顶盒、路由器、网关、调制解调器、膝上型计算机、个人计算机、平板、蜂窝电话、PDA和其它通信设备。正如应当清楚的，装备可以是移动的，甚至可以被安装在移动的交通工具中。

此外，可以通过由处理器执行的指令来实现所述方法，并且可以在处理器可读介质上存储这样的指令(和/或由实现方式产生的数据值)，所述处理器可读介质诸如例如集成电路、软件载体或其它存储器件，所述其它存储器件诸如例如硬盘、紧凑盘(“CD”)、光盘(诸如例如，通常被称为数字多功能盘或数字视频盘的DVD)、随机存取存储器(“RAM”)、或只读存储器(“ROM”)。指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以例如采用硬件、固件、软件或其组合的形式。可以在例如操作系统、单独的应用或两者的组合中发现指令。因此，可以将处理器特征化为例如被配置为执行过程的设备以及包含具有用于执行过程的指令的处理器可读介质(诸如存储器件)的设备两者。此外，除了指令之外或者替代指令，处理器可读介质可以存储由实现方式产生的数据值。

正如对本领域技术人员而言显而易见的，实现方式可以产生各种被格式化以携带例如可以被存储或传输的信息的信号。信息可以例如包括用于执行方法的指令、或者由所描述的实现方式之一所产生的数据。例如，可以将信号格式化以携带写入或读取语法的规则作为数据，或者携带使用语法规则所生成的实际语法值作为数据。可以将这样的信号例如格式化为电磁波(例如，使用频谱的射频部分)或基带信号。格式化可以例如包括编码数据流以及使用所编码的数据流来调制载波。信号携带的信息可以例如是模拟或数字信息。正如已知的，可以通过各种不同的有线或无线链路来传输信号。可以在处理器可读介质上存储信号。

已经描述了多个实现方式。然而，将理解的是，可以进行各种修改。例如，可以组合、补充、修改或删除不同实现方式的元素以产生其它实现方式。此外，普通技术人员将理解，可以用其它结构和过程来取代这些公开的结构和过程，并且所得到的实现方式将采用至少基本相同的方式来执行至少基本相同的功能，以便达到与所公开的实现方式至少基本相同的结果。因此，通过本申请设想这些或其它实现方式。

Claims

1.一种方法，包括：

访问视频中的第一部分以及视频中的第二部分；

确定第一部分的权重；

确定第二部分的权重；

确定第一数量，所述第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像，其中所述第一数量是一个或多个，并且基于所述第一部分的权重来确定所述第一数量；以及

确定第二数量，所述第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像，其中所述第二数量是一个或多个，并且基于所述第二部分的权重来确定所述第二数量。

2.如权利要求1所述的方法，其中：

进一步基于图像概要中的页面的总数的值来确定所述第一数量。

3.如权利要求2所述的方法，其中所述图像概要中的页面的总数的值是用户提供的值。

4.如权利要求1所述的方法，还包括：

访问所述第一部分内的第一图像以及所述第一部分内的第二图像；

基于第一图像的一个或多个特征确定第一图像的权重；

基于第二图像的一个或多个特征确定第二图像的权重；以及

基于所述第一图像的权重以及所述第二图像的权重，选择第一图像和第二图像中的一个或多个成为在所述图像概要中使用的来自所述第一部分的第一数量的图像的一部分。

5.如权利要求4所述的方法，其中选择第一图像和第二图像中的一个或多个包括在选择具有较低权重的图像之前选择具有较高权重的图像。

6.如权利要求4所述的方法，其中选择第一图像和第二图像中的一个或多个包括在所述第一部分中每一个镜头选择一个或更少个图像。

7.如权利要求4所述的方法，其中所述第一图像的一个或多个特征包括信噪比、清晰度级别、颜色协调级别、或审美级别。

8.如权利要求1所述的方法，还包括：

从所述视频中选择一个或多个图像以包含在所述图像概要中；以及

提供所述图像概要。

9.如权利要求8所述的方法，其中提供所述图像概要包括以下的一个或多个：(i)呈现所述图像概要，(ii)存储所述图像概要，或(iii)传输所述图像概要。

10.如权利要求1所述的方法，其中：

基于(i)所述第一部分的权重与(ii)所有加权部分的总权重的比例来确定所述第一数量。

11.如权利要求10所述的方法，其中基于(i)图像概要中的页面的总数的用户提供的值与(ii)所述第一部分的权重与所有加权部分的总权重的比例的乘积来确定所述第一数量。

12.如权利要求1所述的方法，其中基于图像概要中的页面的总数的用户提供的值来确定所述第一数量。

13.如权利要求1所述的方法，其中：

当所述第一部分的权重高于所述第二部分的权重时，则所述第一数量至少与所述第二数量一样大。

14.如权利要求1所述的方法，其中基于来自与所述视频对应的脚本的输入来确定第一部分的权重。

15.如权利要求1所述的方法，其中基于以下的一个或多个来确定第一部分的权重：(i)来自所述视频的一个或多个主要角色在所述第一部分中的流行，(ii)所述第一部分的长度，(iii)所述第一部分中的突出的数量，或(iv)所述视频中所述第一部分的位置。

16.如权利要求15所述的方法，其中：

所述来自所述视频的一个或多个主要角色在所述第一部分中的流行基于来自所述视频的主要角色在第一部分中的出现的数量。

17.如权利要求16所述的方法，其中：

由所述视频上的较高出现频率来指示主要角色，以及

至少部分地通过将(i)第一主要角色在所述视频上的出现频率与(ii)第一主要角色在所述第一部分中的发生的数量进行相乘来确定所述第一主要角色在所述第一部分中的流行。

18.如权利要求17所述的方法，其中：

第一主要角色在所述视频上的出现频率基于第一主要角色在所述视频上的出现的数量除以所有角色在视频上出现的总数。

19.如权利要求15所述的方法，其中突出包括突出动作或突出对象中的一个或多个。

20.如权利要求1所述的方法，其中所述视频的部分是场景、镜头、场景的分组、或镜头的分组。

21.如权利要求1所述的方法，其中：

基于用户输入确定所述第一部分的权重。

22.如权利要求1所述的方法，还包括：

通过将所述第一部分的权重与所述视频的其它部分的各自权重进行比较来确定在所述图像概要中是否表示所述第一部分。

23.如权利要求1所述的方法，还包括：

访问来自包括用于配置所述视频的图像概要的一个或多个参数的配置指南的一个或多个参数；以及

为所述视频生成图像概要，其中所述图像概要符合来自所述配置指南的一个或多个所访问的参数。

24.一种装置，所述装置被配置为执行如权利要求1至23所述的一个或多个方法。

25.如权利要求24所述的装置，包括：

加权单元，其被配置为(i)访问视频中的第一部分以及视频中的第二部分，(ii)确定第一部分的权重，并且(iii)确定第二部分的权重；以及

图像预算单元，其被配置为(i)确定第一数量，所述第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像，其中所述第一数量是一个或多个，并且基于所述第一部分的权重来确定所述第一数量，并且(ii)确定第二数量，所述第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像，其中所述第二数量是一个或多个，并且基于所述第二部分的权重来确定所述第二数量。

26.如权利要求24所述的装置，包括：

用于访问视频中的第一部分以及视频中的第二部分的部件；

用于确定第一部分的权重的部件；

用于确定第二部分的权重的部件；

用于确定第一数量的部件，所述第一数量标识在视频的图像概要中将要使用多少来自第一部分的图像，其中所述第一数量是一个或多个，并且基于所述第一部分的权重来确定所述第一数量；以及

用于确定第二数量的部件，所述第二数量标识在视频的图像概要中将要使用多少来自第二部分的图像，其中所述第二数量是一个或多个，并且基于所述第二部分的权重来确定所述第二数量。

27.如权利要求24所述的装置，包括被共同地配置为执行如权利要求1至23所述的一个或多个方法的一个或多个处理器。

28.一种处理器可读介质，在其上存储有用于使得一个或多个处理器共同地执行如权利要求1至23所述的一个或多个方法的指令。