CN105075244A

CN105075244A - 视频的图示概要

Info

Publication number: CN105075244A
Application number: CN201380074309.9A
Authority: CN
Inventors: 陈志波; 刘德兵; 顾晓东; 张帆
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2015-11-18
Also published as: JP2016517640A; WO2014134801A1; EP2965507A1; KR20150122673A; EP2965507A4; US20160029106A1

Abstract

各种实现方式涉及提供图示概要，也称为漫画书或叙述抽象。在一个具体实现方式中，访问来自配置指南的一个或多个参数。配置指南包括用于配置视频的图示概要的一个或多个参数。访问视频。生成视频的图示概要。图示概要符合来自配置指南的一个或多个所访问的参数。

Description

视频的图示概要

技术领域

描述涉及视频的图示概要(pictorialsummary)的实现方式。各种具体的实现方式涉及使用可配置的、精细粒度的、分级的、基于场景的分析以生成视频的图示概要。

背景技术

视频往往可能很长，使潜在用户难以确定视频包含什么以及难以确定用户是否想要观看该视频。存在多种工具来生成图示概要，图示概要也称为故事书(storybook)或漫画书(comicbook)或叙述抽象(narrativeabstraction)。图示概要提供一系列的静止的镜头(shot)，旨在概述或表示视频的内容。继续需要改进用于创建图示概要的可用工具以及改进所生成的图示概要。

发明内容

根据一般方面，访问来自配置指南的一个或多个参数。配置指南包括用于配置视频的图示概要的一个或多个参数。访问视频。生成视频的图示概要。图示概要符合来自配置指南的一个或多个所访问的参数。

下面在附图和描述中阐述一个或多种实现方式的细节。即使以一种具体方式进行描述，也应当清楚，实现方式可以以各种方式来配置和实施。例如，实现方式可以作为方法来执行，或者作为装置(诸如被配置为执行一组操作的装置或者存储用于执行一组操作的指令的装置)来实施，或者以信号来实施。根据下面的详细描述，并结合附图和权利要求书一起考虑，其他方面和特征将变得显而易见。

附图说明

图1提供视频序列的分级结构的示例；

图2提供带注释的脚本或电影剧本的示例；

图3提供生成图示概要的处理的示例的流程图；

图4提供生成图示概要的系统的示例的框图；

图5提供生成图示概要的处理的用户界面的示例的屏幕截图；

图6提供来自图示概要的输出页的示例的屏幕截图；

图7提供将图示概要中的图片分配给场景的处理的示例的流程图；

图8提供基于所期望页数来生成图示概要的处理的示例的流程图；

图9提供基于来自配置指南的参数来生成图示概要的处理的示例的流程图。

具体实施方式

图示概要能够有利地用于许多环境和应用中，包括例如快速视频浏览、媒体存储库(mediabank)预览或媒体库预览以及管理(搜索、检索等)用户生成的和/或非用户生成的内容。已知媒体消费的需求正在增加，能够使用图示概要的环境和应用预期会增加。

图示概要生成工具能够是全自动的，或者允许用户输入进行配置。每一种都有其优点和缺点。例如，来自全自动解决方案的结果被快速地提供，但是可能对范围广泛的消费者没有吸引力。然而，相反地，在用户可配置的解决方案的情况下的复杂的交互允许灵活性和控制，但是可能使消费者新手受挫。在本申请中提供多种实现方式，包括尝试平衡自动操作和用户可配置的操作的实现方式。一种实现方式向消费者提供通过指定输出图示概要的所期望的页数的简单输入来定制图示概要的能力。

参照图1，提供视频序列110的分级结构100。视频序列110包括一系列的场景，其中图1例示开始视频序列110的场景1112、跟随场景1112的场景2114、作为处于离开视频序列的两个末端未指定的距离处的场景的场景i116以及作为视频序列110中的最后的场景的场景M118。

场景i116包括一系列的镜头，其中分级结构100例示开始场景i116的镜头1122、作为处于离开场景i116的两个末端未指定的距离处的镜头的镜头j124以及作为场景i116中的最后的镜头的镜头K_i126。

镜头j124包括一系列的图片。典型地，在形成图示概要的处理中，选择这些图片中的一个或多个作为突出(highlight)图片(往往被称为突出帧)。分级结构100例示被选择为突出图片的三个图片，包括第一突出图片132、第二突出图片134和第三突出图片136。在典型的实现方式中，选择图片作为突出图片还导致在图示概要中包括该图片。

参照图2，提供带注释的脚本或电影剧本200。脚本200例示典型脚本的多种组件以及组件之间的关系。能够以各种形式来提供脚本，包括例如字处理文档。

脚本或电影剧本经常被作为书面作业由电影剧本作者针对电影或电视节目来定义。在脚本中，通常描述每个场景以定义例如“谁”(人物或多个人物)、“什么”(情形)、“何时”(时刻)、“何地”(动作的场所)以及“为何”(动作的目的)。脚本200用于单一场景，并且包括以下组件(连同用于那些组件的典型的定义和解释)：

1.场景标题(SceneHeading)：写出场景标题以指示新场景开始，打字在一行上，其中一些单词缩写并且全部单词大写。特别地，场景的地点列在场景出现时的时刻之前。内部(Interior)缩写为INT.，并且指例如建筑物内部。外部(Exterior)缩写为EXT.，并且指例如户外。

脚本200包括场景标题210，其将场景的地点标识为在外部，在琼斯农场的小屋的前面。场景标题210还将时刻标识为傍晚。

2.场景描述：场景描述是对该场景的描述，从左页边空白朝向右页边空白跨越页地打字。人物的名称在描述中第一次使用时，以全部大写字母来显示它们。场景描述通常描述在屏幕上出现什么，并且能够以词语“在视频上(OnVIDEO)”开始来指示这一点。

脚本200包括描述在视频上出现什么的场景描述220，如通过词语“在视频上”所指示的那样。场景描述220包括三个部分。场景描述220的第一部分介绍汤姆·琼斯，给出其年龄(“22岁”)、外貌(“饱经风霜的脸”)、背景(“户外生活”)、地点(“在栅栏上”)以及当前活动(“看着地平线”)。

场景描述220的第二部分描述在单一时间点时的汤姆的心理状态(“在一些鸟飞过头顶时心不在焉”)。场景描述220的第三部分描述响应杰克提供帮助的动作(“看着我们并且站起来”)。

3.说话的人物：使用全部大写字母来指示正在说话的人物的名称。

脚本200包括三个说话的人物指示230。第一和第三说话的人物指示230指示汤姆正在说话。第二说话的人物指示230指示杰克正在说话，并且还指示杰克在幕外(“O.S.")，即在屏幕中不可见。

4.独白：人物正在说话的文本被置于页的中央、在如上所述那样地以全部大写字母的人物的名称的下面。

脚本200包括四个部分的独白，由独白指示符(monologueindicator)240指示。第一部分和第二部分用于汤姆的第一次讲话，描述关于汤姆的狗的问题以及汤姆对这些问题的反应。第三部分的独白是杰克提供帮助(“想让我为你训练它吗？”)。第四部分的独白是汤姆的回答(“是的，可以吗？")。

5.对话指示：对话指示描述在人物独白开始之前或在其开始时，人物看或讲话的方式。将该对话指示打字在人物的名称之下，或者打字在独白内的单独的行上，在括号中。

脚本200包括两个对话指示250。第一个对话指示250指示汤姆“喷鼻息”。第二个对话指示250指示汤姆具有“感激的惊讶的表情”。

6.视频过渡：视频过渡是无需解释的，其指示视频中的过渡。

脚本200包括在所显示的场景的末端处的视频过渡。视频过渡260包括到黑色的渐变以及然后针对接下来的场景(未示出)的渐显。

图3提供生成图示概要的处理300的示例的流程图。处理300包括接收用户输入(310)。接收用户输入是可选的操作，因为例如参数能够是固定的并且不需要由用户选择。然而，在多种实施方式中，用户输入包括以下一个或多个：

(i)标识被期望图示概要的视频的信息，例如包括视频文件名称、视频分辨率和视频模式；

(ii)标识对应于视频的脚本的信息，例如包括脚本文件名称；

(iii)描述所期望的图示概要输出的信息，例如包括图示概要的所期望的最大页数、图示概要中的页的大小和/或图示概要的页的格式化信息(formattinginformation)(例如，图示概要中的图片之间的间隙的大小)；

(iv)将在生成图示概要中被使用的视频的范围；

(v)在场景加权(sceneweighting)中所使用的参数，例如，诸如(i)在本申请中关于加权所讨论的任何参数、(ii)要在加权中强调的首要人物的名称(例如詹姆斯·邦德)、(iii)要在加权中强调的主要人物的数量的值、(vi)要在加权中强调的突出动作或对象的列表(例如，用户可能主要对电影中的追车感兴趣)；

(vi)在针对视频的各个部分(例如场景)的图示概要中的可用页做预算(budget)时所使用的参数，例如，诸如描述图示概要的所期望的最大页数的信息；

(vii)在评估视频中的图片时所使用的参数，例如，诸如选择图片质量的度量的参数；和/或

(viii)在从场景中选择用于包括在图示概要中的图片时所使用的参数，例如，诸如要针对每个镜头来选择的图片的数量。

处理300包括对彼此对应的脚本和视频进行同步(320)。例如，在典型的实现方式中，视频和脚本都用于单一电影。同步操作320的至少一种实现方式使脚本与已经和视频同步的字幕同步。多种实现方式通过使脚本的文本与字幕相关来执行同步。从而，脚本通过字幕与视频同步，包括视频定时信息。一个或多个这样的实现方式使用已知的技术来执行脚本-字幕同步，例如，诸如在M.Everingham、J.Sivic和A.Zisserman的“’Hello！Mynameis...Buffy.’AutomaticNamingofCharactersinTVVideo"(Proc.BritishMachineVisionConf.,2006年(“Everingham”参考))中所描述的动态时间扭曲(warping)方法。出于所有目的(包括但是不限于对动态时间扭曲的讨论)，通过引用将Everingham参考的全部内容并入本文。

同步操作320提供同步的视频作为输出。同步的视频包括原始视频以及以某种方式指示与脚本的同步的附加信息。多种实现方式例如通过确定对应于脚本不同部分的图片的视频时间戳，然后将这些视频时间戳插入到脚本的对应部分中，来使用视频时间戳。

在各种实现方式中，来自同步操作320的输出是没有改变(例如注释)的原始视频和带注释的脚本，例如，如上所述的那样。其他实现方式确实改变视频，而不是改变脚本或者也改变脚本。还有其他实现方式既不改变视频也不改变脚本，而是单独地提供同步信息。还有另外的实现方式甚至不执行同步。

处理处理300包括对视频中的一个或多个场景进行加权(330)。其他实现方式对视频的不同部分(例如，诸如镜头或者场景的分组等)进行加权。多种实现方式在确定场景的权重时使用以下因素中的一个或多个：

1.视频中的开始场景和/或视频中的结束场景：在多种实现方式中，使用时间指示符(indicator)、图片号码指示符或者场景号码指示符来指示开始和/或结束场景。

a.S_start指示视频中的开始场景。

b.S_end指示视频中的结束场景。

2.主要人物的出现频率：

a.Crank[j]，j＝1，2，3，...，N，C_rank[j]是视频中的第j个人物的出现频率，其中N是视频中的人物的总数量。

b.C_rank[j]＝AN[j]/TOTAL，其中，AN[j]是第j个人物的出现数量，并且出现数量(人物出现)是人物在视频中的次数。因此C_rank[j]的值是零与一之间的数，并且基于全部人物在视频中出现的次数来提供对他们的评级。

人物出现可以以多种方式来确定，例如通过搜索脚本。例如，在图2的场景中，名称“汤姆”在场景描述220中出现两次，并且两次作为说话的人物230。通过计数名称“汤姆”的出现，可以累计例如(i)一次出现，以反映按照单词“汤姆”在脚本中的任何出现所确定的，汤姆出现在场景中的事实；(ii)两次出现，以反映例如按照“汤姆”在说话的人物230文本中出现的次数所确定的，没有另外的人物干扰独白的独白的数量；(iii)两次出现，以反映“汤姆”在场景描述220文本中出现的次数；或者(iv)四次出现，以反映“汤姆”作为场景描述220文本的一部分或者说话的人物230文本的一部分出现的次数。

c.C_rank[j]以递减次序来排序。因此，C_rank[1]是最频繁出现的人物的出现频率。

3.场景的长度：

a.LEN[i](i＝1,2,...,M)是第i个场景的长度，通常以图片的数量来测量，其中M是在脚本中所定义的场景的总数量。

b.LEN[i]可以在同步单元410中计算，稍后参照图4来描述。在脚本中描述的每个场景都将被映射到视频中的一段时间的图片。场景的长度能够被定义为例如与场景相对应的图片的数量。其他实现方式将场景的长度定义为例如与场景相对应的时间的长度。

c.在多种实现方式中，每个场景的长度通过下面的公式来归一化：

S_LEN[i]＝LEN[i]/Video_Len，i＝1，2，...M，

其中

V i d e o_L e n = Σ_{i = 1}^{M} L E N [i] .

4.场景中的被突出的动作或对象的级别：

a.L_high[i](i＝1,2,...,M)被定义为在第i个场景中的被突出的动作或对象的级别，其中M是在脚本中定义的场景的总数量。

b.具有被突出的动作或对象的场景能够通过例如在脚本中的突出词(highlight-word)检测来检测出。例如通过检测各种突出动作词(actionword)(或词组)，例如看、转向、跑、爬、吻等，或者通过检测各种突出对象词，例如，诸如门、桌、水、汽车、枪、办公室等。

c.在至少一种实现方式中，L_high[i]可以简单地通过在例如第i个场景的场景描述中出现的突出词的数量来定义，按照下面的公式来缩放：

L_high[i]＝L_high[i]/maximum(L_high[i]，i＝1，2，...，M)。

在至少一种实现方式中，除了开始场景和结束场景之外，所有其他场景权重(被示为场景“i”的权重)通过下面的公式来计算：

\begin{matrix} {SCE}_{W e i g h t} [i] {(Σ_{j = 1}^{N} W [j] * C_{r a n k} [j] * S H O W [j] [i] + 1)}^{1 + α} * S_{L E N} [i] * {(1 + L_{h i g h} [i])}^{1 + β} \\ i = 2, 3, ..., M - 1 \end{matrix},

其中：

-SHOW[j][i]是视频的第j个主要人物的针对场景“i”的出现数量。这是在场景“i”中出现的AN[j]的一部分。SHOW[j][i]可以通过扫描场景并且执行与确定AN[j]所做的相同类型的计数来计算。

-W[j](j＝1,2,...,N)、α和β是权重参数。这些参数能够经由来自基准数据集的数据训练来定义，从而实现所期望的结果。替代地，这些权重参数能够由用户来设置。在一个具体实施例中：

W[1]＝5、W[2]＝3并且W[j]＝0(j＝3,...,N)，并且

α＝0.5，并且

β＝0.1。

在多种这样的实现方式中，对S_start和S_end给出最高的权重，以便增加开始场景和结束场景在图示概要中的表示。这样做是因为开始场景和结束场景在视频的叙述中通常很重要。对于一种这样的实现方式，将开始场景和结束场景的权重计算如下：

SCE_Weight[1]＝SCE_Weight[M]

＝maximum(SCE_wieght[i]，i＝2，3，...，M-1)+1

处理300包括针对视频中场景之中的图示概要图片做预算(340)。多种实现方式允许用户在用户输入操作310中配置从视频(例如，电影内容)生成的图示概要的最大长度(即，最大页数，被称为PAGES)。使用下面的公式将变量PAGES转换为图示概要突出图片的最大数量T_highlight：

T_highlight＝PAGES*NUMF_p，

其中，NUMF_p是分配给图示概要的每个页的图片(经常被称为帧)的平均数量，其在至少一个实施例中被设置为5，并且也能够通过用户交互操作(例如在用户输入操作310中)来设置。

使用该输入，至少一种实现方式根据下面的公式来确定要分配给第i个场景的图片预算(用于图示概要的突出图片选择)：

F B u g [i] = c e i l (T_{h i g h l i g h t} * {SCE}_{w e i g h t} [i] / Σ_{i = 1}^{M} {SCE}_{w e i g h t} [i])

这个公式基于总权重中的场景的分数(fraction)来分配可用图片的分数，然后使用天棚函数(ceilingfunction)向上舍入(roundup)。将预期到，对于预算操作的结束，可能不会对所有的场景预算向上舍入而不超过T_highlight。在这样的情况下，例如多种个实现方式超过T_highlight，而例如其他实现方式开始向下舍入(rounddown)。

记得多种实现方式对视频的一部分而不是场景进行加权。在许多这样的实现方式中，操作340经常被替换为对视频的加权的部分(未必是场景)之中的图示概要图片做预算的操作。

处理300包括评估场景中的图片或者更一般地评估视频中的图片(350)。在多种实现方式中，对于每个场景“i”，针对场景中的每个图片来计算吸引力质量(AppealingQuality)，如下：

1.AQ[k](k＝1,2,...,T_i)指示第i个场景中的每个图像的吸引力质量，其中T_i是第i个场景中的图片的总数量。

2.可以基于诸如例如PSNR(峰值信噪比)、锐度级别、色彩调和级别(例如，评定图片的色彩是否彼此良好地协调的主观分析)和/或美学级别(例如，对色彩、布局等的主观评估)这样的图像质量因素来计算吸引力质量。

3.在至少一个实施例中，AQ[k]被定义为镜头的锐度级别，使用例如下面的函数来计算：

AQ[k]＝PIX_edges/PIX_total

其中：

-PIX_edges是图片中的边缘像素的数量，以及

-PIX_total是图片中的像素的总数量。

处理300包括选择用于图示概要的图片(360)。该操作360往往被称为选择突出图片。在多种实现方式中，针对每个场景“i”，执行以下操作：

-针对场景“i”，以递减的次序来排序AQ[k](k＝1,2,...,T_i)，并且选择顶部的FBug[i]个图片作为突出图片，以包括在最终的图示概要中。

-如果(i)AQ[m]＝AQ[n]，或者更一般地，如果AQ[m]在AQ[n]的阈值内，并且(ii)图片m和图片n在同一镜头中，则图片m和图片n中的仅一个将被选择用于最终的图示概要。这有助于确保来自同一镜头的质量相似的图片不都被包括在最终的图示概要中。替代地，选择另外的图片。针对该场景而被包括的附加图片(也就是，被包括的最后的图片)往往来自不同的镜头。例如，如果(i)将场景的预算为三个图片，即图片“1”、“2”和“3”，并且(ii)AQ[1]在AQ[2]的阈值之内，并且因此(iii)不包括图片“2”但是包括图片“4”，则(iv)将往往是图片4来自与图片2不同的镜头的情况。

其他实现方式执行多种方法中的任何一种来判断将来自场景的哪些图片(或者已经应用了预算的视频的其他部分)包括在图示概要中。一种实现方式从每个镜头取得具有最高吸引力质量(也就是，AQ[1])的图片，并且如果在FBug[i]中有剩余图片，则选择具有最高吸引力质量的剩余图片而不考虑镜头。

处理300包括提供图示概要(370)。在多种实现方式中，提供(370)包括在屏幕上显示图示概要。其他实现方式提供图示概要用于存储和/或传送。

参照图4，提供系统400的框图。系统400是生成图示概要的系统的示例。系统400可以用于例如执行处理300。

系统400接受视频404、脚本406和用户输入408作为输入。对这些输入的提供可以对应于例如用户输入操作310。

视频404和脚本406彼此对应。例如，在典型的实现方式中，视频404和脚本406两者都用于单一电影。用户输入408包括针对各种单元中的一个或多个的输入，如下所解释的那样。

系统400包括对脚本406与视频404进行同步的同步单元410。同步单元的至少一种实现方式执行同步操作320。

同步单元410提供同步的视频作为输出。同步的视频包括原始视频404以及以某种方式指示与脚本406的同步的附加信息。如先前所描述的那样，多种实现方式例如通过确定对应于脚本不同部分的图片的视频时间戳，然后将那些视频时间戳插入到脚本的对应部分中，来使用视频时间戳。其他实现方式针对场景或镜头而不是图片来确定和插入视频时间戳。确定脚本的一部分和视频的一部分之间的对应能够例如(i)以本领域公知的多种方式、(ii)以本申请中描述的各种方式或者(iii)通过操作员阅读脚本并且观看视频来执行。

在多种实现方式中，来自同步单元410的输出是没有改变(例如注释)的原始视频和带注释的脚本，例如，如上所述的那样。其他实现方式确实改变视频，而不是改变脚本或者也改变脚本。还有其他实现方式既不改变视频也不改变脚本，而是单独地提供同步信息。还有另外的实现方式甚至不执行同步。应当清楚，取决于来自同步单元410的输出的类型，多种实现方式的确不需要向系统400的其他单元(诸如例如在下面描述的加权单元420)提供原始脚本406。

系统400包括加权单元420，加权单元420接收(i)脚本406、(ii)视频404和来自同步单元410的同步信息以及(iii)用户输入408作为输入。加权单元420例如使用这些输入来执行加权操作330。多种实现方式允许用户例如使用用户输入408来指定第一和最后的场景是否将具有最高的权重。

加权单元420提供正在被分析的每个场景的场景权重作为输出。注意，在一些实现方式中，用户可能期望准备电影的仅仅一部分(诸如例如电影的仅前十分钟)的图示概要。因此，未必需要分析每个视频中的全部场景。

系统400包括预算单元430，预算单元430接收(i)来自加权单元420的场景权重以及(ii)用户输入408作为输入。预算单元430例如使用这些输入来执行预算操作340。多种实现方式允许用户例如使用用户输入408来指定在预算操作340的预算计算中是否使用天棚函数(或者例如地板函数(floorfunction))。还有其他的实现方式允许用户指定各种各样的预算公式，包括基于场景权重不将图示概要的图片按比例地分配给场景的非线性等式。例如，一些实现方式对被更高地加权的场景给出愈加更高的百分比。

预算单元430提供每个场景的图片预算(也就是，分配给每个场景的图片的数量)作为输出。其他实现方式提供不同的预算输出，诸如例如每个场景的页预算或者每个镜头的预算(例如图片或页)。

系统400包括评估单元440，评估单元440接收(i)视频404和来自同步单元410的同步信息以及(ii)用户输入408作为输入。评估单元440例如使用这些输入来执行评估操作350。多种实现方式允许用户例如使用用户输入408来指定将使用什么类型的吸引力质量因素(例如PSNR、锐度级别、色彩调和级别、美学级别)、甚至是特定的等式或者可用等式之中的选择。

评估单元440提供对所考虑的一个或多个图片的评估作为输出。多种实现方式提供对所考虑的每个图片的评估。然而，其他实现方式提供例如仅对每个镜头中的第一图片的评估。

系统400包括选择单元450，选择单元450接收(i)视频404和来自同步单元410的同步信息、(ii)评估单元440的评估、(iii)来自预算单元430的预算以及(iv)用户输入408作为输入。选择单元450例如使用这些输入来执行选择操作360。多种实现方式允许用户例如使用用户输入408来指定是否将选择来自每个镜头的最佳图片。

选择单元450提供图示概要作为输出。选择单元450执行例如提供操作370。在多种实现方式中，将图示概要提供给存储设备、传送设备或呈现设备。在多种实现方式中，将输出提供为数据文件或者传送的比特流。

系统400包括呈现单元460，呈现单元460接收来自例如选择单元450、存储设备(未示出)或者接收例如包括图示概要的广播流的接收器(未示出)的图示概要作为输入。呈现单元460包括例如电视机、计算机、膝上型电脑、平板、蜂窝电话或者一些其他通信设备或处理设备。在多种实现方式中，呈现单元460提供分别在下面的图5和图6中所示的用户界面和/或屏幕显示。

系统400的元件可以由例如硬件、软件、固件或其组合来实现。例如，针对对要执行的功能进行了适当编程的一个或多个处理设备能够被用于实现系统400。

参照图5，提供用户界面屏幕500。用户界面屏幕500来自用于生成图示概要的工具的输出。工具在图5中被标记为“电影到漫画”(“Movie2Comic”)。用户界面屏幕500能够被用作处是300的实现的一部分，并且能够使用系统400的实现方式来生成。

屏幕500包括视频区505和漫画书(comicbook)(图示概要)区510。屏幕500还包括提供软件的进展的指示的进展区段(progressfield)515。屏幕500的进展区段515正在显示陈述“显示页布局…”的更新以指示软件现在正在显示页布局。进展区段515将根据软件的进展来改变所显示的更新。

视频部分505允许用户指定各项视频信息以及与视频交互，包括：

-使用分辨率区段520来指定视频分辨率；

-使用宽度区段522和高度区段524来指定视频中的图片的宽度和高度；

-使用模式区段526来指定视频模式；

-使用文件名区段528来指定视频的源文件名称；

-使用浏览按钮530来浏览可用的视频文件，以及使用打开按钮532来打开视频文件；

-使用图片号码区段534来指定要(在单独的窗口中)显示的图片号码；

-使用滑块条(sliderbar)536来选择要(在单独的窗口中)显示的视频图片；以及

-使用导航按钮分组538在(在单独的窗口中显示的)视频内进行导航。

漫画书区510允许用户指定图示概要的各条信息以及与图示概要交互，包括：

-使用读取配置区段550来指示是否要生成新的图示概要(“否”)或者是否要重用先前生成的图示概要(“是”)(例如，如果已经生成了图示概要，则软件能够读取配置以示出先前生成的图示概要而不重复先前的计算)；

-使用卡通化(cartoonization)区段552来指定是否要以动画外观(animatedlook)生成图示概要；

-使用起始范围区段554和结束范围区段556来指定在生成图示概要中使用的视频的范围；

-使用最大页(MaxPages)区段558来指定图示概要的最大页数；

-使用页宽度区段560和页高度区段562来指定图示概要页的大小，页宽度区段560和页高度区段562二者都以像素的数量来指定(其他实现方式使用其他单位)；

-使用水平间隙区段564和垂直间隙区段566来指定图示概要页上的页之间的间隔，水平间隙区段564和垂直间隙区段566二者都以像素数量来指定(其他实现方式使用其他单位)；

-使用分析按钮568来启动生成图示概要的处理；

-使用取消按钮570来放弃生成图示概要的处理，并且关闭工具；以及

-使用导航按钮分组572对(在单独的窗口中显示的)图示概要进行导航。

应当清楚的是，屏幕500提供配置指南的实现方式。屏幕500允许用户指定各种所讨论的参数。其他实现方式提供附加参数，其中提供或不提供在屏幕500中指示的全部参数。多种实现方式还自动地指定一些参数和/或在屏幕500中提供默认值。如上所述，屏幕500的漫画书区510允许用户至少指定(i)将在生成图示概要时使用的视频中的范围、(ii)所生成的图示概要中的图片的宽度、(iii)所生成的图示概要中的图片的高度、(iv)用于在所生成的图示概要中分开图片的水平间隙、(v)用于在所生成的图示概要中分开图片的垂直间隙或者(vi)指示所生成的图示概要的所期望的页数的值之中的一个或多个。

参照图6，从在图5的讨论中所提及的“电影到漫画”工具的输出提供屏幕截图600。屏幕截图600是根据在用户界面屏幕500中所示出的规格所生成的一页图示概要。例如：

-屏幕截图600的页宽度为500个像素(见页宽度区段560)；

-屏幕截图600的页高度为700个像素(见页高度区段562)；

-图示概要仅具有一个页(见最大页区段558)；

-屏幕截图60的图片之间的垂直间隙602为8个像素(见垂直间隙区段566)；以及

-屏幕截图600的图片之间的水平间隙604为6个像素(见水平间隙区段564)。

屏幕截图600包括六个图片，它们是在用户界面屏幕500中识别的来自视频的突出图片(见文件名区段528)。该六个图片以在视频中出现的次序是：

-第一图片605，其是六个图片中最大的，并且沿着屏幕截图600的顶部安置，其示出男人致敬的前透视图；

-第二图片610，其大约是第一图片605的大小的一半，并且在第一图片605左手部分的下面、沿着屏幕截图600的左手侧安置在中途(mid-way)，其示出女人的面部，此时她与她旁边的男人交谈；

-第三图片615，其与第二图片610大小相同，并且安置在第二图片610的下面，其显示建筑物的前部的一部分和图像符号(iconicsign)；

-第四图片620，其是最小的图片并且小于第二图片610的大小的一半，并且安置在第一图片605的右手侧的下面，其提供彼此交谈的两个男人的有阴影的图像的前透视图；

-第五图片625，其稍小于第二图片610，并且大约为第四图片620的大小的两倍，安置在第四图片620的下面，其示出墓地的视图；以及

-第六图片630，其与第五图片625大小相同，并且安置在第五图片625的下面，其示出第二图片610中的女人和男人在不同的会话中彼此交谈的另外的图像，女人的面部再次是图片的焦点。

六个图片605-630中的每个都被自动地调整大小并且被剪裁以将图片聚焦在所关注的对象上。该工具还允许用户使用六个图片605-630中的任何一个对视频进行导航。例如，当用户点击或者(在某些实现方式中)将光标放置在六个图片605-630中的一个之上时，视频开始从视频的该点开始播放。在多种实现方式中，用户可以倒回、快进和使用其他导航操作。

多种实现方式放置图示概要的图片的次序遵循或基于(i)视频中的图片的时间次序、(ii)由图片所表示的场景的场景等级、(iii)图示概要的图片的吸引力质量(AQ)评定和/或(iv)图示概要的图片的大小(以像素)。而且，图示概要的图片(例如，图片605-630)的布局在若干实现方式中被优化。更一般地，在某些实现方式中，图示概要根据在EP专利申请号2207111(出于所有目的，通过引用将其全部内容并入本文)中描述的一种或多种实现方式来产生。

正如应当清楚的那样，在典型的实现方式中，脚本被注释有例如视频时间戳，但是视频未改变。因此，图片605-630取自原始视频，并且当点击图片605-630之一时，原始视频从该图片开始播放。其他实现方式除了改变脚本之外还改变视频，或者改变视频而非改变脚本。还有其他的实现方式既不改变脚本也不改变视频，而是提供单独的同步信息。

六个图片605-630是来自视频的实际图片。即，尚未使用例如卡通化功能将图片作成动画。然而，其他实现方式确实在将图片包括在图示概要中之前将图片作成动画。

参照图7，提供处理700的流程图。一般来说，处理700将图示概要中的图片分配或预算给不同的场景。处理700的变型允许将图片预算给视频的不同部分，其中所述部分未必是场景。

处理700包括访问第一场景和第二场景(710)。在至少一种实现方式中，操作710通过访问视频中的第一场景和视频中的第二场景来执行。

处理700包括确定第一场景的权重(720)以及确定第二场景的权重(730)。在至少一种实现方式中，使用图3的操作330来确定权重。

处理700包括基于第一场景的权重来确定用于第一场景的图片的量(740)。在至少一种实现方式中，通过确定标识有多少来自第一部分的图片要被用在视频的图示概要中的第一数量来执行操作740。在若干这样的实现方式中，第一数量是一个或多个，并且基于第一部分的权重来确定。在至少一种实现方式中，使用图3的操作340来确定图片的数量。

处理700包括基于第二场景的权重来确定用于第二场景的图片的量(750)。在至少一种实现方式中，通过确定标识有多少来自第二部分的图片要被用在视频的图示概要中的第二数量来执行操作750。在若干这样的实现方式中，第二数量是一个或多个，并且基于第二部分的权重来确定。在至少一种实现方式中，使用图3的操作340来确定图片的数量。

参照图8，提供处理800的流程图。一般来说，处理800生成视频的图示概要。处理800包括访问指示图示概要的所期望的页数的值(810)。在至少一种实现方式中，使用图3的操作310来访问该值。

处理800包括访问视频(820)。处理800还包括为视频产生具有基于所访问的数值的页计数的图示概要(830)。在至少一种实现方式中，通过生成视频的图示概要来执行操作830，其中图示概要具有总页数，并且该总页数基于指示图示概要的所期望的页数的所访问的值。

参照图9，提供处理900的流程图。一般来说，处理900生成视频的图示概要。处理900包括访问来自图示概要的配置指南的参数(910)。在至少一种实现方式中，通过访问来自包括用于配置视频的图示概要的一个或多个参数的配置指南的一个或多个参数来执行操作910。在至少一种实现方式中，使用图3的操作310来访问一个或多个参数。

处理900包括访问视频(920)。处理900还包括基于所访问的参数为视频产生图示概要(930)。在至少一种实现方式中，通过生成视频的图示概要来执行操作930，其中图示概要符合来自配置指南访问的一个或多个参数。

处理900或其他处理的多种实现方式包括访问与视频自身有关的一个或多个参数。这样的参数包括例如先前参照屏幕500的视频区505所描述的视频分辨率、视频宽度、视频高度和/或视频模式以及其他参数。在多种实现方式中，例如(i)由系统自动地、(ii)通过用户输入和/或(iii)通过用户输入屏幕(诸如例如屏幕500)中的默认值来提供所访问的参数(与图示概要、视频或某个其他方面有关)。

在多种实现方式中，使用系统400执行处理300的所选择的操作来执行处理700。类似地，在多种实现方式中，使用系统400执行处理300的所选择的操作来执行处理800和900。

在多种实现方式中，在图示概要中没有足够的图片来表示全部场景。对于其他实现方式，理论上能够存在足够的图片，但是假设对更高权重的场景给出更多的图片，这些实现方式在以图示概要表示全部场景之前用完可用的图片。因此，这些实现方式中的很多的变型包括首先向更高权重的场景分配图片的特征。以这种方式，如果实现方式(在图示概要中)用完可用的图片，则已经表示了更高权重的场景。许多这样的实现方式以递减的场景权重的次序来处理场景，并且因此不将图片(在图示概要中)分配给场景，直至全部更高权重的场景已经具有分配给它们的图片(在图示概要中)为止。

在不具有“足够的”图片来表示图示概要中的全部场景的多种实现方式中，所生成的图示概要使用来自视频的一个或多个场景的图片，并且所述一个或多个场景基于在包括所述一个或多个场景的视频的场景之间进行区分的等级来确定。某些实现方式将该特征应用于场景之外的视频的部分，使得所生成的图示概要使用来自视频的一个或多个部分的图片，并且所述一个或多个部分基于在包括所述一个或多个部分的视频的部分之间进行区分的等级来确定。若干实现方式通过比较第一部分的权重与视频的其他部分的相应的权重进来确定是否在图示概要中表示(例如视频的)第一部分。在某些实现方式中，所述部分例如是镜头。

应当清楚的是，一些实现方式使用(例如场景的)等级来(i)确定是否在图示概要中表示场景以及(ii)确定有多少来自所表示的场景的图片包括在图示概要中。例如，若干实现方式以递减的权重(在场景之间进行区分的等级)的次序来处理场景，直至图示概要中的全部位置被填充为止。从而，这样的实现方式基于权重来确定哪些场景表示在图示概要中，因为场景是以递减的权重的次序来处理的。这样的实现方式还例如通过使用场景的权重确定该场景的预算的图片的数量，来确定有多少来自每个所表示的场景的图片包括在图示概要中。

以上实现方式中的一些的变型最初确定在给定图示概要中的图片的数量的情况下是否能够在图示概要中表示全部场景。如果由于(在图示概要中)缺少可用的图片而答案是“否”，则若干这样的实现方式将改变分配方案，以便能够在图示概要中表示更多的场景(例如，对每个场景分配仅一个图片)。该处理产生与改变场景权重相类似的结果。此外，如果由于(在图示概要中)缺少可用的图片而答案是“否”，则一些其他实现方式使用关于场景权重的阈值，以针对图示概要，将低权重的场景完全排除在考虑之外。

注意，多种实现方式将所选择的图片简单地复制到图示概要中。然而，其他实现方式在将所选择的图片插入到图示概要中之前对所选择的图片执行多种处理技术中的一种或多种。这样的处理技术包括例如剪裁、重新调整大小、缩放、制作动画(例如施加“卡通化”效果)、滤波(例如，低通滤波或噪声滤波)、色彩增强或修改以及光级增强或修改。即使所选择的图片在被插入到图示概要中之前被处理，所选择的图片仍然被视为要被“使用”在图示概要中。

所描述的多种实现方式允许用户针对图示概要指定页或图片的所期望的数量。然而，若干实现方式在没有用户输入的情况下确定页或图片的数量。其他实现方式允许用户指定页或图片的数量，但是如果用户没有提供值，则这些实现方式在没有用户输入的情况下做出确定。在在没有用户输入的情况下确定页或图片的数量的多种实现方式中，数量基于例如视频(例如电影)的长度或视频中场景的数量来设置。对于运转长度(run-length)为两个小时的视频，用于图示概要的典型的页数(在多种实现方式中)近似为三十页。如果每页有六个图片，则这样的实现方式中的图片的典型数量近似为180。

已经描述了许多实现方式。本公开想到这些实现方式的变型。根据附图中和实现方式中的许多要素在多种实现方式中是可选的这一事实，获得许多变型。例如：

-在某些实现方式中，用户输入操作310和用户输入408是可选的。例如在某些实现方式中，不包括用户输入操作310和用户输入408。若干这样的实现方式固定全部参数并且不允许用户配置参数。通过(在这里和本申请中的别处)声明具体特征在某些实现方式中是可选的，应当理解的是，一些实现方式将需要所述特征，其他实现方式将不包括所述特征，而还有其他的实现方式将提供所述特征作为可用的选项并且允许(例如)用户确定是否使用该特征。

-同步操作320和同步单元410在某些实现方式中是可选的。若干实现方式不需要执行同步，因为脚本和视频在生成图示概要的工具接收脚本和视频时已经被同步。其他实现方式不执行脚本和视频的同步，因为那些实现方式执行没有脚本的场景分析。不使用脚本的多个这样的实现方式替代地使用和分析(i)关闭字幕(closecaption)文本、(ii)字幕文本、(iii)使用语音识别软件转换为文本的音频、(iv)对视频图片执行以识别例如突出对象和人物的目标识别或者(v)提供在同步中有用的先前生成的信息的元数据之中的一个或多个。

-评估操作350和评估单元440在某些实现方式中是可选的。若干实现方式不评估视频中的图片。这样的实现方式基于图片的吸引力质量之外的一个或多个标准来执行选择操作360。

-呈现单元460在某些实现方式中是可选的。所先前所述，多种实现方式提供图示概要用于存储或传送，而不呈现图示概要。

许多变型通过不消除地修改在附图中和实现方式中的一个或多个要素来获得。例如：

-加权操作330和加权单元420能够以许多不同的方式对场景加权，诸如例如：

1.对场景的加权能够基于例如场景中的图片的数量。一个这样的实现方式分配与场景中的图片的数量成比例的权重。因此，权重例如等于场景中的图片的数量(LEN[i])除以视频中的图片的总数量。

2.对场景的加权能够与该场景中的被突出的动作或对象的级别成比例。因此，在一个这样的实现方式中，权重等于场景“i”的被突出的动作或对象的级别(L_high[i])除以视频中的被突出的动作或对象的总级别(全部“i”的L_high[i]之和)。

3.对场景的加权能够与场景中的一个或多个人物的出现数量成比例。因此，在多个这样的实现方式中，场景“i”的权重等于SHOW[j][i](j＝1,...,F)之和，其中F被选取或设置为例如3(指示仅仅考虑视频的前三个主要人物)或某个其他数字。在不同的实现方式中并且针对不同的视频内容，不同地设置F的值。例如，在詹姆斯·邦德电影中，F能够被设置为相对小的数字，使得图示概要聚焦在詹姆斯·邦德和主要反面角色上。

4.以上示例的变型提供对场景权重的缩放。例如，在多个这样的实现方式中，场景“i”的权重等于(gamma[i]*SHOW[j][i])(j＝1...F)之和。“gamma[i]”是缩放值(即权重)，并且能够被用于例如对主要人物(例如，詹姆斯·邦德)的出现给出更多的强调。

5.“权重”在不同实现方式中能够由不同类型的值来表示。例如，在多种实现方式中，“权重”是等级、逆(相反次序的)等级或者计算出的度量或得分(例如，LEN[i])。此外，在多种实现方式中，不对权重进行归一化，但是在其他实现方式中，对权重进行归一化，使得得到的权重在0到1之间。

6.对场景的加权能够使用针对其他实现方式所讨论的一个或多个加权策略的组合来执行。组合可以是例如求和、乘积、比率、差值、天棚、地板、平均、中值、众数等。

7.其他实现方式对场景加权，而不考虑场景在视频中的位置，因此，不将最高的权重分配给第一和最后的场景。

8.多种另外的实现方式以不同的方式来执行场景分析和加权。例如，一些实现方式搜索脚本的不同的或附加的部分(例如，除了场景描述之外还在全部独白中搜索关于动作或对象的突出词)。另外，多种实现方式在执行场景分析和加权中搜索脚本之外的项目，这样的项目包括例如(i)关闭字幕文本、(ii)字幕文本、(iii)使用语音识别软件转换为文本的音频、(iv)对视频图片执行以识别例如突出对象(或动作)和人物出现的目标识别或者(v)提供在执行场景分析中使用的先前生成的信息的元数据。

9.多种实现方式对不同于场景的一组图片应用加权的概念。在多种实现方式中(例如涉及短视频)，对镜头(而不是场景)进行加权，并且基于镜头权重在镜头之中分配了突出图片预算。在其他实现方式中，被加权的单位大于场景(例如，将场景分组，或者将镜头分组)或小于镜头(例如，基于例如图片的“吸引力质量”对各个图片进行加权)。在多种实现方式中，基于各种属性将场景或镜头分组。一些示例包括(i)基于长度将场景或镜头分组在一起(例如，将邻近的短场景分组)、(ii)将具有相同类型的被突出的动作或对象的场景或镜头分组在一起或者(iii)将具有相同主要人物的场景或镜头分组在一起。

-预算操作340和预算单元430能够以多种方式向场景(或视频的某个其他部分)分派或分配图示概要图片。若干这样的实现方式基于例如对更高权重的场景给出不成比例地更高(或更低)图片的份额的非线性分配来分配图片。若干其他实现方式简单地针对每个镜头分配一个图片。

-评估操作350和评估单元440能够基于例如存在于图片中的人物和/或场景中的图片的位置来评估图片(例如，场景中的第一图片和场景中的最后的图片能够接收更高的评估)。其他实现方式评估整个镜头或场景，为整个镜头或场景而不是每个单个图片生成单一的评估(典型地，数字)。

-选择操作360和选择单元450能够使用其他标准来选择图片作为要在图示概要中包括的突出图片。若干这样的实现方式选择每个镜头中的第一或最后的图片作为突出图片，而不管图片的质量如何。

-呈现单元460能够以各种各样的不同的呈现设备来实施。这样的呈现设备包括例如电视(“TV”)(具有或没有画中画(“PIP”)功能)、计算机显示器、膝上型电脑显示器、个人数字助理(“PDA”)显示器、蜂窝电话显示器以及平板(例如iPad)显示器。在不同实现方式中，呈现设备是主屏幕或者是次级屏幕。还有其他的实现方式使用提供不同的或者附加的感觉呈现的的呈现设备。显示设备通常提供视觉呈现。然而，其他呈现设备例如(i)使用例如扬声器来提供听觉表达或者(ii)使用例如提供例如特定振动模式的振动设备或者提供其他触觉(基于触摸)感觉指示的设备来提供触觉表达。

-所描述的实现方式的许多要素能够被重新排序或者重新布置以产生另外的实现方式。例如，处理300的许多操作能够被重新布置，如由对系统400的讨论所建议的那样。多种实现方式将用户输入操作移动到处理300中的一个或多个其他位置处，诸如例如恰好在加权操作330、预算操作340、评估操作350或选择操作360中的一个或多个之前。多种实现方式把评估操作350移动到处理300中的一个或多个其他位置处，诸如例如恰好在加权操作330或预算操作340中的一个或多个之前。

所描述的实现方式的若干变型涉及添加另外的特征。这样的特征的一个示例是“无剧透(nospoilers)”特征，使得关键故事点不被无意地泄露。视频的关键故事点可以包括例如谁是凶手或者如何完成营救或逃脱。多种实现方式的“无剧透”特征通过例如不包括来自任何场景的或者替代地来自任何镜头的、作为例如高潮、结局、尾声或收场白的一部分的突出来操作。这些场景或镜头能够例如通过(i)假设应当排除视频的最后十(例如)分钟内的全部场景或镜头或者通过(ii)标识要排除的场景和/或镜头的元数据来确定，其中元数据由例如审查者、内容生产者或内容提供者来提供。

多种实现方式将权重分配给分级的精细粒度结构的一个或多个不同的级别。该结构包括例如场景、镜头和图片。多种实现方式以一种或多种方式对场景加权，如在本申请的各种所描述的那样。多种实现方式还或者替代地使用同样在本申请的各处描述的一种或多种方式对镜头和/或图片加权。对镜头和/或图片的加权能够例如以下面的方式中的一种或多种来执行：

(i)图片的吸引力质量(AQ)能够为图片提供隐式权重(例如见处理300的操作350)。在某些实现方式中，针对给定图片的权重是针对该给定图片的AQ的实际值。在其他实现方式中，权重基于(不是等于)AQ的实际值，诸如例如AQ的缩放或归一化的版本。

(ii)在其他实现方式中，针对给定图片的权重等于或基于AQ值的有序列表中的AQ值的等级(例如见处理300的操作360，其对AQ值进行评级)。

(iii)AQ还提供针对镜头的加权。在多种实现方式中，针对任何给定图片的实际权重等于(或基于)镜头的构成图片的AQ值。例如，镜头的权重等于镜头中的图片的平均AQ或者等于镜头中任何图片的最高AQ。

(iv)在其他实现方式中，针对给定镜头的权重等于或基于AQ值的有序列表中的镜头的构成图片的等级(例如见处理300的操作360，其对AQ值进行评级)。例如，具有更高的AQ值的图片在有序列表(其为等级)出现得更高，并且包括那些“更高等级的”图片的镜头在最终的图示概要中被表示(或者用更多的图片来表示)的概率更高。即便附加规则限制能够被包括在最终的图示概要中的来自任何给定镜头的图片的数量，这也是真的。在多种实现方式中，任何给定镜头的实际权重等于(或基于)有序的AQ列表中的镜头的构成图片的位置。例如，镜头的权重等于(或基于)镜头的图片(在有序的AQ列表中)的平均位置，或者等于(或基于)镜头的图片中的任何一个的最高位置。

在本申请中提供许多独立的系统或产品。例如，本申请描述开始于原始视频和脚本的用于生成图示概要的系统。然而，本申请还描述许多其他系统，例如包括：

-系统400的每个单元能够单独地作为分开和独立的实体和发明。因此，例如，同步系统能够对应于例如同步单元410，加权系统能够对应于加权单元420，预算系统能够对应于预算单元430，评估系统能够对应于评估单元440，选择系统能够对应于选择单元450，并且呈现系统能够对应于呈现单元460。

-另外，至少一个加权和预算系统包括对场景(或视频的其他部分)加权以及基于权重在场景(或视频的其他部分)之中分配图片预算的功能。加权和预算系统的一种实现方式包括加权单元420和预算单元430。

-另外，至少一个评估和选择系统包括评估视频中的图片以及基于评估来选择某些图片以包括在图示概要中的功能。评估和选择系统的一种实现方式包括评估单元440和选择单元450。

-另外，至少一个预算和选择系统包括在视频中的场景之中分配图片预算、然后(基于预算)选择某些图片以包括在图示概要中的功能。预算和选择系统的一种实现方式包括预算单元430和选择单元450。与由评估单元440执行的评估功能相类似的评估功能也包括在预算和选择系统的多种实现方式中。

在本申请中描述的实现方式提供各种各样的优点中的一个或多个。这样的优点包括，例如：

-提供用于生成图示概要的处理，其中该处理(i)适应于用户输入，(ii)通过评估视频中的每个图片而是精细粒度的，和/或(iii)通过分析场景、镜头和各个图片而是分级的；

-对包括场景、镜头和突出图片的分级的精细粒度结构的不同级别分配权重；

-通过考虑诸如例如视频内的场景位置、主要人物的出现频率、场景的长度以及场景中的被突出的动作或对象的级别/量这样的一个或多个特征，对场景(或视频的其他部分)标识不同级别的重要性(权重)；

-在选择用于图示概要的突出图片中考虑图片的“吸引力质量”因素；

-在定义场景、镜头和突出图片的权重时保持叙述属性，其中保持“叙述属性”是指在图示概要中保留视频的故事，使得图示概要的典型的观众仍然能够通过仅观看图示概要来理解视频的故事；

-在确定权重或等级时，诸如例如通过考虑突出动作/词的存在及主要人物的存在来考虑与场景、镜头或图片是多么“有趣”有关的因素；和/或

-在生成图示概要时，在分析场景、镜头和各个图片的分级处理中，使用以下因素中的一个或多个：(i)偏爱开始场景和结束场景、(ii)主要人物的出现频率、(iii)场景的长度、(iv)场景中的被突出的动作或对象的级别或者(v)图片的“吸引力质量”因素。

本申请提供能够在各种各样的不同环境中使用并且能够用于各种各样的不同目的实现方式。一些示例包括但不限于：

-实现方式被用于DVD或过顶机(over-the-top，“OTT”)视频访问的自动场景选择菜单。

-实现方式被用于伪宣传片生成。例如，图示概要被提供为广告。图示概要中的每个图片通过在该图片上点击为用户提供以该图片开始的视频的片段。片段的长度能够以多种方式来确定。

-实现方式被包装为例如app，并且允许(例如各个电影或TV连续剧的)爱好者创建情节、季、整个连续剧等的概要。例如，爱好者选择相关的视频或者选择一季或一个连续剧的指示符。这些实现方式例如在用户想要在几天内“观看”的整个季的节目而不必观看每个节目的每分钟时是有用的。这些实现方式对于对回顾先前的季或者使自己想起先前观看的内容也是有用的。这些实现方式也能够被用作娱乐日记，允许用户保持对该用户已经观看的内容的跟踪。

-在没有完整构造脚本(例如，仅具有关闭式字幕)的情况下操作的实现方式能够通过检查和处理TV信号在电视上运行。TV信号没有脚本，但是这样的实现方式不需要具有附加信息(例如脚本)。若干这样的实现方式能够被设置为自动地创建所观看的全部节目的图示概要。这些实现方式例如(i)在创建娱乐日记时或者(ii)对于父母跟踪其孩子在TV上观看的内容是有用的。

-实现方式(无论是否如上所述地在TV中运行)被用于改进电子节目指南(“EPG”)的节目描述。例如，一些EPG仅仅显示电影或连续剧情节的三行文本描述。替代地，多种实现方式提供带有向潜在观众给出节目的要点的对应的、贴切的对话的图片(或片段)的自动化摘录。在放送节目之前，对供应商所提供的节目批量运行若干这样的实现方式，并且使得到的摘录通过EPG可用。

本申请提供多个附图，包括图1的分级结构、图2的脚本、图4的框图、图3和图7-8的流程图以及图5-6的屏幕截图。这些附图的每一个都提供对各种实现方式的公开。

-例如，框图无疑描述装置或系统的功能块的互连。然而，还应当清楚的是，框图提供对处理流程的描述。作为示例，图4还呈现用于执行图4的块的功能的流程图。例如，加权单元420的块还表示执行场景加权的操作，并且预算单元430的块还表示执行场景预算的操作。在描述该流程处理时类似地解释图4的其他块。

-例如，流程图无疑描述流程处理。然而，还应当清楚的是，流程图提供用于执行该流程处理的系统或装置的功能块之间的互连。例如，关于图3，同步操作320的块还表示用于执行使视频和脚本同步的功能的块。在描述该系统/装置时类似地解释图3的其他块。另外，能够以类似的方式来解释图7-8，以描述相应的系统或装置。

-例如，屏幕截图无疑描述向用户示出的屏幕。然而，还应当清楚的是，屏幕截图描述用于与用户交互的的流程处理。例如，图5还描述向用户呈现构造图示概要的模板、从用户接受输入、然后构造图示概要以及可能地迭代该处理并使图示概要精制的处理。此外，图6也能够以类似的方式来解释，以描述相应的流程处理。

这样，已经提供了许多实现方式。然而，应当注意的是，所描述的实现方式的变型以及另外的应用被想到并且被视为在本公开之内。此外，所描述的实现方式的特征和方面可以适合于其他实现方式。

多种实现方式提及“图像”和/或“图片”。术语“图像”和“图片”在本文档的各处被互换地使用，并且旨在作为广义术语。“图像”或“图片”可以是例如帧或场的全部或部分。术语“视频”指图像(或图片)的序列。图像或图片可以包括例如各种视频成分的任何一个或它们的组合。这样的成分或它们的组合包括例如亮度、色度、(YUV或YCbCr或YPbPr的)Y、(YUV的)U、(YUV的)V、(YCbCr的)Cb、(YCbCr的)Cr、(YPbPr的)Pb、(YPbPr的)Pr、(RGB的)红、(RGB的)绿、(RGB的)蓝、S-Video以及这些成分中的任何一个的负或正。“图像”和“图片”还可以(或者替代地)指各种不同类型的内容，例如包括典型的二维视频、曝光图、2D视频图片的视差图、与2D视频图片相对应的深度图或边缘图。

所提及的本原理的“一个实施例”或“实现方式”或“一种实现方式”或“实现方式以及它们的其他变型意味着结合实施例描述的具体特征、结构、特性等包括在本原理的至少一个实施例中。因此，在本说明书各处的不同地方出现的短语“在一个实施例中”或“在实施例中”或“在一种实现方式中”或“在实现方式中”以及任何其他变型未必全部指同一实施例。

此外，本申请或其权利要求书可能提及“确定”各种信息。确定信息可以包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一种或多种。

另外，本申请或其权利要求书可能提及“访问”各种信息。访问信息可以包括例如接收信息、检索信息(例如从存储器检索)、存储信息、处理信息、传送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或评估信息的一种或多种。

应当认识到，例如在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下的下面的“/”、“和/或”以及“至少一个”中的任何一个的使用旨在包含仅选择所列出的第一选项(A)或者仅选择所列出的第二选项(B)或者选择两个选项(A和B)。作为另外的示例，在“A、B和/或C”以及“A、B和C中的至少一个”以及“A、B或C中的至少一个”的情况下，这样的短语旨在包含仅选择所列出的第一选项(A)，或者仅选择所列出的第二选项(B)，或者仅选择所列出的第三选项(C)，或者仅选择所列出的第一和第二选项(A和B)，或者仅选择所列出的第一和第三选项(A和C)，或者仅选择所列出的第二和第三选项(B和C)，或者选择全部三个选项(A和B和C)。如被本领域和相关领域的普通技术人员所容易地意识到的那样，这可以被延伸到所列出的很多个项目。

另外，许多实现方式可以在诸如例如后处理器或预处理器这样的处理器中实现。在多种实现方式中，在本申请中所讨论的处理器包括多个处理器(子处理器)，它们被共同地配置为执行例如处理、功能或操作。例如，系统400能够使用多个子处理器来实现，它们被共同地配置为执行系统400的操作。

在本文中描述的实现方式可以实现为例如方法或处理、装置、软件程序、数据流或信号。即使仅在单一形式的实现方式背景下进行了讨论(例如仅作为方法进地了讨论)，但是所讨论的特征的实现方式也可以以其他形式(例如装置或程序)来实现。装置可以实现为例如适合的硬件、软件和固件。所述方法可以在例如诸如例如处理器(一般指处理设备，例如包括计算机、微处理器、集成电路或可编程逻辑器件)这样的装置中实现。处理器还包括通信设备，诸如例如计算机、膝上型电脑、蜂窝电话、平板、便携式/个人数字助理(“PDA”)以及便于终端用户之间的信息通信的其他设备。

在本文中描述的各种处理和特征的实现方式可以实施在各种不同的装备或应用中。这样的装备的示例包括编码器、解码器、后处理器、预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、电视、机顶盒、路由器、网关、调制解调器、膝上型电脑、个人计算机、平板、蜂窝电话、PDA和其他通信设备。应当清楚的是，装备可以是移动的，并且甚至可以安装在移动车辆中。

另外，所述方法可以通过由处理器执行的指令来实现，并且这样的指令(和/或由实现方式产生的数据值)可以存储在处理器可读的介质上，诸如例如集成电路、软件载体或诸如例如硬盘、紧密盘(“CD”)、光盘(诸如例如DVD，往往称为数字多功能盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)这样的其他存储设备。所述指令可以形成有形地实施在处理器可读的介质上的应用程序。指令可以例如在硬件、固件、软件或其组合中。指令可以例如存在于操作系统、单独的应用或两者的组合中。因此，可以将处理器表征为例如被配置为执行处理的设备以及包括具有用于执行处理的指令的处理器可读的介质(比如存储设备)的设备两得。另外，除了指令之外或者替代指令地，处理器可读的介质可以存储由实现方式产生的数据值。

如将对本领域的技术人员显而易见的是，实现方式可以产生被格式化以携带可以例如被存储或传送的信息的各种信号。信息可以包括例如用于执行方法的指令或者由所描述的实现方式之一产生的数据。例如，信号可以被格式化为携带用于写入或读取语法的规则作为数据，或者携带使用语法规则生成的实际的语法值作为数据。这样的信号可以被格式化为例如电磁波(例如使用频谱的射频部分)或者基带信号。格式化可以包括例如对数据流编码和用经编码的数据流调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的那样，信号可以在各种不同的有线或无线链路上传送。信号可以存储在处理器可读的介质上。

已经描述了许多实现方式。然而，应当理解的是，可以做出多种修改。例如，可以组合、补充、修改或去除不同实现方式的要素以生成其他实现方式。另外，本领域的普通技术人员将理解的是，其他结构和处理可以替换所公开的那些，并且得到的实现方式将如所公开的实现方式那样地，以至少基本相同的方式执行至少基本相同的功能，以实现至少基本相同的结果。因此，本申请想到这些以及其他实现方式。

Claims

1.一种方法，包括：

访问来自包括用于配置视频的图示概要的一个或多个参数的配置指南的一个或多个参数；

访问视频；以及

生成视频的图示概要，其中图示概要符合来自配置指南的一个或多个所访问的参数。

2.根据权利要求1所述的方法，其中，

一个或多个所访问的参数包括指示图示概要的所期望的页数的值；以及

所生成的图示概要具有总页数，并且总页数基于所访问的值。

3.根据权利要求1所述的方法，其中，

一个或多个所访问的参数包括(i)来自在生成图示概要中要使用的视频的范围、(ii)在所生成的图示概要中的图片的宽度、(iii)在所生成的图示概要中的图片的高度、(iv)用于分开在所生成的图示概要中的图片的水平间隙、(v)用于分开在所生成的图示概要中的图片的垂直间隙或者(vi)指示所生成的图示概要的所期望的页数的值中的一个或多个。

4.根据权利要求1所述的方法，其中生成图示概要包括：

访问视频中的第一场景和视频中的第二场景；

确定第一场景的权重；

确定第二场景的权重；

确定第一数量，第一数量标识有多少来自第一场景的图片要被用在视频的图示概要中，其中第一数量是一个或多个，并且基于第一场景的权重来确定；以及

确定第二数量，第二数量标识有多少来自第二场景的图片要被用在视频的图示概要中，其中第二数量是一个或多个，并且基于第二场景的权重来确定。

5.根据权利要求4所述的方法，其中，

确定第一数量还基于指示图示概要中的所期望的页数的所访问的值。

6.根据权利要求1所述的方法，其中来自配置指南的一个或多个所访问的参数包括用户提供的参数。

7.根据权利要求2所述的方法，其中指示图示概要中的所期望的页数的所访问的值是用户提供的值。

8.根据权利要求4所述的方法，其中生成图示概要还包括：

访问第一场景内的第一图片和第一场景内的第二图片；

基于第一图片的一个或多个特征来确定第一图片的权重；

基于第二图片的一个或多个特征来确定第二图片的权重；

基于第一图片的权重和第二图片的权重，选择第一图片和第二图片中的一个或多个成为图示概要中的第一场景的第一数量的图片的一部分。

9.根据权利要求4所述的方法，其中，

基于(i)第一场景的权重与(ii)所有加权场景的总权重的比例来确定第一数量。

10.根据权利要求4所述的方法，其中，

当第一场景的权重高于第二场景的权重时，则第一数量至少与第二数量一样大。

11.根据权利要求4所述的方法，其中基于来自对应于视频的脚本的输入来确定第一场景的权重。

12.根据权利要求4所述的方法，其中基于(i)来自视频的一个或多个主要人物在第一场景中的出现率、(ii)第一场景的长度、(iii)第一场景中的突出的数量或者(iv)视频中第一场景的位置中的一个或多个来确定第一场景的权重。

13.根据权利要求4所述的方法，其中，

基于用户输入来确定第一场景的权重。

14.根据权利要求1所述的方法，其中，

所生成的图示概要使用来自视频的一个或多个部分的图片，并且基于部分的级别来确定来自一个或多个部分中的至少一个的在图示概要中使用的图片的数量。

15.根据权利要求1所述的方法，其中，

所生成的图示概要使用来自视频的一个或多个部分的图片，并且基于在包括一个或多个部分的视频的部分之间进行区分的等级来确定一个或多个部分。

16.根据权利要求1所述的方法，其中生成图示概要包括：

访问视频中的第一部分和视频中的第二部分；

确定第一部分的权重；

确定第二部分的权重；

确定第一数量，第一数量标识有多少来自第一部分的图片要被用在视频的图示概要中，其中，第一数量是一个或多个，并且基于第一部分的权重来确定；以及

确定第二数量，第二数量标识有多少来自第二部分的图片要被用在视频的图示概要中，其中第二数量是一个或多个，并且基于第二部分的权重来确定。

17.一种装置，被配置为执行根据权利要求1-16所述的方法中的一种或多种。

18.根据权利要求17所述的装置，包括：

图示概要生成器，被配置为(i)访问来自包括用于配置视频的图示概要的一个或多个参数的配置指南的一个或多个参数，(ii)访问视频，以及(iii)生成视频的图示概要，其中图示概要符合来自配置指南的一个或多个所访问的参数。

19.根据权利要求17所述的装置，包括：

用于访问来自包括用于配置视频的图示概要的一个或多个参数的配置指南的一个或多个参数的部件；

用于访问视频的部件；以及

用于生成视频的图示概要的部件，其中图示概要符合来自配置指南的一个或多个所访问的参数。

20.根据权利要求17所述的装置，包括被共同地配置为执行根据权利要求1-16所述的方法中的一种或多种的一个或多个处理器。

21.一种处理器可读的介质，在其上存储有用于使一个或多个处理器共同地执行根据权利要求1-16所述的方法中的一种或多种的指令。