CN113132789B

CN113132789B - 一种多媒体的交互方法、装置、设备及介质

Info

Publication number: CN113132789B
Application number: CN202110454427.9A
Authority: CN
Inventors: 陈可蓉; 韩晓; 杨晶生; 刘敬晖; 钱程
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-10-28
Anticipated expiration: 2041-04-26
Also published as: CN113132789A

Abstract

本公开实施例涉及一种多媒体的交互方法、装置、设备及介质，其中该方法包括：在目标多媒体的录制过程中，接收用户的交互输入触发操作；确定交互输入触发操作对应的交互时间点；获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示。采用上述技术方案，可以在多媒体的录制过程中实时针对用户的交互输入触发的时间点输入交互内容并关联时间点展示交互内容，由于交互针对的对象为时间点，更加直观以及具有针对性，提高了用户在多媒体录制过程中实时交互的准确性，进而提高了交互的体验效果。

Description

一种多媒体的交互方法、装置、设备及介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种多媒体的交互方法、装置、设备及介质。

背景技术

随着多媒体技术的不断发展，多媒体录制因其在沟通效率和信息保留等方面的突出表现，越来越多地被应用在日常生活和办公生活中。

在一些相关产品中，可以对重要过程进行录制生成多媒体文件，以供再次回顾。然而，在多媒体录制的过程中，用户实时交互的准确性不高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多媒体的交互方法、装置、设备及介质。

本公开实施例提供了一种多媒体的交互方法，所述方法包括：

在目标多媒体的录制过程中，接收用户的交互输入触发操作；

确定所述交互输入触发操作对应的交互时间点；

获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示。

本公开实施例还提供了一种多媒体的交互方法，所述方法包括：

在目标多媒体的接收过程中，执行实时转录操作；

接收完成之后，关联展示所述目标多媒体以及所述目标多媒体转录之后的转录文本。

本公开实施例还提供了一种多媒体的交互装置，所述装置包括：

触发模块，用于在目标多媒体的录制过程中，接收用户的交互输入触发操作；

时间模块，用于确定所述交互输入触发操作对应的交互时间点；

交互内容模块，用于获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示。

转录模块，用于在目标多媒体的接收过程中，执行实时转录操作；

展示模块，用于接收完成之后，关联展示所述目标多媒体以及所述目标多媒体转录之后的转录文本。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的多媒体的交互方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的多媒体的交互方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的多媒体的交互方案，在目标多媒体的录制过程中，接收用户的交互输入触发操作；确定交互输入触发操作对应的交互时间点；获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示。采用上述技术方案，可以在多媒体的录制过程中实时针对用户的交互输入触发的时间点输入交互内容并关联时间点展示交互内容，由于交互针对的对象为时间点，更加直观以及具有针对性，提高了用户在多媒体录制过程中实时交互的准确性，进而提高了交互的体验效果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种多媒体的交互方法的流程示意图；

图2为本公开实施例提供的另一种多媒体的交互方法的流程示意图；

图3为本公开实施例提供的一种多媒体的交互示意图；

图4为本公开实施例提供的另一种多媒体的交互示意图；

图5为本公开实施例提供的再一种多媒体的交互方法的流程示意图；

图6为本公开实施例提供的一种多媒体的交互装置的结构示意图；

图7为本公开实施例提供的一种多媒体的交互装置的结构示意图；

图8为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的一种多媒体的交互方法的流程示意图；该方法可以由多媒体的交互装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101、在目标多媒体的录制过程中，接收用户的交互输入触发操作。

其中，目标多媒体可以为任意一个记录信息的多媒体数据，例如目标多媒体可以为会议多媒体，也即用于记录一个会议过程中的多媒体数据，本公开实施例对目标多媒体的数据类型不作限定，例如目标多媒体可以为音频和/或视频等。交互输入触发操作是指用户想要对正在录制的内容进行交互内容输入的触发操作。

本公开实施例中，在录制目标多媒体的过程中，可以实时接收用户的交互输入触发操作，上述交互输入触发操作的形式可以包括多种，具体不限，例如交互输入触发操作可以包括对交互按钮上的触发操作，交互按钮可以为预先设置在多媒体页面上的按钮，按钮的具体位置和样式不作限定，可以根据实际情况进行设置，多媒体页面可以为对实时录制的目标多媒体进行展示的页面。

步骤102、确定交互输入触发操作对应的交互时间点。

其中，交互时间点是指用户进行交互输入触发操作时在目标多媒体中对应的时间点。

本公开实施例中，确定交互输入触发操作对应的交互时间点，可以包括：确定交互输入触发操作的实时时刻，将目标多媒体中实时时刻对应的时间点确定为交互时间点。接收到用户的交互输入触发操作之后，可以确定交互输入触发操作的实时时刻，将目标多媒体在实时时刻的播放时间点确定为交互时间点，其中实时时刻是指当前的时钟时间。例如假设实时时刻为上午11点整，可以将11点整时目标多媒体的播放时间点1分20秒确定为交互时间点。

可选的，确定交互输入触发操作对应的交互时间点，可以包括：确定交互输入触发操作的录制时间戳，并将录制时间戳确定为交互时间点，其中，录制时间戳基于交互输入触发操作的实时时刻相对于录制起始时刻的时间差确定。

录制起始时刻可以是目标多媒体的录制的起始世界时刻。录制时间戳可以用于表征目标多媒体的录制进度。具体的，当目标多媒体的录制过程在交互输入触发操作之前无暂停操作，则可以采用时间差的方式确定上述录制时间戳，例如假设录制起始时刻为2点，交互输入触发操作的实时时刻为2:10，则录制时间戳可以为10分钟；而当目标多媒体的录制过程在交互输入触发操作之前存在暂停操作，则可以先确定暂停操作的暂停时间段，采用时间差的方式确定初始时间戳之后减去上述暂停时间段，可以得到最终的录制时间戳，例如假设录制起始时刻为2点，暂停操作的暂停时间段为2:10-2:15，交互输入触发操作的实时时刻为2:20，则录制时间戳可以为15分钟。

上述方案中交互时间点可以为交互输入触发操作对应的时间点或者录制时间戳，具体可以根据实际情况确定。

步骤103、获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示。

其中，实时交互内容是指用户输入的具体交互承载对象，实时交互内容中可以包括多种不同类型的对象，本公开实施例的实时交互内容可以包括表情和评论等中的至少一个，表情可以包括点赞、爱心和多种情绪表情等，具体不限。多媒体页面可以为用于对多种类型的内容进行展示的页面。

可选的，获取实时交互内容，包括：展示交互输入界面，其中，交互输入界面中包括至少一个交互组件；基于交互组件获取实时交互内容。其中，交互组件可以包括评论组件和/或表情组件。交互输入界面可以为用于提供交互输入功能的界面，本公开实施例中对交互输入界面的具体形式不作限定，例如交互输入界面可以为矩形或圆形。交互输入界面中可以设置多个交互组件，交互组件是指用于进行交互内容的输入、编辑和发布等操作的功能组件。本公开实施例中，交互组件可以包括评论组件和/或表情组件。

本公开实施例中，接收用户的交互输入触发操作之后，可以展示包括交互组件的交互输入界面给用户，基于交互组件获取用户输入的实时交互内容。之后可以在多媒体页面中同时展示实时交互内容以及上述确定的交互时间点，以提示用户当前交互针对的对象是交互时间点。可以理解的是，上述实时交互内容以及交互时间点可以展示在交互窗口中，交互窗口的具体位置不限，可以根据实际情况设置，例如交互窗口展示于多媒体页面的右下方。

本公开实施例提供的多媒体的交互方案，在目标多媒体的录制过程中，接收用户的交互输入触发操作；确定交互输入触发操作对应的交互时间点；获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示。采用上述技术方案，可以在多媒体的录制过程中实时针对用户的交互输入触发的时间点输入交互内容并关联时间点展示交互内容，由于交互针对的对象为时间点，更加直观以及具有针对性，提高了用户在多媒体录制过程中实时交互的准确性，进而提高了交互的体验效果。

在一些实施例中，多媒体的交互方法还可以包括：采用第一识别模型对目标多媒体进行语音识别，确定第一字幕并展示第一字幕。其中，第一识别模型可以为一种侧重于实时性的语音识别模型，具体采用的模型不限，例如可以采用随机模型法或人工神经网络的方法等。

本公开实施例中，在目标多媒体的录制过程中，可以采用第一识别模型实时对目标多媒体进行语音识别，识别得到语音信息，并将语音信息转换为文本内容，即可得到第一字幕，在多媒体页面中展示第一字幕。上述在多媒体的录制过程中可以实时进行语音识别，并将识别得到的字幕展示给用户，使用户通过文字内容了解更多信息。

在一些实施例中，将实时交互内容与交互时间点关联展示，可以包括：确定交互时间点在第一字幕中的初始交互字幕；在与初始交互字幕关联的位置处展示交互窗口，其中，交互窗口中包括实时交互内容以及对应的交互时间点。可选的，确定交互时间点在第一字幕中的初始交互字幕，可以包括：将交互时间点在第一字幕中对应的文字所在的字幕语句确定为初始交互字幕，其中，第一字幕中包括多个字幕语句。

其中，初始交互字幕可以为第一字幕中交互时间点关联的字幕。交互窗口是指用于展示交互内容相关信息的窗口。字幕语句可以为第一字幕的一个组成单位，通过对第一字幕进行句子划分得到，第一字幕中可以包括多个字幕语句，具体数量不限。具体的，确定交互时间点之后，可以先确定交互时间点在第一字幕对应的文字，具体可以为一个字或词，将该文字所在的字幕语句确定为初始交互字幕，之后可以在与初始交互字幕关联的位置处展示包括实时交互内容以及对应的交互时间点的交互窗口。上述与初始交互字幕关联的位置可以为初始交互字幕附近的空白位置，具体不限。可选的，上述交互窗口除了包括实时交互内容以及对应的交互时间点之外，还可以展示初始交互字幕。

上述方案中，交互内容和交互时间点可以通过交互窗口展示在字幕中的关联位置，交互窗口的展示可以关联字幕，使用户更直观地了解交互内容与字幕之间的关系，进一步提高了交互内容的展示效果。

在一些实施例中，多媒体的交互方法还可以包括：当交互输入触发操作作用于第一字幕中的目标字幕时，将实时交互内容与目标字幕关联展示。目标字幕是指交互输入触发操作对应的文本选区的起始点和终止点之间的文字。当交互输入触发操作作用于目标字幕时，交互输入触发操作可以包括对目标字幕进行的点击操作、拖动操作加悬停操作，以及对之后展示的预设交互按钮的触发操作，点击操作和拖动操作实现了对文本的选择，之后的悬停操作以及对预设交互按钮的触发操作实现了对选中文本的交互输入触发。

本公开实施例中，当接收到作用于第一字幕中的目标字幕的交互输入触发操作时，可以展示包括交互组件的交互输入界面给用户，基于交互组件获取用户输入的实时交互内容，之后将实时交互内容与目标字幕在交互窗口中关联展示。上述交互窗口的具体位置不限，例如交互窗口可以展示在多媒体页面的预设位置或者与目标字幕关联的位置。

上述方案中，可以在多媒体的录制过程中实时针对用户的交互输入触发的字幕文本输入交互内容并关联字幕文本展示交互内容，实现了另一种方式的交互内容的触发，使交互内容的展示以及输入更加多样化。

在一些实施例中，多媒体的交互方法还可以包括：接收对第一字幕的翻译触发操作，将第一字幕由初始语言翻译为目标语言。其中翻译触发操作是用于对第一字幕进行不同语言之间的翻译的触发操作。当接收到用户对第一字幕的翻译触发操作之后，可以将第一字幕由当前初始语言翻译为目标语言，目标语言可以为用户指定的翻译语言，目标语言可以包括多种，具体不限。这样设置的好处在于，字幕内容能够支持翻译功能，可以满足用户对不同语言的翻译需求，更有利于用户了解字幕内容。

在一些实施例中，多媒体的交互方法还可以包括：采用第二识别模型对录制结束之后的目标多媒体进行语音识别，确定第二字幕并展示第二字幕。可选的，多媒体的交互方法还可以包括：确定交互时间点在第二字幕中对应的目标交互字幕；在交互窗口中展示实时交互内容以及对应的目标交互字幕，其中，交互窗口在与目标交互字幕关联的位置展示。

其中，第二识别模型可以为一种侧重于准确性的语音识别模型，与上述第一识别模型不同，具体采用的模型不限。目标交互字幕可以为第二字幕中交互时间点关联的字幕。在目标多媒体录制结束之后，针对录制完成的目标多媒体，可以重新采用第二识别模型进行语音识别，将得到的语音信息转换为文本内容，即可得到第二字幕。第二字幕相较于第一字幕更加准确。之后可以确定交互时间点在第二字幕对应的文字，将该文字所在的字幕语句确定为目标交互字幕，之后可以在与目标交互字幕关联的位置处展示包括实时交互内容以及对应的目标交互字幕的交互窗口。

上述方案中，在目标多媒体录制完成之后，可以通过更加准确的识别模型进行识别以及文字转换得到准确性更高的字幕内容，之后可以根据交互时间点将交互内容匹配到字幕内容中，并在交互窗口中展示交互内容以及匹配的字幕，使录制完成之后的交互内容在展示时与字幕的关联性更加准确。

在一些实施例中，多媒体的交互方法还可以包括：在目标多媒体的播放时间轴上交互时间点所在位置，和/或与初始交互字幕关联的位置，展示交互提示标识。可选的，多媒体的交互方法还可以包括：接收用户对交互提示标识的触发操作，在交互窗口中展示交互提示标识对应的实时交互内容。

其中，交互提示标识是指用户输入交互内容之后设置的用于提示此位置具有交互内容的一个标识，交互提示标识的表现形式不限，可以根据实际情况进行设置，不同交互内容对应的交互提示标识可以不同，例如表情对应的交互提示标识可以为表情本身，评论对应的交互提示标识可以为设定的对话框标识。具体的，本公开实施例中获取实时交互内容之后，可以在目标多媒体的播放时间轴上交互时间点所在位置设置交互提示标识并展示，也可以在第一字幕中交互时间点的初始交互字幕关联的位置设置交互提示标识并展示。上述目标多媒体的播放时间轴可以在录制完成之后展示在多媒体页面中。之后当接收到用户对交互提示标识的触发操作之后，可以在交互窗口中展示交互提示标识对应的实时交互内容，交互窗口的具体位置不限。可选的，交互窗口中还可以展示上述交互时间点和/或初始交互字幕。

上述方案中，用户输入交互内容之后，还可以在多媒体的播放时间轴和/或字幕中展示交互内容的提示标识，以提示其他用户此处具有交互内容，使得用户对视频的交互不仅局限于自身，还可以使其他用户了解自身的交互内容，交互方式更加多样化，进一步提高了用户的交互体验。

在一些实施例中，多媒体的交互方法还可以包括：接收用户对多媒体页面的分享操作，分享多媒体页面的页面信息，其中，页面信息包括页面地址。上述分享操作可以通过对分享按钮的触发实现。当用户需要分享多媒体页面时，可以触发上述分享按钮，多媒体的交互装置接收到分享操作之后，可以将多媒体页面的页面信息分享给其他用户，以使其他用户通过页面信息可以打开多媒体页面，浏览多媒体页面中的内容。上述多媒体页面中可以包括目标多媒体、目标多媒体对应的字幕内容以及实时交互内容等相关信息。这样设置的好处在于，在多媒体的录制过程中支持用户对多媒体页面的分享，使其他用户可以较为便捷的浏览到录制过程中的多媒体和其他相关的内容，进一步提高了用户体验效果。

图2为本公开实施例提供的另一种多媒体的交互方法的流程示意图，本实施例在上述实施例的基础上，进一步对上述多媒体的交互方法进行具体说明。如图2所示，该方法包括：

步骤201、在目标多媒体的录制过程中，采用第一识别模型对目标多媒体进行语音识别，确定第一字幕并展示第一字幕。

示例性的，图3为本公开实施例提供的一种多媒体的交互示意图，如图3所示，图中展示了一个目标多媒体的录制过程中的多媒体页面10，多媒体页面10中可以在字幕区域11中展示第一字幕。图3中在多媒体页面10的顶部区域还展示了目标多媒体的标题“团队回顾会议”以及其他相关内容，图中“2019.12.20上午10:00”表示目标多媒体的开始时间，多媒体页面10的底部区域展示了录制语言为中文，该录制语言在录制之前可以根据实际需要进行设置。

步骤201之后可以执行步骤202和/或步骤210，具体可以根据实际情况进行设置。

可选的，步骤201之后还可以包括：接收对第一字幕的翻译触发操作，将第一字幕由初始语言翻译为目标语言。示例性的，参见图3，多媒体页面10中展示有翻译按钮12，当用户触发翻译按钮12时，可以执行对多媒体页面10中第一字幕的翻译具体可以从初始语言翻译为目标语言，例如可以将第一字幕从中文翻译为英文。

步骤202、接收用户的交互输入触发操作。

步骤203、确定交互输入触发操作对应的交互时间点。

具体的，确定交互输入触发操作对应的交互时间点，可以包括确定交互输入触发操作的实时时刻，将目标多媒体中实时时刻对应的时间点确定为交互时间点。

步骤204、获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示。

其中，实时交互内容包括评论和/或表情。

具体的，将实时交互内容与交互时间点关联展示，可以包括：确定交互时间点在第一字幕中的初始交互字幕；在与初始交互字幕关联的位置处展示交互窗口，其中，交互窗口中包括实时交互内容以及对应的交互时间点。可选的，确定交互时间点在第一字幕中的初始交互字幕，包括：将交互时间点在第一字幕中对应的文字所在的字幕语句确定为初始交互字幕，其中，第一字幕中包括多个字幕语句。

示例性的，参见图3，多媒体页面10中展示有交互按钮13，交互按钮13中可以包括评论按钮和表情按钮，当用户触发其中的评论按钮之后，可以展示交互输入界面14，图中的交互输入界面14中仅展示了评论组件，评论组件包括图中的评论输入对话框、删除按钮和发布按钮，基于评论组件可以获取用户输入的评论。如图3，输入的评论和交互时间点可以展示在交互窗口21中，评论为“这个结论应该是没有确定的”，交互时间点为“00:27”；交互时间点“00:27”的初始交互字幕为图中的“1234”，交互窗口21还可以展示在“1234”关联的位置(图中未示出)。可选的，当用户触发表情按钮时，可以展示包括表情组件交互输入界面14，以供用户输入表情。如图3，输入的表情可以展示在交互窗口22中，交互时间点为“00:34”，表情为微笑，交互窗口22还可以展示在交互时间点“00:34”对应的初始交互字幕关联的位置(图中未示出)。

可选的，多媒体的交互方法还可以包括：当交互输入触发操作作用于第一字幕中的目标字幕时，将实时交互内容与目标字幕关联展示。示例性的，参见图3，多媒体页面10添加有背景色和下划线的“1234”为用户当前选择的目标字幕，在交互窗口23中展示了评论“这个结论应该是没有确定的”以及“1234”。可选的，该交互窗口23中还可以展示输入评论的用户以及输入评论的时间等相关内容。可以理解的是，上述交互窗口23可以在目标字幕“1234”关联的位置展示，也可以在其他位置展示，图3中仅为示例。

上述方案中，在多媒体的录制过程中，用户可以针对实时的选中字幕或时间点进行交互内容的输入，并且交互内容的展示位置以及关联展示信息根据实际情况设置，提高了交互内容展示的多样性，进一步提高了用户的交互体验效果。

步骤204之后，可以执行步骤205和/或步骤207，具体根据实际情况确定。

步骤205、在目标多媒体的播放时间轴上交互时间点所在位置，和/或与初始交互字幕关联的位置，展示交互提示标识。

步骤206、接收用户对交互提示标识的触发操作，在交互窗口中展示交互提示标识对应的实时交互内容。

示例性的，图4为本公开实施例提供的另一种多媒体的交互示意图，图中展示了目标多媒体的录制结束之后的多媒体页面10，如图4所示，多媒体页面10的字幕区域11以及下方的播放时间轴上展示了两个交互提示标识，包括一个评论标识和一个表情标识，仅为标识示例展示。上述两个交互提示标识可以分别与图3所示的交互窗口21和交互窗口22的交互内容相对应，评论标识对应交互窗口21的评论，表情标识对应交互窗口22中的表情。当用户触发图中的交互提示标识之后，可以将对应的实时交互内容进行展示，可以如图3所示在交互窗口中进行展示，展示的位置和内容不限，与图3中可以相同也可以不同。

步骤207、采用第二识别模型对录制结束之后的目标多媒体进行语音识别，确定第二字幕并展示第二字幕。

步骤208、确定交互时间点在第二字幕中对应的目标交互字幕。

步骤209、在交互窗口中展示实时交互内容以及对应的目标交互字幕。

其中，交互窗口在与目标交互字幕关联的位置展示。

示例性的，如图3和图4所示，目标多媒体录制完成之后，图4中的字幕区域11中展示的是重新识别的第二字幕，并且除了可以展示交互提示标识，还可以将图3中的交互窗口展示在图4中(图4中未示出)，不同的是，交互窗口中此时展示的是实时交互内容以及重新识别后的目标交互字幕。可选的，也可以在用户触发交互提示标识之后，在交互窗口中展示实时交互内容以及对应的目标交互字幕。

步骤210、接收用户对多媒体页面的分享操作，分享多媒体页面的页面信息。

其中，页面信息包括页面地址。

示例性的，参见图3，多媒体页面10中展示有分享按钮15，当用户触发分享按钮15时，可以将多媒体页面10的页面信息分享给其他用户，以使其他用户可以根据页面信息打开该多媒体页面10。

本公开实施例提供的多媒体的交互方案，在目标多媒体的录制过程中，采用第一识别模型对目标多媒体进行语音识别，确定第一字幕并展示第一字幕；接收用户的交互输入触发操作，确定交互输入触发操作对应的交互时间点，获取实时交互内容，并在多媒体页面中将实时交互内容与交互时间点关联展示；在目标多媒体的播放时间轴上交互时间点所在位置，和/或与初始交互字幕关联的位置，展示交互提示标识，接收用户对交互提示标识的触发操作，在交互窗口中展示交互提示标识对应的实时交互内容；采用第二识别模型对录制结束之后的目标多媒体进行语音识别，确定第二字幕并展示第二字幕，确定交互时间点在第二字幕中对应的目标交互字幕，在交互窗口中展示实时交互内容以及对应的目标交互字幕；接收用户对多媒体页面的分享操作，分享多媒体页面的页面信息。采用上述技术方案，可以在多媒体的录制过程中实时针对用户的交互输入触发的时间点输入交互内容并关联时间点展示交互内容，由于交互针对的对象为时间点，更加直观以及具有针对性，提高了用户在多媒体录制过程中实时交互的准确性，进而提高了交互的体验效果；本方案还可以实时针对交互输入触发的字幕内容输入交互内容并关联字幕内容展示，提高了交互内容展示的多样性；并且，在多媒体录制完成之后，可以通过更加准确的识别模型进行识别以及文字转换得到准确性更高的字幕内容，之后可以根据交互时间点将交互内容匹配到字幕内容中，并在交互窗口中展示交互内容以及匹配的字幕，使录制完成之后的交互内容在展示时与字幕的关联性更加准确。

图5为本公开实施例提供的再一种多媒体的交互方法的流程示意图，该方法可以由多媒体的交互装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图5所示，该方法包括：

步骤31、在目标多媒体的接收过程中，执行实时转录操作。

其中，目标多媒体可以为任意一个记录信息的多媒体数据，例如目标多媒体可以为会议多媒体，也即用于记录一个会议过程中的多媒体数据。

本公开实施例中，目标多媒体的接收过程可以包括目标多媒体的录制过程和/或上传过程。在录制目标多媒体的过程中，和/或将目标多媒体上传的过程中，可以对接收到的目标多媒体进行实时转录操作，实时转录操作可以包括对目标多媒体采用语音识别技术识别和处理，以得到的对应的文本内容或字幕的过程。

步骤32、接收完成之后，关联展示目标多媒体以及目标多媒体转录之后的转录文本。

具体的，在对目标多媒体接收完成之后，可以将目标多媒体以及目标多媒体转录操作之后的转录文本进行关联展示，转录文本即为目标多媒体识别得到的文本或字幕。

可以理解的是，在目标多媒体的接收过程中，还可以基于用户的交互输入触发操作获取交互内容并展示，具体展示方式如上述实施例中所示，再此不进行一一赘述。此外，在不矛盾的前提下，本公开实施例中的各个步骤、特征可以与本公开的其他实施例(包括但不限于如图1所示的实施例、图2所示的实施例以及这些实施例的具体实现手段等)相互组合。

本公开实施例提供的多媒体的交互方案，在目标多媒体的接收过程中，执行实时转录操作，接收完成之后，关联展示目标多媒体以及目标多媒体转录之后的转录文本。在多媒体的接收过程中可以实时进行转录操作，并将转录得到的文本展示给用户，使用户可以通过文本内容了解更多信息，并且快速了解多媒体和文本内容之间的关系，提升了用户的体验效果。

图6为本公开实施例提供的一种多媒体的交互装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图6所示，该装置包括：

触发模块301，用于在目标多媒体的录制过程中，接收用户的交互输入触发操作；

时间模块302，用于确定所述交互输入触发操作对应的交互时间点；

交互内容模块303，用于获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示。

可选的，所述时间模块302具体用于：

确定所述交互输入触发操作的实时时刻，将所述目标多媒体中所述实时时刻对应的时间点确定为所述交互时间点。

可选的，所述装置还包括第一字幕模块，用于：

采用第一识别模型对所述目标多媒体进行语音识别，确定第一字幕并展示所述第一字幕。

可选的，所述交互内容模块303具体用于：

确定所述交互时间点在所述第一字幕中的初始交互字幕；

在与所述初始交互字幕关联的位置处展示交互窗口，其中，所述交互窗口中包括所述实时交互内容以及对应的所述交互时间点。

可选的，所述交互内容模块303具体用于：

将所述交互时间点在所述第一字幕中对应的文字所在的字幕语句确定为所述初始交互字幕，其中，所述第一字幕中包括多个所述字幕语句。

可选的，所述装置还包括交互展示模块，用于：

当所述交互输入触发操作作用于所述第一字幕中的目标字幕时，将所述实时交互内容与所述目标字幕关联展示。

可选的，所述装置还包括翻译模块，用于：

接收对所述第一字幕的翻译触发操作，将所述第一字幕由初始语言翻译为目标语言。

可选的，所述装置还包括第二字幕模块，用于：

采用第二识别模型对录制结束之后的所述目标多媒体进行语音识别，确定第二字幕并展示所述第二字幕。

可选的，所述第二字幕模块具体用于：

确定所述交互时间点在所述第二字幕中对应的目标交互字幕；

在交互窗口中展示所述实时交互内容以及对应的所述目标交互字幕，其中，所述交互窗口在与所述目标交互字幕关联的位置展示。

可选的，所述装置还包括提示模块，用于：

在所述目标多媒体的播放时间轴上所述交互时间点所在位置，和/或与所述初始交互字幕关联的位置，展示交互提示标识。

可选的，所述提示模块具体用于：

接收用户对所述交互提示标识的触发操作，在交互窗口中展示所述交互提示标识对应的实时交互内容。

可选的，所述装置还包括分享模块，用于：

接收用户对所述多媒体页面的分享操作，分享所述多媒体页面的页面信息，其中，所述页面信息包括页面地址。

本公开实施例所提供的多媒体的交互装置可执行本公开任意实施例所提供的多媒体的交互方法，具备执行方法相应的功能模块和有益效果。

图7为本公开实施例提供的一种多媒体的交互装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图7所示，该装置包括：

转录模块41，用于在目标多媒体的接收过程中，执行实时转录操作；

展示模块42，用于接收完成之后，关联展示所述目标多媒体以及所述目标多媒体转录之后的转录文本。

可选的，所述目标多媒体的接收过程包括所述目标多媒体的录制过程和/或上传过程。

本公开实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任意实施例所提供的多媒体的交互方法。

图8为本公开实施例提供的一种电子设备的结构示意图。下面具体参考图8，其示出了适于用来实现本公开实施例中的电子设备400的结构示意图。本公开实施例中的电子设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的多媒体的交互方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：在目标多媒体的录制过程中，接收用户的交互输入触发操作；确定所述交互输入触发操作对应的交互时间点；获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种多媒体的交互方法，包括：

确定所述交互输入触发操作对应的交互时间点；

根据本公开的一个或多个实施例，本公开提供的多媒体的交互方法中，确定所述交互输入触发操作对应的交互时间点，包括：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互方法中，还包括：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互方法中，将所述实时交互内容与所述交互时间点关联展示，包括：

确定所述交互时间点在所述第一字幕中的初始交互字幕；

根据本公开的一个或多个实施例，本公开提供的多媒体的交互方法中，确定所述交互时间点在所述第一字幕中的初始交互字幕，包括：

在目标多媒体的接收过程中，执行实时转录操作；

根据本公开的一个或多个实施例，本公开提供的多媒体的交互方法中，所述目标多媒体的接收过程包括所述目标多媒体的录制过程和/或上传过程。

根据本公开的一个或多个实施例，本公开提供了一种多媒体的交互装置，包括：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述时间模块具体用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括第一字幕模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述交互内容模块具体用于：

确定所述交互时间点在所述第一字幕中的初始交互字幕；

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括交互展示模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括翻译模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括第二字幕模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述第二字幕模块具体用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括提示模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述提示模块具体用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述装置还包括分享模块，用于：

根据本公开的一个或多个实施例，本公开提供的多媒体的交互装置中，所述目标多媒体的接收过程包括所述目标多媒体的录制过程和/或上传过程。

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开提供的任一所述的多媒体的交互方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开提供的任一所述的多媒体的交互方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种多媒体的交互方法，其特征在于，包括：

采用第一识别模型对所述目标多媒体进行语音识别，确定第一字幕并展示所述第一字幕；

确定所述交互输入触发操作对应的交互时间点，交互时间点表征交互输入触发操作在目标多媒体中对应的时间点或者录制时间戳；

获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示；其中，将所述实时交互内容与所述交互时间点关联展示，包括：确定所述交互时间点在所述第一字幕中的初始交互字幕；在与所述初始交互字幕关联的位置处展示交互窗口，其中，所述交互窗口中包括所述实时交互内容以及对应的所述交互时间点；

采用第二识别模型对录制结束之后的所述目标多媒体进行语音识别，确定第二字幕并展示所述第二字幕，其中，所述第一识别模型和所述第二识别模型不同，所述第一识别模型为侧重实时性的语音识别模型，所述第二识别模型为侧重准确性的语音识别模型；

2.根据权利要求1所述的方法，其特征在于，确定所述交互输入触发操作对应的交互时间点，包括：

3.根据权利要求1所述的方法，其特征在于，确定所述交互输入触发操作对应的交互时间点，包括：

确定所述交互输入触发操作的录制时间戳，并将所述录制时间戳确定为所述交互时间点，其中，所述录制时间戳基于所述交互输入触发操作的实时时刻与录制起始时刻的时间差确定。

4.根据权利要求1所述的方法，其特征在于，确定所述交互时间点在所述第一字幕中的初始交互字幕，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

接收用户对所述交互提示标识的触发操作，在交互窗口中展示所述交互提示标识对应的交互内容。

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种多媒体的交互方法，其特征在于，包括：

在目标多媒体的接收过程中，执行实时转录操作；

接收完成之后，关联展示所述目标多媒体以及所述目标多媒体转录之后的转录文本；

所述目标多媒体的接收过程包括所述目标多媒体的录制过程，在目标多媒体的录制过程中，交互输入触发操作的交互时间点表征交互输入触发操作在目标多媒体中对应的时间点或者录制时间戳；

在目标多媒体的录制过程中，采用第一识别模型对所述目标多媒体进行语音识别，确定第一字幕并展示所述第一字幕；

获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示；

11.根据权利要求10所述的方法，其特征在于，所述目标多媒体的接收过程包括所述目标多媒体的上传过程。

12.根据权利要求10所述的方法，其特征在于，所述实时转录操作包括：对实时获取的目标多媒体进行语音识别技术识别和处理，以得到的对应的转录文件。

13.一种多媒体的交互装置，其特征在于，包括：

第一字幕模块，用于采用第一识别模型对所述目标多媒体进行语音识别，确定第一字幕并展示所述第一字幕；

时间模块，用于确定所述交互输入触发操作对应的交互时间点，交互时间点表征交互输入触发操作在目标多媒体中对应的时间点或者录制时间戳；

交互内容模块，用于获取实时交互内容，并在多媒体页面中将所述实时交互内容与所述交互时间点关联展示；其中，将所述实时交互内容与所述交互时间点关联展示，包括：确定所述交互时间点在所述第一字幕中的初始交互字幕；在与所述初始交互字幕关联的位置处展示交互窗口，其中，所述交互窗口中包括所述实时交互内容以及对应的所述交互时间点；

所述装置还包括第二字幕模块，用于：采用第二识别模型对录制结束之后的所述目标多媒体进行语音识别，确定第二字幕并展示所述第二字幕，其中，所述第一识别模型和所述第二识别模型不同，所述第一识别模型为侧重实时性的语音识别模型，所述第二识别模型为侧重准确性的语音识别模型；

所述第二字幕模块具体用于：确定所述交互时间点在所述第二字幕中对应的目标交互字幕；在交互窗口中展示所述实时交互内容以及对应的所述目标交互字幕，其中，所述交互窗口在与所述目标交互字幕关联的位置展示。

14.一种多媒体的交互装置，其特征在于，包括：

展示模块，用于接收完成之后，关联展示所述目标多媒体以及所述目标多媒体转录之后的转录文本；

所述展示模块用于：

15.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-12中任一所述的多媒体的交互方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-12中任一所述的多媒体的交互方法。