CN104599692B

CN104599692B - 录音方法及装置，录音内容搜索方法及装置

Info

Publication number: CN104599692B
Application number: CN201410774335.9A
Authority: CN
Inventors: 陈青山
Original assignee: Shanghai Hehe Information Technology Development Co Ltd
Current assignee: Shanghai Hehe Information Technology Development Co Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2017-12-15
Anticipated expiration: 2034-12-16
Also published as: CN104599692A

Abstract

本发明公开了一种录音方法，包括：步骤一，采用录音装置进行音频录制；步骤二，所述录音装置包含有图像拍摄部件，在音频录制的过程中使用所述录音装置进行一次或多次的图像拍摄，记录每次拍摄图像的时刻在所录制的音频时间轴上的位置；步骤三，保存所录制的音频、拍摄的图像以及各图像拍摄时刻在所录制的音频时间轴上的位置。本发明还公开了一种实现上述录音方法的录音装置，一种对上述录音方法获得录音内容的搜索方法和一种录音内容搜索装置。本发明通过上述技术方案，在录音的时候通过拍摄的方式获得与录音内容相关的图像，并以该图像或该图像上记载的信息作为录音内容搜索的依据，实现了录音内容的搜索，步骤简便，易于使用，而且准确率高。

Description

录音方法及装置，录音内容搜索方法及装置

技术领域

本发明涉及一种录音方法。本发明还涉及一种录音装置。本发明又涉及一种数据搜索方法，尤其是一种录音内容搜索方法。本发明再涉及一种数据搜索装置，尤其是一种录音内容搜索装置。

背景技术

随着信息技术的发展，人们在生活中会接触到越来越多的电子数据。为了从海量的电子数据中获取自己需要的数据，数据搜索技术就成为一种至关重要的技术。然而，由于文本编码的标准化，对于文本数据的搜索相对来说比较简单，而且检索的结果也比较准确。但是对于音频数据的搜索就比较困难，目前现有的办法是对音频数据内容进行识别，例如识别出音频中的语言内容，然后再以文本搜索的方式进行搜索。这样，用户就可以在一段音频中，搜索到自己需要的片段。即时音频内容很长，用户不必全部进行播放，也能够得到自己所需要的片段，大大的提高了音频数据搜索的效率。由于所识别出的内容出自音频数据本身，与该识别内容当前的音频数据具有天然的关联性，因此能够根据该识别的内容定位至用户需要的音频内容处。但是，音频数据录制时会存在背景噪声，有时还会伴随着语调、音调等因素的变化，这些都会造成音频内容识别存在大量的错误，导致无法准确的对音频内容进行搜索。

发明内容

本发明所要解决的技术问题是提供一种录音方法，以及实现这种录音方法所采用的录音装置，能够制作出便于对所录制的音频数据内容进行搜索定位的录音数据，本发明还要提供一种录音内容搜索方法，以及实现这种录音内容搜索方法所采用的录音内容搜索装置，能够方便的对录音内容进行搜索，帮助用户快速的定位到需要的录音数据中的位置。

为解决上述技术问题，本发明录音方法的技术方案是，包括以下步骤：

步骤一，采用录音装置进行音频录制；

步骤二，所述录音装置包含有图像拍摄部件，在音频录制的过程中使用所述录音装置进行一次或多次的图像拍摄，记录每次拍摄图像的时刻在所录制的音频时间轴上的位置；

步骤三，保存所录制的音频、拍摄的图像以及各图像拍摄时刻在所录制的音频时间轴上的位置。

本发明公开了一种实现上述录音方法所采用的录音装置，其技术方案是，基于计算机系统，包括：

录音部件，用来进行音频录制；

拍摄部件，用来在音频录制的过程中进行图像拍摄，并记录每次拍摄图像的时刻在所录制的音频时间轴上的位置；

第一存储部件，保存所录制的音频、拍摄的图像以及各图像拍摄时刻在所录制的音频时间轴上的位置。

本发明还公开了一种录音搜索方法，其技术方案是，所述录音上述录音方法录制，包含有所录制的音频、图像以及各所述图像拍摄时刻在所录制的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

步骤一，选择所述图像中的一个；

步骤二，根据所选择的图像，定位至该图像拍摄时刻在所录制的音频时间轴上的位置的音频内容。

本发明还公开了一种实现上述录音内容搜索方法所采用的录音内容搜索装置，其技术方案是，基于计算机系统，包括：

第二存储部件，存储有所述录音，所述录音包含有所录制的音频、图像以及各所述图像拍摄时刻在所录制的音频时间轴上的位置；

图像选择部件，用来选择所述图像中的一个；

第一搜索部件，根据所述图像选择部件选择的图像，定位至该图像拍摄时刻在所录制的音频时间轴上的位置的音频内容。

本发明再公开了一种录音方法，其技术方案是，包括以下步骤：

步骤一，采用录音设备进行音频录制；

步骤二，所述录音设备包含有图像拍摄部件，在音频录制的过程中使用所述录音设备进行一次或多次的图像拍摄，所拍摄的图像中包含有文字，记录每次拍摄图像的时刻在所录制的音频时间轴上的位置；

步骤三，对所拍摄的图像中进行文字识别，将识别得到的各文字对应于其所在的图像的拍摄时刻在所录制的音频时间轴上的位置，保存所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置。

本发明再公开了一种实现上述录音方法所采用的录音装置，其技术方案是，基于计算机系统，包括：

录音部件，用来进行音频录制；

第三文字识别部件，对所述拍摄部件拍摄的图像进行文字识别，将识别得到的各文字对应于其所在的图像的拍摄时刻在所录制的音频时间轴上的位置；

第三存储部件，保存所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置。

本发明又公开了一种录音内容搜索方法，其技术方案是，所述录音根据上述录音方法录制，包含有所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

步骤一，选择一个识别得到的文字或者对应于音频时间轴上同一位置的一组识别得到的文字；

步骤二，根据所选择的文字，定位至该文字对应的音频时间轴上的位置的音频内容。

本发明又公开了一种实现上述录音内容搜索方法所采用的录音内容搜索装置，其技术方案是，基于计算机系统，包括：

第四存储部件，存储有所述录音，所述录音包含有所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，

文字选择部件，用来选择一个识别得到的文字或者对应于音频时间轴上同一位置的一组识别得到的文字；

第二搜索部件，根据所选择的文字，定位至该文字对应的音频时间轴上的位置的音频内容。

本发明通过上述技术方案，在录音的时候通过拍摄的方式获得与录音内容相关的图像，并以该图像或该图像上记载的信息作为录音内容搜索的依据，实现了录音内容的搜索，步骤简便，易于使用，而且准确率高。

附图说明

下面结合附图和实施例对本发明作进一步详细的说明：

图1为本发明录音方法和录音内容搜索方法一个实施例的示意图；

图2为本发明录音装置和录音内容搜索装置一个实施例的示意图；

图3为本发明录音方法和录音内容搜索方法另一个实施例的示意图。

具体实施方式

本发明公开了一种录音方法，包括以下步骤：

步骤一，采用录音装置进行音频录制；

所述图像中包含有文字。

在进行图像拍摄之后，还包括对图像进行文字识别的步骤，并在步骤三中，保存所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置。

本发明还公开了一种录音内容搜索方法，所述录音上述录音方法录制，包含有所录制的音频、图像以及各所述图像拍摄时刻在所录制的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

步骤一，选择所述图像中的一个；

所述图像中包含有文字，对所述图像进行文字识别；输入或选择关键词，检索文字识别结果中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的图像。

所述录音包含有所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置，输入或选择关键词，检索文字识别结果中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的图像。

如果所述关键词包含在多个图像的文字识别结果中，则所述步骤一中，在该多个包含关键词的图像中选择其中的一个。

所述图像拍摄时刻在所录制的音频时间轴上的位置的音频内容是指以下三种中的至少一种：

所述图像拍摄时刻在所录制的音频时间轴上的位置之前一个时间段内的音频内容；

所述图像拍摄时刻在所录制的音频时间轴上的位置之后一个时间段内的音频内容；

所述图像拍摄时刻在所录制的音频时间轴上的位置处的一个时间段内的音频内容，该音频内容在所述音频时间轴上包含了所述图像拍摄时刻在所录制的音频时间轴上的位置。

用户采用本发明所提供的录音方法进行录制音频，在录制音频的过程中进行一次或多次的图像拍摄。由于录制音频和拍摄图像是在同一时间和同一地点进行的，因此所拍摄的图像必然与音频内容有天然的联系。例如，在会议中，发言者正在结合放映的幻灯片进行发言，用户对发言者的发言进行录音，在录音的过程中，用户可以拍摄当前放映的幻灯片，由于所幻灯片的放映与发言者的发言内容是同步进行的，因此拍摄每张幻灯片的时刻，必然是发言者讲解该幻灯片相关内容的时刻。将所录制的发言者发言的音频、拍摄的幻灯片图像以及各图像拍摄时刻在所录制的音频时间轴上的位置一起作为录音数据进行保存，如图1所示。图1中，图像1和图像2即可以是所拍摄的幻灯片图像，拍摄时间分别为00:30和01:40。

在用户需要获得发言者发言中的某个的片段时，即可以查看录音中保存的各个幻灯片的图像，从幻灯片图像中得知其所对应的时间轴上的位置处的音频内容，从而通过选择特定的图像，定位至用户所需要的录音片段。

由于幻灯片图像中可能包含文字，用户可以对各幻灯片图像进行文字识别。如图1所示的录音中，图像1包含了关键词1、关键词2和关键词3的文字图像，通过进行文字识别，得到了与图像1对应的文本格式的“关键词1”、“关键词2”和“关键词3”文字；图像2包含了关键词2的文字图像，通过进行文字识别，得到了与图像2对应的文本格式的“关键词2”文字。用户在搜索需要的录音内容时，可以选择或输入关键词，例如输入或选择“关键词1”，经过搜索发现图像1的文字识别结果中包含有“关键词1”，因此图像1就被选中，并定位至图像1拍摄时刻在音频时间轴上的录音片段，即00:30位置的录音片段。

除上述情况之外，用户还可以在制作录音的时候，对图像进行文字识别，并将识别结果也与其所在的幻灯片图像以及该幻灯片图像的拍摄时间对应的保存在录音数据中。如图1所示的录音中，在录音时通过进行文字识别，得到了与图像1对应的文本格式的“关键词1”、“关键词2”和“关键词3”文字，以及与图像2对应的文本格式的“关键词2”文字，并将这些文字与其所在的幻灯片图像以及该幻灯片图像的拍摄时间对应的保存在录音数据中。在用户进行录音内容搜索的时候，也可以选择或输入关键词，例如输入或选择“关键词1”，经过搜索发现所保存的图像1的文字识别结果中包含有“关键词1”，因此图像1就被选中，并定位至图像1拍摄时刻在音频时间轴上的录音片段。

在上述关键词搜索的过程中，有可能会出现多个图像中都包含有同一个关键词。例如，如果用户输入或选择“关键词2”，经过搜索发现图像1和图像2的文字识别结果中都包含有“关键词2”，此时可以将这些包含有“关键词2”图像提供给用户，由用户在这些特定的图像中进行选择，从而定位至用户需要的录音内容。

本发明中，所述图像拍摄时刻在所录制的音频时间轴上的位置的音频内容可以是所述图像拍摄时刻在所录制的音频时间轴上的位置之前一个时间段内的音频内容，例如选择的图像是图像1，则上述音频内容为00:20至00:30时间段内的音频内容。

本发明中，所述图像拍摄时刻在所录制的音频时间轴上的位置的音频内容还可以是所述图像拍摄时刻在所录制的音频时间轴上的位置之后一个时间段内的音频内容，例如选择的图像是图像1，则上述音频内容为00：30至00:40时间段内的音频内容。

本发明中，所述图像拍摄时刻在所录制的音频时间轴上的位置的音频内容还可以所述图像拍摄时刻在所录制的音频时间轴上的位置处的一个时间段内的音频内容，该音频内容在所述音频时间轴上包含了所述图像拍摄时刻在所录制的音频时间轴上的位置，例如选择的图像是图像1，则上述音频内容为00：25至00:35时间段内的音频内容。

本发明还公开了一种实现上述录音方法所采用的录音装置，基于计算机系统，所述计算机系统可以是个人电脑，也可以是智能手机，如图2所示，还可以是平板电脑，本发明录音装置还包括：

录音部件，用来进行音频录制；

所述录音装置还包括第一文字识别部件，对所述拍摄部件拍摄的图像进行文字识别，所述第一存储部件保存所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置。

本发明还公开了一种实现上述录音内容搜索方法所采用的录音内容搜索装置，基于计算机系统，所述计算机系统可以是个人电脑，也可以是智能手机，如图2所示，还可以是平板电脑，本发明录音内容搜索装置还包括：

图像选择部件，用来选择所述图像中的一个；

所述录音内容搜索装置还包括：

第二文字识别部件，对所述图像进行文字识别；

第一关键词部件，输入或选择关键词，检索所述第二文字识别部件的文字识别结果中是否包含有所述关键词，如果包含，则由所述图像选择部件选择包含关键词的图像。

所述的录音内容搜索装置中，所述第二存储部件中存储有所述录音，所述录音包含有所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置；所述录音内容搜索装置还包括第二关键词部件，输入或选择关键词，检索所述各图像文字识别结果中是否包含有所述关键词，如果包含，则由所述图像选择部件选择包含关键词的图像。

本发明再公开了一种录音方法，包括以下步骤：

步骤一，采用录音设备进行音频录制；

本发明再公开了一种录音内容搜索方法，所述录音上述录音方法录制，包含有所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

所述录音内容搜索方法的步骤中还包括输入或选择关键词，检索所述识别得到的文字中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的所述识别得到的文字。

如果所述关键词包含在对应于音频时间轴上不同位置的多组识别得到的文字中，则所述步骤一中，在该多组包含关键词的识别得到的文字中选择其中的一组。

所述文字对应的音频时间轴上的位置的音频内容是指以下三种中的至少一种：

与前述实施例相似，用户采用本发明所提供的录音方法进行录制音频，在录制音频的过程中进行一次或多次的图像拍摄，并对所拍摄的图像进行文字识别，得到文字识别结果。由于录制音频和拍摄图像是在同一时间和同一地点进行的，因此所拍摄的图像必然与音频内容有天然的联系，图像中识别得到的文字也必然与音频内容有天然的联系。例如，在会议中，发言者正在结合放映的幻灯片进行发言，用户对发言者的发言进行录音，在录音的过程中，用户可以拍摄当前放映的幻灯片，由于所幻灯片的放映与发言者的发言内容是同步进行的，因此拍摄每张幻灯片的时刻，必然是发言者讲解该幻灯片相关内容的时刻。将每张幻灯片图像进行文字识别，并且识别得到的各文字被对应于其所在的图像的拍摄时刻在所录制的音频时间轴上的位置，将所录制的发言者发言的音频、识别得到的文字及各文字所对应的音频时间轴上的位置一起作为录音数据进行保存，如图3所示。图3中，用户在00:30拍摄了一张图像，并识别得到“关键词1”、“关键词2”和关键词3；用户在01:40拍摄了一张图像，并识别得到 “关键词2”。

在用户需要获得发言者发言中的某个的片段时，即可以查看录音中保存的识别得到的文字，从这些文字中可以得知其所对应的时间轴上的位置处的音频内容，从而通过选择特定的文字，定位至用户所需要的录音片段。

用户在搜索需要的录音内容时，可以选择或输入关键词，例如输入或选择“关键词1”，则图3中的“关键词1”就被选中，并定位至“关键词1”拍摄时刻在音频时间轴上的录音片段，即00:30位置的录音片段。

在上述关键词搜索的过程中，有可能会出现多个图像中都包含有同一个关键词。例如，如果用户输入或选择“关键词2”，经过搜索发现录音00:30位置和00:40位置对应的识别得到的文字中都包含有“关键词2”，此时可以将这些包含有“关键词2”的多组识别得到的文字都提供给用户，由用户在这些特定的文字组中进行选择，从而定位至用户需要的录音内容。

本发明中，所述文字对应的音频时间轴上的位置的音频内容可以是所述文字对应的音频时间轴上的位置之前一个时间段内的音频内容，例如选择的文字是“关键词1”，则上述音频内容为00:20至00:30时间段内的音频内容。

本发明中，所述文字对应的音频时间轴上的位置的音频内容可以是所述文字对应的音频时间轴上的位置之后一个时间段内的音频内容，例如选择的文字是“关键词1”，则上述音频内容为00：30至00:40时间段内的音频内容。

本发明中，所述文字对应的音频时间轴上的位置的音频内容可以是所述文字对应的音频时间轴上的位置处的一个时间段内的音频内容，该音频内容在所述音频时间轴上包含了所述文字对应的音频时间轴上的位置，例如选择的文字是“关键词1”，则上述音频内容为00：25至00:35时间段内的音频内容。

本发明又公开了一种实现上述录音方法所采用的录音装置，基于计算机系统，所述计算机系统可以是个人电脑，也可以是智能手机，如图2所示，还可以是平板电脑，本发明录音装置还包括：

录音部件，用来进行音频录制；

本发明又公开了一种实现上述录音内容搜索方法所采用的录音内容搜索装置，基于计算机系统，所述计算机系统可以是个人电脑，也可以是智能手机，如图2所示，还可以是平板电脑，本发明录音内容搜索装置还包括：

所述录音内容搜索装置，还包括：第三关键词部件，输入或选择关键词，检索所述识别得到的文字中是否包含有所述关键词，如果包含，则由所述文字选择部件选择包含关键词的所述识别得到的文字。

以上所述仅为本发明的较佳实施例而已，并非用以限定本发明的实质技术内容范围，本发明的实质技术内容是广义的定义于申请的权利要求范围中，任何他人完成的技术实体或方法，若是与申请的权利要求范围所定义的完全相同，也或是一种等效的变更，均将被视为涵盖于该权利要求范围之中。

Claims

1.一种录音方法，其特征在于，包括以下步骤：

步骤一，采用录音装置进行音频录制；

步骤三，保存所录制的音频、拍摄的图像以及各图像拍摄时刻在所录制的音频时间轴上的位置，所述图像作为对所述音频中与该图像拍摄时刻在所述音频时间轴处的内容进行检索的依据。

2.根据权利要求1所述的录音方法，其特征在于，所述图像中包含有文字。

3.根据权利要求2所述的录音方法，其特征在于，在进行图像拍摄之后，还包括对图像进行文字识别的步骤，并在步骤三中，保存所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置。

4.一种实现如权利要求1-3中任意一项所述的录音方法所采用的录音装置，其特征在于，基于计算机系统，包括：

录音部件，用来进行音频录制；

第一存储部件，保存所录制的音频、拍摄的图像以及各图像拍摄时刻在所录制的音频时间轴上的位置，所述图像作为对所述音频中与该图像拍摄时刻在所述音频时间轴处的内容进行检索的依据。

5.根据权利要求4所述的录音装置，其特征在于，还包括第一文字识别部件，对所述拍摄部件拍摄的图像进行文字识别，所述第一存储部件保存所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置。

6.一种录音内容搜索方法，其特征在于，所述录音根据权利要求1-3中任意一项所述的录音方法录制，包含有所录制的音频、图像以及各所述图像拍摄时刻在所录制的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

步骤一，选择所述图像中的一个；

7.根据权利要求6所述的录音内容搜索方法，其特征在于，所述图像中包含有文字，对所述图像进行文字识别；输入或选择关键词，检索文字识别结果中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的图像。

8.根据权利要求6所述的录音内容搜索方法，其特征在于，所述录音包含有所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置，输入或选择关键词，检索文字识别结果中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的图像。

9.根据权利要求7或8所述的录音内容搜索方法，其特征在于，如果所述关键词包含在多个图像的文字识别结果中，则所述步骤一中，在该多个包含关键词的图像中选择其中的一个。

10.根据权利要求6所述的录音内容搜索方法，其特征在于，所述图像拍摄时刻在所录制的音频时间轴上的位置的音频内容是指以下三种中的至少一种：

11.一种实现如权利要求6-10中任意一项所述的录音内容搜索方法所采用的录音内容搜索装置，其特征在于，基于计算机系统，包括：

图像选择部件，用来选择所述图像中的一个；

12.根据权利要求11所述的录音内容搜索装置，其特征在于，还包括：

第二文字识别部件，对所述图像进行文字识别；

13.根据权利要求11所述的录音内容搜索装置，其特征在于，所述第二存储部件中存储有所述录音，所述录音包含有所录制的音频、拍摄的图像、各图像文字识别结果以及各图像拍摄时刻在所录制的音频时间轴上的位置；所述录音内容搜索装置还包括第二关键词部件，输入或选择关键词，检索所述各图像文字识别结果中是否包含有所述关键词，如果包含，则由所述图像选择部件选择包含关键词的图像。

14.一种录音方法，其特征在于，包括以下步骤：

步骤一，采用录音设备进行音频录制；

步骤三，对所拍摄的图像中进行文字识别，将识别得到的各文字对应于其所在的图像的拍摄时刻在所录制的音频时间轴上的位置，保存所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，所述文字作为对所述音频中与该文字所对应的音频时间轴处的内容进行检索的依据。

15.一种实现如权利要求14所述的录音方法所采用的录音装置，其特征在于，基于计算机系统，包括：

录音部件，用来进行音频录制；

第三存储部件，保存所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，所述文字作为对所述音频中与该文字所对应的音频时间轴处的内容进行检索的依据。

16.一种录音内容搜索方法，其特征在于，所述录音根据权利要求14所述的录音方法录制，包含有所录制的音频、识别得到的文字及各文字所对应的音频时间轴上的位置，所述录音内容搜索方法包括以下步骤：

17.根据权利要求16所述的录音内容搜索方法，其特征在于，输入或选择关键词，检索所述识别得到的文字中是否包含有所述关键词，如果包含，则在所述步骤一中选择包含关键词的所述识别得到的文字。

18.根据权利要求17所述的录音内容搜索方法，其特征在于，如果所述关键词包含在对应于音频时间轴上不同位置的多组识别得到的文字中，则所述步骤一中，在该多组包含关键词的识别得到的文字中选择其中的一组。

19.根据权利要求16所述的录音内容搜索方法，其特征在于，所述文字对应的音频时间轴上的位置的音频内容是指以下三种中的至少一种：

20.一种实现如权利要求16-19中任意一项所述的录音内容搜索方法所采用的录音内容搜索装置，其特征在于，基于计算机系统，包括：

21.根据权利要求20所述的录音内容搜索装置，其特征在于，还包括：

第三关键词部件，输入或选择关键词，检索所述识别得到的文字中是否包含有所述关键词，如果包含，则由所述文字选择部件选择包含关键词的所述识别得到的文字。