CN1332365C

CN1332365C - 一种实现音频和文本信息同步控制的方法和装置

Info

Publication number: CN1332365C
Application number: CNB200410015393XA
Authority: CN
Inventors: 陈德卫; 李涛; 殷明
Original assignee: 陈德卫
Current assignee: Shenzhen Legend Technology Co Ltd
Priority date: 2004-02-18
Filing date: 2004-02-18
Publication date: 2007-08-15
Anticipated expiration: 2024-02-18
Also published as: CN1560816A

Abstract

本发明提供一种实现音频和文本信息同步控制的方法和装置。将包含了音频信息、文本信息、时间标签和控制标签的多媒体格式文件存储在存储装置中，在微处理器的控制下，读取所述多媒体格式文件，将其中的音频信息通过解码器和读听装置播放出来，同时将其中的文本信息通过显示装置显示出来。实施本发明的方法和装置，将原本分离处理的音频信息和文本信息建立同步，并结合在一起，使得消费者可以同步听到和阅读到这两部分的内容，非常方便使用。

Description

一种实现音频和文本信息同步控制的方法和装置

技术领域

本发明涉及应用于数码产品的音频和文本信息的处理领域，尤其是涉及一种实现音频和文本信息同步控制的方法和装置。

背景技术

传统的便携式语言学习机等数码产品只能够支持单一媒体，即只有音频或者只有文字信息，因此无法实现多媒体的综合学习方式，功能单一。不仅如此，这些设备还依赖于书本、磁带以及CD等传统信息载体，无法独立工作。其原因在于：一方面，各种非数字化的学习材料(特别是书本和磁带)孤立于电脑之外，无法存储并直接被用在电脑、互联网及其它数码产品上；另一方面，利用多媒体技术制作的外语学习材料是单独制作的，无法被直接用在现有的非数码便携式设备上；再一方面，现有技术中，音频信息和文本信息是分开处理的，不能实现同步处理以供消费者使用。

目前，处理音频信息的方式基本上是采用对音频进行高度压缩的有损压缩算法MP3和WMA。

MP3是MPEG-1 Layer3(MPEG：Moving Pictures Experts Group)的缩写，是国际标准化组织(International Standard Organization)定义的一种压缩与解压缩的处理方式，用来处理高比率的声音信息。它所生成的声音文件音质接近CD，而文件大小却只有其十二分之一。

WMA(Windows Media Audio)来自于微软，音质要强于MP3格式，它以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1∶18左右。在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持，在网络音频处理领域中得到越来越多应用。

但是，MP3和WMA都只是处理音频信息，不处理语音的语义信息，使用在MP3随身听上时只能听，不能阅读。

而且，MP3播放器连续播放整个文件(或整篇课文)，而且一般只支持简单的“A-B”段落复读，由手工来确定复读的句段。这种方式很不实用，使用者要根据经验操作，往往只能取得到完整的句子的一部分，而不是整个的完整的句子，这样复读就意义不大。尤其在外语的学习使用过程中，许多用户反映无法准确地得到想复读的句子或段落，并不适合于外语学习使用。

总之，目前在数码产品中，尤其是可以随身携带的产品中，没有将音频和文本信息结合到一起同步处理的方式，无法将二者结合应用，致使现有的数码产品大多数局限于音乐欣赏等娱乐活动。

发明内容

本发明的内容是解决现有数码产品不能实现音频和文本信息同步控的问题，而提供一种实现音频和文本信息同步控制的方法和装置。

本发明是利用MP3和WMA处理方式的基础上，提供一种实现音频和文本信息同步控制的方法和装置，将原本分离处理的音频信息和文本信息建立同步，并结合在一起，这样在播放音频信息时能够同时显示其相应的文本信息，且具有高压缩率。

本发明的方法是这样实现的：

一种实现音频和文本信息同步控制的方法，所述方法是通过带有微处理器的数码装置来实现的；所述数码装置包括微处理器、解码器、存储装置、显示装置和读听装置，其中，读听装置连接到解码器上，并与解码器进行双向通讯，微处理器连接解码器、存储装置、显示装置；其特征在于，通过微处理器对存储有多媒体格式文件中包含有音频信息、文本信息、时间标签和控制标签的存储装置进行控制和读取，使所述多媒体文件中的文本信息和音频信号同步，并且将所述多媒体文件中的多级文本中的音频信息通过解码器和读听装置播放出来，同时将所述多媒体文件中的文本信息通过切换装置切换后由显示装置显示出来，其具体

步骡为：

(1)将音频信息和文本信息材料进行编辑，生成包含了音频信息、文本信息、时间标签和控制标签的多媒体格式文件，并存储在所述存储装置中：

(2)在微处理器的控制下，读取存储在所述存储装置中的多媒体格式文件，根据所述多媒体格式文件中的时间标签和控制标签，将所述多媒体格式文件中的音频信息通过解码器和读听装制播放出来，同时将所述多媒体格式文件中的文本信息通过显示装置显示出来。

其中，所述的多媒体格式文件是基于现有的LRC(英文单词Lyrics的缩写，是一种以.lrc为后缀的专为实现歌词和歌曲同步显示的文件格式)格式文件开发的特有的格式文件，其格式如下：

音频信息+时间标签+控制标签1+文本1+控制标签2+文本2+...+控制标签N+文本N，N≥1。

其与LRC格式的不同之处在于其中设置了控制标签，所述控制标签包括切换标签和段落标签.而LRC文件只定义了基本的时间标签以实现同步。

文本信息紧随所述切换标签出现；当读到切换标签时.其后的文本信息将被显示出来.所述切换标签可以有两个或两个以上，从而实现了在一个时间标签的控制下，可以携带多种文本信息.其中，第一个切换标签可以缺省。

所述段落标签是用于控制分段操作，便于使用时进行分段循环播放。在本发明方法的步骤(1)中，所述多媒体格式文件的生成包括以下3个步骤：(1.1)原始材料的准备：

分别收集语音信息和文本信息并存在计算机中，所述语音信息可以是MP3、WMA或WAV格式的语音文件，所述文本信息可以是TXT或者LRC格式的文本文件；

(1.2)加入同步标签和控制标签：

将语音文件和文本文件同是时打开，在播放的同时加入时间标签和相应的控制标签；

(1.3)合成多媒体格式文件：

在语音文件和文本文件同时打开的情况下，应用多媒体格式文件制作软件，将文件另存为多媒体格式文件，并存储在计算机里。

本发明还提供了实现本发明方法的装置，包括微处理器、解码器、存储装置、显示装置和读听装置，其中，读听装置连接到解码器上，并与解码器进行双向通讯，微处理器连接解码器、存储装置、显示装置；其特征在于，所述存储装置中存储有多媒体格式文件，所述多媒体格式文件包含了音频信息、文本信息、时间标签和控制标签；所述微处理器控制对多媒体格式文件的读取，根据所述多媒体格式文件中的时间标签和控制标签，将所述多媒体格式文件中的音频信息通过解码器和读听装置播放出来，同时将所述多媒体格式文件中的文本信息通过显示装置显示出来；所述的读听装置包括扬声器、转换接头和话筒，扬声器和话筒分别连接到转换接头上，转换接头再与解码器连接；

所述的存储装置可由存储卡和信息接口构成，信息接口与微处理器相连接，所述多媒体文件存储在存储卡中；

所述的扬声器也可以使用耳机替换；

上述装置可以通过FM接口连接有FM模块；

上述装置还可以是便携式学习机或装有有关软件的个人计算机。

实施本发明的方法和装置，将原本分离处理的音频信息和文本信息建立同步，并结合在一起，使得消费者可以同步听和看到这两部分的内容，非常方便使用.而且该控制方法使得音频信息和文本信息可同时存储于现有的数码产品中，便于随身携带使用，方便消费者的学习和娱乐.本发明尤其用于语言的学习。

付图说明

图1为什么发明一种实现音频和文本信息同步控制的方法中所使用的多媒体格式文件的格式原理图：

图2为本发明的一种实现音频和文本信息同步控制的装置的结构示意图：

图3为图2所示的装置应用于外语学习的系统组成示意图。

具体实施方式

本发明的实施例主要是针对外语学习的情况。

在本实施例中，采用了一种基于现有的LRC格式文件而开发的特有的多媒体格式文件(SMP3)。在SMP3文件中，保留了LRC文件的一般定义，同时，加入了一系列专用的标签，用于将LRC的功能扩充到更加和于制作多媒体的外语学习材料中。

如图1所示，所述SMP3格式文件包含有音频流、时间标签、文本信息标签、文本信息等要素。这些要素将有时间上的对应关系，从而实现相应的同步操作。

音频流是通过MP3编码器，将模拟声音信号转化为数字信号，以二进制形式存在的，其编码的解码都按照国际标准化组织ISO的MOEG标准制定的；在实际使用中可用的音频流包括一系例将模拟声音信号转化为数字信号，以二进制形式存在的，WMA、ADPCM、AAC格式，其编码和解码都按照相应的国际标准制作的；

时间标签为[mm:ss.ff]，其中mm表示分钟数，ss表示秒数，ff表示10毫秒数。时间标签的形式和一般表述时间的方法相同，是从音频流的起点开始计数，起到一个指针的作用；

控制标签包括切换标签和段落标签。

切换标签的表现形式为[Tag 01]、[Tag 02]、[Tag 03]...，或者是用其他的方式来表示。文本信息是紧随切换标签出现的，当计算机或者数码设备读到切换标签时，将会显示该标签以后，到下一个标签以前的所有内容，无论是什么样的内容，采用的是何种文字，程序对内容不作任何的识别。切换标签可以有两个或两个以上，从而实现了在一个时间标签的控制下，可以携带多种的文本信息的表示。

根据有声外语材料的特性和需要，我们定义了四种切换标签，说明如下：

(1)英文标签[Tag 01]，表示其后面的文字为英文。

(2)中文标签[Tag 02]，表示其后面的文字为中文。在一些场合下，被定义为“原文标签”

(3)单词标签[Tag 03]，表示其后面的文字为单词。

(4)答案标签[Tag 04]，表示其后面的文字为答案，或者是对话中的回答。

段落标签的形式是[Tag 05]，其目的是为了进行分段，特别是在有很长的文章的情况下，加入段落标签可以让程序进行分段操作。具体的操作体现在循环播放的时候，可以实现按段循环。

根据外语学习材料的不同特性和使用要求，我们定义了6种文件类型，并将文件类型写入文件里面，以便程序对不同的学习材料，调用不同的程序，体现不同的学习方法。这六种学习材料及其标签组成方式如下：

文章学习材料：使用到的标签为：[Tag 01]、[Tag 03]、[Tag 02]，其中第一个标签可以缺省。

[Tag 01]后面的内容是和音频同步的英文

[Tag 02]后面的内容是和音频同步的中文译文

[Tag 03]后面的内容是在这句话中出现的单词及其注解；

例如：

[00:01]Hello！David！[Tag 03]David，大卫(人名)[Tag 02]你好！大卫！

[00:02]Hello！Chen！[Tag 02]你好！陈！

单词学习材料：使用到的标签为：[Tag 01]、[Tag 02]，其中第一个标签可以缺省。

[Tag 01]后面的内容是和音频同步的单词或者英文例句

[Tag 02]后面的内容是和音频同步的英文例句的译文

例子为：

[00:01][Tag 01]Apple，苹果.

[00:02][Tag 01]I am eating an apple.[Tag 02]我在吃一个苹果.

听力考试材料：使用到的标签为：[Tag 01]、[Tag 04]、[Tag 02]，其中第一个标签可以缺省。

[Tag 01]后面的内容是和选择题的几个选项，或者是听力填空题的题目

[Tag 02]后面的内容是听力试题中的对话或者段落的原文

[Tag 04]后面的内容是这道题目的答案；

例子为：

[00:01][Tag 01]A、Apple B、Coin[Tag 02]What’s on your hand？It’s a coin.

[00:02][Tag 01]Listen to the question.[Tag 02]What’s on your hand？It’s acoin.

[00:03][Tag 01]A、Apple B、Coin[Tag 04]Answer：(B)

对话学习材料：使用到的标签为：[Tag 01]、[Tag 021、[Tag 04]，其中第一个标签可以缺省。

[Tag 01]后面的内容是对方说的话，一般是问句。

[Tag 02]后面的内容是对方说的话的译文

[Tag 04]后面的内容是这道题目的参考回答

例子为：

[00:01][Tag 01]How are you？[Tag 02]你好吗？[Tag 04]I am fine！

WMA带歌词音乐：使用到的标签为[Tag 01]、[Tag 02]，其中第一个标签可以缺省。

[Tag 01]后面的内容是和音乐对应的歌词

[Tag 02]后面的内容是和音乐对应的歌词译文

例子为：

[00:01][Tag 01]I am eating an apple.[Tag 02]我在吃一个苹果.

[00:02]I am eating an apple.[Tag 02]我在吃一个苹果.

MP3带歌词音乐：使用到的标签为：[Tag 01]、[Tag 02]，其中第一个标签可以缺省。

[Tag 01]后面的内容是和音乐对应的歌词

[Tag 02]后面的内容是和音乐对应的歌词译文

例子为：

[00:01][Tag 01]I am eating an apple.[Tag 02]我在吃一个苹果.

[00:02]I am eating an apple.[Tag 02]我在吃一个苹果.

SMP3文件的空间构成如下：

块区	地址	内容
块区	地址	内容	语音内容	从头开始	可以是各种音频，目前主要是WMA和MP3
文本内容	紧随语音结尾	各种文本信息，主要来自LRC文件	语音内容	从头开始	可以是各种音频，目前主要是WMA和MP3
文本内容	紧随语音结尾	各种文本信息，主要来自LRC文件	材料类型标志	8个字节+(0-7)	材料类型的定义
语音内容长度	8个字节+(8-15)		材料类型标志	8个字节+(0-7)	材料类型的定义
语音内容长度	8个字节+(8-15)		LRC内容长度	8个字节+(16-31)
保留区域	8个字节+(32-39)		LRC内容长度	8个字节+(16-31)

所述SMP3文件没有固定的长度，实际的长度由语音内容和文本内容的长度决定，语音内容和文本内容的长度没有限制。

上表中的地址表示的是地址的偏移量。其中的字节材料类型、语音内容长度、文字内容长度和保留区域所占用的字节数是预先设定的，可以根据需要设定成不同的数值。

SMP3文件的生成包括3个步骤：

(1)原始材料的准备：

SMP3文件包含了语音信息和文本信息，由于目前所有的了都是独立存在，因此这两部分的材料必须分别进行准备。

语音材料主要有两个来源，一是现成的以MP3、WMA或WAV等各种数码音频格式存在的材料。对于以WAV或者其他格式存在的音频材料，可以通过各种音频转换软件将奇转换成MP3或者WMA格式。对于已经是MP3或者WMA格式存在的音频资料，只要收集过来就可以用了。

制作SMP3文件需要的文本信息，可以通过人工的方法，用Microsoft的Windows所自带的记事本或者Word进行编辑，然后以.TXT或者.LRC格式存在计算机里。这里所的文本信息，包括英文、中文、生词等。

(2)加入同步标签和控制标签：

应用SMP3材料制作软件，将音频文件(.mp3，.WMA)和文本文件(.TXT或者.LRC)同时打开，在播放的同时加入时间标签和相应的控制标签(切换标签和段落标签)。

(3)合成SMP3文件：

应用SMP3材料制作软件，在音频文件和文本文件同时打开的情况下，选择“另存为SMP3”，就可以生成以.SP3为后缀的SMP3文件，存在计算机里。客户将文件下载进SMP3外语学习机或者使用SMP3材料播放软件，就可以进行高效率的学习了。

如图2所示为一种实现音频和文本信息同步控制的装置的便携式学习机的结构示意图。

所述学习机是由微处理器、解码器、存储器、显示装置和读听装置构成，其中，读听装置包含有耳机、转换接头和话筒，耳机和话筒分别连接到转换接头上，转换接头再与解码器连接，并与解码器进行双向通讯，解码器再与微处理器连接；显示装置，其为LCD液晶显示屏，通过LCD控制模块连接到微处理器；存储器，其有存储信息的存储卡和信息接口，其中信息接口与微处理器连接；

其中的耳机也可以由扬声器替换。

微处理器连接解码器、信息接口、LCD控制模块，并控制程序的执行，读取存储器中的数据，将相应的音频信息通过解码器和读听装置播放出来，同时将文本信息通过显示装置显示出来，便于消费者同时使用音频信息和文本信息，能够及时准确地了解其所学习的内容，提高学习效率。

微处理器，其通过I/O连接有缓存ROM，以便于读取控制程序，进行信息处理。而且上述的微处理器，其通过I/O连接有FLASH，便于数据的读取。

本发明的装置还可以通过FM接口连接有FM模块。

如图3所示，多媒体外语学习材料可制作成SMP3的文件处理格式，并可存储于计算机、互联网及便携式多媒体外语学习机等设备中，消费者学习时，可通过互联网从多媒体学习网站上下载所学习的内容，或者从计算机上通过专用的多媒体学习软件进行学习，或者是利用图2所示的便携式多媒体语言学习机进行学习，其所采用的学习方式都是一样的，都可以同时获取音频和文本信息，便于消费者的学习。

Claims

1、一种实现音频和文本信息同步控制的方法，所述方法是通过带有微处理器的数码装置来实现的；所述数码装置包括微处理器、解码器、存储装置、显示装置和读听装置，其中，读听装置连接到解码器上，并与解码器进行双向通讯，微处理器连接解码器、存储装置、显示装置；其特征在于，通过微处理器对存储有多媒体格式文件中包含有音频信息、文本信息、时间标签和控制标签的存储装置进行控制和读取，使所述多媒体文件中的文本信息和音频信号同步，并且将所述多媒体文件中的多级文本中的音频信息通过解码器和读听装置播放出来，同时将所述多媒体文件中的文本信息通过切换装置切换后由显示装置显示出来，其具体步骤为：

(1)将音频信息和文本信息材料进行编辑，生成包含了音频信息、文本信息、时间标签和控制标签的多媒体格式文件，并存储在所述存储装置中；

(2)在微处理器的控制下，读取存储在所述存储装置中的多媒体格式文件，根据所述多媒体格式文件中的时间标签和控制标签，将所述多媒体格式文件中的音频信息通过解码器和读听装置播放出来，同时将所述多媒体格式文件中的文本信息通过显示装置显示出来。

其中，所述的多媒体格式文件的格式如下：

音频信息+时间标签+控制标签1+文本1+控制标签2+文本2+…+控制标签N+文本N，N≥1。

2、根据权利要求1所述的实现音频和文本信息同步控制的方法，其特征在于，所述控制标签包括切换标签和段落标签；文本信息紧随所述切换标签出现；当读取到切换标签时，其后的文本信息将被显示出来；所述段落标签是用于控制分段操作。

3、根据权利要求2所述的实现音频和文本信息同步控制的方法，其特征在于，所述切换标签可以有两个或两个以上，在一个时间标签的控制下，可以携带多种文本信息；其中，第一个切换标签可以缺省。

4、根据权利要求1所述的实现音频和文本信息同步控制的方法，其特征在于，在步骤(1)中，所述多媒体格式文件的生成包括以下3个步骤：

(1.1)原始材料的准备：

分别收集语音信息和文本信息并存储在计算机中，所述语音信息可以是MP3、WMA或WAV格式的语音文件，所述文本信息可以是TXT或者LRC格式的文本文件；

(1.2)加入同步标签和控制标签：

将语音文件和文本文件同时打开，在播放的同时加入时间标签和相反控制标签；

(1.3)合成多媒体格式文件：

在语音文件和文本文件同时打开的情况下，应用多媒体格式文件制作软件将文件另存为多媒体格式文件，并存储在计算机里。

5、一种实现权利要求1所述的实现音频和文本信息同步控制的方法的装置，包括微处理器、解码器、存储装置、显示装置和读听装置，其中，读听装置连接到解码器上，并与解码器进行双向通讯，微处理器连接解码器、存储装置、显示装置；其特征在于，所述存储装置中存储有多媒体格式文件，所述多媒体格式文件包含了音频信息、文本信息、时间标签和控制标签；所述微处理器控制对所述多媒体格式文件的读取，根据所述多媒体格式文件中的时间标签和控制标签，将所述多媒体格式文件中的音频信息通过解码器和读听装置播放出来，同时将所述多媒体格式文件中的文本信息通过显示装置显示出来；所述的读听装置包括扬声器、转换接头和话筒，扬声器和话筒分别连接到转换接头上，转换接头再与解码器连接。

6、根据权利要求5所述的实现音频和文本信息同步控制的方法的装置，其特征在于，所述的存储装置由存储卡和信息接口构成，信息接口与微处理器相连接，所述多媒体文件存储在存储卡中。

7、根据权利要求5所述的实现音频和文本信息同步控制的方法的装置，其特征在于，所述装置还可以通过FM接口连接有FM模块。

8、根据权利要求7所述的实现音频和文本信息同步控制的方法的装置，其特征在于，所述的扬声器也可以使用耳机替换。