CN103210447A

CN103210447A - 脚本数据生成方法及装置

Info

Publication number: CN103210447A
Application number: CN2011800538470A
Authority: CN
Inventors: 任矿淳; 金仁松
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-11-10
Filing date: 2011-11-09
Publication date: 2013-07-17
Also published as: KR101030777B1; WO2012064110A3; WO2012064110A2

Abstract

本发明涉及生成针对音频数据的脚本数据的方法及装置，提供包括如下步骤的脚本数据生成方法：获得针对音频数据的实际声音区间的全部时间信息；基于文本数据而获得针对声音区间的全部音节数信息；基于全部时间信息和全部音节数信息而运算与一个音节对应的单位音节时间信息；基于在文本数据中需要预测的单词或者句子所占的声音区间的区间音节数信息和单位音节时间信息而获得针对音频数据的对应声音区间的预测再现位置信息；将位于预测再现位置的之前或之后的音频数据的停滞区间中与预测再现位置最邻近的停滞区间作为实际再现位置信息而进行存储。

Description

脚本数据生成方法及装置

技术领域

本发明涉及用于生成具备关于音频数据的匹配信息的脚本数据的方法及装置。

背景技术

最近，随着便携式电子设备和互联网等的发展，各种内容的多媒体内容被广泛地普及并利用。例如，用于学习英语、日语、中文等语言的各种听取学习用语音文件被普及并利用。

在存在用于学习语言的一个语音文件和与此对应的文字形式的脚本的情况下，为了在脚本的所希望的位置再现与此对应的语音文件的声音区间，在制造语音文件时，需要将相应信息插入到语音文件内。

但是，在具备以往的规定的再现位置信息的语音文件的情况下，只不过是包括了可按段落再现的信息，实际上在想要再现长度长的段落内的特定文章时，需要直接搜索语音文件的对应声音区间，因此存在难以使用语音文件的问题。

另外，在未存储有再现位置信息的语音文件的情况下，难以任意再现与脚本的特定单词或句子对应的语音文件的声音区间。例如，在未存储有再现位置信息的语音文件中，为了再现与脚本的所希望的单词或句子或者文章对应的声音区间，存在需要使用者自己亲自手动操作倒带或快进按钮而确认语音文件的内容的同时找出相应部分的问题。

发明内容

技术课题

本发明是为了解决上述问题点而研发的，本发明的主要目的在于，提供具备将脚本内的文章或者单词与语音文件的实际声音区间容易进行匹配的信息的脚本数据生成方法。

本发明的另一目的在于提供能够采用所述脚本数据生成方法的脚本数据生成装置。

解决课题的手段

为了解决上述技术课题，根据本发明的一方面，提供一种脚本数据生成方法，基于音频数据和记载有音频数据的内容的文本数据而生成脚本数据，该脚本数据具有与文本数据的单词或者句子对应的音频数据的再现位置信息，该脚本数据生成方法包括：第一步骤，获得针对音频数据的声音区间的全部时间信息；第二步骤，基于文本数据获得针对声音区间的全部音节数信息；第三步骤，基于全部时间信息和全部音节数信息运算与一个音节对应的单位音节时间信息；第四步骤，掌握文本数据中需要预测的单词或者句子之前的至少一个声音区间所占的区间音节数信息；第五步骤，基于区间音节数信息和单位音节时间信息，针对音频数据中需要预测的单词或者句子的预测再现位置信息；第六步骤，对将音频数据的各声音区间的时间信息依次相加得到的值与预测再现位置信息进行比较；以及第七步骤，在将各声音区间的时间信息依次相加得到的值与预测再现位置信息一致时，将与预测再现位置信息最邻近的停滞区间内的规定位置作为针对需要预测的单词或者句子的实际再现位置而存储到文本数据中。

在一实施例中，第一步骤包括如下步骤：根据振幅信息提取针对各声音区间的时间信息，其中，该振幅信息是基于音频数据的时间的振幅信息。

在一实施例中，第一步骤包括如下步骤：根据振幅信息提取音频数据内的停滞区间，其中，该振幅信息是基于音频数据的时间的振幅信息；以及基于由停滞区间的提取而获得的各停滞区间的时间信息和音频数据本身的全部时间信息，获得针对声音区间的全部时间信息。

在一实施例中，第二步骤包括如下步骤：基于由音节文字或具有音节文字的属性的文字或符号标记文本数据的发音辞典信息，获得针对文本数据的单词或者句子的音节数。

在一实施例中，第四步骤包括如下步骤：作为需要预测的单词或者句子，从文本数据的第一个单词或者句子起依次逐一选择到最后的单词或者句子。

在一实施例中，第六步骤包括如下步骤：将从音频数据的第一个声音区间到音频数据的最后声音区间的各声音区间的时间信息依次逐一相加而搜索与预测再现位置信息一致的位置，其中，该第一个声音区间与文本数据的第一个单词或者句子对应，该最后声音区间与最后的单词或者句子对应。

根据本发明的另一方面，提供一种脚本数据生成装置，其基于音频数据和记载有音频数据的内容的文本数据而生成脚本数据，该脚本数据具备与文本数据的单词或者句子对应的音频数据的再现位置信息，该脚本数据生成装置包括：振幅比较部，其获得针对音频数据的声音区间的全部时间信息；音节数提取部，其基于文本数据获得针对声音区间的全部音节数信息；单位时间运算部，其基于从振幅比较部得到的全部时间信息和从音节数提取部得到的全部音节数信息，运算与一个音节对应的单位音节时间信息；再现位置预测部，其基于文本数据中需要预测的单词或者句子之前的至少一个声音区间所占的区间音节数和单位音节时间信息，获得针对音频数据的需要预测的单词或句子的预测再现位置信息；以及再现位置搜索部，其对将音频数据的各声音区间的时间信息依次相加得到的值与预测再现位置信息进行比较，在所述值与预测再现位置信息一致时，将与预测再现位置信息最邻近的停滞区间内的规定位置作为针对需要预测的单词或者句子的实际再现位置而存储到文本数据中。

在一实施例中，振幅比较部根据振幅信息提取声音区间，根据所提取的各声音区间的时间信息运算全部时间信息，其中，该振幅信息是音频数据的时间的振幅信息。

在一实施例中，振幅比较部根据振幅信息提取音频数据内的停滞区间，根据所提取的各停滞区间的时间信息和所述音频数据本身的全部时间信息运算声音区间的全部时间信息，其中，该振幅信息是基于音频数据的时间的振幅信息。

在一实施例中，音节数提取部基于音节文字或具有音节文字的属性的文字或符号标记文本数据的发音辞典信息获得针对文本数据的单词或者句子的音节数。

在一实施例中，再现位置预测部从文本数据的第一个单词或者句子依次逐一选择到最后的单词或者句子，作为需要预测的单词或者句子。

在一实施例中，再现位置搜索部将从音频数据的第一个声音区间到音频数据的最后声音区间的各声音区间的时间信息依次逐一相加而搜索与预测再现位置信息一致的位置，其中，该第一个声音区间与文本数据的第一个单词或者句子对应，该最后声音区间与最后的单词或者句子对应。

发明效果

根据本发明，能够提供通过使得与规定的语音文件对应的文字形式的脚本文件上的特定位置与语音文件内的对应声音区间简单地匹配，从而提高语音文件的利用率，并提高使用者的方便性的脚本数据生成方法和由该方法而制造的脚本数据。

另外，能够提供在利用本发明的脚本数据而在记录和/或再现装置中驱动的程序应用或记录有脚本数据的计算机中可执行的存储介质。

另外，根据本发明，不仅能以文章为单位来在语音文件内匹配对应再现位置，还对于脚本内的任意句子或单词，也能够在语音文件内匹配对应再现位置。因此，能够在脚本数据上任意地指定音频数据的所希望的再现位置，因此能够解除因亲自确认并搜索音频数据的内容而带来的不便，能够在语言听取学习等用途中大大提高脚本数据的活用度。

附图说明

图1是能够采用本发明的脚本数据生成方法的记录和/或再现装置的一例的概略结构图。

图2是关于在本发明的脚本数据生成方法中能够采用的辞典准备过程的一实施例的顺序图。

图3a是关于在图2的辞典准备过程中能够采用的文本数据的一实施例的图。

图3b是关于在图2的辞典准备过程中能够采用的音频数据的一实施例的图。

图4是关于根据本发明的一实施例的脚本数据生成方法的顺序图。

图5a是关于在图4的脚本数据生成方法中能够采用的文本数据的一实施例的图。

图5b是关于利用图5a的文本数据而生成的本发明的脚本数据的一实施例的图。

图6是关于在图4的脚本数据生成方法中能够采用的音频数据的一实施例的图。

图7a及图7b是关于在图4的脚本数据生成方法中能够采用的发音辞典信息的一实施例的图。

图8是用于说明在图4的脚本数据生成方法中预测及搜索与脚本数据的特定位置对应的音频数据的再现位置的过程的图。

图9是根据本发明的一实施例的脚本数据生成装置的框图。

具体实施方式

下面，参照附图，对根据本发明的实施例进行详细说明。

参照图1，体现本发明的脚本数据生成方法的记录和/或再现装置是执行音频数据而输出语音或者声音，通过规定的程序用画面能够看到文本数据（140）的装置。例如，记录和/或再现装置包括：具备显示画面且与扬声器（110）连接的计算机装置（120）；如智能手机这样具备计算机功能的移动终端（130）；能够记录并再现多媒体文件，作为便携式计算机的一种的个人便携信息终端（PDA:Personal digital assistant）；具备接触面板画面，与耳机或扬声器连接而输出音频数据的MP3播放器等音频再现装置。

这样的记录和/或再现装置（下面，简单称为再现装置）具备存储介质。在本实施例中，在再现装置的存储介质中存储有体现脚本数据生成方法的程序和用于执行该程序的应用。另外，在存储介质中存储有用于体现根据本实施例的脚本数据生成方法的数据。

例如，数据包括：音频数据的实际声音区间的时间信息；基于文本数据而获得的针对声音区间的全部音节数信息；与文本数据的一个音节对应的单位音节时间信息；与文本数据的各单词或者句子对应的声音区间为止的区间音节数信息；以及基于区间音节数信息和单位音节时间信息而与特定单词或者句子对应的音频数据的实际再现位置信息等。

本实施例的再现装置可利用于英语、日语、中文等的听取学习。就是说，本实施例的再现装置在例如为了英语听取学习而存在语音文件（或者音频数据）和与此对应的文字形式的脚本（或者文本数据）的情况下，能够具备对与脚本的各单词、句子、或者文章对应的声音区间进行匹配的算法或者与此相应的程序。

为了与下面的在本实施例的详细说明中所涉及的脚本数据区别开，将脚本称为脚本原件或者文本数据。在此，文本数据或者脚本原件是指未记录有根据本实施例的实际再现位置信息的以往的脚本。

为了提供由所述的再现装置而体现的算法或者脚本数据，本发明人在由英语、日语、中文等的规定语言构成的音频数据和与此对应的文字形式的脚本原件中，基于与脚本原件对应的音节文字，掌握对音频数据的声音区间的音节数，从而预测与脚本原件的特定文章或句子或者单词对应的音频数据内的再现位置，提供能够将脚本原件与音频数据匹配的脚本数据生成方案。

在脚本数据生成方案中，为了掌握针对音频数据的声音区间的音节数，先进行将脚本原件变换为音节文字或与此相应的文字或者符号的辞典作业。在该情况下，音节文字或与此相应的文字或者符号作为能够将脚本原件按照发音而文字化的语言的文字，包括日语的假名、韩语的韩文、塞浦路斯文字、美国印第安人的切罗基文字、或者作为在世界各国过去或现在曾经使用或正在使用的语言的音节文字或至少具有音节文字的属性的文字。在此，音节文字是指用一个字来表示声音的一个音节的文字。

在一实施例中，本发明人考虑到与英语不同地，韩文是具有音节文字的属性的文字，对相当于各个英语单词的发音辞典化为韩文，由此预测脚本原件的英语单词以何种程度的长度发音，从语音文件中选择与预测的长度最合适的区间，从而提供能够使得脚本原件与语音文件任意地匹配的脚本数据生成方法。在基于脚本原件而将针对英语脚本原件的各单词或者句子的音节数用韩文音节来掌握的情况下，例如，在利用英语-韩文发音辞典的情况下，为了提高预测的准确度，在韩文发音中利用长音符号。

另外，作为另一辞典作业，先进行将准备好的语音文件分为与各个听取段落例如按照英语听取问题而区分的各段落对应的语音信息的作业。在此，将与各段落或者各段落的至少一个文章对应的语音信息称为音频数据。

进行所述过程是为了在构成为多个听取段落的语音文件以一个文件提供的情况下，防止以全部区间为对象进行预测时所发生的误差的扩散，减少对主要在段落与段落之间插入的并非所希望的声音区间的例如引导表述、电话铃声音、嘈杂声音等声音的坏影响。

如果对所述的辞典作业进行更加具体的说明，则正如图2所示。图2是关于在本发明的脚本数据生成方法中能够采用的辞典准备过程的一实施例的顺序图。

在下面的详细说明中，以作为预测对脚本原件的单词或句子的音节数的手段而利用具有音节文字的属性的韩文的情况为例进行说明。

参照图2，首先在体现根据本发明的一实施例的脚本数据生成方法的再现装置中输入文字形式的脚本原件（S210）。脚本原件可以是与图3a图示的试卷对应的文本数据（参照图5a）。

然后，掌握听取段落（问题）的数量（S215）。听取段落的数量是根据位于脚本原件的相邻文本段落彼此之间的空线或在语音文件的相邻段落彼此之间插入的相对长的停滞区间而掌握的。

然后，判断语音文件是否按照段落而提供（S220）。如果在本步骤（S220）中的判断结果为语音文件并未按照段落而提供，则将语音文件输入到规定装置例如体现本实施例的脚本数据生成方法的辞典作业的装置，以使对于具备多个段落的语音文件能够进行下面的规定作业（S225）。

然后，以基于语音文件的时间的振幅信息为基础，提取不出声音的停滞区间（S230）。

然后，将停滞区间按照长度例如针对时间的区间长度以降序排列（S235）。当排列停滞区间时，段落与段落之间的长停滞区间相比于段落或者文章内的相对短的停滞区间具备相对大的值即优先级，因此由此能够容易掌握听取段落（问题）的数量。

然后，选择与听取段落数量相应的区间，将一个语音文件按照段落而进行分离（S240）。本步骤的目的是，基于相对清楚地区分的长停滞区间的数量而掌握听取段落的数量，按照段落准备与此对应的语音信息。

然后，判断各语音信息是否与实际语音文件的各段落一致（S245）。在本步骤（S245）中进行判断的结果，如果各语音信息与实际语音文件的各段落一致，则完成与语音文件的各听取段落相应的语音信息的准备（S250）。准备的语音信息存储于再现装置的规定的存储器或存储装置。

另一方面，在上述步骤（S245）中进行判断的结果，如果各语音信息与实际语音文件的各段落彼此不一致，则进行针对语音信息的修正作业（S255）。各语音信息与实际语音文件的各段落彼此不一致的情况主要是语音文件包括与脚本无关的引导表述或音响效果等的情况，在这样的情况下，使用者可以进行使得与脚本无关的声音区间在匹配过程中通过或排除的处理。可以通过搭载于再现装置的音频编辑程序的用户接口而进行修正作业。当通过修正作业使得各语音信息与实际脚本段落一致时，完成与各听取段落（问题）相应的语音信息的准备（S250）。

另一方面，在上述步骤（S220）中进行判断的结果，如果按照段落提供语音文件，则输入按照段落所提供的各个语音文件（S260）。根据本步骤（S260），存在按照段落提供的各个语音文件，因此在脚本中选择规定段落（问题）时移动到与此对应的语音文件，由此在无需生成按照段落的语音信息的情况下能够完成本辞典作业。

图3a是关于在图2的辞典准备过程中可采用的文本数据的一实施例的图。图3b是关于在图2的辞典准备过程中可采用的音频数据的一实施例的图。

如图3a所示，用于体现根据本实施例的脚本数据生成方法的辞典准备作业可适用于关于“2011学年度大学修习能力考试模拟评价试题外语（英语）领域”的试卷（300）或者与此对应的脚本原件。例如，准备成当用鼠标或接触面板等输入装置选择第二题（320）前所示的方框标记（322）时，再现与此对应的音频数据的声音区间。

关于试卷（300）的第二至第七（在此，第三至第六是为了方便图示而进行了省略）的各听取段落的语音信息如图3b所示。例如，在图3a及图3b中，试卷（300）的第二题至第七题对应于包括各段落的语音信息的语音文件（380）的六个声音区间（P2至P7）的各个区间。

根据本实施例，在一个语音文件内存在多个按照听取段落的语音信息的情况下，根据基于语音文件的时间的振幅信息而提取停滞区间（在此，包括停滞区间S1至S6），并基于提取的停滞区间，将与第二题至第七题对应的六个听取段落（P2至P7）按照段落而区分或者分离，准备按照段落的语音信息。

参照图4，在本实施例的脚本数据生成方法中，首先选择在语音文件中进行作业的语音信息（S410）。在本步骤（S410）中，语音信息可以是对包括多个听取段落的语音文件，通过图2所示的方式包括针对辞典作业后的特定段落的语音信息或一个听取段落的语音文件。包括一个段落的语音信息或者一个语音信息的语音文件对应于音频数据。

然后，在所选择的音频数据中基于振幅信息而掌握发生实际声音的声音区间的全部时间（S415）。本步骤的目的是为了掌握从相应段落例如与听取学习的一个问题区间对应的段落的语音信息中除去停滞区间而实际发生声音的全部声音区间[参照图6的（b）中白色波形区间]的时间。

基于振幅信息而将声音区间与停滞区间区分包括将规定的基准振幅以上作为声音区间而获得的情况。例如，将最高的声音设为100%时，可以用具有3%、5%、或者7%以下的大小的声音来判断停滞区间。

然后，基于音频数据的相应脚本原件而掌握声音区间的全部音节数（S420）。

在本步骤（S420）中，可以掌握针对例如脚本原件内的英语单词的韩文音节而求出声音区间的全部音节数。由于韩文具有音节文字的属性，因此韩文音节可作为说者和听者考虑一致的发话单位而利用。

另外，在本步骤（S420）中，在一实施例中可以基于记录有与英语单词对应的韩文音节的英语-韩文发音辞典信息而掌握声音区间的全部音节数。英语-韩文发音辞典信息可包括图7a所示的发音辞典信息。

然后，将在上述步骤（S415）中获得的全部时间（下面，称为A）除以在上述的另一步骤（S420）中获得的全部音节数（下面，称为B）而运算与一个音节对应的单位音节时间（下面，称为C）（S425）。将在本步骤中求出的单位音节时间用数学式表示时，如下面的数学式1所示。

[数学式1]

C=A/B

然后，掌握特定的或者需要预测的单词或者句子之前的声音区间所占的音节数（S430）。在此，为了将所掌握的音节数和全部音节数区分开而称为区间音节数。

然后，将区间音节数和单位音节时间（C）相乘而预测相应单词或者句子之前的声音区间所占的时间（S435）。在本步骤（S435）中，预测的单词或者句子之前的声音区间所占的时间与针对相应单词或者句子的预测再现位置对应。

然后，将音频数据的各声音区间以时间为基准从前至后依次逐一相加，直到到达针对相应单词或者句子的预测再现位置（S440）。

然后，判断从上述的步骤（S440）中获得的声音区间之和是否与预测再现位置信息的预测再现位置一致（S445）。在本步骤（S445）中进行判断的结果，如果不一致，则返回到之前步骤（S440），将之后的声音区间相加之后，判断声音区间之和是否与预测再现位置一致（S445）。所述两个步骤（S440，S445）重复执行到声音区间之和与预测再现位置实质性地一致。

然后，在所述步骤（S445）中进行判断的结果，如果声音区间之和与预测再现位置一致，则搜索与预测再现位置最邻近的停滞区间，将所搜索的最邻近的停滞区间作为针对相应单词或者句子的实际再现位置而进行存储（S450）。

可以通过以下方式来搜索与预测再现位置最邻近的停滞区间：按时间顺序将音频数据的声音区间和停滞区间依次逐一相加而提取包括预测再现位置的声音区间，分别比较位于所提取的声音区间的两侧的两个停滞区间与预测再现位置之间的距离。在此，到音频数据的预测再现位置为止的声音区间的时间之和与预测再现位置的时间一致。即，其表示根据本实施例的方法能够排除由音频数据内的停滞区间带来的误差。

实际再现位置可以是停滞区间内的规定位置例如相应停滞区间的开始时间、中间时间、或者结束时间。

然后，判断是否完成对音频数据内的所有文章的处理（S455）。在本步骤（S455）中进行判断的结果，如果对所有文章的所述预测及搜索未结束，则返回到特定步骤（S430），选择音频数据内的下一个单词或者句子之后，获得需要预测的下一个单词或者句子之前的声音区间所占的区间音节数，基于该区间音节数和单位音节时间信息而预测相应声音区间的再现位置，进行搜索实际再现位置的之后过程。

然后，在所述步骤（S455）中进行判断的结果，如果对所有文章的处理已结束，则对于剩余音频数据即剩余段落的语音信息判断根据所述过程的预测及搜索是否完成（S460）。

在上述步骤（S460）中进行判断的结果，如果对所有音频数据的处理未结束，则返回到特定步骤（S410），选择与作业进行中的语音文件内的下一个段落对应的语音信息即下一个音频数据，对于下一个音频数据进行特定步骤之后的过程。本过程进行到对所有音频数据的处理结束为止。

并且，在上述步骤（S460）中进行判断的结果，如果对所有音频数据的处理结束，则完成对于相应语音文件及其脚本原件的匹配（S465）。当匹配结束时，针对文本数据的各段落、各文章、或者各单词的相应再现位置信息能够存储到文本数据中，由此能够生成根据本实施例的脚本数据。

下面，对于本实施例的语音文件和与此对应的脚本原件的匹配过程，以语音文件内的特定音频数据[参照图6的（b）]和与此对应的脚本原件（参照图5a）的匹配过程为例进行说明。

图5a是关于在图4的脚本数据生成方法中可采用的文本数据的一实施例的图。图5b是关于利用图5a的文本数据而生成的本发明的脚本数据的一实施例的图。图6是关于在图4的脚本数据生成方法中可采用的音频数据的一实施例的图。图7a及图7b是关于在图4的脚本数据生成方法中可采用的发音辞典信息的一实施例的图。

参照图5a，文本数据（500）是图3a所图示的“2011学年度大学修习能力考试模拟评价试题外语（英语）领域”试卷中与问题二对应的脚本原件。

为了关于这样的脚本原件（500）的所希望的文章、句子、或者单词重新听到与此对应的语音文件内的声音区间，存在使用者需要亲自搜索语音文件内的相应声音区间的难题。

但是，根据图5b所示的本实施例的脚本数据（500a），能够根据针对听取段落内的文章的再现位置信息（530）、或者针对单词的再现位置信息（540）而移动到语音文件内的对应位置，从而直接再现相应声音区间。在上述两个再现位置信息（530、540）中至少任一个以基于超级文本传送协议方式的链接信息形态具备在脚本数据中，以使在实际脚本数据（500a）上看不到。

例如，如图6所示，为了预测包括对多个听取段落的语音信息（610、611、612、613、614、615）的语音文件（601）中与特定段落的语音信息例如第一个语音信息（610）内的特定声音区间的音频数据（620）对应的脚本文章（参照图5b的550）或者针对该文章内的单词或句子的声音区间，首先掌握针对相应文章（550）的音频数据（620）的实际声音区间的全部时间。

在本实施例中，要进行作业的音频数据（620）的全部长度约为1.952秒，停滞区间（632、634）为约从0.623秒到约0.646秒和从约1.413秒到约1.439秒，因此实际声音区间的全部时间是从音频数据（620）的全部时间约1.952秒中减去停滞区间的全部时间约0.049秒后的约1.903秒。

然后，求出针对所述文章（550）的全部音节数。本实施例的英语文章（550）“Howdo you like your new job，Chelsea？”的音节数是可以参照表音文字，更具体地，参照音节文字的发音辞典信息而获得，在本实施例中，如图7a及图7b所示，可以将记录了针对所述文章（550）的韩文音节的盘（710）或记录了针对所述文章（550）的日语的假名音节的表（720）作为发音辞典信息而进行利用。在本实施例中，所述文章（550）的音节数为16.5。

然后，求出与一个音节对应的单位音节时间。在本实施例中，单位音节时间为将约1.903秒除以16.5得到的值即约0.115333秒。

然后，求出针对想要预测的句子或者单词的区间音节数。并且，将区间音节数和单位音节时间相乘而求出预测再现位置，然后搜索与预测再现位置最邻近的停滞区间，从而获得对该句子或者单词的实际再现位置信息。

另一方面，在图5b的脚本原件中求出音节数时，优先为，将韩文表述，“M:”及“W:”这样的特定表示字等省略或者排除。当然，更优先为，在脚本原件中不包括所述韩文表述和特定表示字。

下面，参照图8，对所述的再现位置的预测及搜索过程进行进一步的详细说明。

首先，假设存在如图8的（a）所示的音频数据（620）。如下面记载，音频数据（620）具备与规定文章（参照图5b的550）对应的声音区间。

“How do you like your new job，Chelsea？”

并且，假设要预测的单词是“Chelsea？”。

那么，从现在开始对预测并搜索与所述单词“Chelsea？”对应的音频数据的声音区间的过程的一实施例进行详细说明。

在本实施例中，音频数据（620）具备三个声音区间（810、820、830）和两个停滞区间（632、634）。第一个声音区间（810）与所述文章（550）的第一个句子“Howdo you like”对应，第二个声音区间（820）与所述文章（550）的第二个句子“your newjob”对应，并且第三个声音区间（830）与所述文章（550）的第三个句子“Chelsea？”对应。

首先，掌握针对音频数据（620）的声音区间的全部时间。全部时间是三个声音区间（810、820、830）的时间之和。在本实施例中，第一个声音区间（810）是0到约0.623秒为止，第二个声音区间（820）是从约0.646秒到约1.413秒为止，并且第三个声音区间（830）是从约1.439秒到约1.952秒。由此，声音区间的全部时间为约1.903秒。

然后，基于所述文章（550）而掌握针对音频数据（620）的声音区间的全部音节数。例如可以利用韩文音节如下述这样求出全部音节数（参照图7a）。

（“Howdoyoulikeyournewjob，Chelsea？”的韩文发音标记）

在上述的韩文音节中如果假设长音符号（-）相当于0.5音节，则在本实施例中针对音频数据或者该文章（550）的全部音节数是16.5音节。

然后，计算音频数据（620）的1音节发音时所需的时间。在本实施例中，对1音节发音时所需的时间进行计算时，其为将声音区间的全部时间除以全部音节数的值。即，

1.903秒/16.5音节=0.115333秒/音节

然后，掌握想要预测的单词为止的声音区间所占的区间音节数。在本实施例中，到所述单词“Chelsea？”为止的声音区间包括第一个声音区间（810）和第二个声音区间（820）。因此，对该两个声音区间的音节数和其长度掌握如下。

作为第一个句子的“Howdoyoulike”是韩文音节的7音节，对与该句子相应的声音区间的时间进行预测则如下：

7音节×0.115333秒/音节=0.807331秒

并且，作为第二个句子的“yournewjob”是韩文音节的6音节，对与该句子相应的声音区间的时间进行预测则如下：

6音节×0.115333秒/音节=0.691998秒

这表示与第一个句子和第二个句子相应的声音区间之和占与约1.499329秒相应的声音区间。在本实施例中，预测的时间与预测再现位置对应，因此预测再现位置为约1.499329。

然后，对于音频数据（620）的语音波形，依次分析从开始时点到各个停滞区间（632；634）为止的声音区间的长度。在此，分析进行到发现声音区间的长度通过上述的过程与预测的时间即预测再现位置最接近的停滞区间为止。

即，如图8的（b）及（c）所示，在所述文章（550）的音频数据（620）中，到第一个停滞区间（632）为止的声音区间（810）的长度为约0.623秒。到第二个停滞区间（634）为止的声音区间（810，820）的长度为约1.412秒。并且，到第三个停滞区间（未图示）为止的声音区间（810、820、830）的长度为约1.925秒。

因此，对第二个停滞区间（634）和第三个停滞区间进行比较时，最靠近预测再现位置的停滞区间是第二个停滞区间（634）。即，位于与作为预测再现位置的声音区间的约1.499329秒最邻近的位置的第二个停滞区间作为与所述单词“Chelsea？”对应的实际再现位置而进行存储。在此，实际再现位置可以选择在作为第二个停滞区间的约1.413秒到约1.439秒内的任意时间或者位置。所搜索的实际再现位置以超级链接形态与该单词、句子、或者文章结合而存储到脚本原件。

根据上述结构，能够从音频数据内容易且准确地查找与脚本原件的“Chelsea？”这一单词对应的声音区间，将这样的方式的分析过程应用到脚本原件全部的单词、句子、或者文章时，能够容易进行脚本原件全部与语音文件之间的匹配，由此将对音频数据的各单词、句子、或者文章的匹配信息即再现位置信息插入脚本原件而生成根据本实施例的脚本数据。

所生成的脚本数据不仅可以作为与音频数据对应的脚本数据本身而利用，而且也可以搭载或结合到存储有音频数据或者脚本数据的可作为计算机执行的存储介质或执行其存储介质的再现和/或记录装置的程序应用而利用。

另一方面，在上述详细说明中，图7a及图7b的发音辞典信息仅用于对本发明的一实施例进行说明，并不是对本发明进行限制。

图9是关于根据本发明的一实施例的脚本数据生成装置的框图。

参照图9，本实施例的脚本数据生成装置（900）是用于基于音频数据和将该音频数据的内容用文字形式记载的文本数据而生成具备与文本数据的单词、句子、或者文章对应的音频数据的再现位置信息的脚本数据的装置。

在一实施例中，脚本数据生成装置（900）具备微处理器（910）和存储装置（920），微处理器（910）根据存储于存储装置（920）的程序和/或应用而执行脚本数据生成过程。

这样的脚本数据生成装置（900）具备微处理器（910）或者根据由微处理器（910）执行的程序应用而进行动作的功能部例如振幅比较部（930）、音节数提取部（940）、单位时间运算部（950）、再现位置预测部（960）、及再现位置搜索部（970）。

振幅比较部（930）获取语音信息或者音频数据的实际声音区间的全部时间信息。

在一实施例中，振幅比较部（930）基于根据音频数据的时间的振幅信息而提取实际声音区间，从所提取的各声音区间获得全部时间信息。

在另一实施例中，振幅比较部（930）根据基于音频数据的时间的振幅信息而提取音频数据内的停滞区间，从所提取的停滞区间获得停滞区间的全部时间信息，基于从音频数据的全部时间减去停滞区间的全部时间的时间信息而运算声音区间的全部时间信息。

音节数提取部（940）基于与脚本原件或者文本数据的文字对应的音节文字信息获得对声音区间的全部音节数信息。

在一实施例中，音节数提取部（940）基于用音节文字标记文本数据的发音辞典信息而获得针对文本数据的单词或者句子的音节数。音节文字可以包括能够用音节单位记录音频数据内的各单词的日语或者具有这样的音节文字的属性的韩语等。

单位时间运算部（950）基于从振幅比较部（930）获得的发生区间的时间信息和从音节数提取部（940）获得的全部音节数量信息而运算对应于一个音节的单位音节时间信息。

再现位置预测部（960）从振幅比较部（930）和音节数提取部（940）获得各文章或者需要预测的单词、句子、或者文章的之前声音区间为止所占的区间音节数信息和单位音节时间信息，基于这样的信息而获得与该单词、句子、或者文章对应的音频数据的声音区间的长度即预测再现位置信息。

再现位置搜索部（970）基于从再现位置预测部（960）获得的预测再现位置，从位于预测再现位置的之前或者之后的音频数据的停滞区间中，将与预测再现位置最邻近的停滞区间决定为实际再现位置信息。

本实施例的脚本数据生成装置（900）以应用形态搭载于图1图示的记录和/或再现装置而生成所述的脚本数据。

以上，参照优先实施例对本发明进行了说明，但本发明不限于所述的实施例，本领域技术人员从这样的记载可进行各种修正及变形。因此，本发明应该参照所附的权利要求书及附图等的全部记载而进行解释，而这样的均等或者等价变形应该全部属于本发明的思想范围内。

Claims

1.一种脚本数据生成方法，基于音频数据和记载有所述音频数据的内容的文本数据而生成脚本数据，该脚本数据具有与所述文本数据的单词或者句子对应的音频数据的再现位置信息，该脚本数据生成方法包括：

第一步骤，获得针对所述音频数据的声音区间的全部时间信息；

第二步骤，基于所述文本数据获得针对所述声音区间的全部音节数信息；

第三步骤，基于所述全部时间信息和所述全部音节数信息运算与一个音节对应的单位音节时间信息；

第四步骤，掌握所述文本数据中需要预测的单词或者句子之前的至少一个声音区间所占的区间音节数信息；

第五步骤，基于所述区间音节数信息和所述单位音节时间信息，获得针对所述音频数据中需要所述预测的单词或者句子的预测再现位置信息；

第六步骤，对将所述音频数据的各声音区间的时间信息依次相加得到的值与所述预测再现位置信息进行比较；以及

第七步骤，在将所述各声音区间的时间信息依次相加得到的值与所述预测再现位置信息一致时，将与所述预测再现位置信息最邻近的停滞区间内的规定位置作为针对需要所述预测的单词或者句子的实际再现位置而存储到所述文本数据中。

2.根据权利要求1所述的脚本数据生成方法，其中，所述第一步骤包括如下步骤：根据振幅信息提取针对各声音区间的时间信息，其中，该振幅信息是基于所述音频数据的时间的振幅信息。

3.根据权利要求1所述的脚本数据生成方法，其中，所述第一步骤包括如下步骤：根据振幅信息提取所述音频数据内的停滞区间，其中，该振幅信息是基于所述音频数据的时间的振幅信息；以及根据由所述停滞区间的提取获得的各停滞区间的时间信息和所述音频数据本身的全部时间信息而获得针对所述声音区间的全部时间信息。

4.根据权利要求1所述的脚本数据生成方法，其中，所述第二步骤包括如下步骤：根据由音节文字标记所述文本数据的发音辞典信息获得针对所述文本数据的单词或者句子的音节数。

5.根据权利要求1所述的脚本数据生成方法，其中，所述第四步骤包括如下步骤：从所述文本数据的第一个单词或者句子依次逐一选择到最后的单词或者句子为止，作为需要所述预测的单词或者句子。

6.根据权利要求5所述的脚本数据生成方法，其中，所述第六步骤包括如下步骤：将从与所述文本数据的第一个单词或者句子对应的所述音频数据的第一个声音区间到与所述最后的单词或者句子对应的所述音频数据的最后声音区间为止的各声音区间的时间信息依次逐一相加而搜索与所述预测再现位置信息一致的位置。

7.一种脚本数据生成装置，其基于音频数据和记载有所述音频数据的内容的文本数据而生成脚本数据，该脚本数据具有与所述文本数据的单词或者句子对应的音频数据的再现位置信息，该脚本数据生成装置包括：

振幅比较部，其获得针对所述音频数据的声音区间的全部时间信息；

音节数提取部，其基于所述文本数据获得针对所述声音区间的全部音节数信息；

单位时间运算部，其基于从所述振幅比较部获得的所述全部时间信息和从所述音节数提取部获得的所述全部音节数信息运算与一个音节对应的单位音节时间信息；

再现位置预测部，其基于所述文本数据中需要预测的单词或者句子之前的至少一个声音区间所占的区间音节数和所述单位音节时间信息获得针对所述音频数据的相应部分的预测再现位置信息；以及

再现位置搜索部，其对将所述音频数据的各声音区间的时间信息依次相加得到的值与所述预测再现位置信息进行比较，在所述值与所述预测再现位置信息一致时，将与所述预测再现位置信息最邻近的停滞区间内的规定位置作为针对需要所述预测的单词或者句子的实际再现位置而存储到所述文本数据中。

8.根据权利要求7所述的脚本数据生成装置，其中，所述振幅比较部根据振幅信息提取所述声音区间，根据所提取的各声音区间的时间信息运算所述全部时间信息，其中，该振幅信息是基于所述音频数据的时间的振幅信息。

9.根据权利要求7所述的脚本数据生成装置，其中，所述振幅比较部根据振幅信息提取所述音频数据内的停滞区间，根据所提取的各停滞区间的时间信息和所述音频数据本身的全部时间信息运算所述声音区间的全部时间信息，其中，该振幅信息是基于所述音频数据的时间的振幅信息。

10.根据权利要求7所述的脚本数据生成装置，其中，所述音节数提取部基于由音节文字标记所述文本数据的发音辞典信息获得针对所述文本数据的单词或者句子的音节数。

11.根据权利要求7所述的脚本数据生成装置，其中，所述再现位置预测部从所述文本数据的第一个单词或者句子依次逐一选择到最后的单词或者句子为止，作为需要所述预测的单词或者句子。

12.根据权利要求11所述的脚本数据生成装置，其中，所述再现位置搜索部将从与所述文本数据的第一个单词或者句子对应的所述音频数据的第一个声音区间到与所述最后的单词或者句子对应的所述音频数据的最后声音区间为止的各声音区间依次逐一相加而搜索与所述预测再现位置信息一致的位置。