CN113506554A

CN113506554A - 电子乐器、电子乐器的控制方法

Info

Publication number: CN113506554A
Application number: CN202110294828.2A
Authority: CN
Inventors: 段城真; 太田文章; 中村厚士
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-03-23
Filing date: 2021-03-19
Publication date: 2021-10-15
Anticipated expiration: 2041-03-19
Also published as: JP7484952B2; JP2021149042A; US20210295819A1; US12106745B2; JP2022071098A; JP7036141B2; CN113506554B

Abstract

电子乐器以及电子乐器的控制方法。电子乐器具备演奏操作件(140k)和处理器(306)，所述处理器(306)以如下方式进行控制：与在应该检测对所述演奏操作件(140k)的用户操作的定时是否检测到所述用户操作无关地，按照与所述定时相应的歌词数据生成歌声合成数据(217)，在所述定时检测到所述用户操作的情况下(S106：是)，允许发出按照所生成的所述歌声合成数据(217)的歌声(S109)，在所述定时未检测到所述用户操作的情况下(S106：否)，不允许发出按照所生成的所述歌声合成数据(217)的歌声(S115)。

Description

电子乐器、电子乐器的控制方法

技术领域

本公开涉及电子乐器、电子乐器的控制方法。

背景技术

公开了与基于使用了键盘等的用户操作的演奏同步地使歌词行进的技术(例如，日本专利第4735544号)。

发明内容

作为本发明的一个实施例的电子乐器具备演奏操作件和处理器，所述处理器以如下方式进行控制：与在应该检测对所述演奏操作件的用户操作的定时是否检测到所述用户操作无关地，按照与所述定时相应的歌词数据生成歌声合成数据，在所述定时检测到所述用户操作的情况下，允许发出按照所生成的所述歌声合成数据的歌声，在所述定时未检测到所述用户操作的情况下，不允许发出按照所生成的所述歌声合成数据的歌声。

作为本发明的一个实施例的电子乐器的控制方法，其中，电子乐器的至少1个处理器以如下方式进行控制：与在应该检测用户操作的定时是否检测到所述用户操作无关地，按照与所述定时相应的歌词数据来生成歌声合成数据，在所述定时检测到所述用户操作的情况下，允许发出按照所生成的所述歌声合成数据的歌声，在所述定时未检测到所述用户操作的情况下，不允许发出按照所生成的所述歌声合成数据的歌声。

作为本发明的一个实施例的电子乐器，其中，具备：演奏操作件；以及至少1个1个处理器，所述至少1个处理器，基于检测到与第一定时对应的用户操作的情况，指示发出与第一字符数据相应的歌声，所述第一字符数据是包含与所述第一定时对应的所述第一字符数据、与所述第一定时后的第二定时对应的第二字符数据、和与所述第二定时后的第三定时对应的第三字符数据在内的歌词数据中的所述第一字符数据，在未检测到与所述第二定时对应的用户操作而检测到与所述第三定时对应的用户操作的情况下，不指示发出与所述第二字符数据相应的歌声，而指示发出与所述第三字符数据相应的歌声。

作为本发明的一个实施例的电子乐器的控制方法，其中，电子乐器的至少1个处理器，基于检测到与第一定时对应的用户操作的情况，指示发出与第一字符数据相应的歌声，所述第一字符数据是包含与所述第一定时对应的所述第一字符数据、与所述第一定时后的第二定时对应的第二字符数据、和与所述第二定时后的第三定时对应的第三字符数据在内的歌词数据中的所述第一字符数据，在未检测到与所述第二定时对应的用户操作而检测到与所述第三定时对应的用户操作的情况下，不指示发出与所述第二字符数据相应的歌声，而指示发出与所述第三字符数据相应的歌声。

根据本发明的一个实施例，能够适当地控制演奏所涉及的歌词行进。

附图说明

图1是表示一实施方式的电子乐器10的外观的一例的图。

图2是表示一实施方式的电子乐器10的控制系统200的硬件结构的一例的图。

图3是表示一实施方式的声音学习部301的结构例的图。

图4是表示一实施方式的波形数据输出部211的一例的图。

图5是表示一实施方式的波形数据输出部211的另一例的图。

图6是表示一实施方式的歌词行进控制方法的流程图的一例的图。

图7是表示使用一实施方式的歌词行进控制方法进行了控制的歌词行进的一例的图。

具体实施方式

本发明人构思与用户的演奏操作无关地生成歌声波形数据，并且控制发出与该歌声波形数据相应的声音的许可以及不许可，想到了本公开的电子乐器。

根据本公开的一个方式，能够基于用户的操作，容易地控制发音的歌词的行进。

以下，参照附图对本公开的实施方式进行详细说明。在以下的说明中，对相同的部分标注相同的附图标记。相同的部分的名称、功能等相同，因此不重复详细的说明。

(电子乐器)

图1是表示一实施方式的电子乐器10的外观的一例的图。电子乐器10也可以搭载开关(按钮)面板140b、键盘140k、踏板140p、显示器150d、以及扬声器150s等。

电子乐器10是用于经由键盘、开关等操作件受理来自用户的输入，控制演奏、歌词行进等的装置。电子乐器10也可以是具有产生与MIDI(Musical Instrument DigitalInterface，音乐设备数字接口)数据等演奏信息相应的声音的功能的装置。该装置既可以是电子乐器(电子钢琴、合成器等)，也可以是构成为搭载传感器等而具有上述的操作件的功能的模拟的乐器。

开关面板140b也可以包括用于操作音量的指定、音源、音色等的设定、歌曲(伴奏)的选曲(伴奏)、歌曲再生开始/停止、歌曲再生的设定(节奏等)等的开关。

键盘140k也可以具有作为演奏操作件的多个键。踏板140p可以是具有在踩踏该踏板的期间使按压的键盘的声音延长的功能的延迟踏板，也可以是用于操作对音色、音量等进行加工的效果器的踏板。

此外，在本公开中，也可以将延迟踏板、踏板、脚踏开关、控制器(操作件)、开关、按钮、触摸面板等相互替换。本公开中的踏板的踩踏也可以通过控制器的操作来替换。

键也可以被称为演奏操作件、音高操作件、音色操作件、直接操作件、第一操作件等。踏板也可以被称为非演奏操作件、非音高操作件、非音色操作件、间接操作件、第二操作件等。

显示器150d也可以显示歌词、乐谱、各种设定信息等。扬声器150s也可以用于放出通过演奏而生成的声音。

此外，电子乐器10也可以生成或转换MIDI消息(事件)以及Open Sound Control(OSC)消息中的至少一方。

电子乐器10也可以被称为控制装置10、歌词行进控制装置10等。

电子乐器10也可以经由有线以及无线(例如，Long Term Evolution(LTE)、5thgeneration mobile communication system New Radio(5G NR)、Wi-Fi(注册商标)等)中的至少一方与网络(因特网等)进行通信。

电子乐器10既可以预先保持与成为行进的控制对象的歌词有关的歌声数据(也可以称为歌词文本数据、歌词信息等)，也可以经由网络发送和/或接收。歌声数据既可以是由乐谱记述语言(例如，Music XML)记载的文本，也可以以MIDI数据的保存形式(例如，Standard MIDI File(SMF)格式)表述，也可以是由通常的文本文件提供的文本。歌声数据也可以是后述的歌声数据215。在本公开中，歌声、语音、声音等也可以相互替换。

另外，电子乐器10也可以经由该电子乐器10所具备的麦克风等取得用户实时演唱的内容，并将对其应用声音识别处理而得到的文本数据作为歌声数据而取得。

中央处理装置(Central Processing Unit：CPU)201、ROM(只读存储器)202、RAM(随机存取存储器)203、波形数据输出部211、图1的开关(按钮)面板140b、键盘140k、与踏板140p连接的键扫描仪206、以及与作为图1的显示器150d的一例的LCD(Liquid CrystalDisplay：液晶显示器)连接的LCD控制器208分别与系统总线209连接。

CPU201可以连接用于控制演奏的计时器210(也可以称为计数器)。计时器210例如也可以用于对电子乐器10中的自动演奏的行进进行计数。CPU201可以被称为处理器，也可以包括与周边电路的接口、控制电路、运算电路、以及寄存器等。

各装置中的功能也可以通过在处理器1001、存储器1002等硬件上读入规定的软件(程序)，由此处理器1001进行运算，控制通信装置1004的通信、存储器1002和储存器1003中的数据的读出和/或写入等来实现。

CPU201通过使用RAM203作为工作存储器并且执行存储在ROM202中的控制程序，来执行图1的电子乐器10的控制动作。另外，ROM202除了上述控制程序以及各种固定数据之外，还可以存储歌声数据、伴奏数据、以及包含它们的乐曲(歌曲)数据等。

波形数据输出部211也可以包括音源LSI(大规模集成电路)204、声音合成LSI205等。音源LSI204和声音合成LSI205也可以合并到1个LSI。关于波形数据输出部211的具体的框图，在图3中后述。另外，波形数据输出部211的处理的一部分可以由CPU201进行，也可以由波形数据输出部211所包含的CPU进行。

从波形数据输出部211输出的歌声波形数据217及歌曲波形数据218分别通过D/A转换器212及213转换为模拟歌声声音输出信号及模拟乐音输出信号。模拟乐音输出信号以及模拟歌声声音输出信号也可以在混频器214中混合，在该混合信号被放大器215放大之后，从扬声器150s或者输出端子输出。此外，歌声波形数据也可以被称为歌声合成数据。虽未图示，但也可以在将歌声波形数据217及歌曲波形数据218以数字合成后，通过D/A转换器转换为模拟而得到混合信号。

键扫描仪(扫描仪)206稳定地扫描图1的键盘140k的按键/离键状态、开关面板140b的开关操作状态、踏板140p的踏板操作状态等，对CPU201施加中断而传递状态变化。

LCD控制器208是对作为显示器150d的一例的LCD的显示状态进行控制的IC(集成电路)。

此外，该系统结构是一例，不限于此。例如，包含各电路的数量不限于此。电子乐器10可以具有不包含一部分电路(机构)的结构，也可以具有通过多个电路实现1个电路的功能的结构。也可以具有由1个电路实现多个电路的功能的结构。

另外，电子乐器10可以构成为包含微处理器、数字信号处理器(DSP：DigitalSignal Processor)、ASIC(Application Specific Integrated Circuit：专用集成电路)、PLD(Programmable Logic Device：可编程逻辑器件)、FPGA(Field Programmable GateArray：现场可编程门阵列)等硬件，也可以通过该硬件来实现各功能块的一部分或全部。例如，CPU201也可以通过这些硬件中的至少1个来实现。

＜音响模型的生成＞

图3是表示一实施方式的声音学习部301的结构的一例的图。声音学习部301也可以安装为与图1的电子乐器10分开地存在于外部的服务器计算机300执行的一个功能。另外，声音学习部301也可以作为CPU201、声音合成LSI205等执行的一个功能而内置于电子乐器10。

实现本公开中的声音合成的声音学习部301和波形数据输出部211可以分别基于例如基于深度学习的统计声音合成技术来实现。

声音学习部301可以包括学习用文本解析部303、学习用音响特征量提取部304和模型学习部305。

在声音学习部301中，作为学习用歌声声音数据312，例如使用对某个歌手演唱适当种类的多个歌唱乐曲的声音进行录音而成的数据。另外，作为学习用歌声数据311，准备各歌唱乐曲的歌词文本。

学习用文本解析部303输入包含歌词文本的学习用歌声数据311并解析该数据。其结果，学习用文本解析部303推定并输出表现与学习用歌声数据311对应的音素、音高等的离散数值序列即学习用语言特征量序列313。

学习用音响特征量提取部304输入学习用歌声声音数据312并进行分析，学习用歌声声音数据312是根据上述学习用歌声数据311的输入，通过某个歌手演唱与该学习用歌声数据311对应的歌词文本，经由麦克风等收录的声音数据。其结果，学习用音响特征量提取部304提取并输出表示与学习用歌声声音数据312对应的声音的特征的学习用音响特征量序列314。

在本公开中，与学习用音响特征量序列314、后述的音响特征量序列317对应的音响特征量序列包括将人的声道模型化后的音响特征量数据(也可以称为共振峰(formant)信息、频谱信息等)、和将人的声带模型化后的声带音源数据(也可以称为音源信息)。作为频谱信息，例如能够采用梅尔倒谱、线谱对(Line Spectral Pairs：LSP)等。作为音源信息，能够采用表示人的声音的音高(pitch)频率的基本频率(F0)以及功率值。

模型学习部305从学习用语言特征量序列313通过机器学习来推定使得生成学习用音响特征量序列314的概率最大的音响模型。即，作为文本的语言特征量序列与作为声音的音响特征量序列之间的关系通过音响模型这样的统计模型来表现。模型学习部305将用来对进行了机器学习的结果计算出的音响模型进行表现的模型参数，作为学习结果315输出。因此，该音响模型与已训练模型相应。

作为由学习结果315(模型参数)表现的音响模型，也可以使用HMM(Hidden MarkovModel：隐马尔可夫模型)。

在某个歌唱者唱出随着某个旋律的歌词时，也可以通过HMM音响模型学习声带的振动或声道特性的歌声的特征参数一边进行怎样的时间变化一边发声。更具体而言，HMM音响模型也可以是将根据学习用的歌声数据求出的频谱、基本频率以及它们的时间结构以音素单位进行模型化的模型。

首先，将说明采用HMM音响模型的图3中的声音学习部301的处理。声音学习部301内的模型学习部305也可以通过输入学习用文本解析部303输出的学习用语言特征量序列313和学习用音响特征量提取部304输出的上述学习用音响特征量序列314，来进行似然度最大的HMM音响模型的学习。

歌声声音的频谱参数能够通过连续HMM进行模型化。另一方面，对数基本频率(F0)是在有声区间中取连续值，在无声区间中不具有值的可变维度的时间序列信号，因此无法用通常的连续HMM或离散HMM直接进行模型化。因此，使用作为基于对应于可变维度的多空间上的概率分布的HMM的MSD-HMM(Multi-Space probability Distribution HMM)，作为频谱参数，将梅尔倒谱作为多维高斯分布，将对数基本频率(F0)的浊音(有声音)作为1维空间，将清音(无声音)作为0维空间的高斯分布同时模型化。

另外，已知构成歌声的音素的特征即使是相同的音素，也受到各种原因的影响而变动。例如，作为基本音韵单位的音素的频谱、对数基本频率(F0)根据歌唱风格和节奏、或者前后歌词和音高等而不同。将对这样的音响特征量造成影响的主要原因的内容称为上下文。

在一实施方式的统计声音合成处理中，为了高精度地对声音的音响特征进行模型化，也可以采用考虑了上下文的HMM音响模型(上下文依赖模型)。具体而言，学习用文本解析部303也可以不仅输出每个帧的音素、音高，还输出考虑了紧前、紧后的音素、当前位置、紧前、紧后的颤音(vibrato)、音调(accent)等的学习用语言特征量序列313。此外，为了提高上下文的组合的效率，可以使用基于决策树的上下文聚类。

例如，模型学习部305也可以根据学习用语言特征量序列313生成用于决定状态持续长度的状态持续长度决策树作为学习结果315，该学习用语言特征量序列313对应于与学习用文本解析部303从学习用歌声数据311提取出的状态持续长度有关的大量音素的上下文。

此外，例如，模型学习部305也可以根据学习用音响特征量序列314生成用于决定梅尔倒数参数的梅尔倒数参数决策树作为学习结果315，该学习用音响特征量序列314对应于与学习用音响特征量提取部304从学习用歌声声音数据312提取出的梅尔倒数参数有关的大量音素。

此外，例如，模型学习部305也可以根据学习用音响特征量序列314生成用于决定对数基本频率(F0)的对数基本频率决策树作为学习结果315，该学习用音响特征量序列314对应于与学习用音响特征量提取部304从学习用歌声声音数据312提取出的对数基本频率(F0)有关的大量音素。此外，也可以是，对数基本频率(F0)的有声区间和无声区间分别通过对应于可变维度的MSD-HMM被模型化为1维和0维的高斯分布，生成对数基本频率决策树。

此外，可以采用基于深度神经网络(Deep Neural Network：DNN)的音响模型来代替基于HMM的音响模型，或者与基于HMM的音响模型一起采用。在该情况下，模型学习部305也可以生成表示从语言特征量向音响特征量的DNN内的各神经元的非线性转换函数的模型参数作为学习结果315。根据DNN，能够使用难以以决策树表现的复杂的非线性转换函数来表现语言特征量序列与音响特征量序列的关系。

另外，本公开的音响模型并不限定于这些，只要是例如组合了HMM和DNN的音响模型等使用了统计的声音合成处理的技术，则可以采用任意的声音合成方式。

例如，如图3所示，在图1的电子乐器10的工厂出货时，学习结果315(模型参数)也可以存储于图2的电子乐器10的控制系统的ROM202，在电子乐器10的电源接通时，从图2的ROM202加载到波形数据输出部211内的后述的歌声控制部307等。

例如，如图3所示，学习结果315也可以通过演奏者操作电子乐器10的开关面板140b，经由网络接口219从互联网等外部下载到波形数据输出部211内的歌声控制部307。

<基于音响模型的声音合成>

图4是表示一实施方式的波形数据输出部211的一例的图。

波形数据输出部211包括处理部(也可以称为文本处理部、预处理部等)306、歌声控制部(也可以称为音响模型部)307、音源308、歌声合成部(也可以称为发声模型部)309、以及静音部310等。

波形数据输出部211基于图1的键盘140k的按键，输入经由图2的键扫描仪206从CPU201指示的、包含歌词以及音高的信息的歌声数据215，由此合成并输出与该歌词以及音高对应的歌声波形数据217。换言之，波形数据输出部211执行统计的声音合成处理，该统计的声音合成处理通过使用在歌声控制部307中设定的音响模型这样的统计模型来预测对应于包含歌词文本的歌声数据215的歌声波形数据217而进行合成。

另外，波形数据输出部211在歌曲数据的再生时，输出与对应的歌曲再生位置相应的歌曲波形数据218。在此，歌曲数据可以相当于伴奏的数据(例如，关于1个以上的声音的音高、音色、发音定时等数据)、伴奏以及旋律的数据，也可以被称为后轨数据等。

处理部306例如作为与自动演奏配合的演奏者的演奏的结果，输入包含与由图2的CPU201指定的歌词的音素、音高等有关的信息的歌声数据215，并对该数据进行解析。歌声数据215例如也可以包含第n个音符(也可以称为第n音符、第n定时等)的数据(例如音高数据、音符长度数据)、与第n音符对应的第n歌词的数据等。

例如，处理部306也可以基于从键盘140k、踏板140p的操作取得的音符开/关数据、踏板开/关数据等，基于后述的歌词行进控制方法判定歌词行进的有无，取得与应输出的歌词对应的歌声数据215。而且，处理部306也可以对表现音素、词类、单词等的语言特征量序列316进行解析，并输出到歌声控制部307，所述音素、词类、单词等与通过按键而指定的音高数据或者所取得的歌声数据215的音高数据、所取得的歌声数据215的字符数据对应。

歌声数据可以是包含歌词(的字符)、音节的类型(开始音节、中间音节、结束音节等)、歌词索引、对应的声高(正确的声高)、对应的发音期间(例如发音开始定时、发音结束定时、发音的长度(duration))中的至少1个的信息。

例如，在图4的例子中，歌声数据215也可以包含与第n(n＝1、2、3、4、…)音符对应的第n歌词的歌词数据、和应该再生第n音符的规定的定时(第n歌词再生位置)的信息。第n歌词的歌声数据也可以被称为第n歌词数据。第n歌词数据也可以包含第n歌词所包含的字符的数据(第n歌词数据的字符数据)、与第n歌词对应的音高数据(第n歌词数据的音高数据)、以及与第n歌词对应的音的长度等信息。

歌声数据215也可以包含用于演奏与该歌词对应的伴奏(歌曲数据)的信息(特定的声音文件格式的数据、MIDI数据等)。在歌声数据由SMF格式表示的情况下，歌声数据215也可以包含存放与歌声有关的数据的音轨块和存放与伴奏有关的数据的音轨块。歌声数据215也可以从ROM202读入到RAM203。歌声数据215从演奏前存储在存储器(例如ROM202、RAM203)中。

此外，电子乐器10也可以基于由歌声数据215表示的事件(例如，指示歌词的发声定时和音高的元事件(定时信息)、指示音符开或者音符关的MIDI事件、或者指示拍子的元事件等)，控制自动伴奏的行进等。

歌声控制部307基于从处理部306输入的语言特征量序列316和作为学习结果315而设定的音响模型，推定与其对应的音响特征量序列317，并且将与所推定的音响特征量序列317对应的共振峰信息318输出到歌声合成部309。

例如，在采用HMM音响模型的情况下，歌声控制部307按由语言特征量序列316获得的每个上下文参照决策树来连结HMM，并且根据所连结的各HMM来预测输出概率最大的音响特征量序列317(共振峰信息318和声带音源数据319)。

在采用DNN音响模型的情况下，歌声控制部307也可以针对以帧单位输入的、语言特征量序列316的音素串，以上述帧单位输出音响特征量序列317。

在图4中，处理部306从存储器(既可以是ROM202，也可以是RAM203)，取得与被按键的音的音高对应的乐器音数据(音高信息)，并输出到音源308。

音源308基于从处理部306输入的音符开/关数据，生成与应发出的(音符开的)音对应的乐器音数据(音高信息)的音源信号(也可以称为乐器音波形数据)，并输出到歌声合成部309。音源308也可以执行发出的音的包络控制等控制处理。

歌声合成部309基于从歌声控制部307依次输入的共振峰信息318的序列，形成将声道模型化的数字滤波器。另外，歌声合成部309将从音源308输入的音源信号作为激振源信号，应用该数字滤波器，生成并输出数字信号的歌声波形数据217。在该情况下，歌声合成部309可以被称为合成滤波器部。

此外，歌声合成部309也可以采用以倒谱声音合成方式、LSP声音合成方式为首的各种声音合成方式。

静音部310可以对从歌声合成部309输出的歌声波形数据217应用静音处理。例如，静音部310也可以在被输入音符开信号(即存在按键)的情况下不应用该静音处理，在不输入音符开信号(即所有键为离键)的情况下应用该静音处理。该静音处理也可以是使波形的音量为0或弱音化(非常小)的处理。

在图4的例子中，由于输出的歌声波形数据217将乐器音设为音源信号，因此与歌手的歌声相比，保真性稍微丧失，但成为该乐器音的气氛和歌手的歌声的声质双方良好地残留的歌声，能够输出有效的歌声波形数据217。

另外，音源308也可以以与乐器音波形数据的处理一起输出其他通道的输出作为歌曲波形数据218的方式进行动作。由此，伴奏音也能够以通常的乐器音进行发音、或者在使旋律线的乐器音发音的同时使该旋律的歌声发声这样的动作。

图5是表示一实施方式的波形数据输出部211的另一例的图。对于与图4重复的内容，不重复说明。

如上所述，图5的歌声控制部307基于音响模型来推定音响特征量序列317。然后，歌声控制部307将与所推定的音响特征量序列317对应的共振峰信息318和与所推定的音响特征量序列317对应的声带音源数据(音高信息)319输出到歌声合成部309。歌声控制部307可以推定使得生成音响特征量序列317的概率最大的音响特征量序列317的推定值。

歌声合成部309例如也可以生成用于产生如下信号的数据(例如，也可以称为与第n音符对应的第n歌词的歌声波形数据)并输出到音源308，该信号是对从歌声控制部307输入的声带音源数据319所包含的基本频率(F0)以及以功率值周期性地重复的脉冲串(浊音音素的情况)、或者声带音源数据319所包含的具有功率值的白噪声(清音音素的情况)、或者将它们混合后的信号应用了数字滤波器之后的信号，该数字滤波器是基于共振峰信息318的序列而将声道模型化得到的。

如图4所示，静音部310可以对从歌声合成部309输出的歌声波形数据217应用静音处理。

音源308基于从处理部306输入的音符开/关数据，从与应发出的(音符开的)音对应的上述第n歌词的歌声波形数据生成数字信号的歌声波形数据217并输出。

在图5的例子中，由于输出的歌声波形数据217基于声带音源数据319将音源308生成的音作为音源信号，所以是由歌声控制部307完全模型化的信号，能够使歌手的歌声非常保真地输出自然的歌声的歌声波形数据217。

另外，图4和图5的静音部310位于被输入来自歌声合成部309的输出的部位，但静音部310的位置不限于此。例如，静音部310可以被配置在音源308的输出(或包含在音源308中)，并且可以使从音源308输出的乐器音波形数据或歌声波形数据静音。

这样，本公开的声音合成与现有的声码器(通过麦克风输入人说出的话语，置换为乐器音并进行合成的方法)不同，即使用户(演奏者)在现实中不唱歌(换言之，即使用户不向电子乐器10输入实时发音的声音信号)，也能够通过键盘的操作输出合成声音。

如上所述，通过采用统计声音合成处理的技术作为声音合成方式，与以往的片段合成方式相比，能够实现格外少的存储器容量。例如，在片段合成方式的电子乐器中，为了声音片段数据，需要具有达到数百兆字节的存储容量的存储器，但在本实施方式中，为了存储学习结果315的模型参数，仅需要具有仅几兆字节的存储容量的存储器即可。因此，能够实现更低价格的电子乐器，能够将高音质的歌声演奏系统利用于更广泛的用户层。

进而，在以往的片段数据方式中，由于需要利用人工进行片段数据的调整，因此用于歌声演奏的数据的制作需要庞大的时间(年单位)和劳力，但在本实施方式的用于HMM音响模型或者DNN音响模型的学习结果315的模型参数的制作中，几乎不需要数据的调整，因此，几分之一的制作时间和劳力即可。由此，也能够实现更低价格的电子乐器。

另外，一般用户也可以使用可利用的服务器计算机300、声音合成LSI205等中内置的学习功能作为云服务，学习自己的声音、家人的声音、或者名人的声音等，将其作为模型声音用电子乐器进行歌声演奏。在该情况下，也能够作为更低价格的电子乐器来实现与以往相比格外自然且高音质的歌声演奏。

(歌词行进控制方法)

以下说明本公开的一实施方式的歌词行进控制方法。此外，本公开的歌词行进控制也可以与演奏控制、演奏等相互替换。

以下的各流程图的动作主体(电子乐器10)也可以通过CPU201、波形数据输出部211(或其内部的音源LSI204、声音合成LSI205(处理部306、歌声控制部307、音源308、歌声合成部309、静音部310等))中的任意一个或它们的组合来替换。例如，也可以是，CPU201执行从ROM202加载到RAM203的控制程序，实施各动作。

另外，在以下所示的流程的开始时，也可以进行初始化处理。该初始化处理也可以包括中断处理、歌词的行进、自动伴奏等的成为基准时间的TickTime的导出、节奏设定、歌曲的选曲、歌曲的读入、乐器音的选择、以及其他与按钮等相关联的处理等。

CPU201能够在适当的定时，基于来自键扫描仪206的中断，检测开关面板140b、键盘140k以及踏板140p等的操作，并实施对应的处理。

此外，以下表示控制歌词的行进的例子，但行进控制的对象不限于此。基于本公开，例如，也可以代替歌词而控制任意的字符串、文章(例如新闻的稿件)等的行进。即，本公开的歌词也可以与字符、字符串等相互替换。

在本公开中，电子乐器10与用户的演奏操作无关地生成歌声波形数据217(声音合成数据)，控制允许/不允许发出与歌声波形数据217相应的音。

例如，电子乐器10也可以根据演奏开始的指示，即使未检测出由用户进行的按键，也按照歌声数据215(可以从演奏开始前存储在存储器中，也可以不存储在存储器中)，实时地生成歌声波形数据217(声音合成数据)。

电子乐器10执行静音处理，使得在未检测到按键的期间不发出与实时生成的歌声波形数据217(声音合成数据)相应的音(用户听不到歌声)。另外，电子乐器10在检测到按键的情况下，解除静音处理(使用户听到歌声)。电子乐器10对歌曲波形数据218不执行静音处理(在用户听不到歌声的状态下听到伴奏)。

当检测用户按键时，电子乐器10用与被按键的键对应的音高数据，覆盖与歌声数据215(以下，有时也简记为歌声数据)内的按键定时对应的音高数据。由此，基于覆盖后的音高数据，生成歌声波形数据217(以下，有时也简记为歌声波形数据)。此外，电子乐器10也可以与静音处理的有无无关地进行歌声再生处理。

以上，换言之，电子乐器10的处理器也可以在检测到对演奏操作件(键)的用户操作(按键)的情况以及未检测到的情况这两种情况下，按照歌声数据215生成歌声合成数据217。另外，电子乐器10的处理器以如下方式进行控制：在检测到对所述演奏操作件的用户操作的情况下，允许发出按照所生成的所述歌声合成数据的歌声，在完全未检测到对所述演奏操作件的用户操作的情况下，不允许发出按照所生成的所述歌声合成数据的歌声。

根据这样的结构，能够以用户的按键操作为触发，对有无发出在后台自动再生的合成声音进行控制，因此能够容易地指定用户想要发音的歌词的部位。

另外，电子乐器10的处理器在检测到对所述演奏操作件的用户操作的情况以及未检测到用户操作的情况这两种情况下，根据时间经过变更上述歌声数据。根据这样的结构，能够使在后台再生的歌词适当地迁移。

电子乐器10的处理器也可以在检测到所述用户操作的情况下，以根据所述用户操作而指定的音高，指示发出按照所生成的所述歌声合成数据的歌声。根据这样的结构，能够容易地变更发音的合成声音的音高。

电子乐器10的处理器也可以在完全未检测到所述用户操作的情况下，指示按照所生成的所述歌声合成数据发出的歌声的静音。根据这样的结构，能够在不需要时听不到合成声音，并且能够高速地进行需要的情况的发音的切换。

首先，电子乐器10读入歌曲数据以及歌声数据(步骤S101)。该歌声数据(图4、图5的歌声数据215)也可以是与歌曲数据对应的歌声数据。

电子乐器10例如根据用户的操作，开始发出与歌词对应的歌曲数据(换言之，伴奏的再生)(步骤S102)。用户能够配合该伴奏进行按键操作。

电子乐器10开始歌词发音定时t的递增计数(步骤S103)。电子乐器10也可以将该t例如以拍、节拍(tick)、秒等至少1个为单位来处理。歌词发音定时t也可以由计时器210计数。

电子乐器10将1代入表示接下来发音的歌词的位置的歌词索引(也表示为“n”)(步骤S104)。另外，在从中途开始歌词(例如，从上次的存储位置开始)的情况下，也可以向n代入1以外的值。

歌词索引也可以是表示将歌词整体视为字符串时的、与从开头起的第几个音节(或第几个字符)的音节(或字符)对应的变量。例如，歌词索引n也可以表示图4、图5等所示的第n歌声再生位置的歌声数据(第n歌词数据)。

另外，在本公开中，与1个歌词的位置(歌词索引)对应的歌词也可以相当于构成1个音节的1个或多个字符。歌声数据所包含的音节可以包含仅元音、仅辅音、辅音+元音等各种音节。

另外，电子乐器10存储有以歌曲数据的发音开始(伴奏的最初)为基准的、与歌词索引n(n＝1、2、…、N)对应的歌词发音定时tn。在此，N相当于最后的歌词。歌词发音定时tn可以表示第n歌声再生位置的期望定时。

电子乐器10判定歌词发音定时t是否成为第n定时(换言之，是否t＝tn)(步骤S105)。在t＝tn的情况下(步骤S105-是)，电子乐器10判断是否有按键(发生了音符开事件)(步骤S106)。

在有按键的情况下(步骤S106-是)，电子乐器10以与被按键的键对应的音高数据，覆盖第n歌词数据的音高数据(读入的歌声数据的音高数据)(步骤S107)。

电子乐器10生成基于在步骤S107中覆盖的音高数据和第n歌词数据(中的第n歌词的字符)的歌声波形数据(步骤S108)。电子乐器10进行基于通过步骤S108生成的歌声波形数据的发音处理(步骤S109)。只要不通过后述的步骤S112等实施静音处理，该发音处理也可以是仅发音第n歌词数据的持续时间(duration)的处理。

在步骤S109中，也可以基于图4生成合成声音。电子乐器10例如也可以由歌声控制部307取得第n个歌声数据的音响特征量数据(共振峰信息)，向音源308指示发出与按键相应的音高的乐器音(乐器音波形数据的生成)，对歌声合成部309指示对从音源308输出的乐器音波形数据赋予第n个歌声数据的共振峰信息。

在步骤S109中，电子乐器10例如处理部306将指定的音高数据(与被按键的键对应的音高数据)以及第n个歌声数据(第n歌词数据)输入到歌声控制部307，歌声控制部307基于输入推定音响特征量序列317，将对应的共振峰信息318和声带音源数据(音高信息)319输出到歌声合成部309，歌声合成部309基于输入的共振峰信息318和声带音源数据(音高信息)319，生成第n个歌声波形数据(也可以被称为与第n音符对应的第n歌词的歌声波形数据)，并输出到音源308。这样，音源308从歌声合成部309取得第n个歌声波形数据并对该数据进行发音处理。

在步骤S109中，也可以基于图5生成合成声音。电子乐器10的处理部307将指定的音高数据(与被按键的键对应的音高数据)以及第n个歌声数据(第n歌词数据)输入到歌声控制部306。然后，电子乐器10的歌声控制部306基于输入来推定音响特征量序列317，并且将对应的共振峰信息318和声带音源数据(音高信息)319输出到歌声合成部309。

此外，歌声合成部309基于输入的共振峰信息318和声带音源数据(音高信息)319，生成第n个歌声波形数据(也可以称为与第n音符对应的第n歌词的歌声波形数据)，并输出到音源308。然后，音源308从歌声合成部309取得第n歌声波形数据。电子乐器10对所取得的第n个歌声波形数据进行基于音源308的发音处理。

另外，流程图内的其他发音处理也可以同样地进行。

在步骤S109之后，电子乐器10将n递增1(将n+1代入n)(步骤S110)。

电子乐器10判断所有键是否被离键(步骤S111)。在所有键被离键的情况下(步骤S111-是)，电子乐器10进行与歌声波形数据相应的发音的静音处理(步骤S112)。该静音处理可以由上述的静音部310执行。

在步骤S112或步骤S111-否之后，电子乐器10判断在步骤S102中开始再生的歌曲数据的再生是否已结束(步骤S113)。在已结束的情况下(步骤S113-是)，电子乐器10也可以结束该流程图的处理，返回待机状态。否则(步骤S113-否)，返回步骤S105。

另外，在步骤S105-是之后没有按键的情况下(步骤S106-否)，电子乐器10生成基于第n歌词数据的音高数据(未被覆盖的音高数据)和第n歌词数据的字符数据的歌声波形数据(步骤S114)。电子乐器10进行基于通过步骤S114生成的歌声波形数据的发音的静音处理(步骤S115)，进入步骤S110。

另外，在t＜tn的情况下(步骤S105-否)，电子乐器10判断是否存在发音中的按键(例如，存在基于步骤S109发出的音，且有任意的键的按键)(步骤S116)。在有发音中的按键的情况下(步骤S116-是)，电子乐器10进行发音中的音的音高变更(步骤S117)，返回步骤S105。

例如，也可以与步骤S107-S109中说明的情况同样地，通过生成基于与该被按键的键对应的音高数据和发音中的歌词(第n-1歌词数据的字符数据)的歌声波形数据，并进行发音处理来进行音高变更。在没有发音中的按键的情况下(步骤S116-否)，返回步骤S105。

另外，步骤S116也可以是与是否为发音中的按键无关地仅是是否有按键的判断。在该情况下，步骤S117也可以是步骤S112、S115等的静音处理的解除(换言之，对于被静音的声音，按被按键的音的发音处理)。

另外，在步骤S106、S116等的按键是多个键的同时按键(和音的按键)的情况下，也可以通过步骤S107-S109、S117等，发出与各自的音高相应的谐波的歌声(多音)。

在本流程图中，通过在步骤S112、S115等中不进行消音处理而是应用静音处理，即使在不发出的情况下音也在后台再生，因此在想要发音的情况下能够迅速地发音。

图7是表示使用一实施方式的歌词行进控制方法控制的歌词行进的一例的图。在本例中，对与图示的乐谱对应的演奏的一例进行说明。假设在歌词索引1-6分别对应有“Sle”、“ep”、“in”、“heav”、“en”以及“ly”。

在本例中，电子乐器10在与歌词索引1对应的定时t1，判断为存在由用户进行的按键(图7的步骤S105-是，以及步骤S106-是)。在该情况下，电子乐器10以与被按键的键对应的音高数据，覆盖与歌词索引1对应的音高数据，并发出歌词“Sle”(步骤S107-S109)。此时，电子乐器10不应用静音处理。

电子乐器10在与歌词索引2、3对应的定时t2、t3，判断为没有由用户进行的按键。在该情况下，电子乐器10生成与歌词索引2、3对应的歌词“ep”、“in”的歌声波形数据，进行静音处理(步骤S114-S115)。因此，虽然用户听不到歌词“ep”、“in”的歌声，但能够听到伴奏。

另外，电子乐器10在与歌词索引4对应的定时t4，判断为存在由用户进行的按键。在该情况下，电子乐器10以与被按键的键对应的音高数据，覆盖与歌词索引4对应的音高数据，发音歌词“heav”。此时，电子乐器10不应用静音处理。

电子乐器10在与歌词索引5、6对应的定时t5、t6，判断为没有由用户进行的按键。在该情况下，电子乐器10生成与歌词索引5、6对应的歌词“en”、“ly”的歌声波形数据，进行静音处理。因此，虽然用户听不到歌词“en”、“ly”的歌声，但能够听到伴奏。

即，根据本公开的一个方式的歌词行进控制方法，根据用户的演奏方法，有时歌词的一部分不发音(在图7的例子中，有时“Sle”与“heav”之间的“epin”不发音)。

通常的自动演奏即使没有用户的按键也自动演奏歌词(在上述的图7的例子中，“Sleep in heavenly”全部被发音，另外，音高不能变更)，与此相对，根据上述歌词行进控制方法，能够仅在按键时自动演奏歌词(另外，音高也能够变更)。

另外，在每次进行现有的按键时歌词行进(当应用于图7的例子时，在每次按键时歌词索引被递增而发音)的技术中，在因过度按键而歌词的位置超过、或者按键不足而歌词的位置没有设想的进展的情况下，需要用于使歌词的位置适当地移动的同步处理(使歌词的位置与伴奏的再生位置配合的处理)。另一方面，根据上述歌词行进控制方法，不需要这样的同步处理，适当地抑制电子乐器10的处理负荷的增大。

(变形例)

图4、图5等所示的声音合成处理的开/关也可以基于用户的开关面板140b的操作进行切换。在关的情况下，波形数据输出部211也可以控制为生成并输出与按键对应的音高的乐器音数据的音源信号。

在图6的流程图中，也可以省略一部分步骤。在省略了判定处理的情况下，关于该判定，可以解释为在流程图中始终进入“是”或者始终进入“否”的路线。

电子乐器10也可以进行使歌词显示于显示器150d的控制。例如，可以显示当前的歌词的位置(歌词索引)附近的歌词，也可以将与发音中的音对应的歌词、与发音的音对应的歌词等着色等来显示，以便能够识别当前的歌词的位置。

电子乐器10也可以对外部装置发送歌声数据、与当前的歌词的位置有关的信息等的至少1个。外部装置也可以基于接收到的歌声数据、与当前的歌词的位置有关的信息等，进行使自身具有的显示器显示歌词的控制。

在上述的例子中，示出了电子乐器10是键盘那样的键盘乐器的例子，但不限于此。电子乐器10只要是具有能够通过用户的操作来指定发音的定时的结构的设备即可，也可以是电小提琴、电吉他、鼓、喇叭等。

因此，本公开的“键”也可以通过弦、阀、其他音高指定用的演奏操作件、任意的演奏操作件等来替换。本公开的“按键”也可以通过击键、拾取、演奏、操作件的操作等来替换。本公开的“离键”也可以通过弦的停止、演奏停止、操作件的停止(非操作)等来替换。

另外，在上述实施方式的说明中使用的框图表示功能单位的块。这些功能块(结构部)通过硬件和/或软件的任意组合来实现。另外，各功能块的实现单元没有特别限定。即，各功能块既可以通过物理结合的1个装置来实现，也可以通过有线或无线将物理上分离的2个以上的装置连接，通过这些多个装置来实现。

另外，关于本公开中说明的用语和/或本公开的理解所需的用语，也可以置换为具有相同或类似的意思的用语。

在本公开中说明的信息、参数等可以使用绝对值来表示，也可以使用与规定的值的相对值来表示，也可以使用对应的其他信息来表示。另外，在本公开中在参数等中使用的名称在任何方面都没有限定。

在本公开中说明的信息、信号等也可以使用各种不同的技术中的任意一种来表示。例如，在上述说明整体中可提及的数据、命令、指令(command)、信息、信号、比特、符号、芯片等也可以通过电压、电流、电磁波、磁场或磁性粒子、光场或光子、或它们的任意组合来表示。

信息、信号等也可以经由多个网络节点而被输入输出。输入输出的信息、信号等既可以保存在特定的场所(例如，存储器)中，也可以使用表来管理。输入输出的信息、信号等可以进行覆盖、更新或补写。输出的信息、信号等也可以被删除。所输入的信息、信号等也可以向其他装置发送。

软件不仅被称为软件、固件、中间件、微码、硬件描述语言还是其他的名称，应该被广泛地解释为意味着命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。

另外，软件、命令、信息等也可以经由传输介质进行发送接收。例如，在软件使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL：Digital Subscriber Line)等)以及无线技术(红外线、微波等)中的至少一方从网站、服务器或者其他远程源发送的情况下，这些有线技术以及无线技术中的至少一方包含在传输介质的定义内。

本公开中说明的各方式/实施方式既可以单独使用，也可以组合使用，也可以伴随着执行而切换使用。另外，在本公开中说明的各方式/实施方式的处理顺序、时序、流程图等只要没有矛盾，也可以调换顺序。例如，关于在本公开中说明的方法，使用例示性的顺序来提示各种步骤的要素，并不限定于所提示的特定的顺序。

在本公开中使用的“基于”的记载只要没有特别地明确标记，就不意味着“仅基于”。换言之，“基于”的记载是指“仅基于”和“至少基于”这双方。

在本公开中使用的使用了“第一”、“第二”等称呼的要素的任何参照也不对这些要素的量或顺序进行整体限定。这些称呼可以作为区别2个以上的要素间的便利的方法在本公开中使用。因此，第一以及第二要素的参照并不意味着仅能够采用2个要素或者必须以某种形式使第一要素先行于第二要素。

在本公开中，在使用“包含(include)”、“包含着(including)”以及这些的变形的情况下，这些用语与用语“具备(comprising)”同样地意味着包括。此外，本公开中使用的用语“或(or)”意味着不是异或。

在本公开中，例如，在由于翻译而追加了冠词的情况下，本公开也可以包括这些冠词之后接续的名词为复数形式的情况。

以上，对本公开的发明进行了详细说明，但对于本领域技术人员来说，显然本公开的发明并不限定于本公开中说明的实施方式。本公开的发明能够不脱离基于权利要求书的记载而决定的发明的主旨以及范围地作为修正以及变更方式来实施。因此，本公开的记载以例示说明为目的，对于本公开的发明没有任何限制性的意义。

Claims

1.一种电子乐器，其中，具备：

演奏操作件；以及

至少1个处理器，

所述至少1个处理器以如下方式进行控制：

与在应该检测对所述演奏操作件的用户操作的定时是否检测到所述用户操作无关地，按照与所述定时相应的歌词数据生成歌声合成数据，

在所述定时检测到所述用户操作的情况下，允许发出按照所生成的所述歌声合成数据的歌声，

在所述定时未检测到所述用户操作的情况下，不允许发出按照所生成的所述歌声合成数据的歌声。

2.根据权利要求1所述的电子乐器，其中，

所述至少1个处理器在所述定时检测到所述用户操作的情况下，按照根据所述用户操作而指定的音高，生成所述歌声合成数据。

3.根据权利要求1或2所述的电子乐器，其中，

所述至少1个处理器在所述定时未检测到所述用户操作的情况下，按照所述歌词数据包含的音高数据所表示的音高，生成所述歌声合成数据。

4.根据权利要求1至3中任一项所述的电子乐器，其中，

所述至少1个处理器在所述定时未检测到所述用户操作的情况下，指示按照所生成的所述歌声合成数据发出的歌声的静音。

5.根据权利要求1至4中任一项所述的电子乐器，其中，

所述至少1个处理器，

指示发出与歌曲数据相应的伴奏，

在所述定时未检测到所述用户操作的情况下，不允许发出按照所生成的所述歌声合成数据的歌声，而继续发出所述伴奏。

6.根据权利要求1至5中任一项所述的电子乐器，其中，

所述电子乐器具备存储器，所述存储器存储有学习了某个歌手的歌声的音响特征量的已训练模型，

所述至少1个处理器按照所述已训练模型根据与所述用户操作相应的所述歌词数据向所述已训练模型的输入而输出的音响特征量数据，生成所述歌声合成数据。

7.根据权利要求1至6中任一项所述的电子乐器，其中，

所述歌词数据包含与第一定时对应的第一字符数据、与所述第一定时后的第二定时对应的第二字符数据、以及与所述第二定时后的第三定时对应的第三字符数据，

所述至少1个处理器，

基于检测到与所述第一定时对应的用户操作的情况，指示发出与所述第一字符数据相应的歌声，

在未检测到与所述第二定时对应的用户操作而检测到与所述第三定时对应的用户操作的情况下，不指示发出与所述第二字符数据相应的歌声，而指示发出与所述第三字符数据相应的歌声。

8.一种电子乐器的控制方法，其中，

电子乐器的至少1个处理器以如下方式进行控制：

与在应该检测用户操作的定时是否检测到所述用户操作无关地，按照与所述定时相应的歌词数据来生成歌声合成数据，

9.根据权利要求8所述的电子乐器的控制方法，其中，

10.根据权利要求8或9所述的电子乐器的控制方法，其中，

11.根据权利要求8至10中任一项所述的电子乐器的控制方法，其中，

12.根据权利要求8至11中任一项所述的电子乐器的控制方法，其中，

所述至少1个处理器，

指示发出与歌曲数据相应的伴奏，

13.根据权利要求8至12中任一项所述的电子乐器的控制方法，其中，

14.根据权利要求8至13中任一项所述的电子乐器的控制方法，其中，

所述至少1个处理器，

15.一种电子乐器，其中，具备：

演奏操作件；以及

至少1个处理器，

所述至少1个处理器，

基于检测到与第一定时对应的用户操作的情况，指示发出与第一字符数据相应的歌声，所述第一字符数据是包含与所述第一定时对应的所述第一字符数据、与所述第一定时后的第二定时对应的第二字符数据、和与所述第二定时后的第三定时对应的第三字符数据在内的歌词数据中的所述第一字符数据，

16.一种电子乐器的控制方法，其中，

电子乐器的至少1个处理器，