CN111063372B - 确定音高特征的方法、装置、设备及存储介质 - Google Patents
确定音高特征的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111063372B CN111063372B CN201911388447.XA CN201911388447A CN111063372B CN 111063372 B CN111063372 B CN 111063372B CN 201911388447 A CN201911388447 A CN 201911388447A CN 111063372 B CN111063372 B CN 111063372B
- Authority
- CN
- China
- Prior art keywords
- pitch
- values
- value
- midi
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 abstract description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
- G10H1/0058—Transmission between separate instruments or between individual components of a musical system
- G10H1/0066—Transmission between separate instruments or between individual components of a musical system using a MIDI interface
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开了一种确定音高特征的方法、装置、设备及存储介质,属于音频处理技术领域。所述方法包括:提取歌曲中的目标字符的多个第一音高特征值,该目标字符为该歌曲中的任意一个或者多个字符;基于该多个第一音高特征值,确定该目标字符的多个第一MIDI音高值;获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值;根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值。本申请确定的第二音高特征值对应的第二音高特征比较可靠,即准确度比较高。
Description
技术领域
本申请涉及音频处理技术领域,特别涉及一种确定音高特征的方法、装置、设备及存储介质。
背景技术
音高特征在语音合成技术中是一项比较重要的特征,其可以直接决定所合成的语音的质量,当音高特征不准确时,将导致所合成的语音中出现杂音,因此,需要能够准确地确定出音高特征。在歌曲中,一个字符的音高特征可能包括多个,所以,如何准确地确定歌曲中的字符的音高特征成为研究的热点。
发明内容
本申请实施例提供了一种确定音高特征的方法、装置、设备及存储介质,可以解决如何准确地确定歌曲中的字符的音高特征问题。所述技术方案如下:
一方面,提供了一种确定音高特征的方法,所述方法包括:
提取歌曲中的目标字符的多个第一音高特征值,所述目标字符为所述歌曲中的任意一个或者多个字符;
基于所述多个第一音高特征值,确定所述目标字符的多个第一MIDI音高值;
获取所述多个第一MIDI音高值中的时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值;
根据所述多个第二MIDI音高值,从所述多个第一音高特征值中确定所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述根据所述多个第二MIDI音高值,从所述多个第一音高特征值中确定所述目标字符的第二音高特征值,包括:
根据所述多个第二MIDI音高值,确定所述目标字符的音高范围;
将所述多个第一音高特征值中处于所述音高范围内的第一音高特征值确定为所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述根据所述多个第二MIDI音高值,确定所述目标字符的音高范围,包括:
确定所述多个第二MIDI音高值中的最大值和最小值;
将所述最小值作为下限、以及将所述最大值作为上限,确定第一数值范围;
从所述多个第一MIDI音高值中筛选属于所述第一数值范围的第一MIDI音高值,得到多个第三MIDI音高值;
基于所述多个第三MIDI音高值,确定所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述基于所述多个第三MIDI音高值,确定所述目标字符的音高范围,包括:
从所述多个第三MIDI音高值中选择数量最多的第三MIDI音高值;
将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值;
将所述第一数值作为上限、以及将所述第二数值作为下限,确定第二数值范围;
将所述第二数值范围转换为所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述提取歌曲中的目标字符的多个第一音高特征值,包括:
从所述目标字符中确定清声部分,所述清声部分是指不包括音高特征的声母或辅音;
提取所述目标字符中除所述清声部分之外的其他部分的音高特征值,得到所述多个第一音高特征值。
另一方面,提供了一种确定音高特征的装置,所述装置包括:
提取模块,用于提取歌曲中的目标字符的多个第一音高特征值,所述目标字符为所述歌曲中的任意一个或者多个字符;
第一确定模块,用于基于所述多个第一音高特征值,确定所述目标字符的多个第一MIDI音高值;
获取模块,用于获取所述多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值;
第二确定模块,用于根据所述多个第二MIDI音高值,从所述多个第一音高特征值中确定所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述第二确定模块用于:
根据所述多个第二MIDI音高值,确定所述目标字符的音高范围;
将所述多个第一音高特征值中处于所述音高范围内的第一音高特征值确定为所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述第二确定模块用于:
确定所述多个第二MIDI音高值中的最大值和最小值;
将所述最小值作为下限、以及将所述最大值作为上限,确定第一数值范围;
从所述多个第一MIDI音高值中筛选属于所述第一数值范围的第一MIDI音高值,得到多个第三MIDI音高值;
基于所述多个第三MIDI音高值,确定所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述第二确定模块用于:
从所述多个第三MIDI音高值中选择数量最多的第三MIDI音高值;
将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值;
将所述第一数值作为上限、以及将所述第二数值作为下限,确定第二数值范围;
将所述第二数值范围转换为所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述提取模块用于:
从所述目标字符中确定清声部分,所述清声部分是指不包括音高特征的声母或辅音;
提取所述目标字符中除所述清声部分之外的其他部分的音高特征值,得到所述多个第一音高特征值。
另一方面,提供了一种设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现上述一方面所述的任一方法的步骤。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述一方面所述的任一方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述一方面所述的任一方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
提取歌曲中的目标字符的多个第一音高特征值,基于该多个第一音高特征值,确定该目标字符的多个第一MIDI音高值。获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值,也即是,该多个第二MIDI音高值为目标字符的后半部分的音高特征对应的值。由于目标字符的后半部分往往是音高特征比较稳定的部分,即该多个第二MIDI音高值是从音高特征比较稳定的部分中确定的,所以,可以根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值,如此确定的第二音高特征值对应的第二音高特征比较可靠,即准确度比较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种确定音高特征的方法流程图;
图2是根据另一示例性实施例示出的一种确定音高特征的装置的结构示意图;
图3是根据一示例性实施例示出的一种终端的结构示意图;
图4是根据一示例性实施例示出的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的确定音高特征的方法进行详细介绍之前,先对本申请实施例涉及的执行主体进行简单介绍。
本申请实施例提供的确定音高特征的方法可以由设备来执行,该设备中可以安装有歌曲播放应用,该歌曲播放应用可以用于播放歌曲,作为一种示例,该设备可以为终端、计算机之类的设备,譬如,该终端可以为手机、平板电脑、智能手表、智能家居设备等,进一步地,该智能家居设备可以包括但不限于智能音响、智能衣柜、智能电视,等等。作为另一种示例,该设备还可以为服务器,进一步地,该服务器可以仅包括一台服务器,或者,也可以为由多台服务器组成的服务器集群,本申请实施例对此不作限定。
在介绍完本申请实施例涉及的执行主体后,接下来将结合附图对本申请实施例提供的确定音高特征的方法进行介绍。
请参考图1,该图1是根据一示例性实施例示出的一种确定音高特征的方法流程图,该方法可以由上述设备来执行,这里以该设备是终端为例进行说明,该确定音高特征的方法可以包括如下几个步骤:
步骤101:提取歌曲中的目标字符的多个第一音高特征值,该目标字符为该歌曲中的任意一个或者多个字符。
作为一种示例,该设备在通过歌曲播放应用播放歌曲的过程中,可以提取歌曲中的目标字符的多个第一音高特征值。
作为另一种示例,该设备可以在接收到音高特征提取指令时,提取歌曲中的目标字符的多个第一音高特征值。譬如,该设备中安装有歌曲播放应用,该歌曲播放应用可以用于播放该歌曲,进一步地,该歌曲播放应用还可以提供有“音高特征提取”选项,当用户想要提取该歌曲中的音高特征时,可以点击该“音高特征提取”选项以触发音高特征提取指令。相应地,该设备接收到该音高特征提取指令后,提取该歌曲中的目标字符的多个第一音高特征值。
通常情况下,歌曲中包括有多个目标字符,当需要提取歌曲的音高特征时,可以分别提取每个目标字符的多个第一音高特征值。进一步地,该多个第一音高特征值中的每个音高特征值对应有一个时间点,该时间点可以用于确定对应的音高特征值所指示的音高特征在该目标字符的所有音高特征中的位置。
其中,该目标字符可以包括一个字符,也可以包括多个字符,也即是,可以以一个字符为粒度进行音高特征值的提取,或者,也可以以多个字符为粒度进行音高特征值的提取。通常情况下,该目标字符包括一个字符,譬如,包括一个汉字或者一个英文单词等,本申请以该目标字符包括一个字符为例进行说明。
作为一种示例,可以采用相关的音高提取算法来提取歌曲中的目标字符的多个第一音高特征值,譬如,该音高提取算法可以为YIN算法、World语音分析算法等,本申请实施例对此不作限定。
作为一种示例,提取歌曲中的目标字符的多个第一音高特征值的具体实现可以包括:从该目标字符中确定清声部分,该清声部分是指不包括音高特征的声母或辅音,提取该目标字符中除该清声部分之外的其他部分的音高特征值,得到该多个第一音高特征值。
也即是,该目标字符中可能会存在不包括音高特征的清声部分。譬如,以该目标字符为汉字为例,该汉字包括声母部分和韵母部分,其中,韵母都具有音高特征,但声母部分有的会有音高特征,有的会没有音高特征,或者说,有的声母部分的音高特征值为0,如s、sh、f等,在这里,将不包括音高特征的部分称为清声部分。再如,若该目标字符为英文单词,则该英文单词的元音部分都具有音高特征,但有的辅音部分没有音高特征,将不包括音高特征的辅音确定为清声部分。
由于该清声部分不具有音高特征,或者说音高特征值为零,所以,在提取该目标字符的多个第一音高特征值时,可以仅对除该清声部分之外的其他部分进行音高特征提取,得到该目标字符的多个第一音高特征值。
步骤102:基于该多个第一音高特征值,确定该目标字符的多个第一乐器数字化接口MIDI音高值。
由于第一音高特征值的数量比较多,譬如,包括200Hz、200.1Hz、200.2Hz等,如此,在后续划分范围时分类较多,比较难确定出数量最多的第一音高特征值,所以,这里对该多个第一音高特征值进行转换,即转换为第一MIDI(Musical Instrument DigitalInterface,乐器数字化接口)音高值,以便于后续可以减小信息分类。
作为一种示例,基于该多个第一音高特征值,可以通过如下公式(1)来确定该目标字符的多个第一MIDI音高值:
步骤103:获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值。
其中,该指定阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不作限定。
其中,该人声范围通常是已知的,这里的人声范围通常是指人唱歌发声的频率范围,其下限通常是指人唱歌能够发出的最小声对应的频率值,其上限通常是指人唱歌能够发出的最大声对应的频率值,譬如,可以预先根据历史经验数据统计得到,通常其取值范围是[65,2000]Hz,为了便于与第一MIDI音高值的比较,可以将其转换为MIDI音高值范围,即通过上述公式(1),可以确定该取值范围对应的MIDI音高值范围为[36,95]。
通常情况下,在唱歌过程中,目标字符的后半部分往往是音高特征比较稳定的部分,即后本部分的音高特征的可靠性比较大,所以,这里获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值。不难理解,该多个第二MIDI音高值的数量小于或等于该多个第一MIDI音高值的数量。
步骤104:根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值。
由于该多个第二MIDI音高值是基于该目标字符的音高特征中比较稳定的部分的音高特征值确定的,所以,可以根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值,如此确定的第二音高特征值对应的第二音高特征比较可靠,即准确度比较高。
作为一种示例,根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值的具体实现可以包括:根据该多个第二MIDI音高值,确定该目标字符的音高范围,将该多个第一音高特征值中处于该音高范围内的第一音高特征值确定为该目标字符的第二音高特征值。
也即是,根据该多个第二MIDI音高值,确定一个比较稳定的音高特征对应的音高范围,然后从该多个第一音高特征值中确定处于该音高范围内的第一音高特征值,得到该目标字符的第二音高特征值,从而确定该目标字符的第二音高特征。
作为一种示例,根据该多个第二MIDI音高值,确定该目标字符的音高范围的具体实现可以包括:确定该多个第二MIDI音高值中的最大值和最小值,将该最小值作为下限、以及将该最大值作为上限,确定第一数值范围,从该多个第一MIDI音高值中筛选属于该第一数值范围的第一MIDI音高值,得到多个第三MIDI音高值,基于该多个第三MIDI音高值,确定该目标字符的音高范围。
即从该多个第二MIDI音高值中选择最大值和最小值,以该最大值为上限、以及以该最小值为下限,确定第一数值范围。譬如,假设该最大值为A,最小值为B,则该第一数值范围为[A,B]。由于该多个第二MIDI音高值对应的音高特征比较稳定,所以可以认为处于该最小值与最大值之间(即该第一数值范围内)的MIDI音高值对应的音高特征比较可靠,因此,设备从该多个第一MIDI音高值中筛选出处于该第一数值范围内的第一MIDI音高值,将筛选出的第一MIDI音高值作为第三MIDI音高值,如此可以得到多个第三MIDI音高值,然后利用该多个第三MIDI音高值来确定该目标字符的音高范围,此时确定的音高范围较为可靠。
作为一种示例,基于该多个第三MIDI音高值,确定该目标字符的音高范围的具体实现可以包括:从该多个第三MIDI音高值中选择数量最多的第三MIDI音高值,将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值,将该第一数值作为上限、以及将该第二数值作为下限,确定第二数值范围,将该第二数值范围转换为该目标字符的音高范围。
其中,该第一指定阈值可以由用户根据实际需求进行设置,或者,也可以由设备默认设置,本申请实施例对此不作限定。
其中,该第二指定阈值可以由用户根据实际需求进行设置,或者,也可以由该设备默认设置,本申请实施例对此不作限定。
另外,该第二指定阈值可以与该第一指定阈值相同,该第二指定阈值也可以与该第一指定阈值不同,本申请实施例对此不做限定。
譬如,当该目标字符为单个字符时,由于一个字符中很少会有跨度一个八度范围,其中,一个八度范围对应的MIDI音高值取值为[0,12],所以,该第一指定阈值的取值范围可以为[0,12],该第二指定阈值的取值范围可以为[0,12]。
进一步地,由于人唱歌往往会不稳定,音高特征会在一到两个MIDI音高值范围内波动,所以,该第一指定阈值的取值范围可以为[3,11],该第二指定阈值的取值范围可以为[3,11]。譬如,该第一指定阈值的取值可以为3,该第二指定阈值的取值可以为3。
在该多个第三MIDI音高值中,当某个第三MIDI音高值的出现次数越多时,说明该某个第三MIDI音高值出现的较为频繁,从而说明该目标字符的大部分音高特征都是该某个第三MIDI音高值对应的音高特征,此时可以基于该某个第三MIDI音高值来确定该音高范围。因此,该设备可以从该多个第三MIDI音高值中选择数量最多的第三MIDI音高值,然后根据所选择的第三MIDI音高值来确定该目标字符的音高范围。
具体地,可以将所选择的第三MIDI音高值与第一指定阈值相加,得到第二数值范围的上限值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值范围的下限值,之后,可以通过如下公式(2)将该上限值和下限值分别转换为对应的音高特征值,将转换后得到的音高特征值分别作为该目标字符的音高范围的上限值和下限值,从而确定该音高范围。
其中,f2表示音高特征值,f3表示MIDI音高值。
在本申请实施例中,提取歌曲中的目标字符的多个第一音高特征值,基于该多个第一音高特征值,确定该目标字符的多个第一MIDI音高值。获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值,也即是,该多个第二MIDI音高值为目标字符的后半部分的音高特征对应的值。由于目标字符的后半部分往往是音高特征比较稳定的部分,即该多个第二MIDI音高值是从音高特征比较稳定的部分中确定的,所以,可以根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值,如此确定的第二音高特征值对应的第二音高特征比较可靠,即准确度比较高。
图2是根据一示例性实施例示出的一种确定音高特征的装置的结构示意图,该确定音高特征的装置可以由软件、硬件或者两者的结合实现。该确定音高特征的装置可以包括:
提取模块210,用于提取歌曲中的目标字符的多个第一音高特征值,所述目标字符为所述歌曲中的任意一个或者多个字符;
第一确定模块220,用于基于所述多个第一音高特征值,确定所述目标字符的多个第一MIDI音高值;
获取模块230,用于获取所述多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值;
第二确定模块240,用于根据所述多个第二MIDI音高值,从所述多个第一音高特征值中确定所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述第二确定模块240用于:
根据所述多个第二MIDI音高值,确定所述目标字符的音高范围;
将所述多个第一音高特征值中处于所述音高范围内的第一音高特征值确定为所述目标字符的第二音高特征值。
在本申请一种可能的实现方式中,所述第二确定模块240用于:
确定所述多个第二MIDI音高值中的最大值和最小值;
将所述最小值作为下限、以及将所述最大值作为上限,确定第一数值范围;
从所述多个第一MIDI音高值中筛选属于所述第一数值范围的第一MIDI音高值,得到多个第三MIDI音高值;
基于所述多个第三MIDI音高值,确定所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述第二确定模块240用于:
从所述多个第三MIDI音高值中选择数量最多的第三MIDI音高值;
将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值;
将所述第一数值作为上限、以及将所述第二数值作为下限,确定第二数值范围;
将所述第二数值范围转换为所述目标字符的音高范围。
在本申请一种可能的实现方式中,所述提取模块210用于:
从所述目标字符中确定清声部分,所述清声部分是指不包括音高特征的声母或辅音;
提取所述目标字符中除所述清声部分之外的其他部分的音高特征值,得到所述多个第一音高特征值。
在本申请实施例中,提取歌曲中的目标字符的多个第一音高特征值,基于该多个第一音高特征值,确定该目标字符的多个第一MIDI音高值。获取该多个第一MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一MIDI音高值,得到多个第二MIDI音高值,也即是,该多个第二MIDI音高值为目标字符的后半部分的音高特征对应的值。由于目标字符的后半部分往往是音高特征比较稳定的部分,即该多个第二MIDI音高值是从音高特征比较稳定的部分中确定的,所以,可以根据该多个第二MIDI音高值,从该多个第一音高特征值中确定该目标字符的第二音高特征值,如此确定的第二音高特征值对应的第二音高特征比较可靠,即准确度比较高。
需要说明的是:上述实施例提供的确定音高特征的装置在确定音高特征时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定音高特征的装置与确定音高特征的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3示出了本申请一个示例性实施例提供的终端300的结构框图。该终端300可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端300包括有:处理器301和存储器302。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的确定音高特征的方法。
在一些实施例中,终端300还可选包括有:外围设备接口303和至少一个外围设备。处理器301、存储器302和外围设备接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口303相连。具体地,外围设备包括:射频电路304、触摸显示屏305、摄像头306、音频电路307、定位组件308和电源309中的至少一种。
外围设备接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,设置终端300的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在终端300的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在终端300的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件306用于采集图像或视频。可选地,摄像头组件306包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器301进行处理,或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路307还可以包括耳机插孔。
定位组件308用于定位终端300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件308可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源309用于为终端300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于:加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。
加速度传感器311可以检测以终端300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号,控制触摸显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器312可以检测终端300的机体方向及转动角度,陀螺仪传感器312可以与加速度传感器311协同采集用户对终端300的3D动作。处理器301根据陀螺仪传感器312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器313可以设置在终端300的侧边框和/或触摸显示屏305的下层。当压力传感器313设置在终端300的侧边框时,可以检测用户对终端300的握持信号,由处理器301根据压力传感器313采集的握持信号进行左右手识别或快捷操作。当压力传感器313设置在触摸显示屏305的下层时,由处理器301根据用户对触摸显示屏305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器314用于采集用户的指纹,由处理器301根据指纹传感器314采集到的指纹识别用户的身份,或者,由指纹传感器314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器314可以被设置终端300的正面、背面或侧面。当终端300上设置有物理按键或厂商Logo时,指纹传感器314可以与物理按键或厂商Logo集成在一起。
光学传感器315用于采集环境光强度。在一个实施例中,处理器301可以根据光学传感器315采集的环境光强度,控制触摸显示屏305的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏305的显示亮度;当环境光强度较低时,调低触摸显示屏305的显示亮度。在另一个实施例中,处理器301还可以根据光学传感器315采集的环境光强度,动态调整摄像头组件306的拍摄参数。
接近传感器316,也称距离传感器,通常设置在终端300的前面板。接近传感器316用于采集用户与终端300的正面之间的距离。在一个实施例中,当接近传感器316检测到用户与终端300的正面之间的距离逐渐变小时,由处理器301控制触摸显示屏305从亮屏状态切换为息屏状态;当接近传感器316检测到用户与终端300的正面之间的距离逐渐变大时,由处理器301控制触摸显示屏305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图3中示出的结构并不构成对终端300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上述实施例提供的确定音高特征的方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的确定音高特征的方法。
图4是本申请实施例提供的一种服务器400的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的方法。
当然,该服务器400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器400还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述实施例提供的方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.一种确定音高特征的方法,其特征在于,所述方法包括:
提取歌曲中的目标字符的多个第一音高特征值,所述目标字符为所述歌曲中的任意一个字符;
基于所述多个第一音高特征值,确定所述目标字符的多个第一乐器数字化接口MIDI音高值;
获取所述多个第一乐器数字化接口MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一乐器数字化接口MIDI音高值,得到多个第二MIDI音高值;
确定所述多个第二MIDI音高值中的最大值和最小值;将所述最小值作为下限、以及将所述最大值作为上限,确定第一数值范围;从所述多个第一乐器数字化接口MIDI音高值中筛选属于所述第一数值范围的第一乐器数字化接口MIDI音高值,得到多个第三MIDI音高值;从所述多个第三MIDI音高值中选择数量最多的第三MIDI音高值;将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值;将所述第一数值作为上限、以及将所述第二数值作为下限,确定第二数值范围;将所述第二数值范围转换为所述目标字符的音高范围;将所述多个第一音高特征值中处于所述音高范围内的第一音高特征值确定为所述目标字符的第二音高特征值。
2.如权利要求1所述的方法,其特征在于,所述提取歌曲中的目标字符的多个第一音高特征值,包括:
从所述目标字符中确定清声部分,所述清声部分是指不包括音高特征的声母或辅音;
提取所述目标字符中除所述清声部分之外的其他部分的音高特征值,得到所述多个第一音高特征值。
3.一种确定音高特征的装置,其特征在于,所述装置包括:
提取模块,用于提取歌曲中的目标字符的多个第一音高特征值,所述目标字符为所述歌曲中的任意一个字符;
第一确定模块,用于基于所述多个第一音高特征值,确定所述目标字符的多个第一乐器数字化接口MIDI音高值;
获取模块,用于获取所述多个第一乐器数字化接口MIDI音高值中时间靠后的指定阈值个属于人声范围内的第一乐器数字化接口MIDI音高值,得到多个第二MIDI音高值;
第二确定模块,用于确定所述多个第二MIDI音高值中的最大值和最小值;将所述最小值作为下限、以及将所述最大值作为上限,确定第一数值范围;从所述多个第一乐器数字化接口MIDI音高值中筛选属于所述第一数值范围的第一乐器数字化接口MIDI音高值,得到多个第三MIDI音高值;从所述多个第三MIDI音高值中选择数量最多的第三MIDI音高值;将所选择的第三MIDI音高值与第一指定阈值相加,得到第一数值,以及将所选择的第三MIDI音高值与第二指定阈值相减,得到第二数值;将所述第一数值作为上限、以及将所述第二数值作为下限,确定第二数值范围;将所述第二数值范围转换为所述目标字符的音高范围;将所述多个第一音高特征值中处于所述音高范围内的第一音高特征值确定为所述目标字符的第二音高特征值。
4.一种设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为通过执行所述指令实现权利要求1-2任一项所述的方法的步骤。
5.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-2任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388447.XA CN111063372B (zh) | 2019-12-30 | 2019-12-30 | 确定音高特征的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388447.XA CN111063372B (zh) | 2019-12-30 | 2019-12-30 | 确定音高特征的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111063372A CN111063372A (zh) | 2020-04-24 |
CN111063372B true CN111063372B (zh) | 2023-01-10 |
Family
ID=70302901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911388447.XA Active CN111063372B (zh) | 2019-12-30 | 2019-12-30 | 确定音高特征的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111063372B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140230B (zh) * | 2021-04-23 | 2023-07-04 | 广州酷狗计算机科技有限公司 | 音符音高值的确定方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS54139307A (en) * | 1978-04-20 | 1979-10-29 | Nec Corp | Pitch extraction unit |
US20070017351A1 (en) * | 2005-07-20 | 2007-01-25 | Acoustic Learning, Inc. | Musical absolute pitch recognition instruction system and method |
JP5454469B2 (ja) * | 2008-05-09 | 2014-03-26 | 富士通株式会社 | 音声認識辞書作成支援装置,処理プログラム,および処理方法 |
CN102541502B (zh) * | 2010-12-25 | 2016-02-03 | 上海量明科技发展有限公司 | 发音字符输出的方法及系统 |
CN105761733A (zh) * | 2016-02-02 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 生成歌词文件的方法和装置 |
JP6988343B2 (ja) * | 2017-09-29 | 2022-01-05 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
CN108257613B (zh) * | 2017-12-05 | 2021-12-10 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
CN108962286B (zh) * | 2018-10-15 | 2020-12-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN110335629B (zh) * | 2019-06-28 | 2021-08-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频文件的音高识别方法、装置以及存储介质 |
CN113140230B (zh) * | 2021-04-23 | 2023-07-04 | 广州酷狗计算机科技有限公司 | 音符音高值的确定方法、装置、设备及存储介质 |
-
2019
- 2019-12-30 CN CN201911388447.XA patent/CN111063372B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111063372A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688082B (zh) | 确定音量的调节比例信息的方法、装置、设备及存储介质 | |
CN108965922B (zh) | 视频封面生成方法、装置和存储介质 | |
CN108538302B (zh) | 合成音频的方法和装置 | |
CN109147757B (zh) | 歌声合成方法及装置 | |
CN109003621B (zh) | 一种音频处理方法、装置及存储介质 | |
CN109065068B (zh) | 音频处理方法、装置及存储介质 | |
CN111061405B (zh) | 录制歌曲音频的方法、装置、设备及存储介质 | |
CN109192218B (zh) | 音频处理的方法和装置 | |
CN108922506A (zh) | 歌曲音频生成方法、装置和计算机可读存储介质 | |
CN108831423B (zh) | 提取音频数据中主旋律音轨的方法、装置、终端及存储介质 | |
CN110266982B (zh) | 在录制视频时提供歌曲的方法和系统 | |
CN109192223B (zh) | 音频对齐的方法和装置 | |
CN109102811B (zh) | 音频指纹的生成方法、装置及存储介质 | |
CN112261491B (zh) | 视频时序标注方法、装置、电子设备及存储介质 | |
CN112086102B (zh) | 扩展音频频带的方法、装置、设备以及存储介质 | |
CN111081277B (zh) | 音频测评的方法、装置、设备及存储介质 | |
CN111092991B (zh) | 歌词显示方法及装置、计算机存储介质 | |
CN110867194B (zh) | 音频的评分方法、装置、设备及存储介质 | |
CN109036463B (zh) | 获取歌曲的难度信息的方法、装置及存储介质 | |
CN110263695B (zh) | 人脸部位的位置获取方法、装置、电子设备及存储介质 | |
CN111063372B (zh) | 确定音高特征的方法、装置、设备及存储介质 | |
CN112118482A (zh) | 音频文件的播放方法、装置、终端及存储介质 | |
CN109388732B (zh) | 音乐地图的生成和显示方法、装置及存储介质 | |
CN111145723A (zh) | 转换音频的方法、装置、设备以及存储介质 | |
CN110992954A (zh) | 语音识别的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |