JP2007110451A - Speech signal adjustment apparatus, speech signal adjustment method, and program - Google Patents
Speech signal adjustment apparatus, speech signal adjustment method, and program Download PDFInfo
- Publication number
- JP2007110451A JP2007110451A JP2005299357A JP2005299357A JP2007110451A JP 2007110451 A JP2007110451 A JP 2007110451A JP 2005299357 A JP2005299357 A JP 2005299357A JP 2005299357 A JP2005299357 A JP 2005299357A JP 2007110451 A JP2007110451 A JP 2007110451A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- audio
- intensity
- data
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000008859 change Effects 0.000 claims abstract description 18
- 230000002123 temporal effect Effects 0.000 claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims description 100
- 238000004458 analytical method Methods 0.000 description 47
- 238000004364 calculation method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 238000010219 correlation analysis Methods 0.000 description 9
- 238000012952 Resampling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、音声信号調整装置、音声信号調整方法及びプログラムに関する。 The present invention relates to an audio signal adjustment device, an audio signal adjustment method, and a program.
音声データを用いて音声を再生する場合、一般に、音声データが表す本来の音声と実際に再生される音声との差異を補正する、再生される音声から雑音を除去する、あるいは本来の音声に聴覚上の特殊効果を付加する、等の目的で、再生される音声の音質の調整が行われる。 When playing back sound using sound data, in general, the difference between the original sound represented by the sound data and the actually reproduced sound is corrected, noise is removed from the reproduced sound, or the original sound is audibly heard. The sound quality of the reproduced sound is adjusted for the purpose of adding the above special effect or the like.
音質の調整は、従来は、イコライザを備えた音声再生装置にテスト用の音声データを用いて音声を再生させ、再生された音声を受信して、受信された音声の波形とテスト用の音声データが表す波形との差異に基づいてイコライザの周波数特性を決定し、決定した通りの周波数特性となるようにイコライザを操作することによって行っていた(例えば、特許文献1参照)。なお、テスト用の音声データとしては、例えばインパルス波形やスイープ波形を表すものが用いられていた。
しかし、従来のイコライザは構成が複雑であり製造コストが大きかった。また、決定した通りになるよう正確に周波数特性を変化させるイコライザは構成が複雑となり、これを製造することは技術的にも経済的にも困難であった。また、テスト用の音声としてインパルス波形を使うと、再生される音声の帯域が極めて広くなるため、その周波数特性を正確に特定しにくく、従ってイコライザの周波数特性の決定結果が不適切になりやすい。また、テスト用の音声としてスイープ波形を使うと、再生される音声の周波数特性の特定に長時間が必要になる。 However, the conventional equalizer has a complicated configuration and a high manufacturing cost. In addition, an equalizer that changes the frequency characteristic accurately so as to be determined has a complicated structure, and it is difficult to manufacture this equalizer both technically and economically. In addition, when an impulse waveform is used as a test sound, the reproduced sound band becomes extremely wide, so that it is difficult to accurately specify the frequency characteristic, and therefore, the determination result of the frequency characteristic of the equalizer tends to be inappropriate. Further, when a sweep waveform is used as a test sound, it takes a long time to specify the frequency characteristics of the reproduced sound.
この発明は、上記実状に鑑みてなされたものであり、簡単、高速あるいは正確に音質の調整を行うための音声信号調整装置、音声信号調整方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide an audio signal adjustment device, an audio signal adjustment method, and a program for adjusting sound quality simply, at high speed or accurately.
上記目的を達成するため、この発明の第1の観点に係る音声信号調整装置は、
音声の基本周波数成分又は高調波成分の強度の時間変化を表す音声信号からなる音声信号群を外部より取得する音声信号取得手段と、
前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を変更する音声信号調整手段と、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する波形生成手段と、を備える、
ことを特徴とする。
In order to achieve the above object, an audio signal adjustment device according to a first aspect of the present invention is provided.
Audio signal acquisition means for acquiring an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of audio from the outside;
An audio signal adjustment unit that changes the intensity of an audio signal included in the audio signal group acquired by the audio signal acquisition unit;
Waveform generating means for generating a signal representing a waveform of a voice represented by the voice signal group based on the voice signal group whose intensity of the voice signal is changed,
It is characterized by that.
前記音声信号調整装置は、前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度の変更の態様を指定する指定データを外部より取得する指定データ取得手段を更に備えてもよい。
この場合、前記音声信号調整手段は、前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を、前記指定データ取得手段が取得した指定データが指定する態様で変更するものであってもよい。
The audio signal adjustment device may further include designation data acquisition means for acquiring from the outside specification data for specifying a mode of changing the intensity of the audio signal included in the audio signal group acquired by the audio signal acquisition means.
In this case, the audio signal adjusting unit changes the intensity of the audio signal included in the audio signal group acquired by the audio signal acquiring unit in a manner specified by the specified data acquired by the specified data acquiring unit. May be.
前記音声信号調整装置は、音声を受音し、当該音声の波形を表す加工対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表す校正用音声信号からなる校正用音声信号群を生成する校正用音声信号生成手段を更に備えてもよい。
この場合、前記音声信号調整手段は、前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度の変更後の値を、当該音声信号の強度、及び、当該音声信号と実質的に同一の周波数の成分を表す前記校正用音声信号の強度に基づいて決定し、決定結果に従って当該音声信号の強度を変更するものであってもよい。
The audio signal adjusting device receives a sound, and includes a calibration audio signal group including a calibration audio signal representing a temporal change in intensity of a fundamental frequency component and a harmonic component of an audio signal to be processed that represents a waveform of the audio. May further comprise a calibration audio signal generating means for generating
In this case, the audio signal adjustment unit substantially changes the intensity of the audio signal included in the audio signal group acquired by the audio signal acquisition unit to the intensity of the audio signal and the audio signal. It may be determined based on the intensity of the calibration audio signal representing the component of the same frequency, and the intensity of the audio signal may be changed according to the determination result.
前記校正用音声信号生成手段は、
受音した音声の波形を表す信号を生成し、当該信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該信号をピッチ波形信号へと加工する手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表す信号を、前記校正用音声信号として生成する手段と、を備えていてもよい。
The calibration audio signal generation means includes:
Means for generating a signal representing the waveform of the received sound and processing the signal into a pitch waveform signal by making the time lengths of the sections corresponding to the unit pitch of the signal substantially the same;
And means for generating a signal representing a temporal change in intensity of the fundamental frequency component and the harmonic component of the pitch waveform signal as the calibration audio signal.
また、この発明の第2の観点に係る音声信号調整方法は、
音声の基本周波数成分又は高調波成分の強度の時間変化を表す音声信号からなる音声信号群を外部より取得し、
取得した音声信号群に含まれる音声信号の強度を変更し、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する、
ことを特徴とする。
An audio signal adjustment method according to the second aspect of the present invention is as follows.
Obtain an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of the audio from the outside,
Change the intensity of the audio signal included in the acquired audio signal group,
Based on the audio signal group in which the intensity of the audio signal is changed, a signal representing the waveform of the audio represented by the audio signal group is generated.
It is characterized by that.
また、この発明の第3の観点に係るプログラムは、
コンピュータを、
音声の基本周波数成分又は高調波成分の強度の時間変化を表す音声信号からなる音声信号群を外部より取得する音声信号取得手段と、
前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を変更する音声信号調整手段と、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する波形生成手段と、
して機能させるためのものであることを特徴とする。
A program according to the third aspect of the present invention is:
Computer
Audio signal acquisition means for acquiring an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of audio from the outside;
An audio signal adjustment unit that changes the intensity of an audio signal included in the audio signal group acquired by the audio signal acquisition unit;
A waveform generating means for generating a signal representing a waveform of a voice represented by the voice signal group based on the voice signal group in which the intensity of the voice signal is changed;
It is for making it function.
この発明によれば、簡単、高速あるいは正確に音質の調整を行うための音声信号調整装置、音声信号調整方法及びプログラムが実現される。 According to the present invention, an audio signal adjustment device, an audio signal adjustment method, and a program for adjusting sound quality simply, quickly, or accurately are realized.
以下、この発明の実施の形態を、音質調整装置を例とし、図面を参照して説明する。
図1は、この音質調整装置の構成を示す図である。図示するように、この音質調整装置は、サブバンドデータ入力部1と、音質指定データ入力部2と、校正用データ生成部3と、音質調整部4と、音声再生部5とより構成されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings, taking a sound quality adjusting device as an example.
FIG. 1 is a diagram showing a configuration of the sound quality adjusting device. As shown in the figure, this sound quality adjusting device is composed of a subband
サブバンドデータ入力部1は、例えば、記録媒体(例えば、フレキシブルディスクやMO(Magneto Optical disk)など)に記録されたデータを読み取る記録媒体ドライバ(フレキシブルディスクドライブや、MOドライブなど)や、あるいは、USB(Universal Serial Bus)インターフェース回路等からなり外部とのデータ交換を制御する通信制御装置などからなっている。
The subband
サブバンドデータ入力部1は、音声を表すサブバンドデータ群を取得し、音質調整部4に供給する。サブバンドデータ群は、音声の基本周波数成分の強度の時間変化を表す0番目のサブバンドデータと、この音声のn個(nは自然数)の高調波成分の強度の時間変化を表す1番目〜n番目までのn個のサブバンドデータとを含むデータである。それぞれのサブバンドデータは、音声の基本周波数成分(又は高調波成分)の強度の時間変化がないとき、基本周波数成分(又は高調波成分)の強度を、直流信号の形で表す。
The subband
また、当該サブバンドデータ群が表す音声が、その単位ピッチ分にあたる各区間を移相することにより、各区間の位相を揃えられたものである場合、サブバンドデータ入力部1は、当該サブバンドデータ群が表す音声についてのピッチ情報を取得可能であれば、このピッチ情報も取得し、音声再生部5に供給する。ピッチ情報は、当該サブバンドデータ群が表す音声の各区間の長さ(ピッチ長)の本来の値を表す情報である。
In addition, when the sound represented by the subband data group is one in which the phase of each section is aligned by shifting each section corresponding to the unit pitch, the subband
音質指定データ入力部2は、例えば、キーボード、ポインティングデバイス等の入力装置と、CPU(Digital Signal Processor)等のプロセッサとより構成されている。音質指定データ入力部2は、音質指定データを入力する操作が操作者によってなされれば、この操作に従って、音質指定データを取得する。そして、取得した音質指定データを、音質調整部4に供給する。
The sound quality designation
音質指定データは、サブバンドデータ入力部1が取得したサブバンドデータ群を構成するそれぞれのサブバンドデータの強度をどのように変更すべきかを指定するデータであり、たとえば、それぞれのサブバンドデータが表す成分の強度に乗じるべき係数を表すデータからなっている。
The sound quality designation data is data for designating how the intensity of each subband data constituting the subband data group acquired by the subband
校正用データ生成部3は、校正用音声入力部31と、ピッチ抽出部32と、サブバンド解析部33とより構成されている。
The calibration
校正用音声入力部31は、マイクロフォンなどからなる受音装置や、AF(Audio Frequency)増幅器、サンプラー、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどより構成されている。校正用音声入力部31は、自己のマイクロフォンが受音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号を表す校正用音声データを生成して、ピッチ抽出部32へと供給する。
The calibration audio input unit 31 includes a sound receiving device including a microphone, an AF (Audio Frequency) amplifier, a sampler, an A / D (Analog-to-Digital) converter, a PCM encoder, and the like. The calibration voice input unit 31 amplifies a voice signal representing voice received by its own microphone, performs sampling and A / D conversion, and then generates calibration voice data representing the sampled voice signal. This is supplied to the
なお、校正用音声データは、たとえば、PCM(Pulse Code Modulation)変調されたディジタル信号の形式を有していればよく、校正用音声入力部31が受音した音声を、そのピッチより十分短い一定の周期でサンプリングした結果を表すものとなっていればよい。 Note that the calibration voice data only needs to have, for example, a PCM (Pulse Code Modulation) modulated digital signal format, and the voice received by the calibration voice input unit 31 is a constant sufficiently shorter than the pitch. It suffices to represent the result of sampling at a period of.
ピッチ抽出部32及びサブバンド解析部33は、いずれも、DSP(Digital Signal Processor)やCPU等のプロセッサと、RAM(Random Access Memory)等のメモリとより構成されている。なお、単一のプロセッサや単一のメモリがピッチ抽出部32及びサブバンド解析部33の一部又は全部の機能を行うようにしてもよい。また、音質指定データ入力部2の機能を行うプロセッサがピッチ抽出部32及びサブバンド解析部33の一部又は全部の機能を共通して行うようにしてもよい。
Each of the
ピッチ抽出部32は、機能的には、たとえば図2に示すように、ケプストラム解析部321と、自己相関解析部322と、重み計算部323と、BPF(Band Pass Filter:バンドパスフィルタ)係数計算部324と、バンドパスフィルタ325と、ゼロクロス解析部326と、波形相関解析部327と、位相調整部328と、リサンプリング部329とより構成されている。
The function of the
なお、単一のプロセッサや単一のメモリがケプストラム解析部321、自己相関解析部322、重み計算部323、BPF(Band Pass Filter)係数計算部324、バンドパスフィルタ325、ゼロクロス解析部326、波形相関解析部327、位相調整部328及びリサンプリング部329の一部又は全部の機能を行うようにしてもよい。
A single processor or a single memory includes a
ケプストラム解析部321は、校正用音声入力部31より供給される校正用音声データにケプストラム分析を施すことにより、この校正用音声データが表す音声の基本周波数及びフォルマント周波数を特定する。そして、特定した基本周波数を示すデータを生成して重み計算部323へと供給し、また、特定したフォルマント周波数を示すデータを生成してサブバンド解析部33へと供給する。
The
具体的には、ケプストラム解析部321は、校正用音声入力部31より校正用音声データを供給されると、まず、この校正用音声データのスペクトルを、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
Specifically, when the
次に、ケプストラム解析部321は、求められたスペクトルの各成分の強度を、それぞれの元の値の対数にあたる値へと変換する。(対数の底は任意であり、例えば常用対数などでよい。)
次に、ケプストラム解析部321は、値が変換されたスペクトルに逆フーリエ変換を施した結果(すなわち、ケプストラム)を、高速逆フーリエ変換の手法(あるいは、離散的変数を逆フーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
Next, the
Next, the
そして、ケプストラム解析部321は、得られたケプストラムに基づいて、このケプストラムが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部323へと供給する。
具体的には、ケプストラム解析部321は、例えば、得られたケプストラムをフィルタリング(すなわちリフタリング)することにより、このケプストラムのうち所定のケフレンシ以上の周波数成分(長成分)を抽出し、抽出された長成分ピークの位置に基づいて基本周波数を特定すればよい。
Then, based on the obtained cepstrum, the
Specifically, the
自己相関解析部322は、校正用音声入力部31より校正用音声データを供給されると、校正用音声データの波形の自己相関関数に基づく解析を行うことにより、この校正用音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部323へと供給する。
When the
具体的には、自己相関解析部322は、校正用音声入力部31より校正用音声データを供給されるとまず、数式1の右辺により表される自己相関関数r(l)を特定する。
Specifically, when the
次に、自己相関解析部322は、自己相関関数r(l)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部323へと供給する。
Next, the
重み計算部323は、ケプストラム解析部321及び自己相関解析部322より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部324へと供給する。
When the weight calculation unit 323 is supplied with a total of two pieces of data indicating the fundamental frequency one by one from the
BPF係数計算部324は、平均ピッチ長を示すデータを重み計算部323より供給され、ゼロクロス解析部326より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(バンドパスフィルタ325の通過帯域の中央の周波数)とするように、バンドパスフィルタ325の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィルタ325の周波数特性を制御する。
When the BPF coefficient calculation unit 324 is supplied with data indicating the average pitch length from the weight calculation unit 323 and is supplied with a zero cross signal described later from the zero
バンドパスフィルタ325は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、バンドパスフィルタ325は、自己の中心周波数を、BPF係数計算部324の制御に従った値に設定する。そして、校正用音声入力部31より供給される校正用音声データをフィルタリングして、フィルタリングされた校正用音声データ(ピッチ信号)を、ゼロクロス解析部326及び波形相関解析部327へと供給する。ピッチ信号は、校正用音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。なお、バンドパスフィルタ325の帯域幅は、バンドパスフィルタ325の通過帯域の上限が校正用音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
The band pass filter 325 performs a function of a FIR (Finite Impulse Response) type filter having a variable center frequency.
Specifically, the bandpass filter 325 sets its center frequency to a value according to the control of the BPF coefficient calculation unit 324. Then, the calibration voice data supplied from the calibration voice input unit 31 is filtered, and the filtered calibration voice data (pitch signal) is supplied to the zero
ゼロクロス解析部326は、バンドパスフィルタ325から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部324へと供給する。
ただし、ゼロクロス解析部326は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部324へと供給するようにしてもよい。
The zero-
However, the zero
波形相関解析部327は、校正用音声入力部31より校正用音声データを供給されると、バンドパスフィルタ325より供給されたピッチ信号の単位周期(例えば1周期)の境界が来るタイミングでこの校正用音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の校正用音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの校正用音声データの位相を、この区間内の校正用音声データの位相として特定する。
When the waveform
具体的には、波形相関解析部327は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、波形相関解析部327は、値corが最大になるようなφの値Ψを特定し、値Ψを示すデータを生成して、この区間内の校正用音声データの位相を表す位相データとして位相調整部328に供給する。
Specifically, the waveform
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて校正用ピッチ波形データ(後述)のデータ量が増大し、あるいは、サンプリング間隔が増大して校正用ピッチ波形データが表す音声が不正確になる、という問題が生じる。 Note that the time length of the section is preferably about one pitch. The longer the interval, the greater the number of samples in the interval and the amount of calibration pitch waveform data (described later) increases, or the sampling interval increases and the voice represented by the calibration pitch waveform data becomes inaccurate. The problem arises.
位相調整部328は、校正用音声入力部31より校正用音声データを供給され、波形相関解析部327より校正用音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の校正用音声データの位相を(−Ψ)だけ移相することにより、各区間の位相を揃える。そして、移相された校正用音声データ(校正用ピッチ波形データ)をリサンプリング部329に供給する。
When the
リサンプリング部329は、位相調整部328より供給された校正用音声データの各区間をサンプリングし直し(リサンプリングし)、リサンプリングされた校正用ピッチ波形データを、サブバンド解析部33に供給する。
The
ただし、リサンプリング部329は、校正用音声データの各区間のサンプル数が互いにほぼ等しい一定数になるようにして、同一区間内では等間隔になるようリサンプリングする。サンプル数がこの一定数に満たない区間については、時間軸上で隣接するサンプル間を所定の手法(例えば、ラグランジェ補間)により補間するような値を有するサンプルを追加することにより、この区間のサンプル数をこの一定数に揃える。
However, the
サブバンド解析部33は、リサンプリング部329より供給された校正用ピッチ波形データにDCT(Discrete Cosine Transform)等の直交変換を施すことにより、校正用サブバンドデータ群を生成して、生成した校正用サブバンドデータ群を、音質調整部4へと供給する。
校正用サブバンドデータ群は、サブバンド解析部33に供給された校正用ピッチ波形データが表す音声の基本周波数成分の強度の時間変化を表す0番目の校正用サブバンドデータと、この音声のn個(nは上述の自然数)の高調波成分の強度の時間変化を表す1番目〜n番目までのn個の校正用サブバンドデータとを含むデータである。
The subband analysis unit 33 generates a calibration subband data group by performing orthogonal transformation such as DCT (Discrete Cosine Transform) on the calibration pitch waveform data supplied from the
The calibration subband data group includes zeroth calibration subband data representing the temporal change in intensity of the fundamental frequency component of the voice represented by the calibration pitch waveform data supplied to the subband analysis unit 33, and n of this voice. This is data including the first to n-th calibration subband data representing the time change of the intensity of the harmonic components (n is the above-mentioned natural number).
音質調整部4は、サブバンドデータ群をサブバンドデータ入力部1より供給され、また、校正用サブバンドデータ群を校正用データ生成部3のサブバンド解析部33より供給されると、サブバンドデータ群内のk番目(kは0以上n以下の整数)のサブバンドデータの強度が数式3に示す値Y(k)になるように、サブバンドデータ群内の各サブバンドデータを変更する。そして、値を変更されたサブバンドデータ群をサブバンド合成部51に供給する。
When the sound
(数3)
Y(k)={α・X(k)}2/{R(k)}
(ただし、X(k)はサブバンドデータ群内のk番目のサブバンドデータの変更前の強度、R(k)は校正用サブバンドデータ群内のk番目のサブバンドデータの強度、αは所定の比例係数)
(Equation 3)
Y (k) = {α · X (k)} 2 / {R (k)}
(Where X (k) is the intensity before the change of the kth subband data in the subband data group, R (k) is the intensity of the kth subband data in the calibration subband data group, and α is Predetermined proportionality factor)
音声再生部5が再生した音声を校正用データ生成部3が受音するようにした場合において、音質調整部4から音声再生部5へと供給されたサブバンドデータ群が表す音声が音声再生部5により再生されてから、当該音声を表す校正用サブバンドデータ群が生成され音質調整部4に供給されるまでの時間長が無視できる程度に短く、また、R(k)がY(k)に比例するとみなせる、という条件下では、Y(k)の値は実質的に、{α・X(k)}に比例する値へと調整される。(ただし、音質指定データは音質指定データ入力部2より供給されてないものとする。)
When the calibration
ただし、音質調整部4は、音質指定データを音質指定データ入力部2より供給されている場合は、値を変更した後のサブバンドデータ群内の各サブバンドデータの強度を、音質指定データが指定する強度へと更に変更することにより、サブバンドデータ群が全体として表す音声の音質を調整する。たとえば、音質指定データが、当該サブバンドデータが表す成分の強度に乗じるべき係数を表すものであれば、当該成分の強度と当該係数との積が新たな強度となるように、当該サブバンドデータの強度を変更する。そして、強度を更に変更されることにより音質の調整を受けたサブバンドデータ群を、サブバンド合成部51に供給する。
However, when the sound quality designation data is supplied from the sound quality designation
音声再生部5は、サブバンド合成部51と、音声波形復元部52と、音声出力部53とより構成されている。
このうち、サブバンド合成部51及び音声波形復元部52は、いずれも、DSPやCPU等のプロセッサと、RAM等のメモリとより構成されている。なお、単一のプロセッサや単一のメモリがサブバンド合成部51及び音声波形復元部52の一部又は全部の機能を行うようにしてもよい。また、音質指定データ入力部2、ピッチ抽出部32及びサブバンド解析部33の一部又は全部の機能を行うプロセッサが、サブバンド合成部51及び音声波形復元部52の一部又は全部の機能を共通して行うようにしてもよい。
The
Of these, each of the subband synthesizing unit 51 and the speech
サブバンド合成部51は、サブバンドデータ群を音質調整部4より供給されると、このサブバンドデータ群に変換を施すことにより、このサブバンドデータ群により各周波数成分の強度が表されるピッチ波形データ(すなわち、音声の単位ピッチ分にあたる各区間を移相することにより、各区間の位相を揃えられた音声データ)、又は各区間の位相を揃える処理を経ていない音声データを復元し、復元されたピッチ波形データ又は音声データを、音声波形復元部52へと供給する。
When the subband data unit 51 is supplied with the subband data group from the sound
サブバンド合成部51がサブバンドデータ群に施す変換は、サブバンドデータ入力部1が取得したサブバンドデータ群を生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。従って、たとえばこのサブバンドデータ群がピッチ波形データにDCTを施して生成されたものである場合、サブバンド合成部51は、このサブバンドデータ群にIDCT(Inverse DCT)を施すようにすればよい。
The conversion performed by the subband synthesizing unit 51 on the subband data group is substantially inversely related to the conversion performed on the audio data in order to generate the subband data group acquired by the subband
音声波形復元部52は、サブバンド合成部51より供給されたデータがピッチ波形データであれば、当該ピッチ波形データの各区間の時間長を、サブバンドデータ入力部1より供給されるピッチ情報が示す時間長になるよう変更する。区間の時間長の変更は、たとえば区間内にあるサンプルの間隔及び/又はサンプル数を変更することにより行えばよい。そして、音声波形復元部52は、各区間の時間長を変更されたピッチ波形データ(すなわち、復元された音声を表す音声データ)を音声出力部53へと供給する。
一方、音声波形復元部52は、サブバンド合成部51より供給されたデータが、各区間の位相を揃える処理を経ていない音声データであれば、当該音声データを、復元された音声を表す音声データであるものとして音声出力部53へと供給する。
If the data supplied from the subband synthesis unit 51 is pitch waveform data, the speech
On the other hand, if the data supplied from the subband synthesizing unit 51 is audio data that has not undergone the process of aligning the phases of the sections, the audio
音声出力部53は、たとえば、PCMデコーダの機能を行う制御回路と、D/A(Digital-to-Analog)コンバータと、AF(Audio Frequency)増幅器と、スピーカ等とを備えている。
音声出力部53は、音声波形復元部52より、復元された音声を表す音声データを供給されると、これらの音声データを復調し、D/A変換及び増幅を行い、得られたアナログ信号を用いてスピーカを駆動することにより、音声を再生する。
The audio output unit 53 includes, for example, a control circuit that functions as a PCM decoder, a D / A (Digital-to-Analog) converter, an AF (Audio Frequency) amplifier, a speaker, and the like.
When the voice output unit 53 is supplied with voice data representing the restored voice from the voice
音声再生部5が再生した音声を校正用データ生成部3が受音する、という条件の下で以上説明した動作を行うことにより、この音質調整装置は、サブバンドデータが表す音声の音質を調整する。
By performing the operation described above under the condition that the calibration
音質の調整は、サブバンドデータが表す成分の強度を変更する形で行われるものであり、一方、サブバンドデータは、音声の基本周波数成分又は高調波成分の強度の時間変化が特に急峻でない限り直流信号とみなせるものであるから、この音質調整装置の構成は簡単なものとでき、容易に製造することができる。 The sound quality adjustment is performed by changing the intensity of the component represented by the subband data. On the other hand, the subband data is used unless the temporal change in the intensity of the fundamental frequency component or the harmonic component of the sound is particularly steep. Since it can be regarded as a DC signal, the configuration of the sound quality adjusting device can be simple and can be easily manufactured.
また、直流信号とみなせるサブバンドデータの強度を変更する処理は、有限次数のフィルタによるフィルタリングとは異なり、所望の特性を正確に得られるものであるから、音質の調整は正確に行われる。 In addition, the processing for changing the intensity of the subband data that can be regarded as a DC signal is different from filtering by a finite-order filter and can accurately obtain a desired characteristic, so that the sound quality is accurately adjusted.
また、この音質調整装置は、外部から取得する任意のサブバンドデータに基づいて自らが再生する音声をテスト用の音声として用いることができるので、所定のテスト用信号を用いて音質の調整を行うために時間を割く必要はなく、本来再生したい音声を再生させながら音質の調整を行わせることが可能である。 In addition, since the sound quality adjusting apparatus can use the sound reproduced by itself based on arbitrary subband data acquired from the outside as the test sound, the sound quality is adjusted using a predetermined test signal. Therefore, it is not necessary to spend time, and it is possible to adjust the sound quality while reproducing the sound originally desired to be reproduced.
なお、この音質調整装置の構成は上述のものに限られない。
たとえば、この音質調整装置は、必ずしも音質指定データ入力部2及び校正用データ生成部3の両方を備えていなくてもよい。なお、この音質調整装置が校正用データ生成部3を備えない場合(又は、校正用データ生成部3より校正用サブバンドデータが供給されない場合)、音質調整部4は、サブバンドデータ入力部1より供給されたサブバンドデータ群を、サブバンドデータの値を変更済みのサブバンドデータ群であるものとして扱えばよい。そして、当該サブバンドデータ群内の各サブバンドデータの強度を、音質指定データが指定する強度へと直ちに変更すればよい。
The configuration of the sound quality adjusting device is not limited to the above.
For example, the sound quality adjusting apparatus does not necessarily include both the sound quality designation
また、サブバンドデータ入力部1は、電話回線、専用回線、衛星回線等の通信回線を介して外部よりサブバンドデータを取得するようにしてもよい。この場合、サブバンドデータ入力部1は、例えばモデム等からなる通信制御装置を備えていればよい。
同様に、音質指定データ入力部2が通信制御装置を備えていてもよく、通信回線を介して外部より音質指定データを取得するようにしてもよい。
なお、1個の記録媒体ドライブ装置や通信制御装置がサブバンドデータ入力部1及び音質指定データ入力部2の機能を兼ねて行ってもよい。
The subband
Similarly, the sound quality designation
Note that one recording medium drive device or communication control device may perform the functions of the subband
また、ピッチ抽出部32は、ケプストラム解析部321(又は自己相関解析部322)を備えていなくてもよく、この場合、重み計算部323は、ケプストラム解析部321(又は自己相関解析部322)が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
また、波形相関解析部327は、バンドパスフィルタ325から供給されたピッチ信号を、そのままゼロクロス信号としてケプストラム解析部321へと供給するようにしてもよい。
In addition, the
Further, the waveform
また、音質調整部4は、サブバンドデータをフィルタリングしてその交流成分を実質的に除去することにより、当該サブバンドデータから雑音を除去するようにしてもよい。
Further, the sound
以上、この発明の実施の形態を説明したが、この発明にかかる音声信号調整装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、マイクロホン、サンプリング回路、A/D変換器、D/A変換器、スピーカ等を備えたパーソナルコンピュータに上述のサブバンドデータ入力部1、音質指定データ入力部2、校正用データ生成部3、音質調整部4及び音声再生部5の動作を実行させるためのプログラムを格納した媒体(CD−ROM、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音質調整装置を構成することができる。
Although the embodiment of the present invention has been described above, the audio signal adjusting apparatus according to the present invention can be realized using a normal computer system, not a dedicated system.
For example, a personal computer including a microphone, a sampling circuit, an A / D converter, a D / A converter, a speaker, etc. is connected to the above-described subband
そして、このプログラムを実行する上述のパーソナルコンピュータが、図1の音声調整装置の動作に相当する処理として、図3〜図4に示す処理を行うものとする。図3〜図4は、このパーソナルコンピュータが実行する処理を示すフローチャートである。 The above-described personal computer that executes this program performs the processing shown in FIGS. 3 to 4 as processing corresponding to the operation of the sound adjustment device of FIG. 3 to 4 are flowcharts showing processing executed by the personal computer.
すなわち、まず、このパーソナルコンピュータが、外部より、上述のサブバンドデータ群を取得し(図3、ステップS101)、また、当該サブバンドデータ群が表す音声が、その単位ピッチ分にあたる各区間を移相することにより、各区間の位相を揃えられたものであって、当該サブバンドデータ群が表す音声についてのピッチ情報を取得可能であれば、このピッチ情報も取得する(ステップS101)。また、このパーソナルコンピュータは、音質指定データを入力する操作が操作者によってなされれば、この操作に従って、音質指定データを取得する(ステップS101)。 That is, first, the personal computer acquires the above-described subband data group from the outside (step S101 in FIG. 3), and the voice represented by the subband data group moves through each section corresponding to the unit pitch. If the phase information of the sections is aligned and the pitch information about the voice represented by the subband data group can be acquired, the pitch information is also acquired (step S101). In addition, if the operator performs an operation for inputting the sound quality designation data, the personal computer acquires the sound quality designation data according to this operation (step S101).
その一方で、このパーソナルコンピュータは、音声を受音してサンプリングし、A/D変換することにより、デジタル形式の校正用音声データを生成する(ステップS102)。そしてこの校正用音声データをフィルタリングすることにより、フィルタリングされた校正用音声データ(ピッチ信号)を生成する(ステップS103)。 On the other hand, the personal computer receives and samples the voice, samples and performs A / D conversion, thereby generating digital-format calibration voice data (step S102). Then, the calibration voice data is filtered to generate filtered calibration voice data (pitch signal) (step S103).
なお、このパーソナルコンピュータは、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)とに基づくフィードバック処理を行うことにより決定する。 In addition, this personal computer performs feedback processing based on the pitch length described later and the time when the instantaneous value of the pitch signal becomes zero (the time when zero crossing is performed), as the characteristics of filtering performed to generate the pitch signal. decide.
すなわち、このパーソナルコンピュータは、受音して生成した音声データに、例えば、上述したケプストラム解析、あるいは、上述した自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値(すなわち、ピッチ長)を求める(ステップS104)。(あるいは、このパーソナルコンピュータは、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を2個特定し、これら2個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。) That is, the personal computer specifies the fundamental frequency of the voice represented by the voice data by performing, for example, the cepstrum analysis described above or the analysis based on the autocorrelation function described above on the voice data generated by receiving the sound. Then, the absolute value (that is, the pitch length) of the reciprocal of the fundamental frequency is obtained (step S104). (Alternatively, this personal computer specifies two fundamental frequencies by performing both cepstrum analysis and analysis based on an autocorrelation function, and calculates the average of the absolute values of the reciprocals of these two fundamental frequencies as the pitch length. It may be.)
一方、このパーソナルコンピュータは、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する(ステップS105)。そして、このパーソナルコンピュータは、ピッチ長とピッチ信号のゼロクロスの周期とが互いに所定量以上異なっているか否かを判別し(ステップS106)、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS107)。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS108)。 On the other hand, this personal computer specifies the timing when the time at which the pitch signal crosses zero (step S105). The personal computer determines whether the pitch length and the zero crossing period of the pitch signal are different from each other by a predetermined amount or more (step S106). If it is determined that they are not different, the reciprocal of the zero crossing period is set. It is assumed that the above-described filtering is performed with the characteristics of the bandpass filter that sets the center frequency (step S107). On the other hand, if it is determined that they differ by a predetermined amount or more, the above-described filtering is performed with the characteristics of the bandpass filter such that the reciprocal of the pitch length is the center frequency (step S108).
次に、このパーソナルコンピュータは、生成したピッチ信号の単位周期の境界が来るタイミング(具体的には、ピッチ信号がゼロクロスするタイミング)で、記録媒体から読み出した音声データを区切る(ステップS109)。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する(図4、ステップS110)。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相することにより、校正用ピッチ波形データを生成する(ステップS111)。具体的には、このパーソナルコンピュータは、それぞれの区間についてステップS110で上述の値Ψを特定し、当該区間内の音声データを、ステップS111で(−Ψ)だけ移相する。 Next, the personal computer divides the audio data read from the recording medium at the timing when the unit period boundary of the generated pitch signal comes (specifically, the timing at which the pitch signal crosses zero) (step S109). Then, for each of the sections that can be divided, the correlation between the variously changed phases of the audio data in this section and the pitch signal in this section is obtained, and the phase of the audio data when the correlation becomes the highest is obtained. The phase of the audio data in this section is specified (FIG. 4, step S110). Then, the pitch waveform data for calibration is generated by shifting the respective sections of the audio data so as to have substantially the same phase (step S111). Specifically, the personal computer specifies the above-described value Ψ in step S110 for each section, and shifts the audio data in the section by (−Ψ) in step S111.
次に、このパーソナルコンピュータは、校正用ピッチ波形データの各区間をリサンプリングする(ステップS112)。なお、このパーソナルコンピュータは、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとすればよい。サンプル数がこの一定数に満たない区間については、時間軸上で隣接するサンプル間を所定の手法により補間するような値を有するサンプルを追加することにより、この区間のサンプル数をこの一定数に揃えればよい。 Next, the personal computer resamples each section of the calibration pitch waveform data (step S112). This personal computer may be resampled so that the number of samples in each section of the pitch waveform data is substantially equal to each other, and is equally spaced within the same section. For the interval where the number of samples is less than this fixed number, the number of samples in this interval is set to this fixed number by adding a sample having a value that interpolates between adjacent samples on the time axis by a predetermined method. Just do it.
次に、このパーソナルコンピュータは、校正用ピッチ波形データに直交変換を施すことにより、校正用サブバンドデータ群を生成する(ステップS113)。そして、ステップS101で取得したサブバンドデータ群内のk番目のサブバンドデータの変更前の強度をX(k)、ステップS113で生成された校正用サブバンドデータ群内のk番目のサブバンドデータの強度をR(k)として、ステップS101で取得したサブバンドデータ群内のk番目のサブバンドデータの強度が数式3に示す上述の値Y(k)になるように、サブバンドデータ群内の各サブバンドデータを変更し(ステップS114)、ステップS116に処理を進める。なお、このパーソナルコンピュータは、校正用サブバンドデータ群をまだ作成していない状態では、ステップS101で取得したサブバンドデータ群を、ステップS114の処理を経たものとして扱えばよい。
Next, the personal computer generates a calibration subband data group by performing orthogonal transformation on the calibration pitch waveform data (step S113). Then, the intensity before the change of the kth subband data in the subband data group acquired in step S101 is X (k), and the kth subband data in the calibration subband data group generated in step S113. In the subband data group so that the intensity of the k-th subband data in the subband data group acquired in step S101 becomes the above-described value Y (k) shown in
次にこのパーソナルコンピュータは、音質指定データも取得している場合、ステップS114で値を変更した後のサブバンドデータ群内の各サブバンドデータの強度を、音質指定データが指定する強度へと更に変更することにより、サブバンドデータ群が全体として表す音声の音質を調整して(ステップS115)、ステップS116に処理を進める。 Next, when the sound quality designation data is also acquired, this personal computer further converts the intensity of each subband data in the subband data group after changing the value in step S114 to the intensity designated by the sound quality designation data. By changing, the sound quality of the sound represented by the subband data group as a whole is adjusted (step S115), and the process proceeds to step S116.
ステップS116でこのパーソナルコンピュータは、ステップS114又はS115までの処理を経たサブバンドデータ群に変換を施すことにより、このサブバンドデータ群により各周波数成分の強度が表されるピッチ波形データ又は音声データを復元する。ステップS116でサブバンドデータ群に施す変換は、ステップS101で取得したサブバンドデータ群を生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換であるものとする。 In step S116, the personal computer converts the subband data group that has undergone the processing up to step S114 or S115, thereby converting pitch waveform data or audio data in which the intensity of each frequency component is represented by the subband data group. Restore. The conversion applied to the subband data group in step S116 is a conversion that has a substantially inverse relationship to the conversion performed on the audio data to generate the subband data group acquired in step S101. And
次に、このパーソナルコンピュータは、ステップS116で生成されたデータがピッチ波形データであれば、当該ピッチ波形データの各区間の時間長を、ステップS101で取得したピッチ情報が示す時間長になるよう変更し(ステップS117)、処理をステップS118へ移す。一方、ステップS116で生成されたデータが、各区間の位相を揃える処理を経ていない音声データであれば、ステップS117の処理を省略して直ちにステップS118へと処理を移す。 Next, this personal computer changes the time length of each section of the pitch waveform data to be the time length indicated by the pitch information acquired in step S101 if the data generated in step S116 is pitch waveform data. (Step S117), and the process proceeds to Step S118. On the other hand, if the data generated in step S116 is audio data that has not undergone the process of aligning the phases of the sections, the process of step S117 is omitted, and the process immediately proceeds to step S118.
ステップS118でこのパーソナルコンピュータは、ステップS116又はステップS117までの処理により得られた音声データを復調し、D/A変換及び増幅を行い、得られたアナログ信号を用いて音声を再生する。 In step S118, the personal computer demodulates the audio data obtained by the processing up to step S116 or step S117, performs D / A conversion and amplification, and reproduces the audio using the obtained analog signal.
なお、たとえば通信回線の掲示板(BBS)にこのプログラムをアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
For example, this program may be uploaded to a bulletin board (BBS) on a communication line and distributed via the communication line. Also, a carrier wave is modulated with a signal representing this program, and the obtained modulated wave is transmitted. The apparatus that receives the modulated wave may demodulate the modulated wave to restore these programs.
The above-described processing can be executed by starting this program and executing it under the control of the OS in the same manner as other application programs.
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。 When the OS shares a part of the processing, or when the OS constitutes a part of one component of the present invention, a program excluding the part is stored in the recording medium. May be. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.
1 サブバンドデータ入力部
2 音質指定データ入力部
3 校正用データ生成部
31 校正用音声入力部
32 ピッチ抽出部
321 ケプストラム解析部
322 自己相関解析部
323 重み計算部
324 BPF係数計算部
325 バンドパスフィルタ
326 ゼロクロス解析部
327 波形相関解析部
328 位相調整部
329 リサンプリング部
33 サブバンド解析部
4 音質調整部
5 音声再生部
51 サブバンド合成部
52 音声波形復元部
53 音声出力部
DESCRIPTION OF
Claims (6)
前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を変更する音声信号調整手段と、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する波形生成手段と、を備える、
ことを特徴とする音声信号調整装置。 Audio signal acquisition means for acquiring an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of audio from the outside;
An audio signal adjustment unit that changes the intensity of an audio signal included in the audio signal group acquired by the audio signal acquisition unit;
Waveform generating means for generating a signal representing a waveform of a voice represented by the voice signal group based on the voice signal group whose intensity of the voice signal is changed,
An audio signal adjustment device characterized by the above.
前記音声信号調整手段は、前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を、前記指定データ取得手段が取得した指定データが指定する態様で変更する、
ことを特徴とする請求項1に記載の音声信号調整装置。 Further comprising designation data obtaining means for obtaining designation data for designating a mode of change in intensity of the audio signal included in the audio signal group obtained by the audio signal obtaining means from the outside;
The audio signal adjustment unit changes the intensity of the audio signal included in the audio signal group acquired by the audio signal acquisition unit in a manner specified by the specified data acquired by the specified data acquisition unit.
The audio signal adjusting apparatus according to claim 1, wherein
前記音声信号調整手段は、前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度の変更後の値を、当該音声信号の強度、及び、当該音声信号と実質的に同一の周波数の成分を表す前記校正用音声信号の強度に基づいて決定し、決定結果に従って当該音声信号の強度を変更する、
ことを特徴とする請求項1又は2に記載の音声信号調整装置。 Calibration audio signal that receives audio and generates a calibration audio signal group consisting of calibration audio signals that represent temporal changes in the intensity of the fundamental frequency component and the harmonic component of the processing target audio signal that represents the waveform of the audio. Further comprising generating means,
The audio signal adjustment means uses the value after the change of the intensity of the audio signal included in the audio signal group acquired by the audio signal acquisition means as the intensity of the audio signal and the frequency substantially the same as the audio signal. Determining based on the intensity of the calibration audio signal representing the component of, and changing the intensity of the audio signal according to the determination result,
The audio signal adjustment device according to claim 1 or 2,
受音した音声の波形を表す信号を生成し、当該信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該信号をピッチ波形信号へと加工する手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表す信号を、前記校正用音声信号として生成する手段と、を備えている、
ことを特徴とする請求項3に記載の音声信号調整装置。 The calibration audio signal generation means includes:
Means for generating a signal representing the waveform of the received sound and processing the signal into a pitch waveform signal by making the time lengths of the sections corresponding to the unit pitch of the signal substantially the same;
Means for generating, as the calibration audio signal, a signal representing a temporal change in intensity of the fundamental frequency component and the harmonic component of the pitch waveform signal;
The audio signal adjusting device according to claim 3, wherein
取得した音声信号群に含まれる音声信号の強度を変更し、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する、
ことを特徴とする音声信号調整方法。 Obtain an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of the audio from the outside,
Change the intensity of the audio signal included in the acquired audio signal group,
Based on the audio signal group in which the intensity of the audio signal is changed, a signal representing the waveform of the audio represented by the audio signal group is generated.
A method of adjusting an audio signal.
音声の基本周波数成分又は高調波成分の強度の時間変化を表す音声信号からなる音声信号群を外部より取得する音声信号取得手段と、
前記音声信号取得手段が取得した音声信号群に含まれる音声信号の強度を変更する音声信号調整手段と、
音声信号の強度を変更された音声信号群に基づき、当該音声信号群が表す音声の波形を表す信号を生成する波形生成手段と、
して機能させるためのプログラム。 Computer
Audio signal acquisition means for acquiring an audio signal group consisting of audio signals representing temporal changes in the intensity of the fundamental frequency component or harmonic component of audio from the outside;
An audio signal adjustment unit that changes the intensity of an audio signal included in the audio signal group acquired by the audio signal acquisition unit;
A waveform generating means for generating a signal representing a waveform of a voice represented by the voice signal group based on the voice signal group in which the intensity of the voice signal is changed;
Program to make it function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005299357A JP2007110451A (en) | 2005-10-13 | 2005-10-13 | Speech signal adjustment apparatus, speech signal adjustment method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005299357A JP2007110451A (en) | 2005-10-13 | 2005-10-13 | Speech signal adjustment apparatus, speech signal adjustment method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007110451A true JP2007110451A (en) | 2007-04-26 |
Family
ID=38035941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005299357A Pending JP2007110451A (en) | 2005-10-13 | 2005-10-13 | Speech signal adjustment apparatus, speech signal adjustment method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007110451A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014084162A1 (en) * | 2012-11-27 | 2017-01-05 | 国立大学法人九州工業大学 | Signal noise elimination apparatus, method and program thereof |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH052390A (en) * | 1991-06-26 | 1993-01-08 | Casio Comput Co Ltd | Tone modulator and electronic musical instrument using the tone modulator |
JPH05181489A (en) * | 1991-12-26 | 1993-07-23 | Clarion Co Ltd | Sound field correction device |
JPH06308964A (en) * | 1993-04-27 | 1994-11-04 | Yamaha Corp | Musical tone forming device |
JP2001188599A (en) * | 1999-10-19 | 2001-07-10 | Matsushita Electric Ind Co Ltd | Audio signal decoding device |
JP2001292491A (en) * | 2000-02-03 | 2001-10-19 | Alpine Electronics Inc | Equalizer |
JP2003108200A (en) * | 2001-09-27 | 2003-04-11 | Kenwood Corp | Device and method for removing speech signal noise and program |
JP2004151225A (en) * | 2002-10-29 | 2004-05-27 | Nec Corp | Mobile terminal device and its output sound volume increasing method |
-
2005
- 2005-10-13 JP JP2005299357A patent/JP2007110451A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH052390A (en) * | 1991-06-26 | 1993-01-08 | Casio Comput Co Ltd | Tone modulator and electronic musical instrument using the tone modulator |
JPH05181489A (en) * | 1991-12-26 | 1993-07-23 | Clarion Co Ltd | Sound field correction device |
JPH06308964A (en) * | 1993-04-27 | 1994-11-04 | Yamaha Corp | Musical tone forming device |
JP2001188599A (en) * | 1999-10-19 | 2001-07-10 | Matsushita Electric Ind Co Ltd | Audio signal decoding device |
JP2001292491A (en) * | 2000-02-03 | 2001-10-19 | Alpine Electronics Inc | Equalizer |
JP2003108200A (en) * | 2001-09-27 | 2003-04-11 | Kenwood Corp | Device and method for removing speech signal noise and program |
JP2004151225A (en) * | 2002-10-29 | 2004-05-27 | Nec Corp | Mobile terminal device and its output sound volume increasing method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014084162A1 (en) * | 2012-11-27 | 2017-01-05 | 国立大学法人九州工業大学 | Signal noise elimination apparatus, method and program thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7676361B2 (en) | Apparatus, method and program for voice signal interpolation | |
EP1422693A1 (en) | PITCH WAVEFORM SIGNAL GENERATION APPARATUS, PITCH WAVEFORM SIGNAL GENERATION METHOD, AND PROGRAM | |
EP2209116A1 (en) | High range interpolation device and high range interpolation method | |
JP3601074B2 (en) | Signal processing method and signal processing device | |
EP2579252A1 (en) | Stability and speech audibility improvements in hearing devices | |
JP4254479B2 (en) | Audio band expansion playback device | |
JP3810257B2 (en) | Voice band extending apparatus and voice band extending method | |
WO2001097212A1 (en) | Frequency interpolating device and frequency interpolating method | |
WO2008047793A1 (en) | High frequency signal interpolating method and high frequency signal interpolating apparatus | |
JP3576941B2 (en) | Frequency thinning device, frequency thinning method and recording medium | |
JP3955967B2 (en) | Audio signal noise elimination apparatus, audio signal noise elimination method, and program | |
JPH04358200A (en) | Speech synthesizer | |
JP2007110451A (en) | Speech signal adjustment apparatus, speech signal adjustment method, and program | |
JP4256189B2 (en) | Audio signal compression apparatus, audio signal compression method, and program | |
JP5711645B2 (en) | Audio signal output apparatus and audio signal output method | |
JP3875890B2 (en) | Audio signal processing apparatus, audio signal processing method and program | |
JP6903242B2 (en) | Frequency band expansion device, frequency band expansion method, and frequency band expansion program | |
JP3976169B2 (en) | Audio signal processing apparatus, audio signal processing method and program | |
JP5083884B2 (en) | Frequency converter | |
JP2003216199A (en) | Decoder, decoding method and program distribution medium therefor | |
JP4736699B2 (en) | Audio signal compression apparatus, audio signal restoration apparatus, audio signal compression method, audio signal restoration method, and program | |
JP4950119B2 (en) | Sound processing apparatus and sound processing method | |
Massarani | Transfer-Function Measurement with Sweeps | |
WO2023170756A1 (en) | Acoustic processing method, acoustic processing system, and program | |
JP2003216171A (en) | Voice signal processor, signal restoration unit, voice signal processing method, signal restoring method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110518 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120417 |