JP6668306B2 - Sampling frequency estimation device - Google Patents
Sampling frequency estimation device Download PDFInfo
- Publication number
- JP6668306B2 JP6668306B2 JP2017201493A JP2017201493A JP6668306B2 JP 6668306 B2 JP6668306 B2 JP 6668306B2 JP 2017201493 A JP2017201493 A JP 2017201493A JP 2017201493 A JP2017201493 A JP 2017201493A JP 6668306 B2 JP6668306 B2 JP 6668306B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- signal
- frame
- sampling frequency
- correction target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005070 sampling Methods 0.000 title claims description 112
- 238000004364 calculation method Methods 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 75
- 238000012937 correction Methods 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 54
- 230000005236 sound signal Effects 0.000 claims description 28
- 238000005314 correlation function Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
この発明は、同じ波形を各々別個にサンプリングして得られる複数の信号の同期技術に関する。 The present invention relates to a technique for synchronizing a plurality of signals obtained by separately sampling the same waveform.
近年では、ICレコーダなどの手軽にデジタル録音を行える録音機器や、スマートフォンのようにデジタル録音と同時に録画も行える機器が一般に普及している。ここでデジタル録音とは、音波形をサンプリングして得られるサンプル列の形式で音信号を記録することを言う。スマートフォンを用いて例えばライブ演奏の動画と演奏音を奏者から離れた場所で録音しつつ、奏者の近くに置かれたICレコーダで演奏音を録音し、スマートフォンにより録音された演奏音をICレコーダにより録音された演奏音に差し替えて(或いは前者に後者を重ね合わせて)再生する、といったことも行われている。一般にデバイスの設定で全ての録音機器のサンプリング周波数を同一に設定していたとしても、各録音機器のサンプリング周波数には微細なバラツキが生じてしまう。これはサンプリング周波数を決めるクロック・ジェネレータが完全に同一のクロック周波数で動作しないことに起因する。したがって、同じ音波形を複数の録音機器で別個独立にデジタル録音する場合、たとえ録音開始タイミングを揃えたとしても、録音機器毎にサンプリング周波数が異なるために、サンプリングタイミングに時々刻々とズレが生じてしまう。このようなサンプリング周波数のズレを補正する技術としては、特許文献1、非特許文献1および非特許文献2の各先行技術文献に開示の技術が挙げられる。
In recent years, recording devices that can easily perform digital recording, such as IC recorders, and devices that can perform recording simultaneously with digital recording, such as smartphones, have become widespread. Here, digital recording means recording a sound signal in the form of a sample sequence obtained by sampling a sound waveform. Using a smartphone, for example, while recording a live performance video and performance sound at a location away from the player, record the performance sound with an IC recorder placed near the player, and use the IC recorder to record the performance sound recorded by the smartphone. In some cases, the performance is replaced with a recorded performance sound (or the latter is superimposed on the former). Generally, even if the sampling frequency of all recording devices is set to be the same in the device settings, minute variations occur in the sampling frequency of each recording device. This is because the clock generator that determines the sampling frequency does not operate at the exact same clock frequency. Therefore, when digitally recording the same sound waveform separately and independently by a plurality of recording devices, even if the recording start timings are aligned, the sampling frequency varies from recording device to recording device, and the sampling timing is shifted every moment. I will. As a technique for correcting such a deviation of the sampling frequency, there is a technique disclosed in each prior art document of
非特許文献1には、送信機から基準信号(パイロット信号)を送出し、受信機側で受信した信号に含まれる基準信号からサンプリング周波数ズレによる周波数シフトを検出し、補正する技術が開示されている。特許文献1には、音場の伝達特性を計測するときに計測信号(TSP信号など)を送出する側と、受信する側でサンプリング周波数が異なってしまう場合の補正技術が開示されている。特許文献1に開示の技術では、計測時に雑音の影響を抑制するためにTSP信号を繰り返し送出し、測定した複数のTSP信号を一定時間ごとに切出し、このようにして切り出した各TSP信号の位相差を検出することでサンプリング周波数ズレを推定し補正している。
非特許文献2には、複数の録音機器間のサンプリング周波数のズレを統計信号処理を利用して補正する技術が開示されている。非特許文献2に開示の技術では、まず、複数の録音機器により録音された各録音信号に対して基準信号を定める。そして、その基準信号に対してサンプリング周波数がズレていた場合の信号を統計的にモデル化し、基準信号以外の信号を統計的モデルに当てはめることでサンプリング周波数のズレを推定している。 Non-Patent Document 2 discloses a technique of correcting a deviation of a sampling frequency among a plurality of recording devices using statistical signal processing. In the technique disclosed in Non-Patent Document 2, first, a reference signal is determined for each recording signal recorded by a plurality of recording devices. Then, a signal in the case where the sampling frequency is shifted from the reference signal is statistically modeled, and a signal other than the reference signal is applied to the statistical model to estimate the sampling frequency shift.
しかし、非特許文献1に開示の技術や特許文献1に開示の技術には、制約が多く、汎用性に欠けるといった問題がある。例えば、非特許文献1に開示の技術には、基準信号(パイロット信号)を発生する装置が必要になり、また、基準信号によって録音信号に影響が生じてしまう、といった問題がある。一方、特許文献1に開示の技術には、同一の信号が一定間隔で繰り返し送出されるという条件でなければ利用することができない、といった問題がある。これに対して、非特許文献2には、汎用性に欠けるといった問題はないものの、その実行には多大な計算量を要し、サンプリング周波数ズレの推定を完了するまでに要する計算時間が長い、とった問題がある。
However, the technology disclosed in
本発明は以上に説明した課題に鑑みて為されたものであり、同じ波形を別個独立にサンプリングして得られる複数の信号の同期を従来よりも短い計算時間で実現することが可能で、かつ高い汎用性を有する技術を提供することを目的とする。 The present invention has been made in view of the above-described problem, and it is possible to realize synchronization of a plurality of signals obtained by separately sampling the same waveform in a shorter calculation time than before, and An object is to provide a technology having high versatility.
上記課題を解決するために本発明は、同じ波形を別個独立にサンプリングして得られる複数の信号のうちの1つを基準信号とし、残りの信号のうちの1つを補正対象信号として、前記基準信号と前記補正対象信号の一方を時間軸方向にずらしつつ両信号の相関をフレーム毎に算出し、その算出結果に応じて両信号の時間ズレ量をフレーム毎に算出する時間ズレ量算出部と、前記時間ズレ量算出部により算出された時間ズレ量から、各フレームにおける前記補正対象信号のサンプリング周波数の誤差の推定値である第1の推定値をフレーム毎に算出する誤差算出部と、前記誤差算出部によりフレーム毎に算出された前記第1の推定値に統計処理を施して前記補正対象信号全体に亘るサンプリング周波数の誤差の推定値である第2の推定値を算出し出力する統計処理部と、を有することを特徴とするサンプリング周波数推定装置、を提供する。なお、補正対象信号のサンプリング周波数の誤差は基準信号のサンプリング周波数からの補正対象信号のサンプリング周波数のズレであるから、当該誤差と基準信号のサンプリング周波数とから補正対象信号のサンプリング周波数を求めることができる。したがって、当該誤差の推定値を算出すること(すなわち、当該誤差を推定すること)は補正対象信号のサンプリング周波数を推定することと等価である。 In order to solve the above-described problems, the present invention provides a method in which one of a plurality of signals obtained by separately sampling the same waveform is used as a reference signal, and one of the remaining signals is used as a correction target signal. A time shift amount calculating unit that calculates a correlation between both signals for each frame while shifting one of the reference signal and the correction target signal in the time axis direction, and calculates a time shift amount of both signals for each frame according to the calculation result. And an error calculation unit that calculates, for each frame, a first estimated value that is an estimated value of an error of the sampling frequency of the correction target signal in each frame from the time shift amount calculated by the time shift amount calculation unit. Statistical processing is performed on the first estimated value calculated for each frame by the error calculating unit to calculate a second estimated value that is an estimated value of an error of a sampling frequency over the entire correction target signal. Providing sampling frequency estimating apparatus, characterized by having a statistical processing unit for outputting. Since the error in the sampling frequency of the correction target signal is a deviation of the sampling frequency of the correction target signal from the sampling frequency of the reference signal, the sampling frequency of the correction target signal can be obtained from the error and the sampling frequency of the reference signal. it can. Therefore, calculating the estimated value of the error (that is, estimating the error) is equivalent to estimating the sampling frequency of the correction target signal.
このようなサンプリング周波数推定装置によれば、同じ波形を別個独立にサンプリングして得られる複数の信号のうちの1つを基準信号とし、残りの信号の各々を補正対象信号として各補正対象信号のサンプリング周波数の誤差の推定値を算出し、時間軸圧伸などの既存の技術を用いてその誤差を補正することで、各補正対象信号を基準信号に同期させることが可能になる。本発明のサンプリング周波数推定装置では、パイロット信号を必要とせず、また各信号は一定時間に亙って繰り返し出力されたものである必要もないため、非特許文献1や特許文献1に開示の技術に比較して汎用性が高い。また詳細については後述するが、本発明のサンプリング周波数推定装置によれば非特許文献2に開示の技術を用いた場合よりも短い計算時間で補正対象信号のサンプリング周波数の誤差を算出することができ、同じ波形を別個独立にサンプリングして得られる複数の信号の同期を従来よりも短い計算時間で実現することが可能になる。 According to such a sampling frequency estimation device, one of a plurality of signals obtained by independently sampling the same waveform is used as a reference signal, and each of the remaining signals is used as a correction target signal, and By calculating an estimated value of the sampling frequency error and correcting the error using an existing technique such as time axis companding, it becomes possible to synchronize each correction target signal with the reference signal. The sampling frequency estimating apparatus of the present invention does not require a pilot signal and does not require each signal to be repeatedly output over a certain period of time. Versatility is higher than. Although the details will be described later, according to the sampling frequency estimating apparatus of the present invention, the error of the sampling frequency of the correction target signal can be calculated in a shorter calculation time than when the technique disclosed in Non-Patent Document 2 is used. In addition, synchronization of a plurality of signals obtained by independently sampling the same waveform can be realized in a shorter calculation time than before.
統計処理部の具体的な構成としては、誤差算出部によりフレーム毎に算出された第1の推定値(すなわち、各フレームにおける大まかな誤差の推定値)から、統計的にエラーを多く含むと推定される外れ値を除外する第1の統計フィルタ処理と、第1の統計フィルタ処理より外れ値が除外された一群の第1の推定値を平滑化するフィルタ処理(例えば、平均値を算出する処理)と当該一群の第1の推定値から代表値を選択するフィルタ処理(例えば、中央値を選択する処理)の何れか一方からなる第2の統計フィルタ処理とで上記統計処理を構成し、第2の統計フィルタ処理の処理結果を第2の推定値(補正対象信号全体に亘るサンプリング周波数の誤差の推定値)として出力する構成が考えられる。 As a specific configuration of the statistical processing unit, it is estimated from the first estimated value calculated for each frame by the error calculating unit (that is, an estimated value of a rough error in each frame) that the error calculating unit statistically includes many errors. First statistical filter processing for removing outliers to be performed, and filter processing for smoothing a group of first estimated values from which outliers have been removed by the first statistical filter processing (for example, processing for calculating an average value) ) And a second statistical filtering process comprising one of a filtering process (for example, a process of selecting a median value) for selecting a representative value from the group of first estimated values, and A configuration in which the processing result of the second statistical filter processing is output as a second estimated value (estimated value of the error of the sampling frequency over the entire signal to be corrected) may be considered.
第1の統計フィルタ処理の具体例としては、誤差算出部によりフレーム毎に算出された第1の推定値をその大きさ順にソートした場合における両端から所定個数分、または両端から所定個数番目の各値に応じて定まる範囲に属さないもの、を外れ値として除去する処理が挙げられる。例えば、上記所定個数が誤差算出部により算出された第1の推定値の総数の1/4であれば、第1四分位数未満の値と第3四分位数より大きい値を外れ値として除外することになる。また、第1四分位数および第3四分位数に重みを付与して上記範囲を定める態様であれば所謂四分位数範囲法により外れ値を除外することになる。 As a specific example of the first statistical filter processing, when the first estimated values calculated for each frame by the error calculating unit are sorted in the order of their sizes, a predetermined number from each end, or a predetermined number from each end. There is a process of removing a value that does not belong to a range determined according to the value as an outlier. For example, if the predetermined number is 1/4 of the total number of the first estimated values calculated by the error calculating unit, the value smaller than the first quartile and the value larger than the third quartile are outliers. Will be excluded. Further, in a mode in which the first quartile and the third quartile are weighted to determine the above range, outliers are excluded by the so-called quartile range method.
より好ましい態様においては、時間ズレ量算出部は、基準信号および補正対象信号のパワーが所定の閾値未満であるフレームを時間ズレ量の算出対象から除外することを特徴とする。上記閾値を適切な値に定めておけば、基準信号を充分な強度で含んでいないフレームや補正対象信号を充分な強度で含んでいないフレームは時間ズレ量の算出対象から除外される。基準信号を充分な強度で含んでいないフレームや補正対象信号を充分な強度で含んでいないフレームを参照して時間ズレ量を算出したとしてもエラーを多く含むものとなってしまう。このような時間ズレ量に基づいて算出された誤差の推定値は外れ値として第1の統計フィルタ処理で除外される可能性が高く、そもそも時間ズレ量の算出自体が無駄になってしまう。このような態様によれば、時間ズレ量算出部において無駄な演算が行われることを回避して補正対象信号のサンプリング周波数の推定に要する処理時間をさらに短くしつつ、サンプリング周波数の誤差を高い精度で算出することが可能になる。 In a more preferred aspect, the time shift amount calculation unit excludes a frame in which the powers of the reference signal and the correction target signal are less than a predetermined threshold from calculation targets of the time shift amount. If the threshold value is set to an appropriate value, a frame that does not include the reference signal with sufficient intensity or a frame that does not include the correction target signal with sufficient intensity is excluded from the calculation target of the time shift amount. Even if the amount of time lag is calculated with reference to a frame that does not include the reference signal with sufficient strength or a frame that does not include the correction target signal with sufficient strength, the amount of error will include many errors. The estimated value of the error calculated based on such a time lag amount is likely to be excluded as an outlier in the first statistical filter processing, and the calculation of the time lag amount itself is wasted in the first place. According to such an aspect, it is possible to avoid a wasteful calculation being performed in the time lag amount calculating unit, further shorten the processing time required for estimating the sampling frequency of the correction target signal, and reduce the sampling frequency error with high accuracy. Can be calculated by
また、別の好ましい態様においては、時間ズレ量算出部は、基準信号と補正対象信号の相関を表す値(例えば、時間をずらしつつ算出した複数の相互相関関数のうちの最大値)が所定の閾値を下回るフレームを時間ズレ量の算出対象から除外することを特徴とする。上記閾値を適切な値に定めておけば、補正対象信号を構成するフレームのうち基準信号にて対応するフレームとの相関が低いフレームについて時間ズレ量の算出が行われることはない。このようなフレームについて時間ズレ量を算出したとしてもエラーを多く含むものとなってしまい、このような時間ズレ量に基づいて算出された誤差の推定値は外れ値として上記第1の統計フィルタ処理にて除外される可能性が高く、そもそも時間ズレ量の算出自体が無駄になってしまう。このような態様によっても、時間ズレ量算出部において無駄な演算が行われることを回避し補正対象信号のサンプリング周波数の推定に要する処理時間をさらに短くしつつ、サンプリング周波数を高い精度で算出することが可能になる。 In another preferred aspect, the time lag amount calculating unit sets the value representing the correlation between the reference signal and the correction target signal (for example, the maximum value among a plurality of cross-correlation functions calculated while shifting the time) to a predetermined value. It is characterized in that frames below the threshold value are excluded from the calculation of the amount of time shift. If the threshold value is set to an appropriate value, the time lag amount is not calculated for a frame that has a low correlation with the frame corresponding to the reference signal among the frames forming the correction target signal. Even if the amount of time shift is calculated for such a frame, it will contain many errors, and the estimated value of the error calculated based on the amount of time shift is regarded as an outlier as the first statistical filter processing. Is highly likely to be excluded, and the calculation itself of the time lag amount is wasted in the first place. According to such an aspect as well, it is possible to calculate the sampling frequency with high accuracy while avoiding unnecessary calculation being performed in the time lag amount calculating unit and further reducing the processing time required for estimating the sampling frequency of the correction target signal. Becomes possible.
上記課題を解決するための別の態様としては、CPU(Central Processing Unit)などの一般的なコンピュータを、上記時間ズレ量算出部、誤差算出部および統計処理部として機能させるプログラムを提供する態様が考えられる。このようなプログラムにしたがって一般的なコンピュータを作動させることで、当該コンピュータを本発明のサンプリング周波数推定装置として機能させることが可能になるからである。なお、このようなプログラムの具体的な提供態様としては、CD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に当該プログラムを書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。 As another mode for solving the above-described problem, a mode is provided that provides a program that causes a general computer such as a CPU (Central Processing Unit) to function as the time shift amount calculation unit, the error calculation unit, and the statistical processing unit. Conceivable. By operating a general computer according to such a program, the computer can function as the sampling frequency estimation device of the present invention. Note that specific provision modes of such a program include a mode in which the program is written and distributed on a computer-readable recording medium such as a CD-ROM (Compact Disk-Read Only Memory), and a mode in which electric communication such as the Internet is used. A mode of distributing by downloading via a line is conceivable.
また、上記課題を解決するためのさらに別の態様としては、同じ波形を別個独立にサンプリングして得られる複数の信号のうちの1つを基準信号とし、残りの信号のうちの1つを補正対象信号として、前記基準信号と前記補正対象信号の一方を時間軸方向にずらしつつ両信号の相互相関関数をフレーム毎に算出し、その算出結果に応じて両信号の時間ズレ量をフレーム毎に算出する時間ズレ量算出ステップと、前記時間ズレ量算算出ステップにて算出された時間ズレ量から、各フレームにおける前記補正対象信号のサンプリング周波数の誤差の推定値をフレーム毎に算出する誤差算出ステップと、誤差算出ステップにてフレーム毎に算出された誤差の推定値に統計処理を施して前記補正対象信号のサンプリング周波数の誤差の推定値を算出し出力する統計処理ステップと、を有することを特徴とするサンプリング周波数推定方法を提供する態様も考えられる。また、CPUなどの一般的なコンピュータに、上記時間ズレ量算出ステップ、上記誤差算出ステップおよび上記統計処理ステップの各ステップを実行させるプログラムを提供する態様も考えられる。 Further, as still another mode for solving the above-mentioned problem, one of a plurality of signals obtained by separately sampling the same waveform is used as a reference signal, and one of the remaining signals is corrected. As a target signal, a cross-correlation function of both signals is calculated for each frame while shifting one of the reference signal and the correction target signal in the time axis direction, and a time shift amount of both signals is calculated for each frame according to the calculation result. Calculating a time shift amount to be calculated; and an error calculating step of calculating, for each frame, an estimated value of a sampling frequency error of the correction target signal in each frame from the time shift amount calculated in the time shift amount calculation step. And performing statistical processing on the estimated value of the error calculated for each frame in the error calculating step to calculate an estimated value of the error of the sampling frequency of the correction target signal. Aspect to provide a sampling frequency estimation method characterized by comprising: a statistical processing step of force, also conceivable. It is also conceivable to provide a program for causing a general computer such as a CPU to execute each of the time shift amount calculation step, the error calculation step, and the statistical processing step.
以下図面を参照しつつ本発明の実施形態を説明する。
(A:構成)
図1は、本発明の一実施形態のサンプリング周波数推定装置10の構成例および同サンプリング周波数推定装置10を含む信号処理システム1の構成例を示すブロック図である。この信号処理システム1には、同じ音波形をN(Nは2以上の自然数)台の録音機器(例えばスマートフォンやICレコーダなど)の各々により別個独立にサンプリングして得られた各音信号(サンプル列)Xn(t)(n=1〜N)が入力される。なお、N台の録音機器における録音開始タイミングの同期については既存技術を適宜用いるようにすれば良い。例えば、各録音機器がインターネットなどの電気通信回線経由の通信を実行可能であれば、当該通信により録音開始タイミングを合せれば良く、Bluetooth(登録商標)など他の通信手段による通信が可能であれば、当該通信手段による通信により録音開始タイミングを合せれば良い。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(A: Configuration)
FIG. 1 is a block diagram illustrating a configuration example of a sampling
上記N台の録音機器におけるサンプリング周波数は何れも同じ値(例えば44.1kHz)に設定されてはいるが、各録音機器のクロック・ジェネレータが完全に同一のクロック周波数で動作する訳ではなく、各録音機器におけるサンプリング周波数には微妙なズレがある。このため、各録音機器で録音開始タイミングを揃えて録音を行い、上記N個の音信号をその先頭を揃えて再生したとしても、次第に音がズレ、再生が進むにつれてそのズレは大きくなる。本実施形態の信号処理システム1は、上記N個の音信号間のサンプリング周波数の誤差を推定して補正し、これらN個の音信号を同期させることができるようにするためのものである。
Although the sampling frequency of each of the N recording devices is set to the same value (for example, 44.1 kHz), the clock generator of each recording device does not operate at completely the same clock frequency. There is a slight deviation in the sampling frequency of the recording device. For this reason, even if each recording device performs recording at the same recording start timing and reproduces the N sound signals with their heads aligned, the deviation gradually increases and the deviation increases as the reproduction progresses. The
図1に示すように信号処理システム1は、サンプリング周波数推定装置10と、時間軸圧伸装置20とを含んでいる。サンプリング周波数推定装置10には、上記N個の音信号が与えられる。サンプリング周波数推定装置10は、これらN個の音信号のうちの1つを基準信号とし、残りのN−1個の音信号の各々を補正対象信号として、基準信号のサンプリング周波数に対する各補正対象信号のサンプリング周波数のズレ(すなわち、誤差)を補正対象信号毎に推定し、その推定結果を示すデータを時間軸圧伸装置20に与える。時間軸圧伸装置20は、補正対象信号毎に推定されたサンプリング周波数の誤差が解消されるように各補正対象信号に時間軸圧伸を施す。これにより、N個の音信号の同期が実現さされる。時間軸圧伸装置20における時間軸圧伸アルゴリズムとしては既存の技術を適宜用いるようにすれば良い。本実施形態では、サンプリング周波数推定装置10に本実施形態の特徴を顕著に示す処理を実行させることで、上記各補正対象信号のサンプリング周波数の誤差の推定を従来よりも短い計算時間で実現しつつ、高い汎用性を確保することが可能になっている。以下では、本実施形態の特徴を顕著に示すサンプリング周波数推定装置10を中心に説明する。
As shown in FIG. 1, the
サンプリング周波数推定装置10は、図1に示すように、短時間フーリエ変換(図1では、「STFT」と表記)部100、時間ズレ量算出部110、誤差算出部120、および統計処理部130を含んでいる。図1に示す各部は電子回路で構成されたハードウェアモジュールであっても良いし、CPU(Central Processing Unit)を信号処理プログラムに従って作動させることで実現されるソフトウェアモジュールであっても良い。
As shown in FIG. 1, the sampling
STFT部100は、サンプリング周波数推定装置10へ入力された音信号Xn(t)(n=1〜N)の各々を所定サンプル数ずつのフレームに区切り、フレーム毎に短時間フーリエ変換を施して周波数領域の信号Xn(f)(fは周波数を表す変数、以下、同じ)に変換して時間ズレ量算出部110に与える。STFT部100にて使用する変換アルゴリズムについては周知のものを適宜利用すれば良い。
The
時間ズレ量算出部110は、N個の音信号のうちの1つを基準信号として選択し、残りのN−1個の音信号の各々を補正対象信号として順次選択し、基準信号と補正対象信号の一方を時間軸方向にずらしつつ両信号の相互相関関数をフレーム毎に算出して両信号の時間ズレ量をフレーム毎に算出する。以下では基準信号としてXref(f)が選択され、補正対象信号としてXk(f)(k≠ref)が選択された場合を例に取って時間ズレ量算出部110が実行する処理を詳細に説明する。
The time shift
時間ズレ量算出部110は、まず、基準信号Xref(f)と補正対象信号Xk(f)(k≠ref)の各々のフレーム毎の相互相関関数C(τ)をτの値を変えつつ算出する。相互相関関数C(τ)を算出するのは、時間ズレ量を補正する方法として相互相関関数が最大となるサンプル点を推定する方法が一般に知られているからである。一般に相互相関関数C(τ)は、時間領域の2つのアナログ信号x(t)とy(t)があった時、以下の数1で表される。また、デジタル信号であれば、以下の数2で表される。
数1或いは数2により算出される相互相関関数C(τ)は、2つの信号のどちらかを時間軸方向にτだけずらして内積を取ることに相当する。「同じ信号が2つの信号のどこかに含まれている」という仮定が成り立つのであれば、相互相関関数が最大となるτを求めることで、2つの信号の時間ズレ量を推定できると考えられる。なお、2つの信号のフーリエ変換X(f)とY(f)とを考えると、相互相関関数C(τ)は以下の数3により計算される。数3の右辺のIFFT()は逆フーリエ変換を表す演算子であり、X*(f)はX(f)の複素共役を表す。
本実施形態の時間ズレ量算出部110は、基準信号Xref(f)と補正対象信号Xk(f)(k≠ref)の各フレームの相互相関関数C(τ)をτの値を変えつつ数3にしたがって算出する。具体的には、時間ズレ量算出部110は、基準信号におけるi番目のフレームについての信号Xref(f)の複素共役を数3右辺のX*(f)とし、補正対象信号におけるi番目のフレームについての信号Xk(f)(k≠ref)を数3右辺のY(f)としてτを変えつつ数3の演算を行い、相互相関関数C(τ)が最大になるτを特定する。そして、時間ズレ量算出部110は、このようにして特定したτを、補正対象信号Xk(f)のi番目のフレームについての時間ズレ量の推定値Nki(すなわち、相互相関関数C(τ)を最大にするτ)として誤差算出部120に与える。他の番号のフレームについても同様である。
The time shift
本実施形態において数1或いは数2の時間領域の演算ではなく、数3に示す周波数領域の演算により相互相関関数C(τ)を算出するようにしたのは、計算量の点で有利なことがあるからである。本実施形態では、時間ズレ量算出部110にて数3に示す演算により相互相関関数C(τ)を算出できるようにするために、STFT部100が設けられている。したがって、時間ズレ量算出部110にて数1或いは数2に示す演算により相互相関関数C(τ)を算出するのであればSTFT部100を省略しても良い。
In this embodiment, the calculation of the cross-correlation function C (τ) by the calculation in the frequency domain shown in Expression 3 instead of the calculation in the time domain of
誤差算出部120は、時間ズレ量算出部110から与えられる各フレームの時間ズレ量Nkiに基づいて、基準信号のサンプリング周波数fsに対する補正対象信号のサンプリング周波数の誤差の推定値(以下、第1の推定値)Ekiをフレーム毎に算出する。例えば、i番目のフレームについての時間ズレ量がNkiであり、補正対象信号Xk(f)におけるi番目のフレームの先頭サンプルが当該信号の先頭からSki番目のサンプルであった場合には、誤差算出部120は、当該i番目のフレームについての上記第1の推定値Ekiを以下の数4にしたがって算出し、統計処理部130に与える。前述したように、時間ズレ量算出部110により算出された時間ズレ量Nkiは基準信号の先頭を基準としたズレ量であるため、本実施形態のようにSTFTによって各フレームの相互相関関数を求めた場合にはフレーム先頭を基準としたズレ量である。このため、i番目のフレームでの相互相関関数を基にした補正対象信号Xk(f)のサンプリング周波数の誤差の推定値Ekiは以下の数4により表される。
統計処理部130は、誤差算出部120によりフレーム毎に算出された第1の推定値Ekiに統計処理を施して補正対象信号全体に亘るサンプリング周波数の誤差の推定値(以下、第2の推定値)Eを算出し、時間軸圧伸装置20へ出力する。図1に示すように、統計処理部130は、第1の統計フィルタ処理部130aと第2の統計フィルタ処理部130bとを含んでいる。つまり、統計処理部130の実行する統計処理は、第1の統計フィルタ処理部130aの実行する処理と第2の統計フィルタ処理部130bの実行する処理により構成されている。これら各統計フィルタ処理部の実行する処理の内容は以下の通りである。
The
第1の統計フィルタ処理部130aは、誤差算出部120によりフレーム毎に算出された第1の推定値Ekiから、統計的にエラーを多く含むと推定される外れ値を除外する第1の統計フィルタ処理を実行する。誤差算出部120によりフレーム毎に算出された第1の推定値Ekiには、多くのエラーが含まれていることが多い。上記第1の推定値Ekiは、補正対象信号Xk(f)および基準信号Xref(f)の各々のi番目のフレームの情報のみに基づいて、両信号のサンプリング周波数のズレを大まかに推定した値だからである。図2は人工的にサンプリング周波数を3Hzずらして実験した時のフレーム毎のサンプリング周波数推定結果である。なお、基準信号のサンプリング周波数に対する補正対象信号のサンプリング周波数の誤差が判れば、基準信号のサンプリング周波数と当該誤差から補正対象信号のサンプリング周波数を算出できるのであるから、上記誤差の推定と補正対象信号のサンプリング周波数の推定は等価である。図2に示すように、フレーム毎に推定したサンプリング周波数に大きなバラツキがあるのは、サンプリング周波数ズレに起因するごく小さな時間ズレを高い精度で推定することが難しいためであると考えられる。
The first statistical
本実施形態では、誤差算出部120により算出された第1の推定値Ekiのうち、他のものと比較して大きく外れるような値を外れ値として除去する処理が第1の統計フィルタ処理として採用されている。具体的には、本実施形態では、第1の統計フィルタ処理として所謂四分位数に基づく処理が採用されている。ここで、四分位数とは、処理対象のデータを大きさの順にソートした後に、それらを四等分する区切りの数のことを言い、小さい方から第1四分位数、第2四分位数、第3四分位数と呼ばれる(図3参照)。また、第1四分位数と第2四分位数の差は、四分位数範囲(Interquartile range; IQR)と呼ばれる。四分位数範囲はサンプルのバラつき具合を表す1つの指標である。
In the present embodiment, a process of removing, as an outlier, a value that greatly deviates from other first estimated values E ki calculated by the
より詳細に説明すると、第1の統計フィルタ処理部130aは、まず、誤差算出部120によりフレーム毎に算出された第1の推定値Ekiをその大きさ順にソートする。次いで、第1の統計フィルタ処理部130aは、誤差算出部120によりフレーム毎に算出された第1の推定値Ekiのうち、上記ソート結果における第1四分位数より小さい値、もしくは第3四分位数より大きい値を外れ値として除外し、その残り(すなわち、外れ値を含まない一群の第1の推定値E´ki)を第2の統計フィルタ処理部130bに引き渡す。ここで、外れ値を検出する演算o()は以下の数5により表される。具体的には、数5におけるe(n)に誤差算出部120により算出された第1の推定値Ekiの各々を代入し、演算o()の値が1であれば当該第1の推定値Ekiを外れ値として除外するといった具合である。qLおよびqHはそれぞれ第1四分位数および第3四分位数を表す。
本実施形態では、第1の統計フィルタ処理として四分位数に基づく処理が採用されていたが、四分位数に加えて、四分位数範囲を使った処理であっても良い。具体的には、外れ値であるか否かを識別するための演算として数5に示す演算o()に代えて数6に示す演算o()を行えば良い。数6に示す演算は第1、3四分位数にIQRの値を重み付きで加算あるいは減算することを意味している。α=0とすると、数6は数5と一致する。α=1.5で計算する方法が広く知られており、例えば図4に示す箱ひげ図の上下のひげに当たる部分はこれで計算されている。
第2の統計フィルタ処理部130bは、第1の統計フィルタ処理部130aより外れ値を除外された一群の第1の推定値E´kiから代表値を選択する第2の統計フィルタ処理(具体的には、中央値を選択するフィルタ処理)を実行し、その処理結果を第2の推定値Ekとして時間軸圧伸装置20に与える。なお、上記代表値としては最大値や最小値などを用いることが考えられるが、中央値を用いることが最も好ましいと考えられる。また、第2の統計フィルタ処理部130bの実行する第2の統計フィルタ処理として、第1の統計フィルタ処理部130aより外れ値を除外された一群の第1の推定値E´kiを平滑化するフィルタ処理(第1の統計フィルタ処理部130aより外れ値を除外された一群の第1の推定値E´kiの平均値を算出する処理)を採用しても良いが、本出願人の行った実験によれば、上記中央値を選択するフィルタ処理を採用した方が良好な結果が得られた。このため、本実施形態では、中央値を選択するフィルタ処理が採用されている。
以上がサンプリング周波数推定装置10の構成である。
The second statistical
The above is the configuration of the sampling
(B:実施形態の効果)
本実施形態によれば、N個の音信号のうちの1つを基準信号、残りのN−1個の音信号の各々を補正対象信号とし、基準信号のサンプリング周波数に対する補正対象信号のサンプリング周波数の誤差が補正対象信号毎にサンプリング周波数推定装置10によって推定され、その誤差が解消されるように時間軸圧伸を補正対象信号に施すことで、N個の音信号の同期が実現される。本出願人は本実施形態の効果を評価するために、非特許文献2に開示の技術を対比の対象として、サンプリング周波数の誤差の推定性能および計算速度(サンプリング周波数の誤差の推定値の算出を完了するまでに要した計算時間の時間長)の観点から評価実験を行った。この評価実験の概要は以下の通りである。
(B: Effect of the embodiment)
According to the present embodiment, one of the N sound signals is set as a reference signal, and each of the remaining N-1 sound signals is set as a correction target signal, and the sampling frequency of the correction target signal with respect to the sampling frequency of the reference signal is set. Is estimated by the sampling
まず、44.1kHzのサンプリング周波数でサンプリングされた16ビットの10曲の市販曲(ジャンルはポップス、各曲の時間長は10秒)の音信号を原信号とし、この原信号そのままを基準信号、この原信号に人工的にリサンプリング(±5Hz)を施した信号を補正対象信号とし、各補正対象信号のサンプリング周波数の誤差を本実施形態のサンプリング周波数推定装置10および非特許文献2に開示の技術により推定した。なお、本評価実験では、CPUとして3.4GHz駆動のCorei7 3770を有し、32GBのRAMを有する計算機をサンプリング周波数推定装置10として用い、STFT部100等の各部の実装にはMATLAB(登録商標)を用いた。MATLAB(登録商標)とは、米国The MathWorks社の数値解析ソフトウェアである。同様に、非特許文献2に開示の手法もC/C++およびMATLAB(登録商標)で同計算機に実装して実行した。また、FFT長は4096サンプルであり、解析窓として窓長が4096サンプルのHamming窓を用い、さらに、相互相関関数C(τ)を算出する際のシフトサイズ(すなわち、τの更新単位)として8192、4096,2048および1024サンプルを用い、使用するデータ範囲を(3/8)×T〜(5/8)×T(Tはデータ数)とした。
First, a sound signal of 10 commercially available 16-bit songs (genre is pops, each song has a time length of 10 seconds) sampled at a sampling frequency of 44.1 kHz is used as an original signal, and the original signal is used as a reference signal. A signal obtained by artificially performing resampling (± 5 Hz) on the original signal is used as a correction target signal, and an error in the sampling frequency of each correction target signal is disclosed in the sampling
図5(a)は、本実施形態についての推定性能に関する実験結果を示す図であり、図5(b)は非特許文献2に開示の手法についての推定性能に関する実験結果を示す図である。図5(a)と図5(b)を対比すれば明らかなように、最高性能では非特許文献2に開示の技術が上回っている(すなわち、推定誤差が小さい)。しかし、例えば2時間(7200秒)録音し、補正後の補正対象信号の基準信号に対する時間ズレを5ミリ秒以下に押さえる(サンプリング周波数の推定誤差を0.03Hz以内に抑える)といった実用的な範囲の性能は本実施形態でも達成されている。したがって、本実施形態でも実用的な範囲での問題は何ら発生しない。また、図5(a)からは、本実施形態ではシフトサイズによらず同程度の推定性能を実現できていることが判る。シフトサイズは計算量に影響する。つまり、図5(a)の実験結果は、本実施形態によれば計算量を少なくしても実用的な範囲の性能を十分に達成できることを意味している。 FIG. 5A is a diagram illustrating an experimental result regarding the estimation performance for the present embodiment, and FIG. 5B is a diagram illustrating an experimental result regarding the estimation performance for the method disclosed in Non-Patent Document 2. As is clear from a comparison between FIG. 5A and FIG. 5B, the technology disclosed in Non-Patent Document 2 exceeds the technology at the highest performance (that is, the estimation error is small). However, for example, a practical range in which recording is performed for 2 hours (7200 seconds) and the time lag between the corrected signal to be corrected and the reference signal is suppressed to 5 ms or less (the estimation error of the sampling frequency is suppressed to within 0.03 Hz). Is also achieved in the present embodiment. Therefore, even in the present embodiment, no problem occurs in a practical range. Also, from FIG. 5A, it can be seen that in the present embodiment, the same estimation performance can be realized regardless of the shift size. The shift size affects the amount of calculation. In other words, the experimental results in FIG. 5A indicate that the present embodiment can sufficiently achieve a practical range of performance even with a small amount of calculation.
図6(a)は、本実施形態についての計算速度に関する実験結果を示す図であり、図6(b)は非特許文献2に開示の手法についての計算速度に関する実験結果を示す図である。る。図6(a)と図6(b)を対比すれば明らかなように、非特許文献2に開示の手法に比較して本実施形態の手法は圧倒的に高速(サンプリング周波数ズレの推定を完了するまでに要した計算時間が短い)であり、MATLAB(登録商標)による実装でも、C/C++による非特許文献2に開示の手法の実装を凌ぐ計算速度が得られていることが判る。以上の実験結果を総括すると、本実施形態によれば、非特許文献2に開示の技術に比較して短い計算時間で実用的な範囲の推定性能を達成することができる、と結論付けられる。 FIG. 6A is a diagram illustrating an experimental result regarding the calculation speed for the present embodiment, and FIG. 6B is a diagram illustrating an experimental result regarding the calculation speed for the method disclosed in Non-Patent Document 2. You. As is clear from comparison between FIGS. 6A and 6B, the method of the present embodiment is overwhelmingly faster (the estimation of the sampling frequency shift is completed) as compared with the method disclosed in Non-Patent Document 2. The calculation time required to perform the method is short), and it can be seen that even with the implementation using MATLAB (registered trademark), a calculation speed that exceeds the implementation of the method disclosed in Non-Patent Document 2 using C / C ++ is obtained. Summarizing the above experimental results, it is concluded that according to the present embodiment, it is possible to achieve a practical range of estimation performance in a shorter calculation time than the technique disclosed in Non-Patent Document 2.
以上説明したように本実施形態によれば、同じ音波形を各々別個にサンプリングして得られる複数の音信号の同期を、非特許文献2に開示の技術に比較して短い計算時間で実現することが可能になる。加えて、本実施形態では、サンプリングされた音信号(換言すれば、録音された音信号)だけで同期が可能であり、パイロット信号を必要とはしないので非特許文献1に開示の技術に比較して高い汎用性を有する。また、本実施形態では、同期対象の各音信号は繰り返し送出されたものである必要はなく、特許文献1に開示の技術に比較して高い汎用性を有する。つまり、本実施形態によれば、同じ波形を別個独立にサンプリングして得られる複数の信号の同期を従来よりも短い計算時間で実現することが可能になり、かつ高い汎用性を実現することが可能になる。
As described above, according to the present embodiment, synchronization of a plurality of sound signals obtained by separately sampling the same sound waveform can be realized in a shorter calculation time than the technique disclosed in Non-Patent Document 2. It becomes possible. In addition, in the present embodiment, synchronization can be performed only with a sampled sound signal (in other words, a recorded sound signal), and a pilot signal is not required. It has high versatility. In the present embodiment, each sound signal to be synchronized does not need to be repeatedly transmitted, and has higher versatility than the technology disclosed in
(C:変形)
以上本発明の一実施形態について説明したが、この実施形態に以下の変形を加えても勿論良い。
(1)上記実施形態では、サンプリング周波数推定装置10に入力される複数の信号が、同じ音波形を各々別個独立にサンプリングして得られた複数の音信号である場合について説明した。しかし、サンプリング周波数推定装置10に入力される複数の信号は、同じ波形を各々別個独立にサンプリングして得られたものであれば良く、音信号に限定される訳ではない。また、上記実施形態では、第1の統計フィルタ処理として四分位数を利用した処理を採用したが、例えば、誤差算出部120によりフレーム毎に算出された推定値をその大きさ順にソートした後にそれらを三等分に区切り、小さい方の区切り位置に対応する値よりも小さいもの、および大きい方の区切り位置に対応する値よりも大きいものを外れ値とする処理を採用しても良い。要は、誤差算出部120によりフレーム毎に算出された第1の推定値をその大きさ順にソートした場合における両端から所定個数分、または両端から所定個数番目の各値に応じて定まる範囲に属さないもの、を外れ値とする処理であれば良い。
(C: deformation)
Although one embodiment of the present invention has been described above, the following modifications may be made to this embodiment.
(1) In the above embodiment, a case has been described where a plurality of signals input to the sampling
(2)上記実施形態の統計処理部130が実行する統計処理は、決定論的アプローチによる処理であり、四分位数法等を利用して外れ値を除外する第1の統計フィルタ処理と、第1の統計フィルタ処理の処理結果から代表値(上記実施形態では、中央値)を選択し、当該値を補正対象信号全体に亘るサンプリング周波数の誤差の推定値とする第2の統計フィルタ処理により構成さていた。しかし、フレーム毎に算出された第1の推定値を指数関数族で統計的にモデル化し、モデルパラメータを推定することにより、第2の推定値を算出する処理を上記統計処理として採用しても良い。具体的には、例えばラプラス分布で上記モデル化を行い、ラプラス分布のパラメータを推定することで分布の形状を決定し、決定された分布から最頻値を求め、その最頻値を上記第2の推定値とすることで、サンプリング周波数の誤差の尤も確からしい値を推定するといった具合である。
(2) The statistical processing executed by the
(3)上記実施形態の時間ズレ量算出部110は、相互相関関数C(τ)が最大となるτのみに基づいて時間ズレ量を算出したが、相互相関関数C(τ)の大きい順に最大M個のτを候補として残し、これらM個のτに基づいて時間ズレ量を算出しても良い。例えばこれらM個のτの平均値から時間ズレ量を算出するといった具合である。また、相互相関関数C(τ)の値が所定の閾値以上となる全てのτを時間ズレ量の候補としてもよい。この場合、パワーの大小の影響を避けるため、正規化相互相関関数を用いるようにすれば良い。
(3) The time lag
(4)時間ズレ量算出部110において、基準信号および補正対象信号のパワーが所定の閾値未満であるフレームを時間ズレ量の算出対象から除外するようにしても良い。上記閾値を適切な値に定めておけば、基準信号を充分な強度で含んでいないフレームや補正対象信号を充分な強度で含んでいないフレームが時間ズレ量の算出対象から除外される。基準信号を充分な強度で含んでいないフレームや補正対象信号を充分な強度で含んでいないフレームは、そもそもサンプリング周波数ズレの推定に対する寄与は小さく、このようなフレームについて時間ズレ量を算出したとしてもエラーを多く含むものとなってしまう。このような時間ズレ量に基づいて算出された第1の推定値は外れ値として第1の統計フィルタ処理部130aによって外れ値として除外される可能性が高く、そもそも時間ズレ量の算出自体が無駄になってしまう。このような態様によれば、時間ズレ量算出部110において無駄な演算が行われることを回避しつつ、サンプリング周波数の誤差を高い精度で算出することが可能になる。
(4) The time lag
(5)時間ズレ量算出部110において、相互相関関数C(τ)の最大値が所定の閾値を下回るフレームを時間ズレ量の算出対象から除外するようにしても良い。上記閾値を適切な値に定めておけば、当該閾値を下回る相互相関関数に基づいて時間ズレ量の算出が行われることはない。上記閾値を下回る相互相関関数に基づいて時間ズレ量を算出したとしてもエラーを多く含むものとなってしまい、このような時間ズレ量に基づいて算出され第1の推定値は外れ値として除外される可能性が高く、そもそも時間ズレ量の算出自体が無駄になってしまう。このような態様によっても、時間ズレ量算出部において無駄な演算が行われることを回避しつつ、サンプリング周波数を高い精度で算出することが可能になる。
(5) The time lag
(6)上記実施形態では、基準信号および補正対象信号をフレームに区切る際のフレームサイズを固定としたが、このような態様ではフレーム番号が大きくなるほど両信号のサンプルズレが大きくなり、相互相関関数C(τ)を計算が無意味になる(或いは、相互相関関数C(τ)を計算できなくなる)ことが考えられる。そこで、相互相関関数C(τ)の最大値が所定の閾値を下回った時点で処理を停止し、サンプリング周波数推定装置10の利用者に何らかの報知を行っても良く、また、フレームサイズを大きくして基準信号および補正対象信号のフレームを区切り直すようにしても良い。
(6) In the above embodiment, the frame size when dividing the reference signal and the correction target signal into frames is fixed. However, in such a mode, as the frame number increases, the sample shift between the two signals increases, and the cross-correlation function It is conceivable that the calculation of C (τ) becomes meaningless (or the cross-correlation function C (τ) cannot be calculated). Therefore, the processing may be stopped when the maximum value of the cross-correlation function C (τ) falls below a predetermined threshold, and some notification may be given to the user of the sampling
(7)上記実施形態では、基準信号と補正対象信号の相互相関関数をフレーム毎に算出することで、各フレームにおける両信号の時間ズレ量を算出した。しかし、両信号を正規化してから両信号の相互相関を算出し、その算出結果に基づいて時間ズレ量を算出しても勿論良い。また、基準信号と補正対象信号の一方を他方に対して時間軸方向にずらしつつ両信号の差信号を算出する処理をフレーム毎に実行するとともに当該差信号の振幅の最大値(或いはパワー)を両信号の相関を表す値として算出し、その算出結果に基づいて両信号のフレーム毎の時間ズレ量を算出しても良く、また両信号の和信号と差信号の比を算出することで両信号の相関を表す値をフレーム毎に算出しその算出結果に応じて両信号のフレーム毎の時間ズレ量を算出しても良い。また、パターンマッチングにより、基準信号と補正対象信号の相関を表す値をフレーム毎に算出し、その算出結果に応じて両信号のフレーム毎の時間ズレ量を算出しても良い。要は、基準信号と補正対象信号の相関をフレーム毎に算出し、その算出結果に応じて両信号のフレーム毎の時間ズレ量を算出する態様であれば良い。 (7) In the above embodiment, the amount of time lag between both signals in each frame is calculated by calculating the cross-correlation function between the reference signal and the signal to be corrected for each frame. However, it is of course also possible to calculate the cross-correlation between the two signals after normalizing the two signals and calculate the amount of time shift based on the calculation result. Further, a process of calculating a difference signal between the two signals while shifting one of the reference signal and the correction target signal in the time axis direction with respect to the other is executed for each frame, and the maximum value (or power) of the amplitude of the difference signal is determined. The signal may be calculated as a value representing the correlation between the two signals, and the time lag amount of each signal may be calculated for each frame based on the calculation result, or the ratio between the sum signal and the difference signal of the two signals may be calculated. A value representing the correlation between the signals may be calculated for each frame, and the amount of time lag between the two signals for each frame may be calculated based on the calculation result. Alternatively, a value indicating the correlation between the reference signal and the correction target signal may be calculated for each frame by pattern matching, and the amount of time lag between the two signals for each frame may be calculated based on the calculation result. The point is that the correlation between the reference signal and the signal to be corrected is calculated for each frame, and the time shift amount of each signal for each frame is calculated according to the calculation result.
1…信号処理システム、10…サンプリング周波数推定装置、20…時間軸圧伸装置、100…STFT部、110…時間ズレ量算出部、120…誤差算出部、130…統計処理部、130a…第1の統計フィルタ処理部、130b…第2の統計フィルタ処理部。
DESCRIPTION OF
Claims (4)
前記誤差算出ステップにてフレーム毎に算出された誤差に統計処理を施して前記補正対象信号全体に亘るサンプリング周波数の誤差を推定する統計処理ステップと、
前記統計処理ステップにて推定された誤差が解消されるように前記補正対象信号に時間軸圧伸を施して前記補正対象信号を前記基準信号に同期させる同期ステップと、を含み、
前記基準信号と前記補正対象信号は、同じ音波形を別個独立にサンプリングして得られた音信号である同期方法。 An error calculating step of calculating, for each frame, an error of a sampling frequency of a correction target signal being a second sound signal with respect to a sampling frequency of a reference signal being a first sound signal;
A statistical processing step of performing statistical processing on the error calculated for each frame in the error calculating step and estimating a sampling frequency error over the entire correction target signal;
A synchronization step of performing time-axis companding on the correction target signal so that the error estimated in the statistical processing step is eliminated and synchronizing the correction target signal with the reference signal,
The synchronization method, wherein the reference signal and the correction target signal are sound signals obtained by separately and independently sampling the same sound waveform.
前記誤差算出ステップでは、前記時間ズレ量算出ステップにて算出された時間ズレ量から、各フレームにおける前記補正対象信号のサンプリング周波数の誤差をフレーム毎に算出するIn the error calculation step, an error of the sampling frequency of the correction target signal in each frame is calculated for each frame from the time shift amount calculated in the time shift amount calculation step.
ことを特徴とする請求項1に記載の同期方法。The method according to claim 1, wherein:
前記誤差算出手段にてフレーム毎に算出された誤差に統計処理を施して前記補正対象信号全体に亘るサンプリング周波数の誤差を推定する統計処理手段と、
前記統計処理手段により推定された誤差が解消されるように時間軸圧伸を前記補正対象信号に施して前記補正対象信号を前記基準信号に同期させる同期手段と、を備え、
前記基準信号と前記補正対象信号は、同じ音波形を別個独立にサンプリングして得られた音信号である
同期装置。 Error calculating means for calculating, for each frame, an error of a sampling frequency of a correction target signal which is a second sound signal with respect to a sampling frequency of a reference signal which is a first sound signal;
Statistical processing means for performing statistical processing on the error calculated for each frame by the error calculating means and estimating a sampling frequency error over the entire correction target signal;
Synchronizing means for performing time-axis companding on the correction target signal so as to eliminate the error estimated by the statistical processing means and synchronizing the correction target signal with the reference signal,
A synchronizer, wherein the reference signal and the correction target signal are sound signals obtained by separately and independently sampling the same sound waveform .
前記誤差算出手段は、前記時間ズレ量算出手段にて算出された時間ズレ量から、各フレームにおける前記補正対象信号のサンプリング周波数の誤差をフレーム毎に算出するThe error calculating means calculates, for each frame, an error of the sampling frequency of the correction target signal in each frame from the time lag amount calculated by the time lag amount calculating means.
ことを特徴とする請求項3に記載の同期装置。The synchronizer according to claim 3, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017201493A JP6668306B2 (en) | 2017-10-18 | 2017-10-18 | Sampling frequency estimation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017201493A JP6668306B2 (en) | 2017-10-18 | 2017-10-18 | Sampling frequency estimation device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014077380A Division JP6229576B2 (en) | 2014-04-03 | 2014-04-03 | Sampling frequency estimation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018010712A JP2018010712A (en) | 2018-01-18 |
JP6668306B2 true JP6668306B2 (en) | 2020-03-18 |
Family
ID=60995665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017201493A Expired - Fee Related JP6668306B2 (en) | 2017-10-18 | 2017-10-18 | Sampling frequency estimation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6668306B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3196715B2 (en) * | 1997-10-22 | 2001-08-06 | ヤマハ株式会社 | Communication device for communication of music information, communication method, control device, control method, and medium recording program |
WO2010084769A1 (en) * | 2009-01-22 | 2010-07-29 | パナソニック株式会社 | Hearing aid |
-
2017
- 2017-10-18 JP JP2017201493A patent/JP6668306B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2018010712A (en) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017687B2 (en) | Audio signal analysis | |
US8543387B2 (en) | Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures | |
CN109074814B (en) | Noise detection method and terminal equipment | |
US8854238B2 (en) | Asynchronous sampling frequency conversion device, method, and computer program product | |
CN111640411A (en) | Audio synthesis method, device and computer readable storage medium | |
JP2021520161A (en) | Phase calibration method and equipment | |
CN107210029A (en) | Method and apparatus for handling succession of signals to carry out polyphony note identification | |
JP5395399B2 (en) | Mobile terminal, beat position estimating method and beat position estimating program | |
JP6229576B2 (en) | Sampling frequency estimation device | |
CN111402905B (en) | Audio data recovery method and device and Bluetooth device | |
JP6668306B2 (en) | Sampling frequency estimation device | |
CN111462775B (en) | Audio similarity determination method, device, server and medium | |
CN108806721A (en) | signal processor | |
US11611839B2 (en) | Optimization of convolution reverberation | |
CN109841232A (en) | The extracting method of note locations and device and storage medium in music signal | |
US11386917B1 (en) | Audio-based repetition counter system and method | |
JP2015200685A (en) | Attack position detection program and attack position detection device | |
JP5611393B2 (en) | Delay time measuring apparatus, delay time measuring method and program | |
JP2017203931A (en) | Acoustic property measurement device and acoustic property measurement method | |
CN108235426B (en) | Method, device and system for detecting time delay and local time difference between terminals | |
US20190096432A1 (en) | Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program | |
CN108962268A (en) | The method and apparatus for determining the audio of monophonic | |
CN115811682B (en) | Loudspeaker distortion analysis method and device based on time domain signals | |
JP6139430B2 (en) | Signal processing apparatus, method and program | |
JP6064561B2 (en) | Beat information estimation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180829 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6668306 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |