JP2021135361A - Sound processing device, sound processing program and sound processing method - Google Patents
Sound processing device, sound processing program and sound processing method Download PDFInfo
- Publication number
- JP2021135361A JP2021135361A JP2020030596A JP2020030596A JP2021135361A JP 2021135361 A JP2021135361 A JP 2021135361A JP 2020030596 A JP2020030596 A JP 2020030596A JP 2020030596 A JP2020030596 A JP 2020030596A JP 2021135361 A JP2021135361 A JP 2021135361A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frame
- masker
- pitch
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 55
- 239000011295 pitch Substances 0.000 description 181
- 230000000873 masking effect Effects 0.000 description 113
- 238000009825 accumulation Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000587212 Esox masquinongy Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。 The present invention relates to an acoustic processing device, an acoustic processing program, and an acoustic processing method. For example, a sound masking process used as a method for preventing the contents of a conversation from being leaked to a third party around the speaker who is speaking. Can be applied to.
近年、不特定多数の人が存在する施設(例えば、病院、薬局、銀行等)の受付カウンター、窓口、打合せスペース等で話者が会話の相手と会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。 In recent years, when a speaker talks with a conversation partner at a reception counter, a window, a meeting space, etc. of a facility (for example, a hospital, a pharmacy, a bank, etc.) where an unspecified number of people exist, the content of the conversation becomes the surrounding number. Leakage to three parties has become a problem.
第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。 Preventing the leakage of conversation content to a third party is called speech privacy, and the sound masking effect is used to realize speech privacy.
音のマスキング効果とは、ある音(以下、「対象音」とも呼ぶ)が聞こえている状態で、対象音に近い音響特性(例えば、周波数特性、ピッチ、フォルマント等)を持つ別の音が存在した場合、対象音が聞き取りにくくなる(マスクされる)現象である。一般的にマスクする音は「マスカー」と呼ばれ、マスクされる音(対象音)は「マスキー」とも呼ばれる。 The sound masking effect is a state in which a certain sound (hereinafter, also referred to as "target sound") is heard, and another sound having acoustic characteristics (for example, frequency characteristics, pitch, formant, etc.) close to the target sound exists. This is a phenomenon in which the target sound becomes difficult to hear (masked). Generally, the masked sound is called "masker", and the masked sound (target sound) is also called "muskellunge".
この音のマスキング効果を利用した、第三者に会話内容の漏洩を防止(スピーチプライバシーを保護)するサウンドマスキング装置が特許文献1によって提案されている。 Patent Document 1 proposes a sound masking device that uses this sound masking effect to prevent leakage of conversation content to a third party (protect speech privacy).
しかしながら、特許文献1の音声処理方法では、マイクロフォンの入力音声信号のスペクトル包絡を抽出し、スペクトル包絡を変形させて変形スペクトル包絡を生成し、スペクトル微細構造と合成してマスカー信号生成に使用する信号として使用している。このため、特許文献1の記載技術では、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。 However, in the voice processing method of Patent Document 1, the spectral envelope of the input voice signal of the microphone is extracted, the spectral envelope is deformed to generate a deformed spectral envelope, and the signal is combined with the spectral microstructure to be used for masker signal generation. It is used as. Therefore, in the technique described in Patent Document 1, the masker signal generated by transforming the speaker's voice signal becomes an artificial sound, and the masker signal may become an unpleasant sound.
さらに、特許文献1に記載の音声処理方法では、マイクロフォンの入力音声信号を変形させてマスカー信号を生成しているので、マイクロフォンの入力音声信号の言葉とマスカー信号の言葉が似た内容になり、音声信号とマスカー信号を聞く人にとって、エコーのような不快な音が聞こえるになる。 Further, in the voice processing method described in Patent Document 1, since the masker signal is generated by transforming the input voice signal of the microphone, the words of the input voice signal of the microphone and the words of the masker signal have similar contents. For those who hear the audio and masker signals, you will hear an unpleasant sound like an echo.
以上のような問題に鑑みて、生成したマスカー信号を聞く聴者の不快感を軽減する音響処理装置、音響処理プログラム及び音響処理方法が望まれている。 In view of the above problems, an acoustic processing device, an acoustic processing program, and an acoustic processing method that reduce the discomfort of the listener listening to the generated masker signal are desired.
第1の本発明の音響処理装置は、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割手段でフレーム分割されたマイク入力信号を合わせて所定の長さの長時間フレームとして作成する長時間フレーム信号作成手段と、(3)前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積する入力信号蓄積手段と、(4)前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行うフレーム信号選択手段と、(5)前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限するフレーム選択制限手段と、(6)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段とを有することを特徴とする。 The first sound processing apparatus of the present invention includes (1) a frame dividing means for dividing a microphone input signal supplied from a microphone that picks up the sound spoken by the target speaker into a predetermined length, and (2) the above. A long-time frame signal creating means that combines the microphone input signals frame-divided by the frame-dividing means to create a long-time frame of a predetermined length, and (3) a long-time frame signal generated by the long-time frame signal creating means. And (4) a frame signal selection process for selecting a signal to be used for generating a masker signal from a past frame-divided microphone input signal stored in the input signal storage means. Used for frame signal selection means to be performed, (5) frame selection limiting means for limiting the frames to be selected when the frame signal selection means performs the frame signal selection process, and (6) generation of the masker signal. It is characterized by having a masker signal generation means for generating and outputting the masker signal that makes it difficult to hear the voice spoken by the target speaker using the signal.
第2の本発明の音響処理プログラムは、コンピュータを、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割手段でフレーム分割されたマイク入力信号を所定の長さの時間フレームにする長時間フレーム信号作成手段と、(3)前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積する入力信号蓄積手段と、(4)前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行うフレーム信号選択手段と、(5)前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限するフレーム選択制限手段と、(6)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段とを有することを特徴として機能させることを特徴とする。 The second sound processing program of the present invention comprises (1) a frame dividing means for dividing a microphone input signal supplied from a microphone that picks up the sound spoken by the target speaker into a predetermined length, and (1) 2) A long-time frame signal creating means for converting the microphone input signal frame-divided by the frame-dividing means into a time frame of a predetermined length, and (3) a long-time frame signal generated by the long-time frame signal creating means. Performs a frame signal selection process for selecting the input signal storage means to be stored and (4) a signal to be used for generating a masker signal from the past frame-divided microphone input signals stored in the input signal storage means. The frame signal selection means, (5) the frame selection limiting means for limiting the frame to be selected when the frame signal selection means performs the frame signal selection process, and (6) the signal used to generate the masker signal. It is characterized in that it has a masker signal generation means for generating and outputting the masker signal that makes it difficult to hear the voice spoken by the target speaker.
第3の本発明は、音響処理装置が行う音響処理方法において、(1)前記音響処理装置は、フレーム分割手段、長時間フレーム信号作成手段、入力信号蓄積手段、フレーム選択制限手段、フレーム信号選択手段、及び、マスカー信号生成手段を有し、(2)前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、(3)前記長時間フレーム信号作成手段は、前記フレーム分割手段でフレーム分割されたマイク入力信号を合わせて所定の長さの長時間フレームとして作成し、(4)前記入力信号蓄積手段は、前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積し、(5)前記フレーム信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行い、(6)前記フレーム選択制限手段は、前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限し、(7)前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力することを特徴とする。 A third aspect of the present invention is the acoustic processing method performed by the acoustic processing apparatus. (1) The acoustic processing apparatus includes a frame dividing means, a long-time frame signal creating means, an input signal accumulating means, a frame selection limiting means, and a frame signal selection. It has means and a masker signal generating means, and (2) the frame dividing means divides a microphone input signal supplied from a microphone that picks up the sound spoken by the target speaker into a predetermined length, and (2) 3) The long-time frame signal creating means creates a long-time frame having a predetermined length by combining the microphone input signals frame-divided by the frame-dividing means, and (4) the input signal accumulating means has the length. The long-time frame signal generated by the time frame signal creating means is accumulated, and (5) the frame signal selecting means generates a masker signal from the past frame-divided microphone input signal stored in the input signal storing means. A frame signal selection process for selecting a signal to be used is performed, and (6) the frame selection limiting means limits the frames to be selected when the frame signal selection means performs the frame signal selection process. (7) The masker signal generation means uses the signal used to generate the masker signal to generate and output the masker signal that makes it difficult to hear the voice spoken by the target speaker. ..
本発明によれば、音声信号と生成したマスカー信号を聞く聴者の不快感を軽減する音響処理装置、音響処理プログラム及び音響処理方法を提供することができる。 According to the present invention, it is possible to provide an acoustic processing device, an acoustic processing program, and an acoustic processing method that reduce discomfort to a listener listening to an audio signal and a generated masker signal.
(A)第1の実施形態
以下、本発明の音響処理装置、音響処理、及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(A) First Embodiment Hereinafter, the first embodiment of the acoustic processing apparatus, acoustic processing, and acoustic processing method of the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to the sound masking device will be described.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of the
サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、DA変換器104、スピーカアンプ105、スピーカ106、及びサウンドマスキング処理部200を有している。
The
マイク101は、人の音声や音等の空気振動を電気信号に変換するものである。
The
マイクアンプ102は、マイク101により受音(収音)された電気信号を増幅するものである。
The
AD変換器103は、マイクアンプ102により増幅された電気信号(アナログ信号)をデジタル信号に変換するものである。以下、AD変換器103から出力されるデジタル信号を「マイク入力信号」と呼ぶものとする。
The
サウンドマスキング処理部200は、入力されたマイク入力信号からマスカー信号を生成し、出力する。
The sound
DA変換器104は、サウンドマスキング処理部200から出力された出力信号(デジタル信号)を電気信号(アナログ信号)に変換するものである。
The
スピーカアンプ105は、DA変換器104から出力される電気信号を増幅するものである。
The
スピーカ106は、電気信号を空気の振動に変換して音として出力するものである。
The
次に、サウンドマスキング処理部200の詳細な構成を説明する。
Next, the detailed configuration of the sound
サウンドマスキング処理部200は、フレーム分割部201、長時間フレーム信号作成部202、DB(データベース)書込み部203、入力信号DB204、フレーム信号DB205、フレーム選択制限部206、フレーム信号選択部207、マスカー信号生成部208、音入力端子IN、及び音出力端子OUTを有している。
The sound
音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)のである。
The sound input terminal IN is an interface (audio interface) for inputting a microphone input signal to the sound
フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(以下、「フレーム長L1」と表す)のフレーム(以下、「分割フレーム」と呼ぶ)に分割して出力する。フレーム長L1は、一般的に音声を解析するのに適した長さを適用することが望ましい。例えば、フレーム分割部201において、フレーム長L1は、100〜200msecとしても良い。そして、フレーム分割部201は、分割したフレーム信号(以下、「分割フレーム信号」と呼ぶ)を出力する。
The
長時間フレーム信号作成部202は、分割フレーム信号を所定の長さ(以下、「フレーム長L2」と表す)のフレーム(以下、「長時間フレーム」と呼ぶ)に結合して出力する。フレーム長L2(分割フレームを結合する長さ;分割フレームを結合する数)は、音声信号の単語、もしくは文章として認識できる程度の長さ(人間の耳で聞いたときに音声信号の単語、もしくは文章と判定できる長さ)を適用することが望ましい。例えば、長時間フレーム信号作成部202において、フレーム長L2は分割フレーム信号を3フレームから5フレーム結合した長さ(例えば、L2=L2×3からL2=L2×5)としても良く、音の分節単位(例えば、モーラを単位とする長さで1モーラから2モーラ)の長さになるように結合しても良く、時間単位(例えば、を300〜1000msecの範囲のいずれかの長さ)としても良い。そして、長時間フレーム信号作成部202は、結合した長時間のフレーム信号(以下、「長時間フレーム信号」と呼ぶ)を出力する。
The long-time frame
DB書込み部203は、長時間フレーム信号を入力信号DB204のフレーム信号DB205に書込む。
The
入力信号DB204は、過去の各長時間フレーム信号を長時間フレーム毎に蓄積(保持)する記憶手段である。入力信号DB204内のデータ形式については限定されないものであるが、ここでは、入力信号DB204は、過去の長時間フレーム信号を蓄積するフレーム信号DB205で構成されているものとする。
The
フレーム選択制限部206は、制限するフレーム数(以下、「制限フレーム数」と呼ぶ)を決定し、制限フレーム数を出力する。
The frame
フレーム信号選択部207は、入力信号DB204のフレーム信号DB205に蓄積されている過去の長時間フレーム信号を、フレーム選択制限部206の制限フレーム数より前のフレームからマスカー信号を生成するために使用する信号(以下、「マスカー素片信号」と呼ぶ)として複数フレーム選択し、選択したフレームを出力する。
The frame
マスカー信号生成部208は、フレーム信号選択部207の選択結果を基に、フレーム信号選択部207で選択されたマスカー素片信号を入力信号DB204のフレーム信号DB205から複数フレーム読み出し、読み出された複数フレームのマスカー素片信号を使用してマスカー信号を生成し、出力する。
Based on the selection result of the frame
音出力端子OUTは、マスカー信号生成部208で生成したマスカー信号をDA変換器104に出力するインタフェース(オーディオインターフェース)である。
The sound output terminal OUT is an interface (audio interface) that outputs the masker signal generated by the masker
サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。また、サウンドマスキング処理部200は、例えば、メモリ及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。
The sound
なお、この実施形態では、AD変換器103及びDA変換器104を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103及びDA変換器104を搭載した構成としても良い。
In this embodiment, the
図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。
FIG. 2 shows a configuration when the sound masking
図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。
The sound
図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。
The
一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。
The
二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。
The
この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発性メモリであれば、二次記憶部303については除外した構成としても良い。
In the
図3は、マイク101と、マイク101に向かって発話する話者(以下、「対象話者」と呼ぶ)U1と、対象話者U1の後ろ側に立っている対象話者以外の人(対象話者U1の発話する音声の聴取をマスキングする対象の人:以下、「マスキング対象者」と呼ぶ)U2と、スピーカ106との配置関係(スピーカ106の配置構成)の例について示した図である。
FIG. 3 shows a
図3では、スピーカ106から出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3の(a)では、直接音が床FR(FLOOR)に反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。
In FIG. 3, the directivity of the direct sound DS (Direct Sound) output from the
図3の(a)では、スピーカ106は、対象話者U1の前方で膝程度の高さ、スピーカ106の振動面が下向きで、床FRの表面に対して斜め方向に設置されることで、直接音DSが床FRに反射し、反射した反射音RSが対象話者U1の後方にいるマスキング対象者U2に伝わるように向けられた状態となっている。そして、スピーカ106から放射されたマスカー信号は、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、床FRで反射したマスカー信号は、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。
In FIG. 3A, the
以上のように、スピーカ106の設置方法は、マスカー信号が対象話者U1に聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図3の(b)に示しているように、対象話者U1の後ろにスピーカ106を設置できるスペースがあれば、対象話者U1の後ろにスピーカ106を設置して、直接スピーカの106の振動面をマスキング対象者U2に向けて出力するようにしても良いし、図3の(c)に示しているように、マスキング対象者U2の近くの床FRにスピーカ106を埋め込むスペースがあれば、床FRにスピーカ106を埋め込むようにして直接スピーカの106の振動面をマスキング対象者U2に向けてマスカー信号を出力するようにしても良いし、図2の(c)に示しているように、マスキング対象者U2の近くの天井CE(CEILING)にスピーカ106を設置できるスペースがあれば、天井CEにスピーカ106を設置して、直接スピーカの106の振動面をマスキング対象者U2に向けてマスカー信号を出力するようにでも良い。
As described above, as the installation method of the
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態のサウンドマスキング装置100の動作(実施形態の音響処理方法)を説明する。
(A-2) Operation of the First Embodiment Next, the operation of the
サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の対象話者U1がマイク101に向かって音声を発話すると、マイク101に音声信号が入力される。
When the operation of the
マイク101に入力されたアナログの音声信号は、電気信号(アナログ信号)に変換され、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時系列を示すパラメータである。
The analog audio signal input to the
サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
When the microphone input signal x (n) starts to be input to the sound input terminal IN of the sound masking
フレーム分割部201は、マイク入力信号x(n)を分割フレーム信号のフレーム長L1に分割する。フレーム分割部201は、例えば、(1)式に従い、マイク入力信号x(n)を分割フレーム毎に分割する。
x_fram(l;m)=x(l・L1+m)…(1)
The
x_fram (l; m) = x (l · L1 + m) ... (1)
(1)式で、x_fram(l;m)は分割フレーム信号、lはフレーム番号、mは当該分割フレーム内の時間(m=0、1、2、…、L1−1)である。 In the equation (1), x_fram (l; m) is the divided frame signal, l is the frame number, and m is the time in the divided frame (m = 0, 1, 2, ..., L1-1).
フレーム分割部201は、分割フレーム信号x_fram(l;m)を長時間フレーム信号作成部202に出力する。
The
長時間フレーム信号作成部202は、分割フレーム信号x_fram(l;m)をフレーム長L2に結合する。長時間フレーム信号作成部202が長時間フレームを作成する具体的手法については限定されないものであり種々の方式を適用することができる。長時間フレーム信号作成部202は、例えば、分割フレーム信号を分割フレームで結合する場合は、(2)式に従い、長時間フレーム信号x_fram_long(s)を作成するようにしても良い。
x_fram_long(i・L1+m)
=x_fram(l−((I−1)−i);m)…(2)
The long-time frame
x_fram_long (i ・ L1 + m)
= X_fram (l-((I-1) -i); m) ... (2)
(2)式で、iはインデックス(i=0、1、2、…、I−1)、Iは長時間フレーム信号に用いられる分割フレームの数(以下、「使用フレーム数」と呼ぶ)である(I=L2/L1)である。 In equation (2), i is the index (i = 0, 1, 2, ..., I-1), and I is the number of divided frames used for the long-time frame signal (hereinafter referred to as "the number of frames used"). There is (I = L2 / L1).
また、長時間フレーム信号x_fram_long(s)の作成手法は、例えば、(3)式、(4)式に従い、長時間フレーム信号x_fram_long(s)を用いるようにしても良い。
x_fram_long(s)=x_fram_long(s+L1 ) …(3)
x_fram_long(L2−L1+m)=x_fram(l;m) …(4)
Further, as a method for creating the long-time frame signal x_fram_long (s), for example, the long-time frame signal x_fram_long (s) may be used according to the equations (3) and (4).
x_fram_long (s) = x_fram_long (s + L1) ... (3)
x_fram_long (L2-L1 + m) = x_fram (l; m) ... (4)
(3)式で、sは長時間フレーム内の時間(s=0、1、2、…、L2−L1−1)である。(3)式は、長時間フレーム信号x_fram_long(s)を分割フレーム長L1だけ前にシフトし、(4)式は、長時間フレーム信号x_fram_long(s)の後ろに分割フレーム信号x_fram(l;m)を格納するという式である。なお、長時間フレーム信号作成部202は、分割フレーム信号x_fram(l;m)を時間単位で結合しても良い。
In equation (3), s is the time in the frame for a long time (s = 0, 1, 2, ..., L2-L1-1). In the equation (3), the long-time frame signal x_fram_long (s) is shifted forward by the split frame length L1, and in the equation (4), the long-time frame signal x_fram_long (s) is followed by the split frame signal x_fram (l; m; m). ) Is stored. The long-time frame
そして、長時間フレーム信号作成部202は、長時間フレーム信号x_fram_long(s)をDB書込み部203に出力する。
Then, the long-time frame
DB書込み部203は、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に書込む。DB書込み部203は、例えば、(5)と(6)式に従い、長時間フレーム信号x_fram_long(s)を、それぞれ入力信号DB204のフレーム信号DB205DB_singal(j;t)に書込む。
(5)式で、tは長時間フレーム内の時間(t=0、1、2、…、L2−1)、jは入力信号DB204のフレーム信号DB205に長時間フレーム信号が書込まれるとインクリメン卜されるインデックス(j=0、1、2、…、DB_LEN−1;主キー;長時間フレームの識別子)、DB_LENはデータベース長である。(5)式と(6)式に示すように、フレーム信号DB205は、DB_singal(j;t)に、長時間フレーム信号x_fram_long(s)を書き込む。
In equation (5), t is the time in the frame for a long time (t = 0, 1, 2, ..., L2-1), and j is an index when the frame signal DB205 of the input signal DB204 is written for a long time. The index to be processed (j = 0, 1, 2, ..., DB_LEN-1; primary key; long-time frame identifier), DB_LEN is the database length. As shown in the equations (5) and (6), the
入力信号DB204は、過去の各長時間フレーム信号を蓄積(保持)する記憶手段である。
The
上述の通り、この実施形態の入力信号DB204には、フレーム信号DB205が含まれている。ここでは、フレーム信号DB205に各長時間フレーム信号x_fram_long(s)が蓄積されることになる。
As described above, the
フレーム選択制限部206は、制限フレーム数を決定する。フレーム選択制限部206が選択するフレーム信号を制限する具体的手法については限定されないものであり種々の方式を適用することができる。フレーム選択制限部206は、例えば、(7)式に従い、入力信号DB204に蓄積されたばかりの長時間フレーム信号を後述するフレーム信号選択部207で選択しないようするための、制限フレーム数を決定する。
Limit_Fream_NUM=a×DB_LEN …(7)
The frame
Limit_Fream_NUM = a × DB_LEN… (7)
(7)式で、Limit_Fream_NUMは制限フレーム数(Limit_Fream_NUM<DB_LEN)、aはデータベース長DB_LENに対する割合であり、0.1以上、0.5以下の値となる。(7)式において、制限フレーム数を短くしたい場合、aは0.1に近い値が望ましく(例えばa=0.1等の値)、制限フレーム数を長くしたい場合aは0.5に近い値が望ましい(例えば、a=0.5等の値)。 In the equation (7), Limit_Fream_NUM is the number of limited frames (Limit_Fream_NUM <DB_LEN), and a is the ratio to the database length DB_LEN, which is 0.1 or more and 0.5 or less. In equation (7), when it is desired to shorten the number of limited frames, a is preferably a value close to 0.1 (for example, a value such as a = 0.1), and when it is desired to increase the number of limited frames, a is close to 0.5. A value is desirable (eg, a value such as a = 0.5).
なお、フレーム選択制限部206における制限フレーム数を決定する手法は限定されないものであり種々の手法を適用することができる。フレーム選択制限部206では、例えば、蓄積されたばかりのフレーム信号とピッチ情報(直近の所定時間内のフレーム信号とピッチ情報)をフレーム信号選択部207で選択しない状態となる長さの固定値Fream_NUM_CONSTをLimit_Fream_NUM(例えば、Limit_Fream_NUM=10)と設定しても良く、時間の固定値TIME_CONSTで設定(例えば、Fream_NUM_CONST=(fs・TIME_CONST)/L2)しても良いし、予め実験等により、マスキング対象者U2の位置においてマスカー信号に基づくマスカー音によるマスキング効果を維持しつつ、エコーのように聞こえない程度の好適な値(マスカー音が不快な音とならない程度の値)をLimit_Fream_NUMとして設定(例えば、サウンドマスキング装置100及びスピーカ106を実際の環境に設置した後に、好適な値をLimit_Fream_NUMとする)としても良い。
The method for determining the limited number of frames in the frame
そして、フレーム選択制限部206は、制限フレーム数Limit_Fream_NUMをフレーム信号選択部207に出力する。
Then, the frame
フレーム信号選択部207は、入力信号DB204のフレーム信号DB205に蓄積されている過去の長時間フレーム信号を、フレーム選択制限部206の制限フレームLimit_Fream_NUMより前のフレームからマスカー素片信号として複数フレーム選択する。フレーム信号選択部207がマスカー素片信号の選択する具体的手法については限定されないものであり種々の方式を適用することができる。フレーム信号選択部207は、例えば、(8)式に従い、フレームを選択する。
(8)式で、T(p)は選択したフレーム、p(p=0、1…、SEL_NUM−1)は選択したフレームT(p)のインデックス、SEL_NUM(SEL_NUM<=DB_LEN−1)はマスカー素片信号の選択数、jは(6)式のデータベースのインデックスである。(8)式は、入力信号DB204のフレーム信号DB205に保持されている長時間フレーム信号を、制限フレーム数Limit_Fream_NUMより前のフレームから、時間的に新しい順番で選択し、選択した長時間フレーム信号が保持されているデータベースのインデックス番号をT(p)に代入するという式である。
In equation (8), T (p) is the selected frame, p (p = 0, 1 ..., SEL_NUM-1) is the index of the selected frame T (p), and SEL_NUM (SEL_NUM <= DB_LEN-1) is the masker. The number of selected elementary signals, j, is the index of the database in Eq. (6). In the equation (8), the long-time frame signal held in the
また、マスカー素片信号の選択手法は、例えば、マスカー素片信号を制限フレーム数Limit_Fream_NUMより前のフレームからランダムに選択しても良い。 Further, as a method for selecting the masker element signal, for example, the masker element signal may be randomly selected from the frames before the limited number of frames Limit_Fream_NUM.
以上のように、フレーム信号選択部207は、フレーム信号DB205に保持されている長時間フレーム信号から複数フレーム選択し、選択したフレームT(p)をマスカー信号生成部208に出力する。
As described above, the frame
マスカー信号生成部208は、フレーム信号選択部207の選択したフレームT(p)を基に、マスカー素片信号を入力信号DB204のフレーム信号DB205から複数フレーム読み出し、マスカー信号を生成し出力する。マスカー信号生成部208がマスカー信号を生成する具体的手法については限定されないものであり種々の方式を適用することができる。マスカー信号生成部208は、例えば、(9)式に従い、マスカー信号h(l;t)を生成する。
(9)式は、フレーム信号選択部207で選択された複数のマスカー素片信号を入力信号DB204のフレーム信号DB205から読み出し、読み出したマスカー素片信号を重畳して、マスカー信号h(l;t)を生成する式である。
In the equation (9), a plurality of masker element signals selected by the frame
そして、マスカー信号生成部208は、(10)式に従い、マスカー信号h(l;t)をオーバーラップ加算処理して出力信号y(n)とし、音出力端子OUTから出力する。
サウンドマスキング処理部200の音出力端子OUTから出力されるマスカー信号は、DA変換器104でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ106から出力される。
The masker signal output from the sound output terminal OUT of the sound masking
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effect of First Embodiment According to the first embodiment, the following effects can be obtained.
第1の実施形態のサウンドマスキング装置100では、入力信号DBのフレーム信号DBに蓄積されている過去の長時間フレーム信号を、制限フレーム数より前のフレームからマスカー素片信号を複数フレーム選択してマスカー信号(マスキング音)を生成している。これにより、第1の実施形態のサウンドマスキング装置100では、新しい長時間フレーム信号がマスカー素片信号として選択されなくなることで、マスカー信号がエコーのような音にならないため、生成したマスカー信号の聞き心地が良くなる(マスキング対象者U2にとっての不快感が軽減される)。
In the
(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(B) Second Embodiment Hereinafter, a second embodiment of the acoustic processing apparatus, the acoustic processing program, and the acoustic processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to the sound masking device will be described.
(B−1)第2の実施形態の構成
図4は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図4では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 4 is a block diagram showing a functional configuration of the
以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。 In the following, the second embodiment will be mainly described with respect to the difference from the first embodiment, and the description of the part overlapping with the first embodiment will be omitted.
第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。
The
サウンドマスキング処理部200Aでは、音声区間判定部209とDB蓄積判定部210とマスカー信号生成判定部211が追加されており、さらに、DB書込み部203とフレーム信号選択部207とマスカー信号生成部208が、DB書込み部203Aとフレーム信号選択部207Aとマスカー信号生成部208Aに置き換わっている点で、第1の実施形態と異なっている。
In the sound masking
第2の実施形態のサウンドマスキング装置100Aでは、音声区間判定部209とDB蓄積判定部210が追加され、DB書込み部203Aに置き換わったことにより入力信号DB204のフレーム信号DB205に蓄積される長時間フレーム信号の蓄積方法が異なる点と、マスカー信号生成判定部211が追加されたことによりマスカー信号の生成方法が異なる点と、フレーム信号選択部207Aに置き換わったことによりとマスカー素片信号の選択方法が異なる点と、マスカー信号生成部208Aに置き換わったことによりマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。サウンドマスキング処理部200Aの詳細な構成を説明する。
In the
サウンドマスキング処理部200Aは、フレーム分割部201、音声区間判定部209、DB蓄積判定部210、長時間フレーム信号作成部202、DB書込み部203A、入力信号DB204、フレーム信号DB205、フレーム選択制限部206、フレーム信号選択部207A、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有する。
The sound
音声区間判定部209は、分割フレーム信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。
The voice
DB蓄積判定部210は、音声区間判定部209の判定結果を基に、長時間フレーム信号をDBに蓄積するか否かを判定し、判定結果を出力する。
The DB
DB書込み部203Aは、DB蓄積判定部210の判定結果を基に、長時間フレーム信号を入力信号DB204のフレーム信号DB205に書込む。
The
マスカー信号生成判定部211は、音声区間判定部209の判定結果を基に、マスカー信号を生成するか否かを判定し、判定結果を出力する。
The masker signal
フレーム信号選択部207Aは、マスカー信号生成判定部211の判定結果を基に、入力信号DB204に蓄積されている過去の長時間フレーム信号を、フレーム選択制限部206の制限フレーム数より前のフレームからマスカー素片信号として複数フレーム選択し、選択したフレームを出力する。
Based on the determination result of the masker signal
なお、第2の実施形態において、第2の実施形態と同様にマスカー信号生成判定部211を除外した構成としても良い。
In the second embodiment, the masker signal
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
(B-2) Operation of the Second Embodiment Next, the operation of the
第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第1の実施形態と異なる点である音声区間判定部209、DB蓄積判定部210、DB書込み部203A、マスカー信号生成判定部211、フレーム信号選択部207Aにおける動作を中心に詳細に説明する。
In the following, the operations in the voice
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、分割フレーム信号x_fram(l;m)を音声区間判定部209、長時間フレーム信号作成部202に出力する。
The
音声区間判定部209は、分割フレーム信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間判定部209が音声区間か非音声区間かを判定する具体的手法については限定されないものであり種々の方式を適用することができる。音声区間判定部209は、例えば、(11)式と(12)式に従い、音声区間か非音声区間かを判定するようにしても良い。
(11)式と(12)式で、x_fram_amp(l)は分割フレーム信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。(11)式は、分割フレーム信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式である。(12)式は、(11)式で求めた分割フレーム信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。 In equations (11) and (12), x_fram_amp (l) is the average amplitude value of the divided frame signal, VAD (l) is the voice section determination result, and TH is the threshold value used for the determination of the voice section. Equation (11) is an equation for obtaining the average amplitude value x_fram_amp (l) of the divided frame signal x_fram (l; m). In the equation (12), if the average amplitude value x_fram_amp (l) of the divided frame signal x_fram (l; m) obtained by the equation (11) is larger than the threshold value TH, it is determined as a voice section and the voice section determination result VAD (l). ) Is substituted, and if the value is smaller than the threshold value TH, it is determined to be a non-voice section, and 0 is substituted into the voice section determination result VAD (l).
(12)式の閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができる。例えば、(13)式に示すように、サウンドマスキング装置100Aが動作し始めてから所定の長さ(以下、「フレーム長L3」と表す)のフレーム(以下、「初期フレーム」と呼ぶ)を無音区間とし、その初期フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良い。また、(14)式に従い、分割フレーム信号x_fram(l;m)の平均振幅値x_fram_amp(l)に時定数フィルタを用いて分割フレーム毎に変動する閾値TH(l)を用いても良い。
(14)式で、bは時定数フィルタの係数であり、0以上、1以下の値となる。(14)式において、閾値の更新を遅くしたい場合、bは1に近い値が望ましく(例えばb=0.9等の値)、閾値の更新を速くしたい場合、bは0に近い値が望ましい(例えばb=0.1等の値)。 In equation (14), b is the coefficient of the time constant filter, which is a value of 0 or more and 1 or less. In equation (14), when it is desired to delay the update of the threshold value, b is preferably a value close to 1 (for example, a value such as b = 0.9), and when it is desired to speed up the update of the threshold value, b is preferably a value close to 0. (For example, a value such as b = 0.1).
なお、音声区間判定部209において、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、分割フレーム信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。
In the voice
そして、音声区間判定部209は、音声区間判定結果VAD(l)をDB蓄積判定部210とマスカー信号生成判定部211に出力する。
Then, the voice
DB蓄積判定部210は、音声区間判定部209の音声区間判定結果VAD(l)を基に、分割フレーム信号x_fram(l;m)を入力信号DB204のフレーム信号DB205に蓄積するか否かを判定する。DB蓄積判定部210は、例えば、(15)式に従い、分割フレーム信号x_fram(l;m)を入力信号DB204のフレーム信号DB205に蓄積するか否かを判定する。
(15)式で、DB_flag(l)は蓄積するか否かの判定結果である。(15)式は、音声区間判定結果VAD(l)が1のとき、DBに蓄積すると判定し、判定結果DB_flag(l)に1を代入し、音声区間判定結果VAD(l)が0のとき、DBに蓄積しないと判定し、判定結果DB_flag(l)に0を代入するという式である。 In equation (15), DB_flag (l) is a determination result of whether or not to accumulate. In the equation (15), when the voice section determination result VAD (l) is 1, it is determined that the data is accumulated in the DB, 1 is substituted for the determination result DB_flag (l), and the voice interval determination result VAD (l) is 0. , It is determined that the data is not accumulated in the DB, and 0 is substituted into the determination result DB_flag (l).
そして、DB蓄積判定部210は、DBに蓄積するか否かの判定結果DB_flag(l)をDB書込み部203Aに出力する。
Then, the DB
DB書込み部203Aは、DB蓄積判定部210の判定結果DB_flag(l)が1のときのみ、例えば、(5)式、(6)式に従い、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に書込む。一方、DB蓄積判定部210の判定結果DB_flag(l)が0のとき、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に書込まない。
The
マスカー信号生成判定部211は、音声区間判定部209の音声区間判定結果VAD(l)を基に、マスカー信号を生成するか否かを判定する。判定手段は、例えば、(16)式に従い、マスカー信号を生成するか否かを判定する。
(16)式で、mask_flag(l)はマスカー信号を生成するか否かの判定結果である。 In equation (16), mask_flag (l) is a determination result of whether or not to generate a masker signal.
(16)式は、音声区間判定結果VAD(l)が1のとき、マスカー信号を生成すると判定して判定結果mask_flag(l)に1を代入し、音声区間判定結果VAD(l)が0のとき、マスカー信号を生成しないと判定して判定結果mask_flag(l)に0を代入する式となっている。 In the equation (16), when the voice interval determination result VAD (l) is 1, it is determined that a masker signal is generated, 1 is substituted for the determination result mask_flag (l), and the voice interval determination result VAD (l) is 0. At this time, it is determined that the masker signal is not generated, and 0 is substituted into the determination result mask_flag (l).
そして、マスカー信号生成判定部211は、マスカー信号を生成するか否かの判定結果mask_flag(l)をフレーム信号選択部207Aに出力する。
Then, the masker signal
フレーム信号選択部207Aは、マスカー信号生成判定部211から出力されたマスカー信号を生成するか否かの判定結果mask_flag(l)が1のときのみ、例えば、(7)式や(8)式に従い、フレームを選択する。一方、マスカー信号を生成するか否かの判定結果mask_flag(l)が0のとき、フレーム信号選択部207Aは、フレームを選択しない。
The frame
以上のように、フレーム信号選択部207Aは、マスカー信号を生成するか否かの判定結果mask_flag(l)が1のときのみ、フレーム信号DB205に保持されている過去の長時間フレーム信号から複数フレーム選択し、選択したフレームT(p)をマスカー信号生成部208Aに出力する。
As described above, the frame
マスカー信号生成部208Aは、マスカー信号生成判定部211の判定結果mask_flag(l)とフレーム信号選択部207Aの選択したフレームT(p)を基に、入力信号DB204のフレーム信号DB205から過去の長時間フレーム信号をマスカー素片信号として複数フレーム読み出し、マスカー信号を生成し、出力する。マスカー信号生成部208Aは、例えば、(17)式に従い、マスカー信号ha(l;t)を生成する。
(17)式は、マスカー信号生成判定部211の判定結果mask_flag(l)が1のときのみ、マスカー信号h(l;s)を生成し、ha(l;t)に代入し、マスカー信号を生成するか否かの判定結果mask_flag(l)が0のときは、ha(l;t)に0(無音)を代入するという式である。
In the equation (17), the masker signal h (l; s) is generated and substituted into ha (l; t) only when the determination result mask_flag (l) of the masker signal
以上のように、マスカー信号生成部208Aは、マスカー信号を生成するか否かの判定結果mask_flag(l)が1のときのみ、マスカー信号を生成する。そして、マスカー信号生成部208Aは、(18)式に従い、マスカー信号ha(l;t)をオーバーラップ加算処理して出力信号y(n)として音出力端子OUTに出力する。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と比較して以下のような効果を奏することができる。
(B-3) Effect of Second Embodiment According to the second embodiment, the following effects can be obtained as compared with the first embodiment.
第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB204のフレーム信号DB205に蓄積することで、音声区間のみ入力信号DB204に蓄積されるので、音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。
In the
また、第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみマスカー信号を生成するので、対象話者U1の音声が入力されているときだけマスカー信号を生成して出力するため、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
Further, in the
(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound processing apparatus, the sound processing program, and the sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to the sound masking device will be described.
(C−1)第3の実施形態の構成
図5は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図5では、上述の図1、図4と同一部分又は対応部分には、同一符号又は対応符号を付している。
(C-1) Configuration of Third Embodiment FIG. 5 is a block diagram showing a functional configuration of the
以下では、第3の実施形態について、第2の実施形態との差異を中心に説明し、第2の実施形態と重複する部分については説明を省略する。 In the following, the third embodiment will be mainly described with respect to the difference from the second embodiment, and the description of the part overlapping with the second embodiment will be omitted.
第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。
The
サウンドマスキング処理部200Bでは、ピッチ推定部212が追加され、さらに、DB蓄積判定部210とマスカー信号生成判定部211がそれぞれDB蓄積判定部210Bとマスカー信号生成判定部211Bに置き換わっている点で、第2の実施形態と異なっている。
In the sound masking
第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部212が追加されたことにより分割フレーム信号のピッチを推定することが異なる点と、DB蓄積判定部210Bに置き換わったことにより入力信号DB204のフレーム信号DB205に蓄積される長時間フレーム信号の蓄積方法が異なる点と、マスカー信号生成判定部211Bに置き換わったことによりマスカー信号の生成方法が異なる点が第2の実施形態のサウンドマスキング装置100Aとの差異となる。
In the
次に、サウンドマスキング処理部200Bの詳細な構成を説明する。
Next, the detailed configuration of the sound masking
サウンドマスキング処理部200Bは、フレーム分割部201、音声区間判定部209、ピッチ推定部212、DB蓄積判定部210B、長時間フレーム信号作成部202、DB書込み部203A、入力信号DB204、フレーム信号DB205、マスカー信号生成判定部211B、フレーム選択制限部206、フレーム信号選択部207A、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有する。
The sound
ピッチ推定部212は、音声区間判定部209から出力される音声区間判定の結果を基に、音声区間と判定されたときにのみ分割フレーム信号のピッチ(音声の高さ)を推定し、ピッチ推定結果(以下、「ピッチの推定値」と呼ぶ))を出力する。
The
DB蓄積判定部210Bは、ピッチ推定部212のピッチの推定値を基に、分割フレーム信号とピッチの推定値を入力信号DB204のフレーム信号DB205に蓄積するか否かを判定し、判定結果を出力する。
The DB
マスカー信号生成判定部211Bは、ピッチ推定部212のピッチの推定値を基に、マスカー信号を生成するか否かを判定し、判定結果を出力する。
The masker signal
なお、第3の実施形態において、第1の実施形態と同様にマスカー信号生成判定部211Bを除外した構成としても良い。
In the third embodiment, the masker signal
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
(C-2) Operation of the Third Embodiment Next, the operation of the
第3の実施形態に係るサウンドマスキング装置100Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第2の実施形態と異なる点であるピッチ推定部212、DB蓄積判定部210B、マスカー信号生成判定部211Bにおける処理動作を中心に詳細に説明する。
Hereinafter, the processing operations in the
音声区間判定部209は、例えば、(13)式から(15)式に従い、分割フレーム信号x_fram(l;m)が音声区間か非音声区間かを判定し、音声区間判定結果VAD(l)をピッチ推定部212に出力する。
For example, the voice
ピッチ推定部212は、音声区間判定部209で音声区間と判定された分割フレーム(VAD(l)=1の分割フレーム)のみ、分割フレーム信号x_fram(l;m)のピッチを推定する。ピッチ推定部212がピッチを推定する具体的手法については限定されないものであり種々の方式を適用することができる。ピッチ推定部212は、例えば、(19)式から(21)式に従い、ピッチを推定するようにしても良い。
(19)式で、τ(τ=0、1…、L1−1)は自己相関の遅延量、(20)式で、fsはサンプリング周波数、tmp_pitch(l)は一時的にピッチの推定値を保持する変数、(21)式でpitch(l)はピッチの推定値を示している。(21)式で、fsはサンプリング周波数である。 In equation (19), τ (τ = 0, 1 ..., L1-1) is the delay amount of autocorrelation, in equation (20), fs is the sampling frequency, and tp_pitch (l) is the estimated value of pitch temporarily. In the variable to be held, equation (21), pitch (l) indicates the estimated value of the pitch. In equation (21), fs is the sampling frequency.
(19)式では、分割フレーム信号x_fram(l;m)の自己相関関数x_fram_corr(l;i)を求めている。 In the equation (19), the autocorrelation function x_fram_corr (l; i) of the divided frame signal x_fram (l; m) is obtained.
(20)式では、自己相関関数x_fram_corr(l;i)が最大になる遅延量τを求めてサンプリング周波数fsで割ることでピッチを推定し、一時的にtmp_pitch(l)に代入している。(20)式は、音声区間判定結果VAD(l)が1のとき(音声区間のとき)ピッチの推定値pitch(l)にピッチの推定値を代入し、音声区間判定結果VAD(l)が0のとき(非音声区間のとき)ピッチの推定値pitch(l)に0を代入するという式となっている。 In equation (20), the pitch is estimated by finding the delay amount τ that maximizes the autocorrelation function x_fram_corr (l; i) and dividing it by the sampling frequency fs, and temporarily assigning it to tp_pitch (l). In the equation (20), when the voice section determination result VAD (l) is 1 (when the voice section is used), the pitch estimation value is substituted into the pitch estimation value pitch (l), and the voice section determination result VAD (l) is obtained. When it is 0 (in the non-voice section), 0 is substituted for the estimated pitch (l) of the pitch.
なお、ピッチ推定部212におけるピッチの推定手法は限定されないものであり種々の手法を適用することができる。ピッチ推定部212では、例えば、分割フレーム信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析することでピッチを算出するようにしても良い。
The pitch estimation method in the
そして、ピッチ推定部212は、ピッチの推定値pitch(l)をDB蓄積判定部210Bとマスカー信号生成判定部211Bに出力する。
Then, the
DB蓄積判定部210Bは、ピッチ推定部212のピッチの推定値pitch(l)を基に、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に蓄積するか否かを判定する。DB蓄積判定部210Bは、例えば、(22)式に従い、蓄積するか否かを判定するようにしても良い。
(22)式で、DB_flag(l)は蓄積するか否かの判定結果、TH_PITCHはDB蓄積するか否かの判定に用いられる閾値である。(22)式は、ピッチの推定値picth(l)が閾値TH_PITCHより大きければ、DBに蓄積すると判定して判定結果DB_flag(l)に1を代入し、ピッチの推定値picth(l)が閾値TH_PITCHより小さい場合、DBに蓄積しないと判定し判定結果DB_flag(l)に0を代入するという式となっている。 In the equation (22), DB_flag (l) is a determination result of whether or not to accumulate, and TH_PITCH is a threshold value used for determining whether or not to accumulate DB. In equation (22), if the pitch estimated value pitch (l) is larger than the threshold value TH_PITCH, it is determined that the pitch is accumulated in the DB, 1 is substituted into the determination result DB_flag (l), and the pitch estimated value pitch (l) is the threshold value. If it is smaller than TH_PITCH, it is determined that it will not be accumulated in the DB, and 0 is substituted into the determination result DB_flag (l).
閾値TH_PITCHは、DBに蓄積するか否かを判定できれば良く、種々の方法を広く適用することができる。例えば、ピッチ推定部212では、picth(l)が0以外のときはDBに蓄積するとしてTH_PITCH=0としも良いし、人の音声の基本周波数の下限値(例えば、100Hz)以上としてTH_PITCH=100としても良い。
As long as it can be determined whether or not the threshold value TH_PITCH is accumulated in the DB, various methods can be widely applied. For example, in the
そして、DB蓄積判定部210Bは、DBに蓄積するか否かの判定結果DB_flag(l)をDB書込み部203Aに出力する。
Then, the DB
マスカー信号生成判定部211Bは、ピッチ推定部212のピッチの推定値pitch(l)を基に、マスカー信号を生成するか否かを判定する。判定手段は、例えば、(23)式に従い、マスカー信号を生成するか否かを判定する。
(23)式で、mask_flag(l)はマスカー信号を生成するか否かの判定結果、TH2_PITCHは蓄積するか否かの判定に用いられる閾値である。 In equation (23), mask_flag (l) is a determination result of whether or not to generate a masker signal, and TH2_PITCH is a threshold value used for determining whether or not to accumulate.
(23)式は、ピッチの推定値picth(l)が閾値TH2_PITCHより大きい場合、DBに蓄積すると判定して判定結果DB_flag(l)に1を代入し、閾値TH2_PITCHより小さい場合、マスカー信号を生成しないと判定して判定結果mask_flag(l)に0を代入するという式である。 In equation (23), when the estimated pitch value pitch (l) is larger than the threshold value TH2_PITCH, it is determined that the pitch is accumulated in the DB, 1 is substituted into the determination result DB_flag (l), and when it is smaller than the threshold value TH2_PITCH, a masker signal is generated. It is an expression that it is determined not to be performed and 0 is substituted into the determination result mask_flag (l).
閾値TH2_PITCHは、DBに蓄積するか否かを判定できれば良く、種々の方法により算出される値を広く適用することができる。例えば、ピッチ推定部212でpicth(l)が0以外のときはDBに蓄積するとしてTH2_PITCH=0としも良いし、人の音声の基本周波数の下限値(例えば、100Hz)以上としてTH2_PITCH=100としても良い。また、TH2_PITCH=TH_PITCHDBとしてDB蓄積判定部210Bで使用している(22)式の閾値TH_PITCHと同じとしても良い。
As the threshold value TH2_PITCH, it suffices if it can be determined whether or not it is accumulated in the DB, and values calculated by various methods can be widely applied. For example, when pitch (l) is other than 0 in the
そして、マスカー信号生成判定部211B、マスカー信号を生成するか否かの判定結果mask_flag(l)をフレーム信号選択部207Aに出力する。
Then, the masker signal
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1及び第2の実施形態と比較して、以下のような効果を奏することができる。
(C-3) Effect of Third Embodiment According to the third embodiment, the following effects can be obtained as compared with the first and second embodiments.
第3の実施形態のサウンドマスキング装置100Bでは、対象話者U1の音声のピッチを推定し、ピッチの推定値をDB蓄積判定部210Bやマスカー信号生成判定部211Bに使用することで、音声区間で有声音のみ入力信号DB204に蓄積されるので、音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。
In the
第3の実施形態のサウンドマスキング装置100Bでは、音声区間で有声音と判定されるときのみマスカー信号を生成するので、対象話者U1の音声が入力されているときだけマスカー信号を生成し、出力している。これにより、第3の実施形態のサウンドマスキング装置100Bでは、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
Since the
(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the sound processing apparatus, the sound processing program, and the sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to the sound masking device will be described.
(D−1)第4の実施形態の構成
図6は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図6では、上述の図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
(D-1) Configuration of Fourth Embodiment FIG. 6 is a block diagram showing a functional configuration of the sound masking device 100C according to the fourth embodiment. In FIG. 6, the same code or the corresponding code is attached to the same part or the corresponding part as in FIG. 5 described above.
以下では、第4の実施形態について、第3の実施形態との差異を中心に説明し、第3の実施形態と重複する部分については説明を省略する。 In the following, the fourth embodiment will be mainly described with respect to the difference from the third embodiment, and the description of the part overlapping with the third embodiment will be omitted.
第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第3の実施形態と異なっている。
The sound masking device 100C of the fourth embodiment is different from the third embodiment in that the sound masking
サウンドマスキング処理部200Cでは、長時間ピッチ推定情報作成部213とピッチ推定情報DBが追加されている点と、DB書込み部203Aと入力信号DB204とフレーム信号選択部207Aが、DB書込み部203Cと入力信号DB204Cとフレーム信号選択部207Cに置き換わりっている点で、第3の実施形態と異なっている。
In the sound masking
第4の実施形態のサウンドマスキング装置100Cでは、長時間ピッチ推定情報作成部213とピッチ推定情報DB214が追加され、入力信号DB204Cに置き換わったことにより、入力信号DBにピッチの推定値が蓄積されるようになった点と、DB書込み部203Cに置き換わったことにより入力信号DB204Cの蓄積方法が異なる点と、フレーム信号選択部207Cに置き換わったことによりとマスカー素片信号の選択方法が異なる点が第3の実施形態のサウンドマスキング装置100Bとの差異となる。
In the sound masking device 100C of the fourth embodiment, the long-time pitch estimation
次に、サウンドマスキング処理部200Cの詳細な構成を説明する。
Next, the detailed configuration of the sound masking
サウンドマスキング処理部200は、フレーム分割部201、音声区間判定部209、ピッチ推定部212、DB蓄積判定部210B、長時間フレーム信号作成部202、長時間ピッチ推定情報作成部213、入力信号DB204C、フレーム信号DB205、ピッチ推定情報DB214、フレーム選択制限部206、フレーム信号選択部207C、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有する。
The sound
長時間ピッチ推定情報作成部213は、DB蓄積判定部210Bの判定結果を基に、ピッチ推定部212で推定されたピッチの推定値に基づいて長時間フレームのピッチ推定情報(以下、「長時間ピッチ推定情報」と呼ぶ)を作成し、作成した長時間ピッチ推定情報を出力する。
The long-time pitch estimation
DB書込み部203Cは、DB蓄積判定部210BのDBに蓄積するか否かの判定結果を基に、長時間フレーム信号を入力信号DB204Cのフレーム信号DB205に、長時間ピッチ推定情報を入力信号DB204Cのピッチ推定情報DB214に書込む。
The
入力信号DB204Cは、過去の長時間フレーム信号と過去の長時間ピッチ推定情報を長時間フレーム毎に対応づけて蓄積(保持)する記憶手段である。入力信号DB204C内のデータ形式については限定されないものであるが、ここで、入力信号DB204Cは、少なくとも、過去の長時間フレーム信号を蓄積したフレーム信号DB205と、過去の長時間ピッチ推定情報を蓄積したピッチ推定情報DB214とを有しているものとする。
The input signal DB204C is a storage means that stores (holds) the past long-time frame signal and the past long-time pitch estimation information in association with each other for each long-time frame. The data format in the input signal DB204C is not limited, but here, the input signal DB204C has accumulated at least the frame signal DB205 that has accumulated the past long-time frame signal and the past long-time pitch estimation information. It is assumed that the pitch
フレーム信号選択部207Cは、マスカー信号生成判定部211Bの判定結果と、ピッチ推定部212のピッチの推定値と入力信号DB204Cのピッチ推定情報DB214に蓄積されている過去の長時間ピッチ推定情報との比較結果を基に、入力信号DB204Cに蓄積されている過去の長時間フレーム信号をフレーム選択制限部206の制限フレーム数より前のフレームからマスカー素片信号として選択し、選択したフレームを出力する。
The frame
なお、第3の実施形態において、第2の実施形態と同様にマスカー信号生成判定部211Bを除外した構成としても良い。
In the third embodiment, the masker signal
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態の音響処理方法)について詳細に説明する。
(D-2) Operation of the Fourth Embodiment Next, the operation of the sound masking device 100C (the sound processing method of the embodiment) in the fourth embodiment having the above configuration will be described in detail.
第4の実施形態に係るサウンドマスキング装置100Cにおけるサウンドマスキング処理の基本的な動作は、第3の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100C according to the fourth embodiment is the same as the sound masking process described in the third embodiment.
以下では、第4の実施形態において、第3の実施形態と異なる点である長時間ピッチ推定情報作成部213、DB書込み部203C、入力信号DB204Cのピッチ推定情報DB214、及びフレーム信号選択部207Cにおける処理動作を中心に詳細に説明する。
In the following, in the fourth embodiment, the long-time pitch estimation
ピッチ推定部212は、分割フレーム信号x_fram(l;m)のピッチを推定し、ピッチの推定値pitch(l)をDB蓄積判定部210Bと長時間ピッチ推定情報作成部213とマスカー信号生成判定部211Aとフレーム信号選択部207Cに出力する。
The
長時間ピッチ推定情報作成部213は、ピッチ推定部212で推定された分割フレーム信号x_fram(l;m)のピッチの推定値pitch(l)を結合して、長時間フレーム信号x_fram_long(s)の長時間ピッチ推定情報を作成する。長時間ピッチ推定情報作成部204は、例えば、(24)式に従い、ピッチの推定値を結合して長時間ピッチ推定情報pitch_long(i)を作成するようにしても良い。
picth_long(i)
=pitch(l−((I−1)−i))…(24)
The long-time pitch estimation
pix_long (i)
= Pitch (l-((I-1) -i)) ... (24)
(24)式は、長時間フレーム信号を作成するときに使用されていた分割フレーム信号のピッチの推定値pitch(l)を結合して長時間ピッチ推定情報pitch_long(i)を作成するという式となっている。 Equation (24) is an equation (24) in which the estimated value pitch (l) of the pitch of the divided frame signal used when creating the long-time frame signal is combined to create the long-time pitch estimation information pitch_long (i). It has become.
そして、長時間ピッチ推定情報作成部213は、作成した長時間ピッチ推定情報pitch_long(i)をDB書込み部203Cに出力する。
Then, the long-time pitch estimation
DB書込み部203Cは、DB蓄積判定部210Bから出力された判定結果DB_flag(l)に基づいて、長時間フレームx_fram_long(s)と長時間ピッチ推定情報pitch_long(i)とを入力信号DB204のフレーム信号DB205とピッチ推定情報DB214に対応付けて書き込む。
Based on the determination result DB_flag (l) output from the DB
DB書込み部203Cは、DB蓄積判定部210Bから出力された判定結果DB_flag(l)が1のときのみ、長時間フレーム信号x_fram_long(s)をフレーム信号DB205のDB_singal(j;t)に書込み、同時に長時間ピッチ推定情報pitch_long(i)をピッチ推定情報DB214DB_pitch(i)に書込む。DB書込み部203Cは、DB蓄積判定部210Bから出力された判定結果DB_flag(l)が1のとき、例えば、(5)式、(25)式、(6)式に従い、長時間フレーム信号x_fram_long(s)をフレーム信号DB205のDB_singal(j;t)に書込み、同時に長時間ピッチ推定情報pitch_long(i)をピッチ推定情報DB214DB_pitch(i)に書込む。一方、DB蓄積判定部210Bの判定結果DB_flag(l)が0のとき、DB書込み部203Cは、長時間フレーム信号x_fram_long(s)と長時間ピッチ推定情報pitch_long(i)を入力信号DB204Cのフレーム信号DB205とピッチ推定情報DB214に書込まない。
DB_pitch(j;i)=pitch_long(i)…(25)
The
DB_pitch (j; i) = pitch_long (i) ... (25)
入力信号DB204Cは、長時間フレームx_fram_long(s)と長時間ピッチ推定情報pitch_long(i)とを入力信号DB204のフレーム信号DB205とピッチ推定情報DB214に対応付けて蓄積(保持)する。 The input signal DB204C stores (holds) the long-time frame x_fram_long (s) and the long-time pitch estimation information pitch_long (i) in association with the frame signal DB205 of the input signal DB204 and the pitch estimation information DB214.
上述の通り、この実施形態の入力信号DB204Cには、フレーム信号DB205とピッチ情報DB214とが含まれている。ここでは、フレーム信号DB205に各長時間フレーム信号x_fram_long(s)が記録され、ピッチ情報DB214には、長時間ピッチ推定情報pitch_long(i)が記録されることになる。
As described above, the
フレーム信号選択部207Cは、マスカー信号生成判定部211から出力されたマスカー信号を生成するか否かの判定結果mask_flag(l)を基に、ピッチ推定部212のピッチの推定値(現在の分割フレームに基づくピッチ)と、入力信号DB204Cのピッチ情報DB214に蓄積されている過去の長時間ピッチ推定情報を比較し、ピッチ推定部212のピッチの推定値と近いピッチ情報(近いピッチの値)を持つ長時間フレーム信号をマスカー素片信号として選択する。フレーム信号選択部207Cは、マスカー信号生成に使用する素片データを入力信号DB204Cとピッチの推定値pitch(l)と制限フレーム数Limit_Fream_NUMを用いてマスカー素片信号を選択する。
The frame
フレーム信号選択部207Cは、マスカー信号生成判定部211の判定結果mask_flag(l)が1のときのみ、フレームを選択し、マスカー信号生成判定部211の判定結果mask_flag(l)が0のとき、フレームを選択しない。マスカー信号生成判定部211の判定結果mask_flag(l)が1のとき、フレーム信号選択部207Cは、例えば、(28)式や(29)式に従い、フレームを選択する。
(26)式で、Tc(p)は選択したフレーム、tmp_T(p)は一時的に選択したフレームを保持する変数である。また、(26)式で、DB_pitch_ave(i)は過去の長時間ピッチ推定情報の平均値である。さらに、(27)式で、Sub_pitch(j)は、ピッチの推定値pitch(l)と過去の長時間ピッチ推定情報の平均値とDB_pitch_ave(i)の差の絶対値である。さらにまた、(28)式で、Tc(p)は選択したフレーム番号、p(p=0、1…、SEL_NUM−1)は、選択フレーム数である。また、(28)式のsmall(x(k)、p)は、配列x(k)でp番目に小さいx(k_p)のインデックスk_pを出力する関数である。 In equation (26), Tc (p) is a variable that holds the selected frame, and tp_T (p) is a variable that holds the temporarily selected frame. Further, in the equation (26), DB_pitch_ave (i) is an average value of past long-time pitch estimation information. Further, in the equation (27), Sub_pitch (j) is an absolute value of the difference between the pitch estimated value pitch (l), the average value of the past long-time pitch estimation information, and DB_pitch_ave (i). Furthermore, in equation (28), Tc (p) is the selected frame number, and p (p = 0, 1 ..., SEL_NUM-1) is the number of selected frames. Further, the small (x (k), p) in the equation (28) is a function that outputs the index k_p of the p-th smallest x (k_p) in the array x (k).
(26)式は、入力信号DB204Cのフレーム信号DB205に保持されている長時間フレーム信号を、制限フレーム数Limit_Fream_NUMより前のフレームから、時間的に新しい順番で選択し、選択した長時間フレーム信号が保持されているデータベースのインデックス番号をtmp_T(p)に代入するという式である。また、(27)式は、tmp_T(p)ごとにピッチ推定情報DB214に蓄積されている過去の長時間ピッチ推定情報の平均値DB_pitch_ave(i)を算出するという式である。さらに、(28)式は、ピッチ推定部212のピッチの推定値pitch(l)と過去の長時間ピッチ推定情報の平均値DB_pitch_ave(i)の差の絶対値Sub_picth(i)を計算する処理を示している。さらにまた、(29)式は、Sub_picth(i)が最も小さいインデックスj(長時間フレーム)をマスカー素片信号として複数フレーム選択するという式である。
In the equation (26), the long-time frame signal held in the frame signal DB205 of the input signal DB204C is selected from the frames before the limit number of frames Limit_Fream_NUM in the order of new time, and the selected long-time frame signal is selected. The formula is to assign the index number of the retained database to tp_T (p). Further, the formula (27) is a formula for calculating the average value DB_pitch_ave (i) of the past long-time pitch estimation information stored in the pitch
なお、フレーム信号選択部206Cは、ピッチ情報DB214に蓄積されている過去の長時間フレームごとに、長時間ピッチ推定情報に基づく当該長時間フレーム全体のピッチを示す値(以下、「長時間フレームピッチ」と呼ぶ)を算出し、ピッチ推定部212のピッチの推定値と長時間フレームピッチとの比較結果に基づいてマスカー素片信号として選択する長時間フレームを選択するようにしても良い。例えば、フレーム信号選択部207Cは、ピッチ推定部212のピッチの推定値と近い値の長時間フレームピッチを備える長時間フレームを、マスカー素片信号として選択するようにしても良い。
The frame signal selection unit 206C is a value indicating the pitch of the entire long-time frame based on the long-time pitch estimation information for each past long-time frame stored in the pitch information DB 214 (hereinafter, "long-time frame pitch"). The long-time frame to be selected as the masker element signal may be selected based on the comparison result between the estimated value of the pitch of the
以上のように、フレーム信号選択部207Cは、ピッチ推定部212のピッチの推定値と近いピッチ情報(近いピッチの値)を持つ長時間フレーム信号(インデックス)をマスカー素片信号として選択し、選択したフレームTc(p)を出力する。
As described above, the frame
(D−3)第4の実施形態の効果
第4の実施形態によれば、第1〜第3の実施形態と比較して、以下のような効果を奏することができる。
(D-3) Effect of Fourth Embodiment According to the fourth embodiment, the following effects can be obtained as compared with the first to third embodiments.
第4の実施形態のサウンドマスキング装置100Cは、ピッチ推定情報DB214に蓄積されているピッチ情報と、ピッチ推定部212で推定したピッチ推定値に近い信号を、フレーム信号DB205に蓄積されているフレーム信号から選択している。これにより、第4の実施形態のサウンドマスキング装置100Cでは、マスカー信号の周波数特性が対象話者U1の音声のピッチに近くなり、より高いマスキング効果を維持することができる。
In the sound masking device 100C of the fourth embodiment, the pitch information stored in the pitch
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E) Other Embodiments The present invention is not limited to each of the above embodiments, and modified embodiments as illustrated below can also be mentioned.
(E−1)例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止する装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。 (E-1) For example, the sound masking device of the present invention may be mounted on a device for preventing the content of a conversation from being leaked to a person other than the surrounding subjects in a conference call. In this case, in the sound masking device, the target speaker U1 is a person speaking in a conference call.
(E−2)上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置(例えば、サーバ等)で処理される構成としても良い。 (E-2) In each of the above embodiments, the sound masking unit of the sound masking device may be configured to be processed by a processing device (for example, a server or the like) on the network.
(E−3)上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。 (E-3) In each of the above embodiments, the sound masking device has been described as a configuration including an audio device (microphone, microphone amplifier, AD converter, speaker, speaker amplifier, and DA converter), but the sound has been described. The masking device may be manufactured as a configuration excluding the audio device, and the audio device may be connected separately at the actual site of use. That is, the sound masking device may be configured to include at least a sound masking processing unit.
100、100A、100B、100C、…サウンドマスキング装置、101…マイク、102…マイクアンプ、103…AD変換器、104…DA変換器、105…スピーカアンプ、106…スピーカ、200、200A、200B、200C…サウンドマスキング装置、201…フレーム分割部、202…長時間フレーム信号作成部、203、203A、203C…DB書込み部、204、204C…入力信号DB、205…フレーム信号DB、206…フレーム選択制限部、207、207A、207C…フレーム信号選択部、208、208A…マスカー信号生成部、209…音声区間判定部、210、210B…DB蓄積判定部、211、211B…マスカー信号生成判定部、212…ピッチ推定、213…長時間ピッチ推定情報作成部、214…ピッチ推定情報DB、IN…音入力端子、OUT…音出力端子、300…コンピュータ、301…プロセッサ、302…一次記憶部、303…二次記憶部。
100, 100A, 100B, 100C, ... Sound masking device, 101 ... Microphone, 102 ... Microphone amplifier, 103 ... AD converter, 104 ... DA converter, 105 ... Speaker amplifier, 106 ... Speaker, 200, 200A, 200B, 200C ... Sound masking device, 201 ... Frame division unit, 202 ... Long-time frame signal creation unit, 203, 203A, 203C ... DB writing unit, 204, 204C ... Input signal DB, 205 ... Frame signal DB, 206 ... Frame selection restriction unit , 207, 207A, 207C ... Frame signal selection unit, 208, 208A ... Masker signal generation unit, 209 ... Sound section determination unit, 210, 210B ... DB accumulation determination unit, 211, 211B ... Masker signal generation determination unit, 212 ...
Claims (7)
前記フレーム分割手段でフレーム分割されたマイク入力信号を合わせて所定の長さの長時間フレームとして作成する長時間フレーム信号作成手段と、
前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行うフレーム信号選択手段と、
前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限するフレーム選択制限手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
を有することを特徴とする音響処理装置。 A frame dividing means for dividing the microphone input signal supplied from the microphone that collects the voice spoken by the target speaker into a predetermined length, and
A long-time frame signal creating means for creating a long-time frame having a predetermined length by combining the microphone input signals frame-divided by the frame-dividing means.
An input signal storage means for accumulating a long-time frame signal generated by the long-time frame signal creation means,
A frame signal selection means for performing a frame signal selection process for selecting a signal to be used for generating a masker signal from a past frame-divided microphone input signal stored in the input signal storage means.
When the frame signal selection means performs the frame signal selection process, the frame selection limiting means for limiting the frames to be selected, and the frame selection limiting means.
An audio processing device having a masker signal generation means for generating and outputting the masker signal that makes it difficult to hear the voice uttered by the target speaker by using the signal used for generating the masker signal. ..
前記音声区間判定手段の結果を基に、前記フレーム分割されたマイク入力信号を前記入力信号蓄積手段に蓄積するか否かを判定する入力信号蓄積判定手段と、
前記音声区間判定手段の結果を基に、前記マスカー信号を生成するか否かを判定するマスカー信号生成判定手段をさらに備え、
前記長時間フレーム信号作成手段は、前記音声区間と判定されたときのみ、前記フレーム分割手段でフレーム分割されたマイク入力信号を前記入力信号蓄積手段に蓄積し、
前記マスカー信号生成手段は、前記音声区間と判定されたときのみ、前記マスカー信号を生成する
ことを特徴とする請求項1又は2に記載の音響処理装置。 A voice section determining means for determining whether the microphone input signal frame-divided by the frame dividing means is a voice section or a non-voice section,
Based on the result of the voice section determination means, an input signal storage determination means for determining whether or not to accumulate the frame-divided microphone input signal in the input signal storage means, and an input signal storage determination means.
A masker signal generation determining means for determining whether or not to generate the masker signal based on the result of the voice section determining means is further provided.
The long-time frame signal creating means stores the microphone input signal frame-divided by the frame-dividing means in the input signal accumulating means only when it is determined to be the voice section.
The sound processing apparatus according to claim 1 or 2, wherein the masker signal generation means generates the masker signal only when it is determined to be the voice section.
前記ピッチ推定手段の結果を基に、前記フレーム分割されたマイク入力信号を前記入力信号蓄積手段に蓄積するか否かを判定する入力信号蓄積判定手段と、
前記ピッチ推定手段の結果を基に、前記マスカー信号を生成するか否かを判定するマスカー信号生成判定手段をさらに備え、
前記長時間フレーム信号作成手段は、前記ピッチ推定手段で推定されたピッチに基づき、前記フレーム分割手段でフレーム分割されたマイク入力信号を前記入力信号蓄積手段に蓄積し、
前記マスカー信号生成手段は、前記ピッチ推定手段で推定されたピッチに基づき、前記マスカー信号を生成する
ことを特徴とする請求項1又は2に記載の音響処理装置。 Further, a pitch estimation means for estimating the pitch of the microphone input signal frame-divided by the frame division means is provided.
Based on the result of the pitch estimation means, an input signal storage determination means for determining whether or not to store the frame-divided microphone input signal in the input signal storage means, and an input signal storage determination means.
A masker signal generation determining means for determining whether or not to generate the masker signal based on the result of the pitch estimating means is further provided.
The long-time frame signal creating means stores the microphone input signal frame-divided by the frame dividing means in the input signal accumulating means based on the pitch estimated by the pitch estimating means.
The sound processing apparatus according to claim 1 or 2, wherein the masker signal generation means generates the masker signal based on the pitch estimated by the pitch estimation means.
前記ピッチ蓄積手段に前記ピッチ推定手段の推定したピッチを蓄積するピッチ情報作成手段をさらに備え、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号と前記ピッチ蓄積手段に蓄積されている過去のピッチ情報と前記ピッチ推定手段の推定したピッチを用いて、前記フレーム選択制限手段で制限されたフレーム数以前のフレームからマスカー信号を生成するために使用する信号を選択する
ことを特徴とする請求項4に記載の音響処理装置。 A pitch accumulating means capable of accumulating the pitch estimated by the pitch estimating means for each frame, and a pitch accumulating means.
The pitch storing means is further provided with a pitch information creating means for accumulating the pitch estimated by the pitch estimating means.
The frame selection restriction is performed by using the past frame-divided microphone input signal stored in the input signal storage means, the past pitch information stored in the pitch storage means, and the pitch estimated by the pitch estimation means. The acoustic processing apparatus according to claim 4, wherein a signal used for generating a masker signal is selected from frames prior to the number of frames limited by means.
対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割手段でフレーム分割されたマイク入力信号を所定の長さの時間フレームにする長時間フレーム信号作成手段と、
前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行うフレーム信号選択手段と、
前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限するフレーム選択制限手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
を有することを特徴として機能させることを特徴とする音響処理プログラム。 Computer,
A frame dividing means for dividing the microphone input signal supplied from the microphone that collects the voice spoken by the target speaker into a predetermined length, and
A long-time frame signal creating means for converting a microphone input signal frame-divided by the frame-dividing means into a time frame of a predetermined length,
An input signal storage means for accumulating a long-time frame signal generated by the long-time frame signal creation means,
A frame signal selection means for performing a frame signal selection process for selecting a signal to be used for generating a masker signal from a past frame-divided microphone input signal stored in the input signal storage means.
When the frame signal selection means performs the frame signal selection process, the frame selection limiting means for limiting the frames to be selected, and the frame selection limiting means.
It is characterized by having a masker signal generation means for generating and outputting the masker signal that makes it difficult to hear the voice spoken by the target speaker by using the signal used for generating the masker signal. Characteristic sound processing program.
前記音響処理装置は、フレーム分割手段、長時間フレーム信号作成手段、入力信号蓄積手段、フレーム選択制限手段、フレーム信号選択手段、及び、マスカー信号生成手段を有し、
前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、
前記長時間フレーム信号作成手段は、前記フレーム分割手段でフレーム分割されたマイク入力信号を合わせて所定の長さの長時間フレームとして作成し、
前記入力信号蓄積手段は、前記長時間フレーム信号作成手段で生成した長時間フレーム信号を蓄積し、
前記フレーム信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割されたマイク入力信号からマスカー信号を生成するために使用する信号を選択するフレーム信号選択処理を行い、
前記フレーム選択制限手段は、前記フレーム信号選択手段が、前記フレーム信号選択処理を行う際に、選択するフレームを制限し、
前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力する
ことを特徴とする音響処理方法。 In the sound processing method performed by the sound processing device,
The sound processing device includes a frame dividing means, a long-time frame signal creating means, an input signal storing means, a frame selection limiting means, a frame signal selecting means, and a masker signal generating means.
The frame dividing means divides the microphone input signal supplied from the microphone that picks up the voice spoken by the target speaker into a predetermined length.
The long-time frame signal creating means creates a long-time frame having a predetermined length by combining the microphone input signals frame-divided by the frame-dividing means.
The input signal storage means stores the long-time frame signal generated by the long-time frame signal creation means, and the input signal storage means stores the long-time frame signal.
The frame signal selection means performs a frame signal selection process for selecting a signal to be used for generating a masker signal from a past frame-divided microphone input signal stored in the input signal storage means.
The frame selection limiting means limits the frames to be selected when the frame signal selecting means performs the frame signal selection process.
The sound processing method is characterized in that the masker signal generation means uses a signal used to generate the masker signal to generate and output the masker signal that makes it difficult to hear the voice spoken by the target speaker. ..
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030596A JP2021135361A (en) | 2020-02-26 | 2020-02-26 | Sound processing device, sound processing program and sound processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030596A JP2021135361A (en) | 2020-02-26 | 2020-02-26 | Sound processing device, sound processing program and sound processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135361A true JP2021135361A (en) | 2021-09-13 |
Family
ID=77661113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020030596A Pending JP2021135361A (en) | 2020-02-26 | 2020-02-26 | Sound processing device, sound processing program and sound processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135361A (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534061A (en) * | 2002-07-24 | 2005-11-10 | アプライド マインズ インク | Method and system for masking languages |
JP2008090296A (en) * | 2006-09-07 | 2008-04-17 | Yamaha Corp | Voice-scrambling-signal creation method and apparatus, and voice scrambling method and device |
JP2008233672A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Masking sound generation apparatus, masking sound generation method, program, and recording medium |
JP2012194528A (en) * | 2010-11-25 | 2012-10-11 | Yamaha Corp | Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program |
JP2014174255A (en) * | 2013-03-07 | 2014-09-22 | Sony Corp | Signal processing device, signal processing method, and storage medium |
JP2014199445A (en) * | 2013-03-11 | 2014-10-23 | 学校法人上智学院 | Sound masking apparatus and method, and program |
-
2020
- 2020-02-26 JP JP2020030596A patent/JP2021135361A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534061A (en) * | 2002-07-24 | 2005-11-10 | アプライド マインズ インク | Method and system for masking languages |
JP2008090296A (en) * | 2006-09-07 | 2008-04-17 | Yamaha Corp | Voice-scrambling-signal creation method and apparatus, and voice scrambling method and device |
JP2008233672A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Masking sound generation apparatus, masking sound generation method, program, and recording medium |
JP2012194528A (en) * | 2010-11-25 | 2012-10-11 | Yamaha Corp | Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program |
JP2014174255A (en) * | 2013-03-07 | 2014-09-22 | Sony Corp | Signal processing device, signal processing method, and storage medium |
JP2014199445A (en) * | 2013-03-11 | 2014-10-23 | 学校法人上智学院 | Sound masking apparatus and method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2011201312B2 (en) | Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio | |
JP5519689B2 (en) | Sound processing apparatus, sound processing method, and hearing aid | |
JP5665134B2 (en) | Hearing assistance device | |
JP5103974B2 (en) | Masking sound generation apparatus, masking sound generation method and program | |
JP4761506B2 (en) | Audio processing method and apparatus, program, and audio system | |
Maruri et al. | V-speech: Noise-robust speech capturing glasses using vibration sensors | |
Ternström | Hearing myself with others: Sound levels in choral performance measured with separation of one's own voice from the rest of the choir | |
JP5511342B2 (en) | Voice changing device, voice changing method and voice information secret talk system | |
US11024330B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
CN111801951B (en) | Howling suppression device, method thereof, and computer-readable recording medium | |
WO2019207912A1 (en) | Information processing device and information processing method | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP7287182B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD | |
JP4785563B2 (en) | Audio processing apparatus and audio processing method | |
JP2000152394A (en) | Hearing device for mild hearing loss, transmission system for mild hearing loss, recording / reproducing device for mild hearing loss, and reproducing device for mild hearing loss | |
JP2021135361A (en) | Sound processing device, sound processing program and sound processing method | |
JP7532791B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD | |
JP2012008393A (en) | Device and method for changing voice, and confidential communication system for voice information | |
JPH09311696A (en) | Automatic gain adjustment device | |
JP7552034B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD | |
JP5662711B2 (en) | Voice changing device, voice changing method and voice information secret talk system | |
JP2905112B2 (en) | Environmental sound analyzer | |
US20250080905A1 (en) | Utterance feedback apparatus, utterance feedback method, and program | |
JP7131636B2 (en) | Information processing device, wearable device, information processing method, and storage medium | |
JP7292531B2 (en) | Sound masking device, sound masking system, control method, and control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231027 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240116 |