JP7287182B2 - SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD - Google Patents
SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD Download PDFInfo
- Publication number
- JP7287182B2 JP7287182B2 JP2019151513A JP2019151513A JP7287182B2 JP 7287182 B2 JP7287182 B2 JP 7287182B2 JP 2019151513 A JP2019151513 A JP 2019151513A JP 2019151513 A JP2019151513 A JP 2019151513A JP 7287182 B2 JP7287182 B2 JP 7287182B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- masker
- input signal
- microphone input
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 29
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000000034 method Methods 0.000 claims description 65
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 50
- 238000009825 accumulation Methods 0.000 claims description 46
- 230000005236 sound signal Effects 0.000 claims description 44
- 230000001934 delay Effects 0.000 claims 1
- 230000000873 masking effect Effects 0.000 description 170
- 239000011295 pitch Substances 0.000 description 87
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。 The present invention relates to a sound processing device, a sound processing program, and a sound processing method, and for example, a sound masking process used as a technique for preventing the contents of a conversation from leaking out to third parties around the speaker who is speaking. can be applied to
近年、不特定多数の人が存在する施設(例えば、病院、薬局、銀行等)の受付カウンター、窓口、打合せスペース等で話者が会話の相手と会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。 In recent years, when a speaker has a conversation with a conversation partner at a reception counter, window, meeting space, etc. in a facility where an unspecified number of people are present (for example, hospitals, pharmacies, banks, etc.), the content of the conversation is Leakage to three parties is a problem.
第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。 Preventing the content of a conversation from being leaked to a third party is called speech privacy, and a sound masking effect is used to achieve speech privacy.
音のマスキング効果とは、ある音(以下、対象音)が聞こえている状態で、対象音に近い音響特性(例えば、周波数特性、ピッチ、フォルマント等)を持つ別の音が存在した場合、対象音が聞き取りにくくなる(マスクされる)現象である。一般的にマスクする音をマスカー、マスクされる音をマスキーと呼ぶ。 The sound masking effect is that when a certain sound (hereafter referred to as the target sound) is heard and there is another sound with similar acoustic characteristics (for example, frequency characteristics, pitch, formants, etc.), the target sound is masked. This is a phenomenon in which sounds become difficult to hear (masked). In general, the masked sound is called a masker, and the masked sound is called a maskee.
この音のマスキング効果を利用した、第三者に会話内容の漏洩を防止(スピーチプライバシーを保護)するサウンドマスキング装置が特許文献1と特許文献2によって提案されている。
特許文献1に記載のサウンドマスキング装置は、マスキー信号である話者の音声信号が変化した場合でも、話者の音声信号の音響特徴量の解析を行い、解析結果を基にマスカー信号を生成し、高いマスキング効果が得られるようにしたサウンドマスキング装置である。 The sound masking device described in Patent Document 1 analyzes the acoustic feature quantity of the speaker's speech signal and generates a masker signal based on the analysis result even when the speaker's speech signal, which is a masking signal, changes. , is a sound masking device capable of obtaining a high masking effect.
特許文献2に記載の音声処理方法は、音声信号のスペクトル包絡とスペクトル微細構造を抽出し、抽出したスペクトル包絡を変形して変形スペクトル包絡を生成する。そして、変形スペクトル包絡及び抽出したスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて生成した信号をマスカー信号として出力することで会話音声の内容が第三者に聞かれないようにする音声処理方法である。
The speech processing method described in
特許文献1に記載のサウンドマスキング装置では、不特定の話者に対してもある程度マスク効果が期待できるように、男性および女性を含む複数人の音声信号を汎用マスカー信号としてデータベースに保存している。そして、話者の音声信号の音響特徴量の解析結果を基に、データベースに保存されている汎用マスカー信号の音響特性を変化させる(例えば、汎用マスカー信号のピッチを入力音声信号のピッチに変換、汎用マスカー音のフォルマントを入力音声信号のフォルマントに変換等)ことでマスカー信号を生成している。このため、データベースに保存している汎用マスカー信号を変化させた信号が、人工的な音になりマスカー信号が不快な音になる可能性がある。さらに、音響特徴量の解析結果が間違っていると、話者の音声の音響特徴量とマスカー信号の音響特徴量が異なるので、マスキング効果は低くなり会話の内容をマスクすることができない。 In the sound masking device described in Patent Document 1, voice signals of a plurality of people, including men and women, are stored in a database as general-purpose masker signals so that a certain degree of masking effect can be expected even for unspecified speakers. . Then, based on the analysis results of the acoustic features of the speaker's speech signal, the acoustic characteristics of the general-purpose masker signal stored in the database are changed (for example, the pitch of the general-purpose masker signal is converted to the pitch of the input speech signal, The masker signal is generated by converting the formant of the general-purpose masker sound into the formant of the input audio signal. Therefore, there is a possibility that the signal obtained by changing the general-purpose masker signal stored in the database will sound artificial and the masker signal will sound unpleasant. Furthermore, if the analysis result of the acoustic feature amount is wrong, the masking effect will be low and the content of the conversation cannot be masked because the acoustic feature amount of the speaker's voice and the acoustic feature amount of the masker signal are different.
特許文献2に記載の音声処理方法でも、抽出した音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、変形スペクトル包絡と抽出した音声信号のスペクトル微細構造を合成してマスカー信号生成に使用している。このため、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。
Also in the speech processing method described in
また、特許文献1に記載のサウンドマスキング装置と特許文献2に記載の音声処理方法のいずれも、生成したマスカー信号が話者に聞こえるように出力されると、話者にもマスカー信号が聞こえてしまうので、会話の妨げになってしまい、円滑に会話することができない。
In addition, in both the sound masking device described in Patent Document 1 and the sound processing method described in
以上のような問題に鑑みて、音声を発話する話者(以下、「対象話者」と呼ぶ)の音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、高いマスキング効果を実現できる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。 In view of the above problems, even if the acoustic feature value of the speaker uttering speech (hereinafter referred to as "target speaker") is not analyzed, or the analysis result of the acoustic feature value is incorrect, An acoustic processing device, an acoustic processing program, and an acoustic processing method capable of realizing a high masking effect are desired. Furthermore, an acoustic processing device, an acoustic processing program, and an acoustic processing method capable of masking the voice uttered by the target speaker without interfering with the conversation of the target speaker are desired.
第1の本発明の音響処理装置は、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、(5)マイク入力信号のピッチを推定するピッチ推定手段とを有し、(6)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(7)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 A sound processing apparatus according to a first aspect of the present invention comprises: (1) frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a sound uttered by a target speaker into predetermined lengths; input signal storage means for storing frame-divided microphone input signals; and (3) a signal used for generating a masker signal is selected from past frame-divided microphone input signals stored in the input signal storage means. (4) a masker signal for generating and outputting the masker signal that makes it difficult to hear the voice uttered by the target speaker using the signal used for generating the masker signal; (5) pitch estimating means for estimating the pitch of the microphone input signal; (7) the masker signal generating means generates a masker signal using the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means; characterized by
第2の本発明の音響処理プログラムは、コンピュータを、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、(5)マイク入力信号のピッチを推定するピッチ推定手段として機能させ、(6)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(7)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 The sound processing program of the second aspect of the present invention comprises: (1) a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths; 2) input signal accumulation means for accumulating the frame-divided microphone input signal; and (3) a signal used for generating a masker signal from the past frame-divided microphone input signal accumulated in the input signal accumulation means. and (4) using the signal used to generate the masker signal, generates and outputs the masker signal that makes it difficult to hear the speech uttered by the target speaker. (5) functions as pitch estimation means for estimating the pitch of the microphone input signal; and (6) the input signal accumulation means stores the microphone input signal according to the pitch estimated by the pitch estimation means. (7) the masker signal generating means uses the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means to generate a masker signal; is characterized by generating
第3の本発明の音響処理方法は、(1)フレーム分割手段、入力信号蓄積手段、信号選択手段、マスカー信号生成手段及びピッチ推定手段を有し、(2)前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、(3)前記入力信号蓄積手段は、前記フレーム分割されたマイク入力信号を蓄積し、(4)前記信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、(5)前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力し、(6)前記ピッチ推定手段は、マイク入力信号のピッチを推定し、(7)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(8)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 A sound processing method according to a third aspect of the present invention includes (1) frame division means, input signal accumulation means, signal selection means , masker signal generation means, and pitch estimation means ; (3) the input signal accumulation means accumulates the frame-divided microphone input signal, ( 4) the signal selection means selects a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and outputs the selection result ; The masker signal generating means uses the signal used to generate the masker signal to generate and output the masker signal that makes it difficult to hear the speech uttered by the target speaker, and (6) the pitch estimating means. (7) the input signal storage means sorts the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means and stores the class; (8) The masker signal generating means generates the masker signal using the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
本発明によれば、マスカー信号の生成に使用する信号を蓄積された対象話者自身の過去の音声を使用して生成することで、音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成することで、高いマスキング効果を実現できる。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる。 According to the present invention, the signal used to generate the masker signal is generated using the accumulated past speech of the target speaker, so that the acoustic feature quantity is not analyzed, or the acoustic feature quantity is not analyzed. Even if the analysis result is wrong, a high masking effect can be achieved by generating a masker signal using a signal whose acoustic characteristics are not changed. Furthermore, the voice uttered by the target speaker can be masked without disturbing the conversation of the target speaker.
(A)第1の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(A) First Embodiment Hereinafter, a first embodiment of a sound processing device, a sound processing program, and a sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(A-1)第1の実施形態の構成
図1は、第1の実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing the functional configuration of a
サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、スピーカ104、スピーカアンプ105、DA変換器106、及びサウンドマスキング処理部200を有している。
The
マイク101は、人の音声や音等の空気振動を電気信号に変換するマイクである。 The microphone 101 is a microphone that converts air vibration such as human voice and sound into an electric signal.
マイクアンプ102は、マイク101により受音(収音)された入力信号を増幅するものである。
The
AD変換器103は、マイクアンプ102により増幅された入力信号をアナログ信号からデジタル信号に変換するものである。以下、AD変換器103で変換された信号を「マイク入力信号」とする。
The
サウンドマスキング処理部200は、入力されたマイク入力信号や過去のマイク入力信号からマスカー信号を生成し、出力するものである。
The sound
DA変換器106は、サウンドマスキング処理部200から出力された音信号をデジタル信号からアナログ信号に変換するものである。
The
スピーカアンプ105は、アナログ信号を増幅するものである。
A
スピーカ104は、電気信号を空気の振動に変換して音として出力するスピーカである。
The
次に、サウンドマスキング処理部200の詳細な構成を説明する。
Next, a detailed configuration of the sound
サウンドマスキング処理部200は、フレーム分割部201、入力信号DB(データベース)202、信号選択部203、マスカー信号生成部204、音入力端子IN、及び音出力端子OUTを有する。
The sound
音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)である。
A sound input terminal IN is an interface (audio interface) for inputting a microphone input signal to the sound
フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(処理フレーム)に分割して出力する。フレーム分割部201は、一般的に音声を解析するのに適した長さに分割すれば良く、例えば、マイク入力信号を100[ミリ秒]~200[ミリ秒]単位にフレーム分割する。
The
入力信号DB202は、フレーム分割したマイク入力信号を蓄積する記憶手段である。
The
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号(以下、「マスカー素辺信号」と呼ぶ)を選択し、選択結果を出力する。
The
マスカー信号生成部204は、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号を生成し出力する。
The masker
音出力端子OUTは、生成したマスカー信号をDA変換器106に出力するインタフェース(オーディオインターフェース)である。
The sound output terminal OUT is an interface (audio interface) that outputs the generated masker signal to the
サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部200は、例えば、メモリ、及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。なお、この実施形態では、AD変換器103及びDA変換器106を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103、及びDA変換器106を搭載した構成としても良い。
The sound
次に、図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。
Next, FIG. 2 shows a configuration when the sound masking
図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。
The sound
図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。
A
一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。
The
二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。
The
この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部303については除外した構成としても良い。
In the
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態におけるサウンドマスキング装置100の動作(実施形態の音響処理方法)について詳細に説明する。
(A-2) Operation of the First Embodiment Next, the operation of the sound masking device 100 (acoustic processing method of the embodiment) having the configuration described above according to the first embodiment will be described in detail.
サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の利用者(図3の対象話者U1)がマイク101に向かつて音声を発話すると、マイク101に音声信号が入力される。
When the
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時間を表すパラメータである。
An analog sound signal input to the
サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
When the microphone input signal x(n) starts to be input to the sound input terminal IN of the sound masking
フレーム分割部201は、マイク入力信号x(n)を所定単位に分割する。フレーム分割部201は、例えば、以下の(1)式に従い、処理フレームごとに分割する。
(1)式で、x_fram(l;m)はフレーム分割したマイク入力信号、lはフレーム番号、mはフレーム内の離散的な時間(m=0、1、2、・・・、M-1)、Mはフレーム長である。フレーム分割部201は、フレーム分割したマイク入力信号x_fram(l;m)を入力信号DB202に出力する。
In equation (1), x_fram (l; m) is a frame-divided microphone input signal, l is a frame number, m is a discrete time within a frame (m=0, 1, 2, . . . , M−1 ), M is the frame length. The
入力信号DB202は、フレーム分割したマイク入力信号x_fram(l;m)を(2)式と(3)式に従い、フレームごとに入力信号DB202に蓄積する。
The
(2)式で、DB(i;m)は入力信号DB、iはデータベースのインデックス(i=0、1、2、・・・、I-1)、mはフレーム内の時間(m=0、1、2、・・・、M-1)、Mはフレーム長、Iはデータベース長である。iは(3)式に示すように、入力信号DBにデータが蓄積されるとインクリメン卜する。
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択する。信号選択部203は、例えば、(4)式に示すように選択結果T(k)を算出する。
The
(4)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMOD関数である。Iで割ったときの剰余を返すことで、選択結果T(k)は0からI-1の値になる。例えば、(4)式で、K=5のときは、入力信号DB202に蓄積されている5フレーム分のマイク入力信号を選択する。
In equation (4), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. By returning the remainder when divided by I, the selection result T(k) becomes a value from 0 to I−1. For example, in equation (4), when K=5, microphone input signals for five frames accumulated in the
なお、選択結果T(k)を算出手法は、種々の方法を広く適用することができ、例えば、(5)式に示すように、マスカー素辺信号をランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result T(k). For example, as shown in equation (5), the masker element signal may be randomly selected.
(5)式で、rand(k)は自然数kに対して非負の整数の乱数を生成する関数である。(5)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果T(k)は0からI-1の値になる。信号選択部203は、選択結果T(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204は、信号選択部203の選択結果T(k)に基づいて、マスカー素辺信号を入力信号DB202からKフレーム読み出し、読み出されたKフレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号の生成手法は、例えば、(6)式に示すように、読み出されたKフレームのマスカー素辺信号を重畳して生成する。
Based on the selection result T(k) of the
(6)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、h(l;m)はマスカー信号である。例えば、(6)式で、K=5のときは、選択結果T(k)に基づき、マスカー素辺信号として入力信号DB202から過去5フレーム分をマスカー素辺信号として読み出し、読み出したマスカー素辺信号を重畳することでマスカー信号h(l;m)を生成する。
In equation (6), k (k=1, 2, . ) is the masker signal. For example, in equation (6), when K=5, based on the selection result T(k), the past five frames are read from the
なお、マスカー信号h(l;m)の生成手法は、種々の方法を広く適用することができ、例えば、(7)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳することでマスカー信号h(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h(l;m)を生成しても良い。
Various methods can be widely applied to generate the masker signal h(l;m). The masker signal h(l;m) may be generated by time-reversing and superimposing the microphone input signal as time processing, or the past frame-divided microphone input signal stored in the
そして、マスカー信号生成部204は、(8)式に従い、マスカー信号h(l;m)を出力信号y(n)としてサウンドマスキング処理部200の音出力端子OUTに出力する。
サウンドマスキング処理部200の音出力端子OUTから出力される信号は、DA変換器106でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ104から出力される。
A signal output from the sound output terminal OUT of the sound masking
図3、図4は、マイク101と、マイク101に向かって発話する対象話者U1と、対象話者U1の後ろ側に立っている対象話者U1以外の人(対象話者U1の発話する音声をマスカー信号で聞き取りづらくする対象の人(以下、「マスキング対象者」と呼ぶ)U2と、スピーカ104との配置関係(スピーカ104の配置構成)の例について示した図である。図3、図4では、スピーカから出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3では、直接音が床FRに反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。
3 and 4 show a
図3では、スピーカ104は、対象話者U1の前方で膝程度の高さに配置され、スピーカ104の振動面(指向性)が下方向で、床FRの表面に対して斜め方向に設置されている。さらに、対象話者U1の後方の床FR部分に指向性が向けられた状態となっている。そして、スピーカ104から放射されたマスカー信号は図3に示すように、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、図3に示すようにマスカー信号が反射し、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。
In FIG. 3, the
なお、スピーカ104の設置方法は、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図4の(a)に示しているように、対象話者U1の後ろに設置できるスペースがあれば、直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(b)に示しているように、床FRにスピーカ104を埋め込んで直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(c)に示しているように、天井CEにスピーカ104を設置して直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良い。
As for the installation method of the
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be obtained.
第1の実施形態のサウンドマスキング装置100は、対象話者U1の音声を入力信号DBに蓄積し、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力する。これにより、第1の実施形態のサウンドマスキング装置100では、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第1の実施形態のサウンドマスキング装置100では、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近いので、高いマスキング効果が得られる。
The
さらに、第1の実施形態のサウンドマスキング装置100は、マスカー信号を再生するスピーカを、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置することで、対象話者U1の会話を妨害せずに対象話者U1の発話する音声をマスキングすることができる。
Furthermore, in the
(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(B-1)第2の実施形態の構成
図5は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図2では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 5 is a block diagram showing the functional configuration of a
以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。 In the following, the second embodiment will be described with a focus on differences from the first embodiment, and descriptions of portions that overlap with the first embodiment will be omitted.
第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Aでは、マスカー信号生成部204が、マスカー信号生成部204Aに置き換わり、さらに、音声区間判定部205とDB蓄積判定部206が追加されている点で、第1の実施形態と異なっている。
The
第2の実施形態のサウンドマスキング装置100Aのサウンドマスキング処理部200Aでは、音声区間判定部205とDB蓄積判定部206が増えたことにより入力信号DBに蓄積されるフレーム分割されたマイク入力信号とマスカー信号の生成方法が異なる点と、マスカー信号生成部204Aになったことによりフレーム分割されたマイク入力信号の蓄積方法やマスカー信号方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
In the sound masking
音声区間判定部205は、フレーム分割されたマイク入力信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。
A voice
DB蓄積判定部206は、音声区間判定部205の音声区間判定の結果を基に、フレーム分割されたマイク入力信号が音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力し、非音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力しない。
If the frame-divided microphone input signal is determined to be in a voice segment based on the voice segment determination result of the voice
マスカー信号生成部204Aは、音声区間判定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
The masker
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
(B-2) Operation of Second Embodiment Next, the operation of the
第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第1の実施形態と異なる点である音声区間判定部205、DB蓄積判定部206、マスカー信号生成部204Aにおける処理動作を中心に詳細に説明する。
In the following, a detailed description will be given centering on the processing operations in the speech
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間か非音声区間かの判定手段は、例えば、(9)式と(10)式に従い判定する。
The voice
(9)式と(10)式で、x_fram(l;m)はフレーム分割したマイク入力信号、x_fram_amp(l)はフレーム分割したマイク入力信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。
(9)式は、フレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式である。(10)式は、(9)式で求めたフレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。 Formula (9) is a formula for obtaining the average amplitude value x_fram_amp(l) of the frame-divided microphone input signal x_fram(l;m). Equation (10) determines that it is a voice segment if the average amplitude value x_fram_amp(l) of the frame-divided microphone input signal x_fram(l;m) obtained by Equation (9) is greater than the threshold value TH. 1 is substituted for VAD(l), and if the value is smaller than the threshold value TH, it is determined as a non-speech section and 0 is substituted for the speech section determination result VAD(l).
閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、(11)式に示すように、サウンドマスキング装置100Aが動作し始めた最初の数フレームを無音区間とし、その最初の数フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良いし、(12)式に示すように、x_fram_amp(l)に時定数フィルタを用いてフレーム毎に変動する閾値TH(l)を用いても良い。
(12)式で、aは時定数フィルタの係数であり、0以上、1以下の値となる。(12)式において、閾値の更新を遅くしたい場合aは1に近い値が望ましく(例えばa=0.9等の値)、閾値の更新を速くしたい場合aは0に近い値が望ましい(例えばa=0.1等の値)。 In the expression (12), a is a coefficient of the time constant filter and takes a value of 0 or more and 1 or less. In the equation (12), a value close to 1 is desirable for slow updating of the threshold value (for example, a=0.9), and a value close to 0 is desirable for speeding up updating of the threshold value (for example, value such as a=0.1).
なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。音声区間判定部205は、音声区間か非音声区間かの判定結果をDB蓄積判定部206とマスカー信号生成部204Aに出力する。
Various methods can be widely applied as the means for judging whether it is a speech section or a non-speech section. It may be determined by a method such as determining whether it is a speech segment. The voice
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、入力信号DB202に出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)=0のとき)は、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
The DB
マスカー信号生成部204Aは、音声区間判定部205の音声区間判定結果VAD(l)と信号選択部203の選択結果T(k)を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Aは、(6)式と(13)式に従い、マスカー信号を出力する。
The masker
(13)式で、ha(l;m)はマスカー信号生成部204Aで生成されるマスカー信号である。(13)式は、音声区間判定部205で、マイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、信号選択部203の選択結果T(k)を用いてマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号h(l;m)を生成しha(l;m)に代入し、マイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)≠1のとき)は、ha(l;m)に無音を代入する。
In equation (13), ha(l;m) is the masker signal generated by the
マスカー信号生成部204は、(14)式に従い、出力信号y(n)を音出力端子OUTに出力する。
(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained.
第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB202に蓄積することで、対象話者U1の音声とは関係のない雑音が入力信号DB202に蓄積されてマスカー素辺信号として選択されることがなくなるので、対象話者U1の音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。
In the
また、第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
Further, in the
(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound processing device, sound processing program and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(C-1)第3の実施形態の構成
図6は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図6では、上述の図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
(C-1) Configuration of Third Embodiment FIG. 6 is a block diagram showing the functional configuration of a
以下では、第3の実施形態について、第1、及び第2の実施形態との差異を中心に説明し、第1と第2の実施形態と重複する部分については説明を省略する。 In the following, the third embodiment will be described with a focus on differences from the first and second embodiments, and descriptions of portions that overlap with the first and second embodiments will be omitted.
第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。
A
サウンドマスキング処理部200Bでは、入力信号DB202と信号選択部203とマスカー信号生成部204Aが、それぞれ入力信号DB202Aと信号選択部203Aとマスカー信号生成部204Bに置き換わり、さらに、ピッチ推定部205とクラス判定部208が追加されている点で、第2の実施形態と異なっている。
In the sound masking
第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部205とクラス判定部208が増えたことにより、フレーム分割されたマイク入力信号のピッチ推定、フレーム分割されたマイク入力信号の蓄積方法、マスカー信号の生成に使用する信号を選択する方法、マスカー信号の生成方法が異なる点が第2の実施形態と異なる。
In the
ピッチ推定部207は、フレーム分割されたマイク入力信号と音声区間判定の結果からフレーム分割されたマイク入力信号のピッチ(音声の高さ)を推定し、推定したピッチを出力する。
The
クラス判定部208は、ピッチ推定部207で推定したピッチの結果を基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力しない。
Based on the result of the pitch estimated by the
入力信号DB202Aは、フレーム分割したマイク入力信号をピッチに応じたクラスごとに蓄積する記憶手段である。
The
信号選択部203Aは、クラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
The
マスカー信号生成部204Bは、音声区間判定とピッチ推定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成して出力する。
The masker
なお、第3の実施形態において、第1の実施形態と同様に音声区間判定部205を除外した構成としても良い。
In addition, in the third embodiment, the configuration may be such that the speech
(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
(C-2) Operation of Third Embodiment Next, the operation of the
第3の実施形態に係るサウンドマスキング装置100Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第2の実施形態と異なる点であるピッチ推定部207、クラス判定部208、入力信号DB202A、信号選択部203A、マスカー信号生成部204Bにおける処理動作を中心に詳細に説明する。
In the following, the processing operations of the
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205、DB蓄積判定部206、ピッチ推定部207に出力する。
The
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Bに出力する。
The speech
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208、信号選択部203A、マスカー信号生成部204Bに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
Only when the voice
ピッチ推定部207は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定する。ピッチの推定手段は、例えば、(15)式に従い、フレーム分割したマイク入力信号x_fram(l;m)の自己相関関数x_fram_corr(l)を求め、(16)式に従い自己相関関数x_fram_corr(l)を用いて推定するようにしても良い。
(16)式で、pitch(l)は推定したピッチ、fsはサンプリング周波数である。ピッチの推定手法は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。ピッチ推定部205は、推定したピッチpitch(l)をクラス判定部208とマスカー信号生成部204Bに出力する。
In equation (16), pitch(l) is the estimated pitch and fs is the sampling frequency. Various methods can be widely applied as the pitch estimation method. You can calculate.
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積するか蓄積しないかを判定する。クラス判定部208において、入力信号DB202Aに蓄積するか蓄積しないかを判定手法については限定されないものである。例えば、ピッチ推定部207で推定したピッチpitch(l)が、100HZ以下、101Hz~200Hz、201Hz~300Hz、301Hz~400Hz、401Hz~500Hz、500Hz以上のように100Hzの間隔(グリッド)でクラス分けする。そして、100HZ以下、又は500Hz以上の時、入力信号DB202Aに蓄積しないと判定し、それ以外のときは入力信号DB202Aに蓄積すると判定するようにしても良い。また、例えば、入力信号DB202Aでは、周波数があがるほどクラスの周波数間隔(グリッド)を広げるようにしても良い。
Based on the pitch estimated by
クラス判定部208は、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力しない。
Only when it is determined that the frame-divided microphone input signal is stored in the
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
(17)式で、DB’(p;i;m)は入力信号DB、mはフレーム内の離散的な時間(m=0、1、2、・・・、M-1)、i(pitch(l))はデータベースのクラスごとのインデックス、Iはデータベース長である。i(pitch(l))は(18)式に示すように、クラスにデータが蓄積されるとインクリメントする。 In equation (17), DB' (p; i; m) is the input signal DB, m is the discrete time in the frame (m = 0, 1, 2, ..., M-1), i (pitch (l)) is an index for each class of the database, and I is the length of the database. i(pitch(l)) is incremented when data is accumulated in the class as shown in equation (18).
信号選択部203Aは、入力信号DB202Aにクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(19)式に示すように選択結果Ta(k)を選択する。
The
(19)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMOD関数である。(19)式は、Iで割ったときの剰余を返すことで、選択結果Ta(k)は0からI-1の値になる。 In the equation (19), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. Expression (19) returns the remainder when divided by I, so that the selection result Ta(k) takes values from 0 to I−1.
なお、選択結果Ta(k)を算出手法は、種々の方法を広く適用することができ、例えば、(20)式に示すように、どのフレームを使用するかランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result Ta(k). For example, as shown in equation (20), which frame to use may be randomly selected.
(20)式で、randは自然数kに対して乱数を生成する関数である。(20)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Ta(k)は0からI-1の値になる。信号選択部203Aは、選択結果Ta(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204Bは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Aの選択結果Ta(k)を基に、マスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Bは、(21)式と(22)式に従い、マスカー信号を出力する。
The masker
(21)式で、hb(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(22)式で、h’(l;m)は入力信号DBから生成されるマスカー信号Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)をである。(21)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’(l;m)を生成し、上記以外の時ときは無音を生成し、hb(l;m)に代入するという式である。(22)は、入力信号DB202Aにピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を重畳して生成する方法である。
In equation (21), hb(l;m) is the masker signal, F0_MAX is the maximum pitch value, and in equation (22), h'(l;m) is the masker signal K generated from the input signal DB. It is the number of selections of the masker bare side signal (the number of additions of the voice when generating the masker signal). Expression (21) expresses the pitch pitch estimated by the
なお、マスカー信号生成部204Bにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Bでは、入力信号DB202Aのクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’(l;m)を生成しても良い。
Various methods can be widely applied to the masker signal generation method in the masker
そして、マスカー信号生成部204Bは、(23)式に従い、出力信号y(n)を音出力端子OUTに出力する。
(C-3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
(C-3) Effects of Third Embodiment According to the third embodiment, the following effects can be obtained.
第3の実施形態のサウンドマスキング装置100Bでは、対象話者U1の音声をピッチに応じたクラスごとに入力信号DB202Aに蓄積し、ピッチに応じたクラスごとに入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、第3の実施形態のサウンドマスキング装置100Bでは、マスカー信号と対象話者U1の音声との音響特徴にさらに近づくので、よりマスキング効果を高めることができる。
In the
(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the sound processing device, sound processing program and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(D-1)第4の実施形態の構成
図7は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図7では、上述の図6と同一部分又は対応部分には、同一符号又は対応符号を付している。
(D-1) Configuration of the Fourth Embodiment FIG. 7 is a block diagram showing the functional configuration of a
以下では、第4の実施形態について、第1から第3の実施形態との差異を中心に説明し、第1から第3の実施形態と重複する部分については説明を省略する。 In the following, the fourth embodiment will be described with a focus on the differences from the first to third embodiments, and descriptions of portions that overlap with the first to third embodiments will be omitted.
第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第3の実施形態と異なっている。
A
サウンドマスキング処理部200Cでは、信号選択部203Aとマスカー信号生成部204Bが信号選択部203Bとマスカー信号生成部204Cに置き換わり、さらに、第三者音声信号DB209と使用DB判定部210が追加されている点で、第1から第3の実施形態と異なっている。
In the sound masking
第4の実施形態のサウンドマスキング装置100Cでは、第三者音声信号DB209と使用DB判定部210が増えたことにより、第三者音声信号DB209に第三者音声信号を蓄積する方法、サウンドマスキング装置100Cが動作した時に使用するDB、マスカー信号の生成に使用する信号を選択する方法、マスカー生成方法が異なる点が第1から第3の実施形態と異なる。
In the
第三者音声信号DB209は、例えば、事前にサンプルとなる音声信号(以下、「第三者音声信号」と呼ぶ)を蓄積しておき、蓄積した第三者の音声信号をフレーム分割し、フレーム分割された第三者音声信号をピッチに応じたクラスに分けて蓄積したデータベースである。
For example, the third-party
使用DB判定部210は、入力信号DB202Aの各クラスに、フレーム分割されたマイク入力信号が所定量以上(十分)蓄積されているか否かを判定し、その判定結果を出力する。
The use
信号選択部203Bは、入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
The
マスカー信号生成部204Cは、音声区間判定とピッチ推定の結果と使用DB判定結果と選択結果を基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていないと判定されたときは第三者音声信号DB209を選択し、マスカー素辺信号を選択されたデータベース(以下、選択したデータベースを「選択データベース」と呼ぶ)のピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームからマスカー素辺信号からマスカー信号を生成して出力する。
The masker
なお、第4の実施形態において、ピッチ推定部205を除外し、入力信号DB202A、又は第三者音声信号DB209においてクラス分けせずに蓄積するようにしても良い。また、第4の実施形態において、音声区間判定部205を除外するようにしても良い。
In the fourth embodiment, the
(D-2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態に係る音響処理方法)について詳細に説明する。
(D-2) Operation of Fourth Embodiment Next, the operation of the
第4の実施形態に係るサウンドマスキング装置100Cにおけるサウンドマスキング処理の基本的な動作は、第1から第3の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第1から第3の実施形態と異なる点である第三者音声信号DB209、使用DB判定部210、信号選択部203B、マスカー信号生成部204Cにおける処理動作を中心に詳細に説明する。
In the following, a detailed description will be given centering on the processing operations of the third-party
サウンドマスキング装置100Cのサウンドマスキング処理部200Cでは、サウンドマスキング処理を行う前に、第三者音声信号DB209へ音声信号の蓄積を行う。
The sound
例えば、図8に示すように、事前に音声信号のサンプルを蓄積したデータベース(例えば、市販されている音声信号のデータベース等)により構成された第三者音声信号サンプルデータASを、サウンドマスキング処理部200Cに入力することで第三者音声信号DB209を構築する。
For example, as shown in FIG. 8, third-party audio signal sample data AS composed of a database in which audio signal samples are accumulated in advance (for example, a commercially available audio signal database) is processed by the sound masking processor. 200C to construct a third party
図8では、第三者音声信号サンプルデータASに基づく音声信号をサウンドマスキング処理部200Cに入力し、サウンドマスキング装置100Cが動作を開始して、第三者音声信号サンプルデータASに基づく音声信号について、上記の各実施形態と同様にフレーム分割、音声区間判定、ピッチ推定、DB蓄積判定、クラス判定を行い、第三者音声信号DB209に蓄積する。
In FIG. 8, an audio signal based on the third party audio signal sample data AS is input to the sound masking
なお、上記の各実施形態の入力信号DB202、202Aの蓄積処理と同様の処理により、第三者音声信号DB209を構築するようにしても良い。
Note that the third party
また、第三者音声信号サンプルデータASが記録されるデータ記録媒体は限定されないものである。 Also, the data recording medium on which the third party audio signal sample data AS is recorded is not limited.
さらに、第三者音声信号DB209を構築する際のサンプルとしては、予め録音された第三者音声信号サンプルデータASではなく、マイク101、マイクアンプ102、及びAD変換器103を音入力端子INに接続して、複数の人物に発話して蓄積(マイク101を介して第三者音声信号のサンプルを蓄積)するようにしても良いし、別のPC等で処理して作成したデータ(第三者音声信号のサンプルデータ)を使用(例えば、通信やデータ記録媒体によりコピー)するようにしても良い。
Furthermore, as a sample for constructing the third party
そして、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理が開始するまで一時停止する。
Then, when the third party
なお、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理を開始するようにしても良い。
It should be noted that when the third party
このとき、第三者音声信号DB209に所定以上の量のデータが蓄積されたか否かを判定する方法は限定されないものであるが、使用DB判定部210を用いた判定処理を行うようにしても良い。
At this time, the method of determining whether or not a predetermined amount or more of data has been accumulated in the third party
サウンドマスキング装置100Cがサウンドマスキング処理を開始し、対象話者U1がマイク101に向かつて音声を発話すると、マイク101に入力される。
The
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)として入力される。
An analog sound signal input to the
サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
When the microphone input signal x(n) starts to be input to the sound input terminal IN of the sound masking
フレーム分割部201は、マイク入力信号x(n)を、処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206とピッチ推定部207に出力する。
The
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Cに出力する。
The speech
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208信号選択部203B、マスカー信号生成部204Cに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
Only when the voice
ピッチ推定部207は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定し、推定したピッチをマスカー信号生成部204Cとピッチ推定部207に出力する。
The
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力して蓄積する。
Based on the pitch estimated by
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
Only when the microphone input signal x_fram(l;m) is output from the
使用DB判定部210は、入力信号DB202Aの各クラスに過去のフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量のデータが蓄積(十分蓄積)されているか判定し、判定結果を出力する。使用DB判定部210は、例えば、以下の(24)式に従って、入力信号DB202Aにフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量が蓄積されているか否かを判定する。
(24)式で、flag(l)は、判定結果である。(24)式は、所定以上の量のデータが蓄積されている場合は、判定結果flag(l)に1を代入し、所定以上の量のデータが蓄積(十分蓄積)されていない場合は判定結果flag(l)に0を代入する。 In expression (24), flag(l) is the determination result. Formula (24) assigns 1 to the determination result flag(l) when a predetermined amount or more of data has been accumulated, and determines Assign 0 to the result flag(l).
なお、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断手法は、種々の方法を広く適用することができる。例えば、使用DB判定部210フレーム分割したマイク入力信号x_fram(l;m)が入力信号DBに蓄積される回数をカウントし、カウント数が閾値を超えた場合、所定以上のデータが蓄積されていると判定しても良いし、クラス毎に蓄積される回数をカウントし、全てのクラスについてカウント数が閾値を超えた場合、十分蓄積されていると判定しても良い。
It should be noted that various methods can be widely applied as a method of determining whether or not a predetermined amount of data or more is accumulated in the
また、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断開始方法は、種々の方法を広く適用することができる。例えば、サウンドマスキング装置100Cの動作が開始してから判定を開始しても良いし、サウンドマスキング装置100Cの動作が開始して所定時間経過した時から判定を開始するようにしても良い。そして、使用DB判定部210は、信号選択部203Bに判定結果flag(l)を出力する。
Further, various methods can be widely applied as a method for starting determination in use
信号選択部203Bは、使用DB判定部210から出力された判定結果flag(l)から入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(25)式に示すように選択結果Tb(k)を選択する。
The
(25)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMOD関数である。Iで割ったときの剰余を返すことで、選択結果Tb(k)は0からI-1の値になる。(25)式は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、第三者音声信号DB209からマスカー素辺信号を選択し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、入力信号DB202Aからマスカー素辺信号を選択するという式である。
(25), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. By returning the remainder when dividing by I, the selection result Tb(k) becomes a value from 0 to I−1. Expression (25) is obtained by the use
なお、選択結果Tb(k)を算出手法は、種々の方法を広く適用することができ、例えば、(26)式に示すように、どのフレームを使用するかランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result Tb(k). For example, as shown in equation (26), which frame to use may be randomly selected.
(26)式で、randは自然数kに対して乱数を生成する関数である。(26)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Tb(k)は0からI-1の値になる。信号選択部203Bは、選択結果Tb(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204Cは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Bの選択結果Tb(k)、使用DB判定部210の判定結果flag(l)に基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていない判定されたときは第三者音声信号DB209を選択し、マスカー素返信号を選択データベースのピッチに応じたクラスから複数フレーム読み出す。そして、読み出された複数フレームからマスカー信号を生成し出力する。マスカー信号生成部204Cは、例えば、(27)式と(28)式に従い、マスカー信号を出力する。
The masker
(27)式で、hc(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(28)式で、DB2(p;l;m)は第三者音声信号DB、h’’(l;m)は第三者音声信号DBと入力信号DBから生成されるマスカー信号、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)である。(27)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’’(l;m)を生成し、上記以外の時ときは無音を生成しhc(l;m)に代入するという式である。(28)は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、マスカー素辺信号を、第三者音声信号DB209から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、マスカー素辺信号を入力信号DB202Aから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成する。
In equation (27), hc(l;m) is the masker signal, F0_MAX is the maximum pitch value, and in equation (28), DB2(p;l;m) is the third party audio signal DB, h'' (l; m) is the masker signal generated from the third party audio signal DB and the input signal DB, and K is the number of selections of masker side signals (the number of audio additions when generating the masker signal). Expression (27) expresses the pitch pitch estimated by the
なお、マスカー信号生成部204Cにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Cでは、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’’(l;m)を生成しでも良いし、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’’(l;m)を生成しても良い。
In addition, in the
そして、マスカー信号生成部204Cは、(29)式に従い、生成したマスカー信号hc(l;m)を出力信号y(n)として音出力端子OUTに出力する。
(D-3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
(D-3) Effects of Fourth Embodiment According to the fourth embodiment, the following effects can be obtained.
第4の実施形態のサウンドマスキング装置100Cは、動作開始時には第三者音声信号DB209を使用してマスカー信号を生成して出力し、入力信号DB202Aに入力信号が十分蓄積されたら、入力信号DB202Aに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、サウンドマスキング装置100Cでは、動作開始時から音響特徴が対象話者U1の音声の音響特徴に近いマスカー信号を生成できるので、よりマスキング効果を高めることができる。
The
(E)第5の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第5の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(E) Fifth Embodiment Hereinafter, a fifth embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(E-1)第5の実施形態の構成
図9は、第5の実施形態に係るサウンドマスキング装置100Dの機能的構成について示したブロック図である。図9では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(E-1) Configuration of Fifth Embodiment FIG. 9 is a block diagram showing the functional configuration of a
以下では、第5の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。 In the following, the fifth embodiment will be described with a focus on the differences from the first embodiment, and descriptions of portions that overlap with the first embodiment will be omitted.
第5の実施形態のサウンドマスキング装置100Dでは、サウンドマスキング処理部200がサウンドマスキング処理部200Dに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Dでは、マスカー信号生成部204がマスカー信号生成部204Dに置き換わっている点で第1の実施形態と異なっている。
The
第5の実施形態のサウンドマスキング装置100Dは、マスカー信号生成部204Dのマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
The
マスカー信号生成部204Dは、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
The masker
(E-2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態におけるサウンドマスキング装置100Dの動作(実施形態に係る音響処理方法)について詳細に説明する。
(E-2) Operation of Fifth Embodiment Next, the operation of the
第5の実施形態に係るサウンドマスキング装置100Dにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
The basic operation of the sound masking process in the
以下では、第1の実施形態と異なる点であるマスカー信号生成部204Dにおける処理動作を中心に詳細に説明する。
In the following, a detailed description will be given centering on the processing operation in the
マスカー信号生成部204Dは、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を使用してマスカー信号を生成する。マスカー信号生成部204Dが行うマスカー信号の生成手法としては、例えば、入力信号DB202に蓄積されているマイク入力信号に所定量の遅延を与えて重畳することで疑似的にエコー(以下、「疑似エコー」と呼ぶ)を生成し、マスカー信号として使用する手法が挙げられる。
The masker
マスカー信号生成部204Dは、疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力する。疑似エコーは、例えば、(30)式、(31)式に従い、疑似エコーを生成する。
(30)式、(31)式で、c(c=1、2、・・・、C)はインデックスを、Cは疑似エコー生成時における音声の加算回数、p(1≦p≦(M-1))は疑似エコーを生成する時の入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号をどれだけ遅延させるかのパラメー夕、αは減表係数(0.0<α<1.0)である。(31)式は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を複数フレーム読み出しを時間的にずらして減衰係数を乗算してから重畳して生成される信号である。疑似エコーの遅延時間は、例えば、0.1[秒]から1.0[秒](48kHzサンプリングで約4800[サンプル]から48000[サンプル])程度としても良い。例えば、(30)式で、C=3、p=50、α=0.5のときは、入力信号DB202に蓄積されている過去1フレーム前のマイク入力信号と、入力信号DB202に蓄積されている過去2フレーム前のマイク入力信号を50サンプル進めて減衰係数α(=0.5)を乗算した信号と、入力信号DB202に蓄積されている過去3フレーム前のマイク入力信号を100サンプル進めて、減衰係数α2(=0.25)を乗算した信号を重畳することで疑似エコーe(l;m)を生成することを示す。
In equations (30) and (31), c (c=1, 2, . 1)) is a parameter indicating how much the past frame-divided microphone input signal stored in the
なお、マスカー信号生成部204Dにおける疑似エコーの生成手法は、種々の方法を広く適用することができる。マスカー信号生成部204Dでは、例えば、(32)式と(33)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転した信号を使用して疑似エコーe(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定して疑似エコーe(l;m)を生成しても良い。
そして、マスカー信号生成部204Dは、(34)式に従い、生成した疑似エコーe(l;m)を出力信号y(n)として音出力端子OUTに出力する。
(E-3)第5の実施形態の効果
第5の実施形態によれば、以下のような効果を奏することができる。
(E-3) Effects of Fifth Embodiment According to the fifth embodiment, the following effects can be obtained.
第5の実施形態のサウンドマスキング装置100Dは、対象話者U1の音声を入力信号DBに蓄積し、入力音声信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用して疑似エコーを生成し、疑似エコーをマスカー信号として出力する。これにより、サウンドマスキング装置100Dでは、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第5の実施形態のサウンドマスキング装置100でも、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近くなるので、高いマスキング効果が得られる。
The
(F)第6の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第6の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(F) Sixth Embodiment Hereinafter, a sixth embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.
(F-1)第6の実施形態の構成
図10は、第6の実施形態に係るサウンドマスキング装置100Eの機能的構成について示したブロック図である。図10では、上述の図9と同一部分又は対応部分には、同一符号又は対応符号を付している。
(F-1) Configuration of Sixth Embodiment FIG. 10 is a block diagram showing the functional configuration of a sound masking device 100E according to the sixth embodiment. In FIG. 10, the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as in FIG. 9 described above.
以下では、第5の実施形態について、第5の実施形態との差異を中心に説明し、第5の実施形態と重複する部分については説明を省略する。 In the following, the fifth embodiment will be described with a focus on differences from the fifth embodiment, and descriptions of portions that overlap with the fifth embodiment will be omitted.
第6の実施形態のサウンドマスキング装置100Eでは、サウンドマスキング処理部200Dがサウンドマスキング処理部200Eに置き換わっている点で、第5の実施形態と異なっている。サウンドマスキング処理部200Eは、フレーム分割部201、第1の入力信号DB211、第2の入力信号DB212、第1の信号選択部213、第2の信号選択部214、第1のマスカー生成部215、第2のマスカー生成部216、及びマスカー信号ミキシング部217を有している。
A sound masking device 100E of the sixth embodiment differs from that of the fifth embodiment in that the sound masking
第6の実施形態のサウンドマスキング装置100Eでは、マスカー信号の生成方法が、第1の実施形態、及び第5の実施形態と異なっている。具体的には、サウンドマスキング処理部200Eは、入力されたマイク入力信号から2種類のマスカー信号を生成し、重畳した信号をマスカー信号として出力する。
The sound masking device 100E of the sixth embodiment differs from the first and fifth embodiments in the method of generating the masker signal. Specifically, the sound masking
第1の入力信号DB211、第2の入力信号DB212は、第1の実施形態の入力信号DB202と同様のものであるため詳しい説明を省略する。また、第1の信号選択部213、第2の信号選択部214も、第1の実施形態の信号選択部203と名前が異なるだけで同様のものであるため詳しい説明を省略する。
Since the first input signal DB211 and the second input signal DB212 are similar to the input signal DB202 of the first embodiment, detailed description thereof will be omitted. Also, the first
第1のマスカー生成部215は、後述する第2のマスカー生成部216と異なる方法で、第1の入力信号DB211からマスカー信号を生成し出力する。
The
第2のマスカー生成部216は、第1のマスカー生成部215と異なる方法で、第2の入力信号DB212からマスカー信号を生成し出力する。
The
マスカー信号ミキシング部217は、各マスカー信号生成部から出力されたマスカー信号をミキシングして最終的に出力するマスカー信号を生成する。
The masker
第1の入力信号DB211と第2の入力信号DB212には、両法のDBに同様のデータ(例えば、第1の入力信号DB211と第2の入力信号DB212に第1の実施形態における入力信号DB202と同様のデータ)を蓄積するようにしても良いし、異なるデータ(例えば、第1の入力信号DB211は、第1の実施形態における入力信号DB202、第2の入力信号DB212は、第3の実施形態における入力信号DB202Aと同様のデータ)を蓄積するようにしても良い。
For the first input signal DB211 and the second input signal DB212, the same data as the DB of both methods (for example, the first input signal DB211 and the second input signal DB212 have the same data as the input signal DB202 in the first embodiment). , or different data (for example, the first input signal DB211 is the input signal DB202 in the first embodiment, and the second input signal DB212 is the third embodiment). (data similar to the
(F-2)第6の実施形態の動作
次に、以上のような構成を有する第6の実施形態におけるサウンドマスキング装置100Eの動作(実施形態に係る音響処理方法)について詳細に説明する。
(F-2) Operation of Sixth Embodiment Next, the operation of the sound masking device 100E (acoustic processing method according to the embodiment) of the sixth embodiment having the configuration described above will be described in detail.
第6の実施形態に係るサウンドマスキング装置100Eにおけるサウンドマスキング処理の基本的な動作は、第5の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100E according to the sixth embodiment is the same as the sound masking process described in the fifth embodiment.
本発明の第6の実施形態に係るサウンドマスキング装置100Eの動作を詳細に説明する。 The operation of the sound masking device 100E according to the sixth embodiment of the invention will be described in detail.
第1のマスカー生成部215は、第1の入力信号DB211に蓄積されている過去のフレーム分割したマイク入力信号を使用して第2のマスカー生成部216とは異なる方法でマスカー信号を生成する。
The
第2のマスカー生成部216は、第2の入力信号DB212に蓄積されている過去のフレーム分割したマイク入力信号を使用して第1のマスカー生成部215とは異なる方法でマスカー信号を生成する。
The second
例えば、第1のマスカー生成部215は、(6)式、又は(7)式に示すようにマスカー信号h(l;m)を生成し、第2のマスカー生成部216は、(32)式、又は(34)式に示すような疑似エコーe(l;m)をマスカー信号として生成するようにしても良い。
For example, the
マスカー信号ミキシング部217は、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングし、マスカー信号mix(l;m)として出力する。マスカー信号ミキシング部217は、例えば、(35)式に基づいて、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングするようにしても良い。
The masker
(35)式で、β(0.0≦β≦1.0)はどちらのマスカー信号を多く使用するかのパラメータである。第1のマスカー生成部215のマスカー信号を多く使用したい場合、βは1に近い値が望ましく(例えば、β=0.9等の値)、第2のマスカー生成部216のマスカー信号を多く使用したい場合、βは1に近い値が望ましい(例えば、β=0.1等の値)。
In equation (35), β (0.0≤β≤1.0) is a parameter indicating which masker signal is used more. When the masker signal of the
マスカー信号ミキシング部217は、(36)式に従い、ミキシングしたマスカー信号mix(l;m)を出力信号y(n)として出力する。
(F-3)第6の実施形態の効果
第6の実施形態によれば以下のような効果を奏することができる。
(F-3) Effects of Sixth Embodiment According to the sixth embodiment, the following effects can be obtained.
第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1の音声を第1の入力信号DB211及び第2の入力信号DB212に蓄積し、各入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用し、それぞれ異なる方法でマスカー信号を生成し、ミキシングする量を調節してミキシングし出力する。これにより、第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1にマスキング効果が高い方式のマスカー音のミキシング量を調節できるので、よりマスキング効果を高めることができる。
In the sound masking device 100E of the sixth embodiment, the voice of the target speaker U1 is accumulated in the first
(G)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(G) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those illustrated below can also be included.
(G-1)例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止するする装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。 (G-1) For example, the sound masking device of the present invention may be installed in a device that prevents the contents of a conversation from leaking out to people other than the target audience in a teleconference. In this case, in the sound masking device, the target speaker U1 is the person speaking in the conference call.
(G-2)上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置(例えば、サーバ等)で処理される構成としても良い。 (G-2) In each of the above embodiments, the sound masking unit of the sound masking device may be configured to be processed by a processing device (for example, a server, etc.) on the network.
(G-3)上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。 (G-3) In each of the above embodiments, the sound masking device includes an audio device (microphone, microphone amplifier, AD converter, speaker, speaker amplifier, and DA converter). The masking device may be manufactured without the audio device, and the audio device may be separately connected at the site of actual use. That is, the sound masking device may include at least a sound masking processing unit.
100、100A、100B、100C、100D、100E…サウンドマスキング装置、101…マイク、102…マイクアンプ、103…AD変換器、104…スピーカ、105…スピーカアンプ、106…DA変換器、107…スピーカ、200、200A、200B、200C、200D、200E…サウンドマスキング処理部、201…フレーム分割部、202、202A…入力信号DB、203、203A、203B…信号選択部、204、204A、204B、204C、204D…マスカー信号生成部、205…音声区間判定部、206…DB蓄積判定部、207…ピッチ推定部、208…クラブ判定部、209…第三者音声信号DB、210…使用DB判定部、211…第1の入力信号DB、212…第2の入力信号DB、213…第1の信号選択部、216…第2の信号選択部、215…第1のマスカー生成部、216…第2のマスカー生成部、217…マスカー信号ミキシング部、300…コンピュータ、301…プロセッサ、302…一次記憶部、303…二次記憶部。
100, 100A, 100B, 100C, 100D, 100E... Sound masking device, 101... Microphone, 102... Microphone amplifier, 103... AD converter, 104... Speaker, 105... Speaker amplifier, 106... DA converter, 107... Speaker, 200, 200A, 200B, 200C, 200D, 200E... Sound masking processing unit, 201... Frame division unit, 202, 202A... Input signal DB, 203, 203A, 203B... Signal selection unit, 204, 204A, 204B, 204C, 204D Masker
Claims (10)
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、
マイク入力信号のピッチを推定するピッチ推定手段とを有し、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理装置。 a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths;
input signal accumulation means for accumulating the frame-divided microphone input signal;
signal selection means for selecting a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and for outputting a selection result;
a masker signal generating means for generating and outputting the masker signal that makes the speech uttered by the target speaker difficult to hear, using the signal used to generate the masker signal ;
pitch estimation means for estimating the pitch of the microphone input signal;
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
An acoustic processing device characterized by:
前記入力信号蓄積手段は、前記音声区間と判定されたときのみ、マイク入力信号を蓄積する
ことを特徴とする請求項1~3のいずれかに記載の又は請求項2に記載の音響処理装置。 further comprising a speech section determination unit that determines whether the microphone input signal is a speech section or a non-speech section,
3. The sound processing apparatus according to claim 1, wherein the input signal accumulation means accumulates the microphone input signal only when the speech period is determined.
前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されているか否かを判定する蓄積判定手段とをさらに備え、
前記マスカー信号生成手段は、前記蓄積判定手段で、前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されていないと判定されている間だけ、前記第三者信号蓄積手段に蓄積されている第三者音声信号を用いてマスカー信号を生成することを特徴とする請求項1~4のいずれかに記載の音響処理装置。 a third party signal storage means for storing a third party voice signal obtained by picking up a voice uttered by a third party different from the target speaker;
further comprising accumulation determination means for determining whether or not a predetermined amount or more of the microphone input signal is accumulated in the input signal accumulation means,
The masker signal generation means accumulates in the third party signal accumulation means only while the accumulation judgment means judges that the input signal accumulation means does not accumulate microphone input signals of a predetermined amount or more. 5. The sound processing apparatus according to any one of claims 1 to 4 , wherein the masker signal is generated using a third party audio signal that has been recorded.
前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号をマスカー信号として出力する
ことを特徴とする請求項1に記載の音響処理装置。 The input signal accumulation means accumulates microphone input signals divided into a plurality of frames,
The masker signal generating means time-processes a signal obtained by superimposing a plurality of frames of the microphone input signal accumulated in the input signal accumulation means, or time-processes the input signal of a plurality of frames accumulated in the input signal accumulation means. 2. The sound processing device according to claim 1, wherein the signal superimposed on the signal is output as a masker signal.
前記マスカー信号生成手段は、
前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号を第1のマスカー信号として生成し、
前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーを第2のマスカー信号として生成し、
前記第1のマスカー信号と前記第2のマスカー信号とを重畳した信号をマスカー信号として生成して出力する
ことを特徴とする請求項1に記載の音響処理装置。 The input signal accumulation means accumulates microphone input signals divided into a plurality of frames,
The masker signal generating means is
A signal obtained by superimposing a plurality of frames of the microphone input signal accumulated in the input signal accumulation means, or a signal obtained by temporally processing and superimposing the plurality of frames of the input signal accumulated in the input signal accumulation means, as a first signal. generated as a masker signal of
delaying the microphone input signal accumulated in the input signal accumulation means by a predetermined amount to generate a pseudo echo, and generating the generated pseudo echo as a second masker signal;
The sound processing apparatus according to claim 1, wherein a signal obtained by superimposing the first masker signal and the second masker signal is generated as a masker signal and output.
対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、
マイク入力信号のピッチを推定するピッチ推定手段として機能させ、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理プログラム。 the computer,
a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths;
input signal accumulation means for accumulating the frame-divided microphone input signal;
signal selection means for selecting a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and for outputting a selection result;
a masker signal generating means for generating and outputting the masker signal that makes the speech uttered by the target speaker difficult to hear, using the signal used to generate the masker signal ;
functioning as pitch estimation means for estimating the pitch of the microphone input signal,
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
A sound processing program characterized by:
フレーム分割手段、入力信号蓄積手段、信号選択手段、マスカー信号生成手段及びピッチ推定手段を有し、
前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、
前記入力信号蓄積手段は、前記フレーム分割されたマイク入力信号を蓄積し、
前記信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、
前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力し、
前記ピッチ推定手段は、マイク入力信号のピッチを推定し、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理方法。 In the acoustic processing method,
having frame division means, input signal accumulation means, signal selection means , masker signal generation means and pitch estimation means ,
The frame dividing means divides a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths,
The input signal accumulation means accumulates the frame-divided microphone input signal,
The signal selection means selects a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and outputs a selection result;
The masker signal generating means uses the signal used to generate the masker signal to generate and output the masker signal that makes the speech uttered by the target speaker difficult to hear ,
The pitch estimation means estimates the pitch of the microphone input signal,
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
An acoustic processing method characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151513A JP7287182B2 (en) | 2019-08-21 | 2019-08-21 | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151513A JP7287182B2 (en) | 2019-08-21 | 2019-08-21 | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021032989A JP2021032989A (en) | 2021-03-01 |
JP7287182B2 true JP7287182B2 (en) | 2023-06-06 |
Family
ID=74678609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019151513A Active JP7287182B2 (en) | 2019-08-21 | 2019-08-21 | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7287182B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7532791B2 (en) * | 2020-02-07 | 2024-08-14 | 沖電気工業株式会社 | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD |
WO2022162929A1 (en) * | 2021-02-01 | 2022-08-04 | 三菱電機株式会社 | Sound masking device, sound masking system, control method, and control program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534061A (en) | 2002-07-24 | 2005-11-10 | アプライド マインズ インク | Method and system for masking languages |
JP2008233671A (en) | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, masking sound generation method, and program |
JP2012194528A (en) | 2010-11-25 | 2012-10-11 | Yamaha Corp | Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175666A (en) * | 1992-12-04 | 1994-06-24 | Daiken Trade & Ind Co Ltd | Partition and room structure for masking |
-
2019
- 2019-08-21 JP JP2019151513A patent/JP7287182B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005534061A (en) | 2002-07-24 | 2005-11-10 | アプライド マインズ インク | Method and system for masking languages |
JP2008233671A (en) | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, masking sound generation method, and program |
JP2012194528A (en) | 2010-11-25 | 2012-10-11 | Yamaha Corp | Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021032989A (en) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101500254B1 (en) | Apparatus, method and computer readable medium for determining a measure for a perceived level of reverberation, and audio processor, method of processing an audio signal and computer readable medium for generating a mix signal from a direct signal component | |
JP6268717B2 (en) | State estimation device, state estimation method, and computer program for state estimation | |
CN103413547B (en) | A method for indoor reverberation elimination | |
Nemeth et al. | Rainforests as concert halls for birds: are reverberations improving sound transmission of long song elements? | |
JP6019969B2 (en) | Sound processor | |
Harte et al. | TCD-VoIP, a research database of degraded speech for assessing quality in VoIP applications | |
US20060130637A1 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
JP7287182B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD | |
JP2008507720A (en) | Audio signal echo cancellation | |
JP2011065128A (en) | Reverberation removing device | |
Tsilfidis et al. | Blind single-channel suppression of late reverberation based on perceptual reverberation modeling | |
Cauchi et al. | Perceptual and instrumental evaluation of the perceived level of reverberation | |
CN112437957B (en) | Forced gap insertion for full listening | |
JP3435357B2 (en) | Sound collection method, device thereof, and program recording medium | |
Steeneken et al. | Basics of the STI measuring method | |
JP4785563B2 (en) | Audio processing apparatus and audio processing method | |
JP5076974B2 (en) | Sound processing apparatus and program | |
JPH09311696A (en) | Automatic gain control device | |
de Lima et al. | Reverberation assessment in audioband speech signals for telepresence systems | |
JP7532791B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD | |
JP2021135361A (en) | Sound processing device, sound processing program and sound processing method | |
JP2011170113A (en) | Conversation protection degree evaluation system and conversation protection degree evaluation method | |
JP2002064617A (en) | Echo suppression method and echo suppression equipment | |
JP7552034B2 (en) | SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD | |
JP2014202777A (en) | Generation device and generation method and program for masker sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7287182 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |