[go: up one dir, main page]

JP7287182B2 - SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD - Google Patents

SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD Download PDF

Info

Publication number
JP7287182B2
JP7287182B2 JP2019151513A JP2019151513A JP7287182B2 JP 7287182 B2 JP7287182 B2 JP 7287182B2 JP 2019151513 A JP2019151513 A JP 2019151513A JP 2019151513 A JP2019151513 A JP 2019151513A JP 7287182 B2 JP7287182 B2 JP 7287182B2
Authority
JP
Japan
Prior art keywords
signal
masker
input signal
microphone input
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019151513A
Other languages
Japanese (ja)
Other versions
JP2021032989A (en
Inventor
尚也 川畑
祥剛 大塩
敬信 西浦
健太 岩居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019151513A priority Critical patent/JP7287182B2/en
Publication of JP2021032989A publication Critical patent/JP2021032989A/en
Application granted granted Critical
Publication of JP7287182B2 publication Critical patent/JP7287182B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。 The present invention relates to a sound processing device, a sound processing program, and a sound processing method, and for example, a sound masking process used as a technique for preventing the contents of a conversation from leaking out to third parties around the speaker who is speaking. can be applied to

近年、不特定多数の人が存在する施設(例えば、病院、薬局、銀行等)の受付カウンター、窓口、打合せスペース等で話者が会話の相手と会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。 In recent years, when a speaker has a conversation with a conversation partner at a reception counter, window, meeting space, etc. in a facility where an unspecified number of people are present (for example, hospitals, pharmacies, banks, etc.), the content of the conversation is Leakage to three parties is a problem.

第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。 Preventing the content of a conversation from being leaked to a third party is called speech privacy, and a sound masking effect is used to achieve speech privacy.

音のマスキング効果とは、ある音(以下、対象音)が聞こえている状態で、対象音に近い音響特性(例えば、周波数特性、ピッチ、フォルマント等)を持つ別の音が存在した場合、対象音が聞き取りにくくなる(マスクされる)現象である。一般的にマスクする音をマスカー、マスクされる音をマスキーと呼ぶ。 The sound masking effect is that when a certain sound (hereafter referred to as the target sound) is heard and there is another sound with similar acoustic characteristics (for example, frequency characteristics, pitch, formants, etc.), the target sound is masked. This is a phenomenon in which sounds become difficult to hear (masked). In general, the masked sound is called a masker, and the masked sound is called a maskee.

この音のマスキング効果を利用した、第三者に会話内容の漏洩を防止(スピーチプライバシーを保護)するサウンドマスキング装置が特許文献1と特許文献2によって提案されている。 Patent documents 1 and 2 propose a sound masking device that uses this sound masking effect to prevent the leakage of conversation content to a third party (protect speech privacy).

特許文献1に記載のサウンドマスキング装置は、マスキー信号である話者の音声信号が変化した場合でも、話者の音声信号の音響特徴量の解析を行い、解析結果を基にマスカー信号を生成し、高いマスキング効果が得られるようにしたサウンドマスキング装置である。 The sound masking device described in Patent Document 1 analyzes the acoustic feature quantity of the speaker's speech signal and generates a masker signal based on the analysis result even when the speaker's speech signal, which is a masking signal, changes. , is a sound masking device capable of obtaining a high masking effect.

特許文献2に記載の音声処理方法は、音声信号のスペクトル包絡とスペクトル微細構造を抽出し、抽出したスペクトル包絡を変形して変形スペクトル包絡を生成する。そして、変形スペクトル包絡及び抽出したスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて生成した信号をマスカー信号として出力することで会話音声の内容が第三者に聞かれないようにする音声処理方法である。 The speech processing method described in Patent Literature 2 extracts the spectral envelope and spectral fine structure of an audio signal, and deforms the extracted spectral envelope to generate a modified spectral envelope. Then, a modified spectrum is generated by synthesizing the modified spectrum envelope and the extracted spectral fine structure, and a signal generated based on the modified spectrum is output as a masker signal so that the contents of the conversational voice cannot be heard by a third party. It is an audio processing method that makes

特開2012-88577号公報JP 2012-88577 A 特開2006-243178号公報JP 2006-243178 A

特許文献1に記載のサウンドマスキング装置では、不特定の話者に対してもある程度マスク効果が期待できるように、男性および女性を含む複数人の音声信号を汎用マスカー信号としてデータベースに保存している。そして、話者の音声信号の音響特徴量の解析結果を基に、データベースに保存されている汎用マスカー信号の音響特性を変化させる(例えば、汎用マスカー信号のピッチを入力音声信号のピッチに変換、汎用マスカー音のフォルマントを入力音声信号のフォルマントに変換等)ことでマスカー信号を生成している。このため、データベースに保存している汎用マスカー信号を変化させた信号が、人工的な音になりマスカー信号が不快な音になる可能性がある。さらに、音響特徴量の解析結果が間違っていると、話者の音声の音響特徴量とマスカー信号の音響特徴量が異なるので、マスキング効果は低くなり会話の内容をマスクすることができない。 In the sound masking device described in Patent Document 1, voice signals of a plurality of people, including men and women, are stored in a database as general-purpose masker signals so that a certain degree of masking effect can be expected even for unspecified speakers. . Then, based on the analysis results of the acoustic features of the speaker's speech signal, the acoustic characteristics of the general-purpose masker signal stored in the database are changed (for example, the pitch of the general-purpose masker signal is converted to the pitch of the input speech signal, The masker signal is generated by converting the formant of the general-purpose masker sound into the formant of the input audio signal. Therefore, there is a possibility that the signal obtained by changing the general-purpose masker signal stored in the database will sound artificial and the masker signal will sound unpleasant. Furthermore, if the analysis result of the acoustic feature amount is wrong, the masking effect will be low and the content of the conversation cannot be masked because the acoustic feature amount of the speaker's voice and the acoustic feature amount of the masker signal are different.

特許文献2に記載の音声処理方法でも、抽出した音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、変形スペクトル包絡と抽出した音声信号のスペクトル微細構造を合成してマスカー信号生成に使用している。このため、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。 Also in the speech processing method described in Patent Document 2, the spectral envelope of the extracted speech signal is deformed to generate a deformed spectral envelope, and the deformed spectral envelope and the spectral fine structure of the extracted speech signal are synthesized and used for masker signal generation. are doing. For this reason, the masker signal generated by transforming the voice signal of the speaker ends up sounding artificial, and there is a possibility that the masker signal will sound unpleasant.

また、特許文献1に記載のサウンドマスキング装置と特許文献2に記載の音声処理方法のいずれも、生成したマスカー信号が話者に聞こえるように出力されると、話者にもマスカー信号が聞こえてしまうので、会話の妨げになってしまい、円滑に会話することができない。 In addition, in both the sound masking device described in Patent Document 1 and the sound processing method described in Patent Document 2, when the generated masker signal is output so that the speaker can hear it, the speaker also hears the masker signal. Because it is closed, it interferes with conversation, and it is not possible to have a smooth conversation.

以上のような問題に鑑みて、音声を発話する話者(以下、「対象話者」と呼ぶ)の音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、高いマスキング効果を実現できる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。 In view of the above problems, even if the acoustic feature value of the speaker uttering speech (hereinafter referred to as "target speaker") is not analyzed, or the analysis result of the acoustic feature value is incorrect, An acoustic processing device, an acoustic processing program, and an acoustic processing method capable of realizing a high masking effect are desired. Furthermore, an acoustic processing device, an acoustic processing program, and an acoustic processing method capable of masking the voice uttered by the target speaker without interfering with the conversation of the target speaker are desired.

第1の本発明の音響処理装置は、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、(5)マイク入力信号のピッチを推定するピッチ推定手段とを有し、(6)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(7)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 A sound processing apparatus according to a first aspect of the present invention comprises: (1) frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a sound uttered by a target speaker into predetermined lengths; input signal storage means for storing frame-divided microphone input signals; and (3) a signal used for generating a masker signal is selected from past frame-divided microphone input signals stored in the input signal storage means. (4) a masker signal for generating and outputting the masker signal that makes it difficult to hear the voice uttered by the target speaker using the signal used for generating the masker signal; (5) pitch estimating means for estimating the pitch of the microphone input signal; (7) the masker signal generating means generates a masker signal using the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means; characterized by

第2の本発明の音響処理プログラムは、コンピュータを、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と、(5)マイク入力信号のピッチを推定するピッチ推定手段として機能させ、(6)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(7)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 The sound processing program of the second aspect of the present invention comprises: (1) a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths; 2) input signal accumulation means for accumulating the frame-divided microphone input signal; and (3) a signal used for generating a masker signal from the past frame-divided microphone input signal accumulated in the input signal accumulation means. and (4) using the signal used to generate the masker signal, generates and outputs the masker signal that makes it difficult to hear the speech uttered by the target speaker. (5) functions as pitch estimation means for estimating the pitch of the microphone input signal; and (6) the input signal accumulation means stores the microphone input signal according to the pitch estimated by the pitch estimation means. (7) the masker signal generating means uses the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means to generate a masker signal; is characterized by generating

第3の本発明の音響処理方法は、(1)フレーム分割手段、入力信号蓄積手段、信号選択手段、マスカー信号生成手段及びピッチ推定手段を有し、(2)前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、(3)前記入力信号蓄積手段は、前記フレーム分割されたマイク入力信号を蓄積し、(4)前記信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、(5)前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力し、(6)前記ピッチ推定手段は、マイク入力信号のピッチを推定し、(7)前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、(8)前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成することを特徴とする。 A sound processing method according to a third aspect of the present invention includes (1) frame division means, input signal accumulation means, signal selection means , masker signal generation means, and pitch estimation means ; (3) the input signal accumulation means accumulates the frame-divided microphone input signal, ( 4) the signal selection means selects a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and outputs the selection result ; The masker signal generating means uses the signal used to generate the masker signal to generate and output the masker signal that makes it difficult to hear the speech uttered by the target speaker, and (6) the pitch estimating means. (7) the input signal storage means sorts the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means and stores the class; (8) The masker signal generating means generates the masker signal using the microphone input signal of the class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.

本発明によれば、マスカー信号の生成に使用する信号を蓄積された対象話者自身の過去の音声を使用して生成することで、音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成することで、高いマスキング効果を実現できる。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる。 According to the present invention, the signal used to generate the masker signal is generated using the accumulated past speech of the target speaker, so that the acoustic feature quantity is not analyzed, or the acoustic feature quantity is not analyzed. Even if the analysis result is wrong, a high masking effect can be achieved by generating a masker signal using a signal whose acoustic characteristics are not changed. Furthermore, the voice uttered by the target speaker can be masked without disturbing the conversation of the target speaker.

第1の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。1 is a block diagram showing a functional configuration of a sound masking device according to a first embodiment; FIG. 第1の実施形態に係るサウンドマスキング装置のハードウェア構成の例について示したブロック図である。1 is a block diagram showing an example of a hardware configuration of a sound masking device according to a first embodiment; FIG. 第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を床面に反射させて出力する際のイメージ図である。FIG. 4 is an image diagram when the masker signal generated by the sound masking device according to the first embodiment is reflected on the floor surface and output. 第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を出力するイメージ図である。FIG. 4 is an image diagram of outputting a masker signal generated by the sound masking device according to the first embodiment; 第2の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。FIG. 11 is a block diagram showing the functional configuration of a sound masking device according to a second embodiment; FIG. 第3の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。FIG. 11 is a block diagram showing the functional configuration of a sound masking device according to a third embodiment; FIG. 第4の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。FIG. 12 is a block diagram showing the functional configuration of a sound masking device according to a fourth embodiment; FIG. 第4の実施形態に係るサウンドマスキング装置の第三者音声信号DB(データベース)に第三者音声信号を蓄積する際の構成について示したブロック図である。FIG. 11 is a block diagram showing a configuration for accumulating a third party audio signal in a third party audio signal DB (database) of the sound masking device according to the fourth embodiment; 第5の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。FIG. 12 is a block diagram showing the functional configuration of a sound masking device according to a fifth embodiment; FIG. 第6の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。FIG. 12 is a block diagram showing the functional configuration of a sound masking device according to a sixth embodiment; FIG.

(A)第1の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(A) First Embodiment Hereinafter, a first embodiment of a sound processing device, a sound processing program, and a sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(A-1)第1の実施形態の構成
図1は、第1の実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing the functional configuration of a sound masking device 100 according to the first embodiment.

サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、スピーカ104、スピーカアンプ105、DA変換器106、及びサウンドマスキング処理部200を有している。 The sound masking device 100 has a microphone 101 , a microphone amplifier 102 , an AD converter 103 , a speaker 104 , a speaker amplifier 105 , a DA converter 106 and a sound masking processing section 200 .

マイク101は、人の音声や音等の空気振動を電気信号に変換するマイクである。 The microphone 101 is a microphone that converts air vibration such as human voice and sound into an electric signal.

マイクアンプ102は、マイク101により受音(収音)された入力信号を増幅するものである。 The microphone amplifier 102 amplifies an input signal received (collected) by the microphone 101 .

AD変換器103は、マイクアンプ102により増幅された入力信号をアナログ信号からデジタル信号に変換するものである。以下、AD変換器103で変換された信号を「マイク入力信号」とする。 The AD converter 103 converts the input signal amplified by the microphone amplifier 102 from an analog signal to a digital signal. Hereinafter, the signal converted by the AD converter 103 will be referred to as "microphone input signal".

サウンドマスキング処理部200は、入力されたマイク入力信号や過去のマイク入力信号からマスカー信号を生成し、出力するものである。 The sound masking processing unit 200 generates and outputs a masker signal from an input microphone input signal or past microphone input signals.

DA変換器106は、サウンドマスキング処理部200から出力された音信号をデジタル信号からアナログ信号に変換するものである。 The DA converter 106 converts the sound signal output from the sound masking processing unit 200 from a digital signal to an analog signal.

スピーカアンプ105は、アナログ信号を増幅するものである。 A speaker amplifier 105 amplifies an analog signal.

スピーカ104は、電気信号を空気の振動に変換して音として出力するスピーカである。 The speaker 104 is a speaker that converts an electrical signal into air vibration and outputs it as sound.

次に、サウンドマスキング処理部200の詳細な構成を説明する。 Next, a detailed configuration of the sound masking processing section 200 will be described.

サウンドマスキング処理部200は、フレーム分割部201、入力信号DB(データベース)202、信号選択部203、マスカー信号生成部204、音入力端子IN、及び音出力端子OUTを有する。 The sound masking processing unit 200 has a frame division unit 201, an input signal DB (database) 202, a signal selection unit 203, a masker signal generation unit 204, a sound input terminal IN, and a sound output terminal OUT.

音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)である。 A sound input terminal IN is an interface (audio interface) for inputting a microphone input signal to the sound masking processing unit 200 .

フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(処理フレーム)に分割して出力する。フレーム分割部201は、一般的に音声を解析するのに適した長さに分割すれば良く、例えば、マイク入力信号を100[ミリ秒]~200[ミリ秒]単位にフレーム分割する。 The frame dividing unit 201 divides the microphone input signal input to the sound masking processing unit 200 into predetermined lengths (processing frames) and outputs the divided frames. The frame division unit 201 generally divides the signal into lengths suitable for analyzing the voice, and for example, divides the microphone input signal into frames in units of 100 [milliseconds] to 200 [milliseconds].

入力信号DB202は、フレーム分割したマイク入力信号を蓄積する記憶手段である。 The input signal DB 202 is storage means for accumulating frame-divided microphone input signals.

信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号(以下、「マスカー素辺信号」と呼ぶ)を選択し、選択結果を出力する。 The signal selection unit 203 selects a signal to be used for generating a masker signal (hereinafter referred to as a “masker bare edge signal”) from past frame-divided microphone input signals stored in the input signal DB 202, and selects a selection result. to output

マスカー信号生成部204は、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号を生成し出力する。 The masker signal generation unit 204 reads a plurality of frames of the selected masker side signal from the input signal DB 202, and generates and outputs a masker signal using the read masker side signals of the plurality of frames.

音出力端子OUTは、生成したマスカー信号をDA変換器106に出力するインタフェース(オーディオインターフェース)である。 The sound output terminal OUT is an interface (audio interface) that outputs the generated masker signal to the DA converter 106 .

サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部200は、例えば、メモリ、及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。なお、この実施形態では、AD変換器103及びDA変換器106を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103、及びDA変換器106を搭載した構成としても良い。 The sound masking processing unit 200 may be entirely configured in hardware (for example, constructed using a dedicated board or DSP (Digital Signal Processor)), or may be configured in software using a computer. can be The sound masking processing unit 200 may be configured by installing programs (including the sound processing program according to the embodiment) in a computer having a memory and a processor, for example. In this embodiment, the AD converter 103 and the DA converter 106 are arranged outside the sound masking processing unit 200, but the sound masking processing unit 200 is equipped with the AD converter 103 and the DA converter 106. It is good also as the composition which carried out.

次に、図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。 Next, FIG. 2 shows a configuration when the sound masking processing unit 200 is implemented by software (computer).

図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。 The sound masking processing unit 200 shown in FIG. 2 is configured in software using the computer 300 . A program (a program including the sound processing program of the embodiment) is installed in the computer 300 . The computer 300 may be a computer dedicated to the sound processing program, or may be configured to be shared with programs of other functions.

図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。 A computer 300 shown in FIG. 2 has a processor 301, a primary storage unit 302, a secondary storage unit 303, a sound input terminal IN, and a sound output terminal OUT. A sound input terminal IN and a sound output terminal OUT are the same as the elements shown in FIG.

一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。 The primary storage unit 302 is storage means that functions as a working memory (work memory) for the processor 301, and for example, a high-speed memory such as a DRAM (Dynamic Random Access Memory) is applied.

二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。 The secondary storage unit 303 is storage means for recording various data such as OS (Operating System) and program data (including data of the sound processing program according to the embodiment). Drive), SSD (Solid State Drive), and other non-volatile memories are applied.

この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部303については除外した構成としても良い。 In the computer 300 of this embodiment, when the processor 301 is activated, the OS and programs (including the sound processing program according to the embodiment) recorded in the secondary storage unit 303 are read, and expanded on the primary storage unit 302. Execute. Note that the specific configuration of the computer 300 is not limited to the configuration in FIG. 2, and various configurations can be applied. For example, if the primary storage unit 302 is a non-volatile memory (for example, FLASH memory), the secondary storage unit 303 may be excluded.

(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態におけるサウンドマスキング装置100の動作(実施形態の音響処理方法)について詳細に説明する。
(A-2) Operation of the First Embodiment Next, the operation of the sound masking device 100 (acoustic processing method of the embodiment) having the configuration described above according to the first embodiment will be described in detail.

サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の利用者(図3の対象話者U1)がマイク101に向かつて音声を発話すると、マイク101に音声信号が入力される。 When the sound masking device 100 starts operating and the user of the sound masking device 100 (target speaker U1 in FIG. 3) speaks into the microphone 101, a voice signal is input to the microphone 101. FIG.

マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時間を表すパラメータである。 An analog sound signal input to the microphone 101 is amplified by the microphone amplifier 102, converted from the analog signal to a digital signal by the AD converter 103, and supplied to the sound input terminal IN of the sound masking processing unit 200 as the microphone input signal x(n). ). Note that in the microphone input signal x(n), n is a parameter representing discrete times of the input signal.

サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。 When the microphone input signal x(n) starts to be input to the sound input terminal IN of the sound masking processing unit 200 , it is input to the frame dividing unit 201 .

フレーム分割部201は、マイク入力信号x(n)を所定単位に分割する。フレーム分割部201は、例えば、以下の(1)式に従い、処理フレームごとに分割する。 Frame dividing section 201 divides microphone input signal x(n) into predetermined units. The frame division unit 201 divides each processing frame according to the following formula (1), for example.

(1)式で、x_fram(l;m)はフレーム分割したマイク入力信号、lはフレーム番号、mはフレーム内の離散的な時間(m=0、1、2、・・・、M-1)、Mはフレーム長である。フレーム分割部201は、フレーム分割したマイク入力信号x_fram(l;m)を入力信号DB202に出力する。 In equation (1), x_fram (l; m) is a frame-divided microphone input signal, l is a frame number, m is a discrete time within a frame (m=0, 1, 2, . . . , M−1 ), M is the frame length. The frame dividing unit 201 outputs the frame-divided microphone input signal x_fram(l;m) to the input signal DB 202 .

入力信号DB202は、フレーム分割したマイク入力信号x_fram(l;m)を(2)式と(3)式に従い、フレームごとに入力信号DB202に蓄積する。 The input signal DB 202 accumulates the frame-divided microphone input signal x_fram(l;m) in the input signal DB 202 frame by frame according to formulas (2) and (3).

(2)式で、DB(i;m)は入力信号DB、iはデータベースのインデックス(i=0、1、2、・・・、I-1)、mはフレーム内の時間(m=0、1、2、・・・、M-1)、Mはフレーム長、Iはデータベース長である。iは(3)式に示すように、入力信号DBにデータが蓄積されるとインクリメン卜する。

Figure 0007287182000001
In equation (2), DB(i;m) is the input signal DB, i is the index of the database (i=0, 1, 2, . , 1, 2, . . . , M-1), where M is the frame length and I is the database length. As shown in equation (3), i is incremented when data is accumulated in the input signal DB.
Figure 0007287182000001

信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択する。信号選択部203は、例えば、(4)式に示すように選択結果T(k)を算出する。 The signal selection unit 203 selects a masker bare edge signal from past frame-divided microphone input signals accumulated in the input signal DB 202 . The signal selection unit 203, for example, calculates the selection result T(k) as shown in equation (4).

(4)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMD関数である。Iで割ったときの剰余を返すことで、選択結果T(k)は0からI-1の値になる。例えば、(4)式で、K=5のときは、入力信号DB202に蓄積されている5フレーム分のマイク入力信号を選択する。 In equation (4), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. By returning the remainder when divided by I, the selection result T(k) becomes a value from 0 to I−1. For example, in equation (4), when K=5, microphone input signals for five frames accumulated in the input signal DB 202 are selected.

なお、選択結果T(k)を算出手法は、種々の方法を広く適用することができ、例えば、(5)式に示すように、マスカー素辺信号をランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result T(k). For example, as shown in equation (5), the masker element signal may be randomly selected.

(5)式で、rand(k)は自然数kに対して非負の整数の乱数を生成する関数である。(5)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果T(k)は0からI-1の値になる。信号選択部203は、選択結果T(k)をマスカー信号生成部204に出力する。

Figure 0007287182000002
In equation (5), rand(k) is a function that generates a non-negative integer random number for a natural number k. Expression (5) returns the remainder when the random number generated by rand(k) using the MOD function is divided by I, and the selection result T(k) is a value from 0 to I−1. Signal selection section 203 outputs selection result T(k) to masker signal generation section 204 .
Figure 0007287182000002

マスカー信号生成部204は、信号選択部203の選択結果T(k)に基づいて、マスカー素辺信号を入力信号DB202からKフレーム読み出し、読み出されたKフレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号の生成手法は、例えば、(6)式に示すように、読み出されたKフレームのマスカー素辺信号を重畳して生成する。 Based on the selection result T(k) of the signal selection unit 203, the masker signal generation unit 204 reads the masker side signal from the input signal DB 202 for K frames, and generates the masker signal from the read masker side signal of the K frames. Generate and output. The method of generating the masker signal is, for example, as shown in equation (6), by superimposing the masker edge signals of the read K frames.

(6)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、h(l;m)はマスカー信号である。例えば、(6)式で、K=5のときは、選択結果T(k)に基づき、マスカー素辺信号として入力信号DB202から過去5フレーム分をマスカー素辺信号として読み出し、読み出したマスカー素辺信号を重畳することでマスカー信号h(l;m)を生成する。 In equation (6), k (k=1, 2, . ) is the masker signal. For example, in equation (6), when K=5, based on the selection result T(k), the past five frames are read from the input signal DB 202 as the masker edge signal, and the read masker edge signal is A masker signal h(l;m) is generated by superimposing the signals.

なお、マスカー信号h(l;m)の生成手法は、種々の方法を広く適用することができ、例えば、(7)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳することでマスカー信号h(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h(l;m)を生成しても良い。 Various methods can be widely applied to generate the masker signal h(l;m). The masker signal h(l;m) may be generated by time-reversing and superimposing the microphone input signal as time processing, or the past frame-divided microphone input signal stored in the input signal DB 202 may be time-processed. , the masker signal h(l;m) may be generated by superimposing with a time delay.

そして、マスカー信号生成部204は、(8)式に従い、マスカー信号h(l;m)を出力信号y(n)としてサウンドマスキング処理部200の音出力端子OUTに出力する。

Figure 0007287182000003
Then, the masker signal generator 204 outputs the masker signal h(l;m) to the sound output terminal OUT of the sound masking processor 200 as the output signal y(n) according to equation (8).
Figure 0007287182000003

サウンドマスキング処理部200の音出力端子OUTから出力される信号は、DA変換器106でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ104から出力される。 A signal output from the sound output terminal OUT of the sound masking processing unit 200 is converted from a digital signal to an analog signal by the DA converter 106 , amplified by the speaker amplifier 105 and then output from the speaker 104 .

図3、図4は、マイク101と、マイク101に向かって発話する対象話者U1と、対象話者U1の後ろ側に立っている対象話者U1以外の人(対象話者U1の発話する音声をマスカー信号で聞き取りづらくする対象の人(以下、「マスキング対象者」と呼ぶ)U2と、スピーカ104との配置関係(スピーカ104の配置構成)の例について示した図である。図3、図4では、スピーカから出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3では、直接音が床FRに反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。 3 and 4 show a microphone 101, a target speaker U1 speaking into the microphone 101, and a person other than the target speaker U1 standing behind the target speaker U1 (a person speaking by the target speaker U1). 3A and 3B are diagrams showing an example of the arrangement relationship (arrangement configuration of the speaker 104) between a person U2 whose voice is to be made difficult to hear with the masker signal (hereinafter referred to as a “masking target person”) and the speaker 104. FIG. In Fig. 4, the directivity of the direct sound DS (Direct Sound) output from the speaker is indicated by a dotted line, and in Fig. 3, the reflected sound RS (Reflected Sound) generated by the reflection of the direct sound on the floor FR. Sound) is illustrated by a dashed line.

図3では、スピーカ104は、対象話者U1の前方で膝程度の高さに配置され、スピーカ104の振動面(指向性)が下方向で、床FRの表面に対して斜め方向に設置されている。さらに、対象話者U1の後方の床FR部分に指向性が向けられた状態となっている。そして、スピーカ104から放射されたマスカー信号は図3に示すように、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、図3に示すようにマスカー信号が反射し、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。 In FIG. 3, the speaker 104 is placed in front of the target speaker U1 at a knee height, the vibration plane (directivity) of the speaker 104 is directed downward, and the speaker 104 is installed obliquely to the surface of the floor FR. ing. Furthermore, the directivity is directed toward the floor FR portion behind the target speaker U1. Then, as shown in FIG. 3, the masker signal radiated from the speaker 104 is output toward the surface of the floor FR, and is reflected upon reaching the floor FR. As a result, the masker signal is reflected as shown in FIG. 3 and transmitted to the masking target person U2 behind the target speaker U1. At this time, the direct sound of the voice uttered by the target speaker U1 is also transmitted to the masking target U2, but is masked by the masker signal.

なお、スピーカ104の設置方法は、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図4の(a)に示しているように、対象話者U1の後ろに設置できるスペースがあれば、直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(b)に示しているように、床FRにスピーカ104を埋め込んで直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(c)に示しているように、天井CEにスピーカ104を設置して直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良い。 As for the installation method of the speaker 104, various installation methods can be widely applied as long as the speaker 104 is installed so that the target speaker U1 cannot hear the masker signal and the masking target U2 can hear the masker signal. For example, as shown in FIG. 4A, if there is a space that can be installed behind the target speaker U1, the vibration surface of the speaker 104 can be directed directly toward the masking target U2 to output the masker signal. Alternatively, as shown in FIG. 4B, the speaker 104 is embedded in the floor FR and the vibration surface of the speaker 104 is directed directly toward the masking target person U2 to output the masker signal. Alternatively, as shown in (c) of FIG. 4, a speaker 104 may be installed on the ceiling CE and the vibration surface of the speaker 104 may be directed directly toward the masking target person U2 to output the masker signal. good.

(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be obtained.

第1の実施形態のサウンドマスキング装置100は、対象話者U1の音声を入力信号DBに蓄積し、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力する。これにより、第1の実施形態のサウンドマスキング装置100では、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第1の実施形態のサウンドマスキング装置100では、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近いので、高いマスキング効果が得られる。 The sound masking apparatus 100 of the first embodiment accumulates the speech of the target speaker U1 in an input signal DB, and uses a plurality of frames of past frame-divided microphone input signals accumulated in the input signal DB for masking. Generate and output a signal. As a result, in the sound masking device 100 of the first embodiment, the acoustic features of the masker signal become closer to the acoustic features of the voice of the target speaker U1, thereby improving the masking effect and preventing the leakage of the content of the conversation. be able to. In other words, the sound masking apparatus 100 of the first embodiment analyzes the acoustic characteristics of the target speaker U1 by generating the masker signal using the voice signal of the target speaker U1 stored in the input signal DB. A high masking effect can be obtained even without the masking signal because the acoustic features of the masker signal are close to the acoustic features of the speech signal of the target speaker U1.

さらに、第1の実施形態のサウンドマスキング装置100は、マスカー信号を再生するスピーカを、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置することで、対象話者U1の会話を妨害せずに対象話者U1の発話する音声をマスキングすることができる。 Furthermore, in the sound masking apparatus 100 of the first embodiment, the speaker for reproducing the masker signal is installed so that the target speaker U1 cannot hear the masker signal and the masker target U2 can hear the masker signal. By doing so, the voice uttered by the target speaker U1 can be masked without interfering with the conversation of the target speaker U1.

(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(B-1)第2の実施形態の構成
図5は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図2では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 5 is a block diagram showing the functional configuration of a sound masking device 100A according to the second embodiment. In FIG. 2, the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as those in FIG.

以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。 In the following, the second embodiment will be described with a focus on differences from the first embodiment, and descriptions of portions that overlap with the first embodiment will be omitted.

第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Aでは、マスカー信号生成部204が、マスカー信号生成部204Aに置き換わり、さらに、音声区間判定部205とDB蓄積判定部206が追加されている点で、第1の実施形態と異なっている。 The sound masking device 100A of the second embodiment differs from the first embodiment in that the sound masking processing section 200 is replaced with a sound masking processing section 200A. The sound masking processing unit 200A differs from the first embodiment in that the masker signal generation unit 204 is replaced with a masker signal generation unit 204A, and a speech section determination unit 205 and a DB accumulation determination unit 206 are added. ing.

第2の実施形態のサウンドマスキング装置100Aのサウンドマスキング処理部200Aでは、音声区間判定部205とDB蓄積判定部206が増えたことにより入力信号DBに蓄積されるフレーム分割されたマイク入力信号とマスカー信号の生成方法が異なる点と、マスカー信号生成部204Aになったことによりフレーム分割されたマイク入力信号の蓄積方法やマスカー信号方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。 In the sound masking processing unit 200A of the sound masking apparatus 100A of the second embodiment, the frame-divided microphone input signal and the masker input signal accumulated in the input signal DB due to the addition of the speech period determination unit 205 and the DB accumulation determination unit 206 are added. The sound masking apparatus 100 differs from the sound masking apparatus 100 of the first embodiment in that the method of signal generation is different, and the accumulation method of frame-divided microphone input signals and the masker signal method are different due to the use of the masker signal generation unit 204A.

音声区間判定部205は、フレーム分割されたマイク入力信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。 A voice segment determination unit 205 determines whether the frame-divided microphone input signal is a voice segment or a non-voice segment (a segment other than a voice segment), and outputs the determination result.

DB蓄積判定部206は、音声区間判定部205の音声区間判定の結果を基に、フレーム分割されたマイク入力信号が音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力し、非音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力しない。 If the frame-divided microphone input signal is determined to be in a voice segment based on the voice segment determination result of the voice segment determination unit 205, the DB accumulation determination unit 206 stores the frame-divided microphone input signal in the input signal DB 202. If it is determined as a non-speech section, the frame-divided microphone input signal is not output to the input signal DB 202 .

マスカー信号生成部204Aは、音声区間判定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。 The masker signal generation unit 204A reads a plurality of frames of the selected masker side signal from the input signal DB 202 based on the result of the speech section determination and the selection result, and generates a masker signal from the read masker side signals of the plurality of frames. Generate and output.

(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
(B-2) Operation of Second Embodiment Next, the operation of the sound masking device 100A (acoustic processing method according to the embodiment) according to the second embodiment having the configuration described above will be described in detail.

第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100A according to the second embodiment is the same as the sound masking process described in the first embodiment.

以下では、第1の実施形態と異なる点である音声区間判定部205、DB蓄積判定部206、マスカー信号生成部204Aにおける処理動作を中心に詳細に説明する。 In the following, a detailed description will be given centering on the processing operations in the speech section determination unit 205, the DB accumulation determination unit 206, and the masker signal generation unit 204A, which are different from the first embodiment.

フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206に出力する。 Frame dividing section 201 divides microphone input signal x(n) into processing frames, and outputs frame-divided microphone input signal x_fram(l;m) to voice section determining section 205 and DB accumulation determining section 206 .

音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間か非音声区間かの判定手段は、例えば、(9)式と(10)式に従い判定する。 The voice segment determination unit 205 uses the frame-divided microphone input signal x_fram(l;m) to determine whether it is a voice segment or a non-voice segment. The means for judging whether it is a speech segment or a non-speech segment makes a determination according to the equations (9) and (10), for example.

(9)式と(10)式で、x_fram(l;m)はフレーム分割したマイク入力信号、x_fram_amp(l)はフレーム分割したマイク入力信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。

Figure 0007287182000004
In equations (9) and (10), x_fram(l;m) is the frame-divided microphone input signal, x_fram_amp(l) is the average amplitude value of the frame-divided microphone input signal, and VAD(l) is the voice section determination result. , TH are thresholds used to determine the speech segment.
Figure 0007287182000004

(9)式は、フレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式である。(10)式は、(9)式で求めたフレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。 Formula (9) is a formula for obtaining the average amplitude value x_fram_amp(l) of the frame-divided microphone input signal x_fram(l;m). Equation (10) determines that it is a voice segment if the average amplitude value x_fram_amp(l) of the frame-divided microphone input signal x_fram(l;m) obtained by Equation (9) is greater than the threshold value TH. 1 is substituted for VAD(l), and if the value is smaller than the threshold value TH, it is determined as a non-speech section and 0 is substituted for the speech section determination result VAD(l).

閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、(11)式に示すように、サウンドマスキング装置100Aが動作し始めた最初の数フレームを無音区間とし、その最初の数フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良いし、(12)式に示すように、x_fram_amp(l)に時定数フィルタを用いてフレーム毎に変動する閾値TH(l)を用いても良い。

Figure 0007287182000005
The threshold value TH should be able to determine the presence or absence of voice, and various methods can be widely applied. , and a fixed threshold TH that uses the average amplitude value of the first several frames as the threshold TH may be used, or as shown in equation (12), x_fram_amp(l) is filtered using a time constant filter for each frame A threshold TH(l) that fluctuates to .
Figure 0007287182000005

(12)式で、aは時定数フィルタの係数であり、0以上、1以下の値となる。(12)式において、閾値の更新を遅くしたい場合aは1に近い値が望ましく(例えばa=0.9等の値)、閾値の更新を速くしたい場合aは0に近い値が望ましい(例えばa=0.1等の値)。 In the expression (12), a is a coefficient of the time constant filter and takes a value of 0 or more and 1 or less. In the equation (12), a value close to 1 is desirable for slow updating of the threshold value (for example, a=0.9), and a value close to 0 is desirable for speeding up updating of the threshold value (for example, value such as a=0.1).

なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。音声区間判定部205は、音声区間か非音声区間かの判定結果をDB蓄積判定部206とマスカー信号生成部204Aに出力する。 Various methods can be widely applied as the means for judging whether it is a speech section or a non-speech section. It may be determined by a method such as determining whether it is a speech segment. The voice segment determination unit 205 outputs the determination result as to whether it is a voice segment or a non-voice segment to the DB accumulation determination unit 206 and the masker signal generation unit 204A.

DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、入力信号DB202に出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)=0のとき)は、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。 The DB accumulation determination unit 206 extracts the The output frame-divided microphone input signal x_fram(l;m) is output to the input signal DB 202, and the frame-divided microphone input signal x_fram(l;m) is determined to be a non-voice segment by the voice segment determination unit 205. When (VAD(l)=0), the frame-divided microphone input signal x_fram(l;m) is not output.

マスカー信号生成部204Aは、音声区間判定部205の音声区間判定結果VAD(l)と信号選択部203の選択結果T(k)を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Aは、(6)式と(13)式に従い、マスカー信号を出力する。 The masker signal generation unit 204A extracts a plurality of selected masker edge signals from the input signal DB 202 based on the speech interval determination result VAD(l) of the speech interval determination unit 205 and the selection result T(k) of the signal selection unit 203. A frame is read, and a masker signal is generated and output from the read masker edge signals of a plurality of frames. The masker signal generation unit 204A outputs a masker signal according to formulas (6) and (13).

(13)式で、ha(l;m)はマスカー信号生成部204Aで生成されるマスカー信号である。(13)式は、音声区間判定部205で、マイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、信号選択部203の選択結果T(k)を用いてマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号h(l;m)を生成しha(l;m)に代入し、マイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)≠1のとき)は、ha(l;m)に無音を代入する。 In equation (13), ha(l;m) is the masker signal generated by the masker signal generator 204A. Expression (13) expresses the selection result T (k) is used to read a plurality of frames of masker edge signals from the input signal DB 202, and the masker signal h(l;m) is generated using the readout masker edge signals of the plurality of frames, ha(l;m). ), and when the microphone input signal x_fram(l;m) is determined to be a non-speech section (when VAD(l)≠1), silence is substituted for ha(l;m).

マスカー信号生成部204は、(14)式に従い、出力信号y(n)を音出力端子OUTに出力する。

Figure 0007287182000006
The masker signal generator 204 outputs the output signal y(n) to the sound output terminal OUT in accordance with equation (14).
Figure 0007287182000006

(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained.

第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB202に蓄積することで、対象話者U1の音声とは関係のない雑音が入力信号DB202に蓄積されてマスカー素辺信号として選択されることがなくなるので、対象話者U1の音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。 In the sound masking device 100A of the second embodiment, by accumulating the speech of the target speaker U1 in the input signal DB 202 only when it is determined to be in the speech period, noise unrelated to the speech of the target speaker U1 is input. Since it is no longer stored in the signal DB 202 and selected as a masker side signal, it is possible to generate a masker signal using only the voice of the target speaker U1, thereby maintaining a high masking effect.

また、第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。 Further, in the sound masking device 100A of the second embodiment, a masker signal is generated using a plurality of frames of past frame-divided microphone input signals stored in the input signal DB only when it is determined to be in a speech period. and output. Thereby, it is possible to configure so that the masker signal is output only when the voice is input.

(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound processing device, sound processing program and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(C-1)第3の実施形態の構成
図6は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図6では、上述の図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
(C-1) Configuration of Third Embodiment FIG. 6 is a block diagram showing the functional configuration of a sound masking device 100B according to the third embodiment. In FIG. 6, the same reference numerals or corresponding reference numerals are given to the same or corresponding portions as those in FIG.

以下では、第3の実施形態について、第1、及び第2の実施形態との差異を中心に説明し、第1と第2の実施形態と重複する部分については説明を省略する。 In the following, the third embodiment will be described with a focus on differences from the first and second embodiments, and descriptions of portions that overlap with the first and second embodiments will be omitted.

第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。 A sound masking device 100B of the third embodiment differs from that of the second embodiment in that the sound masking processing section 200A is replaced with a sound masking processing section 200B.

サウンドマスキング処理部200Bでは、入力信号DB202と信号選択部203とマスカー信号生成部204Aが、それぞれ入力信号DB202Aと信号選択部203Aとマスカー信号生成部204Bに置き換わり、さらに、ピッチ推定部205とクラス判定部208が追加されている点で、第2の実施形態と異なっている。 In the sound masking processing section 200B, the input signal DB 202, the signal selection section 203, and the masker signal generation section 204A are replaced with the input signal DB 202A, the signal selection section 203A, and the masker signal generation section 204B, respectively. It differs from the second embodiment in that a section 208 is added.

第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部205とクラス判定部208が増えたことにより、フレーム分割されたマイク入力信号のピッチ推定、フレーム分割されたマイク入力信号の蓄積方法、マスカー信号の生成に使用する信号を選択する方法、マスカー信号の生成方法が異なる点が第2の実施形態と異なる。 In the sound masking device 100B of the third embodiment, since the pitch estimation unit 205 and the class determination unit 208 are added, the pitch estimation of the frame-divided microphone input signal, the accumulation method of the frame-divided microphone input signal, the masker This embodiment differs from the second embodiment in that the method of selecting signals to be used for signal generation and the method of generating masker signals are different.

ピッチ推定部207は、フレーム分割されたマイク入力信号と音声区間判定の結果からフレーム分割されたマイク入力信号のピッチ(音声の高さ)を推定し、推定したピッチを出力する。 The pitch estimator 207 estimates the pitch (speech pitch) of the frame-divided microphone input signal from the frame-divided microphone input signal and the voice segment determination result, and outputs the estimated pitch.

クラス判定部208は、ピッチ推定部207で推定したピッチの結果を基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力しない。 Based on the result of the pitch estimated by the pitch estimation unit 207, the class determination unit 208 inputs the frame-divided microphone input signal only when it is determined that the frame-divided microphone input signal is stored in the input signal DB 202A. When it is determined not to output the frame-divided microphone input signal to the input signal DB 202A and store the frame-divided microphone input signal in the class corresponding to the pitch of the input signal DB 202A. No output.

入力信号DB202Aは、フレーム分割したマイク入力信号をピッチに応じたクラスごとに蓄積する記憶手段である。 The input signal DB 202A is storage means for accumulating frame-divided microphone input signals for each class corresponding to the pitch.

信号選択部203Aは、クラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。 The signal selection unit 203A selects a masker bare edge signal from past frame-divided microphone input signals accumulated for each class, and outputs a selection result.

マスカー信号生成部204Bは、音声区間判定とピッチ推定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成して出力する。 The masker signal generation unit 204B reads out a plurality of frames of the selected masker edge signal from the class corresponding to the pitch of the input signal DB 202A based on the result of the voice section determination and pitch estimation and the selection result, and converts the read-out plurality of frames. A masker signal is generated from the masker bare edge signal and output.

なお、第3の実施形態において、第1の実施形態と同様に音声区間判定部205を除外した構成としても良い。 In addition, in the third embodiment, the configuration may be such that the speech segment determination unit 205 is excluded, as in the first embodiment.

(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
(C-2) Operation of Third Embodiment Next, the operation of the sound masking device 100B (acoustic processing method according to the embodiment) of the third embodiment having the configuration described above will be described in detail.

第3の実施形態に係るサウンドマスキング装置100Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100B according to the third embodiment is the same as the sound masking process described in the first and second embodiments.

以下では、第2の実施形態と異なる点であるピッチ推定部207、クラス判定部208、入力信号DB202A、信号選択部203A、マスカー信号生成部204Bにおける処理動作を中心に詳細に説明する。 In the following, the processing operations of the pitch estimation unit 207, class determination unit 208, input signal DB 202A, signal selection unit 203A, and masker signal generation unit 204B, which are different from the second embodiment, will be described in detail.

フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205、DB蓄積判定部206、ピッチ推定部207に出力する。 The frame dividing unit 201 divides the microphone input signal x(n) into processing frames, and divides the frame-divided microphone input signal x_fram(l;m) into the speech period determining unit 205, the DB accumulation determining unit 206, and the pitch estimating unit 207. output to

音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Bに出力する。 The speech section determination unit 205 uses the frame-divided microphone input signal x_fram(l;m) to determine whether it is a speech section or a non-speech section. , pitch estimation section 207 and masker signal generation section 204B.

DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208、信号選択部203A、マスカー信号生成部204Bに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。 Only when the voice segment determining unit 205 determines that the frame-divided microphone input signal x_fram(l;m) is a voice segment, the DB accumulation determining unit 206 performs frame-divided microphone input signal x_fram output from the frame dividing unit 201. (l; m) is output to the class determination unit 208, the signal selection unit 203A, and the masker signal generation unit 204B. , the frame-divided microphone input signal x_fram(l;m) is not output.

ピッチ推定部207は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定する。ピッチの推定手段は、例えば、(15)式に従い、フレーム分割したマイク入力信号x_fram(l;m)の自己相関関数x_fram_corr(l)を求め、(16)式に従い自己相関関数x_fram_corr(l)を用いて推定するようにしても良い。

Figure 0007287182000007
The pitch estimation unit 207 estimates the pitch of the frame-divided microphone input signal x_fram(l;m) only when the speech period determination unit 205 determines that the frame-divided microphone input signal x_fram(l;m) is in a voice period. do. For example, the pitch estimating means obtains the autocorrelation function x_fram_corr(l) of the frame-divided microphone input signal x_fram(l;m) according to equation (15), and calculates the autocorrelation function x_frame_corr(l) according to equation (16). You may make it estimate using.
Figure 0007287182000007

(16)式で、pitch(l)は推定したピッチ、fsはサンプリング周波数である。ピッチの推定手法は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。ピッチ推定部205は、推定したピッチpitch(l)をクラス判定部208とマスカー信号生成部204Bに出力する。 In equation (16), pitch(l) is the estimated pitch and fs is the sampling frequency. Various methods can be widely applied as the pitch estimation method. You can calculate. Pitch estimation section 205 outputs the estimated pitch pitch(l) to class determination section 208 and masker signal generation section 204B.

クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積するか蓄積しないかを判定する。クラス判定部208において、入力信号DB202Aに蓄積するか蓄積しないかを判定手法については限定されないものである。例えば、ピッチ推定部207で推定したピッチpitch(l)が、100HZ以下、101Hz~200Hz、201Hz~300Hz、301Hz~400Hz、401Hz~500Hz、500Hz以上のように100Hzの間隔(グリッド)でクラス分けする。そして、100HZ以下、又は500Hz以上の時、入力信号DB202Aに蓄積しないと判定し、それ以外のときは入力信号DB202Aに蓄積すると判定するようにしても良い。また、例えば、入力信号DB202Aでは、周波数があがるほどクラスの周波数間隔(グリッド)を広げるようにしても良い。 Based on the pitch estimated by pitch estimation section 207, class determination section 208 determines whether or not to store the frame-divided microphone input signal in input signal DB 202A. In class determination section 208, the method of determining whether or not to store in input signal DB 202A is not limited. For example, the pitch pitch (l) estimated by the pitch estimation unit 207 is classified into classes at intervals (grids) of 100 Hz such as 100 Hz or less, 101 Hz to 200 Hz, 201 Hz to 300 Hz, 301 Hz to 400 Hz, 401 Hz to 500 Hz, and 500 Hz or more. . Then, when the frequency is 100 Hz or less or 500 Hz or more, it may be determined that the input signal DB 202A is not to be stored, and in other cases, it may be determined that the input signal DB 202A is to be stored. Further, for example, in the input signal DB 202A, the class frequency interval (grid) may be widened as the frequency increases.

クラス判定部208は、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力しない。 Only when it is determined that the frame-divided microphone input signal is stored in the input signal DB 202A, the class determination unit 208 classifies the frame-divided microphone input signal x_fram(l;m) into a class according to the pitch of the input signal DB 202A. , and if it is determined not to store the frame-divided microphone input signal in the input signal DB 202A, the frame-divided microphone input signal x_fram(l;m) is not output to the class corresponding to the pitch of the input signal DB 202A. .

入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。

Figure 0007287182000008
Only when the microphone input signal x_fram(l;m) is output from the class determination unit 208, the input signal DB 202A converts the output frame-divided microphone input signal x_fram(l;m) into the following equations (17) and (18): Accumulates in the input signal DB 202A for each class corresponding to the pitch according to the formula.
Figure 0007287182000008

(17)式で、DB’(p;i;m)は入力信号DB、mはフレーム内の離散的な時間(m=0、1、2、・・・、M-1)、i(pitch(l))はデータベースのクラスごとのインデックス、Iはデータベース長である。i(pitch(l))は(18)式に示すように、クラスにデータが蓄積されるとインクリメントする。 In equation (17), DB' (p; i; m) is the input signal DB, m is the discrete time in the frame (m = 0, 1, 2, ..., M-1), i (pitch (l)) is an index for each class of the database, and I is the length of the database. i(pitch(l)) is incremented when data is accumulated in the class as shown in equation (18).

信号選択部203Aは、入力信号DB202Aにクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(19)式に示すように選択結果Ta(k)を選択する。 The signal selection unit 203A selects a masker bare edge signal from past frame-divided microphone input signals accumulated for each class in the input signal DB 202A. The signal selection unit 203A selects the selection result Ta(k) as shown in equation (19), for example.

(19)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMD関数である。(19)式は、Iで割ったときの剰余を返すことで、選択結果Ta(k)は0からI-1の値になる。 In the equation (19), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. Expression (19) returns the remainder when divided by I, so that the selection result Ta(k) takes values from 0 to I−1.

なお、選択結果Ta(k)を算出手法は、種々の方法を広く適用することができ、例えば、(20)式に示すように、どのフレームを使用するかランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result Ta(k). For example, as shown in equation (20), which frame to use may be randomly selected.

(20)式で、randは自然数kに対して乱数を生成する関数である。(20)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Ta(k)は0からI-1の値になる。信号選択部203Aは、選択結果Ta(k)をマスカー信号生成部204に出力する。

Figure 0007287182000009
In equation (20), rand is a function that generates random numbers for natural number k. Expression (20) returns the remainder when the random number generated by rand(k) using the MOD function is divided by I, and the selection result Ta(k) becomes a value from 0 to I−1. The signal selection unit 203A outputs the selection result Ta(k) to the masker signal generation unit 204. FIG.
Figure 0007287182000009

マスカー信号生成部204Bは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Aの選択結果Ta(k)を基に、マスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Bは、(21)式と(22)式に従い、マスカー信号を出力する。 The masker signal generation unit 204B, based on the voice segment determination result VAD(l) of the voice segment determination unit 205, the pitch picth(l) estimated by the pitch estimation unit 207, and the selection result Ta(k) of the signal selection unit 203A, A plurality of frames of masker side signals are read from a class corresponding to the pitch of the input signal DB 202A, and a masker signal is generated from the read masker side signals of the plurality of frames and output. The masker signal generation unit 204B outputs a masker signal according to formulas (21) and (22).

(21)式で、hb(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(22)式で、h’(l;m)は入力信号DBから生成されるマスカー信号Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)をである。(21)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’(l;m)を生成し、上記以外の時ときは無音を生成し、hb(l;m)に代入するという式である。(22)は、入力信号DB202Aにピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を重畳して生成する方法である。 In equation (21), hb(l;m) is the masker signal, F0_MAX is the maximum pitch value, and in equation (22), h'(l;m) is the masker signal K generated from the input signal DB. It is the number of selections of the masker bare side signal (the number of additions of the voice when generating the masker signal). Expression (21) expresses the pitch pitch estimated by the pitch estimating unit 207 when the microphone input signal x_fram(l;m) is determined to be in the speech interval by the speech period determining unit 205 (when VAD(l)=1). Only when (l) is greater than 0Hz and F0_MAX or less, the masker signal h'(l;m) is generated, and otherwise silence is generated and substituted into hb(l;m). . (22) is a method of superimposing and generating past frame-divided microphone input signals stored in the input signal DB 202A for each class corresponding to the pitch.

なお、マスカー信号生成部204Bにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Bでは、入力信号DB202Aのクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’(l;m)を生成しても良い。 Various methods can be widely applied to the masker signal generation method in the masker signal generation unit 204B. For example, in the masker signal generation unit 204B, past frame-divided microphone input signals stored for each class in the input signal DB 202A are time-reversed and superimposed as time processing, and then the masker signal h'(l;m) is generated. Alternatively, the masker signal h'(l;m) may be generated by superimposing the past frame-divided microphone input signal accumulated in the input signal DB 202 with a time delay as time processing. However, which past frame to use may be randomly determined to generate the masker signal h'(l;m).

そして、マスカー信号生成部204Bは、(23)式に従い、出力信号y(n)を音出力端子OUTに出力する。

Figure 0007287182000010
Then, the masker signal generator 204B outputs the output signal y(n) to the sound output terminal OUT according to the expression (23).
Figure 0007287182000010

(C-3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
(C-3) Effects of Third Embodiment According to the third embodiment, the following effects can be obtained.

第3の実施形態のサウンドマスキング装置100Bでは、対象話者U1の音声をピッチに応じたクラスごとに入力信号DB202Aに蓄積し、ピッチに応じたクラスごとに入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、第3の実施形態のサウンドマスキング装置100Bでは、マスカー信号と対象話者U1の音声との音響特徴にさらに近づくので、よりマスキング効果を高めることができる。 In the sound masking apparatus 100B of the third embodiment, the speech of the target speaker U1 is stored in the input signal DB 202A for each class according to pitch, and the past voices stored in the input signal DB for each class according to pitch are stored in the input signal DB 202A. A masker signal is generated and output using multiple frames of the microphone input signal. As a result, in the sound masking device 100B of the third embodiment, the acoustic features of the masker signal and the voice of the target speaker U1 are brought closer to each other, so that the masking effect can be further enhanced.

(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the sound processing device, sound processing program and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(D-1)第4の実施形態の構成
図7は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図7では、上述の図6と同一部分又は対応部分には、同一符号又は対応符号を付している。
(D-1) Configuration of the Fourth Embodiment FIG. 7 is a block diagram showing the functional configuration of a sound masking device 100C according to the fourth embodiment. In FIG. 7, the same reference numerals or corresponding reference numerals are given to the same or corresponding portions as those in FIG.

以下では、第4の実施形態について、第1から第3の実施形態との差異を中心に説明し、第1から第3の実施形態と重複する部分については説明を省略する。 In the following, the fourth embodiment will be described with a focus on the differences from the first to third embodiments, and descriptions of portions that overlap with the first to third embodiments will be omitted.

第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第3の実施形態と異なっている。 A sound masking device 100C of the fourth embodiment differs from that of the third embodiment in that the sound masking processing section 200B is replaced with a sound masking processing section 200C.

サウンドマスキング処理部200Cでは、信号選択部203Aとマスカー信号生成部204Bが信号選択部203Bとマスカー信号生成部204Cに置き換わり、さらに、第三者音声信号DB209と使用DB判定部210が追加されている点で、第1から第3の実施形態と異なっている。 In the sound masking processing unit 200C, the signal selection unit 203A and the masker signal generation unit 204B are replaced with the signal selection unit 203B and the masker signal generation unit 204C, and a third party audio signal DB 209 and a usage DB determination unit 210 are added. This point differs from the first to third embodiments.

第4の実施形態のサウンドマスキング装置100Cでは、第三者音声信号DB209と使用DB判定部210が増えたことにより、第三者音声信号DB209に第三者音声信号を蓄積する方法、サウンドマスキング装置100Cが動作した時に使用するDB、マスカー信号の生成に使用する信号を選択する方法、マスカー生成方法が異なる点が第1から第3の実施形態と異なる。 In the sound masking device 100C of the fourth embodiment, since the number of the third party audio signal DB 209 and the usage DB determination unit 210 is increased, the method of accumulating the third party audio signal in the third party audio signal DB 209, the sound masking device It differs from the first to third embodiments in that the DB used when 100C operates, the method of selecting the signal used to generate the masker signal, and the method of generating the masker are different.

第三者音声信号DB209は、例えば、事前にサンプルとなる音声信号(以下、「第三者音声信号」と呼ぶ)を蓄積しておき、蓄積した第三者の音声信号をフレーム分割し、フレーム分割された第三者音声信号をピッチに応じたクラスに分けて蓄積したデータベースである。 For example, the third-party audio signal DB 209 accumulates sample audio signals (hereinafter referred to as "third-party audio signals") in advance, divides the accumulated third-party audio signals into frames, and divides them into frames. This is a database in which divided third-party speech signals are classified into classes according to pitch and accumulated.

使用DB判定部210は、入力信号DB202Aの各クラスに、フレーム分割されたマイク入力信号が所定量以上(十分)蓄積されているか否かを判定し、その判定結果を出力する。 The use DB determination unit 210 determines whether or not a predetermined amount or more (sufficient) of frame-divided microphone input signals is accumulated in each class of the input signal DB 202A, and outputs the determination result.

信号選択部203Bは、入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。 The signal selection unit 203B selects a masker bare edge signal from past frame-divided microphone input signals stored for each class in the input signal DB 202A or the third-party audio signal DB 209, and outputs the selection result.

マスカー信号生成部204Cは、音声区間判定とピッチ推定の結果と使用DB判定結果と選択結果を基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていないと判定されたときは第三者音声信号DB209を選択し、マスカー素辺信号を選択されたデータベース(以下、選択したデータベースを「選択データベース」と呼ぶ)のピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームからマスカー素辺信号からマスカー信号を生成して出力する。 The masker signal generation unit 204C generates the input signal DB 202A and the input signal DB 202A when it is determined that the input signal DB 202A has accumulated a predetermined amount or more based on the results of the speech section determination and pitch estimation, the use DB determination result, and the selection result. When it is determined that the DB 202A does not store a predetermined amount or more, the third-party speech signal DB 209 is selected, and the pitch of the selected database (hereinafter, the selected database is referred to as the "selected database") of the masker base signal. A plurality of frames are read from a class corresponding to the class, and a masker signal is generated from a masker edge signal from the read plurality of frames and output.

なお、第4の実施形態において、ピッチ推定部205を除外し、入力信号DB202A、又は第三者音声信号DB209においてクラス分けせずに蓄積するようにしても良い。また、第4の実施形態において、音声区間判定部205を除外するようにしても良い。 In the fourth embodiment, the pitch estimator 205 may be excluded, and the input signal DB 202A or the third-party speech signal DB 209 may be stored without being classified. Also, in the fourth embodiment, the speech segment determination unit 205 may be excluded.

(D-2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態に係る音響処理方法)について詳細に説明する。
(D-2) Operation of Fourth Embodiment Next, the operation of the sound masking device 100C (acoustic processing method according to the embodiment) according to the fourth embodiment having the configuration described above will be described in detail.

第4の実施形態に係るサウンドマスキング装置100Cにおけるサウンドマスキング処理の基本的な動作は、第1から第3の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100C according to the fourth embodiment is the same as the sound masking process described in the first to third embodiments.

以下では、第1から第3の実施形態と異なる点である第三者音声信号DB209、使用DB判定部210、信号選択部203B、マスカー信号生成部204Cにおける処理動作を中心に詳細に説明する。 In the following, a detailed description will be given centering on the processing operations of the third-party audio signal DB 209, the use DB determination unit 210, the signal selection unit 203B, and the masker signal generation unit 204C, which are different from the first to third embodiments.

サウンドマスキング装置100Cのサウンドマスキング処理部200Cでは、サウンドマスキング処理を行う前に、第三者音声信号DB209へ音声信号の蓄積を行う。 The sound masking processing unit 200C of the sound masking device 100C accumulates the audio signal in the third party audio signal DB 209 before performing the sound masking process.

例えば、図8に示すように、事前に音声信号のサンプルを蓄積したデータベース(例えば、市販されている音声信号のデータベース等)により構成された第三者音声信号サンプルデータASを、サウンドマスキング処理部200Cに入力することで第三者音声信号DB209を構築する。 For example, as shown in FIG. 8, third-party audio signal sample data AS composed of a database in which audio signal samples are accumulated in advance (for example, a commercially available audio signal database) is processed by the sound masking processor. 200C to construct a third party audio signal DB 209. FIG.

図8では、第三者音声信号サンプルデータASに基づく音声信号をサウンドマスキング処理部200Cに入力し、サウンドマスキング装置100Cが動作を開始して、第三者音声信号サンプルデータASに基づく音声信号について、上記の各実施形態と同様にフレーム分割、音声区間判定、ピッチ推定、DB蓄積判定、クラス判定を行い、第三者音声信号DB209に蓄積する。 In FIG. 8, an audio signal based on the third party audio signal sample data AS is input to the sound masking processing unit 200C, the sound masking device 100C starts operating, and the audio signal based on the third party audio signal sample data AS , frame division, voice section determination, pitch estimation, DB accumulation determination, and class determination are performed in the same manner as in the above embodiments, and stored in the third-party voice signal DB 209 .

なお、上記の各実施形態の入力信号DB202、202Aの蓄積処理と同様の処理により、第三者音声信号DB209を構築するようにしても良い。 Note that the third party audio signal DB 209 may be constructed by the same process as the accumulation process of the input signal DBs 202 and 202A in each of the above embodiments.

また、第三者音声信号サンプルデータASが記録されるデータ記録媒体は限定されないものである。 Also, the data recording medium on which the third party audio signal sample data AS is recorded is not limited.

さらに、第三者音声信号DB209を構築する際のサンプルとしては、予め録音された第三者音声信号サンプルデータASではなく、マイク101、マイクアンプ102、及びAD変換器103を音入力端子INに接続して、複数の人物に発話して蓄積(マイク101を介して第三者音声信号のサンプルを蓄積)するようにしても良いし、別のPC等で処理して作成したデータ(第三者音声信号のサンプルデータ)を使用(例えば、通信やデータ記録媒体によりコピー)するようにしても良い。 Furthermore, as a sample for constructing the third party audio signal DB 209, the microphone 101, the microphone amplifier 102, and the AD converter 103 are connected to the sound input terminal IN instead of the prerecorded third party audio signal sample data AS. It is also possible to connect and store utterances to a plurality of people (samples of third-party voice signals are stored via the microphone 101), or data created by processing on another PC (third-party sample data of a voice signal) may be used (for example, copied by communication or a data recording medium).

そして、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理が開始するまで一時停止する。 Then, when the third party audio signal DB 209 has sufficiently accumulated data based on the third party audio signal (accumulated a predetermined amount or more of data), the sound masking device 100C prepares the third party audio signal DB 209. End the process and pause until the sound masking process begins.

なお、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理を開始するようにしても良い。 It should be noted that when the third party audio signal DB 209 has sufficiently accumulated data based on the third party audio signal (a predetermined amount or more of data has been accumulated), the sound masking device 100C prepares the third party audio signal DB 209. Alternatively, the processing may be terminated and the sound masking processing may be started.

このとき、第三者音声信号DB209に所定以上の量のデータが蓄積されたか否かを判定する方法は限定されないものであるが、使用DB判定部210を用いた判定処理を行うようにしても良い。 At this time, the method of determining whether or not a predetermined amount or more of data has been accumulated in the third party audio signal DB 209 is not limited. good.

サウンドマスキング装置100Cがサウンドマスキング処理を開始し、対象話者U1がマイク101に向かつて音声を発話すると、マイク101に入力される。 The sound masking device 100C starts sound masking processing, and when the target speaker U1 speaks toward the microphone 101, the voice is input to the microphone 101. FIG.

マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)として入力される。 An analog sound signal input to the microphone 101 is amplified by the microphone amplifier 102, converted from the analog signal to a digital signal by the AD converter 103, and is supplied to the sound input terminal IN of the sound masking processing unit 200C as the microphone input signal x(n). ).

サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。 When the microphone input signal x(n) starts to be input to the sound input terminal IN of the sound masking processing unit 200C, it is input to the frame division unit 201. FIG.

フレーム分割部201は、マイク入力信号x(n)を、処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206とピッチ推定部207に出力する。 The frame dividing unit 201 divides the microphone input signal x(n) into processing frames, and divides the frame-divided microphone input signal x_fram(l;m) into the speech period determining unit 205, the DB accumulation determining unit 206, and the pitch estimating unit. 207.

音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Cに出力する。 The speech section determination unit 205 uses the frame-divided microphone input signal x_fram(l;m) to determine whether it is a speech section or a non-speech section. , the pitch estimation unit 207 and the masker signal generation unit 204C.

DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208信号選択部203B、マスカー信号生成部204Cに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。 Only when the voice segment determining unit 205 determines that the frame-divided microphone input signal x_fram(l;m) is a voice segment, the DB accumulation determining unit 206 performs frame-divided microphone input signal x_fram output from the frame dividing unit 201. (l;m) is output to the class determination unit 208 signal selection unit 203B and the masker signal generation unit 204C, and the frame-divided microphone input signal x_fram(l;m) is determined as a non-speech interval by the voice interval determination unit 205. , the frame-divided microphone input signal x_fram(l;m) is not output.

ピッチ推定部207は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定し、推定したピッチをマスカー信号生成部204Cとピッチ推定部207に出力する。 The pitch estimation unit 207 estimates the pitch of the frame-divided microphone input signal x_fram(l;m) only when the speech period determination unit 205 determines that the microphone input signal x_fram(l;m) is in a voice period. The resulting pitch is output to masker signal generation section 204C and pitch estimation section 207 .

クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力して蓄積する。 Based on the pitch estimated by pitch estimating section 207, class determining section 208 classifies the frame-divided microphone input signal into input signal DB 202A only when it is determined that the frame-divided microphone input signal is stored in input signal DB 202A. are output and stored in classes corresponding to the pitches.

入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。 Only when the microphone input signal x_fram(l;m) is output from the class determination unit 208, the input signal DB 202A converts the output frame-divided microphone input signal x_fram(l;m) into the following equations (17) and (18): Accumulates in the input signal DB 202A for each class corresponding to the pitch according to the formula.

使用DB判定部210は、入力信号DB202Aの各クラスに過去のフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量のデータが蓄積(十分蓄積)されているか判定し、判定結果を出力する。使用DB判定部210は、例えば、以下の(24)式に従って、入力信号DB202Aにフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量が蓄積されているか否かを判定する。

Figure 0007287182000011
The use DB determination unit 210 determines whether a predetermined amount or more of data has been accumulated (sufficiently accumulated) in past frame-divided microphone input signals x_fram(l;m) in each class of the input signal DB 202A. Output. The use DB determination unit 210 determines whether or not a predetermined amount or more of the microphone input signal x_fram(l;m) divided into frames is accumulated in the input signal DB 202A according to the following equation (24), for example.
Figure 0007287182000011

(24)式で、flag(l)は、判定結果である。(24)式は、所定以上の量のデータが蓄積されている場合は、判定結果flag(l)に1を代入し、所定以上の量のデータが蓄積(十分蓄積)されていない場合は判定結果flag(l)に0を代入する。 In expression (24), flag(l) is the determination result. Formula (24) assigns 1 to the determination result flag(l) when a predetermined amount or more of data has been accumulated, and determines Assign 0 to the result flag(l).

なお、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断手法は、種々の方法を広く適用することができる。例えば、使用DB判定部210フレーム分割したマイク入力信号x_fram(l;m)が入力信号DBに蓄積される回数をカウントし、カウント数が閾値を超えた場合、所定以上のデータが蓄積されていると判定しても良いし、クラス毎に蓄積される回数をカウントし、全てのクラスについてカウント数が閾値を超えた場合、十分蓄積されていると判定しても良い。 It should be noted that various methods can be widely applied as a method of determining whether or not a predetermined amount of data or more is accumulated in the input signal DB 202A in the use DB determination unit 210. FIG. For example, the use DB determination unit 210 counts the number of times the microphone input signal x_fram(l;m) divided into frames is accumulated in the input signal DB, and when the count exceeds the threshold value, a predetermined amount of data or more is accumulated. Alternatively, the number of times accumulated for each class may be counted, and when the counted number exceeds the threshold value for all classes, it may be judged that sufficient accumulation is achieved.

また、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断開始方法は、種々の方法を広く適用することができる。例えば、サウンドマスキング装置100Cの動作が開始してから判定を開始しても良いし、サウンドマスキング装置100Cの動作が開始して所定時間経過した時から判定を開始するようにしても良い。そして、使用DB判定部210は、信号選択部203Bに判定結果flag(l)を出力する。 Further, various methods can be widely applied as a method for starting determination in use DB determination section 210 as to whether or not a predetermined amount or more of data has been accumulated in input signal DB 202A. For example, the determination may be started after the operation of the sound masking device 100C is started, or the determination may be started when a predetermined time has passed since the operation of the sound masking device 100C is started. Then, the used DB determination unit 210 outputs the determination result flag(l) to the signal selection unit 203B.

信号選択部203Bは、使用DB判定部210から出力された判定結果flag(l)から入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(25)式に示すように選択結果Tb(k)を選択する。 The signal selection unit 203B selects from the input signal DB 202A from the determination result flag(l) output from the use DB determination unit 210, or from the past frame-divided microphone input signal accumulated for each class in the third-party audio signal DB 209. Select the masker bare edge signal. The signal selection unit 203A selects the selection result Tb(k) as shown in equation (25), for example.

(25)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i-k,I)は、i-kをIで割ったときの剰余を返すMD関数である。Iで割ったときの剰余を返すことで、選択結果Tb(k)は0からI-1の値になる。(25)式は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、第三者音声信号DB209からマスカー素辺信号を選択し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、入力信号DB202Aからマスカー素辺信号を選択するという式である。
(25), k (k=1, 2, . , I) is the M O D function that returns the remainder when ik is divided by I. By returning the remainder when dividing by I, the selection result Tb(k) becomes a value from 0 to I−1. Expression (25) is obtained by the use DB determination unit 210, when it is determined that the input signal DB 202A does not store a predetermined amount or more (when flag(l)=0), the third party audio signal DB 209 outputs masker elements. A masker edge signal is selected from the input signal DB 202A when it is determined that an edge signal is selected and accumulated in the input signal DB 202A by a predetermined amount or more (when flag(l) is other than 0). .

なお、選択結果Tb(k)を算出手法は、種々の方法を広く適用することができ、例えば、(26)式に示すように、どのフレームを使用するかランダムに選択しても良い。 Various methods can be widely applied to the method of calculating the selection result Tb(k). For example, as shown in equation (26), which frame to use may be randomly selected.

(26)式で、randは自然数kに対して乱数を生成する関数である。(26)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Tb(k)は0からI-1の値になる。信号選択部203Bは、選択結果Tb(k)をマスカー信号生成部204に出力する。

Figure 0007287182000012
In equation (26), rand is a function that generates random numbers for natural number k. Expression (26) returns the remainder when the random number generated by rand(k) using the MOD function is divided by I, and the selection result Tb(k) takes values from 0 to I−1. Signal selection section 203B outputs selection result Tb(k) to masker signal generation section 204 .
Figure 0007287182000012

マスカー信号生成部204Cは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Bの選択結果Tb(k)、使用DB判定部210の判定結果flag(l)に基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていない判定されたときは第三者音声信号DB209を選択し、マスカー素返信号を選択データベースのピッチに応じたクラスから複数フレーム読み出す。そして、読み出された複数フレームからマスカー信号を生成し出力する。マスカー信号生成部204Cは、例えば、(27)式と(28)式に従い、マスカー信号を出力する。 The masker signal generation unit 204C uses the voice segment determination result VAD(l) of the voice segment determination unit 205, the pitch picth(l) estimated by the pitch estimation unit 207, the selection result Tb(k) of the signal selection unit 203B, and the used DB determination. Based on the determination result flag(l) of the unit 210, when it is determined that the input signal DB 202A has accumulated the predetermined amount or more, the input signal DB 202A is determined not to have accumulated the predetermined amount or more. A third-person voice signal DB 209 is selected, and a plurality of frames of masker return signals are read out from the class corresponding to the pitch of the selected database. Then, it generates and outputs a masker signal from the plurality of read frames. The masker signal generator 204C outputs a masker signal according to, for example, equations (27) and (28).

(27)式で、hc(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(28)式で、DB2(p;l;m)は第三者音声信号DB、h’’(l;m)は第三者音声信号DBと入力信号DBから生成されるマスカー信号、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)である。(27)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’’(l;m)を生成し、上記以外の時ときは無音を生成しhc(l;m)に代入するという式である。(28)は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、マスカー素辺信号を、第三者音声信号DB209から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、マスカー素辺信号を入力信号DB202Aから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成する。 In equation (27), hc(l;m) is the masker signal, F0_MAX is the maximum pitch value, and in equation (28), DB2(p;l;m) is the third party audio signal DB, h'' (l; m) is the masker signal generated from the third party audio signal DB and the input signal DB, and K is the number of selections of masker side signals (the number of audio additions when generating the masker signal). Expression (27) expresses the pitch pitch estimated by the pitch estimator 207 when the microphone input signal x_fram(l;m) is determined to be in the voice segment by the voice segment determination unit 205 (when VAD(l)=1). Only when (l) is greater than 0 Hz and equal to or less than F0_MAX, the masker signal h''(l;m) is generated, and otherwise silence is generated and substituted into hc(l;m). . (28) When the use DB determination unit 210 determines that the input signal DB 202A does not store a predetermined amount or more (flag(l) = 0), the masker bare edge signal is A plurality of frames are read out from the signal DB 209, a masker signal is generated from the read masker edge signals of the plurality of frames, and when it is determined that a predetermined amount or more is accumulated in the input signal DB 202A (flag(l) = other than 0). (time) reads a plurality of frames of masker side signals from the input signal DB 202A, and generates a masker signal from the read masker side signals of the plurality of frames.

なお、マスカー信号生成部204Cにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Cでは、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’’(l;m)を生成しでも良いし、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’’(l;m)を生成しても良い。 In addition, in the masker signal generator 204C, various methods can be widely applied to the method of generating the masker signal. For example, in the masker signal generation unit 204C, past frame-divided microphone input signals accumulated for each class corresponding to the pitch of the selection database are time-reversed and superimposed as time processing, and then the masker signal h''(l ;m), or the masker signal h''( l;m) may be generated, or a past frame to be used may be randomly determined to generate the masker signal h''(l;m).

そして、マスカー信号生成部204Cは、(29)式に従い、生成したマスカー信号hc(l;m)を出力信号y(n)として音出力端子OUTに出力する。

Figure 0007287182000013
Then, the masker signal generator 204C outputs the generated masker signal hc(l;m) to the sound output terminal OUT as the output signal y(n) according to the equation (29).
Figure 0007287182000013

(D-3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
(D-3) Effects of Fourth Embodiment According to the fourth embodiment, the following effects can be obtained.

第4の実施形態のサウンドマスキング装置100Cは、動作開始時には第三者音声信号DB209を使用してマスカー信号を生成して出力し、入力信号DB202Aに入力信号が十分蓄積されたら、入力信号DB202Aに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、サウンドマスキング装置100Cでは、動作開始時から音響特徴が対象話者U1の音声の音響特徴に近いマスカー信号を生成できるので、よりマスキング効果を高めることができる。 The sound masking apparatus 100C of the fourth embodiment uses the third party audio signal DB 209 to generate and output a masker signal at the start of operation, and when the input signal DB 202A has accumulated enough input signals, the input signal DB 202A A masker signal is generated and output using a plurality of frames of accumulated past microphone input signals. As a result, the sound masking apparatus 100C can generate a masker signal whose acoustic features are close to the acoustic features of the voice of the target speaker U1 from the start of operation, so that the masking effect can be further enhanced.

(E)第5の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第5の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(E) Fifth Embodiment Hereinafter, a fifth embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(E-1)第5の実施形態の構成
図9は、第5の実施形態に係るサウンドマスキング装置100Dの機能的構成について示したブロック図である。図9では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(E-1) Configuration of Fifth Embodiment FIG. 9 is a block diagram showing the functional configuration of a sound masking device 100D according to the fifth embodiment. In FIG. 9, the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as those in FIG.

以下では、第5の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。 In the following, the fifth embodiment will be described with a focus on the differences from the first embodiment, and descriptions of portions that overlap with the first embodiment will be omitted.

第5の実施形態のサウンドマスキング装置100Dでは、サウンドマスキング処理部200がサウンドマスキング処理部200Dに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Dでは、マスカー信号生成部204がマスカー信号生成部204Dに置き換わっている点で第1の実施形態と異なっている。 The sound masking device 100D of the fifth embodiment differs from the first embodiment in that the sound masking processing section 200 is replaced with a sound masking processing section 200D. The sound masking processor 200D differs from the first embodiment in that the masker signal generator 204 is replaced with a masker signal generator 204D.

第5の実施形態のサウンドマスキング装置100Dは、マスカー信号生成部204Dのマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。 The sound masking device 100D of the fifth embodiment differs from the sound masking device 100 of the first embodiment in that the method of generating the masker signal by the masker signal generator 204D is different.

マスカー信号生成部204Dは、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。 The masker signal generation unit 204D reads a plurality of frames of the selected masker side signal from the input signal DB 202, generates a masker signal from the read masker side signals of the plurality of frames, and outputs the masker signal.

(E-2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態におけるサウンドマスキング装置100Dの動作(実施形態に係る音響処理方法)について詳細に説明する。
(E-2) Operation of Fifth Embodiment Next, the operation of the sound masking device 100D (acoustic processing method according to the embodiment) having the configuration described above according to the fifth embodiment will be described in detail.

第5の実施形態に係るサウンドマスキング装置100Dにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100D according to the fifth embodiment is the same as the sound masking process described in the first embodiment.

以下では、第1の実施形態と異なる点であるマスカー信号生成部204Dにおける処理動作を中心に詳細に説明する。 In the following, a detailed description will be given centering on the processing operation in the masker signal generator 204D, which is different from the first embodiment.

マスカー信号生成部204Dは、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を使用してマスカー信号を生成する。マスカー信号生成部204Dが行うマスカー信号の生成手法としては、例えば、入力信号DB202に蓄積されているマイク入力信号に所定量の遅延を与えて重畳することで疑似的にエコー(以下、「疑似エコー」と呼ぶ)を生成し、マスカー信号として使用する手法が挙げられる。 The masker signal generation unit 204D generates a masker signal using the past frame-divided microphone input signal stored in the input signal DB 202 . As a masker signal generation method performed by the masker signal generation unit 204D, for example, a pseudo echo (hereinafter referred to as “pseudo echo ) and use it as a masker signal.

マスカー信号生成部204Dは、疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力する。疑似エコーは、例えば、(30)式、(31)式に従い、疑似エコーを生成する。

Figure 0007287182000014
The masker signal generator 204D generates a pseudo echo and outputs the generated pseudo echo as a masker signal. A pseudo echo is generated according to, for example, equations (30) and (31).
Figure 0007287182000014

(30)式、(31)式で、c(c=1、2、・・・、C)はインデックスを、Cは疑似エコー生成時における音声の加算回数、p(1≦p≦(M-1))は疑似エコーを生成する時の入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号をどれだけ遅延させるかのパラメー夕、αは減表係数(0.0<α<1.0)である。(31)式は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を複数フレーム読み出しを時間的にずらして減衰係数を乗算してから重畳して生成される信号である。疑似エコーの遅延時間は、例えば、0.1[秒]から1.0[秒](48kHzサンプリングで約4800[サンプル]から48000[サンプル])程度としても良い。例えば、(30)式で、C=3、p=50、α=0.5のときは、入力信号DB202に蓄積されている過去1フレーム前のマイク入力信号と、入力信号DB202に蓄積されている過去2フレーム前のマイク入力信号を50サンプル進めて減衰係数α(=0.5)を乗算した信号と、入力信号DB202に蓄積されている過去3フレーム前のマイク入力信号を100サンプル進めて、減衰係数α(=0.25)を乗算した信号を重畳することで疑似エコーe(l;m)を生成することを示す。 In equations (30) and (31), c (c=1, 2, . 1)) is a parameter indicating how much the past frame-divided microphone input signal stored in the input signal DB 202 when generating a pseudo echo is to be delayed, and α is a reduction coefficient (0.0<α<1 .0). Equation (31) is a signal generated by multiplying the past frame-divided microphone input signal accumulated in the input signal DB 202 by an attenuation coefficient while shifting the readout of a plurality of frames, and then superimposing the signal. The delay time of the pseudo echo may be, for example, about 0.1 [seconds] to 1.0 [seconds] (approximately 4800 [samples] to 48000 [samples] at 48 kHz sampling). For example, in equation (30), when C=3, p=50, and α=0.5, the microphone input signal of the previous frame accumulated in the input signal DB 202 and the microphone input signal accumulated in the input signal DB 202 are A signal obtained by advancing the microphone input signal of the past two frames before by 50 samples and multiplying it by an attenuation coefficient α (=0.5), and advancing the microphone input signal of the past three frames accumulated in the input signal DB 202 by 100 samples. , a pseudo echo e(l;m) is generated by superimposing a signal multiplied by an attenuation coefficient α 2 (=0.25).

なお、マスカー信号生成部204Dにおける疑似エコーの生成手法は、種々の方法を広く適用することができる。マスカー信号生成部204Dでは、例えば、(32)式と(33)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転した信号を使用して疑似エコーe(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定して疑似エコーe(l;m)を生成しても良い。

Figure 0007287182000015
Various methods can be widely applied to the pseudo echo generation method in the masker signal generation unit 204D. In the masker signal generation unit 204D, for example, as shown in equations (32) and (33), the past frame-divided microphone input signal accumulated in the input signal DB 202 is time-reversed as time-processed signals. Alternatively, the pseudo echo e(l;m) may be generated by randomly determining which past frame to use.
Figure 0007287182000015

そして、マスカー信号生成部204Dは、(34)式に従い、生成した疑似エコーe(l;m)を出力信号y(n)として音出力端子OUTに出力する。

Figure 0007287182000016
Then, the masker signal generator 204D outputs the generated pseudo echo e(l;m) to the sound output terminal OUT as the output signal y(n) according to the equation (34).
Figure 0007287182000016

(E-3)第5の実施形態の効果
第5の実施形態によれば、以下のような効果を奏することができる。
(E-3) Effects of Fifth Embodiment According to the fifth embodiment, the following effects can be obtained.

第5の実施形態のサウンドマスキング装置100Dは、対象話者U1の音声を入力信号DBに蓄積し、入力音声信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用して疑似エコーを生成し、疑似エコーをマスカー信号として出力する。これにより、サウンドマスキング装置100Dでは、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第5の実施形態のサウンドマスキング装置100でも、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近くなるので、高いマスキング効果が得られる。 The sound masking device 100D of the fifth embodiment stores the voice of the target speaker U1 in the input signal DB, and uses the past frame-divided microphone input signal stored in the input voice signal DB for a plurality of frames. A pseudo echo is generated and the pseudo echo is output as a masker signal. As a result, in the sound masking device 100D, the acoustic features of the masker signal are brought closer to the acoustic features of the voice of the target speaker U1, thereby improving the masking effect and preventing the leakage of the content of the conversation. In other words, the sound masking apparatus 100 of the fifth embodiment also analyzes the acoustic characteristics of the target speaker U1 by generating the masker signal using the voice signal of the target speaker U1 stored in the input signal DB. Even if the above is not performed, the acoustic features of the masker signal are close to the acoustic features of the voice signal of the target speaker U1, so that a high masking effect can be obtained.

(F)第6の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第6の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(F) Sixth Embodiment Hereinafter, a sixth embodiment of the sound processing device, sound processing program, and sound processing method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound processing device, the sound processing program, and the sound processing method of the present invention are applied to a sound masking device will be described.

(F-1)第6の実施形態の構成
図10は、第6の実施形態に係るサウンドマスキング装置100Eの機能的構成について示したブロック図である。図10では、上述の図9と同一部分又は対応部分には、同一符号又は対応符号を付している。
(F-1) Configuration of Sixth Embodiment FIG. 10 is a block diagram showing the functional configuration of a sound masking device 100E according to the sixth embodiment. In FIG. 10, the same reference numerals or corresponding reference numerals are assigned to the same or corresponding portions as in FIG. 9 described above.

以下では、第5の実施形態について、第5の実施形態との差異を中心に説明し、第5の実施形態と重複する部分については説明を省略する。 In the following, the fifth embodiment will be described with a focus on differences from the fifth embodiment, and descriptions of portions that overlap with the fifth embodiment will be omitted.

第6の実施形態のサウンドマスキング装置100Eでは、サウンドマスキング処理部200Dがサウンドマスキング処理部200Eに置き換わっている点で、第5の実施形態と異なっている。サウンドマスキング処理部200Eは、フレーム分割部201、第1の入力信号DB211、第2の入力信号DB212、第1の信号選択部213、第2の信号選択部214、第1のマスカー生成部215、第2のマスカー生成部216、及びマスカー信号ミキシング部217を有している。 A sound masking device 100E of the sixth embodiment differs from that of the fifth embodiment in that the sound masking processing section 200D is replaced with a sound masking processing section 200E. The sound masking processing unit 200E includes a frame division unit 201, a first input signal DB 211, a second input signal DB 212, a first signal selection unit 213, a second signal selection unit 214, a first masker generation unit 215, It has a second masker generator 216 and a masker signal mixer 217 .

第6の実施形態のサウンドマスキング装置100Eでは、マスカー信号の生成方法が、第1の実施形態、及び第5の実施形態と異なっている。具体的には、サウンドマスキング処理部200Eは、入力されたマイク入力信号から2種類のマスカー信号を生成し、重畳した信号をマスカー信号として出力する。 The sound masking device 100E of the sixth embodiment differs from the first and fifth embodiments in the method of generating the masker signal. Specifically, the sound masking processing unit 200E generates two types of masker signals from the input microphone input signal, and outputs the superimposed signal as the masker signal.

第1の入力信号DB211、第2の入力信号DB212は、第1の実施形態の入力信号DB202と同様のものであるため詳しい説明を省略する。また、第1の信号選択部213、第2の信号選択部214も、第1の実施形態の信号選択部203と名前が異なるだけで同様のものであるため詳しい説明を省略する。 Since the first input signal DB211 and the second input signal DB212 are similar to the input signal DB202 of the first embodiment, detailed description thereof will be omitted. Also, the first signal selection unit 213 and the second signal selection unit 214 are similar to the signal selection unit 203 of the first embodiment except that they have different names, so detailed description thereof will be omitted.

第1のマスカー生成部215は、後述する第2のマスカー生成部216と異なる方法で、第1の入力信号DB211からマスカー信号を生成し出力する。 The first masker generator 215 generates and outputs a masker signal from the first input signal DB 211 by a method different from that of the second masker generator 216, which will be described later.

第2のマスカー生成部216は、第1のマスカー生成部215と異なる方法で、第2の入力信号DB212からマスカー信号を生成し出力する。 The second masker generator 216 generates and outputs a masker signal from the second input signal DB 212 by a method different from that of the first masker generator 215 .

マスカー信号ミキシング部217は、各マスカー信号生成部から出力されたマスカー信号をミキシングして最終的に出力するマスカー信号を生成する。 The masker signal mixing unit 217 mixes the masker signals output from the respective masker signal generation units to generate a masker signal to be finally output.

第1の入力信号DB211と第2の入力信号DB212には、両法のDBに同様のデータ(例えば、第1の入力信号DB211と第2の入力信号DB212に第1の実施形態における入力信号DB202と同様のデータ)を蓄積するようにしても良いし、異なるデータ(例えば、第1の入力信号DB211は、第1の実施形態における入力信号DB202、第2の入力信号DB212は、第3の実施形態における入力信号DB202Aと同様のデータ)を蓄積するようにしても良い。 For the first input signal DB211 and the second input signal DB212, the same data as the DB of both methods (for example, the first input signal DB211 and the second input signal DB212 have the same data as the input signal DB202 in the first embodiment). , or different data (for example, the first input signal DB211 is the input signal DB202 in the first embodiment, and the second input signal DB212 is the third embodiment). (data similar to the input signal DB 202A in the form) may be accumulated.

(F-2)第6の実施形態の動作
次に、以上のような構成を有する第6の実施形態におけるサウンドマスキング装置100Eの動作(実施形態に係る音響処理方法)について詳細に説明する。
(F-2) Operation of Sixth Embodiment Next, the operation of the sound masking device 100E (acoustic processing method according to the embodiment) of the sixth embodiment having the configuration described above will be described in detail.

第6の実施形態に係るサウンドマスキング装置100Eにおけるサウンドマスキング処理の基本的な動作は、第5の実施形態で説明したサウンドマスキング処理と同様である。 The basic operation of the sound masking process in the sound masking device 100E according to the sixth embodiment is the same as the sound masking process described in the fifth embodiment.

本発明の第6の実施形態に係るサウンドマスキング装置100Eの動作を詳細に説明する。 The operation of the sound masking device 100E according to the sixth embodiment of the invention will be described in detail.

第1のマスカー生成部215は、第1の入力信号DB211に蓄積されている過去のフレーム分割したマイク入力信号を使用して第2のマスカー生成部216とは異なる方法でマスカー信号を生成する。 The first masker generator 215 uses the past frame-divided microphone input signal stored in the first input signal DB 211 to generate a masker signal by a method different from that of the second masker generator 216 .

第2のマスカー生成部216は、第2の入力信号DB212に蓄積されている過去のフレーム分割したマイク入力信号を使用して第1のマスカー生成部215とは異なる方法でマスカー信号を生成する。 The second masker generation unit 216 generates a masker signal by a method different from that of the first masker generation unit 215 using the past frame-divided microphone input signal stored in the second input signal DB 212 .

例えば、第1のマスカー生成部215は、(6)式、又は(7)式に示すようにマスカー信号h(l;m)を生成し、第2のマスカー生成部216は、(32)式、又は(34)式に示すような疑似エコーe(l;m)をマスカー信号として生成するようにしても良い。 For example, the first masker generator 215 generates the masker signal h(l;m) as shown in equation (6) or (7), and the second masker generator 216 generates the masker signal h(l;m) as shown in equation (32) , or a pseudo echo e(l;m) as shown in equation (34) may be generated as a masker signal.

マスカー信号ミキシング部217は、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングし、マスカー信号mix(l;m)として出力する。マスカー信号ミキシング部217は、例えば、(35)式に基づいて、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングするようにしても良い。 The masker signal mixing unit 217 mixes the masker signals output from the first masker generation unit 215 and the second masker generation unit 216, and outputs a masker signal mix(l;m). The masker signal mixing section 217 may mix the masker signals output from the first masker generation section 215 and the second masker generation section 216, for example, based on the equation (35).

(35)式で、β(0.0≦β≦1.0)はどちらのマスカー信号を多く使用するかのパラメータである。第1のマスカー生成部215のマスカー信号を多く使用したい場合、βは1に近い値が望ましく(例えば、β=0.9等の値)、第2のマスカー生成部216のマスカー信号を多く使用したい場合、βは1に近い値が望ましい(例えば、β=0.1等の値)。 In equation (35), β (0.0≤β≤1.0) is a parameter indicating which masker signal is used more. When the masker signal of the first masker generator 215 is desired to be used more, β is preferably close to 1 (for example, a value such as β=0.9), and the masker signal of the second masker generator 216 is used more often. β should be close to 1 (for example, β=0.1).

マスカー信号ミキシング部217は、(36)式に従い、ミキシングしたマスカー信号mix(l;m)を出力信号y(n)として出力する。

Figure 0007287182000017
The masker signal mixing unit 217 outputs the mixed masker signal mix(l;m) as the output signal y(n) according to the equation (36).
Figure 0007287182000017

(F-3)第6の実施形態の効果
第6の実施形態によれば以下のような効果を奏することができる。
(F-3) Effects of Sixth Embodiment According to the sixth embodiment, the following effects can be obtained.

第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1の音声を第1の入力信号DB211及び第2の入力信号DB212に蓄積し、各入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用し、それぞれ異なる方法でマスカー信号を生成し、ミキシングする量を調節してミキシングし出力する。これにより、第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1にマスキング効果が高い方式のマスカー音のミキシング量を調節できるので、よりマスキング効果を高めることができる。 In the sound masking device 100E of the sixth embodiment, the voice of the target speaker U1 is accumulated in the first input signal DB 211 and the second input signal DB 212, and the past microphone input signals accumulated in each input signal DB are are used for a plurality of frames, masker signals are generated by different methods, the amount of mixing is adjusted, and the signals are mixed and output. As a result, the sound masking apparatus 100E of the sixth embodiment can adjust the mixing amount of the masker sound of the method having a high masking effect on the target speaker U1, so that the masking effect can be further enhanced.

(G)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(G) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those illustrated below can also be included.

(G-1)例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止するする装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。 (G-1) For example, the sound masking device of the present invention may be installed in a device that prevents the contents of a conversation from leaking out to people other than the target audience in a teleconference. In this case, in the sound masking device, the target speaker U1 is the person speaking in the conference call.

(G-2)上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置(例えば、サーバ等)で処理される構成としても良い。 (G-2) In each of the above embodiments, the sound masking unit of the sound masking device may be configured to be processed by a processing device (for example, a server, etc.) on the network.

(G-3)上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。 (G-3) In each of the above embodiments, the sound masking device includes an audio device (microphone, microphone amplifier, AD converter, speaker, speaker amplifier, and DA converter). The masking device may be manufactured without the audio device, and the audio device may be separately connected at the site of actual use. That is, the sound masking device may include at least a sound masking processing unit.

100、100A、100B、100C、100D、100E…サウンドマスキング装置、101…マイク、102…マイクアンプ、103…AD変換器、104…スピーカ、105…スピーカアンプ、106…DA変換器、107…スピーカ、200、200A、200B、200C、200D、200E…サウンドマスキング処理部、201…フレーム分割部、202、202A…入力信号DB、203、203A、203B…信号選択部、204、204A、204B、204C、204D…マスカー信号生成部、205…音声区間判定部、206…DB蓄積判定部、207…ピッチ推定部、208…クラブ判定部、209…第三者音声信号DB、210…使用DB判定部、211…第1の入力信号DB、212…第2の入力信号DB、213…第1の信号選択部、216…第2の信号選択部、215…第1のマスカー生成部、216…第2のマスカー生成部、217…マスカー信号ミキシング部、300…コンピュータ、301…プロセッサ、302…一次記憶部、303…二次記憶部。 100, 100A, 100B, 100C, 100D, 100E... Sound masking device, 101... Microphone, 102... Microphone amplifier, 103... AD converter, 104... Speaker, 105... Speaker amplifier, 106... DA converter, 107... Speaker, 200, 200A, 200B, 200C, 200D, 200E... Sound masking processing unit, 201... Frame division unit, 202, 202A... Input signal DB, 203, 203A, 203B... Signal selection unit, 204, 204A, 204B, 204C, 204D Masker signal generation unit 205 Speech section determination unit 206 DB accumulation determination unit 207 Pitch estimation unit 208 Club determination unit 209 Third party voice signal DB 210 Usage DB determination unit 211 First input signal DB, 212... Second input signal DB, 213... First signal selector, 216... Second signal selector, 215... First masker generator, 216... Second masker generator Part 217... Masker signal mixing part 300... Computer 301... Processor 302... Primary storage part 303... Secondary storage part.

Claims (10)

対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
マイク入力信号のピッチを推定するピッチ推定手段とを有し、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理装置。
a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths;
input signal accumulation means for accumulating the frame-divided microphone input signal;
signal selection means for selecting a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and for outputting a selection result;
a masker signal generating means for generating and outputting the masker signal that makes the speech uttered by the target speaker difficult to hear, using the signal used to generate the masker signal ;
pitch estimation means for estimating the pitch of the microphone input signal;
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
An acoustic processing device characterized by:
前記マスカー信号生成手段が出力した前記マスカー信号を前記対象話者以外のマスキング対象者に向けて放出するスピーカをさらに有することを特徴とする請求項1に記載の音響処理装置。 2. The sound processing apparatus according to claim 1, further comprising a speaker for emitting said masker signal output by said masker signal generating means toward a person to be masked other than said target speaker. 前記マスカー信号生成手段が出力した前記マスカー信号を反射面に反射させ、前記反射面を反射した反射音が前記対象話者以外のマスキング対象者の方向に向くように配置されているスピーカをさらに有することを特徴とする請求項1に記載の音響処理装置。 The masker signal output by the masker signal generating means is reflected by a reflecting surface, and a speaker is arranged so that the reflected sound reflected by the reflecting surface is directed toward a person to be masked other than the target speaker. The sound processing device of claim 1, further comprising: マイク入力信号が音声区間であるか非音声区間であるかを判定する音声区間判定部をさらに備え、
前記入力信号蓄積手段は、前記音声区間と判定されたときのみ、マイク入力信号を蓄積する
ことを特徴とする請求項1~3のいずれかに記載の又は請求項2に記載の音響処理装置。
further comprising a speech section determination unit that determines whether the microphone input signal is a speech section or a non-speech section,
3. The sound processing apparatus according to claim 1, wherein the input signal accumulation means accumulates the microphone input signal only when the speech period is determined.
前記対象話者とは異なる第三者が発話した音声を収音した第三者音声信号を蓄積している第三者信号蓄積手段と、
前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されているか否かを判定する蓄積判定手段とをさらに備え、
前記マスカー信号生成手段は、前記蓄積判定手段で、前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されていないと判定されている間だけ、前記第三者信号蓄積手段に蓄積されている第三者音声信号を用いてマスカー信号を生成することを特徴とする請求項1~のいずれかに記載の音響処理装置。
a third party signal storage means for storing a third party voice signal obtained by picking up a voice uttered by a third party different from the target speaker;
further comprising accumulation determination means for determining whether or not a predetermined amount or more of the microphone input signal is accumulated in the input signal accumulation means,
The masker signal generation means accumulates in the third party signal accumulation means only while the accumulation judgment means judges that the input signal accumulation means does not accumulate microphone input signals of a predetermined amount or more. 5. The sound processing apparatus according to any one of claims 1 to 4 , wherein the masker signal is generated using a third party audio signal that has been recorded.
前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号をマスカー信号として出力する
ことを特徴とする請求項1に記載の音響処理装置。
The input signal accumulation means accumulates microphone input signals divided into a plurality of frames,
The masker signal generating means time-processes a signal obtained by superimposing a plurality of frames of the microphone input signal accumulated in the input signal accumulation means, or time-processes the input signal of a plurality of frames accumulated in the input signal accumulation means. 2. The sound processing device according to claim 1, wherein the signal superimposed on the signal is output as a masker signal.
前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力することを特徴とする請求項1に記載の音響処理装置。 The masker signal generation means delays the microphone input signal stored in the input signal storage means by a predetermined amount to generate a pseudo echo, and outputs the generated pseudo echo as the masker signal. Item 1. The acoustic processing device according to item 1. 前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
前記マスカー信号生成手段は、
前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号を第1のマスカー信号として生成し、
前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーを第2のマスカー信号として生成し、
前記第1のマスカー信号と前記第2のマスカー信号とを重畳した信号をマスカー信号として生成して出力する
ことを特徴とする請求項1に記載の音響処理装置。
The input signal accumulation means accumulates microphone input signals divided into a plurality of frames,
The masker signal generating means is
A signal obtained by superimposing a plurality of frames of the microphone input signal accumulated in the input signal accumulation means, or a signal obtained by temporally processing and superimposing the plurality of frames of the input signal accumulated in the input signal accumulation means, as a first signal. generated as a masker signal of
delaying the microphone input signal accumulated in the input signal accumulation means by a predetermined amount to generate a pseudo echo, and generating the generated pseudo echo as a second masker signal;
The sound processing apparatus according to claim 1, wherein a signal obtained by superimposing the first masker signal and the second masker signal is generated as a masker signal and output.
コンピュータを、
対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
マイク入力信号のピッチを推定するピッチ推定手段として機能させ、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理プログラム。
the computer,
a frame dividing means for dividing a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths;
input signal accumulation means for accumulating the frame-divided microphone input signal;
signal selection means for selecting a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and for outputting a selection result;
a masker signal generating means for generating and outputting the masker signal that makes the speech uttered by the target speaker difficult to hear, using the signal used to generate the masker signal ;
functioning as pitch estimation means for estimating the pitch of the microphone input signal,
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
A sound processing program characterized by:
音響処理方法において、
フレーム分割手段、入力信号蓄積手段、信号選択手段、マスカー信号生成手段及びピッチ推定手段を有し、
前記フレーム分割手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、
前記入力信号蓄積手段は、前記フレーム分割されたマイク入力信号を蓄積し、
前記信号選択手段は、前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、
前記マスカー信号生成手段は、前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力し、
前記ピッチ推定手段は、マイク入力信号のピッチを推定し、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする音響処理方法。
In the acoustic processing method,
having frame division means, input signal accumulation means, signal selection means , masker signal generation means and pitch estimation means ,
The frame dividing means divides a microphone input signal supplied from a microphone for picking up a voice uttered by a target speaker into predetermined lengths,
The input signal accumulation means accumulates the frame-divided microphone input signal,
The signal selection means selects a signal to be used for generating a masker signal from past frame-divided microphone input signals accumulated in the input signal accumulation means, and outputs a selection result;
The masker signal generating means uses the signal used to generate the masker signal to generate and output the masker signal that makes the speech uttered by the target speaker difficult to hear ,
The pitch estimation means estimates the pitch of the microphone input signal,
The input signal accumulation means sorts and accumulates the microphone input signal into one of a plurality of classes according to the pitch estimated by the pitch estimation means,
The masker signal generating means generates a masker signal using a microphone input signal of a class corresponding to the pitch estimated by the pitch estimating means from the input signal accumulating means.
An acoustic processing method characterized by:
JP2019151513A 2019-08-21 2019-08-21 SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD Active JP7287182B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019151513A JP7287182B2 (en) 2019-08-21 2019-08-21 SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019151513A JP7287182B2 (en) 2019-08-21 2019-08-21 SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD

Publications (2)

Publication Number Publication Date
JP2021032989A JP2021032989A (en) 2021-03-01
JP7287182B2 true JP7287182B2 (en) 2023-06-06

Family

ID=74678609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019151513A Active JP7287182B2 (en) 2019-08-21 2019-08-21 SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD

Country Status (1)

Country Link
JP (1) JP7287182B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7532791B2 (en) * 2020-02-07 2024-08-14 沖電気工業株式会社 SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD
WO2022162929A1 (en) * 2021-02-01 2022-08-04 三菱電機株式会社 Sound masking device, sound masking system, control method, and control program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534061A (en) 2002-07-24 2005-11-10 アプライド マインズ インク Method and system for masking languages
JP2008233671A (en) 2007-03-22 2008-10-02 Yamaha Corp Sound masking system, masking sound generation method, and program
JP2012194528A (en) 2010-11-25 2012-10-11 Yamaha Corp Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175666A (en) * 1992-12-04 1994-06-24 Daiken Trade & Ind Co Ltd Partition and room structure for masking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534061A (en) 2002-07-24 2005-11-10 アプライド マインズ インク Method and system for masking languages
JP2008233671A (en) 2007-03-22 2008-10-02 Yamaha Corp Sound masking system, masking sound generation method, and program
JP2012194528A (en) 2010-11-25 2012-10-11 Yamaha Corp Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program

Also Published As

Publication number Publication date
JP2021032989A (en) 2021-03-01

Similar Documents

Publication Publication Date Title
KR101500254B1 (en) Apparatus, method and computer readable medium for determining a measure for a perceived level of reverberation, and audio processor, method of processing an audio signal and computer readable medium for generating a mix signal from a direct signal component
JP6268717B2 (en) State estimation device, state estimation method, and computer program for state estimation
CN103413547B (en) A method for indoor reverberation elimination
Nemeth et al. Rainforests as concert halls for birds: are reverberations improving sound transmission of long song elements?
JP6019969B2 (en) Sound processor
Harte et al. TCD-VoIP, a research database of degraded speech for assessing quality in VoIP applications
US20060130637A1 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
JP7287182B2 (en) SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM AND SOUND PROCESSING METHOD
JP2008507720A (en) Audio signal echo cancellation
JP2011065128A (en) Reverberation removing device
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
Cauchi et al. Perceptual and instrumental evaluation of the perceived level of reverberation
CN112437957B (en) Forced gap insertion for full listening
JP3435357B2 (en) Sound collection method, device thereof, and program recording medium
Steeneken et al. Basics of the STI measuring method
JP4785563B2 (en) Audio processing apparatus and audio processing method
JP5076974B2 (en) Sound processing apparatus and program
JPH09311696A (en) Automatic gain control device
de Lima et al. Reverberation assessment in audioband speech signals for telepresence systems
JP7532791B2 (en) SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD
JP2021135361A (en) Sound processing device, sound processing program and sound processing method
JP2011170113A (en) Conversation protection degree evaluation system and conversation protection degree evaluation method
JP2002064617A (en) Echo suppression method and echo suppression equipment
JP7552034B2 (en) SOUND PROCESSING DEVICE, SOUND PROCESSING PROGRAM, AND SOUND PROCESSING METHOD
JP2014202777A (en) Generation device and generation method and program for masker sound signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150