JP6472824B2 - 信号処理装置、信号処理方法および音声の対応づけ提示装置 - Google Patents
信号処理装置、信号処理方法および音声の対応づけ提示装置 Download PDFInfo
- Publication number
- JP6472824B2 JP6472824B2 JP2017054967A JP2017054967A JP6472824B2 JP 6472824 B2 JP6472824 B2 JP 6472824B2 JP 2017054967 A JP2017054967 A JP 2017054967A JP 2017054967 A JP2017054967 A JP 2017054967A JP 6472824 B2 JP6472824 B2 JP 6472824B2
- Authority
- JP
- Japan
- Prior art keywords
- signals
- separated
- signal processing
- separation
- arrival direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000926 separation method Methods 0.000 claims description 75
- 239000011159 matrix material Substances 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/14—Transforming into visible information by displaying frequency domain information
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
本発明の実施形態は、信号処理装置、信号処理方法および音声の対応づけ提示装置に関する。
近年、VoC(Voice of customer)などと称される、顧客の声を収集・分析して業務改善などを図る活動が広く行われている。また、このような状況に伴い、様々な集音技術が提案されるに至っている。
本発明が解決しようとする課題は、音声の収集状況を視覚的に確認することができる信号処理装置、信号処理方法および音声の対応づけ提示装置を提供することである。
実施形態によれば、信号処理装置は、分離手段と、推定手段と、ユーザインタフェース手段と、を具備する。前記分離手段は、異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する。前記推定手段は、前記複数の分離信号それぞれの到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う。前記ユーザインタフェース手段は、前記複数の分離信号と到来方位との対応づけの状況を提示する。前記分離手段は、前記複数の信号から前記分離フィルタを推定して逐次更新する。前記ユーザインタフェース手段は、前記分離フィルタを第1の時点の分離フィルタに復帰させる指示を受け付ける。
以下、実施形態について図面を参照して説明する。
図1は、実施形態の信号処理装置の外観の一例を示す図である。
この信号処理装置10は、たとえば、指またはペン(スタイラス)による表示画面上でのタッチ操作を受け付け可能な電子機器として実現される。たとえば、この信号処理装置10は、タブレットコンピュータやスマートフォンなどとして実現され得る。なお、この信号処理装置10は、表示画面上でのタッチ操作のみならず、たとえば、外部接続されるキーボードやポインティングデバイス、筐体周壁に設けられる操作ボタンなどの操作を受け付け可能である。ここでは、信号処理装置10が、表示画面上でのタッチ操作を受け付け可能であることを想定するが、この信号処理装置10において、表示画面上でのタッチ操作を受け付け可能であることは必須ではなく、たとえば、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付け可能であるのみであっても構わない。
図1は、実施形態の信号処理装置の外観の一例を示す図である。
この信号処理装置10は、たとえば、指またはペン(スタイラス)による表示画面上でのタッチ操作を受け付け可能な電子機器として実現される。たとえば、この信号処理装置10は、タブレットコンピュータやスマートフォンなどとして実現され得る。なお、この信号処理装置10は、表示画面上でのタッチ操作のみならず、たとえば、外部接続されるキーボードやポインティングデバイス、筐体周壁に設けられる操作ボタンなどの操作を受け付け可能である。ここでは、信号処理装置10が、表示画面上でのタッチ操作を受け付け可能であることを想定するが、この信号処理装置10において、表示画面上でのタッチ操作を受け付け可能であることは必須ではなく、たとえば、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付け可能であるのみであっても構わない。
図1に示すように、この信号処理装置10は、タッチスクリーンディスプレイ11を有する。この信号処理装置10は、たとえばスレート状の筐体を有し、タッチスクリーンディスプレイ11は、その筐体のたとえば上面に配置される。タッチスクリーンディスプレイ11は、フラットパネルディスプレイと、センサとを有する。センサは、指またはペンが接触するフラットパネルディスプレイの画面上の位置を検出する。フラットパネルディスプレイは、たとえばLCD(Liquid crystal display)などである。センサは、たとえば静電容量方式のタッチパネルや電磁誘導方式のデジタイザなどである。ここでは、タッチスクリーンディスプレイ11が、タッチパネルとデジタイザとの両方を有することを想定する。
また、この信号処理装置10は、図1には示されない音声入力端子を有しており、音声入力端子を介して音声入力機器(マイクアレイ)12を接続することができる。音声入力機器12は、複数のマイクを有する。また、音声入力機器12は、信号処理装置10の筐体の一角に取り外し自在に装着可能な形状に形成されている。図1は、音声入力端子を介して信号処理装置10に接続された音声入力機器12が、信号処理装置10の本体の一角に装着されている状態を示している。なお、音声入力機器12は、この形に限らない。複数のマイクから信号処理装置10が音声を取得できればよく、たとえば、通信を介して信号処理装置10と接続されてもよい。
図2は、この信号処理装置10の利用シーンの一例を示す図である。
この信号処理装置10は、たとえば、VoCのための音声収集システムなどとして適用され得る。図2は、スタッフa2と顧客a1との間で交わされる会話の音声を、信号処理装置10に接続した音声入力機器12により収集している様子を示している。収集された音声は、信号処理装置10により話者(スタッフa2,顧客a1)ごとに分離され、たとえば、スタッフa2の音声は、接客マニュアルの改善に役立てるために利用され、顧客a1の音声は、顧客ニーズの把握に役立てるために利用される。収集された音声の話者ごとの分離については後述する。
この信号処理装置10は、たとえば、VoCのための音声収集システムなどとして適用され得る。図2は、スタッフa2と顧客a1との間で交わされる会話の音声を、信号処理装置10に接続した音声入力機器12により収集している様子を示している。収集された音声は、信号処理装置10により話者(スタッフa2,顧客a1)ごとに分離され、たとえば、スタッフa2の音声は、接客マニュアルの改善に役立てるために利用され、顧客a1の音声は、顧客ニーズの把握に役立てるために利用される。収集された音声の話者ごとの分離については後述する。
図3は、この信号処理装置10のハードウェア構成の一例を示す図である。
図3に示すように、この信号処理装置10は、CPU(Central processing unit)101、システムコントローラ102、主メモリ103、GPU(Graphics processing unit)104、BIOS(Basic input/output system)−ROM105、不揮発性メモリ106、無線通信デバイス107、EC(Embedded controller)108などを有する。
図3に示すように、この信号処理装置10は、CPU(Central processing unit)101、システムコントローラ102、主メモリ103、GPU(Graphics processing unit)104、BIOS(Basic input/output system)−ROM105、不揮発性メモリ106、無線通信デバイス107、EC(Embedded controller)108などを有する。
CPU101は、信号処理装置10内の様々なコンポーネントの動作を制御するプロセッサである。CPU101は、不揮発性メモリ106から主メモリ103に様々なプログラムをロードして実行する。これらプログラムには、OS(Operating system)210や、音声レコーダ・アプリケーションプログラム220を含む様々なアプリケーションプログラムが含まれている。音声レコーダ・アプリケーションプログラム220については後述するが、音声レコーダ・アプリケーションプログラム220は、音声入力機器12が収集した音声を話者ごとに分離し、音声データ300として不揮発性メモリ106に格納する機能を有する。また、CPU101は、BIOS−ROM105に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ102は、PCIe規格のシリアルバスなどを介してGPU104との通信を実行する機能も有している。さらに、システムコントローラ102は、前述した、音声入力端子を介して接続される音声入力機器12から音声を入力する機能も有している。
GPU104は、タッチスクリーンディスプレイ11に組み込まれているLCD11Aを制御する表示プロセッサである。LCD11Aは、GPU104によって生成される表示信号に基づいて画面イメージを表示する。このLCD11Aの上面側にはタッチパネル11Bが配置され、下面側にはデジタイザ11Cが配置されている。指が接触されるLCD11Aの画面上の接触位置や接触位置の動きなどはタッチパネル11Bによって検出される。また、ペン(スタイラス)が接触されるLCD11Aの画面上の接触位置や接触位置の動きなどはデジタイザ11Cによって検出される。
無線通信デバイス107は、無線通信を実行するように構成されたデバイスである。EC108は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。EC108は、電源スイッチの操作に応じて信号処理装置10を電源オンまたは電源オフする機能を有している。また、EC108は、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付けるキーボードコントローラを含む。
図4は、以上のようなハードウェア構成を持つ信号処理装置10上で動作する音声レコーダ・アプリケーションプログラム220の機能ブロックの一例を示す図である。
図4に示すように、音声レコーダ・アプリケーションプログラム220は、音源分離部221、話者推定部222、ユーザインタフェース部223などを有する。なお、ここでは、音声レコーダ・アプリケーションプログラム220が、CPU101により不揮発性メモリ106から主メモリ103にロードされて実行されることを想定している。換言すれば、音源分離部221、話者推定部222およびユーザインタフェース部223の各処理部は、プログラムがプロセッサにより実行されることにより実現されることを想定している。図3においては、1つのCPU101のみ示したが、各処理部は、複数のプロセッサにより実現されてもよい。また、各処理部は、プログラムがプロセッサにより実行されることにより実現されることに限定されず、たとえば、専用の電子回路により実現されるものであってもよい。
図4に示すように、音声レコーダ・アプリケーションプログラム220は、音源分離部221、話者推定部222、ユーザインタフェース部223などを有する。なお、ここでは、音声レコーダ・アプリケーションプログラム220が、CPU101により不揮発性メモリ106から主メモリ103にロードされて実行されることを想定している。換言すれば、音源分離部221、話者推定部222およびユーザインタフェース部223の各処理部は、プログラムがプロセッサにより実行されることにより実現されることを想定している。図3においては、1つのCPU101のみ示したが、各処理部は、複数のプロセッサにより実現されてもよい。また、各処理部は、プログラムがプロセッサにより実行されることにより実現されることに限定されず、たとえば、専用の電子回路により実現されるものであってもよい。
いま、話者1(b1)、話者2(b2)および話者3(b3)の3者の間で交わされる会話の音声が、音声入力機器12により収集されているシーンを想定する。
前述したように、音声入力機器12は、複数のマイクを有している。音源分離部221は、これら複数のマイクから複数の音声信号を入力し、これら複数の音声信号を分離して複数の分離信号を出力する。より詳細には、音源分離部221は、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)である分離行列を当該複数の音声信号から推定し、その分離行列を当該複数の音声信号に乗算することにより複数の分離信号を得る。分離行列の推定は、複数の音声信号の入力状況に基づき適応的に行われる。つまり、分離行列は、複数の音声信号の入力状況に基づき逐次更新されていく。また、音源分離部221は、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に推定された分離行列を保持する機能を有している。なお、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)は分離行列に限定されない。つまり、分離行列を用いずに複数の音声信号にFIRフィルタ(Finite impulse response, FIR)を適用し音源ごとの信号を強調(に分離)する手法も適用し得る。
前述したように、音声入力機器12は、複数のマイクを有している。音源分離部221は、これら複数のマイクから複数の音声信号を入力し、これら複数の音声信号を分離して複数の分離信号を出力する。より詳細には、音源分離部221は、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)である分離行列を当該複数の音声信号から推定し、その分離行列を当該複数の音声信号に乗算することにより複数の分離信号を得る。分離行列の推定は、複数の音声信号の入力状況に基づき適応的に行われる。つまり、分離行列は、複数の音声信号の入力状況に基づき逐次更新されていく。また、音源分離部221は、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に推定された分離行列を保持する機能を有している。なお、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)は分離行列に限定されない。つまり、分離行列を用いずに複数の音声信号にFIRフィルタ(Finite impulse response, FIR)を適用し音源ごとの信号を強調(に分離)する手法も適用し得る。
話者推定部222は、音源分離部221が出力する複数の分離信号それぞれの到来方位を推定する。より詳細には、話者推定部222は、音源分離部221により推定された分離行列を用いて複数の分離信号それぞれの方位特性分布を計算し、その方位特性分布から複数の分離信号それぞれの到来方位を推定する。方位特性は、ある角度から到来したという確信度(尤度)であり、方位特性分布は、方位特性を広範囲の角度について求めることで得られる分布である。話者推定部222は、この推定結果に基づき、話者(音源)数と、各話者の方位とを得ることができ、また、分離信号と話者との対応づけを行うことができる。
図5は、話者推定部222により計算される分離信号の方位特性分布の一例を示す図である。
図5には、分離信号1〜4の方位特性分布が示されている。分離信号2,4は、あらかじめ定められた基準値以上の確信度の方位特性を含まないため、話者推定部222は、雑音と判断する。分離信号1は、45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の値であるため、話者推定部222は、45°の角度から到来したと判断する。分離信号3は、−45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の確信度であるため、話者推定部222は、−45°の角度から到来したと判断する。換言すると、分離信号1,3は、あらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号である。この話者推定部222による推定の結果、話者ごとの音声信号(分離信号)が、音声データ300として不揮発性メモリ300に格納される。
図5には、分離信号1〜4の方位特性分布が示されている。分離信号2,4は、あらかじめ定められた基準値以上の確信度の方位特性を含まないため、話者推定部222は、雑音と判断する。分離信号1は、45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の値であるため、話者推定部222は、45°の角度から到来したと判断する。分離信号3は、−45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の確信度であるため、話者推定部222は、−45°の角度から到来したと判断する。換言すると、分離信号1,3は、あらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号である。この話者推定部222による推定の結果、話者ごとの音声信号(分離信号)が、音声データ300として不揮発性メモリ300に格納される。
ユーザインタフェース部223は、タッチスクリーンディスプレイ11を介してユーザに情報を出力し、また、タッチスクリーンディスプレイ11を介してユーザから情報を入力する入出力処理を実行する。なお、ユーザインタフェース部223は、たとえば、キーボード、ポインティングデバイス、操作ボタンなどを介してユーザから情報を入力することもでき、入力情報には音声の収集対象である話者数が含まれる。
ところで、音源分離部221は、前述したように、複数の音声信号を音源ごとの信号に分離するための分離行列を逐次更新していく。これに伴い、話者推定部222による分離信号と話者との対応づけも変化し得る。より詳細には、話者推定部222が分離行列を用いて推定する話者数、つまり、音源分離部221が出力する複数の分離信号のうち、話者推定部222により話者との対応づけが行われる分離信号の数が変化し得る。ここで、図6を参照して、分離行列を逐次更新していくことにより生じ得る事象の一例について説明する。
たとえば、音声の収集、つまり録音が開始された時点(e1)においては、話者1、話者2、話者3の3者が発言していたが、ある時点(e2)から、話者1、話者3の2者のみが発言する時間がしばらく続いたものと想定する。つまり、話者2の発言がしばらく途絶えたものと想定する。なお、録音が開始された時点に限らず、話者推定部222が推定した話者数が3者となった時点をe1と設定しても良い。
話者1、話者3の2者のみが発言する状況が続くと、分離行列は、話者1、話者2、話者3の3者の音声を分離するのに適したものから、話者1、話者3の2者の音声を分離するのに適したものへと更新されていく。したがって、このような状況が続いた後のある時点(e3)で、話者2の発言が行われた場合、たとえばその発言冒頭の音声が話者2の音声として分離・収集されないおそれがある。
そこで、この信号処理装置10は、第1に、音声の収集状況を視覚的に確認することができるようにしたものであり、第2に、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができるようにしたものであり、以下、この点について詳述する。なお、ユーザが、音源分離部221の分離行列を意識する必要はなく、分離行列を復帰させるとは、音声レコーダ・アプリケーションプログラム220の動作環境設定の最適化またはリセットを図るといった認識でよい。
図7は、音声レコーダ・アプリケーションプログラム220の起動時、ユーザインタフェース部223がタッチスクリーンディスプレイ11に表示する初期画面の一例を示す図である。
図7中、符号c1は、音声の収集、つまり録音を開始するための録音ボタンである。録音ボタンc1が操作されると、ユーザインタフェース部223は、処理の開始を音源分離部221および話者推定部222に通知する。これにより、音声レコーダ・アプリケーションプログラム220による録音が開始される。タッチスクリーンディスプレイ11上でのタッチ操作が録音ボタンc1の表示領域に対応するものである場合、OS210から音声レコーダ・アプリケーションプログラム220、より詳細には、ユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1が操作されたことを認識することができる。なお、録音ボタンc1の表示領域上に置かれた指などがタッチスクリーンディスプレイ11から離れた場合も、OS210からユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1の操作が解除されたことを認識することができる。録音ボタンc1以外の他のボタンについても同様である。
図7中、符号c1は、音声の収集、つまり録音を開始するための録音ボタンである。録音ボタンc1が操作されると、ユーザインタフェース部223は、処理の開始を音源分離部221および話者推定部222に通知する。これにより、音声レコーダ・アプリケーションプログラム220による録音が開始される。タッチスクリーンディスプレイ11上でのタッチ操作が録音ボタンc1の表示領域に対応するものである場合、OS210から音声レコーダ・アプリケーションプログラム220、より詳細には、ユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1が操作されたことを認識することができる。なお、録音ボタンc1の表示領域上に置かれた指などがタッチスクリーンディスプレイ11から離れた場合も、OS210からユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1の操作が解除されたことを認識することができる。録音ボタンc1以外の他のボタンについても同様である。
一方、図8は、録音が開始された後、ユーザインタフェース部223がタッチスクリーンディスプレイ11に表示する録音中画面の一例を示す図である。
図8中、符号d1は、音声の収集、つまり録音を停止するための停止ボタンである。停止ボタンd1が操作されると、ユーザインタフェース部223は、処理の停止を音源分離部221および話者推定部222に通知する。
図8中、符号d1は、音声の収集、つまり録音を停止するための停止ボタンである。停止ボタンd1が操作されると、ユーザインタフェース部223は、処理の停止を音源分離部221および話者推定部222に通知する。
また、図8中、符号d2は、音声の収集状況を示すオブジェクトである。このオブジェクトd2は、操作ボタンの役割も兼ねている。話者推定部222は、話者との対応づけを行っている分離信号の数、つまり推定する話者数をユーザインタフェース部223に通知する。たとえば、図6の符号e1で示される時点で通知される数は3である。ユーザインタフェース部223は、話者推定部222から通知される数が一致している間、つまり3である間、音声の収集対象として話者1、話者2、話者3の全員がカバーされている状況であることをオブジェクトd2で示す。より詳細には、すべての話者が音声の収集対象となっている状況であることを表す図柄のオブジェクトd2を表示する。
たとえば、図6の符号e2で示される時点から、話者1、話者3の2者のみが発言する時間がしばらく続き、音源分離部221による分離行列の更新の結果、話者推定部222が推定する話者数が2に変化したとする。ユーザインタフェース部223は、話者推定部222から通知される数が不一致となった場合、いずれかの話者が音声の収集対象から外れている状況であることをオブジェクトd2で示す。つまり、オブジェクトd2を、いずれかの話者が音声の収集対象から外れている状況であることを表す図柄に変更する。
図9は、ユーザインタフェース部223が録音中画面上に表示するオブジェクトの一例を示す図である。
図9中、(A)は、すべての話者が音声の収集対象となっている状況であることを表すオブジェクトの一例を示し、(B)は、いずれかの話者が音声の収集対象から外れている状況であることを表すオブジェクトの一例を示している。
図9中、(A)は、すべての話者が音声の収集対象となっている状況であることを表すオブジェクトの一例を示し、(B)は、いずれかの話者が音声の収集対象から外れている状況であることを表すオブジェクトの一例を示している。
図7に示す初期画面上の録音ボタンc1を操作して録音を開始した後、図8に示す録音中画面上のオブジェクトd2により、ユーザは、音声の収集状況を視覚的に確認することができる。つまり、図8に示す録音中画面上のオブジェクトd2が、図9(A)のオブジェクトから図9(B)のオブジェクトに移行した場合、ユーザは、いずれかの話者が音声の収集対象から外れたことを認識することができる。
また、前述したように、オブジェクトd2は、操作ボタンの役割も兼ねている。たとえば、オブジェクトd2により、いずれかの話者が音声の収集対象から外れたことを認識したユーザは、このオブジェクトd2を操作する。より詳細には、オブジェクトd2の表示領域を対象とした、タッチスクリーンディスプレイ11上でのタッチ操作を行う。
オブジェクトd2が操作されると、ユーザインタフェース部223は、音源分離部221に対して、分離行列を、音源分離部22が保持する、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に推定された分離行列に復帰させる要求を通知する。
これにより、発言がしばらく途絶えた結果、音声の収集対象から外れた話者を、音声の収集対象に復帰させることができ、その話者が発言を行った際、たとえばその発言冒頭の音声からその話者の音声として分離・収集することが可能となる。
図10は、この信号処理装置10の音声の収集状況の提示に関する処理の流れの一例を示すフローチャートである。
図10は、この信号処理装置10の音声の収集状況の提示に関する処理の流れの一例を示すフローチャートである。
信号処理装置10は、音声の収集対象となっている話者数を取得し(ステップA1)、その数が、たとえば全員の音声が収集され易い録音開始直後などの所定の時点での話者数と一致しているか否かを調べる(ステップA2)。一致している場合(ステップA2;YES)、信号処理装置10は、すべての話者が音声の収集対象となっている状況であることをオブジェクトd2により提示する(ステップA3)。
一方、話者数が一致していない場合(ステップA2;NO)、信号処理装置10は、いずれかの話者が音声の収集対象から外れている状況であることをオブジェクトd2により提示する(ステップA4)。続いて、信号処理装置10は、オブジェクトd2の操作有無を調べ(ステップA5)、オブジェクトd2が操作された場合、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)である分離行列を、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に戻す(ステップA6)。
このように、この信号処理装置10においては、音声の収集状況を視覚的に確認することができ、また、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
つまり、信号処理装置10は、異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、分離音ごとの到来方向に基づいて、複数の分離音と複数の音声との対応状況を提示する提示部とを有する音声の対応づけ提示装置として機能する。また、信号処理装置10は、ユーザの指示を受け付ける受付部をさらに有し、生成部が、分離フィルタを用いて分離音を生成し、ユーザの指示に基づいて、分離フィルタを初期化する音声の対応づけ提示装置として機能する。 なお、録音中画面上で音声の収集状況を示すオブジェクトd2は、様々な形態を採用し得る。図11に、オブジェクトd2の形態のその他の例をいくつか示す。
つまり、信号処理装置10は、異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、分離音ごとの到来方向に基づいて、複数の分離音と複数の音声との対応状況を提示する提示部とを有する音声の対応づけ提示装置として機能する。また、信号処理装置10は、ユーザの指示を受け付ける受付部をさらに有し、生成部が、分離フィルタを用いて分離音を生成し、ユーザの指示に基づいて、分離フィルタを初期化する音声の対応づけ提示装置として機能する。 なお、録音中画面上で音声の収集状況を示すオブジェクトd2は、様々な形態を採用し得る。図11に、オブジェクトd2の形態のその他の例をいくつか示す。
図11の(A)は、音源分離部221が出力する複数の分離信号のうち、話者推定部222により話者との対応づけが行われている分離信号の数を示すオブジェクトd2の例である。たとえば図6に示したような3者の会話での音声収集時、オブジェクトd2が示す数が3であれば、ユーザは、すべての話者が音声の収集対象となっていることを確認することができ、オブジェクトd2が示す数が3から2に変更されていれば、ユーザは、いずれかの話者が音声の収集対象から外れていることを確認することができる。いずれかの話者が音声の収集対象から外れていることを確認したユーザは、オブジェクトd2を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
また、図11の(B)は、音源分離部221が出力する複数の分離信号のうち、話者推定部222により話者との対応づけが行われている分離信号の数を示すことに加えて、各分離信号の到来方位の推定の確信度を示すオブジェクトd2の例である。この場合、話者推定部222は、各分離信号の方位特性(方位特性分布中の最大値)もユーザインタフェース部223に通知する。前述したように、方位特性は、ある角度から到来したという確信度であるので、ユーザインタフェース部223は、話者との対応づけが行われている分離信号の数分、その確信度を線分の長さで表した棒グラフ状の図柄のオブジェクトd2を表示する。このオブジェクトd2によれば、ユーザは、いずれかの話者(ここでは、話者2)が音声の収集対象から外れそうになっていることを確認することができ、その話者が音声の収集対象から外れる前に、オブジェクトd2を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
また、図11の(C)も、音源分離部221が出力する複数の分離信号のうち、話者推定部222により話者との対応づけが行われている分離信号の数を示すことに加えて、各分離信号の到来方位の推定の確信度を示すオブジェクトd2の例である。
ユーザインタフェース部223は、話者との対応づけが行われている分離信号の数分、その方位を針で指し示し、かつ、その確信度を針の長さで表したチャート状の図柄のオブジェクトd2を表示する。このオブジェクトd2によれば、さらに、どの話者が音声の収集対象から外れそうになっているかを針の向きおよび長さで確認することができ、その話者が音声の収集対象から外れる前に、オブジェクトd2を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
ユーザインタフェース部223は、話者との対応づけが行われている分離信号の数分、その方位を針で指し示し、かつ、その確信度を針の長さで表したチャート状の図柄のオブジェクトd2を表示する。このオブジェクトd2によれば、さらに、どの話者が音声の収集対象から外れそうになっているかを針の向きおよび長さで確認することができ、その話者が音声の収集対象から外れる前に、オブジェクトd2を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
以上説明したように、この信号処理装置10によれば、音声の収集状況を視覚的に確認することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…信号処理装置、11…タッチスクリーンディスプレイ、11A…LCD、11B…タッチパネル、11C…デジタイザ、12…音声入力機器、101…CPU、102…システムコントローラ、103…主メモリ、104…GPU、105…BIOS−ROM、106…不揮発性メモリ、107…無線通信デバイス、108…EC、210…OS、220…音声レコーダ・アプリケーションプログラム、221…音源分離部、222…話者推定部、223…ユーザインタフェース部、300…音声データ。
Claims (10)
- 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記分離手段は、前記複数の信号から前記分離フィルタを推定して逐次更新し、
前記ユーザインタフェース手段は、前記分離フィルタを第1の時点の分離フィルタに復帰させる指示を受け付ける、
信号処理装置。 - 前記ユーザインタフェース手段は、前記第1の時点において到来方位との対応づけがなされていた分離信号の数と、現時点において到来方位との対応づけがなされている分離信号の数とが一致しているか否かを示すオブジェクトを表示する、
請求項1に記載の信号処理装置。 - 前記ユーザインタフェース手段は、前記信号の発信源との対応づけがなされている分離信号の数を示すオブジェクトを表示する請求項1に記載の信号処理装置。
- 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記ユーザインタフェース手段は、到来方位との対応づけがなされている分離信号ごとにその分離信号について推定された到来方位の尤度を示すオブジェクトを表示する、
信号処理装置。 - 前記オブジェクトは、前記尤度を線分の長さで表す棒グラフ状に示す請求項4に記載の信号処理装置。
- 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記ユーザインタフェース手段は、到来方位との対応づけがなされている分離信号ごとにその方位を示すオブジェクトを表示する、
信号処理装置。 - 前記オブジェクトは、さらに、到来方位との対応づけがなされている分離信号ごとにその分離信号について推定された到来方位の尤度を示す請求項5に記載の信号処理装置。
- 前記オブジェクトは、前記方位を針で指し示し、前記尤度を前記針の長さで表すチャート状に示す請求項7に記載の信号処理装置。
- 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力することと、
前記複数の分離信号それぞれの到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行うことと、
前記複数の分離信号と到来方位との対応づけの状況を提示することと、
前記複数の信号から前記分離フィルタを推定して逐次更新することと、
前記分離フィルタを第1の時点の分離フィルタに復帰させる指示を受け付けることと、
を具備する信号処理方法。 - 異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、
前記分離音ごとの到来方向に基づいて、前記複数の分離音と前記複数の音声との対応状況を提示する提示部と、
ユーザの指示を受け付ける受付部と、
を有し、
前記生成部は、分離フィルタを用いて前記分離音を生成し、前記ユーザの指示に基づいて、前記分離フィルタを初期化する、
音声の対応づけ提示装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017054967A JP6472824B2 (ja) | 2017-03-21 | 2017-03-21 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
CN201710767671.4A CN108630206B (zh) | 2017-03-21 | 2017-08-31 | 信号处理装置以及信号处理方法 |
US15/702,192 US10460733B2 (en) | 2017-03-21 | 2017-09-12 | Signal processing apparatus, signal processing method and audio association presentation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017054967A JP6472824B2 (ja) | 2017-03-21 | 2017-03-21 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018156050A JP2018156050A (ja) | 2018-10-04 |
JP6472824B2 true JP6472824B2 (ja) | 2019-02-20 |
Family
ID=63582861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017054967A Active JP6472824B2 (ja) | 2017-03-21 | 2017-03-21 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10460733B2 (ja) |
JP (1) | JP6472824B2 (ja) |
CN (1) | CN108630206B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN110111808B (zh) * | 2019-04-30 | 2021-06-15 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60203379T2 (de) * | 2001-01-30 | 2006-01-26 | Thomson Licensing S.A., Boulogne | Signalverarbeitungstechnik zur geometrischen quellentrennung |
CN100392723C (zh) * | 2002-12-11 | 2008-06-04 | 索夫塔马克斯公司 | 在稳定性约束下使用独立分量分析的语音处理系统和方法 |
KR100486736B1 (ko) * | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
EP1755111B1 (en) * | 2004-02-20 | 2008-04-30 | Sony Corporation | Method and device for detecting pitch |
JP4675177B2 (ja) * | 2005-07-26 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP2007329702A (ja) * | 2006-06-08 | 2007-12-20 | Toyota Motor Corp | 受音装置と音声認識装置とそれらを搭載している可動体 |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP5534413B2 (ja) * | 2010-02-12 | 2014-07-02 | Necカシオモバイルコミュニケーションズ株式会社 | 情報処理装置及びプログラム |
US9456289B2 (en) * | 2010-11-19 | 2016-09-27 | Nokia Technologies Oy | Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
US9411733B2 (en) * | 2011-09-09 | 2016-08-09 | University Of Rochester | Sharing pattern-based directory coherence for multicore scalability (“SPACE”) |
US9099096B2 (en) * | 2012-05-04 | 2015-08-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis with moving constraint |
US9736604B2 (en) * | 2012-05-11 | 2017-08-15 | Qualcomm Incorporated | Audio user interaction recognition and context refinement |
JP6005443B2 (ja) | 2012-08-23 | 2016-10-12 | 株式会社東芝 | 信号処理装置、方法及びプログラム |
US9460732B2 (en) * | 2013-02-13 | 2016-10-04 | Analog Devices, Inc. | Signal source separation |
JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
EP2942982A1 (en) * | 2014-05-05 | 2015-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering |
JP6501260B2 (ja) * | 2015-08-20 | 2019-04-17 | 本田技研工業株式会社 | 音響処理装置及び音響処理方法 |
-
2017
- 2017-03-21 JP JP2017054967A patent/JP6472824B2/ja active Active
- 2017-08-31 CN CN201710767671.4A patent/CN108630206B/zh active Active
- 2017-09-12 US US15/702,192 patent/US10460733B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108630206B (zh) | 2022-01-04 |
US20180277120A1 (en) | 2018-09-27 |
CN108630206A (zh) | 2018-10-09 |
JP2018156050A (ja) | 2018-10-04 |
US10460733B2 (en) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2911149B1 (en) | Determination of an operational directive based at least in part on a spatial audio property | |
US9472201B1 (en) | Speaker localization by means of tactile input | |
KR102090750B1 (ko) | 지문 인식을 위한 전자 장치 및 방법 | |
US9104272B2 (en) | Finger-on display detection | |
EP3001414A1 (en) | Method and apparatus for executing voice command in electronic device | |
US20160019886A1 (en) | Method and apparatus for recognizing whisper | |
JP5837955B2 (ja) | 電子装置の機能の実行方法及びその電子装置 | |
CN105103457A (zh) | 便携式终端、助听器以及在便携式终端中指示声源的位置的方法 | |
EP3540576A1 (en) | Apparatus and method for detecting an input to a terminal | |
CN106357871A (zh) | 一种扩音方法及移动终端 | |
JP2014241005A (ja) | 表示制御装置、表示制御方法、及び表示制御プログラム | |
WO2014131054A2 (en) | Dynamic audio perspective change during video playback | |
US20150199172A1 (en) | Non-audio notification of audible events | |
CN109144460B (zh) | 发声控制方法、装置、电子装置以及存储介质 | |
US9772815B1 (en) | Personalized operation of a mobile device using acoustic and non-acoustic information | |
JP6472824B2 (ja) | 信号処理装置、信号処理方法および音声の対応づけ提示装置 | |
EP2991289B1 (en) | Electronic device and method for sending messages using the same | |
US10353504B2 (en) | User interface for computing devices equipped with pressure-sensitive displays | |
JP6472823B2 (ja) | 信号処理装置、信号処理方法および属性付与装置 | |
CN107250970B (zh) | 移动设备和用于操作移动设备的方法 | |
CN109032008B (zh) | 发声控制方法、装置以及电子装置 | |
US9536526B2 (en) | Electronic device with speaker identification, method and storage medium | |
JP6088414B2 (ja) | 端末制御装置、端末制御方法及び端末制御プログラム | |
JP6447474B2 (ja) | 電子機器 | |
CN111562960A (zh) | 显示处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190123 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6472824 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |