JP6472824B2

JP6472824B2 - 信号処理装置、信号処理方法および音声の対応づけ提示装置

Info

Publication number: JP6472824B2
Application number: JP2017054967A
Authority: JP
Inventors: 誠広畑; 谷口　徹; 徹谷口; 増田　太郎; 太郎増田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2019-02-20
Anticipated expiration: 2037-03-21
Also published as: CN108630206B; US20180277120A1; CN108630206A; JP2018156050A; US10460733B2

Description

本発明の実施形態は、信号処理装置、信号処理方法および音声の対応づけ提示装置に関する。

近年、ＶｏＣ（Voice of customer）などと称される、顧客の声を収集・分析して業務改善などを図る活動が広く行われている。また、このような状況に伴い、様々な集音技術が提案されるに至っている。

特許第６００５４４３号公報

本発明が解決しようとする課題は、音声の収集状況を視覚的に確認することができる信号処理装置、信号処理方法および音声の対応づけ提示装置を提供することである。

実施形態によれば、信号処理装置は、分離手段と、推定手段と、ユーザインタフェース手段と、を具備する。前記分離手段は、異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する。前記推定手段は、前記複数の分離信号それぞれの到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う。前記ユーザインタフェース手段は、前記複数の分離信号と到来方位との対応づけの状況を提示する。前記分離手段は、前記複数の信号から前記分離フィルタを推定して逐次更新する。前記ユーザインタフェース手段は、前記分離フィルタを第１の時点の分離フィルタに復帰させる指示を受け付ける。

実施形態の信号処理装置の外観の一例を示す図。実施形態の信号処理装置の利用シーンの一例を示す図。実施形態の信号処理装置のハードウェア構成の一例を示す図。実施形態の音声レコーダ・アプリケーションプログラムの機能ブロックの一構成例を示す図。実施形態の音声レコーダ・アプリケーションプログラムにより計算される分離信号の方位特性分布の一例を示す図。複数の音声信号を音源ごとの信号に分離するための分離行列を逐次更新していくことにより生じ得る事象の一例を説明するための図。実施形態の音声レコーダ・アプリケーションプログラムが表示する初期画面の一例を示す図。実施形態の音声レコーダ・アプリケーションプログラムが表示する録音中画面の一例を示す図。実施形態の音声レコーダ・アプリケーションプログラムが録音中画面上に表示するオブジェクトの一例を示す図。実施形態の信号処理装置の音声の収集状況の提示に関する処理の流れの一例を示すフローチャート。実施形態の音声レコーダ・アプリケーションプログラムが録音中画面上に表示するオブジェクトの他の例をいくつか示す図。

以下、実施形態について図面を参照して説明する。
図１は、実施形態の信号処理装置の外観の一例を示す図である。
この信号処理装置１０は、たとえば、指またはペン（スタイラス）による表示画面上でのタッチ操作を受け付け可能な電子機器として実現される。たとえば、この信号処理装置１０は、タブレットコンピュータやスマートフォンなどとして実現され得る。なお、この信号処理装置１０は、表示画面上でのタッチ操作のみならず、たとえば、外部接続されるキーボードやポインティングデバイス、筐体周壁に設けられる操作ボタンなどの操作を受け付け可能である。ここでは、信号処理装置１０が、表示画面上でのタッチ操作を受け付け可能であることを想定するが、この信号処理装置１０において、表示画面上でのタッチ操作を受け付け可能であることは必須ではなく、たとえば、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付け可能であるのみであっても構わない。

図１に示すように、この信号処理装置１０は、タッチスクリーンディスプレイ１１を有する。この信号処理装置１０は、たとえばスレート状の筐体を有し、タッチスクリーンディスプレイ１１は、その筐体のたとえば上面に配置される。タッチスクリーンディスプレイ１１は、フラットパネルディスプレイと、センサとを有する。センサは、指またはペンが接触するフラットパネルディスプレイの画面上の位置を検出する。フラットパネルディスプレイは、たとえばＬＣＤ（Liquid crystal display）などである。センサは、たとえば静電容量方式のタッチパネルや電磁誘導方式のデジタイザなどである。ここでは、タッチスクリーンディスプレイ１１が、タッチパネルとデジタイザとの両方を有することを想定する。

また、この信号処理装置１０は、図１には示されない音声入力端子を有しており、音声入力端子を介して音声入力機器（マイクアレイ）１２を接続することができる。音声入力機器１２は、複数のマイクを有する。また、音声入力機器１２は、信号処理装置１０の筐体の一角に取り外し自在に装着可能な形状に形成されている。図１は、音声入力端子を介して信号処理装置１０に接続された音声入力機器１２が、信号処理装置１０の本体の一角に装着されている状態を示している。なお、音声入力機器１２は、この形に限らない。複数のマイクから信号処理装置１０が音声を取得できればよく、たとえば、通信を介して信号処理装置１０と接続されてもよい。

図２は、この信号処理装置１０の利用シーンの一例を示す図である。
この信号処理装置１０は、たとえば、ＶｏＣのための音声収集システムなどとして適用され得る。図２は、スタッフａ２と顧客ａ１との間で交わされる会話の音声を、信号処理装置１０に接続した音声入力機器１２により収集している様子を示している。収集された音声は、信号処理装置１０により話者（スタッフａ２，顧客ａ１）ごとに分離され、たとえば、スタッフａ２の音声は、接客マニュアルの改善に役立てるために利用され、顧客ａ１の音声は、顧客ニーズの把握に役立てるために利用される。収集された音声の話者ごとの分離については後述する。

図３は、この信号処理装置１０のハードウェア構成の一例を示す図である。
図３に示すように、この信号処理装置１０は、ＣＰＵ（Central processing unit）１０１、システムコントローラ１０２、主メモリ１０３、ＧＰＵ（Graphics processing unit）１０４、ＢＩＯＳ（Basic input/output system）−ＲＯＭ１０５、不揮発性メモリ１０６、無線通信デバイス１０７、ＥＣ（Embedded controller）１０８などを有する。

ＣＰＵ１０１は、信号処理装置１０内の様々なコンポーネントの動作を制御するプロセッサである。ＣＰＵ１０１は、不揮発性メモリ１０６から主メモリ１０３に様々なプログラムをロードして実行する。これらプログラムには、ＯＳ（Operating system）２１０や、音声レコーダ・アプリケーションプログラム２２０を含む様々なアプリケーションプログラムが含まれている。音声レコーダ・アプリケーションプログラム２２０については後述するが、音声レコーダ・アプリケーションプログラム２２０は、音声入力機器１２が収集した音声を話者ごとに分離し、音声データ３００として不揮発性メモリ１０６に格納する機能を有する。また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０５に格納されたＢＩＯＳも実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

システムコントローラ１０２は、ＣＰＵ１０１のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ１０２は、ＰＣＩｅ規格のシリアルバスなどを介してＧＰＵ１０４との通信を実行する機能も有している。さらに、システムコントローラ１０２は、前述した、音声入力端子を介して接続される音声入力機器１２から音声を入力する機能も有している。

ＧＰＵ１０４は、タッチスクリーンディスプレイ１１に組み込まれているＬＣＤ１１Ａを制御する表示プロセッサである。ＬＣＤ１１Ａは、ＧＰＵ１０４によって生成される表示信号に基づいて画面イメージを表示する。このＬＣＤ１１Ａの上面側にはタッチパネル１１Ｂが配置され、下面側にはデジタイザ１１Ｃが配置されている。指が接触されるＬＣＤ１１Ａの画面上の接触位置や接触位置の動きなどはタッチパネル１１Ｂによって検出される。また、ペン（スタイラス）が接触されるＬＣＤ１１Ａの画面上の接触位置や接触位置の動きなどはデジタイザ１１Ｃによって検出される。

無線通信デバイス１０７は、無線通信を実行するように構成されたデバイスである。ＥＣ１０８は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。ＥＣ１０８は、電源スイッチの操作に応じて信号処理装置１０を電源オンまたは電源オフする機能を有している。また、ＥＣ１０８は、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付けるキーボードコントローラを含む。

図４は、以上のようなハードウェア構成を持つ信号処理装置１０上で動作する音声レコーダ・アプリケーションプログラム２２０の機能ブロックの一例を示す図である。
図４に示すように、音声レコーダ・アプリケーションプログラム２２０は、音源分離部２２１、話者推定部２２２、ユーザインタフェース部２２３などを有する。なお、ここでは、音声レコーダ・アプリケーションプログラム２２０が、ＣＰＵ１０１により不揮発性メモリ１０６から主メモリ１０３にロードされて実行されることを想定している。換言すれば、音源分離部２２１、話者推定部２２２およびユーザインタフェース部２２３の各処理部は、プログラムがプロセッサにより実行されることにより実現されることを想定している。図３においては、１つのＣＰＵ１０１のみ示したが、各処理部は、複数のプロセッサにより実現されてもよい。また、各処理部は、プログラムがプロセッサにより実行されることにより実現されることに限定されず、たとえば、専用の電子回路により実現されるものであってもよい。

いま、話者１（ｂ１）、話者２（ｂ２）および話者３（ｂ３）の３者の間で交わされる会話の音声が、音声入力機器１２により収集されているシーンを想定する。
前述したように、音声入力機器１２は、複数のマイクを有している。音源分離部２２１は、これら複数のマイクから複数の音声信号を入力し、これら複数の音声信号を分離して複数の分離信号を出力する。より詳細には、音源分離部２２１は、複数の音声信号を音源ごとの信号に分離するためのフィルタ（分離フィルタ）である分離行列を当該複数の音声信号から推定し、その分離行列を当該複数の音声信号に乗算することにより複数の分離信号を得る。分離行列の推定は、複数の音声信号の入力状況に基づき適応的に行われる。つまり、分離行列は、複数の音声信号の入力状況に基づき逐次更新されていく。また、音源分離部２２１は、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に推定された分離行列を保持する機能を有している。なお、複数の音声信号を音源ごとの信号に分離するためのフィルタ（分離フィルタ）は分離行列に限定されない。つまり、分離行列を用いずに複数の音声信号にＦＩＲフィルタ（Finite impulse response, FIR）を適用し音源ごとの信号を強調（に分離）する手法も適用し得る。

話者推定部２２２は、音源分離部２２１が出力する複数の分離信号それぞれの到来方位を推定する。より詳細には、話者推定部２２２は、音源分離部２２１により推定された分離行列を用いて複数の分離信号それぞれの方位特性分布を計算し、その方位特性分布から複数の分離信号それぞれの到来方位を推定する。方位特性は、ある角度から到来したという確信度（尤度）であり、方位特性分布は、方位特性を広範囲の角度について求めることで得られる分布である。話者推定部２２２は、この推定結果に基づき、話者（音源）数と、各話者の方位とを得ることができ、また、分離信号と話者との対応づけを行うことができる。

図５は、話者推定部２２２により計算される分離信号の方位特性分布の一例を示す図である。
図５には、分離信号１〜４の方位特性分布が示されている。分離信号２，４は、あらかじめ定められた基準値以上の確信度の方位特性を含まないため、話者推定部２２２は、雑音と判断する。分離信号１は、４５°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の値であるため、話者推定部２２２は、４５°の角度から到来したと判断する。分離信号３は、−４５°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の確信度であるため、話者推定部２２２は、−４５°の角度から到来したと判断する。換言すると、分離信号１，３は、あらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号である。この話者推定部２２２による推定の結果、話者ごとの音声信号（分離信号）が、音声データ３００として不揮発性メモリ３００に格納される。

ユーザインタフェース部２２３は、タッチスクリーンディスプレイ１１を介してユーザに情報を出力し、また、タッチスクリーンディスプレイ１１を介してユーザから情報を入力する入出力処理を実行する。なお、ユーザインタフェース部２２３は、たとえば、キーボード、ポインティングデバイス、操作ボタンなどを介してユーザから情報を入力することもでき、入力情報には音声の収集対象である話者数が含まれる。

ところで、音源分離部２２１は、前述したように、複数の音声信号を音源ごとの信号に分離するための分離行列を逐次更新していく。これに伴い、話者推定部２２２による分離信号と話者との対応づけも変化し得る。より詳細には、話者推定部２２２が分離行列を用いて推定する話者数、つまり、音源分離部２２１が出力する複数の分離信号のうち、話者推定部２２２により話者との対応づけが行われる分離信号の数が変化し得る。ここで、図６を参照して、分離行列を逐次更新していくことにより生じ得る事象の一例について説明する。

たとえば、音声の収集、つまり録音が開始された時点（ｅ１）においては、話者１、話者２、話者３の３者が発言していたが、ある時点（ｅ２）から、話者１、話者３の２者のみが発言する時間がしばらく続いたものと想定する。つまり、話者２の発言がしばらく途絶えたものと想定する。なお、録音が開始された時点に限らず、話者推定部２２２が推定した話者数が３者となった時点をｅ１と設定しても良い。

話者１、話者３の２者のみが発言する状況が続くと、分離行列は、話者１、話者２、話者３の３者の音声を分離するのに適したものから、話者１、話者３の２者の音声を分離するのに適したものへと更新されていく。したがって、このような状況が続いた後のある時点（ｅ３）で、話者２の発言が行われた場合、たとえばその発言冒頭の音声が話者２の音声として分離・収集されないおそれがある。

そこで、この信号処理装置１０は、第１に、音声の収集状況を視覚的に確認することができるようにしたものであり、第２に、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができるようにしたものであり、以下、この点について詳述する。なお、ユーザが、音源分離部２２１の分離行列を意識する必要はなく、分離行列を復帰させるとは、音声レコーダ・アプリケーションプログラム２２０の動作環境設定の最適化またはリセットを図るといった認識でよい。

図７は、音声レコーダ・アプリケーションプログラム２２０の起動時、ユーザインタフェース部２２３がタッチスクリーンディスプレイ１１に表示する初期画面の一例を示す図である。
図７中、符号ｃ１は、音声の収集、つまり録音を開始するための録音ボタンである。録音ボタンｃ１が操作されると、ユーザインタフェース部２２３は、処理の開始を音源分離部２２１および話者推定部２２２に通知する。これにより、音声レコーダ・アプリケーションプログラム２２０による録音が開始される。タッチスクリーンディスプレイ１１上でのタッチ操作が録音ボタンｃ１の表示領域に対応するものである場合、ＯＳ２１０から音声レコーダ・アプリケーションプログラム２２０、より詳細には、ユーザインタフェース部２２３への通知が行われるので、ユーザインタフェース部２２３は、録音ボタンｃ１が操作されたことを認識することができる。なお、録音ボタンｃ１の表示領域上に置かれた指などがタッチスクリーンディスプレイ１１から離れた場合も、ＯＳ２１０からユーザインタフェース部２２３への通知が行われるので、ユーザインタフェース部２２３は、録音ボタンｃ１の操作が解除されたことを認識することができる。録音ボタンｃ１以外の他のボタンについても同様である。

一方、図８は、録音が開始された後、ユーザインタフェース部２２３がタッチスクリーンディスプレイ１１に表示する録音中画面の一例を示す図である。
図８中、符号ｄ１は、音声の収集、つまり録音を停止するための停止ボタンである。停止ボタンｄ１が操作されると、ユーザインタフェース部２２３は、処理の停止を音源分離部２２１および話者推定部２２２に通知する。

また、図８中、符号ｄ２は、音声の収集状況を示すオブジェクトである。このオブジェクトｄ２は、操作ボタンの役割も兼ねている。話者推定部２２２は、話者との対応づけを行っている分離信号の数、つまり推定する話者数をユーザインタフェース部２２３に通知する。たとえば、図６の符号ｅ１で示される時点で通知される数は３である。ユーザインタフェース部２２３は、話者推定部２２２から通知される数が一致している間、つまり３である間、音声の収集対象として話者１、話者２、話者３の全員がカバーされている状況であることをオブジェクトｄ２で示す。より詳細には、すべての話者が音声の収集対象となっている状況であることを表す図柄のオブジェクトｄ２を表示する。

たとえば、図６の符号ｅ２で示される時点から、話者１、話者３の２者のみが発言する時間がしばらく続き、音源分離部２２１による分離行列の更新の結果、話者推定部２２２が推定する話者数が２に変化したとする。ユーザインタフェース部２２３は、話者推定部２２２から通知される数が不一致となった場合、いずれかの話者が音声の収集対象から外れている状況であることをオブジェクトｄ２で示す。つまり、オブジェクトｄ２を、いずれかの話者が音声の収集対象から外れている状況であることを表す図柄に変更する。

図９は、ユーザインタフェース部２２３が録音中画面上に表示するオブジェクトの一例を示す図である。
図９中、（Ａ）は、すべての話者が音声の収集対象となっている状況であることを表すオブジェクトの一例を示し、（Ｂ）は、いずれかの話者が音声の収集対象から外れている状況であることを表すオブジェクトの一例を示している。

図７に示す初期画面上の録音ボタンｃ１を操作して録音を開始した後、図８に示す録音中画面上のオブジェクトｄ２により、ユーザは、音声の収集状況を視覚的に確認することができる。つまり、図８に示す録音中画面上のオブジェクトｄ２が、図９（Ａ）のオブジェクトから図９（Ｂ）のオブジェクトに移行した場合、ユーザは、いずれかの話者が音声の収集対象から外れたことを認識することができる。

また、前述したように、オブジェクトｄ２は、操作ボタンの役割も兼ねている。たとえば、オブジェクトｄ２により、いずれかの話者が音声の収集対象から外れたことを認識したユーザは、このオブジェクトｄ２を操作する。より詳細には、オブジェクトｄ２の表示領域を対象とした、タッチスクリーンディスプレイ１１上でのタッチ操作を行う。

オブジェクトｄ２が操作されると、ユーザインタフェース部２２３は、音源分離部２２１に対して、分離行列を、音源分離部２２が保持する、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に推定された分離行列に復帰させる要求を通知する。

これにより、発言がしばらく途絶えた結果、音声の収集対象から外れた話者を、音声の収集対象に復帰させることができ、その話者が発言を行った際、たとえばその発言冒頭の音声からその話者の音声として分離・収集することが可能となる。
図１０は、この信号処理装置１０の音声の収集状況の提示に関する処理の流れの一例を示すフローチャートである。

信号処理装置１０は、音声の収集対象となっている話者数を取得し（ステップＡ１）、その数が、たとえば全員の音声が収集され易い録音開始直後などの所定の時点での話者数と一致しているか否かを調べる（ステップＡ２）。一致している場合（ステップＡ２；ＹＥＳ）、信号処理装置１０は、すべての話者が音声の収集対象となっている状況であることをオブジェクトｄ２により提示する（ステップＡ３）。

一方、話者数が一致していない場合（ステップＡ２；ＮＯ）、信号処理装置１０は、いずれかの話者が音声の収集対象から外れている状況であることをオブジェクトｄ２により提示する（ステップＡ４）。続いて、信号処理装置１０は、オブジェクトｄ２の操作有無を調べ（ステップＡ５）、オブジェクトｄ２が操作された場合、複数の音声信号を音源ごとの信号に分離するためのフィルタ（分離フィルタ）である分離行列を、たとえば全員の音声が収集され易い録音開始直後などの所定の時点に戻す（ステップＡ６）。

このように、この信号処理装置１０においては、音声の収集状況を視覚的に確認することができ、また、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。
つまり、信号処理装置１０は、異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、分離音ごとの到来方向に基づいて、複数の分離音と複数の音声との対応状況を提示する提示部とを有する音声の対応づけ提示装置として機能する。また、信号処理装置１０は、ユーザの指示を受け付ける受付部をさらに有し、生成部が、分離フィルタを用いて分離音を生成し、ユーザの指示に基づいて、分離フィルタを初期化する音声の対応づけ提示装置として機能する。なお、録音中画面上で音声の収集状況を示すオブジェクトｄ２は、様々な形態を採用し得る。図１１に、オブジェクトｄ２の形態のその他の例をいくつか示す。

図１１の（Ａ）は、音源分離部２２１が出力する複数の分離信号のうち、話者推定部２２２により話者との対応づけが行われている分離信号の数を示すオブジェクトｄ２の例である。たとえば図６に示したような３者の会話での音声収集時、オブジェクトｄ２が示す数が３であれば、ユーザは、すべての話者が音声の収集対象となっていることを確認することができ、オブジェクトｄ２が示す数が３から２に変更されていれば、ユーザは、いずれかの話者が音声の収集対象から外れていることを確認することができる。いずれかの話者が音声の収集対象から外れていることを確認したユーザは、オブジェクトｄ２を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。

また、図１１の（Ｂ）は、音源分離部２２１が出力する複数の分離信号のうち、話者推定部２２２により話者との対応づけが行われている分離信号の数を示すことに加えて、各分離信号の到来方位の推定の確信度を示すオブジェクトｄ２の例である。この場合、話者推定部２２２は、各分離信号の方位特性（方位特性分布中の最大値）もユーザインタフェース部２２３に通知する。前述したように、方位特性は、ある角度から到来したという確信度であるので、ユーザインタフェース部２２３は、話者との対応づけが行われている分離信号の数分、その確信度を線分の長さで表した棒グラフ状の図柄のオブジェクトｄ２を表示する。このオブジェクトｄ２によれば、ユーザは、いずれかの話者（ここでは、話者２）が音声の収集対象から外れそうになっていることを確認することができ、その話者が音声の収集対象から外れる前に、オブジェクトｄ２を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。

また、図１１の（Ｃ）も、音源分離部２２１が出力する複数の分離信号のうち、話者推定部２２２により話者との対応づけが行われている分離信号の数を示すことに加えて、各分離信号の到来方位の推定の確信度を示すオブジェクトｄ２の例である。
ユーザインタフェース部２２３は、話者との対応づけが行われている分離信号の数分、その方位を針で指し示し、かつ、その確信度を針の長さで表したチャート状の図柄のオブジェクトｄ２を表示する。このオブジェクトｄ２によれば、さらに、どの話者が音声の収集対象から外れそうになっているかを針の向きおよび長さで確認することができ、その話者が音声の収集対象から外れる前に、オブジェクトｄ２を操作することで、たとえば全員の音声が収集され易い録音開始直後などの所定の時点の状態に分離行列を復帰させることができる。

以上説明したように、この信号処理装置１０によれば、音声の収集状況を視覚的に確認することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…信号処理装置、１１…タッチスクリーンディスプレイ、１１Ａ…ＬＣＤ、１１Ｂ…タッチパネル、１１Ｃ…デジタイザ、１２…音声入力機器、１０１…ＣＰＵ、１０２…システムコントローラ、１０３…主メモリ、１０４…ＧＰＵ、１０５…ＢＩＯＳ−ＲＯＭ、１０６…不揮発性メモリ、１０７…無線通信デバイス、１０８…ＥＣ、２１０…ＯＳ、２２０…音声レコーダ・アプリケーションプログラム、２２１…音源分離部、２２２…話者推定部、２２３…ユーザインタフェース部、３００…音声データ。

Claims

異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記分離手段は、前記複数の信号から前記分離フィルタを推定して逐次更新し、
前記ユーザインタフェース手段は、前記分離フィルタを第１の時点の分離フィルタに復帰させる指示を受け付ける、
信号処理装置。
前記ユーザインタフェース手段は、前記第１の時点において到来方位との対応づけがなされていた分離信号の数と、現時点において到来方位との対応づけがなされている分離信号の数とが一致しているか否かを示すオブジェクトを表示する、
請求項１に記載の信号処理装置。
前記ユーザインタフェース手段は、前記信号の発信源との対応づけがなされている分離信号の数を示すオブジェクトを表示する請求項１に記載の信号処理装置。
異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記ユーザインタフェース手段は、到来方位との対応づけがなされている分離信号ごとにその分離信号について推定された到来方位の尤度を示すオブジェクトを表示する、
信号処理装置。
前記オブジェクトは、前記尤度を線分の長さで表す棒グラフ状に示す請求項４に記載の信号処理装置。
異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
前記複数の分離信号と到来方位との対応づけの状況を提示するユーザインタフェース手段と、
を具備し、
前記ユーザインタフェース手段は、到来方位との対応づけがなされている分離信号ごとにその方位を示すオブジェクトを表示する、
信号処理装置。
前記オブジェクトは、さらに、到来方位との対応づけがなされている分離信号ごとにその分離信号について推定された到来方位の尤度を示す請求項５に記載の信号処理装置。
前記オブジェクトは、前記方位を針で指し示し、前記尤度を前記針の長さで表すチャート状に示す請求項７に記載の信号処理装置。
異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力することと、
前記複数の分離信号それぞれの到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行うことと、
前記複数の分離信号と到来方位との対応づけの状況を提示することと、
前記複数の信号から前記分離フィルタを推定して逐次更新することと、
前記分離フィルタを第１の時点の分離フィルタに復帰させる指示を受け付けることと、
を具備する信号処理方法。
異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、
前記分離音ごとの到来方向に基づいて、前記複数の分離音と前記複数の音声との対応状況を提示する提示部と、
ユーザの指示を受け付ける受付部と、
を有し、
前記生成部は、分離フィルタを用いて前記分離音を生成し、前記ユーザの指示に基づいて、前記分離フィルタを初期化する、
音声の対応づけ提示装置。