[go: up one dir, main page]

JP2005181391A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2005181391A
JP2005181391A JP2003417967A JP2003417967A JP2005181391A JP 2005181391 A JP2005181391 A JP 2005181391A JP 2003417967 A JP2003417967 A JP 2003417967A JP 2003417967 A JP2003417967 A JP 2003417967A JP 2005181391 A JP2005181391 A JP 2005181391A
Authority
JP
Japan
Prior art keywords
data
microphone
voice
speaker
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003417967A
Other languages
English (en)
Inventor
Hideharu Fujiyama
英春 藤山
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003417967A priority Critical patent/JP2005181391A/ja
Publication of JP2005181391A publication Critical patent/JP2005181391A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声データに、その音声データに関連した情報を付加したデータを順次生成/記録し、付加された情報に応じた音声データを抽出可能とする音声処理装置および音声処理方法を提供する。
【解決手段】A/D変換器421は、マイクロフォン41が集音した信号をディジタル信号(音声データ)に変換し、音声認識処理部422は、音声データを認識処理し認識可能な音声データのみを抽出し、声紋照合処理部424は、抽出された音声データに基づいて声紋照合処理を行い、予め登録された声紋データに合致する発話者を特定する。データ入力部426は、付加データDATAを入力し、メタデータ作成部427は、特定された発話者と付加データDATAに基づいてメタデータを作成する。フレームデータ生成部428は、音声データと当該音声データに対応するメタデータを合成してフレームデータを生成する。
【選択図】図24


Description

本発明は、マイクロフォンが集音した音声データをディジタル処理する音声処理装置および音声処理方法に関するものである。
従来より、たとえば会議の内容を映像データや音声データとして記録し、会議の後に記録した映像データや音声データを再生することにより、会議の議事録を作成したり、特定の情報のみを抽出し、抽出した情報を整理したりすることが行われている。
たとえば、会議の議題に関心のある人間が必ずしもその会議に出席する限らないので、その会議の議題の関係者に配付するために、その会議の議事録を作成する目的や、会議に複数の議題が含まれている場合に、注目する議題の情報のみを会議の後に抽出する目的等のために、会議におけるすべての記録情報の中から、所望の情報を抽出することが必要となる。
ところで、このような会議を記録するための音声処理装置としての音声記録装置(音声のみを記録)や、映像記録装置(通常は、音声および映像を記録)は従来から知られている。特に、映像記録装置については、映像情報に付加情報を重畳して記録することにより、すべての映像情報の中から一部の映像情報を抽出するための様々なデータ処理手法が知られており、上述したような所望の情報を抽出することが可能である。
しかしながら、従来の音声記録装置については、音声データに関連した情報を音声データに付加してから処理することができないので、映像記録装置のように所望の情報を抽出することができない。たとえば、記録した会議の音声データから同じ発話者の発言のみを再生したい場合でも、従来の音声記録装置では、特定の発話者の音声データのみを抽出できる形で音声データを記録していないので、実現することができない。
特に、会議の記録を行う等の用途の場合には、むしろ映像情報よりも音声情報の方が重要であり、誰が発話したか等の音声情報の観点から記録した情報を検索・抽出できるようにすることが要望される。
本発明はかかる事情に鑑みてなされたものであり、その目的は、音声データに、その音声データに関連した情報を付加したデータを順次生成/記録し、付加された情報に応じた音声データを抽出可能とする音声処理装置および音声処理方法を提供することにある。
上記目的を達成するための本発明の第1の観点は、マイクロフォンと、前記マイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出する音声認識処理手段と、前記音声認識処理手段が抽出する前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、前記マイクロフォンが前記第1の音声データを集音した時刻を計時する計時手段と、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、前記メタデータ生成手段が生成したメタデータと前記第1の音声データとを合成し、フレームデータを生成するフレームデータ生成手段とを具備する音声処理装置である。
好適には、前記第1の音声データに関連する情報を入力する情報入力手段をさらに有し、前記メタデータ生成手段は、前記情報入力手段が入力する情報を含むメタデータを生成する。
上記目的を達成するための本発明の第2の観点は、指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段により選択されたマイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出する音声認識処理手段と、前記音声認識処理手段が抽出する前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、前記マイクロフォンが前記第1の音声データを集音した時刻を計時する計時手段と、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、前記メタデータ生成手段が生成したメタデータと前記第1の音声データとを合成し、フレームデータを生成するフレームデータ生成手段とを具備する音声処理装置である。
上記目的を達成するための本発明の第3の観点は、マイクロフォンが集音した音声データの中から特定の音声データのみを再生する音声処理方法であって、前記マイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出し、前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、前記マイクロフォンが前記第1の音声データを集音した時刻を計時し、一致した声紋を特定するデータと計時した時刻のデータとを含むメタデータと、前記第1の音声データとを合成したフレームデータを生成し、前記メタデータに含まれるデータを特定し、生成したフレームデータの中から、特定したデータを含むフレームデータを抽出し、抽出したフレームデータに含まれる音声データを再生する。
本発明の第1の観点に係る音声処理装置によれば、音声認識処理手段は、マイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出し、声紋照合処理手段は、前記音声認識処理手段が抽出する前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、計時手段は、前記マイクロフォンが前記第1の音声データを集音した時刻を計時し、メタデータ生成手段は、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成し、フレームデータ生成手段は、前記メタデータ生成手段が生成したメタデータと前記第1の音声データとを合成し、フレームデータを生成するので、フレームデータに含まれるメタデータ内の特定の情報(声紋を特定するデータ、時刻のデータ)を指定することで、フレームデータを選択できる。したがって、特定の情報に応じた音声データのみを選別可能となる。
本発明によれば、音声データに、その音声データに関連した情報を付加したデータを順次生成/記録し、付加された情報に応じた音声データを抽出可能とするので、すべての音声データを再生する必要がなく、必要な音声データのみを再生することができ利便性が高いという利点がある。
第1の実施形態
以下、本発明のマイクロフォン選択手段としての通話装置(双方向通話装置)について述べる。
図1(A)〜(C)は本発明の通話装置が適用される1例を示す構成図である。
図1(A)に図解したように、遠隔に位置する2つの会議室901、902にそれぞれ通話装置1A、1Bが設置されており、これらの通話装置1A、1Bが電話回線920で接続されている。
図1(B)に図解したように、2つの会議室901、902において、双方向通話装置1A、1Bがそれぞれテーブル911、912の上に置かれている。ただし、図1(B)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aについてのみ図解している。会議室902内の双方向通話装置1Bも同様である。双方向通話装置1A、1Bの外観斜視図を図2に示す。
図1(C)に図解したように、双方向通話装置1A、1Bの周囲にそれぞれ複数(本実施の形態においては6名)の会議参加者A1〜A6が位置している。ただし、図1(C)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aの周囲の会議参加者のみ図解している。他方の会議室902内の双方向通話装置1Bの周囲に位置する会議参加者の配置も同様である。
本発明の双方向通話装置は、たとえば、2つの会議室901、902との間で電話回線920を介して音声による応答が可能である。
通常、電話回線920を介しての会話は、一人の話者と一人の話者同士、すなわち、1対1で通話を行うが、本発明の双方向通話装置は1つの電話回線920を用いて複数の会議参加者A1〜A6同士が通話できる。ただし、詳細は後述するが、音声の混雑を回避するため、同時刻(同じ時間帯)の話者は、相互に一人に限定する。
本発明の双方向通話装置は音声(通話)を対象としているから、電話回線920を介して音声を伝送するだけである。換言すれば、テレビ会議システムのような多量の画像データは伝送しない。さらに、本発明の双方向通話装置は会議参加者の通話を圧縮して伝送しているので電話回線920の伝送負担は軽い。
双方向通話装置の構成
図2〜図4を参照して本発明の1実施の形態としての双方向通話装置の構成について述べる。
図2は本発明の1実施の形態としての双方向通話装置の斜視図である。
図3は図2に図解した双方向通話装置の断面図である。
図4は図1に図解した双方向通話装置のマイクロフォン・電子回路収容部の平面図であり、図3の線X−X−Yにおける平面図である。
図2に図解したように、双方向通話装置1は、上部カバー11と、音反射板12と、連結部材13と、スピーカ収容部14と、操作部15とを有する。
図3に図解したように、スピーカ収容部14は、音反射面14aと、底面14bと、上部音出力開口部14cとを有する。音反射面14aと底面14bで包囲された空間である内腔14dに受話再生スピーカ16が収容されている。スピーカ収容部14の上部に音反射板12が位置し、スピーカ収容部14と音反射板12とが連結部材13によって連結されている。
連結部材13内には拘束部材17が貫通しており、拘束部材17は、スピーカ収容部14の底面14bの拘束部材・下部固定部14eと、音反射板12の拘束部材固定部12bとの間を拘束している。ただし、拘束部材17はスピーカ収容部14の拘束部材・貫通部14fは貫通しているだけである。拘束部材17が拘束部材・貫通部14fを貫通してここで拘束していないのはスピーカ16の動作によってスピーカ収容部14が振動するが、その振動を上部音出力開口部14cの周囲においては拘束させないためである。
スピーカ
相手会議室の話者が話した音声は、受話再生スピーカ16を介して上部音出力開口部14cから抜け、音反射板12の音反射面12aとスピーカ収容部14の音反射面14aとで規定される空間に沿って軸C−Cを中心として360度の全方位に拡散する。
音反射板12の音反射面12aの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面12aの断面は軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
同様にスピーカ収容部14の音反射面14aの断面も図解したように、ゆるやかな凸面を描いている。音反射面14aの断面も軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
受話再生スピーカ16から出た音Sは、上部音出力開口部14cを抜け、音反射面12aと音反射面14aとで規定される断面がラッパ状の音出力空間を経て、音声応答装置1が載置されているテーブル911の面に沿って、軸C−Cを中心として360度全方位に拡散していき、全ての会議参加者A1〜A6に等しい音量で聞き取られる。本実施の形態においては、テーブル911の面も音伝播手段の一部として利用している。
受話再生スピーカ16から出力された音Sの拡散状態を矢印で図示した。
音反射板12は、プリント基板21を支持している。
プリント基板21には、図4に平面を図解したように、マイクロフォン・電子回路収容部2のマイクロフォンMC1〜MC6、発光ダイオードLED1〜6、マイクロプロセッサ23、コーデック(CODEC)24、第1のディジタルシグナルプロセッサ(DSP1)DSP25、第2のディジタルシグナルプロセッサ(DSP2)DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29などの各種電子回路が搭載されており、音反射板12はマイクロフォン・電子回路収容部2を支持する部材としても機能している。
プリント基板21には、受話再生スピーカ16からの振動が音反射板12を伝達してマイクロフォンMC1〜MC6などに進入して騒音とならないように、受話再生スピーカ16からの振動を吸収するダンパー18が取り付けられている。ダンパー18は、ネジと、このネジとプリント基板21との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板21にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ16からプリント基板21に伝達される振動が吸収される。これにより、マイクロフォンMC1〜MC6は、スピーカ16からの音の影響を受けない。
マイクロフォンの配置
図4に図解したように、プリント基板21の中心軸Cから放射状に等間隔(本実施の形態では60度間隔で)で6本のマイクロフォンMC1〜MC6が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンMC1〜MC6は、共に柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで、揺動自在に支持されており(図解を簡単にするため、マイクロフォンMC1の部分の第1のマイク支持部材22aと第2のマイク支持部材22bとについてのみ図解している)、上述した緩衝材を用いたダンパー18による受話再生スピーカ16からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで受話再生スピーカ16からの振動で振動するプリント基板21の振動を吸収して受話再生スピーカ16の振動の影響を受けないようにして、受話再生スピーカ16の騒音を回避している。
図3に図解したように、受話再生スピーカ16はマイクロフォンMC1〜MC6が位置する平面の中心軸C−Cに対して垂直に指向しており(本実施の形態においては上方向に向いている(指向している))、このような受話再生スピーカ16と6本のマイクロフォンMC1〜MC6の配置により、受話再生スピーカ16と各マイクロフォンMC1〜MC6との距離は等距離となり、受話再生スピーカ16からの音声は、各マイクロフォンMC1〜MC6に対しほとんど同音量、同位相で届く。ただし、上述した音反射板12の音反射面12aおよびスピーカ収容部14の音反射面14aの構成により、受話再生スピーカ16の音が直接マイクロフォンMC1〜MC6には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー18と、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとを用いることにより、受話再生スピーカ16の振動の影響を低減している。
会議参加者A1〜A6は、通常、図1(C)に例示したように、音声応答装置1の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
発光ダイオード
後述する話者を決定したことを通報する手段として発光ダイオードLED1〜6がマイクロフォンMC1〜MC6の近傍に配置されている。
発光ダイオードLED1〜6は上部カバー11を装着した状態でも、全ての会議参加者A1〜A6から視認可能に設けられている。したがって、上部カバー11は発光ダイオードLED1〜6の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー11に発光ダイオードLED1〜6の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部2への防塵の観点からは透光窓が好ましい。
プリント基板21には、後述する各種の信号処理を行うために、第1のディジタルシグナルプロセッサ(DSP1)25、第2のディジタルシグナルプロセッサ(DSP2)26、各種電子回路27〜29が、マイクロフォンMC1〜MC6が位置する部分以外の空間に配置されている。
本実施の形態においては、DSP25を各種電子回路27〜29とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、DSP26をエコーキャンセラーとして用いている。
図5は、マイクロプロセッサ23、コーデック24、DSP25、DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29、その他各種電子回路の概略構成図である。
マイクロプロセッサ23はマイクロフォン・電子回路収容部2の全体制御処理を行う。 コーデック24は相手方会議室に送信する音声を圧縮符号化する。
DSP25が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
DSP26はエコーキャンセラーとして機能する。
図5においては、A/D変換器ブロック27の1例として、4個のA/D変換器271〜274を例示し、D/A変換器ブロック28の1例として、2個のD/A変換器281〜282を例示し、増幅器ブロック29の1例として、2個の増幅器291〜292を例示している。
その他、マイクロフォン・電子回路収容部2としては電源回路など各種の回路がプリント基板21に搭載されている。
図4においてプリント基板21の中心軸Cに対してそれぞれ対称(または対向する)位置に一直線上に配設された1対のマイクロフォンMC1−MC4:MC2−MC5:MC3−M6が、それぞれ2チャネルのアナログ信号をディジタル信号に変換するA/D変換器271〜273に入力されている。本実施の形態においては、1個のA/D変換器が2チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Cを挟んで一直線上に位置する2個(1対)のマイクロフォン、たとえば、マイクロフォンMC1とMC4の検出信号を1個のA/D変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する2個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する2個のマイクロフォンの信号を同じA/D変換器に入力すると、変換タイミングもほぼ同じになり、2個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、A/D変換器271〜274は可変利得型増幅機能付きのA/D変換器271〜274として構成することもできる。
A/D変換器271〜274で変換したマイクロフォンMC1〜MC6の集音信号はDSP25に入力されて、後述する各種の信号処理が行われる。
DSP25の処理結果の1つとして、マイクロフォンMC1〜MC6のうちの1つを選択した結果が、発光ダイオードLED1〜6に出力される。
DSP25の処理結果が、DSP26に出力されてエコーキャンセル処理が行われる。DSP26は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
DSP26の処理結果が、D/A変換器281〜282でアナログ信号に変換される。D/A変換器281からの出力が、必要に応じて、コーデック24で符号化されて、増幅器291を介して電話回線920(図1(A))のラインアウトに出力され、相手方会議室に設置された音声応答装置1の受話再生スピーカ16を介して音として出力される。
相手方の会議室に設置された双方向通話装置1からの音声が電話回線920(図1(A))のラインインを介して入力され、A/D変換器274においてディジタル信号に変換されて、DSP26に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された双方向通話装置1からの音声は図示しない経路でスピーカ16に印加されて音として出力される。
D/A変換器282からの出力が増幅器292を介してこの双方向通話装置1の受話再生スピーカ16から音として出力される。すなわち、会議参加者A1〜A6は、上述した受話再生スピーカ16から相手会議室の選択された話者の音声に加えて、その会議室のいる発言者が発した音声をも受話再生スピーカ16を介して聞くことが出来る。
マイクロフォンMC1〜MC6
図6は各マイクロフォンMC1〜MC6の特性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図6に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、100Hz、150Hz、200Hz、300Hz、400Hz、500Hz、700Hz、1000Hz、1500Hz、2000Hz、3000Hz、4000Hz、5000Hz、7000Hzの時の指向性を示している。ただし、図解を簡単にするため、図6は代表的に、150Hz、500Hz、1500Hz、3000Hz、7000Hzについての指向性を図解している。
図7(A)〜(D)は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、双方向通話装置1と所定距離、たとえば、1.5メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示している。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。
図6の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、DSP25においてマイクロフォンの選定処理を行う。
本発明のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音するので発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン1本で集音することによって周辺のノイズとのS/Nを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクアレイを用いることができるが、このような方法では、複数の信号の時間軸(位相)の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、DSPの信号処理系にも複雑な信号処理を必要とする。本発明は図6に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクアレイ信号を合成して指向性収音マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。
通話装置の装置構成の効果
上述した構成の通話装置は下記の利点を示す。
(1)等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンMC1〜MC6と受話再生スピーカ16との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ16から出た音が会議室(部屋)環境を経てマイクロフォンMC1〜MC6に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ16からマイクロフォンMC1〜MC6に音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、本発明の実施の形態における双方向通話装置1においてはいつも伝達関数が同じという利点がある。
(2)それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、本双方向通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
(3)上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー(DSP26)が一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板21に複数のDSPを配置する必要がなく、プリント基板21におけるDSPの配置するスペースも少なくてよい。その結果、プリント基板21、ひいては、本発明の通話装置を小型にできる。
(4)上述したように、受話再生スピーカ16とマイクロフォンMC1〜MC6間の伝達関数が一定であるため、たとえば、±3dBもあるマイクロフォン自体の感度差調整を双方向通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
(5)双方向通話装置1が搭載されるテーブルは、通常、円いテーブル(円卓)または多角テーブルを用いるが、双方向通話装置11内の一つの受話再生スピーカ16で均等な品質の音声を軸Cを中心として360度全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカ16から出た音は円卓のテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカ16から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンMC1〜MC6に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
(8)偶数個、たとえば、6本のマイクロフォンを等角度で放射状かつ等間隔で、対向する1対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
(9)ダンパー18、マイクロフォン支持部材22などにより、受話再生スピーカ16の音による振動が、マイクロフォンMC1〜MC6の集音に与える影響を低減することができる。
(10)図3に図解したように、構造的に、受話再生スピーカ16の音が直接、マイクロフォンMC1〜MC6には伝搬しない。したがって、この双方向通話装置1においは受話再生スピーカ16からのノイズの影響が少ない。
変形例
図2〜図3を参照して述べた通話装置1は、下部に受話再生スピーカ16を配置させ、上部にマイクロフォンMC1〜MC6(および関連する電子回路)を配置させたが、受話再生スピーカ16とマイクロフォンMC1〜MC6(および関連する電子回路)の位置を、図8に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。
マイクロフォンの本数は6には限定されず、4本、8本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Cを複数対それぞれ一直線に(同方向に)、たとえば、マイクロフォンMC1とMC4のように一直線に配置する。2本のマイクロフォンMC1、MC4を対向させて一直線に配置する理由は、マイクロフォンの選定して話者を特定するためである。
信号処理内容
以下、主として第1のディジタルシグナルプロセッサ(DSP)25で行う処理内容について述べる。
図9はDSP25が行う処理の概要を図解した図である。以下、その概要を述べる。
(1)周囲のノイズの測定
初期動作として、好ましくは、双方向通話装置1が設置される周囲のノイズの測定する。
双方向通話装置1は種々の環境(会議室)で使用されうる。マイクロフォンの選択の正確さを期し、双方向通話装置1の性能を高めるために、本発明においては、初期段階において、双方向通話装置1が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、双方向通話装置1を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
ノイズ測定の詳細は後述する。
(2)議長の選定
たとえば、双方向通話装置1を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の1態様としては、双方向通話装置1を使用する初期段階において、双方向通話装置1の操作部15から議長を設定する。議長の設定方法としては、たとえば、操作部15の近傍に位置する第1マイクロフォンMC1を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、双方向通話装置1を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
議長選定の詳細は後述する。
(3)マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ16とマイクロフォンMC1〜MC6との音響結合が等しくなるように、マイクロフォンMC1〜MC6の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
感度差調整については後述する。
通常処理として下記に例示する各種の処理を行う。
(4)マイクロフォン選択、切り替え処理
1つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者A1〜A6にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には1人ずつ通話させる。そのため、DSP25においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、電話回線920を介して相手方会議室の音声応答装置1に伝送されてスピーカから出力される。もちろん、図5を参照して述べたように、選択された話者のマイクロフォンの近傍のLEDが点灯し、さらに、その部屋の双方向通話装置1のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にS/Nの良い信号を送ることを目的としている。
(5)選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者A1〜A6全員に容易に認識できるように、発光ダイオードLED1〜6の該当するものを点灯させる。
(6)上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
(a)マイクロフォンの集音信号の帯域分離と、レベル変換処理
(b)発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するた め。
(c)発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフ ォンを判定するため。
(d)発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。 (e)通常動作時のフロアノイズの測定
フロア(環境)ノイズの測定
この処理は双方向通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。
Figure 2005181391
Figure 2005181391
Figure 2005181391
双方向通話装置1の電源投入直後、DSP25は図10〜図12を参照して述べる下記のノイズ測定を行う。
双方向通話装置1の電源投入直後のDSP25の初期処理は、フロアノイズと基準信号レベルを測定し、その差を元に話者と本システムとの有効距離の目安と発言開始、終了判定閾値レベルの設定するために行う。
DSP25内の音圧レベル検出部でピークホールドしたレベル値を一定時間間隔、たとえば、10mSecで読み出し、単位時間の値の平均値を算出しフロアノイズとする。そして、DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
図10、処理1:テストレベル測定
DSP25は、図10に図解した処理に従い、図5に図解した受話信号系のラインイン端子にテストトーンを出力し、受話再生スピーカ16からの音を各マイクロフォンMC1〜MC6で集音し、その信号を発言開始基準レベルとして平均値を求める。
図11、処理2:ノイズ測定1
DSP25は、図11に図解した処理に従い、各マイクロフォンMC1〜MC6からの集音信号のレベルをフロアノイズレベルとして一定時間収集し、平均値を求める。
図12、処理3:有効距離試算
DSP25は、図12に図解した処理に従い、発言開始基準レベルとフロアノイズレベルを比較し、双方向通話装置1の設置されている会議室などの部屋の騒音レベルを推定し、本双方向通話装置1が良好に働く発言者と本双方向通話装置1との有効距離を計算する。
マイク選択禁止判定
処理3の結果、フロアノイズの方が発言開始基準レベルより大きい(高い)場合、DSP25はそのマイクロフォンの方向に強大なノイズ源が有ると判定し、その方向のマイクロフォンの自動選択を禁止に設定し、それを、たとえば、発光ダイオードLED1〜6または操作部15に表示する。
しきい値決定
DSP25は、図13に図解したように、発言開始基準レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
ノイズ測定に関する限り、次の処理は通常処理なので、DSP25は各タイマ(カウンタ)をセットして次処理の準備をする。
ノイズ通常処理
DSP25は、双方向通話装置1の初期動作時の上記ノイズ測定の後も、通常動作状態において、図14に示す処理に従って、ノイズ処理を行い、6本のマイクロフォンMC1〜MC6に対しそれぞれ選択された発言者の音量レベル平均値と発言終了検出後のノイズレベルを測定し一定時間単位で、発言開始、終了判定閾値レベルを再設定する。
図14、処理1:DSP25は、発言中か発言終了かの判断で処理2か処理3への分岐を決定する。
図14、処理2:発言者レベル測定
DSP25は、発言中の単位時間、たとえば、10秒分のレベルデータを複数回、たとえば、10回分平均して発言者レベルとして記録する。
単位時間内に発言終了になった場合、新たな発言開始まで時間計測及び発言レベル測定を中止し、新たな発言検出後、測定処理を再開する。
図14、処理3:フロアノイズ測定2
DSP25は、発言終了検出後から発言開始までの間の単位時間、たとえば、10秒分のノイズレベルデータを複数回、たとえば、10回分平均してフロアノイズレベルとして記録する。
単位時間内に新たな発言があった場合は、DSP25は途中で時間計測及びノイズ測定を中止し、新たな発言終了検出後、測定処理を再開する。
図14、処理4:閾値決定2
DSP25は、発言レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
なおこのほかに応用として、発言者の発言レベルの平均値が求められているのでそのマイクロフォンに対向した発言者固有の発言開始、終了検出閾値レベルを設定することもできる。
フィルタ処理による各種周波数成分信号の生成
図15はマイクロフォンで集音した音信号を前処理として、DSP25で行うフィルタリング処理を示す構成図である。図15は1マイクロフォン(チャネル(1集音信号))分の処理について示す。
各マイクロフォンの集音信号は、たとえば、100Hzのカットオフ周波数を持つアナログ・ローカットフィルタ101で処理され、100Hz以下の周波数が除去されたフィルタ処理された音声信号がA/D変換器102に出力され、A/D変換器102でディジタル信号に変換された集音信号が、それぞれ7.5KHz、4KHz、1.5KHz、600Hz、250Hzのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ103a〜103e(総称して103)で高周波成分が除去される(ハイカット処理)。ディジタル・ハイカットフィルタ103a〜103eの結果はさらに、減算器104a〜104d(総称して104)において隣接するディジタル・ハイカットフィルタ103a〜103eのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ103a〜103eおよび減算器104a〜104dは、実際はDSP25において処理している。A/D変換器102はA/D変換器ブロック27の1つとして実現できる。
図16は、図15を参照して述べたフィルタ処理結果を示す周波数特性図である。このように1つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。
バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために使用する信号が、DSP25で行う図17に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図17はマイクロフォンMC1〜MC6で集音した6チャネル(CH)の入力信号処理中の1CHのみを示す。
DSP25内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ100〜600Hz、200〜250Hz、250〜600Hz、600〜1500Hz、1500〜4000Hz、4000〜7500Hzの帯域通過特性を持つバンドパス・フィルタ201a〜201a(総称してバンドパス・フィルタ・ブロック201)と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器202a〜202g(総称して、レベル変換ブロック202)を有する。
各レベル変換部202a〜202gは、信号絶対値処理部203とピークホールド処理部204を有する。したがって、波形図を例示したように、信号絶対値処理部203は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部204は、信号絶対値処理部203の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部204を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。
バンドパス・フィルタについて述べる。双方向通話装置1に使用するバンドパス・フィルタは、たとえば、2次IIRハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、1バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数+1のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号1チャネル(CH)当りで下記6バンドのバンドパス・フィルタとなる。
Figure 2005181391
この方法でDSP25における上記のIIR・フィルタの計算プログラムは、6CH(チャネル)×5(IIR・フィルタ) =30のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は2次IIRフィルタを使用するとして、本発明のように6本のマイク信号にそれぞれ6バンドのバンドパス・フィルタを用意すると、従来方法では、6×6×2=72回路のIIR・フィルタ処理が必要になる。この処理には、最新の優秀なDSPでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する2次IIRハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの5種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、IIRフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。
図18は図17に図解した構成による処理をDSP25で処理したときのフローチャートである。
図18に図解したDSP25におけるフィルタ処理は1段目の処理としてハイパス・フィルタ処理、2段目の処理として1段目のハイパス・フィルタ処理結果からの減算処理を行う。図16はその信号処理結果のイメージ周波数特性図である。下記、〔x〕は図16における各処理ケースを示す。
第一段階
〔1〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。
〔2〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。
〔3〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] 入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。
〔4〕入力信号を600KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。
〔5〕入力信号を250KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。
第二段階
〔1〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔2〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔3〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔4〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。 〔5〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔6〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記(4)の出力信号とする。
DSP25における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。
入力されたマイクロフォンの集音信号MIC1〜MIC6は、DSP25において、全帯域の音圧レベル、バンドパス・フィルタを通過した6帯域の音圧レベルとして表5のように常時更新される。
Figure 2005181391
表5において、たとえば、L1-1はマイクロフォンMC1の集音信号が第1バンドパス・フィルタ201aを通過したときのピークレベルを示す。
発言の開始、終了判定は、図17に図示した100Hz〜600Hzのバンドパス・フィルタ201aを通過し、レベル変換部202bで音圧レベル変換されたマイクロフォン集音信号を用いる。
従来のバンドパス・フィルタの構成は、バンドパス・フィルタ1段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の36回路のバンドパス・フィルタを構築すると72回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。
発言の開始・終了判定処理
第1のディジタルシグナルプロセッサ(DSP1)25は、音圧レベル検出部から出力される値を元に、図19に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、0.5秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図17に図解したマイク信号変換処理部202bで音圧レベル変換された100Hz〜600Hzのバンドパス・フィルタを通過した音圧レベルデータ(マイク信号レベル(1))が図19に例示した閾値レベル以上になった時から発言開始と判定する。
DSP25は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間、たとえば、0.5秒間は次の発言開始を検出しないようにしている。
マイクロフォン選択
DSP25は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図20は双方向通話装置1の動作形態を図解したグラフである。
図21は双方向通話装置1の通常処理を示すフローチャートである。
双方向通話装置1は図20に図解したように、マイクロフォンMC1〜MC6からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果を発光ダイオードLED1〜6に表示する。
以下、図21のフローチャートを参照して双方向通話装置1におけるDSP25を主体として動作を述べる。なお、マイクロフォン・電子回路収容部2の全体制御はマイクロプロセッサ23によって行われるが、DSP25の処理を中心に述べる。
ステップ1:レベル変換信号の監視
マイクロフォンMC1〜MC6で集音した信号はそれぞれ、図16〜図18、特に、図17を参照して述べた、バンドパス・フィルタ・ブロック201、レベル変換ブロック202において、7種類のレベルデータとして変換されているから、DSP25は各マイクロフォン集音信号についての7種類の信号を常時監視する。
その監視結果に基づいて、DSP25は、発言者方向検出処理1、発言者方向検出処理2、発言開始・終了判定処理のいずれかの処理に移行する。
ステップ2:発言開始・終了判定処理
DSP25は図19を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。DSP25が処理が発言開始を検出した場合、ステップ4の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ2における発言の開始、終了の判定処理が発言レベルが発言終了レベルより小さくなった時、発言終了判定時間(たとえば、0.5秒)のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。
ステップ3:発言者方向の検出処理
DSP25における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ4の発言者方向の判定処理へデータを供給する。
ステップ4:発言者方向マイクの切り換え処理
DSP25に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ2の処理とステップ3の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ4のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部15から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報を発光ダイオードLED1〜6に表示する。
ステップ5:マイクロフォン集音信号の伝送
マイク信号切り換え処理は6本のマイク信号の中からステップ4処理により選択されたマイク信号のみを送話信号として、双方向通話装置1から電話回線920を介して相手側の双方向通話装置に伝送するため、図5に図解した電話回線920のラインアウトへ出力する。
発言開始レベル閾値、発言終了閾値の設定
処理1:電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、1秒間分のフロアノイズを測定する。
DSP25は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、1分間の値の平均値を算出しフロアノイズとする。
DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル(フロアノイズ +9dB)、発言終了の検出レベルの閾値(フロアノイズ+6dB)を決定する。DSP25は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、DSP25は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。
この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定出来され、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。
処理2:周辺ノイズ(フロアノイズの大きい)部屋への対応
処理2は処理1ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
DSP25は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
DSP25は、発言開始閾値レベルは発言終了閾値レベルより大きく(たとえば、3dB以上の差)に設定する。
DSP25は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。
この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度で発言開始が認識できる。
発言開始判定
処理1:6個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
DSP25は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ16からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ16と全てのマイクロフォンMC1〜MC6との距離は同じであるから、受話再生スピーカ16からの音は全てのマイクロフォンMC1〜MC6にほぼ均等に到達するからである。
処理2:図4に図解した6個のマイクロフォンについての60度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に180度ずらした単一指向性マイク2本(マイクロフォンMC1とMC4、マイクロフォンMC2とMC5、マイクロフォンMC3とMC6)の3組構成し、マイク信号のレベル差を利用する。すなわち下記の演算を実行する。
Figure 2005181391
DSP25は上記絶対値[1],[2],[3]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理1のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので(受話再生スピーカ16からの音が全てのマイクロフォンに等しく到達するから)、受話再生スピーカ16からの音か話者からの音声かの判定は不要になる。
発言者方向の検出処理
発言者方向の検出には図6に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図6に例示したように、周波数特性、レベル特性が変化する。その結果を図7(A)〜(D)に例示した。図7(A)〜(D)は、双方向通話装置1から所定距離、たとえば、1.5メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示す。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図15〜図18を参照して述べたマイク信号レベル変換処理からの5バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。
本発明の1実施の形態としての双方向通話装置1における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理(1dBフルスパン(1dBFs)ステップなら0dBFsの時0、-3dBFsなら3というように、又はこの逆に)を行う。この重み付けのステップで処理の分解能が決まる。
1サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい(大きい)マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表7である。
Figure 2005181391
表7に例示したこの例では一番合計点が小さいのは第1マイクロフォンMC1なので、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定する。DSP25はその結果を音源方向マイク番号という形で保持する。
上述したように、DSP25は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい(または大きい)マイク信号順に順位をつけ、1位の順位が3つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)として、下記表8のような成績表を作成する。
Figure 2005181391
実際には部屋の特性により音の反射や定在波の影響で、必ずしも第1マイクロフォンMC1の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、5バンド中の過半数が1位であれば第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定することができる。DSP25はその結果を音源方向マイク番号という形で保持する。
DSP25は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表9に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。
Figure 2005181391
発言者方向マイクの切り換えタイミング判定処理
図21のステップ2の発言開始判定結果により起動し、ステップ3の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、DSP25は、ステップ5のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、発光ダイオードLED1〜6へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し本双方向通話装置1が応答した事を知らせる。
反響の大きい部屋で、反射音や定在波の影響を除くため、DSP25は、マイクロフォンを切り換えてから発言終了判定時間(たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図21のステップ1のマイク信号レベル変換処理結果、および、ステップ3の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは2通りを準備する。
第1の方法:発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、DSP25は、全てのマイク信号レベル(1)とマイク信号レベル(2)が発言終了閾値レベル以下になってから発言終了判定時間(たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(1)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を開始する。
第2の方法:発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はDSP25は発言開始(マイク信号レベル(1)が閾値レベル以上になった時)から発言終了判定時間(たとえば、0.5 秒)以上経過してから判定処理を開始する。 発言終了検出前に、3の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、DSP25は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を起動する。
検出された発言者に対向したマイク信号の選択切り替え処理
DSP25は図21のステップ4の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
DSP25のマイク信号の選択切り替え処理は、図22に図解したように、6回路の乗算器と6入力の加算器で構成する。マイク信号を選択する為には、DSP25は選択したいマイク信号が接続されている乗算器のチャネルゲイン(チャネル利得:CH Gain)を〔1〕に、その他の乗算器のCH Gainを〔0〕とする事で、加算器には選択された(マイク信号×〔1])の信号と(マイク信号×〔0])の処理結果が加算されて希望のマイク選択信号が出力に得られる。
上記の様にチャネルゲインを[1]か[0]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、双方向通話装置1では、図23に図解したように、CH Gainの変化を[1]から[0]へ、[0]から[1]へ変化するのに、切替遷移時間、たとえば、10m秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。
また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のDSP25におけるエコーキャンセル処理動作の調整を行うこともできる。
上述したように、本発明の実施形態の通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。
本発明の実施形態の通話装置は構造面から下記の利点を有する。
(1)複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室(部屋)環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。
(2)それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。
(3)上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ(DSP)で構成するエコーキャンセラが一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板にDSPを配置するスペースも少なくてよい。
(4)受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±3dBもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。 (5)通話装置が搭載されるテーブルは、通常、円卓を用いるが、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散(閑散)するスピーカシステムが可能になった。
(6)受話再生スピーカから出た音はテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音 と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。
(8)偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。
(9)緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に影響を低減することができる。
(10)受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この双方向通話装置においは受話再生スピーカからのノイズの影響が少ない。
上述した通話装置は信号処理面から下記の利点を有する。
(a)複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてS/Nの良い音、クリアな音を集音(収音)して、相手方に送信することができる。
(b)周辺の発言者からの音声をS/N良く集音して、発言者に対向したマイクを自動選択できる。
(c)本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事のレベルを比較する事で、信号分析を簡略化している。
(d)本発明のマイク信号切り換え処理をDSPの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
(e)マイク選択結果を、発光ダイオードなどの表示手段、または、外部への通知処理することができる。したがって、たとえば、テレビカメラへの発言者位置情報として活用することもできる。
第2の実施形態
以下、第2の実施形態について説明する。
図24は、本実施形態における音声記録装置40の構成を説明するための図である。
図24に示すとおり、音声記録装置40は、マイクロフォン41と信号処理部42から構成され、信号処理部42は、A/D変換器421と、音声認識処理手段としての音声認識処理部422と、認識辞書メモリ423と、声紋照合処理手段としての声紋照合処理部424と、声紋データメモリ425と、情報入力手段としてのデータ入力部426と、メタデータ生成手段としてのメタデータ作成部427と、フレームデータ生成手段としてのフレームデータ生成部428と、記録媒体429とを有している。
マイクロフォン41は、音声記録装置40の外部のアナログ音声信号を集音する。
マイクロフォン41は、指向性マイクロフォンであることが望ましいが、本実施形態においては、必ずしも指向性マイクロフォンでなくても構わない。
信号処理部42は、CPU(図示しない)を含んで構成され、マイクロフォン41が集音した集音信号、および、その集音信号に関連するデータを入力して、フレームデータFDを生成する。フレームデータFDの詳細については後述する。
以下、信号処理部42の各構成要素について説明する。
A/D変換器421は、マイクロフォン41が集音したアナログの集音信号をディジタル信号S421に変換する。
音声認識処理部422は、A/D変換器421により出力されるディジタル信号S421(音声信号)を音声認識処理し、認識処理した結果、認識した音声信号を抽出して出力する(信号S422)。
具体的には、信号S421を入力すると、入力された音声信号を分析し、後述するように、認識辞書メモリ423に格納された音響モデルから音響的な特徴量(音響特徴)を抽出する。すなわち、入力された音声信号S421に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位(音素)ごとに音響特徴を抽出する。
さらに、音声認識処理部422は、音声信号S421の音素ごとの音響特徴を、認識辞書メモリ423に格納された認識辞書と参照し、音声認識可能な音声信号を抽出して出力する。すなわち、認識辞書には、音素単位の音響特徴に対応する文字列データが記述されているので、信号S421から順に抽出した音響特徴を、認識辞書に記述された文字列データの音響特徴と比較して、合致する音響特徴または近似する音響特徴を有する文字列データが存在する場合には、音声認識できたと判断し、抽出した音響特徴に対応する音声信号を出力する。
これにより、音声信号S421に無音信号(レベルが所定以下の信号)が含まれている場合でも、この無音信号を削除した音声信号を出力することができる。
また、音声信号S421に無意味な擬態語(あ〜,う〜等)が含まれている場合でも、これらの語を削除した音声信号を出力することができる。
上記音声認識処理は、音素単位だけでなく音節単位でも実行可能であり、さらに、特定の分野に使用される専門用語(キーワード)等がある場合には、あらかじめ専門用語に対応する認識辞書を認識辞書メモリ423に格納しておくことで、適切に音声認識を行うことも可能となる。
なお、上述した音声認識における認識率を向上させるため、認識したい言葉をあらかじめ特定の人の声で登録しておくことで、登録者の音声が特に良く認識可能とするように構成することも可能である(特定話者音声認識)。したがって、あらかじめ音声記録装置40を使用して、会議等を行う話者(会議参加者)が特定されている場合には、これらの会議参加者の音響特徴を認識辞書メモリ423に登録しておくことで、音声認識の認識率を向上させることができる。
認識辞書メモリ423には、上述したとおり、音声認識処理部422において音声認識処理をするための音響モデルと認識辞書が格納されている。
音響モデルは、人間の発音の小さな単位(音素)が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
また、音声認識を容易にするため、音素単位だけでなく、まとまった音節単位や特定の分野に使用される専門用語(キーワード)等に対応する音響特徴も記述される。
声紋照合処理部424は、音声認識処理部422から入力した音声信号の声紋認証を行い、声紋認証された音声信号のみを後段のメタデータ作成部427へ出力する。
個々人の声紋の相違は、その人の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から決定されるので、このような声紋に対して声紋照合処理、すなわち、周波数分析を行い、登録された声紋データと照合することにより、本人を特定することが可能となる。
このような声紋照合は、通話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数には変化として現れないため、本人特定の認識率が高いとされている。
具体的には、声紋照合は、以下の処理を行う。
(1)音声信号S422に対して周波数分析を行い、その音声信号を、時間,周波数,音の強さの三次元のパターンで表現した声紋データを生成する。
(2)生成された声紋データを、声紋データメモリ425に格納され事前に登録された会議参加者の声紋データと比較し、合致する声紋データが存在する場合には、合致する声紋データに対応する会議参加者のテキストデータ(発話者データ)を、メタデータ作成部427に対して出力する(信号S424)。
合致する声紋データが声紋データメモリ425に存在しない場合には、その旨を示す所定のデータ(NULL等)を、メタデータ作成部427に対して出力する。
声紋データメモリ425には、上述したとおり、事前に登録された会議参加者のテキストデータと声紋データがそれぞれ対応付けられて格納され、声紋照合処理部424により参照される。
データ入力部426は、マイクロフォン41が入力した音声信号に対する付加データDATAを入力する。
本実施形態のおける付加データDATAとしては、たとえば、下記の時間データ,制御データおよびエクスクルーシブデータがある。
(1)時間データ
フレームデータ生成部428が生成するフレームデータFDに含まれる音声信号を、A/D変換器421が入力を開始した時刻と入力を終了した時刻である。
なお、時間データは、信号処理部42に含まれるCPUが計時し、メタデータ作成部427に供給するように構成してもよい。
(2)発話者付随データ
発話者の属性等、発話者に関連した情報である。たとえば、発話者の発話回数などである。
(3)制御データ
後述するフレームデータ生成部428が生成するフレームデータFDの送出先(ラインアウト、記録媒体等)の指定を行う。
(4)エクスクルーシブデータ
たとえば、放送用の特別な機器のみに有効な制御データ等のオプションデータである。
メタデータ作成部427は、声紋照合処理部424によって照合された発話者のデータ(発話者データ)と、上述したデータ入力部426から供給される付加データDATAとを入力し、音声信号の付随データとしてのメタデータS427を作成する。
図25は、音声記録装置40が生成するフレームデータFDのデータ構造を説明するための図であり、(1)はフレームデータを、(2)は音声データを、(3)はメタデータを、(a)〜(g)はメタデータの構成を、それぞれ示す。
図25に示すように、メタデータは、たとえば、(a)スタートビットと、(b)時間データと、(c)発話者データと、(d)発話者付随データと、(e)制御データと、(f)エクスクルーシブデータと、(g)チェックサムデータと、を含んで構成される。
メタデータ作成部427は、メタデータの開始を認識できるようにスタートビットをセットし、その後に、データ入力部426および声紋照合処理部424から得られるデータを付加し、最後に、メタデータの正当性を受信側でチェックできるように、チェックサムデータを付加することにより、メタデータを生成する。
なお、図25のメタデータの(d)発話者付随データに含まれる情報として発話者の発話回数を例示したが、メタデータ作成部427は、声紋照合処理部424から得られる本人照合のデータをモニタすることにより、発話回数に関する情報を得ることができるので、各発話者毎の発話回数のデータを、上記発話者付随データ(図25の(d))として付加してもよい。
生成したメタデータMDは、フレームデータ生成部428へ供給される。
フレームデータ生成部428は、図25に示すように、A/D変換器421によりディジタル信号に変換された音声信号(音声データ)S421と、メタデータ作成部427により作成され、その音声データに対応するメタデータMDと、を合成してフレームデータFDを生成する。
フレームデータFDの生成動作については、後述する。
なお、図25に示すように、生成する各フレームデータ間には、フレームデータFDの再生側で各フレームデータを認識できるように、所定時間のインターバルを付加する。
また、フレームデータ生成部428は、生成したフレームデータFDを順次外部へ出力するリアルタイム処理を行ってもよいし、生成したフレームデータFDを一時記録媒体429へすべて記録させるようにしてもよい。
以上、音声記録装置40の各構成要素について説明した。
上述した各構成要素は、基本的に図24で示した矢印のフローに沿って動作するが、フレームデータFDを順次生成していくために、信号処理部42に含まれるCPUにより、信号処理部42の各構成要素の信号処理のタイミング制御が行われる。
フレームデータFDのデータ形式によって、フレームデータFDの生成処理は下記2方法のいずれかを適用することができる。
(1)固定データ長のフレームデータ
所定時間の音声データ毎に、固定データ長のフレームデータFDを生成する。メタデータ長および音声データ長は、各フレームデータで共通である。
この場合には、同じ話者の音を連続的に集音する場合には、複数のフレームデータとなることがある。
CPUは、所定時間のディジタル音声データ(信号S421)が順次処理されるようにタイミングを制御する。すなわち、CPUは、A/D変換器421,データ入力部426およびフレームデータ生成部428に対して、所定時間間隔でタイミング信号を供給し、供給されるタイミングに応じて、A/D変換器421は音声信号をA/D変換し、データ入力部426は付加データDATAを取り込み、次のタイミング信号が供給されるまでに、フレームデータ生成部428はフレームデータFDを生成する。
(2)非固定データ長のフレームデータ
発話者が切り替わる毎に、フレームデータFDを生成する。メタデータ長は各フレームデータで共通であるが、音声データ長は、各フレームデータで異なる。
この場合には、話者の発話する時間によって、データ長が長いフレームデータになることもあれば、データ長が短いフレームデータになることもある。
CPUは、発話者に応じてディジタル音声データ(信号S421)が順次処理されるようにタイミングを制御する。すなわち、CPUは、声紋照合処理部424の声紋照合結果(信号S424)をモニタし、発話者が切り替わったと判断した場合には、データ入力部426およびフレームデータ生成部428に対して、切替え信号を供給し、供給される切替え信号のタイミングに応じて、データ入力部426は新しい付加データDATAを取り込み、フレームデータ生成部428は、前の発話者に対するフレームデータの生成を終了して出力するとともに、新しいフレームデータを生成を開始する。
以上説明したように、本実施形態における音声記録装置40によれば、マイクロフォン41と、マイクロフォン41が集音した信号をディジタル信号(音声データ)に変換するA/D変換器421と、音声データを認識処理し認識可能な音声データのみを抽出する音声認識処理部422と、音声認識のために音声認識処理部422より参照される認識辞書メモリ423と、音声データに基づいて声紋照合処理を行い、予め登録された声紋データに合致する発話者を特定する声紋照合処理部424と、発話者と声紋データが関連付けられて登録される声紋データメモリ425と、メタデータのための付加データDATAを入力するデータ入力部426と、声紋照合処理部424により特定された発話者とデータ入力部426により入力された付加データDATAに基づいてメタデータを作成するメタデータ作成部427と、音声データと当該音声データに対応するメタデータを合成してフレームデータを生成するフレームデータ生成部428とを有し、入力した音声データを所定時間単位または発話者毎にまとまった単位で順次フレームデータが生成/記録されるように処理するので、以下の効果を得ることができる。
記録されたフレームデータから必要な情報だけを取り出すことにより、ユーザによる情報処理を短時間で行うことが可能となる。
たとえば、
(1)メタデータに含まれる発話者データを検索することにより、会議における特定の発話者の発言(音声データ)のみを抽出する
(2)メタデータに含まれる時間データを検索することにより、特定の時間内の会議における発言(音声データ)のみを抽出する
(3)メタデータに含まれる各発話者の発言回数を検索することにより、会議における発言状況の分析を行う
というようなことが容易に行うことができるようになり、ユーザが望む会議における情報に対して、短時間でアクセスすることが可能となる。
また、メタデータには、制御データやエクスクルーシブデータ等、必要に応じて付加データDATAを追加できるので、フレームデータの蓄積先(出力先)を自動的に振り分ける、音声データの送出先を自動的に変更する等が可能であり、音声データ処理の利便性が向上する。
第3の実施形態
次に、第3の実施形態について説明する。
第2の実施形態で述べた音声記録装置40においては、複数の発話者がそれぞれ順番に発話する場合には、問題なくフレームデータFDを生成することができるのであるが、複数の発話者が同時に発話した場合には、音声認識および声紋照合を正しく実行することが困難となる場合も想定される。
そこで、本実施形態においては、複数の発話者が同時に発話した場合であっても、発話者を正しく特定して、上述したフレームデータFDを生成することができる音声記録装置について説明する。
図26は、本実施形態における音声記録装置の構成を説明するためのブロック図の1例である。
図26に示すように、本実施形態における音声記録装置40aは、第1の実施形態で説明したマイクロフォン選択手段としての双方向通話装置1と、双方向通話装置1のDSP26のアナログ音声出力端子に接続された信号処理部42aと、を備えて構成される。
信号処理部42aは、第2の実施形態で説明した信号処理部42に対して、A/D変換器421が省かれている点で異なる。DSP26の音声出力は、ディジタルデータであるので、A/D変換器が必要ないからである。
次に、音声記録装置40aの動作を説明する。
図26において、発話者に対向して配置された複数の指向性マイクロフォンがそれぞれアナログの音声信号を入力すると、これらのアナログの音声信号は、A/D変換器271〜273によりディジタル信号に変換される。
第1の実施形態において説明したように、DSP25では、ディジタル信号に変換された各発話者の音声信号のフィルタ処理、音圧レベル比較処理等を行うことにより、主の話者の音声信号であると推定される1の音声信号を選択して出力する。
信号処理部42aは、DSP25が選択して出力する音声信号に基づいて、順にフレームデータFDを生成する。
具体的には、第2の実施形態で説明したように、信号処理部42aに含まれる音声認識処理部422により、音声認識が可能な音声信号のみを抽出し、抽出した音声信号に基づいて、声紋照合処理部424は、事前に登録された声紋データと照合することにより、発話者を特定する。さらに、メタデータ作成部427は、データ入力部426が入力した付加データDATAと、特定された発話者データとに基づいてメタデータを作成する。
フレームデータ生成部428において、作成されたメタデータは、DSP25が出力する音声信号と合成されて、フレームデータFDが生成される。
第2の実施形態で説明したように、上記処理は、図26に示すマイクロプロセッサ23により、たとえば発話者が切り替わる毎にフレームデータFDが生成されるように、タイミング制御される。
なお、本実施形態においては、DSP25がマイク選択結果表示装置30であるLED1〜6に出力するマイク選択結果により、DSP25が選択したマイクロフォンをモニタすることが可能なので、このモニタ結果に基づいて、マイク選択が変化するタイミングで順次フレームデータFDを生成/出力するように、タイミング制御を行ってもよい。
上述したように、本実施形態における音声記録装置40aによれば、複数の指向性マイクロフォンを有し、各マイクロフォンが集音する集音信号の音圧レベルに基づいて、DSP25が1の発話者(主の発話者)を特定した後に、信号処理部42aが音声認識処理および声紋照合処理を行うので、複数の発話者が混在した音声信号を信号処理部42aが処理することがなく、発話者特定の精度が向上する。
したがって、本実施形態に係る音声記録装置40aは、複数の発話者が同時に発話することが頻繁に行われる会議においても使用することができるので、第1の実施形態で説明した音声記録装置40と比較して、より実用性が高い装置であるということが言える。
第4の実施形態
以下、第4の実施形態に係る音声再生装置について説明する。
本実施形態に係る音声再生装置50は、第2および第3の実施形態において説明した音声記録装置40,40aが記録/出力する音声のフレームデータFDに基づいて、音声を再生する装置である。
図27は、本実施形態に係る音声再生装置50のブロック図の1例を示す図である。
図27に示すように、音声再生装置50は、信号処理部51とスピーカ52により構成される。
信号処理部51は、図示しないCPUを含み、CPUに制御される第1のバッファ部511と、要求信号処理部512と、第2のバッファ部513と、D/A変換器514とを備えて構成される。
第1のバッファ部511は、信号処理部51が入力したフレームデータFDを一時記憶し、要求信号処理部512の指示に応じたフレームデータを選択し、選択したフレームデータに含まれる音声データ出力する(信号S511)。
要求信号処理部512は、外部の要求信号REQに基づいて、第1のバッファ部511に対して要求に応じたフレームデータのみを抽出するように指示する。
要求信号REQは、メタデータMDに含まれるデータ、たとえば、特定の発話者データや特定の時間データを指定して構成され、指定された発話者のみのフレームデータや、指定された特定の時間のみのフレームデータを、入力したフレームデータFDから抽出するように、第1のバッファ部511に対して指示する。
第2のバッファ部513は、第1のバッファ部511が要求信号処理部512の指示に応じて選択した音声データを入力して、順次出力する(信号S513)。
D/A変換器514は、第2のバッファ部513が出力する音声のディジタルデータを、順次アナログデータに変換してスピーカ52に出力する(信号S514)。
上述したように、本実施形態に係る音声再生装置50は、音声のフレームデータFDを入力して、要求信号REQに応じたフレームデータFDのみを抽出して、抽出したフレームデータFDに含まれる音声データを再生する。
また、フレームデータFDには、特定の機器に対して有効なエクスクルーシブデータや、送出先等を規定した制御データが含まれているので、要求信号REQに基づいて、指定した複数の出力先の機器等に音声データを振り分けて出力させるということも可能である。
なお、上述したフレームデータFDについての処理は、音声記録装置において記録/蓄積されたフレームデータFDを入力して処理する場合について記載したが、音声記録装置がリアルタイムで出力するフレームデータFDを順次入力して、リアルタイムに音声データを再生するように構成することもできる。
その場合には、たとえば要求信号REQにより選択された発話者の発言の頻度が少ない場合には、選択された音声をすぐに再生してしまうと無音時間が多くなるため、信号処理部51に第3のバッファを設け、第2のバッファ部513が保持する音声データをすぐに出力せず、出力タイミングを調整する等して、選択された発話者の音声が極力連続的に再生できるようにすることが望ましい。
(A)は双方向通話装置が適用される1例しての会議システムの概要を示す図であり、(B)は(A)における通話装置が載置される状態を示す図であり、(C)はテーブルに載置された通話装置と会議参加者との配置を示す図である。 双方向通話装置の斜視図である。 図1に図解した双方向通話装置の内部断面図である。 図1に図解した双方向通話装置の上部カバーを取り外したマイクロフォン・電子回路収容部の平面図である。 マイクロフォン・電子回路収容部の主要回路の接続状態を示す図であり、第1のディジタルシグナルプロセッサ(DSP1)および第2のディジタルシグナルプロセッサ(DSP2)の接続の接続状態を示している。 図4に図解したマイクロフォンの特性図である。 (A)〜(D)は、図6に図解した特性を持つマイクロフォンの指向性を分析した結果を示すグラフである。 双方向通話装置の変形態様の部分構成図である。 第1のディジタルシグナルプロセッサ(DSP1)における全体処理内容の概要を示すグラフである。 双方向通話装置のノイズ測定方法の第1形態を示すフローチャートである。 双方向通話装置のノイズ測定方法の第2形態を示すフローチャートである。 双方向通話装置のノイズ測定方法の第3形態を示すフローチャートである。 双方向通話装置のノイズ測定方法の第4形態を示すフローチャートである。 双方向通話装置のノイズ測定方法の第5形態を示すフローチャートである。 通話装置内のフィルタリング処理を示す図面である。 図15の処理結果を示す周波数特性図である。 バンドパス・フィルタリング処理とレベル変換処理を示すブロック図である。 図17の処理を示すフローチャートである。 双方向通話装置の発言開始、終了を判定する処理を示すグラフである。 双方向通話装置の通常処理の流れを示すグラフである。 双方向通話装置の通常処理の流れを示すフローチャートである。 双方向通話装置のマイクロフォン切り替え処理を図解したブロック図である。 双方向通話装置のマイクロフォン切り替え処理の方法を図解したブロック図である。 本発明の第2の実施形態に係る音声記録装置の構成の1例を示す図である。 本発明の実施形態である音声記録装置により記録されるデータ構造の1例を示す図である。 本発明の第3の実施形態に係る音声記録装置の構成の1例を示す図である。 第4の実施形態である音声再生装置の構成の1例を示す図である。
符号の説明
1…双方向通話装置、MC1〜MC6…マイクロフォン、16…受話スピーカ、23…マイクロプロセッサ、24…コーデック、25…第1のディジタルシグナルプロセッサ(DSP1)、26…第2のディジタルシグナルプロセッサ(DSP2)、27…A/D変換器ブロック、28…D/A変換器ブロック、29…増幅器ブロック、40,40a…音声記録装置、41…マイクロフォン、42,42a…信号処理部、421…A/D変換器、422…音声認識処理部、423…認識辞書メモリ、424…声紋照合処理部、425…声紋データメモリ、426…データ入力部、427…メタデータ作成部、428…フレームデータ生成部、429…記録媒体、50…音声再生装置、51…信号処理部、511…第1のバッファ部、512…要求信号処理部、513…第2のバッファ部、514…D/A変換器、52…スピーカ。

Claims (6)

  1. マイクロフォンと、
    前記マイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出する音声認識処理手段と、
    前記音声認識処理手段が抽出する前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、
    前記マイクロフォンが前記第1の音声データを集音した時刻を計時する計時手段と、
    前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、
    前記メタデータ生成手段が生成したメタデータと前記第1の音声データとを合成し、フレームデータを生成するフレームデータ生成手段と
    を具備する音声処理装置。
  2. 前記第1の音声データに関連する情報を入力する情報入力手段
    をさらに有し、
    前記メタデータ生成手段は、前記情報入力手段が入力する情報を含むメタデータを生成する
    請求項1記載の音声処理装置。
  3. 前記フレームデータ生成手段は、
    前記声紋照合処理手段が照合する声紋が変化するタイミングで、順次フレームデータを生成する
    請求項1記載の音声処理装置。
  4. 前記フレームデータ生成手段は、
    所定時間間隔で、順次フレームデータを生成する
    請求項1記載の音声処理装置。
  5. 指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択するマイクロフォン選択手段と、
    前記マイクロフォン選択手段により選択されたマイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出する音声認識処理手段と、
    前記音声認識処理手段が抽出する前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、
    前記マイクロフォンが前記第1の音声データを集音した時刻を計時する計時手段と、
    前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、
    前記メタデータ生成手段が生成したメタデータと前記第1の音声データとを合成し、フレームデータを生成するフレームデータ生成手段と
    を具備する音声処理装置。
  6. マイクロフォンが集音した音声データの中から特定の音声データのみを再生する音声処理方法であって、
    前記マイクロフォンが集音した第1の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第2の音声データとして抽出し、
    前記第2の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、
    前記マイクロフォンが前記第1の音声データを集音した時刻を計時し、
    一致した声紋を特定するデータと計時した時刻のデータとを含むメタデータと、前記第1の音声データとを合成したフレームデータを生成し、
    前記メタデータに含まれるデータを特定し、生成したフレームデータの中から、特定したデータを含むフレームデータを抽出し、
    抽出したフレームデータに含まれる音声データを再生する
    音声処理方法。
JP2003417967A 2003-12-16 2003-12-16 音声処理装置および音声処理方法 Pending JP2005181391A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003417967A JP2005181391A (ja) 2003-12-16 2003-12-16 音声処理装置および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003417967A JP2005181391A (ja) 2003-12-16 2003-12-16 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2005181391A true JP2005181391A (ja) 2005-07-07

Family

ID=34780299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003417967A Pending JP2005181391A (ja) 2003-12-16 2003-12-16 音声処理装置および音声処理方法

Country Status (1)

Country Link
JP (1) JP2005181391A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108541A (ja) * 2005-10-14 2007-04-26 Nec Corp メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2010130223A (ja) * 2008-11-26 2010-06-10 Fujitsu Ten Ltd 音声操作システムおよび音声操作方法
WO2017031846A1 (zh) * 2015-08-25 2017-03-02 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
WO2018230063A1 (ja) * 2017-06-12 2018-12-20 株式会社オーディオテクニカ データ伝送装置とデータ伝送システム
CN111248861A (zh) * 2020-01-16 2020-06-09 广州国音智能科技有限公司 一种提高声纹采集精度的方法、装置和设备
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
JP2022509761A (ja) * 2018-11-13 2022-01-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ・サービスにおけるオーディオ処理
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法
US12156012B2 (en) 2018-11-13 2024-11-26 Dolby International Ab Representing spatial audio by means of an audio signal and associated metadata

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108541A (ja) * 2005-10-14 2007-04-26 Nec Corp メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2010130223A (ja) * 2008-11-26 2010-06-10 Fujitsu Ten Ltd 音声操作システムおよび音声操作方法
WO2017031846A1 (zh) * 2015-08-25 2017-03-02 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
JP7161214B2 (ja) 2017-06-12 2022-10-26 株式会社オーディオテクニカ データ伝送装置とデータ伝送システム
WO2018230063A1 (ja) * 2017-06-12 2018-12-20 株式会社オーディオテクニカ データ伝送装置とデータ伝送システム
JPWO2018230063A1 (ja) * 2017-06-12 2020-04-30 株式会社オーディオテクニカ データ伝送装置とデータ伝送システム
US12184447B2 (en) 2017-06-12 2024-12-31 Audio-Technica Corporation Data transmission device and data transmission system
CN110741608A (zh) * 2017-06-12 2020-01-31 铁三角有限公司 数据传输装置和数据传输系统
EP3641235A4 (en) * 2017-06-12 2021-03-03 Audio-Technica Corporation DATA TRANSFER DEVICE AND DATA TRANSFER SYSTEM
CN110741608B (zh) * 2017-06-12 2021-12-31 铁三角有限公司 数据传输装置和数据传输系统
JP7488258B2 (ja) 2018-11-13 2024-05-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ・サービスにおけるオーディオ処理
JP2022509761A (ja) * 2018-11-13 2022-01-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ・サービスにおけるオーディオ処理
US12156012B2 (en) 2018-11-13 2024-11-26 Dolby International Ab Representing spatial audio by means of an audio signal and associated metadata
US12167219B2 (en) 2018-11-13 2024-12-10 Dolby Laboratories Licensing Corporation Audio processing in immersive audio services
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
CN111248861A (zh) * 2020-01-16 2020-06-09 广州国音智能科技有限公司 一种提高声纹采集精度的方法、装置和设备
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法
JP2024101703A (ja) * 2023-01-18 2024-07-30 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Similar Documents

Publication Publication Date Title
JP3972921B2 (ja) 音声集音装置とエコーキャンセル処理方法
JP3891153B2 (ja) 通話装置
JP2005086365A (ja) 通話装置、会議装置および撮像条件調整方法
US7672844B2 (en) Voice processing apparatus
JP2004343262A (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
JP4192800B2 (ja) 音声集音装置と方法
US20200184991A1 (en) Sound class identification using a neural network
JP4411959B2 (ja) 音声集音・映像撮像装置
US20240249714A1 (en) Multi-encoder end-to-end automatic speech recognition (asr) for joint modeling of multiple input devices
JP2005181391A (ja) 音声処理装置および音声処理方法
JP4479227B2 (ja) 音声集音・映像撮像装置および撮像条件決定方法
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
JP4269854B2 (ja) 通話装置
JP4225129B2 (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
JP4639639B2 (ja) マイクロフォン信号生成方法および通話装置
JP4281568B2 (ja) 通話装置
JP4379105B2 (ja) 飲食店における受注装置
JP2005055667A (ja) 音声処理装置
US7043427B1 (en) Apparatus and method for speech recognition
JP4453294B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置
JP2005148301A (ja) 音声処理装置と音声処理方法
JP2005055666A (ja) 音声処理装置
JP2005151042A (ja) 音源位置特定装置および撮像装置並びに撮像方法
Lai et al. Effective microphone array placement in interactive whiteboards for smart meeting rooms
JP4403370B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置