JP2005181391A

JP2005181391A - 音声処理装置および音声処理方法

Info

Publication number: JP2005181391A
Application number: JP2003417967A
Authority: JP
Inventors: Hideharu Fujiyama; 英春藤山; Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】音声データに、その音声データに関連した情報を付加したデータを順次生成／記録し、付加された情報に応じた音声データを抽出可能とする音声処理装置および音声処理方法を提供する。
【解決手段】Ａ／Ｄ変換器４２１は、マイクロフォン４１が集音した信号をディジタル信号（音声データ）に変換し、音声認識処理部４２２は、音声データを認識処理し認識可能な音声データのみを抽出し、声紋照合処理部４２４は、抽出された音声データに基づいて声紋照合処理を行い、予め登録された声紋データに合致する発話者を特定する。データ入力部４２６は、付加データＤＡＴＡを入力し、メタデータ作成部４２７は、特定された発話者と付加データＤＡＴＡに基づいてメタデータを作成する。フレームデータ生成部４２８は、音声データと当該音声データに対応するメタデータを合成してフレームデータを生成する。
【選択図】図２４

Description

本発明は、マイクロフォンが集音した音声データをディジタル処理する音声処理装置および音声処理方法に関するものである。

従来より、たとえば会議の内容を映像データや音声データとして記録し、会議の後に記録した映像データや音声データを再生することにより、会議の議事録を作成したり、特定の情報のみを抽出し、抽出した情報を整理したりすることが行われている。
たとえば、会議の議題に関心のある人間が必ずしもその会議に出席する限らないので、その会議の議題の関係者に配付するために、その会議の議事録を作成する目的や、会議に複数の議題が含まれている場合に、注目する議題の情報のみを会議の後に抽出する目的等のために、会議におけるすべての記録情報の中から、所望の情報を抽出することが必要となる。

ところで、このような会議を記録するための音声処理装置としての音声記録装置（音声のみを記録）や、映像記録装置（通常は、音声および映像を記録）は従来から知られている。特に、映像記録装置については、映像情報に付加情報を重畳して記録することにより、すべての映像情報の中から一部の映像情報を抽出するための様々なデータ処理手法が知られており、上述したような所望の情報を抽出することが可能である。

しかしながら、従来の音声記録装置については、音声データに関連した情報を音声データに付加してから処理することができないので、映像記録装置のように所望の情報を抽出することができない。たとえば、記録した会議の音声データから同じ発話者の発言のみを再生したい場合でも、従来の音声記録装置では、特定の発話者の音声データのみを抽出できる形で音声データを記録していないので、実現することができない。
特に、会議の記録を行う等の用途の場合には、むしろ映像情報よりも音声情報の方が重要であり、誰が発話したか等の音声情報の観点から記録した情報を検索・抽出できるようにすることが要望される。

本発明はかかる事情に鑑みてなされたものであり、その目的は、音声データに、その音声データに関連した情報を付加したデータを順次生成／記録し、付加された情報に応じた音声データを抽出可能とする音声処理装置および音声処理方法を提供することにある。

上記目的を達成するための本発明の第１の観点は、マイクロフォンと、前記マイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出する音声認識処理手段と、前記音声認識処理手段が抽出する前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、前記マイクロフォンが前記第１の音声データを集音した時刻を計時する計時手段と、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、前記メタデータ生成手段が生成したメタデータと前記第１の音声データとを合成し、フレームデータを生成するフレームデータ生成手段とを具備する音声処理装置である。

好適には、前記第１の音声データに関連する情報を入力する情報入力手段をさらに有し、前記メタデータ生成手段は、前記情報入力手段が入力する情報を含むメタデータを生成する。

上記目的を達成するための本発明の第２の観点は、指向性を有する少なくとも２つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、１つのマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段により選択されたマイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出する音声認識処理手段と、前記音声認識処理手段が抽出する前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、前記マイクロフォンが前記第１の音声データを集音した時刻を計時する計時手段と、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、前記メタデータ生成手段が生成したメタデータと前記第１の音声データとを合成し、フレームデータを生成するフレームデータ生成手段とを具備する音声処理装置である。

上記目的を達成するための本発明の第３の観点は、マイクロフォンが集音した音声データの中から特定の音声データのみを再生する音声処理方法であって、前記マイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出し、前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、前記マイクロフォンが前記第１の音声データを集音した時刻を計時し、一致した声紋を特定するデータと計時した時刻のデータとを含むメタデータと、前記第１の音声データとを合成したフレームデータを生成し、前記メタデータに含まれるデータを特定し、生成したフレームデータの中から、特定したデータを含むフレームデータを抽出し、抽出したフレームデータに含まれる音声データを再生する。

本発明の第１の観点に係る音声処理装置によれば、音声認識処理手段は、マイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出し、声紋照合処理手段は、前記音声認識処理手段が抽出する前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、計時手段は、前記マイクロフォンが前記第１の音声データを集音した時刻を計時し、メタデータ生成手段は、前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成し、フレームデータ生成手段は、前記メタデータ生成手段が生成したメタデータと前記第１の音声データとを合成し、フレームデータを生成するので、フレームデータに含まれるメタデータ内の特定の情報（声紋を特定するデータ、時刻のデータ）を指定することで、フレームデータを選択できる。したがって、特定の情報に応じた音声データのみを選別可能となる。

本発明によれば、音声データに、その音声データに関連した情報を付加したデータを順次生成／記録し、付加された情報に応じた音声データを抽出可能とするので、すべての音声データを再生する必要がなく、必要な音声データのみを再生することができ利便性が高いという利点がある。

第１の実施形態
以下、本発明のマイクロフォン選択手段としての通話装置（双方向通話装置）について述べる。
図１（Ａ）〜（Ｃ）は本発明の通話装置が適用される１例を示す構成図である。
図１（Ａ）に図解したように、遠隔に位置する２つの会議室９０１、９０２にそれぞれ通話装置１Ａ、１Ｂが設置されており、これらの通話装置１Ａ、１Ｂが電話回線９２０で接続されている。
図１（Ｂ）に図解したように、２つの会議室９０１、９０２において、双方向通話装置１Ａ、１Ｂがそれぞれテーブル９１１、９１２の上に置かれている。ただし、図１（Ｂ）においては、図解の簡略化のため、会議室９０１内の双方向通話装置１Ａについてのみ図解している。会議室９０２内の双方向通話装置１Ｂも同様である。双方向通話装置１Ａ、１Ｂの外観斜視図を図２に示す。
図１（Ｃ）に図解したように、双方向通話装置１Ａ、１Ｂの周囲にそれぞれ複数（本実施の形態においては６名）の会議参加者Ａ１〜Ａ６が位置している。ただし、図１（Ｃ）においては、図解の簡略化のため、会議室９０１内の双方向通話装置１Ａの周囲の会議参加者のみ図解している。他方の会議室９０２内の双方向通話装置１Ｂの周囲に位置する会議参加者の配置も同様である。

本発明の双方向通話装置は、たとえば、２つの会議室９０１、９０２との間で電話回線９２０を介して音声による応答が可能である。
通常、電話回線９２０を介しての会話は、一人の話者と一人の話者同士、すなわち、１対１で通話を行うが、本発明の双方向通話装置は１つの電話回線９２０を用いて複数の会議参加者Ａ１〜Ａ６同士が通話できる。ただし、詳細は後述するが、音声の混雑を回避するため、同時刻（同じ時間帯）の話者は、相互に一人に限定する。
本発明の双方向通話装置は音声（通話）を対象としているから、電話回線９２０を介して音声を伝送するだけである。換言すれば、テレビ会議システムのような多量の画像データは伝送しない。さらに、本発明の双方向通話装置は会議参加者の通話を圧縮して伝送しているので電話回線９２０の伝送負担は軽い。

双方向通話装置の構成
図２〜図４を参照して本発明の１実施の形態としての双方向通話装置の構成について述べる。
図２は本発明の１実施の形態としての双方向通話装置の斜視図である。
図３は図２に図解した双方向通話装置の断面図である。
図４は図１に図解した双方向通話装置のマイクロフォン・電子回路収容部の平面図であり、図３の線Ｘ−Ｘ−Ｙにおける平面図である。

図２に図解したように、双方向通話装置１は、上部カバー１１と、音反射板１２と、連結部材１３と、スピーカ収容部１４と、操作部１５とを有する。
図３に図解したように、スピーカ収容部１４は、音反射面１４ａと、底面１４ｂと、上部音出力開口部１４ｃとを有する。音反射面１４ａと底面１４ｂで包囲された空間である内腔１４ｄに受話再生スピーカ１６が収容されている。スピーカ収容部１４の上部に音反射板１２が位置し、スピーカ収容部１４と音反射板１２とが連結部材１３によって連結されている。

連結部材１３内には拘束部材１７が貫通しており、拘束部材１７は、スピーカ収容部１４の底面１４ｂの拘束部材・下部固定部１４ｅと、音反射板１２の拘束部材固定部１２ｂとの間を拘束している。ただし、拘束部材１７はスピーカ収容部１４の拘束部材・貫通部１４ｆは貫通しているだけである。拘束部材１７が拘束部材・貫通部１４ｆを貫通してここで拘束していないのはスピーカ１６の動作によってスピーカ収容部１４が振動するが、その振動を上部音出力開口部１４ｃの周囲においては拘束させないためである。

スピーカ
相手会議室の話者が話した音声は、受話再生スピーカ１６を介して上部音出力開口部１４ｃから抜け、音反射板１２の音反射面１２ａとスピーカ収容部１４の音反射面１４ａとで規定される空間に沿って軸Ｃ−Ｃを中心として３６０度の全方位に拡散する。
音反射板１２の音反射面１２ａの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面１２ａの断面は軸Ｃ−Ｃを中心として３６０度にわたり（全方位）、図解した断面形状をしている。
同様にスピーカ収容部１４の音反射面１４ａの断面も図解したように、ゆるやかな凸面を描いている。音反射面１４ａの断面も軸Ｃ−Ｃを中心として３６０度にわたり（全方位）、図解した断面形状をしている。

受話再生スピーカ１６から出た音Ｓは、上部音出力開口部１４ｃを抜け、音反射面１２ａと音反射面１４ａとで規定される断面がラッパ状の音出力空間を経て、音声応答装置１が載置されているテーブル９１１の面に沿って、軸Ｃ−Ｃを中心として３６０度全方位に拡散していき、全ての会議参加者Ａ１〜Ａ６に等しい音量で聞き取られる。本実施の形態においては、テーブル９１１の面も音伝播手段の一部として利用している。
受話再生スピーカ１６から出力された音Ｓの拡散状態を矢印で図示した。

音反射板１２は、プリント基板２１を支持している。
プリント基板２１には、図４に平面を図解したように、マイクロフォン・電子回路収容部２のマイクロフォンＭＣ１〜ＭＣ６、発光ダイオードＬＥＤ１〜６、マイクロプロセッサ２３、コーデック（ＣＯＤＥＣ）２４、第１のディジタルシグナルプロセッサ（ＤＳＰ１）ＤＳＰ２５、第２のディジタルシグナルプロセッサ（ＤＳＰ２）ＤＳＰ２６、Ａ／Ｄ変換器ブロック２７、Ｄ／Ａ変換器ブロック２８、増幅器ブロック２９などの各種電子回路が搭載されており、音反射板１２はマイクロフォン・電子回路収容部２を支持する部材としても機能している。

プリント基板２１には、受話再生スピーカ１６からの振動が音反射板１２を伝達してマイクロフォンＭＣ１〜ＭＣ６などに進入して騒音とならないように、受話再生スピーカ１６からの振動を吸収するダンパー１８が取り付けられている。ダンパー１８は、ネジと、このネジとプリント基板２１との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板２１にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ１６からプリント基板２１に伝達される振動が吸収される。これにより、マイクロフォンＭＣ１〜ＭＣ６は、スピーカ１６からの音の影響を受けない。

マイクロフォンの配置
図４に図解したように、プリント基板２１の中心軸Ｃから放射状に等間隔（本実施の形態では６０度間隔で）で６本のマイクロフォンＭＣ１〜ＭＣ６が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンＭＣ１〜ＭＣ６は、共に柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとで、揺動自在に支持されており（図解を簡単にするため、マイクロフォンＭＣ１の部分の第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとについてのみ図解している）、上述した緩衝材を用いたダンパー１８による受話再生スピーカ１６からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとで受話再生スピーカ１６からの振動で振動するプリント基板２１の振動を吸収して受話再生スピーカ１６の振動の影響を受けないようにして、受話再生スピーカ１６の騒音を回避している。

図３に図解したように、受話再生スピーカ１６はマイクロフォンＭＣ１〜ＭＣ６が位置する平面の中心軸Ｃ−Ｃに対して垂直に指向しており（本実施の形態においては上方向に向いている（指向している））、このような受話再生スピーカ１６と６本のマイクロフォンＭＣ１〜ＭＣ６の配置により、受話再生スピーカ１６と各マイクロフォンＭＣ１〜ＭＣ６との距離は等距離となり、受話再生スピーカ１６からの音声は、各マイクロフォンＭＣ１〜ＭＣ６に対しほとんど同音量、同位相で届く。ただし、上述した音反射板１２の音反射面１２ａおよびスピーカ収容部１４の音反射面１４ａの構成により、受話再生スピーカ１６の音が直接マイクロフォンＭＣ１〜ＭＣ６には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー１８と、柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとを用いることにより、受話再生スピーカ１６の振動の影響を低減している。
会議参加者Ａ１〜Ａ６は、通常、図１（Ｃ）に例示したように、音声応答装置１の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。

発光ダイオード
後述する話者を決定したことを通報する手段として発光ダイオードＬＥＤ１〜６がマイクロフォンＭＣ１〜ＭＣ６の近傍に配置されている。
発光ダイオードＬＥＤ１〜６は上部カバー１１を装着した状態でも、全ての会議参加者Ａ１〜Ａ６から視認可能に設けられている。したがって、上部カバー１１は発光ダイオードＬＥＤ１〜６の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー１１に発光ダイオードＬＥＤ１〜６の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部２への防塵の観点からは透光窓が好ましい。

プリント基板２１には、後述する各種の信号処理を行うために、第１のディジタルシグナルプロセッサ（ＤＳＰ１）２５、第２のディジタルシグナルプロセッサ（ＤＳＰ２）２６、各種電子回路２７〜２９が、マイクロフォンＭＣ１〜ＭＣ６が位置する部分以外の空間に配置されている。
本実施の形態においては、ＤＳＰ２５を各種電子回路２７〜２９とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、ＤＳＰ２６をエコーキャンセラーとして用いている。

図５は、マイクロプロセッサ２３、コーデック２４、ＤＳＰ２５、ＤＳＰ２６、Ａ／Ｄ変換器ブロック２７、Ｄ／Ａ変換器ブロック２８、増幅器ブロック２９、その他各種電子回路の概略構成図である。
マイクロプロセッサ２３はマイクロフォン・電子回路収容部２の全体制御処理を行う。コーデック２４は相手方会議室に送信する音声を圧縮符号化する。
ＤＳＰ２５が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
ＤＳＰ２６はエコーキャンセラーとして機能する。
図５においては、Ａ／Ｄ変換器ブロック２７の１例として、４個のＡ／Ｄ変換器２７１〜２７４を例示し、Ｄ／Ａ変換器ブロック２８の１例として、２個のＤ／Ａ変換器２８１〜２８２を例示し、増幅器ブロック２９の１例として、２個の増幅器２９１〜２９２を例示している。
その他、マイクロフォン・電子回路収容部２としては電源回路など各種の回路がプリント基板２１に搭載されている。

図４においてプリント基板２１の中心軸Ｃに対してそれぞれ対称（または対向する）位置に一直線上に配設された１対のマイクロフォンＭＣ１−ＭＣ４：ＭＣ２−ＭＣ５：ＭＣ３−Ｍ６が、それぞれ２チャネルのアナログ信号をディジタル信号に変換するＡ／Ｄ変換器２７１〜２７３に入力されている。本実施の形態においては、１個のＡ／Ｄ変換器が２チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Ｃを挟んで一直線上に位置する２個（１対）のマイクロフォン、たとえば、マイクロフォンＭＣ１とＭＣ４の検出信号を１個のＡ／Ｄ変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する２個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する２個のマイクロフォンの信号を同じＡ／Ｄ変換器に入力すると、変換タイミングもほぼ同じになり、２個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、Ａ／Ｄ変換器２７１〜２７４は可変利得型増幅機能付きのＡ／Ｄ変換器２７１〜２７４として構成することもできる。
Ａ／Ｄ変換器２７１〜２７４で変換したマイクロフォンＭＣ１〜ＭＣ６の集音信号はＤＳＰ２５に入力されて、後述する各種の信号処理が行われる。
ＤＳＰ２５の処理結果の１つとして、マイクロフォンＭＣ１〜ＭＣ６のうちの１つを選択した結果が、発光ダイオードＬＥＤ１〜６に出力される。

ＤＳＰ２５の処理結果が、ＤＳＰ２６に出力されてエコーキャンセル処理が行われる。ＤＳＰ２６は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
ＤＳＰ２６の処理結果が、Ｄ／Ａ変換器２８１〜２８２でアナログ信号に変換される。Ｄ／Ａ変換器２８１からの出力が、必要に応じて、コーデック２４で符号化されて、増幅器２９１を介して電話回線９２０（図１（Ａ））のラインアウトに出力され、相手方会議室に設置された音声応答装置１の受話再生スピーカ１６を介して音として出力される。
相手方の会議室に設置された双方向通話装置１からの音声が電話回線９２０（図１（Ａ））のラインインを介して入力され、Ａ／Ｄ変換器２７４においてディジタル信号に変換されて、ＤＳＰ２６に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された双方向通話装置１からの音声は図示しない経路でスピーカ１６に印加されて音として出力される。
Ｄ／Ａ変換器２８２からの出力が増幅器２９２を介してこの双方向通話装置１の受話再生スピーカ１６から音として出力される。すなわち、会議参加者Ａ１〜Ａ６は、上述した受話再生スピーカ１６から相手会議室の選択された話者の音声に加えて、その会議室のいる発言者が発した音声をも受話再生スピーカ１６を介して聞くことが出来る。

マイクロフォンＭＣ１〜ＭＣ６
図６は各マイクロフォンＭＣ１〜ＭＣ６の特性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図６に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、１００Ｈｚ、１５０Ｈｚ、２００Ｈｚ、３００Ｈｚ、４００Ｈｚ、５００Ｈｚ、７００Ｈｚ、１０００Ｈｚ、１５００Ｈｚ、２０００Ｈｚ、３０００Ｈｚ、４０００Ｈｚ、５０００Ｈｚ、７０００Ｈｚの時の指向性を示している。ただし、図解を簡単にするため、図６は代表的に、１５０Ｈｚ、５００Ｈｚ、１５００Ｈｚ、３０００Ｈｚ、７０００Ｈｚについての指向性を図解している。

図７（Ａ）〜（Ｄ）は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、双方向通話装置１と所定距離、たとえば、１．５メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換（ＦＦＴ）した結果を示している。Ｘ軸が周波数を、Ｙ軸が信号レベルを、Ｚ軸が時間を表している。
図６の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、ＤＳＰ２５においてマイクロフォンの選定処理を行う。

本発明のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音するので発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン１本で集音することによって周辺のノイズとのＳ／Ｎを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクアレイを用いることができるが、このような方法では、複数の信号の時間軸（位相）の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、ＤＳＰの信号処理系にも複雑な信号処理を必要とする。本発明は図６に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクアレイ信号を合成して指向性収音マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。

通話装置の装置構成の効果
上述した構成の通話装置は下記の利点を示す。
（１）等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンＭＣ１〜ＭＣ６と受話再生スピーカ１６との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ１６から出た音が会議室（部屋）環境を経てマイクロフォンＭＣ１〜ＭＣ６に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ１６からマイクロフォンＭＣ１〜ＭＣ６に音が到達する特性（信号レベル（強度）、周波数特性（ｆ特）、位相）がいつも同じである。つまり、本発明の実施の形態における双方向通話装置１においてはいつも伝達関数が同じという利点がある。
（２）それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、本双方向通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
（３）上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー（ＤＳＰ２６）が一つでよい。ＤＳＰは高価であり、種々の部材が搭載されて空きが少ないプリント基板２１に複数のＤＳＰを配置する必要がなく、プリント基板２１におけるＤＳＰの配置するスペースも少なくてよい。その結果、プリント基板２１、ひいては、本発明の通話装置を小型にできる。
（４）上述したように、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６間の伝達関数が一定であるため、たとえば、±３ｄＢもあるマイクロフォン自体の感度差調整を双方向通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
（５）双方向通話装置１が搭載されるテーブルは、通常、円いテーブル（円卓）または多角テーブルを用いるが、双方向通話装置１１内の一つの受話再生スピーカ１６で均等な品質の音声を軸Ｃを中心として３６０度全方位に均等に分散（拡散）するスピーカシステムが可能になった。
（６）受話再生スピーカ１６から出た音は円卓のテーブル面を伝達して（バウンダリ効果）会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
（７）受話再生スピーカ１６から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンＭＣ１〜ＭＣ６に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
（８）偶数個、たとえば、６本のマイクロフォンを等角度で放射状かつ等間隔で、対向する１対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
（９）ダンパー１８、マイクロフォン支持部材２２などにより、受話再生スピーカ１６の音による振動が、マイクロフォンＭＣ１〜ＭＣ６の集音に与える影響を低減することができる。
（１０）図３に図解したように、構造的に、受話再生スピーカ１６の音が直接、マイクロフォンＭＣ１〜ＭＣ６には伝搬しない。したがって、この双方向通話装置１においは受話再生スピーカ１６からのノイズの影響が少ない。

変形例
図２〜図３を参照して述べた通話装置１は、下部に受話再生スピーカ１６を配置させ、上部にマイクロフォンＭＣ１〜ＭＣ６（および関連する電子回路）を配置させたが、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６（および関連する電子回路）の位置を、図８に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。

マイクロフォンの本数は６には限定されず、４本、８本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Ｃを複数対それぞれ一直線に（同方向に）、たとえば、マイクロフォンＭＣ１とＭＣ４のように一直線に配置する。２本のマイクロフォンＭＣ１、ＭＣ４を対向させて一直線に配置する理由は、マイクロフォンの選定して話者を特定するためである。

信号処理内容
以下、主として第１のディジタルシグナルプロセッサ（ＤＳＰ）２５で行う処理内容について述べる。
図９はＤＳＰ２５が行う処理の概要を図解した図である。以下、その概要を述べる。

（１）周囲のノイズの測定
初期動作として、好ましくは、双方向通話装置１が設置される周囲のノイズの測定する。
双方向通話装置１は種々の環境（会議室）で使用されうる。マイクロフォンの選択の正確さを期し、双方向通話装置１の性能を高めるために、本発明においては、初期段階において、双方向通話装置１が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、双方向通話装置１を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
ノイズ測定の詳細は後述する。

（２）議長の選定
たとえば、双方向通話装置１を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の１態様としては、双方向通話装置１を使用する初期段階において、双方向通話装置１の操作部１５から議長を設定する。議長の設定方法としては、たとえば、操作部１５の近傍に位置する第１マイクロフォンＭＣ１を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、双方向通話装置１を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
議長選定の詳細は後述する。

（３）マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６との音響結合が等しくなるように、マイクロフォンＭＣ１〜ＭＣ６の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
感度差調整については後述する。

通常処理として下記に例示する各種の処理を行う。
（４）マイクロフォン選択、切り替え処理
１つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者Ａ１〜Ａ６にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には１人ずつ通話させる。そのため、ＤＳＰ２５においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、電話回線９２０を介して相手方会議室の音声応答装置１に伝送されてスピーカから出力される。もちろん、図５を参照して述べたように、選択された話者のマイクロフォンの近傍のＬＥＤが点灯し、さらに、その部屋の双方向通話装置１のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にＳ／Ｎの良い信号を送ることを目的としている。
（５）選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者Ａ１〜Ａ６全員に容易に認識できるように、発光ダイオードＬＥＤ１〜６の該当するものを点灯させる。
（６）上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
（ａ）マイクロフォンの集音信号の帯域分離と、レベル変換処理
（ｂ）発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するため。
（ｃ）発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフォンを判定するため。
（ｄ）発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。（ｅ）通常動作時のフロアノイズの測定

フロア（環境）ノイズの測定
この処理は双方向通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。

双方向通話装置１の電源投入直後、ＤＳＰ２５は図１０〜図１２を参照して述べる下記のノイズ測定を行う。
双方向通話装置１の電源投入直後のＤＳＰ２５の初期処理は、フロアノイズと基準信号レベルを測定し、その差を元に話者と本システムとの有効距離の目安と発言開始、終了判定閾値レベルの設定するために行う。
ＤＳＰ２５内の音圧レベル検出部でピークホールドしたレベル値を一定時間間隔、たとえば、10mSecで読み出し、単位時間の値の平均値を算出しフロアノイズとする。そして、ＤＳＰ２５は測定されたフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。

図１０、処理１：テストレベル測定
ＤＳＰ２５は、図１０に図解した処理に従い、図５に図解した受話信号系のラインイン端子にテストトーンを出力し、受話再生スピーカ１６からの音を各マイクロフォンＭＣ１〜ＭＣ６で集音し、その信号を発言開始基準レベルとして平均値を求める。

図１１、処理２：ノイズ測定１
ＤＳＰ２５は、図１１に図解した処理に従い、各マイクロフォンＭＣ１〜ＭＣ６からの集音信号のレベルをフロアノイズレベルとして一定時間収集し、平均値を求める。

図１２、処理３：有効距離試算
ＤＳＰ２５は、図１２に図解した処理に従い、発言開始基準レベルとフロアノイズレベルを比較し、双方向通話装置１の設置されている会議室などの部屋の騒音レベルを推定し、本双方向通話装置１が良好に働く発言者と本双方向通話装置１との有効距離を計算する。

マイク選択禁止判定
処理３の結果、フロアノイズの方が発言開始基準レベルより大きい（高い）場合、ＤＳＰ２５はそのマイクロフォンの方向に強大なノイズ源が有ると判定し、その方向のマイクロフォンの自動選択を禁止に設定し、それを、たとえば、発光ダイオードＬＥＤ１〜６または操作部１５に表示する。

しきい値決定
ＤＳＰ２５は、図１３に図解したように、発言開始基準レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。

ノイズ測定に関する限り、次の処理は通常処理なので、ＤＳＰ２５は各タイマ（カウンタ）をセットして次処理の準備をする。

ノイズ通常処理
ＤＳＰ２５は、双方向通話装置１の初期動作時の上記ノイズ測定の後も、通常動作状態において、図１４に示す処理に従って、ノイズ処理を行い、６本のマイクロフォンＭＣ１〜ＭＣ６に対しそれぞれ選択された発言者の音量レベル平均値と発言終了検出後のノイズレベルを測定し一定時間単位で、発言開始、終了判定閾値レベルを再設定する。

図１４、処理１：ＤＳＰ２５は、発言中か発言終了かの判断で処理２か処理３への分岐を決定する。

図１４、処理２：発言者レベル測定
ＤＳＰ２５は、発言中の単位時間、たとえば、１０秒分のレベルデータを複数回、たとえば、１０回分平均して発言者レベルとして記録する。
単位時間内に発言終了になった場合、新たな発言開始まで時間計測及び発言レベル測定を中止し、新たな発言検出後、測定処理を再開する。

図１４、処理３：フロアノイズ測定２
ＤＳＰ２５は、発言終了検出後から発言開始までの間の単位時間、たとえば、１０秒分のノイズレベルデータを複数回、たとえば、１０回分平均してフロアノイズレベルとして記録する。
単位時間内に新たな発言があった場合は、ＤＳＰ２５は途中で時間計測及びノイズ測定を中止し、新たな発言終了検出後、測定処理を再開する。

図１４、処理４：閾値決定２
ＤＳＰ２５は、発言レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
なおこのほかに応用として、発言者の発言レベルの平均値が求められているのでそのマイクロフォンに対向した発言者固有の発言開始、終了検出閾値レベルを設定することもできる。

フィルタ処理による各種周波数成分信号の生成
図１５はマイクロフォンで集音した音信号を前処理として、ＤＳＰ２５で行うフィルタリング処理を示す構成図である。図１５は１マイクロフォン（チャネル（１集音信号））分の処理について示す。
各マイクロフォンの集音信号は、たとえば、１００Ｈｚのカットオフ周波数を持つアナログ・ローカットフィルタ１０１で処理され、１００Ｈｚ以下の周波数が除去されたフィルタ処理された音声信号がＡ／Ｄ変換器１０２に出力され、Ａ／Ｄ変換器１０２でディジタル信号に変換された集音信号が、それぞれ７．５ＫＨｚ、４ＫＨｚ、１．５ＫＨｚ、６００Ｈｚ、２５０Ｈｚのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅ（総称して１０３）で高周波成分が除去される（ハイカット処理）。ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅの結果はさらに、減算器１０４ａ〜１０４ｄ（総称して１０４）において隣接するディジタル・ハイカットフィルタ１０３ａ〜１０３ｅのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅおよび減算器１０４ａ〜１０４ｄは、実際はＤＳＰ２５において処理している。Ａ／Ｄ変換器１０２はＡ／Ｄ変換器ブロック２７の１つとして実現できる。

図１６は、図１５を参照して述べたフィルタ処理結果を示す周波数特性図である。このように１つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。

バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの１つに発言の開始、終了の判定を行う。そのために使用する信号が、ＤＳＰ２５で行う図１７に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図１７はマイクロフォンＭＣ１〜ＭＣ６で集音した６チャネル（ＣＨ）の入力信号処理中の１ＣＨのみを示す。
ＤＳＰ２５内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ１００〜６００Ｈｚ、２００〜２５０Ｈｚ、２５０〜６００Ｈｚ、６００〜１５００Ｈｚ、１５００〜４０００Ｈｚ、４０００〜７５００Ｈｚの帯域通過特性を持つバンドパス・フィルタ２０１ａ〜２０１ａ（総称してバンドパス・フィルタ・ブロック２０１）と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器２０２ａ〜２０２ｇ（総称して、レベル変換ブロック２０２）を有する。

各レベル変換部２０２ａ〜２０２ｇは、信号絶対値処理部２０３とピークホールド処理部２０４を有する。したがって、波形図を例示したように、信号絶対値処理部２０３は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部２０４は、信号絶対値処理部２０３の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部２０４を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。

バンドパス・フィルタについて述べる。双方向通話装置１に使用するバンドパス・フィルタは、たとえば、２次ＩＩＲハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、１バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数＋１のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号１チャネル（ＣＨ）当りで下記６バンドのバンドパス・フィルタとなる。

この方法でＤＳＰ２５における上記のＩＩＲ・フィルタの計算プログラムは、６ＣＨ（チャネル）×５（ＩＩＲ・フィルタ) ＝３０のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は２次ＩＩＲフィルタを使用するとして、本発明のように６本のマイク信号にそれぞれ６バンドのバンドパス・フィルタを用意すると、従来方法では、６×６×２＝７２回路のＩＩＲ・フィルタ処理が必要になる。この処理には、最新の優秀なＤＳＰでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する２次ＩＩＲハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの５種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、ＩＩＲフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。

図１８は図１７に図解した構成による処理をＤＳＰ２５で処理したときのフローチャートである。

図１８に図解したＤＳＰ２５におけるフィルタ処理は１段目の処理としてハイパス・フィルタ処理、２段目の処理として１段目のハイパス・フィルタ処理結果からの減算処理を行う。図１６はその信号処理結果のイメージ周波数特性図である。下記、〔ｘ〕は図１６における各処理ケースを示す。

第一段階
〔１〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。

〔２〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。

〔３〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] 入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。

〔４〕入力信号を600KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。

〔５〕入力信号を250KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。

第二段階
〔１〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔２〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔３〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔４〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。〔５〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔６〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記（４）の出力信号とする。
ＤＳＰ２５における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。

入力されたマイクロフォンの集音信号ＭＩＣ１〜ＭＩＣ６は、ＤＳＰ２５において、全帯域の音圧レベル、バンドパス・フィルタを通過した６帯域の音圧レベルとして表５のように常時更新される。

表５において、たとえば、L1-1はマイクロフォンＭＣ１の集音信号が第１バンドパス・フィルタ２０１ａを通過したときのピークレベルを示す。
発言の開始、終了判定は、図１７に図示した100Hz〜600Hzのバンドパス・フィルタ２０１ａを通過し、レベル変換部２０２ｂで音圧レベル変換されたマイクロフォン集音信号を用いる。

従来のバンドパス・フィルタの構成は、バンドパス・フィルタ１段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の３６回路のバンドパス・フィルタを構築すると７２回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。

発言の開始・終了判定処理
第１のディジタルシグナルプロセッサ（ＤＳＰ１）２５は、音圧レベル検出部から出力される値を元に、図１９に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、０．５秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図１７に図解したマイク信号変換処理部２０２ｂで音圧レベル変換された１００Ｈｚ〜６００Ｈｚのバンドパス・フィルタを通過した音圧レベルデータ（マイク信号レベル（１））が図１９に例示した閾値レベル以上になった時から発言開始と判定する。
ＤＳＰ２５は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間、たとえば、０．５秒間は次の発言開始を検出しないようにしている。

マイクロフォン選択
ＤＳＰ２５は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図２０は双方向通話装置１の動作形態を図解したグラフである。
図２１は双方向通話装置１の通常処理を示すフローチャートである。

双方向通話装置１は図２０に図解したように、マイクロフォンＭＣ１〜ＭＣ６からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果を発光ダイオードＬＥＤ１〜６に表示する。
以下、図２１のフローチャートを参照して双方向通話装置１におけるＤＳＰ２５を主体として動作を述べる。なお、マイクロフォン・電子回路収容部２の全体制御はマイクロプロセッサ２３によって行われるが、ＤＳＰ２５の処理を中心に述べる。

ステップ１：レベル変換信号の監視
マイクロフォンＭＣ１〜ＭＣ６で集音した信号はそれぞれ、図１６〜図１８、特に、図１７を参照して述べた、バンドパス・フィルタ・ブロック２０１、レベル変換ブロック２０２において、７種類のレベルデータとして変換されているから、ＤＳＰ２５は各マイクロフォン集音信号についての７種類の信号を常時監視する。
その監視結果に基づいて、ＤＳＰ２５は、発言者方向検出処理１、発言者方向検出処理２、発言開始・終了判定処理のいずれかの処理に移行する。

ステップ２：発言開始・終了判定処理
ＤＳＰ２５は図１９を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。ＤＳＰ２５が処理が発言開始を検出した場合、ステップ４の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ２における発言の開始、終了の判定処理が発言レベルが発言終了レベルより小さくなった時、発言終了判定時間（たとえば、0.5秒）のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。

ステップ３：発言者方向の検出処理
ＤＳＰ２５における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ４の発言者方向の判定処理へデータを供給する。

ステップ４：発言者方向マイクの切り換え処理
ＤＳＰ２５に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ２の処理とステップ３の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ４のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部１５から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報を発光ダイオードＬＥＤ１〜６に表示する。

ステップ５：マイクロフォン集音信号の伝送
マイク信号切り換え処理は６本のマイク信号の中からステップ４処理により選択されたマイク信号のみを送話信号として、双方向通話装置１から電話回線９２０を介して相手側の双方向通話装置に伝送するため、図５に図解した電話回線９２０のラインアウトへ出力する。

発言開始レベル閾値、発言終了閾値の設定
処理１：電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、１秒間分のフロアノイズを測定する。
ＤＳＰ２５は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、１分間の値の平均値を算出しフロアノイズとする。
ＤＳＰ２５は測定されたフロアノイズレベルを元に発言開始の検出レベル（フロアノイズ +9dB)、発言終了の検出レベルの閾値（フロアノイズ＋６ｄＢ）を決定する。ＤＳＰ２５は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、ＤＳＰ２５は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。

この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定出来され、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。

処理２：周辺ノイズ（フロアノイズの大きい）部屋への対応
処理２は処理１ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
ＤＳＰ２５は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
ＤＳＰ２５は、発言開始閾値レベルは発言終了閾値レベルより大きく（たとえば、３dB以上の差)に設定する。
ＤＳＰ２５は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。

この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度で発言開始が認識できる。

発言開始判定
処理１：６個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
ＤＳＰ２５は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ１６からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ１６と全てのマイクロフォンＭＣ１〜ＭＣ６との距離は同じであるから、受話再生スピーカ１６からの音は全てのマイクロフォンＭＣ１〜ＭＣ６にほぼ均等に到達するからである。

処理２：図４に図解した６個のマイクロフォンについての６０度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に１８０度ずらした単一指向性マイク２本（マイクロフォンＭＣ１とＭＣ４、マイクロフォンＭＣ２とＭＣ５、マイクロフォンＭＣ３とＭＣ６）の３組構成し、マイク信号のレベル差を利用する。すなわち下記の演算を実行する。

ＤＳＰ２５は上記絶対値[１],[２],[３]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理１のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので（受話再生スピーカ１６からの音が全てのマイクロフォンに等しく到達するから）、受話再生スピーカ１６からの音か話者からの音声かの判定は不要になる。

発言者方向の検出処理
発言者方向の検出には図６に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図６に例示したように、周波数特性、レベル特性が変化する。その結果を図７（Ａ）〜（Ｄ）に例示した。図７（Ａ）〜（Ｄ）は、双方向通話装置１から所定距離、たとえば、１．５メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換（ＦＦＴ）した結果を示す。Ｘ軸が周波数を、Ｙ軸が信号レベルを、Ｚ軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図１５〜図１８を参照して述べたマイク信号レベル変換処理からの５バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。

本発明の１実施の形態としての双方向通話装置１における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理（１ｄＢフルスパン（1dBFs）ステップなら0dBFsの時０、-3dBFsなら３というように、又はこの逆に）を行う。この重み付けのステップで処理の分解能が決まる。
１サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい（大きい）マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表７である。

表７に例示したこの例では一番合計点が小さいのは第１マイクロフォンＭＣ１なので、ＤＳＰ２５は第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）と判定する。ＤＳＰ２５はその結果を音源方向マイク番号という形で保持する。
上述したように、ＤＳＰ２５は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい（または大きい）マイク信号順に順位をつけ、１位の順位が３つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、ＤＳＰ２５は第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）として、下記表８のような成績表を作成する。

実際には部屋の特性により音の反射や定在波の影響で、必ずしも第１マイクロフォンＭＣ１の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、５バンド中の過半数が１位であれば第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）と判定することができる。ＤＳＰ２５はその結果を音源方向マイク番号という形で保持する。

ＤＳＰ２５は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表９に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。

発言者方向マイクの切り換えタイミング判定処理
図２１のステップ２の発言開始判定結果により起動し、ステップ３の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、ＤＳＰ２５は、ステップ５のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、発光ダイオードＬＥＤ１〜６へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し本双方向通話装置１が応答した事を知らせる。

反響の大きい部屋で、反射音や定在波の影響を除くため、ＤＳＰ２５は、マイクロフォンを切り換えてから発言終了判定時間（たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図２１のステップ１のマイク信号レベル変換処理結果、および、ステップ３の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは２通りを準備する。

第１の方法：発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、ＤＳＰ２５は、全てのマイク信号レベル(１)とマイク信号レベル(２)が発言終了閾値レベル以下になってから発言終了判定時間（たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(１)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ５のマイク信号選択切り替え処理を開始する。

第２の方法：発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はＤＳＰ２５は発言開始（マイク信号レベル(１)が閾値レベル以上になった時）から発言終了判定時間（たとえば、0.5 秒)以上経過してから判定処理を開始する。発言終了検出前に、３の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、ＤＳＰ２５は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ５のマイク信号選択切り替え処理を起動する。

検出された発言者に対向したマイク信号の選択切り替え処理
ＤＳＰ２５は図２１のステップ４の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
ＤＳＰ２５のマイク信号の選択切り替え処理は、図２２に図解したように、６回路の乗算器と６入力の加算器で構成する。マイク信号を選択する為には、ＤＳＰ２５は選択したいマイク信号が接続されている乗算器のチャネルゲイン（チャネル利得：CH Gain）を〔１〕に、その他の乗算器のCH Gainを〔０〕とする事で、加算器には選択された（マイク信号×〔１])の信号と（マイク信号×〔０])の処理結果が加算されて希望のマイク選択信号が出力に得られる。

上記の様にチャネルゲインを[１]か[０]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、双方向通話装置１では、図２３に図解したように、CH Gainの変化を[１]から[０]へ、[０]から[１]へ変化するのに、切替遷移時間、たとえば、１０ｍ秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。

また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のＤＳＰ２５におけるエコーキャンセル処理動作の調整を行うこともできる。

上述したように、本発明の実施形態の通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。

本発明の実施形態の通話装置は構造面から下記の利点を有する。
（１）複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室（部屋）環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性（信号レベル（強度）、周波数特性（ｆ特）、位相）がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。

（２）それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。

（３）上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ（ＤＳＰ）で構成するエコーキャンセラが一つでよい。ＤＳＰは高価であり、種々の部材が搭載されて空きが少ないプリント基板にＤＳＰを配置するスペースも少なくてよい。

（４）受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±３ｄＢもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。（５）通話装置が搭載されるテーブルは、通常、円卓を用いるが、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散（閑散）するスピーカシステムが可能になった。

（６）受話再生スピーカから出た音はテーブル面を伝達して（バウンダリ効果）会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。

（７）受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。

（８）偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。

（９）緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に影響を低減することができる。

（１０）受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この双方向通話装置においは受話再生スピーカからのノイズの影響が少ない。

上述した通話装置は信号処理面から下記の利点を有する。
（ａ）複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてＳ／Ｎの良い音、クリアな音を集音（収音）して、相手方に送信することができる。
（ｂ）周辺の発言者からの音声をＳ／Ｎ良く集音して、発言者に対向したマイクを自動選択できる。
（ｃ）本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事のレベルを比較する事で、信号分析を簡略化している。
（ｄ）本発明のマイク信号切り換え処理をＤＳＰの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
（ｅ）マイク選択結果を、発光ダイオードなどの表示手段、または、外部への通知処理することができる。したがって、たとえば、テレビカメラへの発言者位置情報として活用することもできる。

第２の実施形態
以下、第２の実施形態について説明する。
図２４は、本実施形態における音声記録装置４０の構成を説明するための図である。
図２４に示すとおり、音声記録装置４０は、マイクロフォン４１と信号処理部４２から構成され、信号処理部４２は、Ａ／Ｄ変換器４２１と、音声認識処理手段としての音声認識処理部４２２と、認識辞書メモリ４２３と、声紋照合処理手段としての声紋照合処理部４２４と、声紋データメモリ４２５と、情報入力手段としてのデータ入力部４２６と、メタデータ生成手段としてのメタデータ作成部４２７と、フレームデータ生成手段としてのフレームデータ生成部４２８と、記録媒体４２９とを有している。

マイクロフォン４１は、音声記録装置４０の外部のアナログ音声信号を集音する。
マイクロフォン４１は、指向性マイクロフォンであることが望ましいが、本実施形態においては、必ずしも指向性マイクロフォンでなくても構わない。
信号処理部４２は、ＣＰＵ（図示しない）を含んで構成され、マイクロフォン４１が集音した集音信号、および、その集音信号に関連するデータを入力して、フレームデータＦＤを生成する。フレームデータＦＤの詳細については後述する。
以下、信号処理部４２の各構成要素について説明する。

Ａ／Ｄ変換器４２１は、マイクロフォン４１が集音したアナログの集音信号をディジタル信号Ｓ４２１に変換する。

音声認識処理部４２２は、Ａ／Ｄ変換器４２１により出力されるディジタル信号Ｓ４２１（音声信号）を音声認識処理し、認識処理した結果、認識した音声信号を抽出して出力する（信号Ｓ４２２）。
具体的には、信号Ｓ４２１を入力すると、入力された音声信号を分析し、後述するように、認識辞書メモリ４２３に格納された音響モデルから音響的な特徴量（音響特徴）を抽出する。すなわち、入力された音声信号Ｓ４２１に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位（音素）ごとに音響特徴を抽出する。
さらに、音声認識処理部４２２は、音声信号Ｓ４２１の音素ごとの音響特徴を、認識辞書メモリ４２３に格納された認識辞書と参照し、音声認識可能な音声信号を抽出して出力する。すなわち、認識辞書には、音素単位の音響特徴に対応する文字列データが記述されているので、信号Ｓ４２１から順に抽出した音響特徴を、認識辞書に記述された文字列データの音響特徴と比較して、合致する音響特徴または近似する音響特徴を有する文字列データが存在する場合には、音声認識できたと判断し、抽出した音響特徴に対応する音声信号を出力する。

これにより、音声信号Ｓ４２１に無音信号（レベルが所定以下の信号）が含まれている場合でも、この無音信号を削除した音声信号を出力することができる。
また、音声信号Ｓ４２１に無意味な擬態語（あ〜，う〜等）が含まれている場合でも、これらの語を削除した音声信号を出力することができる。
上記音声認識処理は、音素単位だけでなく音節単位でも実行可能であり、さらに、特定の分野に使用される専門用語（キーワード）等がある場合には、あらかじめ専門用語に対応する認識辞書を認識辞書メモリ４２３に格納しておくことで、適切に音声認識を行うことも可能となる。

なお、上述した音声認識における認識率を向上させるため、認識したい言葉をあらかじめ特定の人の声で登録しておくことで、登録者の音声が特に良く認識可能とするように構成することも可能である（特定話者音声認識）。したがって、あらかじめ音声記録装置４０を使用して、会議等を行う話者（会議参加者）が特定されている場合には、これらの会議参加者の音響特徴を認識辞書メモリ４２３に登録しておくことで、音声認識の認識率を向上させることができる。

認識辞書メモリ４２３には、上述したとおり、音声認識処理部４２２において音声認識処理をするための音響モデルと認識辞書が格納されている。
音響モデルは、人間の発音の小さな単位（音素）が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
また、音声認識を容易にするため、音素単位だけでなく、まとまった音節単位や特定の分野に使用される専門用語（キーワード）等に対応する音響特徴も記述される。

声紋照合処理部４２４は、音声認識処理部４２２から入力した音声信号の声紋認証を行い、声紋認証された音声信号のみを後段のメタデータ作成部４２７へ出力する。
個々人の声紋の相違は、その人の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から決定されるので、このような声紋に対して声紋照合処理、すなわち、周波数分析を行い、登録された声紋データと照合することにより、本人を特定することが可能となる。
このような声紋照合は、通話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数には変化として現れないため、本人特定の認識率が高いとされている。

具体的には、声紋照合は、以下の処理を行う。
（１）音声信号Ｓ４２２に対して周波数分析を行い、その音声信号を、時間，周波数，音の強さの三次元のパターンで表現した声紋データを生成する。
（２）生成された声紋データを、声紋データメモリ４２５に格納され事前に登録された会議参加者の声紋データと比較し、合致する声紋データが存在する場合には、合致する声紋データに対応する会議参加者のテキストデータ（発話者データ）を、メタデータ作成部４２７に対して出力する（信号Ｓ４２４）。
合致する声紋データが声紋データメモリ４２５に存在しない場合には、その旨を示す所定のデータ（ＮＵＬＬ等）を、メタデータ作成部４２７に対して出力する。

声紋データメモリ４２５には、上述したとおり、事前に登録された会議参加者のテキストデータと声紋データがそれぞれ対応付けられて格納され、声紋照合処理部４２４により参照される。

データ入力部４２６は、マイクロフォン４１が入力した音声信号に対する付加データＤＡＴＡを入力する。
本実施形態のおける付加データＤＡＴＡとしては、たとえば、下記の時間データ，制御データおよびエクスクルーシブデータがある。
（１）時間データ
フレームデータ生成部４２８が生成するフレームデータＦＤに含まれる音声信号を、Ａ／Ｄ変換器４２１が入力を開始した時刻と入力を終了した時刻である。
なお、時間データは、信号処理部４２に含まれるＣＰＵが計時し、メタデータ作成部４２７に供給するように構成してもよい。
（２）発話者付随データ
発話者の属性等、発話者に関連した情報である。たとえば、発話者の発話回数などである。
（３）制御データ
後述するフレームデータ生成部４２８が生成するフレームデータＦＤの送出先（ラインアウト、記録媒体等）の指定を行う。
（４）エクスクルーシブデータ
たとえば、放送用の特別な機器のみに有効な制御データ等のオプションデータである。

メタデータ作成部４２７は、声紋照合処理部４２４によって照合された発話者のデータ（発話者データ）と、上述したデータ入力部４２６から供給される付加データＤＡＴＡとを入力し、音声信号の付随データとしてのメタデータＳ４２７を作成する。
図２５は、音声記録装置４０が生成するフレームデータＦＤのデータ構造を説明するための図であり、（１）はフレームデータを、（２）は音声データを、（３）はメタデータを、（ａ）〜（ｇ）はメタデータの構成を、それぞれ示す。
図２５に示すように、メタデータは、たとえば、（ａ）スタートビットと、（ｂ）時間データと、（ｃ）発話者データと、（ｄ）発話者付随データと、（ｅ）制御データと、（ｆ）エクスクルーシブデータと、（ｇ）チェックサムデータと、を含んで構成される。

メタデータ作成部４２７は、メタデータの開始を認識できるようにスタートビットをセットし、その後に、データ入力部４２６および声紋照合処理部４２４から得られるデータを付加し、最後に、メタデータの正当性を受信側でチェックできるように、チェックサムデータを付加することにより、メタデータを生成する。
なお、図２５のメタデータの（ｄ）発話者付随データに含まれる情報として発話者の発話回数を例示したが、メタデータ作成部４２７は、声紋照合処理部４２４から得られる本人照合のデータをモニタすることにより、発話回数に関する情報を得ることができるので、各発話者毎の発話回数のデータを、上記発話者付随データ（図２５の（ｄ））として付加してもよい。
生成したメタデータＭＤは、フレームデータ生成部４２８へ供給される。

フレームデータ生成部４２８は、図２５に示すように、Ａ／Ｄ変換器４２１によりディジタル信号に変換された音声信号（音声データ）Ｓ４２１と、メタデータ作成部４２７により作成され、その音声データに対応するメタデータＭＤと、を合成してフレームデータＦＤを生成する。
フレームデータＦＤの生成動作については、後述する。
なお、図２５に示すように、生成する各フレームデータ間には、フレームデータＦＤの再生側で各フレームデータを認識できるように、所定時間のインターバルを付加する。
また、フレームデータ生成部４２８は、生成したフレームデータＦＤを順次外部へ出力するリアルタイム処理を行ってもよいし、生成したフレームデータＦＤを一時記録媒体４２９へすべて記録させるようにしてもよい。

以上、音声記録装置４０の各構成要素について説明した。
上述した各構成要素は、基本的に図２４で示した矢印のフローに沿って動作するが、フレームデータＦＤを順次生成していくために、信号処理部４２に含まれるＣＰＵにより、信号処理部４２の各構成要素の信号処理のタイミング制御が行われる。
フレームデータＦＤのデータ形式によって、フレームデータＦＤの生成処理は下記２方法のいずれかを適用することができる。

（１）固定データ長のフレームデータ
所定時間の音声データ毎に、固定データ長のフレームデータＦＤを生成する。メタデータ長および音声データ長は、各フレームデータで共通である。
この場合には、同じ話者の音を連続的に集音する場合には、複数のフレームデータとなることがある。
ＣＰＵは、所定時間のディジタル音声データ（信号Ｓ４２１）が順次処理されるようにタイミングを制御する。すなわち、ＣＰＵは、Ａ／Ｄ変換器４２１，データ入力部４２６およびフレームデータ生成部４２８に対して、所定時間間隔でタイミング信号を供給し、供給されるタイミングに応じて、Ａ／Ｄ変換器４２１は音声信号をＡ／Ｄ変換し、データ入力部４２６は付加データＤＡＴＡを取り込み、次のタイミング信号が供給されるまでに、フレームデータ生成部４２８はフレームデータＦＤを生成する。

（２）非固定データ長のフレームデータ
発話者が切り替わる毎に、フレームデータＦＤを生成する。メタデータ長は各フレームデータで共通であるが、音声データ長は、各フレームデータで異なる。
この場合には、話者の発話する時間によって、データ長が長いフレームデータになることもあれば、データ長が短いフレームデータになることもある。
ＣＰＵは、発話者に応じてディジタル音声データ（信号Ｓ４２１）が順次処理されるようにタイミングを制御する。すなわち、ＣＰＵは、声紋照合処理部４２４の声紋照合結果（信号Ｓ４２４）をモニタし、発話者が切り替わったと判断した場合には、データ入力部４２６およびフレームデータ生成部４２８に対して、切替え信号を供給し、供給される切替え信号のタイミングに応じて、データ入力部４２６は新しい付加データＤＡＴＡを取り込み、フレームデータ生成部４２８は、前の発話者に対するフレームデータの生成を終了して出力するとともに、新しいフレームデータを生成を開始する。

以上説明したように、本実施形態における音声記録装置４０によれば、マイクロフォン４１と、マイクロフォン４１が集音した信号をディジタル信号（音声データ）に変換するＡ／Ｄ変換器４２１と、音声データを認識処理し認識可能な音声データのみを抽出する音声認識処理部４２２と、音声認識のために音声認識処理部４２２より参照される認識辞書メモリ４２３と、音声データに基づいて声紋照合処理を行い、予め登録された声紋データに合致する発話者を特定する声紋照合処理部４２４と、発話者と声紋データが関連付けられて登録される声紋データメモリ４２５と、メタデータのための付加データＤＡＴＡを入力するデータ入力部４２６と、声紋照合処理部４２４により特定された発話者とデータ入力部４２６により入力された付加データＤＡＴＡに基づいてメタデータを作成するメタデータ作成部４２７と、音声データと当該音声データに対応するメタデータを合成してフレームデータを生成するフレームデータ生成部４２８とを有し、入力した音声データを所定時間単位または発話者毎にまとまった単位で順次フレームデータが生成／記録されるように処理するので、以下の効果を得ることができる。

記録されたフレームデータから必要な情報だけを取り出すことにより、ユーザによる情報処理を短時間で行うことが可能となる。
たとえば、
（１）メタデータに含まれる発話者データを検索することにより、会議における特定の発話者の発言（音声データ）のみを抽出する
（２）メタデータに含まれる時間データを検索することにより、特定の時間内の会議における発言（音声データ）のみを抽出する
（３）メタデータに含まれる各発話者の発言回数を検索することにより、会議における発言状況の分析を行う
というようなことが容易に行うことができるようになり、ユーザが望む会議における情報に対して、短時間でアクセスすることが可能となる。

また、メタデータには、制御データやエクスクルーシブデータ等、必要に応じて付加データＤＡＴＡを追加できるので、フレームデータの蓄積先（出力先）を自動的に振り分ける、音声データの送出先を自動的に変更する等が可能であり、音声データ処理の利便性が向上する。

第３の実施形態
次に、第３の実施形態について説明する。
第２の実施形態で述べた音声記録装置４０においては、複数の発話者がそれぞれ順番に発話する場合には、問題なくフレームデータＦＤを生成することができるのであるが、複数の発話者が同時に発話した場合には、音声認識および声紋照合を正しく実行することが困難となる場合も想定される。
そこで、本実施形態においては、複数の発話者が同時に発話した場合であっても、発話者を正しく特定して、上述したフレームデータＦＤを生成することができる音声記録装置について説明する。

図２６は、本実施形態における音声記録装置の構成を説明するためのブロック図の１例である。
図２６に示すように、本実施形態における音声記録装置４０ａは、第１の実施形態で説明したマイクロフォン選択手段としての双方向通話装置１と、双方向通話装置１のＤＳＰ２６のアナログ音声出力端子に接続された信号処理部４２ａと、を備えて構成される。
信号処理部４２ａは、第２の実施形態で説明した信号処理部４２に対して、Ａ／Ｄ変換器４２１が省かれている点で異なる。ＤＳＰ２６の音声出力は、ディジタルデータであるので、Ａ／Ｄ変換器が必要ないからである。

次に、音声記録装置４０ａの動作を説明する。
図２６において、発話者に対向して配置された複数の指向性マイクロフォンがそれぞれアナログの音声信号を入力すると、これらのアナログの音声信号は、Ａ／Ｄ変換器２７１〜２７３によりディジタル信号に変換される。
第１の実施形態において説明したように、ＤＳＰ２５では、ディジタル信号に変換された各発話者の音声信号のフィルタ処理、音圧レベル比較処理等を行うことにより、主の話者の音声信号であると推定される１の音声信号を選択して出力する。
信号処理部４２ａは、ＤＳＰ２５が選択して出力する音声信号に基づいて、順にフレームデータＦＤを生成する。
具体的には、第２の実施形態で説明したように、信号処理部４２ａに含まれる音声認識処理部４２２により、音声認識が可能な音声信号のみを抽出し、抽出した音声信号に基づいて、声紋照合処理部４２４は、事前に登録された声紋データと照合することにより、発話者を特定する。さらに、メタデータ作成部４２７は、データ入力部４２６が入力した付加データＤＡＴＡと、特定された発話者データとに基づいてメタデータを作成する。
フレームデータ生成部４２８において、作成されたメタデータは、ＤＳＰ２５が出力する音声信号と合成されて、フレームデータＦＤが生成される。

第２の実施形態で説明したように、上記処理は、図２６に示すマイクロプロセッサ２３により、たとえば発話者が切り替わる毎にフレームデータＦＤが生成されるように、タイミング制御される。
なお、本実施形態においては、ＤＳＰ２５がマイク選択結果表示装置３０であるＬＥＤ１〜６に出力するマイク選択結果により、ＤＳＰ２５が選択したマイクロフォンをモニタすることが可能なので、このモニタ結果に基づいて、マイク選択が変化するタイミングで順次フレームデータＦＤを生成／出力するように、タイミング制御を行ってもよい。

上述したように、本実施形態における音声記録装置４０ａによれば、複数の指向性マイクロフォンを有し、各マイクロフォンが集音する集音信号の音圧レベルに基づいて、ＤＳＰ２５が１の発話者（主の発話者）を特定した後に、信号処理部４２ａが音声認識処理および声紋照合処理を行うので、複数の発話者が混在した音声信号を信号処理部４２ａが処理することがなく、発話者特定の精度が向上する。
したがって、本実施形態に係る音声記録装置４０ａは、複数の発話者が同時に発話することが頻繁に行われる会議においても使用することができるので、第１の実施形態で説明した音声記録装置４０と比較して、より実用性が高い装置であるということが言える。

第４の実施形態
以下、第４の実施形態に係る音声再生装置について説明する。
本実施形態に係る音声再生装置５０は、第２および第３の実施形態において説明した音声記録装置４０，４０ａが記録／出力する音声のフレームデータＦＤに基づいて、音声を再生する装置である。
図２７は、本実施形態に係る音声再生装置５０のブロック図の１例を示す図である。
図２７に示すように、音声再生装置５０は、信号処理部５１とスピーカ５２により構成される。
信号処理部５１は、図示しないＣＰＵを含み、ＣＰＵに制御される第１のバッファ部５１１と、要求信号処理部５１２と、第２のバッファ部５１３と、Ｄ／Ａ変換器５１４とを備えて構成される。

第１のバッファ部５１１は、信号処理部５１が入力したフレームデータＦＤを一時記憶し、要求信号処理部５１２の指示に応じたフレームデータを選択し、選択したフレームデータに含まれる音声データ出力する（信号Ｓ５１１）。
要求信号処理部５１２は、外部の要求信号ＲＥＱに基づいて、第１のバッファ部５１１に対して要求に応じたフレームデータのみを抽出するように指示する。
要求信号ＲＥＱは、メタデータＭＤに含まれるデータ、たとえば、特定の発話者データや特定の時間データを指定して構成され、指定された発話者のみのフレームデータや、指定された特定の時間のみのフレームデータを、入力したフレームデータＦＤから抽出するように、第１のバッファ部５１１に対して指示する。
第２のバッファ部５１３は、第１のバッファ部５１１が要求信号処理部５１２の指示に応じて選択した音声データを入力して、順次出力する（信号Ｓ５１３）。
Ｄ／Ａ変換器５１４は、第２のバッファ部５１３が出力する音声のディジタルデータを、順次アナログデータに変換してスピーカ５２に出力する（信号Ｓ５１４）。

上述したように、本実施形態に係る音声再生装置５０は、音声のフレームデータＦＤを入力して、要求信号ＲＥＱに応じたフレームデータＦＤのみを抽出して、抽出したフレームデータＦＤに含まれる音声データを再生する。
また、フレームデータＦＤには、特定の機器に対して有効なエクスクルーシブデータや、送出先等を規定した制御データが含まれているので、要求信号ＲＥＱに基づいて、指定した複数の出力先の機器等に音声データを振り分けて出力させるということも可能である。

なお、上述したフレームデータＦＤについての処理は、音声記録装置において記録／蓄積されたフレームデータＦＤを入力して処理する場合について記載したが、音声記録装置がリアルタイムで出力するフレームデータＦＤを順次入力して、リアルタイムに音声データを再生するように構成することもできる。
その場合には、たとえば要求信号ＲＥＱにより選択された発話者の発言の頻度が少ない場合には、選択された音声をすぐに再生してしまうと無音時間が多くなるため、信号処理部５１に第３のバッファを設け、第２のバッファ部５１３が保持する音声データをすぐに出力せず、出力タイミングを調整する等して、選択された発話者の音声が極力連続的に再生できるようにすることが望ましい。

（Ａ）は双方向通話装置が適用される１例しての会議システムの概要を示す図であり、（Ｂ）は（Ａ）における通話装置が載置される状態を示す図であり、（Ｃ）はテーブルに載置された通話装置と会議参加者との配置を示す図である。双方向通話装置の斜視図である。図１に図解した双方向通話装置の内部断面図である。図１に図解した双方向通話装置の上部カバーを取り外したマイクロフォン・電子回路収容部の平面図である。マイクロフォン・電子回路収容部の主要回路の接続状態を示す図であり、第１のディジタルシグナルプロセッサ（ＤＳＰ１）および第２のディジタルシグナルプロセッサ（ＤＳＰ２）の接続の接続状態を示している。図４に図解したマイクロフォンの特性図である。（Ａ）〜（Ｄ）は、図６に図解した特性を持つマイクロフォンの指向性を分析した結果を示すグラフである。双方向通話装置の変形態様の部分構成図である。第１のディジタルシグナルプロセッサ（ＤＳＰ１）における全体処理内容の概要を示すグラフである。双方向通話装置のノイズ測定方法の第１形態を示すフローチャートである。双方向通話装置のノイズ測定方法の第２形態を示すフローチャートである。双方向通話装置のノイズ測定方法の第３形態を示すフローチャートである。双方向通話装置のノイズ測定方法の第４形態を示すフローチャートである。双方向通話装置のノイズ測定方法の第５形態を示すフローチャートである。通話装置内のフィルタリング処理を示す図面である。図１５の処理結果を示す周波数特性図である。バンドパス・フィルタリング処理とレベル変換処理を示すブロック図である。図１７の処理を示すフローチャートである。双方向通話装置の発言開始、終了を判定する処理を示すグラフである。双方向通話装置の通常処理の流れを示すグラフである。双方向通話装置の通常処理の流れを示すフローチャートである。双方向通話装置のマイクロフォン切り替え処理を図解したブロック図である。双方向通話装置のマイクロフォン切り替え処理の方法を図解したブロック図である。本発明の第２の実施形態に係る音声記録装置の構成の１例を示す図である。本発明の実施形態である音声記録装置により記録されるデータ構造の１例を示す図である。本発明の第３の実施形態に係る音声記録装置の構成の１例を示す図である。第４の実施形態である音声再生装置の構成の１例を示す図である。

符号の説明

１…双方向通話装置、ＭＣ１〜ＭＣ６…マイクロフォン、１６…受話スピーカ、２３…マイクロプロセッサ、２４…コーデック、２５…第１のディジタルシグナルプロセッサ（ＤＳＰ１）、２６…第２のディジタルシグナルプロセッサ（ＤＳＰ２）、２７…Ａ／Ｄ変換器ブロック、２８…Ｄ／Ａ変換器ブロック、２９…増幅器ブロック、４０，４０ａ…音声記録装置、４１…マイクロフォン、４２，４２ａ…信号処理部、４２１…Ａ／Ｄ変換器、４２２…音声認識処理部、４２３…認識辞書メモリ、４２４…声紋照合処理部、４２５…声紋データメモリ、４２６…データ入力部、４２７…メタデータ作成部、４２８…フレームデータ生成部、４２９…記録媒体、５０…音声再生装置、５１…信号処理部、５１１…第１のバッファ部、５１２…要求信号処理部、５１３…第２のバッファ部、５１４…Ｄ／Ａ変換器、５２…スピーカ。

Claims

マイクロフォンと、
前記マイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出する音声認識処理手段と、
前記音声認識処理手段が抽出する前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、
前記マイクロフォンが前記第１の音声データを集音した時刻を計時する計時手段と、
前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、
前記メタデータ生成手段が生成したメタデータと前記第１の音声データとを合成し、フレームデータを生成するフレームデータ生成手段と
を具備する音声処理装置。
前記第１の音声データに関連する情報を入力する情報入力手段
をさらに有し、
前記メタデータ生成手段は、前記情報入力手段が入力する情報を含むメタデータを生成する
請求項１記載の音声処理装置。
前記フレームデータ生成手段は、
前記声紋照合処理手段が照合する声紋が変化するタイミングで、順次フレームデータを生成する
請求項１記載の音声処理装置。
前記フレームデータ生成手段は、
所定時間間隔で、順次フレームデータを生成する
請求項１記載の音声処理装置。
指向性を有する少なくとも２つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、１つのマイクロフォンを選択するマイクロフォン選択手段と、
前記マイクロフォン選択手段により選択されたマイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出する音声認識処理手段と、
前記音声認識処理手段が抽出する前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行う声紋照合処理手段と、
前記マイクロフォンが前記第１の音声データを集音した時刻を計時する計時手段と、
前記声紋照合処理手段の声紋照合により一致した声紋を特定するデータと、前記計時手段が計時した時刻のデータと、を含むメタデータを生成するメタデータ生成手段と、
前記メタデータ生成手段が生成したメタデータと前記第１の音声データとを合成し、フレームデータを生成するフレームデータ生成手段と
を具備する音声処理装置。
マイクロフォンが集音した音声データの中から特定の音声データのみを再生する音声処理方法であって、
前記マイクロフォンが集音した第１の音声データに基づいて、事前に登録された文字列データと一致するか否かの認識処理を行い、一致した音声データを第２の音声データとして抽出し、
前記第２の音声データに基づいて、事前に登録された声紋と一致するか否かの声紋照合を行い、
前記マイクロフォンが前記第１の音声データを集音した時刻を計時し、
一致した声紋を特定するデータと計時した時刻のデータとを含むメタデータと、前記第１の音声データとを合成したフレームデータを生成し、
前記メタデータに含まれるデータを特定し、生成したフレームデータの中から、特定したデータを含むフレームデータを抽出し、
抽出したフレームデータに含まれる音声データを再生する
音声処理方法。