[go: up one dir, main page]

JP4451794B2 - 音声対話装置 - Google Patents

音声対話装置 Download PDF

Info

Publication number
JP4451794B2
JP4451794B2 JP2005017303A JP2005017303A JP4451794B2 JP 4451794 B2 JP4451794 B2 JP 4451794B2 JP 2005017303 A JP2005017303 A JP 2005017303A JP 2005017303 A JP2005017303 A JP 2005017303A JP 4451794 B2 JP4451794 B2 JP 4451794B2
Authority
JP
Japan
Prior art keywords
voice
unit
localization
conversation
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005017303A
Other languages
English (en)
Other versions
JP2006211048A5 (ja
JP2006211048A (ja
Inventor
剛史 金銅
昇 勝田
貴志 秋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2005017303A priority Critical patent/JP4451794B2/ja
Priority to US11/794,191 priority patent/US8014884B2/en
Priority to PCT/JP2005/021414 priority patent/WO2006080133A1/ja
Publication of JP2006211048A publication Critical patent/JP2006211048A/ja
Publication of JP2006211048A5 publication Critical patent/JP2006211048A5/ja
Application granted granted Critical
Publication of JP4451794B2 publication Critical patent/JP4451794B2/ja
Priority to US13/194,117 priority patent/US8712564B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • H04W4/10Push-to-Talk [PTT] or Push-On-Call services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
    • H04M1/6083Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/40Connection management for selective distribution or broadcast
    • H04W76/45Connection management for selective distribution or broadcast for Push-to-Talk [PTT] or Push-to-Talk over cellular [PoC] services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/62Details of telephonic subscriber devices user interface aspects of conference calls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • H04W4/08User group management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/30Resource management for broadcast services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声対話装置に関し、より特定的には、予め定められたグループに属する各対話相手と同時に音声対話、又は複数のグループ間で同時に音声対話をすることができる音声対話装置に関する。
従来の音声対話装置としては下記のようなものがある。つまり、従来の音声対話装置において、通信部は、ネットワークから対話相手の音声を少なくとも受信する。対話相手判別部は、電話番号に基づいて、対話相手を判別し、さらに、対話相手毎に予め決められている方向の中から、判別した対話相手に割り当てられている方向を決定する。また、音像定位部は、通信部で受け取った対話相手のモノラル音声を処理することにより、ステレオ音声を生成し、対話相手判別部の決定に従って、対話相手の音声を3次元音場に定位する。音像再生部は、音像定位部にて定位されたステレオ音声である対話相手の音声を3次元音場に再生する(例えば特許文献1を参照)。
特開2000−184017号公報
ところで、近年、北米を中心にプッシュツートーク(PTT:Push To Talk)機能を搭載する音声対話装置が普及してきている。この種の音声対話装置では、ユーザは、会話ボタンを押すだけで1人以上の相手と対話できる。この間、音声対話装置では、VoIP(Voice over Internet Protocol)に従って音声データを通信する。
また、PTTでは、ユーザが発した音声は、ネットワークを介し、予めグループ化された全ての人が携帯する音声対話装置に届く。逆に、同一グループに属する人からの音声はすべて、ユーザの音声対話装置に届く。従って、PTTベースの音声対話装置では、現在届いた音声が誰からのものであるかを特定することが難しいという問題点がある。
しかしながら、仮に、PTT機能を搭載する音声対話装置に、上記特許公報に開示された技術を組み込んだとしても、上記の問題は依然として解消されない。なぜなら、上記特許公報に開示された技術は1対1の音声通信を対象にしているからである。言い換えれば、上記特許公報に開示された技術は、あるユーザが同時に多人数と音声対話可能な音声対話装置に向けられていない。
それ故に、本発明の目的は、同時の複数人と音声対話している最中に、現在誰の声が出力されているかをユーザが認識しやすい音声対話装置を提供することである。
上記目的を達成するために、本発明の第1の局面は、予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当て部と、前記割り当て部により割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位部と、定位部が定位した各方向又は各距離感に一意に割り当てられる複数のボタンを含む発話操作部とを備え、前記定位部により定位された音声データに従って、前記再生部は音声を出力し、前記発話操作部のボタンが操作されることで、該操作される前記ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話が開始される。
割り当て部は、上位階層の割り当てとして前記複数のグループのそれぞれに互いに異なる方向又は距離感を割り当て、さらに、下位階層の割り当てとして前記上位階層の割り当てが行われたグループの各個人に方向又は距離感を割り当てる。
音声対話装置は好ましくは、割り当て部が空間的な情報の割り当てを変更したことを報知する報知部をさらに備える。
発話操作部はさらに好ましくは、再生部が音声を出力すると、複数のボタンの内、今回出力された音声を発した対話相手又はグループに割り当てられているボタンを点灯させる。
音声対話装置は好ましくは、割り当て部が1つのグループに属する各対話相手又は複数のグループに現在割り当てている方向又は距離感を表示する表示部をさらに備える。
割り当て部は好ましくは、1つのグループに属する各対話相手又は複数のグループに現在割り当てている方向又は距離感を、ユーザの指定に応じて変更する。
また、本発明の第2の局面は、音声対話装置において用いられ、外部からの音声データを出力する方法に向けられており、方法は、予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当てステップと、割り当てステップで割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位ステップと、定位ステップで定位した各方向又は各距離感に一意に割り当てられた複数のボタンのユーザ操作に基づいて、ユーザが対話を開始するための対話相手又はグループを特定し、該ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話を開始する発話操作ステップと、定位ステップで定位された音声データに従って、音声対話装置に接続された再生部又は音声対話装置に備わる再生部は音声を出力する音声出力ステップとを備える。
また、本発明の第3の局面は、音声対話装置において用いられ、外部からの音声データを出力するためのコンピュータプログラムに向けられており、コンピュータプログラムは、予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当てステップと、割り当てステップで割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位ステップと、定位ステップで定位した各方向又は各距離感に一意に割り当てられた複数のボタンのユーザ操作に基づいて、ユーザが対話を開始するための対話相手又はグループを特定し、該ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話を開始する発話操作ステップと、定位ステップで定位された音声データに従って、音声対話装置に接続された再生部又は音声対話装置に備わる再生部は音声を出力する音声出力ステップとを備える。
コンピュータプログラムは典型的には記憶媒体に記憶される。
以上のように、本発明の各局面では、音声対話制御装置が、対話に参加する複数人のそれぞれに、又は複数のグループのそれぞれに、互いに異なる方向若しくは距離感を割り当て、その割り当てに従って音像の定位制御を行う。これによって、ユーザは、たとえ複数人と同時に対話していても、現在誰の声が音声対話装置から出力されているかを認識しやすくなる。
本発明の上記及びその他の目的、特徴、局面及び利点は、以下に述べる本発明の詳細な説明を添付の図面とともに理解したとき、より明らかになる。
図1は、本発明の一実施形態に係る音声対話装置1の全体構成を示すブロック図である。図1において、音声対話装置1は、例示的には、ハンズフリー機能を有する携帯電話2と接続された車載端末装置である。なお、車載端末装置の例としては、車両に設置可能なナビゲーション装置がある。音声対話装置1は、発話操作部11と、音声入力部12と、通信部13と、記憶部14と、割り当て部15と、音像定位部16と、再生部17と、報知部18と、表示部19と、制御部110とを備えている。
発話操作部11は、典型的にはユーザにより操作されるPTTボタン群である。ユーザは、このような発話操作部11を操作した後、より具体的には発話操作部11を操作しながら、音声入力部12に向かって声を発する。
音声入力部12には、本音声対話装置1のユーザの話し言葉が入力される。
通信部13は、携帯電話2を介してネットワークに接続可能に構成されており、音声対話装置1で、入力音声に基づいて生成された音声データ(発信側)をネットワークに送出する。また、通信部13は、ネットワークを介して対話相手側の音声対話装置(図示せず)から送られてくる音声データ(相手側)を受信する。また、通信部13は、音声データ以外にも、処理に必要なデータを送受する。このようなデータの例としては、制御データ(図4参照)がある。制御データとは、現在の音声対話が1対1の対話であるか、1つのグループ間での対話であるか、複数のグループ間での対話であるかを判別するための情報である。さらに、このような制御データは、各音声データがどのグループに属する誰から送られてきたものかを判別するための情報でもある。通信部13が受信するものとしては他にも後述するようなアドレス帳データがある。
記憶部14には、データの読み出し及び書き込みが可能であって、音声対話装置1がネットワークに接続すると、携帯電話2に予め格納されるアドレス帳データが格納される。ここで、携帯電話2に格納されるアドレス帳データは、図2に示すように、いくつかのレコードから構成される。各レコードは、IDと、所属グループとを少なくとも含み、好ましくは名前をさらに含む。なお、このアドレス帳データは、後で説明するように、音声対話装置1により編集される。
IDは、対話相手となる音声対話装置に割り当てられており、相手側の音声対話装置を一意に識別可能な情報である。また、IDは、PTTでのみ利用可能なものでも良いし、電話番号であっても良い。
所属グループは、対象となる音声対話装置が属しており、音声対話装置1からの発信側メッセージを同報可能な範囲を特定する情報である。
名前は、典型的には、対象となる音声対話装置のユーザを識別可能な情報である。
割り当て部15は、後述する制御部110の依頼に応じて、対話相手からの音声及び/又は所属グループに属する少なくとも一人からの音声を音像定位する方向を決定する。
音像定位部16は、相手側の音声対話装置から送られてくる音声データに基づく音声を割り当て部15にて決められた方向から聴こえるように、その音声を3次元音場に定位するための多チャンネルステレオ信号を作る。なお、3次元音場の定位のためには、例えば、車室内における音源から使用者の受音点(運転席)までの伝達関数を用いることで実現できる。この伝達関数で表される伝達特性は、車両及び/又はユーザによって変わるものである。それ故、ユーザ本人及び/又はユーザの周囲環境に応じた最適な伝達関数が設定されることが好ましい。
再生部17は、音像定位部16で作られた多チャンネルステレオ信号を再生可能な1以上のスピーカであり、車両に標準的に備えられているものであっても良いし、音声対話装置1の専用のものであっても良い。つまり、図1では、再生部17は音声対話装置1の構成として図示されているが、再生部17は、音声対話装置1に必須の構成でなくとも良い。
報知部18は、ある対話相手又は所属グループに対し割り当て部1が割り当てた方向が別の方向に変わった時に、そのことをユーザに報知する。
表示部19は、対話相手及び/又は所属グループに対し現在割り当てられている方向を表示して、ユーザに現在の割り当て状況を視認させる。
制御部110は、例えばCPU、ROM及びRAMから構成され、ROMに予め格納されるコンピュータプログラムに従って、音声対話装置1の各構成要素を制御する。
次に、本実施形態に係る音声対話装置1の動作について説明する。図3は、図1に示す割り当て部15の処理を示すフローチャートである。なお、図3に示す処理は、音声対話装置1及び相手側の音声対話装置との間で呼制御が行われ、それらの間でコネクションが確立された後に行われる。
上述のような呼制御の間又は直後に、相手側の音声対話装置からは、図4に示すような制御データが送られてくる。図4において、制御データは、ID又は少なくとも1つの所属グループと、第1−第3のフラグとを含んでいる。
IDは、相手側の音声対話装置を一意に特定可能な情報であり、図2に示すIDと同じである。所属グループは、今回の音声対話が行われるグループであり、図2に示す所属グループと同じである。
第1のフラグは、現在の音声対話が1対1の対話であるか否かを示す情報である。
第2のフラグは、1つのグループに属する全ての人の間での対話であるか否かを示す情報である。
第3のフラグは、複数のグループに属する全ての人の間での対話であるか否かを示す情報である。
なお、このような制御データは、ID及び第1−第3のフラグの集まりのみからなる独立したデータであってもよい。また、制御データは、各音声データに付加されていても良い。以上のような制御データは、ネットワークを介して携帯電話2に届き、通信部13により受信される。割り当て部15は、制御部110を介して、通信部13により受信された制御データを受け取り、これによって、図3に示す処理を開始する。
まず、割り当て部15は、今回の受信データの第1−第3のフラグを参照して、対象となる音声対話が、1対1のものか否かを判断する(ステップS11)。つまり、第1のフラグがオンに設定されているか否かが判断される。なお、このように第1のフラグがオンに設定される場合、第2及び第3のフラグはそれぞれオフに設定される。
Yesと判断した場合、割り当て部15は、今回の制御データに含まれるIDに任意の定位方向を決定し、現在の定位方向の割り当て状況を保持する(ステップS15)。このように決定するのは、ユーザの対話相手が一人であるため、対話相手の音声がどの方向から聴こえても、ユーザは対話相手が誰かを認識可能であることによる。なお、ステップS15では、全方向を定位方向として決定しても良いし、ユーザと対話相手の位置情報が分かっている場合には、ユーザに対する対話相手の方向を定位方向として決定しても構わない。
ステップS11でNoと判断された場合、割り当て部15は、1グループ間の同時音声対話か否かを判断する(ステップS12)。つまり、第2のフラグがオンに設定されているか否かが判断される。なお、このように第2のフラグがオンに設定される場合、第1及び第3のフラグはそれぞれオフに設定される。
Yesと判断した場合、割り当て部15は、対象となる所属グループに属する各個人に互いに異なる定位方向を割り当て、現在の定位方向の割り当て状況を保持する(ステップS13)。このような割り当てが行われると、対象となる所属グループにおいて、各人の音声が互いに異なる方向からユーザには聞こえるようになる。なお、定位方向の総数が、対象となるグループの構成人数より少ない場合、割り当て部15は、複数の個人で定位方向の重複を許す。
また、ステップS12でNoと判断された場合、つまり、第3のフラグのみがオンに設定されている場合、対象となる複数の所属グループのそれぞれに互いに異なる定位方向を割り当て、定位方向の割り当て状況を保持する(ステップS14)。このような割り当てが行われると、同一グループ内の音声対話が互いに同じ方向からユーザには聞こえるようになる。
以上のステップS13−S15が終了すると、割り当て部15は図3に示す処理を終了する。この後、対話相手側から送られてくる音声データは、通信部13を介して音像定位部16に渡される。割り当て部15による割り当てに従って、音像定位部16は、受信音声データが表す音声を定位し、再生部17から出力させる。
次に、図5、図6A及び図6Bを参照して、割り当て部15の処理が終了するまでの音声対話装置1の処理の具体例について説明する。図5は、図1に示す携帯電話2に格納されているアドレス帳データのグループ構成の一例を示す模式図である。図5において、グループAには、1a、2a、3a、4a、5a、6a、7a及び8aという8人が属しており、グループBには、1b、2b、3b、4b、5b及び6bという6人が属しており、さらにグループCには、1c、2c及び3cという3人が属していると仮定する。
また、図6Aは、図4に示すグループ名としてAが含まれておりかつ第2のフラグがオンに設定されている制御データが送られてきた時の定位方向の割り当て状況を例示する模式図である。図6Aにおいて、対話相手1aにはユーザの位置Pから見て前方向が、対話相手2aには右斜め前方向が、対話相手3aには右方向が、対話相手4aには右斜め後ろ方向が、対話相手5aには後ろ方向が、対話相手6aには左斜め後ろ方向が、対話相手7aには左方向が、さらに対話相手8aには左斜め前方向が割り当てられる。
上記のような場合、割り当て部15は、図7に示すように、現在の割り当て状況として、記憶部14に現在保持されるアドレス帳データにおいて、対話相手1aのレコードには前方向という情報を、対話相手2aのレコードには右斜め前方向という情報を、対話相手3aのレコードには右方向という情報と、対話相手4aのレコードには右斜め後ろ方向という情報と、対話相手5aのレコードには後ろ方向という情報と、対話相手6aのレコードには左斜め後ろ方向という情報と、対話相手7aのレコードには左方向という情報と、対話相手8aのレコードには左斜め前方向という情報とを、制御部110を介して追加する。
また、上記のような場合、ユーザには、対話相手1aの音声が前方向から、対話相手2aの音声が右斜め前方向から、対話相手3aの音声が右方向から、対話相手4aの音声が右斜め後方から、対話相手5aの音声が後方から、対話相手6aの音声が左斜め後方から、対話相手7aの音声が左方向から、さらに、対話相手8aの音声が左斜め前方から聞こえてくる。
また、図6Bは、図4に示すグループ名としてA−Cが含まれておりかつ第3のフラグがオンに設定されている制御データが送られてきた時の定位方向の割り当て状況を例示する模式図である。図6Bにおいて、グループAにはユーザの位置Pから見て前方向が、グループBには右方向が、さらに、グループCには後方が割り当てられる。ここで、定位方向は、対象となるグループ数が少ない場合、図6Bに示すように、定位方向が互いに隣り合わないように、各グループに割り当てることが好ましい。その方が、ユーザは、どのグループからの音声かを識別し易くなるからである。なお、この点については、対話相手の数が少ない場合も同様である。
上記のような場合、割り当て部15は、図7に示すように、現在の割り当て状況として、記憶部14に現在保持されるアドレス帳データにおいて、対話相手1a−8a(グループA)のレコードには前方向という情報を、対話相手1b−6b(グループB)のレコードには右方向いう情報を、さらに、対話相手1c−3c(グループC)のレコードには後方という情報とを、制御部110を介して追加する。
また、上記のような場合、ユーザには、グループAに属する各人からの音声が前方向から、グループBに属する各人の音声が右方向から、さらに、グループCに属する各人からの音声が右方向から聞こえてくる。
また、上記のように本実施形態では、対話相手毎又はグループ毎に定位方向が割り当てられるので、発話操作部11は、図8A及び図8Bに示すように、定位方向の数(本実施形態の場合8)に相当するPTTボタン111−118と、同報ボタン119とを含んでいることがことが好ましい。さらに好ましくは、PTTボタン111−118のそれぞれには互いに異なる定位方向が割り当てられる。
また、ユーザが直感的に操作できるように、PTTボタン111−118は、自身が割り当てられた定位方向と対応するようにリング状に配置される。より具体的には、リング状に配置されたPTTボタン111−118の中心をユーザの位置Pに見立て、PTTボタン111には、この中心から見て前方向(又は上方向)が、PTTボタン112には右斜め前方向(又は右斜め上方向)が、PTTボタン113には右方向が、PTTボタン114には右斜め後ろ方向(又は右斜め下方向)が、PTTボタン115には後ろ方向(又は下方向)が、PTTボタン116には左斜め後ろ方向(又は左斜め下方向)が、PTTボタン117には左方向が、さらにPTTボタン118には左斜め前方向(又は左斜め上方向)が割り当てられる。
以上のことから、図6Aのような定位方向の割り当てが行われている場合、図8Aに示すように、PTTボタン111には対話相手1aが、PTTボタン112には対話相手2aが、PTTボタン113には対話相手3aが、PTTボタン114には対話相手4aが、PTTボタン115には対話相手5aが、PTTボタン116には対話相手6aが、PTTボタン117には対話相手7aが、さらにPTTボタン118には対話相手8aが割り当てられる。
また、図6Bのような定位方向の割り当てが行われている場合、図8Bに示すように、PTTボタン111にはグループAが、PTTボタン113にはグループBが、さらにPTTボタン115にはグループCが割り当てられる。
ユーザは、以上のようなPTTボタン111−118を操作しながら、今回操作したものが割り当てられている人又はグループに向けた音声を音声入力部12に入力する。
また、同報ボタン119は、好ましい構成として発話操作部11に備わっており、これを操作することで、例えば現在コネクションが確立している相手側全員に向けて自身の音声を送ることが可能になる。
なお、PTTボタン111−118は、上述したように2次元平面上に配置されていたが、これに限らず3次元形状(例えば球)を有する面上に配置されても構わない。
以上説明したように、本実施形態に係る音声対話装置1によれば、これから対話しようとする複数人のそれぞれに、又は複数のグループのそれぞれに、互いに異なる方向を割り当て、その割り当てに従って音像の定位制御を行う。これによって、ユーザは、たとえ複数人と同時に対話していても、音声が聞こえてくる方向から現在誰の声が音声対話装置1から出力されているかを認識しやすくなる。
なお、以上の実施形態では、対話相手又はグループに方向を割り当てるようにしたが、これに限らず、距離感を割り当てても構わない。
また、以上の実施形態では、割り当てるべき定位方向の総数は8として説明したが、これ以外の数でも構わない。また、状況に応じて、定位方向の総数は変更されても良い。
また、定位方向の割り当ては、階層的に行われても構わない。具体的には、上位階層の割り当てとして、図6Bに示すように、定位方向が各グループに割り当てられる。さらに、下位階層の割り当てとして、図6Aに示すように、定位方向が個人に割り当てられる。このような場合、ユーザは、まず、図8Bに示すPTTボタン111を操作して、グループAを特定し、その後、図8Aに示すPTTボタン111を操作して、対話相手1aを特定し、ユーザは発声する。この時、PTTボタン111の操作が、上位階層のグループAでの対話開始を意味するのか、下位階層への遷移を意味するのかを区別するために、対話開始を意味する場合と下位階層への遷移を意味する場合との間でPTTボタン111の操作方法を変えることが好ましい。このような互いに異なる操作方法としては、PTTボタン111の長押し及び短押しがある。
また、定位方向の割り当て状況が変更された場合、ユーザは、そのことが分かりにくいので、図9に示すような変更通知処理が音声対話装置1に実装されることが好ましい。図9において、制御部110は、図4に示す制御データが到着するたびに、それに含まれるID又はグループ名及び/又はフラグを参照して、定位方向の割り当て状況が変わるか否かを判断する(ステップS21)。
Noと判断した場合、図9に示す変更通知処理は終了する。逆にYesと判断した場合、制御部110は、割り当て部15に処理を依頼し(ステップS22)、これによって、割り当て部15は図3に示す処理を開始する。
さらに、制御部110は、定位方向の割り当てが変わることをユーザに通知するように、報知部18に依頼する(ステップS23)。報知部18は、合成音声又は発光に代表される手法で、ユーザに、定位方向の割り当てが変わることを通知する。これによって、ユーザは定位方向の割り当てが変わることを知ることが可能となる。
また、対話相手をさらにユーザが特定し易いように、発話操作部11を構成するPTTボタン111−118を発光可能に構成され、制御部110は、図10に示すような相手通知処理を行うことが好ましい。つまり、図10において、制御部110は、複数の個人又は複数のグループからの音声が再生されると(ステップS31)、PTTボタン111−118のうち、今回の音声を送ってきた複数の個人又は複数のグループに割り当てられているものを点灯させる(ステップS32)。これにより、ユーザは、直前に対話音声が出力された相手へ返答する際に、対話音声が出力された方向及び選択ボタンの点灯によって対話相手をより容易に特定することできる。なお、PTTボタン111−118の発光だけでなく、対象となるPTTボタン111−118が他のものと識別できるような方法であれば、どのような方法で、ユーザに通知しても構わない。
また、ユーザは、対話相手からの音声が聴こえてくる方向が誰(どのグループ)になっているかをいつでも確認でき、気に入らなければ自由に変更できることが望ましい。制御部110は、図11に示すような割り当て変更処理を行うことが好ましい。つまり、図11において、制御部110は、ユーザより特定の方向から出力される対話音声の割り当て変更要求を受け付けたかを判断する(ステップS41)。この変更要求は、図示しない入力装置から、ユーザの操作に応答して出力される。なお、割り当ての変更には、入力装置として、タッチパネルディスプレイが好適である。
Noと判断すると、制御部110は、図11に示される処理を終了するが、Yesと判断すると、定位方向に関し現在の割り当て状況を表示部19へ表示するよう依頼する。表示部19は、このような依頼に応答して、例えば図6A及び図6Bを可視化したような画像を表示する(ステップS42)。
次に、制御部110は、ユーザの入力に従って、定位方向の割り当て変更を受け付け(ステップS43)、もし変更があった場合には、その変更を反映する(ステップS44)。
なお、割り当ての変更は好ましくは、ユーザの操作に応答して行われる。しかし、音声データが到着するたびに、又は音声対話の度に、定位方向の割り当てを変更するのは、対話相手の特定のし易さという観点からは好ましくない。それ故、一旦割り当てた定位方向を記憶し、音声対話装置1は、次に同じ状況での音声対話が行われる場合、記憶した定位方向を使うことが好ましい。
また、制御部110は、上述のようにROMに予め格納されるコンピュータプログラムに従って行っていた。しかし、これに限らず、上述のような処理はハードウェアで実現されても構わない。また、コンピュータプログラムは、CD−ROMのような記憶媒体に記録された状態で頒布されても構わない。他にも、コンピュータプログラムは、ネットワークに接続されたサーバ装置に、音声端末装置1がダウンロード又は可能に格納されていても構わない。
以上、本発明を詳細に説明したが、上記説明はあらゆる意味において例示的なものであり限定的なものではない。本発明の範囲から逸脱することなしに多くの他の改変例及び変形例が可能であることが理解される。
本発明に係る音声対話装置は、同時の複数人と音声対話している最中に、現在誰の声が出力されているかをユーザが認識しやすい車載端末装置等に有用である。
本発明の一実施形態に係る音声対話装置1の全体構成を示すブロック図 図1に示す携帯電話2から送られてくるアドレス帳データの構成を示す模式図 図1に示す割り当て部15の処理を示すフローチャート 図1に示す割り当て部15により受信される制御データの構造を示す模式図 図1に示す携帯電話2に格納されているアドレス帳データのグループのグループ構成の一例を示す模式図 図4に示すグループ名としてAが含まれており、第2のフラグがオンに設定されている制御データが送られてきた時の定位方向の割り当て状況を例示する模式図 図4に示すグループ名としてA−Cが含まれており、第3のフラグがオンに設定されている制御データが送られてきた時の定位方向の割り当て状況を例示する模式図 図1に示す割り当て部15により割り当てられた定位方向の一例を示す模式図 図1に示す発話操作部11の具体的な構成を示す第1の模式図 図1に示す発話操作部11の具体的な構成を示す第2の模式図 図1に示す音声対話装置1で実行される変更通知処理を示すフローチャート 図1に示す音声対話装置1で実行される相手通知処理を示すフローチャート 図1に示す音声対話装置1で実行される割り当て変更処理を示すフローチャート
符号の説明
1 音声対話装置
11 発話操作部
12 音声入力部
13 通信部
14 記憶部
15 割り当て部
16 音像定位部
17 再生部
18 報知部
19 表示部
110制御部
2 携帯電話

Claims (9)

  1. 音声を出力する再生部に接続される音声対話装置であって、
    予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当て部と、
    前記割り当て部により割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位部と、
    前記定位部が定位した各方向又は各距離感に一意に割り当てられる複数のボタンを含む発話操作部とを備え、
    前記定位部により定位された音声データに従って、前記再生部は音声を出力し、前記発話操作部のボタンが操作されることで、該ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話が開始される、音声対話装置。
  2. 前記割り当て部は、上位階層の割り当てとして前記複数のグループのそれぞれに互いに異なる方向又は距離感を割り当て、さらに、下位階層の割り当てとして前記上位階層の割り当てが行われたグループの各個人に方向又は距離感を割り当てる、請求項1に記載の音声対話装置。
  3. 前記割り当て部が方向又は距離感の割り当てを変更したことを報知する報知部をさらに備える、請求項1に記載の音声対話装置。
  4. 前記発話操作部は、前記再生部が音声を出力すると、前記複数のボタンの内、今回出力された音声を発した対話相手又はグループに割り当てられているボタンを点灯させる、請求項1に記載の音声対話装置。
  5. 前記割り当て部が前記1つのグループに属する各対話相手又は前記複数のグループに現在割り当てている方向又は距離感を表示する表示部をさらに備える、請求項1に記載の音声対話装置。
  6. 前記割り当て部は、前記1つのグループに属する各対話相手又は前記複数のグループに現在割り当てている方向又は距離感を、ユーザの指定に応じて変更する、請求項1に記載の音声対話装置。
  7. 音声対話装置において用いられ、外部からの音声データを出力する方法であって、
    前記方法は、
    予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当てステップと、
    前記割り当てステップで割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位ステップと、
    前記定位ステップで定位した各方向又は各距離感に一意に割り当てられた複数のボタンのユーザ操作に基づいて、ユーザが対話を開始するための対話相手又はグループを特定し、該ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話を開始する発話操作ステップと、
    前記定位ステップで定位された音声データに従って音声を出力する音声出力ステップとを備える、方法。
  8. 音声対話装置において用いられ、外部からの音声データを出力するためのコンピュータプログラムであって、
    前記コンピュータプログラムは、
    予め定められた1つのグループに属する各対話相手又は予め定められた複数のグループのそれぞれに互いに異なる方向又は距離感を割り当てる割り当てステップと、
    前記割り当てステップで割り当てられた方向又は距離感に従って、外部から送られてくる音声データを定位する定位ステップと、
    前記定位ステップで定位した各方向又は各距離感に一意に割り当てられた複数のボタンのユーザ操作に基づいて、ユーザが対話を開始するための対話相手又はグループを特定し、該ボタンに割り当てられた前記定位部が定位した方向又は距離感に対応する対話相手との対話を開始する発話操作ステップと、
    前記定位ステップで定位された音声データに従って、前記音声対話装置に接続された再生部又は前記音声対話装置に備わる再生部は音声を出力する音声出力ステップとを備える、コンピュータプログラム。
  9. 記憶媒体に記憶される、請求項8に記載のコンピュータプログラム。
JP2005017303A 2005-01-25 2005-01-25 音声対話装置 Expired - Fee Related JP4451794B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005017303A JP4451794B2 (ja) 2005-01-25 2005-01-25 音声対話装置
US11/794,191 US8014884B2 (en) 2005-01-25 2005-11-22 Audio conversation apparatus
PCT/JP2005/021414 WO2006080133A1 (ja) 2005-01-25 2005-11-22 音声対話装置
US13/194,117 US8712564B2 (en) 2005-01-25 2011-07-29 Audio conversation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005017303A JP4451794B2 (ja) 2005-01-25 2005-01-25 音声対話装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009181768A Division JP4700126B2 (ja) 2009-08-04 2009-08-04 音声対話装置

Publications (3)

Publication Number Publication Date
JP2006211048A JP2006211048A (ja) 2006-08-10
JP2006211048A5 JP2006211048A5 (ja) 2007-03-01
JP4451794B2 true JP4451794B2 (ja) 2010-04-14

Family

ID=36740167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005017303A Expired - Fee Related JP4451794B2 (ja) 2005-01-25 2005-01-25 音声対話装置

Country Status (3)

Country Link
US (2) US8014884B2 (ja)
JP (1) JP4451794B2 (ja)
WO (1) WO2006080133A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4451794B2 (ja) * 2005-01-25 2010-04-14 パナソニック株式会社 音声対話装置
JP4661467B2 (ja) * 2005-09-07 2011-03-30 カシオ計算機株式会社 音声通信端末及びプログラム
JP5052241B2 (ja) * 2007-07-19 2012-10-17 クラリオン株式会社 車載用の音声処理装置、音声処理システム、及び音声処理方法
US20090080423A1 (en) * 2007-09-24 2009-03-26 Ewing David B Systems and methods for adaptively adjusting codec rates for communication networks
US20100054218A1 (en) * 2008-08-27 2010-03-04 Richard Mark Clayton Method and System for Detecting Broadcast Receivers and Transitioning to Selective Communications
JP2012108587A (ja) * 2010-11-15 2012-06-07 Panasonic Corp 音声コミュニケーション装置および音声コミュニケーション方法
US9167368B2 (en) * 2011-12-23 2015-10-20 Blackberry Limited Event notification on a mobile device using binaural sounds
US10275207B2 (en) 2014-09-01 2019-04-30 Samsung Electronics Co., Ltd. Method and apparatus for playing audio files
US9900354B1 (en) * 2015-02-11 2018-02-20 Allstate Insurance Company Virtual carpooling
US10587978B2 (en) * 2016-06-03 2020-03-10 Nureva, Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space
EP3465392B1 (en) 2016-06-06 2021-02-17 Nureva Inc. Time-correlated touch and speech command input
EP4243013A3 (en) 2016-06-06 2023-11-08 Nureva Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location
US12087269B2 (en) 2019-07-24 2024-09-10 Nec Corporation Speech processing device, speech processing method, and recording medium
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2714708B2 (ja) 1990-04-27 1998-02-16 日本電信電話株式会社 会議通話端末装置
JPH0783325B2 (ja) 1990-06-25 1995-09-06 日本電信電話株式会社 多重化ディジタル伝送方式
JPH09271006A (ja) 1996-04-01 1997-10-14 Ricoh Co Ltd 多地点テレビ会議装置
JP3998360B2 (ja) 1998-12-15 2007-10-24 三菱電機株式会社 通話装置
US6327567B1 (en) * 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
JP2001036881A (ja) 1999-07-16 2001-02-09 Canon Inc 音声伝送システム及び音声再生装置
JP2003521202A (ja) * 2000-01-28 2003-07-08 レイク テクノロジー リミティド 地理的な環境で使用される空間オーディオシステム。
JP2001274912A (ja) 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
JP2004072354A (ja) 2002-08-06 2004-03-04 Yokogawa Electric Corp 音声会議システム
JP2004096664A (ja) 2002-09-04 2004-03-25 Matsushita Electric Ind Co Ltd ハンズフリー通話装置および方法
JP2004274147A (ja) 2003-03-05 2004-09-30 Hitachi Communication Technologies Ltd 音場定位型多地点通話システム
US8659636B2 (en) * 2003-10-08 2014-02-25 Cisco Technology, Inc. System and method for performing distributed video conferencing
US7496191B1 (en) * 2003-12-17 2009-02-24 Sprint Communications Company L.P. Integrated privacy rules engine and application
US20080165949A9 (en) * 2004-01-06 2008-07-10 Hanler Communications Corporation Multi-mode, multi-channel psychoacoustic processing for emergency communications
JP4451794B2 (ja) * 2005-01-25 2010-04-14 パナソニック株式会社 音声対話装置

Also Published As

Publication number Publication date
US8712564B2 (en) 2014-04-29
WO2006080133A1 (ja) 2006-08-03
US20110280388A1 (en) 2011-11-17
JP2006211048A (ja) 2006-08-10
US8014884B2 (en) 2011-09-06
US20080086308A1 (en) 2008-04-10

Similar Documents

Publication Publication Date Title
US8712564B2 (en) Audio conversation apparatus
US8190438B1 (en) Targeted audio in multi-dimensional space
CN101233784B (zh) 通信装置
US20070263823A1 (en) Automatic participant placement in conferencing
US20100048235A1 (en) Method and Device for Data Capture for Push Over Cellular
WO2019067410A1 (en) AUDIO CONCENTRATOR
JP4992591B2 (ja) 通信システム及び通信端末
JPWO2007007806A1 (ja) 電話端末、サーバ、その電話端末とそのサーバとから成る通話システム、および通話方法
JP5020663B2 (ja) 移動体通信機、通信システム、及び通信方法
WO2022196429A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
US20060159238A1 (en) Voice talk system, voice talk control apparatus, voice talk control method, and voice talk control program
JP4700126B2 (ja) 音声対話装置
JP2007532081A (ja) 車両の無線通信インターフェースへの入力の処理を制御する方法
JP2006254064A (ja) 遠隔会議システム、音像位置割当方法および音質設定方法
CN116057928A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
JP6405964B2 (ja) 音声制御システム、車載装置、音声制御方法
WO2021014990A1 (ja) 音声処理装置、音声処理方法、および記録媒体
CN116114241A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
US20050129250A1 (en) Virtual assistant and method for providing audible information to a user
JP2021077953A (ja) 情報処理装置および連携動作制御方法
US20240031758A1 (en) Information processing apparatus, information processing terminal, information processing method, and program
WO2024180633A1 (ja) 音響システム
WO2012063415A1 (ja) 音声制御装置および音声制御方法
WO2024180632A1 (ja) 音場制御方法及び音場制御装置
CN101223714B (zh) 移动电话机、通知方法以及程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100128

R150 Certificate of patent or registration of utility model

Ref document number: 4451794

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140205

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees