JP2003248841A

JP2003248841A - バーチャルテレビ通話装置

Info

Publication number: JP2003248841A
Application number: JP2002362596A
Authority: JP
Inventors: Yoshiyuki Mochizuki; 義幸望月; Katsunori Orimoto; 勝則折本; Toshinori Hijiri; 利紀樋尻; Naotake Otani; 尚毅大谷; Toshiya Naka; 俊弥中; Goji Yamamoto; 剛司山本; Shigeo Asahara; 重夫浅原
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-12-20
Filing date: 2002-12-13
Publication date: 2003-09-05

Abstract

(57)【要約】【課題】通信相手を受話者が選択した仮想の３次元CG
キャラクタとして表示して、CGキャラクタを介した音声
会話が行える、表示機能付の通信端末を提供する。【解決手段】通信部１で音声通信を行い、キャラクタ
背景選択入力部２で通話相手に対応したCGキャラクタを
選択する。音声処理部５で通話に必要な音声処理を行
い、音声変換部６で音声変換して音声出力部７から出力
する。音声入力部８で音声を取得する。音声解析部９で
音声解析を行い、感情推定部１０で音声解析結果から感
情推定を行う。口唇動作制御部１１、身体動作制御部１
２、表情制御部１３で制御情報を３次元描画部１４に送
って画像を生成して表示部１５で表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、利用者が仮想の３
次元CG（Computer Graphics）キャラクタを介すること
によって、ビジュアル的に音声会話を楽しめることを目
的とした、表示装置付きの通信端末装置によるバーチャ
ルテレビ通話に関するものである。

【０００２】

【従来の技術】従来、テレビ通信と呼ばれていたもの
は、カメラと表示装置付きの電話装置相互で、カメラに
よって撮影された通話相手の顔画像を見ながら通話する
という装置である。一般には伝送量を減らすため、撮影
した顔画像データは圧縮し、音声データと多重化して受
信者に送信される。受信者側では多重化データを音声デ
ータと圧縮された画像データに分離し、画像データを伸
長して、音声データと同期をとりながら、音声出力と画
像表示が行われる。最近では、MPEG-4(Moving Picture
Experts Group Phase 4)の標準画像圧縮規格に基づい
た、次世代移動体通信（IMT-2000）向けのビデオフォン
と呼ばれる携帯電話が開発されている（非特許文献１参
照。）。

【０００３】一方、上記のように画像を多重化して送信
する場合、従来の音声通信の枠組をはずれた広帯域の通
信規格やそれを実現するためのインフラストラクチャが
必要である。そのため、このような画像圧縮の手法によ
らずに、音声データ通信のみで、疑似的にテレビ通信と
類似の機能を実現しようとしたものがある（特許文献１
参照。）。この発明は、予め相手の顔画像を口のない状
態に加工した顔の静止画像と、「あ」「い」
「う」...，の母音の発音をした状態の口形状の静止画
像を電話に保持しておく。相手から送信された音声デー
タを音声認識技術を使って送信されてきた音声の母音解
析を行い、解析結果に応じた口形状データを顔画像と合
成した画像を随時表示して、相手の喋っている状態を表
示するものである。この発明の利点は、通常の音声通信
の枠組の中で疑似的なテレビ通信を実現できる点にある
が、利用者が口以外動かない静止画に対して違和感を感
じたり、また、本人と会話していると感じられるかにつ
いては疑問がある。

【０００４】音声通信の枠組からは外れるが、画像を送
信するよりはデータ量が減らせるということで、画像認
識技術と組み合わせた発明もある（特許文献２参
照。）。この発明では、画像認識により、表情と口形状
を認識し、パラメータ化して音声データとともに送信す
る。受信側では、予め相手の３次元モデルを保持してお
り、音声出力時に、受信したパラメータに基づき３次元
モデルを変形して表示するというものである。

【０００５】上記３つの技術は、いずれも通信相手の顔
を見ながら会話することを目的としたもので、会話自体
の娯楽性を高めることを目的としたものではない。以上
は、いわゆる電話の技術に関するものであるが、インタ
ーネットの普及により、文字ベースの会話が主体ではあ
るが、パーソナルコンピュータによる会話も可能であ
る。そのような中、共通の仮想空間に自分の代理CG(Com
puter Graphics)キャラクタを参加させ、仮想空間の中
でその代理のCGキャラクタを介して、そこに参加した他
の人の代理のCGキャラクタと会話を楽しむというものも
ある(特許文献３参照。)。この発明の目的は、自分が匿
名性を有した状態で相手と会話することにあり、現実の
自分と遊離した状態で参加しているため、虚偽を含めた
架空の会話を楽しむことが多い。

【０００６】なお、代理のCGキャラクタは、通信を行う
本人が選択した自分の仮身として働くため、アバター(A
vatar)と呼ばれる。このアバターは参加者自身が選択す
るものであり、会話相手がそのアバターのキャラクタを
変更することはできない。また、このアバター自体、他
の参加者にとっては相手を特定するためのものでしかな
いので変更する必要もない。実現性の問題でいうと、参
加者の端末コンピュータ（クライアントコンピュータ）
の他に、参加者が募る共通の仮想空間の管理制御や参加
者の状態制御、それらの情報通知などを行うサーバコン
ピュータが必要である。

【０００７】仮想的なCGキャラクタと会話を行うという
技術も、例えばインターネット上のエクステンポ・シス
テム社(Extempo Systems )のホームページで公開されて
いる。ここでは、利用者は、ネット上の専門キャラクタ
と会話するものだが、これは文字ベースのもので、音声
での会話ではない。

【０００８】また、技術的には、予め、会話辞書をキー
ワードで分類した辞書を作成しておき、相手の会話内容
に対して分類したキーワードに対する適合性を解析し、
最も適合性の高い会話文書を表示することで、CGキャラ
クタと人間の会話を成立させるものである。人間の理解
能力が高いため、適当な文書でもそれなりに会話として
成り立つが、会話文書の数は高々登録数のため、何度か
会話のやり取りをしているうちに、徐々に文書繰り返し
が起こる。仮想のCGキャラクタと会話するという新たな
娯楽性はあるが、実際の人間との会話とは、柔軟性や多
様性、適切性、個性の点で大きな違いがある。このよう
な技術の目指すところは、如何に現実の人間の会話能力
に近付けるかという点にある。

【０００９】

【特許文献１】特開昭６２−２７４９６２

【００１０】

【特許文献２】特開平０５−１５３５８１

【００１１】

【特許文献３】米国特許５８８０７３１

【００１２】

【非特許文献１】NIKKEIELECTRONICS 1999.11.1(No.75
6), pp99-117

【００１３】

【発明が解決しようとする課題】以上の従来の技術の特
徴をまとめると、上記の最初から３つまでの技術は、い
ずれも通信相手の顔を見ながら会話したいという要求に
対して発明されたもので、その通信相手の表情や様子な
どを確認しながら会話することが目的である。そのた
め、受話者が独自に何らかの作用をさせて、表示映像や
音声を加工して娯楽性を高めることを目的としたもので
はなく、またその技術的な開示もなされていない。

【００１４】次に、４つ目の従来例は、仮想的なコミュ
ニティー空間に自分の選択したCGキャラクタを参加さ
せ、匿名性を有して、逆に、匿名性を有するが故に、遠
慮のない本音の会話や架空、虚偽の会話を楽しむもので
ある。従って、会話相手のCGキャラクタは、単に特定が
できれば良いだけのものであり、その会話相手のCGキャ
ラクタや音声に対して何らかの作用をさせて、娯楽性を
高めた会話を楽しむというものではない。５つ目の従来
例は、人工知能的な会話機能を持つ仮想的なCGキャラク
タとの会話を楽しむという面があるものの、現実の人間
との会話とは似て非なるものであり、実際の人間との会
話とは、柔軟性や多様性、適切性、個性の点で大きな違
いがある。

【００１５】そこで、前記課題に鑑み、本発明は、通信
相手を受話者が選択した仮想の３次元CGキャラクタとし
て表示し、通信相手の会話を利用することで、仮想の３
次元CGキャラクタと音声会話が行える表示機能付の通信
端末を提供することを目的としている。これにより、
「通信相手の顔が見られる、又は、それに類似した映像
が見られる」、「架空のキャラクタになりすます」とい
う機能とは別の方法で、音声会話の娯楽性を高めた新た
な通信端末の実現が可能となる。

【００１６】また、本発明は、上記従来技術のようにサ
ーバのような装置を用いない仮想空間での会話を実現す
る表示装置付の通話装置の提供を目的とする。さらに、
本発明は、通話中の会話に適した感情表現を３次元CGキ
ャラクタが行う新たな通話装置の提供をも目的とする。

【００１７】

【課題を解決するための手段】上記目的を達成するため
に、本発明のバーチャルテレビ通話装置は、音声通信を
行う通信手段と、利用者本人又は通信相手の少なくとも
一方のCGキャラクタ形状データの選択を行うキャラクタ
選択手段と、利用者本人の音声の入力を行う音声入力手
段と、通信相手の音声の出力を行う音声出力手段と、前
記通信手段で受信した通信相手の音声データ又は前記受
信した通信相手の音声データと前記音声入力手段で入力
した利用者本人の音声データの両方に対して音声解析を
行う音声解析手段と、前記音声解析手段の音声解析結果
を用いて、通信相手又は通信相手と利用者本人の感情状
態を推定する感情推定手段と、前記CGキャラクタの動作
の制御を前記感情推定手段に基づいて行う動作制御手段
と、前記CGキャラクタ形状データと前記動作制御手段の
制御情報に基づいて生成された動作データを用いて描画
処理を行って画像を生成する描画手段と、前記描画手段
で生成された画像を表示する表示手段とを備えることを
特徴とする。

【００１８】また、本発明のバーチャルテレビ通話装置
は、前記感情推定手段は、当該感情推定手段での推定結
果を前記動作制御手段に通知し、前記動作制御手段は、
その通知結果に基づき前記動作データを特定することを
特徴とする。

【００１９】尚、本発明は、上述のようなバーチャルテ
レビ通話装置として実現できるのみではなく、このバー
チャルテレビ通話装置が備える手段をステップとするバ
ーチャルテレビ通信方法として実現したり、そのステッ
プを用いるバーチャルテレビ通信システムとしても実現
することができる。

【００２０】また、前記バーチャルテレビ通信方法をコ
ンピュータ等で実現させるプログラムとして実現した
り、当該プログラムをＣＤ−ＲＯＭ等の記録媒体や通信
ネットワーク等の伝送媒体を介して流通させることがで
きるのは言うまでもない。

【００２１】

【発明の実施の形態】（第１の実施例）以下、本発明の
第１の実施例のバーチャルテレビ通話装置について、図
面を参照しながら説明する。

【００２２】図１は本発明の第１の実施例におけるバー
チャルテレビ通話装置の構成を示すものである。このバ
ーチャルテレビ通話装置は、通信部１、キャラクタ背景
選択入力部２、データ管理部３、音声選択入力部４、音
声処理部５、音声変換部６、音声出力部７、音声入力部
８、音声解析部９、感情推定部１０、口唇動作制御部１
１、身体動作制御部１２、表情制御部１３、３次元描画
部１４、表示部１５、動作表情入力部１６、視点変更入
力部１７、キャラクタ形状データ保存部１８、キャラク
タ動作データ保存部１９、背景データ保存部２０、テク
スチャデータ保存部２１、及び音楽データ保存部２２を
含む。

【００２３】以上のように構成された本発明の第１の実
施例におけるバーチャルテレビ通話装置について、以
下、詳細に説明を行う。本発明の第１の実施例では、設
定時の動作と送着信会話時の動作に分けることができる
ので、各々について順次説明を行うが、それらに共通の
事項として、まず最初に、装置に保存されているデータ
とその管理の説明を行う。

【００２４】（保存データと管理の説明）キャラクタ形
状データ保存部１８には、CGキャラクタの形状データお
よびそれに対応するサムネールデータ（CGキャラクタの
容姿が判る画像データ）がアドレスで管理保存されてい
る。キャラクタ形状データは、一般に、頭部、上肢、体
幹、下肢などの部品で構成され、各部品は更に、例え
ば、頭部ならば目、鼻、口、頭髪などのサブ部品、上肢
なら手、前腕、上腕などのサブ部品で構成される。もっ
と詳細なキャラクタ形状ならば、更に手が指や手の平な
どのサブ部品で構成される。これらの階層構造関係が、
キャラクタ形状の構造を示しており、一般にはシーング
ラフと呼ばれる。

【００２５】各部品、サブ部品は、通常、サーフェース
モデルと呼ばれる、物体表面のみをポリゴン近似して面
の集合体で表現され、３次元空間での頂点座標、同頂点
での法線ベクトル成分（光源輝度計算の際には必須）、
テクスチャ座標（テクスチャマッピングを行う際には必
須）のインデックス化された点列データと、そのつなが
り方を表すトポロジカルなデータ（例えば、頂点インデ
ックスが１、２、３の順に書かれていたら、点１、２、
３を頂点に持つ三角形を表す）で構成され、更に各面の
反射率（拡散反射率、鏡面反射率）や環境光強度、物体
色などの属性データが含まれる。なお、CGキャラクタが
身にまとう衣類などをテクスチャマッピングによって表
現する場合には、CGキャラクタの形状データの該当する
部品に、使用するテクスチャのテクスチャデータ保存部
２１でのアドレス又はそれに対応する識別子のIDが明示
されている。

【００２６】キャラクタ動作データ保存部１９には、CG
キャラクタの身体の動作データと、身体動作の遷移グラ
フデータである身体動作パターンデータ、表情データと
表情パターンデータ、口唇動作データと口唇動作パター
ンデータがアドレスで管理保存されている。

【００２７】身体動作データは、通常のCGキャラクタニ
メーションで行われているように、３次元空間での身体
の代表点であるルートの身体全体の移動を表す平行移動
量と、身体全体の姿勢状態を表す３次元空間の３つの座
標軸回りの回転角度量又は回転の中心軸を表すベクトル
の成分のベクトルの回りの回転角度量、および各関節で
定義される局所座標系の座標軸回りの回転角度量の時系
列データである。これらルート位置や関節部での局所座
標系での変換系で、CGキャラクタ形状データを変換し
て、各時刻のCGキャラクタのいる位置や向き、CGキャラ
クタの身体のポーズを生成して３次元描画処理をし、こ
れを時間的に連続に行うことでCGアニメーションを実現
することができる。キーフレームアニメーションの技術
を使う場合は、全フレームの身体動作データを持たず
に、時間的に飛び飛びの時系列データで、その間の時刻
の動作状態は補間計算で行うので、身体動作データとし
ては、時間的に飛び飛びの上記の平行移動量や角度量の
時系列データが身体動作データである。

【００２８】身体動作パターンデータは、図６（ｂ）に
示したような、有限状態のグラフデータで、ある動作か
ら移行が可能な動作の関係と実体動作情報（動作ID、デ
ータ種別、各実体身体動作のアドレスとフレーム数、各
遷移の移行確率）からなるデータである。例えば、図６
（ｂ）では、標準状態を表す身体動作データから動作
A、動作C、動作D、動作Eヘの移行が可能であることが判
る。CGキャラクタが標準状態にある時、予め定められた
何らかのイベントが発生したら、実体動作情報に記され
た移行確率に基づく選択処理によって、動作A、動作C、
動作D、動作Eから動作が選択され、その動作の実体をア
ドレスによって取得する。

【００２９】また、本実施例の場合は、通話開始後の身
体動作パターンデータは、感情推定部１０による、通常
状態、笑い状態、泣き状態、怒り状態、悩み状態、納得
状態などの推定結果や動作表情入力部１６の入力結果を
イベントとして遷移が起こるものとして説明するが、よ
り複雑な推定結果や他の入力部によるイベントで遷移が
起こる場合でも同様に実施可能である。

【００３０】なお、身体動作は形状データの構造（骨格
構造、階層構造）に依存しており（例えば、６歩足の昆
虫の動作を２足歩行の人間には適用できない）、身体動
作が全ての形状データに適用できる訳ではないため、そ
れらを実体動作情報のデータ種別によって適用可能な形
状データとの分類を行う。また、以上の身体動作パター
ンデータは、上位階層に新たに身体動作パターンデータ
を設け、複数の身体動作パターンデータの実体のアドレ
スを、この上位層の身体動作パターンデータが管理する
ことで、この上位層の身体動作パターン１つにすること
も可能である。例えば、シーンチェンジのように、身体
動作パターンを切替えて用いると、非常に効果的であ
る。

【００３１】表情動作データは、図６（ａ）のように、
CGキャラクタの顔の表情を生成するためのデータであ
る。表情の生成の仕方には、通常行われているフェイシ
ャルアニメーション技術を用いることで行うが、例え
ば、顔の形状を変形して行う方法や、顔のテクスチャを
貼り変える方法などがある。顔の形状を変形する場合
は、顔の形状データのうち、表情を生成する眉、目や口
などの端点に対応する頂点座標の移動量の時系列データ
が表情動作データである。これらの移動量は、顔の筋肉
モデルに基づいてシミュレーション計算で算出すること
もできる。変換を行う頂点が複数の変換系に跨る場合
は、それぞれの変換に対する重み付けを頂点に与えて、
各々の変換系でその頂点を一旦変換した複数の頂点を算
出し、それらを重み付けを考慮して平均した座標に変換
するという、エンベロープ手法も用いられる。

【００３２】図６（ａ）においては、目の形、鼻の大き
さ、耳、顔の形等の形状を変形させることにより各感情
を表現する。また、テクスチャを貼り変えて行う場合
は、笑った表情や泣いた表情のテクスチャ、その途中段
階のテクスチャが表情データである。表情パターンデー
タは、これら表情データの遷移グラフデータで、身体動
作データの遷移グラフデータと同様に、ある表情データ
からある表情データへの移行が可能な有限状態グラフと
実体表情情報（表情ID、データ種別、各実体表情動作デ
ータのアドレスとフレーム数、各遷移の移行確率）であ
る。例えば、図６-（ａ）に示したもので、この例では
通常顔を経由しなければ他の顔へは移行できないことを
示しており、移行先の選択は実体表情情報の移行確率に
基づいて行われる。なお、身体動作の時と同様、実体表
情情報のデータ種別によって表情動作なのかテクスチャ
なのかと適用可能な形状を特定する。例えば、データ種
別の１桁目を表情かテクスチャかの分類に用い、２桁目
以上の数字を形状用の識別番号とする。なお、以上の表
情パターンデータは、身体動作パターンデータの時と同
様に、上位層の表情パターンデータを設けることで、複
数の表情パターンを１つにすることも可能である。

【００３３】また、本実施例の場合は、通話後の表情パ
ターンデータは、感情推定部１０により、通常状態、笑
い状態、泣き状態、怒り状態、悩み状態を推定し、その
推定結果や動作表情入力部１６の入力結果をイベントと
して遷移が起こるものとして説明するが、より複雑な推
定結果や他の入力部によるイベントで遷移が起こる場合
でも同様に実施可能である。

【００３４】口唇動作データについても、表情動作デー
タ、表情動作パターンデータと同様で、口の形状を変形
して行う方法や、テクスチャを貼り変える方法がある。
但し、口唇動作データは、音声解析処理の内容に依存
し、もし、後述のように音強度解析結果に基づいて、口
唇動作を生成する場合には、単に口の開ける量に応じた
動作データが保存されている（図５（ａ）参照）。音素
解析までの処理が行える場合は、例えば、母音解析と
「ん」音解析が行える場合には、その音に合わせた口唇
形状を生成するための形状変形データや、その口唇のテ
クスチャデータが動作データとして保存されている（図
５（ｂ）参照）。

【００３５】口唇パターンデータは、以上のような何種
類かの口唇動作データの集合を表すもので、実体口唇情
報（各口唇ID、データ種別、各実体口唇動作アドレスと
フレーム数）からなるデータである。各実体口唇IDは、
例えば、図５（ａ）のように音強度によって制御を行う
場合ならば、レベルに相当するものを識別子としたもの
で、０をレベル０、・・・、３をレベル３のように与え
た識別子、図５（ｂ）のように音素解析に基づくなら
ば、「ん」、「あ」、・・・、「お」に相当する識別子
を各々０、１、・・・、５と与えた識別子である。さら
に、音強度解析と音素解析を組み合わせることも可能
で、同じ「あ」音でも音強度の大きな「あ」や小さな
「あ」を設ける。この場合、図５（ｂ）の縦方向に図５
（ａ）のレベルが並んだものになり、口唇IDは２次元の
識別子として定義すれば良い。

【００３６】背景データ保存部２０は、CGキャラクタを
表示した時の背景のデータとして、背景の形状データも
しくは背景の画像と、それに対応するサムネール画像を
アドレス管理して保存する。背景の形状データは、CGキ
ャラクタの形状データと同様で、形状として背景となる
物体である。背景の画像データは、例えば、空や遠景の
画像データで、背景の物体と組合せて用いることもでき
る。なお、背景の物体の形状データにテクスチャマッピ
ングで模様などを付ける場合には、使用するテクスチャ
データ保存部２１でのアドレス又はそれに対応する識別
子のIDが明示されている。

【００３７】テクスチャデータ保存部２１は、３次元描
画部１４でテクスチャマッピングを行う際に用いる、CG
キャラクタが身にまとっている衣類などのテクスチャの
画像データや、背景で使う物体のテクスチャマッピング
用の画像データがアドレス管理されて保存されている。

【００３８】音楽データ保存部２２は、音楽データがア
ドレス管理されて保存されている。これは、送信相手か
らの着信時に鳴動させて、合図として用いるものであ
る。データ管理部３は、保存データの管理と、設定デー
タの保存管理、設定データの通知を行うものである。こ
こでは、まず、キャラクタ形状データ保存部１８、キャ
ラクタ動作データ保存部１９、背景データ保存部２０、
テクスチャデータ保存部２１、音楽データ保存部２２に
保存されたデータの管理について説明する。

【００３９】図３はデータ管理部３が保持しているテー
ブルの一つで、CGキャラクタデータ管理テーブル３ａを
示したものである。CGキャラクタデータは、CGキャラク
タの名前、CGキャラクタ形状データの実体のあるキャラ
クタ形状データ保存部１８でのアドレス、CGキャラクタ
形状データに明示された衣類などのテクスチャに対し
て、利用者の指定に基づき交換を行う際の衣類テクスチ
ャデータのテクスチャデータ保存部２１での交換前の衣
類テクスチャのアドレスと交換後の衣類テクスチャデー
タのアドレス（複数記述可能）、キャラクタ動作データ
保存部１９に保存された表情パターンデータの通話開始
前と通話開始後の２つアドレスと、口唇動作パターンの
アドレス、キャラクタ形状データ保存部１８に保存され
たサムネール画像のアドレスからなり、それらをCGキャ
ラクタIDによる識別子でテーブル化したものがCGキャラ
クタデータ管理テーブル３ａである。

【００４０】その他の保存データの管理用のテーブルと
しては、背景データ管理テーブル、動作パターン管理テ
ーブル、音声管理テーブルの３種類あり、CGキャラクタ
データ管理テーブル３ａを加えて合計４種類ある。背景
データ管理テーブルは、背景の物体や遠景の画像データ
の名前と、背景データ保存部２０でのアドレスを背景ID
による識別子でテーブル化したものである。動作パター
ン管理テーブルは、身体動作パターンデータの名前と、
キャラクタ動作データ保存部１９でのアドレスを動作パ
ターンIDによる識別子でテーブル化したものである。音
楽データ管理テーブルは音楽データの名前と、音楽デー
タ保存部２２でのアドレスを音楽IDによる識別子でテー
ブル化したものである。

【００４１】（設定時の動作）通信部１には、図４
（ａ）に示したように、通信者管理テーブル１ａが保存
されている。通信者管理テーブル１ａは、通信相手を送
信者ID、電話番号、氏名、表示モードの内容を管理する
ものである。表示モードは、CGキャラクタを表示しない
で通常の音声通信で通話する場合の、非表示モード、通
信相手のみをCGキャラクタとして表示して、バーチャル
テレビ通信として通話を行う相手表示モード、相手だけ
でなく利用者自身もCGキャラクタとして表示して、バー
チャルテレビ通信として通話を行う本人同時表示モード
があり、これを識別子により管理する。本実施例では、
非表示モードを０、相手表示モードを１、本人同時表示
モードを２として識別子を割り当てるものとして説明す
る。

【００４２】なお、送信者IDの番号０は、本人を示すも
のとして予め定められているものとする。なお、本実施
例では電話通信を基本として考えているため、電話番号
により送着信の管理が行われているものとして話を進め
るが、例えば、インターネットならばTCP/IPに基づくIP
アドレスや利用者に対するメールアドレスなどでも良
い。これらは通信インフラに依存して決まる、通信者特
定を行うための識別子なので、このような条件を満たす
識別子なら全てに対応可能である。

【００４３】図４（ａ）のCGデータ管理テーブル３ｂ
は、データ管理部３に保存されたテーブルで通信相手に
対するCGデータの設定を保存管理するためのテーブルで
ある。送信者に対して決定した、CGキャラクタデータ管
理テーブル３ａにおけるCGキャラクタID、背景データ管
理テーブルにおける背景ID、動作パターン管理テーブル
における通話開始前と通話開始後の身体動作パターンID
からなる項目を送信者IDによって管理する。

【００４４】図４（ａ）の音声管理テーブル３ｃも、デ
ータ管理部３に保存されたテーブルで、送信者に対して
決定した、通信相手に対する音声変換数値パラメータ、
着信時の音楽データIDからなる項目を送信者IDによって
管理するためのものである音声変換数値パラメータは、
音声変換部６で用いるもので、バンドパスフィルタによ
って音声変換を掛ける場合は、各バンドパスフィルタに
割り振った識別子である。例えば、０はフィルタなし、
１は１kHz以下のフィルタ、２は１〜５kHzのフィルタ、
３は５kHz以上のフィルタというように識別子を割り振
る。

【００４５】このように、変換に必要なパラメータを識
別子化したものなので、変換方法（例えば、ピッチ変換
によって音声変換を行う場合でも、変換に必要なパラメ
ータの組を識別子化しておけば良い）には依存しない。
尚、前記音声変換数値パラメータは、音声の高低を決定
する識別子であり利用者が設定を変更することによりボ
イスチェンジャーのような効果を有する。また音楽デー
タIDは、いわゆる着信メロディーを決定する識別子とな
る。

【００４６】設定時の動作について図４（ｂ）に基づい
て説明する。キャラクタ背景選択入力部２に備えられた
当該設定状態移行入力部を利用者が操作すると、設定可
能状態に移行することがデータ管理部３に通知され、デ
ータ管理部３は通信部１に保存された通信者管理テーブ
ル１ａの内容を読み出し、３次元描画部１４へ送る（Ｓ
４０１）。３次元描画部１４では予め保持した設定画面
データに基づき、送られてきた通信者管理テーブル１ａ
の内容を反映した設定画面を生成して表示部１５に設定
画面を表示する。キャラクタ背景選択入力部２で、通信
者の選択をおこない（Ｓ４０２）、その通信者に対する
前述の識別子に従った表示モードを入力する。選択が非
表示モードを表す０の場合（Ｓ４０３）は、設定は終了
する。

【００４７】次に、表示モードが相手のみをCGキャラク
タとして表示する表示モード１、又は利用者本人もCGキ
ャラクタとして表示する表示モード２の場合は、その結
果がデータ管理部３を介して通信部１と３次元描画部１
４に通知される。通信部１では、通信者管理テーブル１
ａに選択結果の表示モードを記入保存する。３次元描画
部１４では、図３に示したような予め定めておいたキャ
ラクタ選択設定画面や、衣類テクスチャ設定画面、身体
動作パターン設定画面を順次生成して表示部１５で表示
する。

【００４８】なお、キャラクタ選択画面では、CGキャラ
クタデータ管理テーブル３ａに示されたサムネールのア
ドレスや名前を基に、図３のようにCGキャラクタの画像
や名前を描画する。そして、CGキャラクタ選択設定画面
や、衣類テクスチャ設定画面、身体動作パターン設定画
面が順次表示されるが、そのうちキャラクタ背景選択入
力部２で選択入力したデフォルトや特定通信者に対する
前記CGキャラクタ選択設定画面での選択結果、前記身体
動作パターン設定画面での選択結果は、データ管理部３
に保存されたCGデータ管理テーブル３ｂの該当欄にその
IDが記録される。また、前記衣類テクスチャ設定画面で
の選択結果は、データ管理部３に保存されたCGキャラク
タ管理テーブル３ａの該当欄に記録される。

【００４９】なお、身体動作パターンの選択は、通話開
始前のものと通話開始後のものの２種類を選択し、その
際には、動作パターン管理テーブルに記載された名前を
設定画面に表示することも可能である。この表示によ
り、利用者は身体動作のイメージが掴み易くなるので選
択がし易い。例えば、マンボダンスとか、ワルツダン
ス、アナウンサーの動き、有名タレントの動きなどであ
る（Ｓ４０４）。

【００５０】同様に、音声選択入力部４によって、音声
変換パラメータや音楽データの設定入力を行うが、その
入力モードへの移行は音声選択入力部４に予め定められ
た当該設定状態移行入力部を利用者が操作すると、その
移行が通信部１を経由してデータ管理部３を介して、３
次元描画部１４に通知される。３次元描画部１４は、予
め定められた設定画面生成して表示部１５に表示する。
表示された設定画面に基づき、利用者は音声選択入力部
４によって、音声変換パラメータや音楽データを選択入
力する。入力された選択結果は、データ管理部３に保存
された音声管理テーブル３ｃに記録される（Ｓ４０
４）。

【００５１】相手表示モードの場合は次に背景の選択設
定に移行する（Ｓ４０５）。また、本人同時表示モード
が選択された場合は、利用者本人に対するCGキャラク
タ、衣類テクスチャ、動作パターンの選択入力をキャラ
クタ背景選択入力部２によって上記と同様に行った後
（Ｓ４０６）、背景の選択に移行する。

【００５２】背景の選択についても、予め定められた背
景設定画面が表示され、キャラクタ背景選択入力部２に
よって背景を選択する（Ｓ４０７）。選択結果は、デー
タ管理部３に保存されたCGデータ管理テーブル３ｂに記
憶される。

【００５３】最後に、上記のCGキャラクタの設定および
身体動作パターンの設定の際に、表情パターンデータの
中の特定の表情動作データのアドレス、身体動作パター
ンデータの中の特定の身体動作データアドレスを動作表
情入力部１６に通知する。動作表情入力部１６では、通
知された身体動作データのアドレスと表情動作データの
アドレスを保持し、動作表情入力部１６に予め用意され
た入力ボタンと対応づけを行う。その入力ボタンを利用
者が押したならば、それに対応する身体動作データ又は
表情データのアドレスがデータ管理部３に通知され、そ
の通知結果は身体動作データのアドレスならば身体動作
制御部１２に、表情動作データのアドレスならば表情制
御部１３に通知される。入力ボタンを複数用意すること
で、保持できる身体動作データのアドレス、表情動作デ
ータのアドレスは複数保持できる。

【００５４】また、通話開始前と通話開始後の身体動作
データのアドレス、表情動作データのアドレスは、明示
的に判るようにしておく。なお、本実施例ではボタン入
力として記述したが、特定できる入力部（例えばキーボ
ード、マウスなど）ならば、いかなるものでも良い。従
って、利用者は自身のキャラクタを選択できると共に、
通話相手のキャラクタをも自由に選択することができ、
また、利用者側の通話装置がバーチャルテレビ通話に必
要なデータを備えているため、通話相手が必ずしもバー
チャル通話装置を用いていなくても利用者はバーチャル
テレビ通話を行うことができる。

【００５５】尚、以上のような、グラフィカルな設定
は、PCでは一般に行われることで、既存のソフト技術に
よって実現可能である。（送着信時の動作）送信時には、通信部１で電話番号を
入力し、保存された通信者管理テーブル１ａに記録され
た電話番号の欄の内容と照合することで、送信者のIDと
表示モードを特定する。着信時は、通常、着信相手の電
話番号が通話前に通知されるので、その電話番号と通信
者管理テーブル１ａの電話番号の欄を照合することで、
送信者IDと表示モードを特定する。なお、通信部１は通
常の音声通信機能は保持しているものとする（携帯電話
の場合ならば、いわゆるベースバンド処理など）。

【００５６】特定した表示モードが非表示モードの場合
は、一般に行われている音声通話処理を行う。つまり、
通信相手との通信承認が得られた後、音声データが送信
者から送られてきた場合は、音声処理部５により、デコ
ード処理などの通常行われる音声処理を行って、音声変
換部６を通過して、音声出力部７に送り、音声を出力す
る。また、利用者本人の音声は、音声入力部８から入力
して、音声処理部５で、通常行われる音声データの圧縮
などの音声処理を行って、通信部１を介して通信相手に
送信する。

【００５７】特定した表示モードが相手のみをCGキャラ
クタとして表示する、相手表示モードの場合についてそ
の動作を説明するが、動作は通話開始前と通話開始後に
分けられ、通話開始は通信部１によってその開始をデー
タ管理部３に知らせる。

【００５８】送着信時の通話開始前において、前述のよ
うに送信相手の電話番号が特定できるので、通信者管理
テーブル１ａから通信相手の送信者IDを通信部１で特定
し、送信者IDをデータ管理部３に送る。データ管理部３
は保存しているCGデータ管理テーブル３ｂから、送信者
IDに対応するCGキャラクタID、背景ID、動作パターンID
（通話前と後の身体動作パターンの２つのID）を特定す
る。送られてきた送信者IDに対応するものが、CGデータ
管理テーブル３ｂにない場合は、デフォルト設定された
CGキャラクタID、背景ID、動作パターンID（通話前と後
の身体動作パターンの２つのID）を特定する。

【００５９】データ管理部３では、特定したCGキャラク
タIDによりCGキャラクタデータ管理テーブル３ａから、
CGキャラクタ形状データのアドレス、交換前の衣類テク
スチャのアドレスおよび交換後の衣類テクスチャのアド
レス、通話開始前と通話開始後の２つの表情パターンデ
ータのアドレス、口唇動作パターンのアドレスを特定す
る。保存されている背景データ管理テーブルにより、特
定された背景IDから背景データのアドレスを特定する。
また、保存されている動作パターン管理テーブルによ
り、動作パターンID（通話前と後の身体動作パターンの
２つのID）から通話開始前と通話開始後の２つの身体動
作パターンのアドレスを特定する。

【００６０】データ管理部３は、特定した、CGキャラク
タ形状データのアドレス、交換前の衣類テクスチャのア
ドレスと交換後の衣類テクスチャのアドレス、背景デー
タのアドレスを３次元描画部１４に通知する。また、デ
ータ管理部３は、キャラクタ動作データ保存部１９か
ら、特定した通話開始前と通話開始後の２つの身体動作
パターンのアドレス、通話開始前と通話開始後の２つの
表情パターンデータのアドレス、口唇動作パターンデー
タのアドレスにより、通話開始前と通話開始後の２つの
身体動作パターンデータを読み出して身体動作制御部１
２に送り、通話開始前と通話開始後の２つの表情パター
ンデータを読み出して表情制御部１３に送り、口唇動作
パターンデータを読み出して口唇動作制御部１１に送
る。

【００６１】口唇動作制御部１１では、口唇動作パター
ンデータ中から適当な口唇動作データのアドレスを選
び、３次元描画部１４にそのアドレスとともにフレーム
番号０からフレーム数分まで順次通知する。口唇動作パ
ターンデータ中から適当な口唇動作データのアドレスを
選ぶ方法としては、乱数を用いて行う方法があるが、等
確率で選択する他に、口唇重み付を行って選択制御を行
う。この処理を通話開始まで繰り返す。なお、乱数を使
わずに固定的な遷移を予め規定しておき、その遷移のシ
ーケンスに従って、口唇動作データのアドレスとフレー
ム番号を３次元描画部１４に通知することもできる。但
し、この場合、利用者は規則的な繰り返し口唇動作を見
ることになる。例えば、「電話だよ」言葉に合わせた口
唇動作を繰り返し表示することもできる。

【００６２】身体動作制御部１２は、最初、通話開始前
の身体動作パターンデータの中から、図６（ｂ）に示し
たように、標準状態に相当する身体動作データのアドレ
スとフレーム番号を０から順次フレーム数分３次元描画
部１４に通知する。フレーム数分通知後、各遷移の移行
確率に基づく乱数を発生して次の身体動作データを選択
し、その移行先の身体動作データのアドレスとフレーム
番号を０からフレーム数分３次元描画部１４に通知す
る。終了後は、再び各移行確率に基づく乱数を発生して
遷移を行う。この処理を通話開始まで繰り返す。

【００６３】なお、乱数を使わずに固定的な遷移を予め
身体動作パターンに規定しておき、その遷移のシーケン
スに従って、身体動作データのアドレスとフレーム番号
を３次元描画部１４に通知することもできる。但し、こ
の場合、利用者は規則的な繰り返し身体動作を見ること
になる。例えば、「電話の受話器を取る」といような身
体動作を繰り返し表示することもできる。

【００６４】表情制御部１３は、最初、通話開始前の表
情動作パターンデータの中から、図６（ａ）に示したよ
うに、通常顔に相当する表情動作データのアドレスとフ
レーム番号を０から順次フレーム数分３次元描画部１４
に通知する。フレーム数分通知後、各遷移の移行確率に
基づく乱数を発生して次の表情動作データを選択し、そ
の移行先の表情動作データのアドレスとフレーム番号を
０からフレーム数分３次元描画部１４に通知する。終了
後は、再び各移行確率に基づく乱数を発生して遷移を行
う。この処理を通話開始まで繰り返す。

【００６５】なお、乱数を使わずに固定的な遷移を予め
表情動作パターンに規定しておき、その遷移のシーケン
スに従って、表情動作データのアドレスとフレーム番号
を３次元描画部１４に通知することもできる。但し、こ
の場合、利用者は規則的な繰り返し表情動作を見ること
になる。例えば、「通常の顔と困った顔」というような
表情動作を繰り返し表示することもできる。

【００６６】３次元描画部１４での基本的な３次元描画
の動作について説明をする。３次元描画部１４は、デー
タ管理部３から通知された、CGキャラクタ形状データの
アドレス、交換前の衣類テクスチャのアドレスと交換後
の衣類テクスチャのアドレス、背景データのアドレスに
より、キャラクタ形状データ保存部１８から描画を行う
CGキャラクタの形状データと、テクスチャデータ保存部
２１から衣類テクスチャデータ、背景データ保存部２０
から背景データをまずロードしておく。

【００６７】次に、口唇動作制御部１１から通知され
る、口唇動作データのアドレスとフレーム番号、身体動
作制御部１２から通知される、身体動作データアドレス
とフレーム番号、表情制御部１３から通知される、表情
動作データのアドレスとフレーム番号を受けとる。受け
とった口唇動作データのアドレス、身体動作データのア
ドレス、表情動作データのアドレスにより、キャラクタ
動作データ保存部から口唇動作データ、身体動作デー
タ、表情動作データをロードする。このロードは、口唇
動作制御部１１、身体動作制御部１２、表情制御部１３
から通知される各動作のアドレスが更新されない限り、
通知の最初に一度だけ行う。尚、特定の通信相手に対応
するキャラクタを着信時に画面に表示するため、利用者
は画面に表示されたキャラクタを見るだけで誰からの着
信かを理解することができる。

【００６８】口唇動作制御部１１から通知されたフレー
ム番号の動作データをロードした口唇動作データから生
成するが、これは口唇動作データが形状変形のような場
合なら、通常行われている、キーフレームアニメーショ
ンの技術と同様に、キーとなる動作データの補間によっ
て生成し、テクスチャの場合でもキーとなるテクスチャ
の補間によって生成する。生成したフレーム番号の動作
データを用いて、形状変形の場合ならばCGキャラクタ形
状データの口部の形状を変形する。テクスチャの場合
は、通常行われているテクスチャマッピングの技術によ
り、口部にマッピングを行うが、これは３次元描画処理
の時に行われる。

【００６９】表情動作データの場合も同様に、通知され
たフレーム番号の動作データを生成して、その動作デー
タに基づき、形状変形の場合は顔の変形を行う。テクス
チャの場合はテクスチャマッピングによって顔部の描画
を行うが、これは３次元描画処理の時行う。また、通知
されたフレーム番号の身体動作データの動作データを、
キーとなる身体動作データの補間により生成し、その身
体動作データに基づき、前述の変換をCGキャラクタに施
してCGキャラクタの位置と身体状態を決定する。

【００７０】この後、背景データ、衣類テクスチャデー
タ、口唇動作データがテクスチャの場合はそのテクスチ
ャ、表情動作データがテクスチャの場合はそのテクスチ
ャを用いて、通常行われる３次元描画処理（モデリング
変換、視界変換、透視変換、スクリーン変換、スクリー
ンへのピクセル処理の順で行うが、テクスチャマッピン
グはスクリーンへのピクセル処理の際に実施する）によ
り画像を生成する。その際、カメラデータ（カメラの位
置と方向、画角で視界変換、スクリーン変換に必要）
は、最初デフォルトのものを用いる。例えば、CGキャラ
クタ正面を向いて身体全体が生成された画像の中心部に
あるように設定するなどで、このような設定は、CGキャ
ラクタを含む最小の直方体を求め、CGキャラクタのルー
トの方向ベクトルの正面部に相当する方向と逆向きの光
軸で、その重心部が光軸上にあり、各頂点がスクリーン
に含まれるように画角を設定すれば良い。

【００７１】また、視点変更入力部１７により、カメラ
データを入力して、３次元描画部１４に通知し、このカ
メラデータに基づいて３次元描画処理を行うことで、視
点が変更された画像が生成できる。また、視点変更入力
部１７にプリセットしたカメラデータを用意しておき、
そのプリセットデータを３次元描画部１４に通知して視
点の変更を行う。

【００７２】動作表情入力部１６は、上記で述べたよう
に予め設定しておいた入力ボタンを利用者が押すと身体
動作データのアドレス又は表情動作データのアドレスが
データ管理部３を介して、身体動作データのアドレスに
ついては身体動作制御部１２に、表情動作データのアド
レスについては表情制御部１３に通知される。身体動作
データのアドレスの場合、身体動作制御部１２はこの通
知を受けとると、現在、３次元描画部１４に通知してい
る身体動作データに関して最後のフレーム数番号の通知
が終ると、通常は次の移行先の身体動作データを上述の
ように選択するが、強制的に通知された身体動作データ
のアドレスとフレーム番号を３次元描画部１４に通知す
る。表情動作データのアドレスの場合も同様に、表情制
御部１３は現在通知している表情動作データの通知が終
了後、強制的にデータ管理部３から通知された表情動作
データのアドレスとフレーム番号を３次元描画部１４に
通知する。これにより、自動的に選択されてアニメーシ
ョンを通常行うが、利用者が自分の好みで選択した動作
を強制的に表示できるようになる。

【００７３】以上のようにして生成された３次元描画終
了後の画像は表示部１５に転送されて表示される。な
お、３次元描画部１４での３次元描画処理は、通常、表
示部１５のリフレッシュレートに合わせて処理が行われ
る。口唇動作制御部１１、身体動作制御部１２、表情制
御部１３から通知される動作のアドレスとフレーム番号
は、３次元描画部１４の３次元描画処理中に通知され、
次に用いるデータとしてセットされている。次のフレー
ムの３次元描画処理を行う際には、このセットされた各
動作データのアドレスとフレーム番号が用いられる。以
上により、口唇動作制御部１１、身体動作制御部１２、
表情制御部１３からの通知に関して同期制御が行われ
る。

【００７４】音楽データに関して説明する。データ管理
部３では、音声管理テーブル３ｃによって送信者IDに対
応する音声変換数値パラメータの値と、音楽データIDを
特定する。送られてきた送信者IDに対応するものが、音
声管理テーブル３ｃにない場合は、デフォルト設定され
た音声変換数値パラメータと音楽データIDを特定する。
音楽データ管理テーブルから音楽IDにより音楽データの
アドレスを取得する。取得した音楽データのアドレスに
より、音楽データ保存部２２から該当音楽データをロー
ドして、音声処理部５に転送する。

【００７５】音声処理部５は、音楽データが圧縮されて
いる場合はその伸長処理や、MIDIデータなどの符号化さ
れた音楽データの場合は、保存されている音源データで
の音生成処理を行って、音声変換部６を通して音声出力
部７から音楽を出力する。このように、着信時には音声
出力部７から通信相手のキャラクタと結びつけた着信メ
ロディーを出力することにより通信相手の確認を容易に
することができる。

【００７６】以上の操作により、音楽が流れた状態で、
CGキャラクタを表示することは可能であるが、音楽とCG
キャラクタの動作は基本的には同期しない（音楽データ
に合わせて、予め同期が取れるように動作データを作成
しておけば同期は取れるので、少なくとも最初の出力を
同期させることはできる）。

【００７７】ここで、音楽とCGキャラクタの同期につい
て述べる。音楽データに映像データなどで用いるタイム
スタンプに相当する時間管理データが含まれたものを用
いる。これは、MPEG-4（Moving Picture Experts Group
Phase 4）のオーディオにはタイムスタンプが入ってお
り、またMIDIデータならばデルタタイムと呼ばれる、時
間増分データを積分制御すれば代用できる。音声処理部
５では音楽データを音声出力部７に転送する際に、タイ
ムスタンプを管理し、これから音楽出力使用としている
もののタイプスタンプを時間同期信号として、口唇動作
制御部１１、身体動作制御部１２、表情制御部１３に送
る。口唇動作データ、表情動作データ、身体動作データ
にも０から始まるタイムスタンプを入れたものを用い
る。これは予め、音楽に合わせてタイムスタンプを割り
振っておく。

【００７８】口唇動作制御部１１、身体動作制御部１
２、表情制御部１３では、この送られてきたタイムスタ
ンプと各々が制御する、動作データのタイムスタンプの
番号を照合するが、その際、これまで３次元描画を行っ
てきた動作データのタイムスタンプの累積数を各動作が
持っているタイムスタンプに加算すると、音楽のタイム
スタンプと一致することを用いる。この照合に合ったフ
レーム番号と動作データのアドレスを３次元描画部１４
に同時に送る。以上の処理により、音楽データと同期し
た動作制御を行うことができる。

【００７９】次に、通話開始後の動作について説明をす
る。通信部１で、通信相手との通話開始が成立したこと
を判定する。これは、通常の電話通信であれば、自分か
ら電話を掛けたのであれば、相手が受話器を取った時
に、アクセプト信号を返信してもらうことで、また、相
手から掛かってきた時には、受話器を取ることで相手に
アクセプト信号を返すことで通信成立を認知できる。携
帯電話などの無線通信やインターネットなどでの通信で
も基本的な機構は同じで、通信開始の成立を認知するこ
とができる。通信部１は、通話が成立したことをデータ
管理部３に通知する。

【００８０】データ管理部３は通話成立の通知を受ける
と、音声処理部５への音楽データの転送を中止し、通話
が開始されることを通知し、さらに、データ管理部３は
音声管理テーブル３ｃから音声変換数値パラメータを読
み出し、音声処理部５を介して音声変換部６へ通知す
る。また、並行して、口唇動作制御部１１、身体動作制
御部１２、表情制御部１３に通話が開始されることを通
知する。

【００８１】口唇動作制御部１１、身体動作制御部１
２、表情制御部１３は通知を受けとると、３次元描画部
１４への転送を止める。口唇動作制御部１１は、後述す
る音声解析部９が音強度解析処理のみを行う場合は、図
５（ａ）に示したレベル０の状態の口唇動作データのア
ドレスとフレーム番号、音素解析のみ又は音強度解析と
音素解析とを両方行う場合は、図５（ｂ）に示した
「ん」音の口唇動作データのアドレスとフレーム番号を
３次元描画部１４に送る。

【００８２】身体動作制御部１２は、通話開始後の身体
動作パターンデータの標準状態の身体動作データのアド
レスとフレーム番号を３次元描画部１４に送る。表情制
御部１３は、通話開始後の表情動作パターンデータの通
常顔の表情動作データのアドレスとフレーム番号を３次
元描画部１４に送る。３次元描画部１４は、口唇動作制
御部１１、身体動作制御部１２、表情制御部１３から送
られた、動作データのアドレスとフレーム番号を受けと
ると、前述と同様の動作で３次元処理を行って、表示部
１５に生成した画像を送って表示する。

【００８３】音声処理部５は通話開始の通知を受ける
と、通信部１から送られてくる通信媒体に即した音声デ
ータの音声処理（音声データのデコードやノイズキャン
セルなど）を行い、音声処理したデータを音声変換部６
と音声解析部９に送る。

【００８４】音声変換部６では送られてきた音声変か数
値パラメータに基づき音声の変換を掛けて（例えば上述
のようにフィルタ処理で行う場合は、該当フィルタを掛
ける）、音声出力部７に送る。従って、通話者の声が別
の声に変換されて出力される。

【００８５】音声解析部９では、送られてきた音声デー
タに対して、音強度解析、又は音素解析、又はその両方
の解析を行う。音強度解析は、図５（ａ）に示したよう
に、音声データを予め定めた一定期間（例えば、表示レ
ート時間）に対して、その振幅の絶対値を積分（サンプ
リング値の加算）し、その積分値を予め定めた区分値に
応じてそのレベル値を決定する。

【００８６】音素解析は、通常、音声認識で行われる処
理を行って、各音素が「ん」、「あ」、・・・、「お」
のどれかを分類、又はその割合を出力するものである。
基本的には統計的に集めた「ん」、「あ」、「い」、・
・・、「お」音の音声データを正規化したものをテンプ
レートとして、入力された音声データを音素分解して正
規化したものとテンプレートマッチングを行い、マッチ
ング度の最も高いものを選出するか、マッチング度の割
合を出力する。マッチング度は、適当な距離関数（ユー
クリッド距離、ヒルベルト、マハラノビス）を規定して
おき、その距離関数で計った時の距離が最も小さいもの
を選出したり、「ん」、「あ」、・・・、「お」音の全
ての距離を測定したものの和で各距離を除算した値を割
合として算出する。以上の音声解析結果は感情推定部１
０に送られる。また、音声解析結果から、前述のように
口唇IDを決定して、決定した口唇IDを口唇動作制御部１
１に送る。

【００８７】口唇動作制御部１１は、音声解析部９から
送られてきた口唇IDにより、口唇動作パターンデータか
ら、それに対応する口唇動作データのアドレスを決定
し、口唇動作データのアドレスとフレーム番号を３次元
描画部１４に送る。

【００８８】感情推定部１０は、音声解析部９から送ら
れてきた音声解析結果を、予め定めた一定期間分保存し
ておき、その保存結果に対して通話者の感情状態を推定
する。例えば、分類する感情を「通常」、「笑い」、
「怒り」、「泣き」、「悩み」と定める。音強度のレベ
ルに関して、一定期間分のレベルパターンを各感情のテ
ンプレートとして持つ。一定期間を例えば音声解析の３
回分とすれば、「レベル２、レベル２、レベル２」なら
ば「通常」、「レベル３、レベル２、レベル３」ならば
「笑い」「レベル３、レベル３、レベル３」ならば「怒
り」、「レベル１、レベル２、レベル１」ならば「泣
き」、「レベル０、レベル１、レベル０」ならば「悩
み」、をテンプレートとして持つ。

【００８９】これに対して、保存した音声結果の３回分
に対して、各レベル値の差の絶対値の和（ヒルベルト距
離）や各レベルの差の２乗和（ユークリッド距離）を計
算して、最も近いものをその時の感情状態として判定す
る。もしくは、各感情に対する距離の和を計算してその
和で各感情に対する距離を除したものを割合として感情
状態を算出する。音素解析結果が送られる場合は、キー
ワードを辞書テンプレートとして持ち、キーワードとの
テンプレートマッチングによって行う。

【００９０】但し、本実施例では、音素解析が母音解析
だけなので次のような手法を用いる。例えば、怒りの場
合、「怒っている」、「憤り」、「殴る」などの怒りを
表す単語を母音表示して、「いあえいう」、「いいお
い」、「あうう」のように表し、一定期間を音声解析結
果の３回分とすると、その並びのうち頭から３文字の辞
書を作る。同様に、他の感情状態についても同じように
辞書を作る。それらの辞書で、同じ並びのものが当然出
てくるが、日常会話などの分析を行い、その頻度の高い
方の感情状態の辞書に含めて、辞書テンプレートを予め
生成しておく。一定期間が３回分の場合は、その母音の
組合せは２１６通りなので、この辞書テンプレートは２
１６の語彙を感情状態で分類したものになる。

【００９１】保存した３回分の音素解析結果を辞書テン
プレートとテンプレートマッチングを行い、感情状態を
判定する。これらを音強度の場合と音素の場合を組み合
わせる場合は、どちらも同じ感情状態を判定した場合
は、その感情状態を、異なる場合は、乱数によって確率
的にどちらかの感情状態を選択して感情状態とする。以
上のように算出した感情状態を身体動作制御部１２と表
情制御部１３に送る。

【００９２】一方、利用者が発生した会話は、音声入力
部８に入力され、音声処理部５に入力された音声データ
を送る。音声入力部８としてはマイクロフォンを用い
る。音声処理部５は送られてきた入力音声データに対し
て通常行われる、ノイズキャンセル処理やエコー除去処
理などを行い、処理後の音声データを音声解析部９に送
る。また、処理後の音声データは通信方法に依存した処
理、例えば、符号化処理がストリーム化、パケット化処
理を行って、通信部１を介して通信相手に送信される。
音声解析部９では、送られて来た入力音声データに対し
ても、前述の、音強度解析や音素解析を行い、入力音声
に対する音声解析結果と入力音声のものであることを示
す識別子と共に、感情推定部１０に送る。

【００９３】感情推定部１０では、入力音声に対する専
用の保存領域に、音声解析結果を前述のように一定期間
保存して、その保存結果に対して、上記と同様の感情推
定処理を行う。但し、感情推定には聞き手の時の特有の
状態、例えば「納得状態」などを加えた感情推定を行
う。つまり、送信相手の音声データと利用者本人の音声
データに対する感情推定は異なっても良い。感情推定結
果は身体動作制御部１２と表情制御部１３に送られる。

【００９４】また、別の感情推定手法として、韻律や振
幅、強勢等の音声データの周波数信号を用いた方法があ
る。図９は、周波数信号を用いた感情推定方法の処理手
順を示すフローチャートである。尚、この感情推定方法
においては、最も基本的な感情の分類である「怒り」、
「悲しみ」、「喜び」、及び「標準」の４種類の感情を
推定することを前提として説明を行う。

【００９５】まず、利用者本人の音声は、音声データと
して音声入力部８に入力された後に音声処理部５に送ら
れる。一方、通話相手の音声は、通信部１を介して音声
処理部５に入力される（Ｓ９０１）。音声処理部５は、
送られてきた音声データに対して通常行われるノイズキ
ャンセル処理やエコー除去処理などを行い、処理後の音
声データを音声解析部９に送る。

【００９６】音声解析部９は、韻律や振幅、強勢等の音
声データの周波数信号を用いた処理によって特徴量を取
り出す。この特徴量には、感情ごとの相違がよく反映さ
れる基本周波数をベースとし、例えば、ＦＯmax（発話
中の基本周波数（ＦＯ）の最大値〔Ｈｚ〕）、Ａmax
（発話中の振幅の最大値〔Ｈｚ〕）、Ｔ（発話の開始か
ら終了までの時間長〔sec〕）、ＦＯinit（発話の開始
直後の基本周波数〔Ｈｚ〕）、ＦＯrange（発話中の最
大基本周波数−最小基本周波数〔Ｈｚ〕）等が用いられ
る。また、特徴量に他のパラメータである、例えば性別
差補正等を加えることもできる。

【００９７】音声解析部９における基本周波数の抽出方
法としては、発話全体の連続性を考慮したＤＰマッチン
グによる方法を使用する。この抽出方法を簡単に説明す
ると、音声入力部８に入力された音声データは、音声解
析部９において周波数領域のデータにいったん変換され
た後、所定操作によって時間領域のデータとされる。こ
のデータからピーク値の大きい順にある一定数を選び、
このピークを所定処理によりつなぐことで基本周波数を
抽出する（Ｓ９０２）。

【００９８】次に、感情推定部１０は、音声解析部９に
おいて取り出された特徴量に基づいた統計を算出（Ｓ９
０３）することにより各音声データがどの感情群に所属
するかを推定する（Ｓ９０４）。この感情推定方法によ
れば、高い確率で話者の感情を推定することが可能とな
る。次に、感情推定部１０は、感情推定結果を口唇動作
制御部１１、身体動作制御部１２、及び表情制御部１３
に送る。

【００９９】従って、バーチャルテレビ通話装置の画面
に表示されるキャラクタは、利用者及び通話相手の感情
を推定して動くため、より娯楽性を高めたバーチャルテ
レビ通話装置が実現される。

【０１００】そして、身体動作制御部１２では、次の動
作遷移を、送られてきた感情推定結果に対応した身体動
作データに決定し（予め定めておく）、現在３次元描画
部１４に送っている、身体動作データのアドレスとフレ
ーム番号をフレーム数分終ったら、決定した身体動作デ
ータのアドレスとフレーム番号を３次元描画部１４に送
る。身体動作データの遷移決定を確率的にコントロール
する場合は、感情推定結果に対応した遷移を起こす確率
又は起こさない確率（２項分布なので片方の確率を決め
れば必然的に残りは決まる）を決めておき、その分布に
従った乱数を用いて遷移を決定する。表情制御部１３に
ついても、同様の処理で遷移の決定処理を行い、表情動
作データのアドレスとフレーム番号を３次元描画部１４
に送る。

【０１０１】３次元描画部１４では、口唇動作制御部１
１から送られてくる前述の口唇動作データのアドレスと
フレーム番号、身体動作制御部１２から送られてくる身
体動作データのアドレスとフレーム番号、表情制御部１
３から送られてくる表情動作データのアドレスとフレー
ム番号を用いて、通話開始前の時と同様の処理によって
画像を生成し、表示部１５に送る。表示部１５は送られ
てきた画像を表示する。

【０１０２】動作表情入力部１６や視点変更入力部１７
から入力があった場合は、通話開始前の時と同様にその
入力に応じた動作や表情がCGキャラクタに反映され、ま
た視点の変更が行われる。

【０１０３】同時表示モードの場合も基本的な動作は、
上記の動作と同様であるが、本人分の追加が必要になる
ことが異なる。つまり、通話開始前と開始後にデータ管
理部３から通知されるデータに本人のものが加わる。ま
た、口唇動作制御部１１、身体動作制御部１２、表情制
御部１３では、相手のCGキャラクタの動作データのアド
レスとフレーム番号の他、本人のCGキャラクタの動作デ
ータのアドレスとフレーム番号を３次元描画部１４に、
相手と本人を示す識別子とともに送る。

【０１０４】３次元描画部１４では、その識別子に基づ
いて相手のCGキャラクタの身体状態や表情、口唇状態、
本人のCGキャラクタの身体状態や表情、口唇状態を決定
して、上記同様に処理を行い画像を生成し、生成した画
像を表示部１５に送って表示する。音声処理部５から送
る音声データには、相手か本人かの識別子をつけて音声
データが音声解析部９に送られる。音声解析部９では、
上記と同様の処理を行うが、音声解析結果を相手か本人
かの識別子を付けて、口唇動作制御部１１と感情推定部
１０に送る。

【０１０５】口唇動作制御部１１は、相手か本人かの識
別子によって、相手又は本人の口唇動作の遷移や口唇動
作パターンからの口唇動作データのアドレスとフレーム
番号を決定する。感情推定部１０では、上記と同様の感
情推定を行うが、相手と本人、各々に対応した感情推定
を行い、その結果を相手か本人かの識別子と共に身体動
作制御部１２と表情制御部１３に送る。身体動作制御部
１２では、相手か本人かの識別子により、相手の身体動
作の遷移先、本人の遷移先を決定し、各々の身体動作デ
ータのアドレスとフレーム番号を識別子と共に３次元描
画部１４に送る。表情制御部１３でも同様に、相手の表
情動作の遷移先、本人の表情動作の遷移先を各々決定し
ながら、各々の表情動作データのアドレスとフレーム番
号を識別子と共に３次元描画部１４に送る。

【０１０６】なお、感情推定部１０での感情推定結果
は、会話は基本的に交互に行われるので、相手の会話内
容に対する相手と本人の感情が推定されて、その推定結
果が相手と本人のCGキャラクタの身体動作、表情動作に
反映され、次にそれを受けた本人の会話内容の感情推定
結果が、同様に、相手と本人のCGキャラクタの身体動
作、表情動作に反映されということを交互に繰り返すこ
とになる。

【０１０７】視点変更入力部１７で入力が行われたら前
述のときと同様に視点が変更された画像が生成されて表
示部１５に表示される。動作表情入力部１６について
は、本実施例では、相手の動作や表情の変更を行うため
の動作について述べたが、相手用と本人用の入力ボタン
を設けて、入力ボタンが押された際に、相手か本人かの
識別子を付ける以外は同様にデータ管理部３からの処理
を行えば、相手のCGキャラクタも本人のCGキャラクタ
も、動作表情入力部１６に応じた変更が行える。

【０１０８】図７に、以上の音声入力から画像表示まで
の一連の動作をパイプライン化したものを示す。音声処
理部５での処理結果は音声変換出力としており、描画の
際にはダブルバッファを用いている。図７から判るよう
に、音声変換出力と表示されるCGキャラクタの口唇動作
は、表示レートで２フレーム分のディレイが生じるが、
表示レートが例えば３０フレーム／秒なら６６ms程度
で、見ためには判らない。また、感情推定結果は、音声
解析結果の保存の一定期間に１フレーム分加算した分の
ディレイが生じる。図７のように保存のための期間が３
フレームならば、４フレーム分のディレイが生じる（表
示レートが３０フレーム／秒なら１３４ms程度）。しか
し、実際の人間でも何か言われた時に、それに対する感
情が生成するまでの時間はかなり掛かるので（認識内容
にも依存するが、相手の言葉を理解した後、数100ms前
後と推定される）、このディレイは保存期間を非常に大
きくしない限り問題にならない。

【０１０９】（第２の実施例）以下、本発明の第２の実
施例のバーチャルテレビ通話装置について、図面を参照
しながら説明する。図２は本発明の第２の実施例におけ
るバーチャルテレビ通話装置の構成を示すものである。
通信部１０１、データダウンロード部１０２、通信デー
タ判定部１０３、キャラクタ背景選択入力部２、データ
管理部１０４、音声選択入力部４、音声処理部５、音声
変換部６、音声出力部７、音声入力部８、音声解析部
９、感情推定部１０、口唇動作制御部１１、身体動作制
御部１２、表情制御部１３、３次元描画部１４、表示部
１５、動作表情入力部１６、視点変更入力部１７、キャ
ラクタ形状データ保存部１８、キャラクタ動作データ保
存部１９、背景データ保存部２０、テクスチャデータ保
存部２１、及び音楽データ保存部２２を含む。

【０１１０】以上のように構成された本発明の第２の実
施例におけるバーチャルテレビ通話装置について、以
下、詳細に説明を行うが、本発明の第１の実施例とは、
CGデータのダウンロードの可能点が異なるだけなので、
CGデータのダウンロードの動作についてのみ説明する。

【０１１１】本実施例では、ダウンロードするデータ
は、CGキャラクタデータ（形状データ、衣類のテクスチ
ャデータ、表情パターンデータと表情動作データ、口唇
動作パターンデータと口唇動作データ、サムネール画像
データ）、身体動作パターンデータと身体動作データ、
背景データ、音楽データであるが、各々のデータを個別
にダウンロードする場合も同様に行える。

【０１１２】データダウンロード部１０２から、通信部
１０１を介してデータ保存用のサーバにアクセスする。
このアクセスは、通常の携帯電話でのダウンロード時
や、パーソナルコンピュータでのダウンロード時に行わ
れるものと同じである。例えば、IPアドレスによってサ
ーバを特定して、サーバマシンにアクセスを通知し、TC
P/IPプロトコルによる手続きを行えばよい。

【０１１３】次に、サーバに保存されている上記のデー
タのリストをhttpやftpプロトコルで送信してもらい、
送信結果をデータダウンロード部１０２で受け取る。利
用者はそのリストの中からダウンロードしたいデータを
選択する。例えば、リストを通信部１０１介して、通信
データ判定部１０３に送り、通信データ判定部１０３で
はそのデータがリストの中にあることを判別して、デー
タ管理部１０４を介して３次元描画部１４に送る。３次
元描画部１４では、そのリストを画像化して表示部１５
に送って表示することで利用者はその内容を確認でき
る。

【０１１４】利用者のデータ選択は、データダウンロー
ド部１０２を介して行う。選択したデータの名前又は識
別子を通信部１０１によって上述のプロトコルの規約に
従ってサーバに送信する。サーバ側では、選択されたデ
ータのファイルを上述のプロトコルの規約に従って通信
部１０１に送信し、通信データ判定部１０３により、通
信内容がデータファイルであることを判別して、データ
管理部１０４に送る。

【０１１５】データ管理部１０４では、そのデータが、
CGキャラクタデータか、身体動作パターンデータと身体
動作データか、背景データか音楽データかの判別とデー
タサイズの特定を行う。この判別は、データダウンロー
ド部１０２での選択結果が通信部１０１、通信データ判
定部１０３を介してデータ管理部１０４に通知される場
合は、事前に判っているので必要ない。次に、データ管
理部１０４はそのデータ内容に応じて、キャラクタ形状
データ保存部１８、キャラクタ動作データ保存部１９、
背景データ保存部２０、テクスチャデータ保存部２１、
音楽データ保存部２２に、保存のための空き領域の問い
合わせを行い、空き領域がある場合にはデータのファイ
ルを該当保存部に送る。該当保存部ではデータのファイ
ルを保存して、保存したアドレスをデータ管理部１０４
に送る。

【０１１６】データ管理部１０４は、データの内容に応
じて、管理テーブルに保存すべきデータを管理テーブル
に追加する。例えば、図３のCGキャラクタデータの場合
は、CGキャラクタIDとして４を追加し、該当する欄に保
存部から返ってきたアドレスを記入する。他のデータの
場合も同様である。管理テーブルの追記が完了したら、
完了の通知を通信データ判定部１０３、通信部１０１を
介してデータダウンロード部１０２に送り、データダウ
ンロード終了を通信部１０１を介してサーバに送ってダ
ウンロード処理は終了する。

【０１１７】データ保存領域がないときは、データ保存
領域がないことを通信データ判定部１０３、通信部１０
１を介してデータダウンロード部１０２に通知する。デ
ータダウンロード部１０２は保存領域がないことを利用
者に通知（上記のように表示部１５に表示したりなど）
して、ダウンロード処理を上記と同様に、完了の通知を
通信データ判定部１０３、通信部１０１を介してデータ
ダウンロード部１０２に送り、データダウンロード終了
を通信部１０１を介してサーバに送ってダウンロード処
理は終了する。

【０１１８】なお、音声データの通信時には、通信デー
タ判定部１０３が音声データであることを判定して、音
声処理部５に送る。なお、本発明の第１、第２の実施例
は、音声通信部、表示部、音声入出力部、中央演算装置
とメモリを持った装置に対するプログラムとして実現が
可能である。例えば、携帯電話、ポケットコンピュー
タ、表示装置付の据え置き型の電話機、通信機能付の車
載端末器、パーソナルコンピュータなどである。但し、
専用の３次元処理装置や音声入出力装置、音声処理装置
を有した方が処理を高速化できる。パーソナルコンピュ
ータの場合であれば、３次元グラフィックスボードとサ
ウンドブラスターボードを有したものを用いると効果的
である。また、表示部１５は、CRT、液晶、有機ELなど
を用いることができ、その種類を問わない。

【０１１９】図８（ａ）、図８（ｂ）は本発明のバーチ
ャルテレビ通信の概観図を示したもので、以上の構成に
よって選択した受信相手に対応するCGキャラクタを表示
してCGキャラクタとの会話が楽しめる。また、利用者本
人も同時表示して仮想空間での会話が楽しめるものあ
る。なお、設定時の動作は、通話開始前、通話開始後
でも、動作可能である。

【０１２０】また、図１０（ａ）は、本発明のバーチャ
ルテレビ通話機能を備えるパーソナルコンピュータ（以
下ＰＣと記す）１００１を示す図であり、スピーカー１
００２及びマイク１００３を備えている。

【０１２１】利用者は、自身又は通話相手の少なくとも
一方のキャラクタを選択して通話を開始すると、感情推
定部１０は通話中の音声に基づいて感情が推定される。
この感情推定に従って、画面１００４に表示されるCGキ
ャラクタが動作や表情を変化させるため、より娯楽性を
有するバーチャルテレビ通話装置とできる。また、ＰＣ
１００１の利用者は、相手のキャラクタや声色を自由に
選択することができるため、例えば、上司の設定におい
て背景設定を森、キャラクタ設定を熊、音声をかわいく
する等、エンターテインメント性を高めたバーチャルテ
レビ通話機能を備えたＰＣ１００１とできる。

【０１２２】図１０（ｂ）は、本発明のバーチャルテレ
ビ通話機能を備える携帯電話１００５を示す図であり、
この携帯電話１００５はハンズフリー機能を備え、選択
されたキャラクタは、感情推定された動作を行いながら
画面１００６に表示される。従って、エンターテインメ
ント性を高めたバーチャルテレビ通話機能を備えた携帯
電話１００５とできる。

【０１２３】また、本発明の感情推定機能を向上させる
ために、バーチャルテレビ通話装置に新たなセンサ部を
付け加えることも可能である。図１１は、図１又は図２
におけるバーチャルテレビ通話装置の機能ブロック図に
センサ部１１０１を加えたブロック図を示す。このセン
サ部１１０１は、利用者の体温や心拍、携帯機器を握る
握力等の変化を検知して、感情推定部１０に変化を伝え
るための処理部となる。例えば、センサ部１１０１は、
サーミスタにより利用者の体温の変化を検知して、感情
推定部１０に結果を渡すと、感情推定部１０は、新たな
感情推定のパラメータである体温変化を用いてより確実
に感情推定を行うことが考えられる。

【０１２４】そして、図１２（ａ）は、感情推定のため
に各種センサ部を備える携帯電話の使用例を示す図であ
り、利用者の握力変化を検知する握力測定部１２０１を
備えている。図１２（ｂ）は、感情推定のために各種セ
ンサ部を備える携帯電話を示す参考図であり、握力測定
部１２０１及び利用者の体温変化を測定するためのサー
ミスタ１２０２を備えるものである。従って、前記音声
データ以外の新たなパラメータを用いて、より確実な感
情推定機能を行うことが考えられる。

【０１２５】尚、本発明は上述した各実施例に限定され
るものではなく、その利用可能な範囲において実施でき
るものであり、上記実施例においては利用者と通信相手
との少なくとも一方のキャラクタを画面に表示したバー
チャルテレビ通話装置として説明したが、例えば、ＰＣ
通信等で多人数が集まる通信において感情推定を行い、
感情推定を伴う多数のキャラクタを画面に表示するバー
チャルテレビ通話装置とすることも考え得る。

【０１２６】また、感情推定の結果を音楽データに反映
させて、暗い、明るい、楽しい、リズミカル等の音楽を
出力してCGキャラクタの表情動作や身体動作の制御を行
うことも考えられる。

【０１２７】

【発明の効果】以上の構成により、本発明は、通信相手
を受話者が選択した仮想の３次元CGキャラクタとして表
示し、通信相手の会話を利用することで、仮想の３次元
CGキャラクタと音声会話が行える。これにより、「通信
相手の顔が見られる、又は、それに類似した映像が見ら
れる」、「架空のキャラクタになりすます」という機能
とは別の方法で、音声会話の娯楽性を高めた新たな通信
端末の実現が可能となる。また、本発明は、上記従来技
術のようにサーバのような装置を用いない、仮想空間で
の会話を実現する表示装置付の通話装置が実現できる。
また、ダウンロードが可能なので、CGデータを新たなも
のに更新できる。話し相手が同じ人でも、CGキャラクタ
を交換したり、音声変換によって音声を変更すること
で、様々なCGキャラクタとの会話が楽しめる。

【０１２８】また、受話者側が自らのキャラクタ及び通
話相手のキャラクタを選択することができると共に、感
情推定機能を用いて通話中の会話に適した感情表現をキ
ャラクタが行うという娯楽性を高めた新たなバーチャル
テレビ通話装置となる。

【０１２９】以上のことより、本発明による効果は絶大
で、音声会話装置による会話に新たな楽しみと喜びをも
たらすものと考える。

【図面の簡単な説明】

【図１】本発明の第１の実施例によるバーチャルテレビ
通話装置の構成を示すブロック図である。

【図２】本発明の第２の実施例によるバーチャルテレビ
通話装置の構成を示すブロック図である。

【図３】本発明のCGキャラクタデータ管理テーブルとCG
キャラクタ選択画面の説明図である。

【図４】（ａ）本発明の通信管理テーブル、CGデータ管
理テーブル、音声管理テーブルの説明図である。（ｂ）本発明の設定時の動作の流れ図である。

【図５】（ａ）本発明の音強度解析と口唇動作の説明図
である。（ｂ）本発明の音素解析と口唇動作の説明図である。

【図６】（ａ）本発明の表情動作の遷移の説明図であ
る。（ｂ）本発明の身体動作の遷移の説明図である。

【図７】本発明のパイプライン処理とディレイに関する
説明図である。

【図８】（ａ）本発明のバーチャルテレビ通信の概観図
を示したものである。（ｂ）本発明のバーチャルテレビ通信の概観図を示した
ものである。

【図９】周波数信号を用いた感情推定方法の処理手順を
示すフローチャートである。

【図１０】（ａ）本発明の第１及び第２の実施例の他の
利用形態を示す参考図である。（ｂ）本発明の第１及び第２の実施例の他の利用形態を
示す参考図である。

【図１１】本発明のバーチャルテレビ通話装置の機能ブ
ロック図にセンサ部を加えたブロック図を示す。

【図１２】（ａ）感情推定のために各種センサ部を備え
る携帯電話の使用例を示す図である。（ｂ）感情推定のために各種センサ部を備える携帯電話
を示す参考図である。

【符号の説明】

１通信部２キャラクタ背景入力部３データ管理部４音声選択入力部５音声処理部６音声変換部７音声出力部８音声入力部９音声解析部１０感情推定部１１口唇動作制御部１２身体動作制御部１３表情制御部１４３次元描画部１５表示部１６動作表情入力部１７視点変更入力部１８キャラクタ形状データ保存部１９キャラクタ動作データ保存部２０背景データ保存部２１テクスチャデータ保存部２２音楽データ保存部１０１通信部１０２通信データ判定部１０３データダウンロード部１０４データ管理部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５５１Ｇ (72)発明者樋尻利紀大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者大谷尚毅大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者中俊弥大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者山本剛司神奈川県横浜市港北区綱島東四丁目３番１号松下通信工業株式会社内 (72)発明者浅原重夫大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5B050 AA08 BA08 BA09 BA12 CA08 EA24 EA28 FA02 FA05 5D015 AA05 AA06 KK02 5E501 AC16 BA17 CA08 CB02 CB03 CB09 CB14 CB15 DA11 EA21 EB05 FA14 FA27 FA32

Claims

【特許請求の範囲】

【請求項１】音声通信を行う通信手段と、利用者本人又は通信相手の少なくとも一方のCGキャラク
タ形状データの選択を行うキャラクタ選択手段と、利用者本人の音声の入力を行う音声入力手段と、通信相手の音声の出力を行う音声出力手段と、前記通信手段で受信した通信相手の音声データ又は前記
受信した通信相手の音声データと前記音声入力手段で入
力した利用者本人の音声データの両方に対して音声解析
を行う音声解析手段と、前記音声解析手段の音声解析結果を用いて、通信相手又
は通信相手と利用者本人の感情状態を推定する感情推定
手段と、前記CGキャラクタの動作の制御を前記感情推定手段に基
づいて行う動作制御手段と、前記CGキャラクタ形状データと前記動作制御手段の制御
情報に基づいて生成された動作データを用いて描画処理
を行って画像を生成する描画手段と、前記描画手段で生成された画像を表示する表示手段とを
備えることを特徴とするバーチャルテレビ通話装置。
【請求項２】前記感情推定手段は、当該感情推定手段
での推定結果を前記動作制御手段に通知し、前記動作制御手段は、その通知結果に基づき前記動作デ
ータを特定することを特徴とする請求項１記載のバーチ
ャルテレビ通話装置。
【請求項３】前記動作制御手段は、前記音声解析手段
の音声解析結果により前記CGキャラクタデータの口唇の
動作制御情報の生成を行う口唇動作制御手段を備え、前記描画手段は、前記CGキャラクタ形状データと前記口
唇動作制御手段の制御情報に基づいて生成された口唇動
作データを用いて描画処理を行って画像を生成すること
を特徴とする請求項１記載のバーチャルテレビ通話装
置。
【請求項４】前記感情推定手段は、当該感情推定手段
での推定結果を前記口唇動作制御手段に通知し、前記口唇動作制御手段は、その通知結果に基づき前記口
唇動作データを特定することを特徴とした請求項３記載
のバーチャルテレビ通話装置。
【請求項５】前記動作制御手段は、前記CGキャラクタ
の身体動作の制御を行う身体動作制御手段を備え、前記描画手段は、前記身体動作制御手段により生成され
た身体動作制御情報に基づく身体動作データを用いて描
画処理を行うことを特徴とする請求項１記載のバーチャ
ルテレビ通話装置。
【請求項６】前記感情推定手段は、当該感情推定手段
での推定結果を前記身体動作制御手段に通知し、前記身体動作制御手段は、その通知結果に基づき前記身
体動作データを特定することを特徴とした請求項５記載
のバーチャルテレビ通話装置。
【請求項７】前記バーチャルテレビ通話装置は、さら
に、特定の身体動作を定める身体動作パターンデータの
選択手段を備え、前記身体動作制御手段は、前記選択手段により選択され
た前記身体動作パターンデータに基づいて身体制御を行
うことを特徴とする請求項５又は６記載のバーチャルテ
レビ通話装置。
【請求項８】前記動作制御手段は、前記CGキャラクタ
の表情動作の制御を行う表情制御手段を備え、前記描画手段は、前記表情制御手段により生成された表
情動作制御情報に基づく表情動作データを用いて描画処
理を行うことを特徴とする請求項１記載のバーチャルテ
レビ通話装置。
【請求項９】前記感情推定手段は、当該感情推定手段
での推定結果を前記表情制御手段に通知し、前記表情制御手段は、その通知結果に基づき前記表情動
作データを特定することを特徴とする請求項８記載のバ
ーチャルテレビ通話装置。
【請求項１０】前記バーチャルテレビ通話装置は、さ
らに、受信した通信相手の音声を別の声に変換する音声
変換手段を備えることを特徴とする請求項１から９のい
ずれか１項に記載のバーチャルテレビ通話装置。
【請求項１１】前記バーチャルテレビ通話装置は、さ
らに、前記音声変換手段により受信した通信相手の音声
を別の声に変換する際、その声質を選択できる音声選択
入力手段を備えることを特徴とする請求項１０記載のバ
ーチャルテレビ通話装置。
【請求項１２】前記描画手段は、通信相手からの通信
着信時に当該通信相手のCGキャラクタの画像を生成し、前記表示手段は、前記通信着信時から音声通信開始前
に、前記CGキャラクタの画像を表示して音声通信待ち状
態を示すことを特徴とする請求項１記載のバーチャルテ
レビ通話装置。
【請求項１３】前記音声出力手段は、通信相手からの
通信着信時に当該通信相手それぞれに対応した音楽デー
タを出力して音声通信待ち状態を示すことを特徴とする
請求項１から１２のいずれか１項に記載のバーチャルテ
レビ通話装置。
【請求項１４】前記描画手段は、背景データを用いて
描画処理を行い画像を生成することを特徴とする請求項
１から１３のいずれか１項に記載のバーチャルテレビ通
話装置。
【請求項１５】前記バーチャルテレビ通話装置は、さ
らに、背景データの選択が行える背景選択手段を備える
ことを特徴とする請求項１４記載のバーチャルテレビ通
話装置。
【請求項１６】前記描画手段は、３次元の描画処理を
行い３次元の画像を生成することを特徴とする請求項１
から１５のいずれか１項に記載のバーチャルテレビ通話
装置。
【請求項１７】前記バーチャルテレビ通話装置は、口
唇動作データの保存手段と、外部の装置から口唇動作デ
ータのダウンロードを行って前記保存手段に保存できる
手段とを備えることを特徴とする請求項３又は４に記載
のバーチャルテレビ通話装置。
【請求項１８】前記バーチャルテレビ通話装置は、口
唇動作パターンデータの保存手段と、外部の装置から口
唇動作パターンデータのダウンロードを行って前記保存
手段に保存できる手段とを備えることを特徴とする請求
項１７記載のバーチャルテレビ通話装置。
【請求項１９】前記バーチャルテレビ通話装置は、身
体動作データの保存手段と、外部の装置から身体動作デ
ータのダウンロードを行って前記保存手段に保存できる
手段とを備えることを特徴とする請求項５又は請求項６
に記載のバーチャルテレビ通話装置。
【請求項２０】前記バーチャルテレビ通話装置は、身
体動作パターンデータの保存手段と、外部の装置から身
体動作パターンデータのダウンロードを行って前記保存
手段に保存できる手段とを備えることを特徴とする請求
項７記載のバーチャルテレビ通話装置。
【請求項２１】前記バーチャルテレビ通話装置は、表
情動作データの保存手段と、外部の装置から表情動作デ
ータのダウンロードを行って前記保存手段に保存できる
手段とを備えることを特徴とする請求項８又は９記載の
バーチャルテレビ通話装置。
【請求項２２】前記バーチャルテレビ通話装置は、表
情パターンデータの保存手段と、外部の装置から表情パ
ターンデータのダウンロードを行って前記保存手段に保
存できる手段とを備えることを特徴とする請求項２１記
載のバーチャルテレビ通話装置。
【請求項２３】前記バーチャルテレビ通話装置は、音
楽データの保存手段と、外部の装置から音楽データのダ
ウンロードを行って前記保存手段に保存できる手段とを
備えることを特徴とする請求項１３記載のバーチャルテ
レビ通話装置。
【請求項２４】前記バーチャルテレビ通話装置は、背
景データの保存手段と、外部の装置から背景データのダ
ウンロードを行って前記保存手段に保存できる手段とを
備えることを特徴とする請求項１４又は１５記載のバー
チャルテレビ通話装置。
【請求項２５】前記バーチャルテレビ通話装置は、CG
キャラクタの衣類テクスチャデータの保存手段と、外部
の装置からCGキャラクタの衣類テクスチャデータのダウ
ンロードを行って前記保存手段に保存できる手段とを備
えることを特徴とする請求項１から２４のいずれか１項
に記載のバーチャルテレビ通話装置。
【請求項２６】前記バーチャルテレビ通話装置は、CG
キャラクタ形状データの保存手段と、外部の装置からCG
キャラクタ形状データのダウンロードを行って前記保存
手段に保存できる手段とを備えることを特徴とする請求
項１から２５のいずれか１項に記載のバーチャルテレビ
通話装置。
【請求項２７】前記バーチャルテレビ通話装置は、CG
キャラクタの表示を行うか否かの表示モードの選択手段
を備えることを特徴とする請求項１記載のバーチャルテ
レビ通話装置。
【請求項２８】前記表示モードは、通信相手のCGキャ
ラクタの表示のみを行う通信相手表示モード、通信相手
と利用者本人とのCGキャラクタを表示する同時表示モー
ド、CGキャラクタの表示は行わない非表示モードのいず
れかであることを特徴とする請求項２７記載のバーチャ
ルテレビ通話装置。
【請求項２９】前記バーチャルテレビ通話装置は、CG
キャラクタの身体動作の指定と開始を制御できる手段を
備えることを特徴とする請求項５から７のいずれか１項
に記載のバーチャルテレビ通話装置。
【請求項３０】前記バーチャルテレビ通話装置は、CG
キャラクタの表情動作の指定と開始を制御できる手段を
備えることを特徴とする請求項８又は９記載のバーチャ
ルテレビ通話装置。
【請求項３１】前記バーチャルテレビ通話装置は、CG
キャラクタの表示を利用者の意図に従った視点方向から
行うための視点変更手段を備えることを特徴とする請求
項１から３０のいずれか１項に記載のバーチャルテレビ
通話装置。
【請求項３２】少なくとも利用者と通信相手との通話
装置間で通話を行うバーチャルテレビ通話システムであ
って、当該バーチャルテレビ通話システムは、少なくと
も利用者の通話装置と通信相手の通話装置とから構成さ
れ、前記通話装置は、音声通信を行う通信手段と、利用者本人又は通信相手の少なくとも一方のCGキャラク
タ形状データの選択を行うキャラクタ選択手段と、利用者本人の音声の入力を行う音声入力手段と、通信相手の音声の出力を行う音声出力手段と、前記通信手段で受信した通信相手の音声データ又は前記
受信した通信相手の音声データと前記音声入力手段で入
力した利用者本人の音声データの両方に対して音声解析
を行う音声解析手段と、前記音声解析手段の音声解析結果を用いて、通信相手又
は通信相手と利用者本人の感情状態を推定する感情推定
手段と、前記CGキャラクタの動作の制御を前記感情推定手段に基
づいて行う動作制御手段と、前記CGキャラクタ形状データと前記動作制御手段の制御
情報に基づいて生成された動作データを用いて描画処理
を行って画像を生成する描画手段と、前記描画手段で生成された画像を表示する表示手段とを
備えることを特徴とするバーチャルテレビ通話システ
ム。
【請求項３３】前記感情推定手段は、当該感情推定手
段での推定結果を前記動作制御手段に通知し、前記動作制御手段は、その通知結果に基づき前記動作デ
ータを特定することを特徴とする請求項３２記載のバー
チャルテレビ通話システム。
【請求項３４】少なくとも通信相手と利用者とが通信
を行うことによって、通信相手装置と自装置とがバーチ
ャルテレビ通話を行うためのプログラムであって、音声通信を行う通信ステップと、利用者本人又は通信相手の少なくとも一方のCGキャラク
タ形状データの選択を行うキャラクタ選択ステップと、利用者本人の音声の入力を行う音声入力ステップと、通信相手の音声の出力を行う音声出力ステップと、前記通信ステップで受信した通信相手の音声データ又は
前記受信した通信相手の音声データと前記音声入力ステ
ップで入力した利用者本人の音声データの両方に対して
音声解析を行う音声解析ステップと、前記音声解析ステップの音声解析結果を用いて、通信相
手又は通信相手と利用者本人の感情状態を推定する感情
推定ステップと、前記CGキャラクタの動作の制御を前記感情推定ステップ
に基づいて行う動作制御ステップと、前記CGキャラクタ形状データと前記動作制御ステップの
制御情報に基づいて生成された動作データを用いて描画
処理を行って画像を生成する描画ステップと、前記描画ステップで生成された画像を表示する表示ステ
ップとを含むことを特徴とするプログラム。
【請求項３５】前記感情推定ステップは、当該感情推
定ステップでの推定結果を基にして前記動作データを特
定することを特徴とする請求項３４記載のプログラム。