JP2007251581A

JP2007251581A - 音声送信端末および音声再生端末

Info

Publication number: JP2007251581A
Application number: JP2006071971A
Authority: JP
Inventors: Motoyasu Tanaka; 基康田中; Takashi Matsutani; 隆司松谷; Yusuke Nara; 裕介奈良
Original assignee: MegaChips LSI Solutions Inc
Current assignee: MegaChips Corp
Priority date: 2006-03-16
Filing date: 2006-03-16
Publication date: 2007-09-27

Abstract

【課題】音声通話に対しても多様性あるいはバラエティ性に富んだコミュニケーションを可能とする技術を提供することを課題とする。
【解決手段】携帯電話機１０の操作者が言葉を発すると、音声入力部１１が音声を入力し、音声認識部１２において音声認識が行われる。音声合成部１３は、音声素材データベース１０１を参照して音声認識結果と対応付けられている音声データ（効果音，ＢＧＭ等）を取得し、音声入力部１１から入力した音声にデータベースから取得した音声データを合成する。通信部１４は、合成音声を携帯電話機２０に送信する。携帯電話機２０では、通常の通話音声と同様の処理を行い、合成音声を受信してスピーカから再生する。これにより、通話者の言葉に効果音やＢＧＭが合成された音声が受信側で再生される。
【選択図】図２

Description

本発明は、携帯電話機など音声を送受信する機器で利用される技術に関する。詳しくは、多様性あるいはバラエティ性に富んだコミュニケーションを可能とする音声あるいはデータの送信技術に関する。

昨今の携帯電話機には様々な機能が付加され高機能化が進んでいる。本来からある音声通話機能に加え、電子メール送受信機能、インターネット接続機能、サウンド再生機能、ムービー再生機能、カメラ機能、ムービー機能などが付加されている。

たとえば、インターネットに接続してサウンドファイルやムービーファイルをダウンロードすることで、サウンドやムービーを携帯電話機で再生することが可能である。また、カメラ機能やムービー機能を用いて静止画や動画を撮影し、携帯電話機で閲覧することが可能であるし、電子メールを利用して友人に静止画や動画を送信することも可能である。

このように、携帯電話機の多機能化に伴い、それら機能を複合的に利用することで新しいコミュニケーションの方法を実現することや、新しい楽しみ方をユーザに提供することが可能である。しかし、音声の通話機能については従来から変わらない方法がとられている。つまり、送信する音声の品質を向上させることや、ノイズを低減させるといったことを目的とした技術は多く存在するが、それらは通話者が話した音声を正確に伝えるという目的に留まっている。

下記特許文献１は、人間の感情状態に基づいて音声を出力する技術に関するものである。電話回線上を流れる音声から音声信号を取得し、取得した音声から感情状態を判断して適当な音楽を出力するようにしている。

特開２００５−３５２１５１号公報

上述したように音声通話に関しては、従来からのシンプルな方法がとられているのが現状である。したがって、音声通話に対しても表現力を増強させることや、意思伝達を多様な形で表現する技術が存在すれば、携帯電話機などを利用したコミュニケーションに多様性やバラエティ性を加えることができ、携帯電話機をさらに付加価値の高いコミュニケーションツールとして利用できることが期待される。

上記特許文献１の技術は、音声出力装置が受信した音声から感情状態を判断するものである。したがって、受信装置に音声を認識する機能が存在しなければならないため、多くのユーザがこのような機能を利用するためには、それら全てのユーザが利用する電話機がこの機能に対応している必要がある。したがって、多くのユーザが広くこの技術を利用したサービスを受けることができるような仕組みを構築することは容易ではない。

そこで、本発明は前記問題点に鑑み、音声通話に対しても多様性あるいはバラエティ性に富んだコミュニケーションを可能とする技術を提供することを目的とする。

上記課題を解決するため、請求項１記載の発明は、音声認識結果に対応付けられた音声素材データを蓄積する音声素材データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、音声素材データが合成された音声を相手の端末に送信する通信手段と、を備えることを特徴とする。

請求項２記載の発明は、請求項１に記載の音声送信端末において、さらに、音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、を備え、前記通信手段は、音声素材データが合成された音声とあわせて前記映像素材データベースから取得した映像を前記相手の端末に送信することを特徴とする。

請求項３記載の発明は、請求項１に記載の音声送信端末において、さらに、音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、を備え、前記通信手段は、音声素材データが合成された音声とあわせてバイブレーション設定データを前記相手の端末に送信することを特徴とする。

請求項４記載の発明は、請求項２または請求項３に記載の音声送信端末において、さらに、前記相手の端末の端末情報を取得する手段、を備え、前記相手の端末の種別に応じて映像素材データあるいはバイブレーション設定データの送信を停止することを特徴とする。

請求項５記載の発明は、請求項２ないし請求項４のいずれかに記載の音声送信端末において、さらに、前記通信手段は、前記音声認識手段による認識結果を前記相手の端末に送信することを特徴とする。

請求項６記載の発明は、音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、前記音声入力手段から入力した音声とあわせて前記映像素材データベースから取得した映像を相手の端末に送信する通信手段と、を備えることを特徴とする。

請求項７記載の発明は、音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、前記音声入力手段から入力した音声とあわせてバイブレーション設定データを相手の端末に送信する通信手段と、を備えることを特徴とする。

請求項８記載の発明は、請求項１ないし請求項７のいずれかに記載の音声送信端末において、前記音声認識結果は、前記音声入力手段が入力した音声をテキスト変換した結果および／または前記音声入力手段が入力した音声から判定された音声の調子に関わる情報を含むことを特徴とする。

請求項９記載の発明は、請求項１に記載の音声送信端末において、前記音声素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記音声素材データベースが利用可能となることを特徴とする。

請求項１０記載の発明は、請求項２または請求項６に記載の音声送信端末において、前記映像素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記映像素材データベースが利用可能となることを特徴とする。

請求項１１記載の発明は、請求項３または請求項７に記載の音声送信端末において、前記バイブレーション設定データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記バイブレーション設定データベースが利用可能となることを特徴とする。

請求項１２記載の発明は、請求項１に記載の音声送信端末から送信された音声を受信する端末であって、音声素材データが合成された音声をスピーカから出力することを特徴とする。

請求項１３記載の発明は、請求項２記載の音声送信端末から送信された音声およびデータを受信する端末であって、音声素材データが合成された音声をスピーカから出力しつつ受信した映像素材データをモニタに出力することを特徴とする。

請求項１４記載の発明は、請求項３記載の音声送信端末から送信された音声およびデータを受信する端末であって、音声素材データが合成された音声をスピーカから出力しつつ、受信したバイブレーション設定データに基づいてバイブレータを駆動することを特徴とする。

請求項１５記載の発明は、請求項５記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、前記受信端末は、音声認識結果に対応付けられた映像素材データを蓄積する受信側映像素材データベース、を備え、前記受信端末は、前記音声送信端末から映像素材データを受信した場合、合成音声とともに受信した映像素材データを再生するか、受信した認識結果に基づいて前記受信側映像素材データベースから対応する映像素材データを取得し、合成音声とともに取得した映像素材データを再生するかを選択可能としたことを特徴とする。

請求項１６記載の発明は、請求項５記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、前記受信端末は、音声認識結果とバイブレーション設定データとを対応付けた受信側バイブレーション設定データベース、を備え、前記受信端末は、前記音声送信端末からバイブレーション設定データを受信した場合、合成音声を再生するとともに受信したバイブレーション設定データに基づいてバイブレータを駆動するか、受信した音声認識結果に基づいて前記受信側バイブレーション設定データベースを参照してバイブレーション設定データを決定し、合成音声を再生するとともに決定したバイブレーション設定データに基づいてバイブレータを駆動するかを選択可能としたことを特徴とする。

請求項１７記載の発明は、キー操作に対応付けられた音声素材データを蓄積する音声素材データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、音声素材データが合成された音声を相手の端末に送信する通信手段と、を備えることを特徴とする。

請求項１８記載の発明は、キー操作に対応付けられた映像素材データを蓄積する映像素材データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられている映像素材データを前記映像素材データベースから取得する手段と、前記音声入力手段から入力した音声とともに取得した映像素材データを相手の端末に送信する通信手段と、を備えることを特徴とする。

請求項１９記載の発明は、キー操作に対応付けられたバイブレーション設定データを蓄積するバイブレーション設定データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられているバイブレーション設定データを前記バイブレーション設定データベースから取得する手段と、前記音声入力手段から入力した音声とともに取得したバイブレーション設定データを相手の端末に送信する通信手段と、を備えることを特徴とする。

本発明の音声送信端末は、音声認識結果から対応付けられている音声素材データを取得し、通話者から入力した音声に取得した音声素材データを合成する。そして、音声素材データが合成された音声を相手の端末に送信する。これにより、通話者が言葉を発すると、その言葉に対応付けられた効果音やＢＧＭが合成されて送信されるので、コミュニケーションにおける表現力を増強させることが可能である。また、送信側の端末で合成音を生成して送信するので、受信側の端末は、通常の音声受信、再生機能が備わっていれば良い。つまり、送受信を行う両方の端末が機能対応している必要はないので、導入および普及しやすいサービスを実現できる。

さらに、本発明の音声送信端末は、音声認識結果に対応付けられた映像素材データを取得し、合成音声とあわせて映像データを相手の端末に送信する。したがって、通話者の感情や意図を映像を利用して表現豊かに伝えることができる。

さらに、本発明の音声送信端末は、音声認識結果に基づいてバイブレーション設定データを決定し、合成音声とあわせてバイブレーション設定データを相手の端末に送信する。したがって、通話者の感情や意図を、振動を利用することでより臨場感あふれる表現形態で伝えることが可能である。

｛第１の実施の形態｝
以下、図面を参照しつつ本発明の実施の形態について説明する。図１は、本発明の携帯電話を利用したコミュニケーションシステムの利用イメージを示す図である。携帯電話機１０および携帯電話機２０は、音声の通話機能に加えて、ネットワークと接続してデータを送受信する機能を備えている。本発明においては、携帯電話機１０を操作している通話者が言葉を発すると、その音声に様々な特殊効果が与えられて携帯電話機２０において表現される。たとえば、図に示すように、携帯電話機１０の操作者が「うそつき」という言葉を発すると、携帯電話機２０においては「うそつき」という言葉が再生されるとともに、「うそつき」という言葉に関連した映像が携帯電話機２０のモニタに表示される。あるいは、「うそつき」という言葉に関連したＢＧＭが携帯電話機２０で再生されるのである。

図２は、携帯電話機１０および携帯電話機２０のブロック図である。まず、携帯電話機１０の構成および機能について説明する。音声入力部１１は、通話者の音声を入力する。入力した音声は音声認識部１２および音声合成部１３に出力される。

音声認識部１２は、音声入力部１１が入力した音声に対してリアルタイムで音声認識処理を実行する。音声認識処理としては、周知の方法を利用すればよい。一般には、入力した音声の周波数を解析し、音素を認識する。さらに、単語、文を認識することで、入力した音声を解析する。最終的に、音声認識部１２は、入力した音声をテキストデータに変換する。

また、音声認識部１２は、入力した音声の音圧（音の強さ）、テンポ、周波数などから通話者の音声の調子を特定する。通話者の音声の調子を特定するために、音声認識部１２は、予め、音声の音圧、テンポ、周波数などと通話者の状態パターン（音声の調子のパターン）とを対応づけるテーブルを備えている。つまり、「ウキウキした調子」、「沈んだ調子」、「怒鳴り声」、「笑い声」など、所定の状態パターンについては、それぞれ音声の音圧、テンポ、周波数などの数値が設定されているのである。そして、入力した音声の音圧、テンポ、周波数などの数値が登録されているいずれかの状態パターンの設置値と近い場合（設定された閾値の範囲に収まっている場合）には、現在の通話者の音声の調子が登録されたいずれかの状態パターンにあると判定するのである。

音声合成部１３は、音声認識部１２から入力した音声認識結果に基づいて合成する音声を決定し、音声入力部１１から入力した音声に決定された音声を合成する。音声認識結果から合成する音声を決定するために、音声素材データベース１０１を利用する。

図３は、音声素材データベース１０１の登録例を示す図である。音声素材データベース１０１は、音声認識部１２における音声認識結果と音声データとを対応付けるとともに、対応付けられた音声データを蓄積しているデータベースである。音声素材データベース１０１の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。実際には、キーワードと音声データを対応付けるデータベースと、状態パターンと音声データとを対応付けるデータベースとは、それぞれ別のデータベースで管理されることになるが、説明を簡単にするため１つのデータベースで管理されているものとして説明する。なお、図３において、登録されているのがキーワードの場合には、キーワード文字のみ表示し、登録されているのが状態パターンである場合には、状態パターン名とともに（状態パターン）と表示している。

この音声素材データベース１０１は、メモリカード３０（図１に図示）に格納されて例えばコンテンツプロバイダにより提供されている。ユーザは、音声素材データベース１０１が格納されたメモリカード３０を購入して携帯電話機１０のメモリカードスロットに挿入することで、音声素材データベース１０１を利用することが可能となる。ただし、音声素材データベース１０１は、ネットワーク上からダウンロードし、携帯電話機１０の内蔵メモリやメモリカードに格納する形態であってもよい。

音声合成部１３は、音声認識部１２より入力した音声のテキストデータの中に、音声素材データベース１０１に登録されているキーワードが存在するか検索し、キーワードがヒットした場合には、そのキーワードに対応する音声データを合成音声として決定する。あるいは、音声合成部１３は、音声認識部１２より入力した通話者の状態パターンと対応する音声データを合成音声として決定する。

図の例であれば、たとえば、通話者が発した音声の中に、「最悪」、「ブルー」、「落ち込む」、「落ち込んだ」といったキーワードが含まれていれば、暗い雰囲気（どよ〜んとした雰囲気）の効果音データが選択される。逆に、通話者が発した音声の中に、「ハッピー」、「嬉しい」、「楽しい」といったキーワードが含まれていれば、明るい輝かしい雰囲気（キラキラキラしたイメージ）の効果音データが選択される。また、音声認識部１２から入力した状態パターンが「怒鳴り声」である場合には、爆発音の効果音データが選択される。

音声合成部１３は、音声認識結果に基づいて音声素材データベース１０１から音声データを取得すると、音声入力部１１から入力した音声に、音声素材データベース１０１から取得した音声を合成し、通信部１４に出力する。

音声認識部１２は、また音声認識結果を映像決定部１５に出力する。映像決定部１５は、音声認識部１２から入力した音声認識結果に基づいて携帯電話機２０に送信する映像を決定する。音声認識結果から選択する映像を決定するために、映像素材データベース１０２を利用する。

図４は、映像素材データベース１０２の登録例を示す図である。映像素材データベース１０２は、音声認識部１２における音声認識結果と映像データとを対応付けるとともに、対応付けられた映像データを蓄積しているデータベースである。映像素材データベース１０２の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。映像決定部１５は、音声認識部１２より入力した音声のテキストデータの中に、映像素材データベース１０２に登録されているキーワードが存在するか検索し、ヒットした場合には、そのキーワードに対応する映像データを取得する。あるいは、映像決定部１５は、音声認識部１２より入力した通話者の状態パターンと対応する映像データを取得する。

図の例であれば、たとえば、通話者が発した音声の中に、「うそつき」、「うそばっかり」、「うそばかり」といったキーワードが含まれていれば、うそつき者をたしなめている様子を表現した映像データが選択される。通話者が発した音声の中に、「許さない」、「許すことができない」、「許しがたい」といったキーワードが含まれていれば、厳つい男が怒って指を鳴らしている様子を表現した映像データが選択される。また、音声認識部１２から入力した状態パターンが「怒鳴り声」である場合には、怒鳴り声をあげている様子を比喩的に表現した雷の映像が選択される。なお、図の例では、映像データとして動画データが登録されているが、映像データとして静止画データを登録しておいてもよい。

この映像素材データベース１０２についても、メモリカード３０に格納されて提供されている。ただし、映像素材データベース１０２は、ネットワーク上からダウンロードし、携帯電話機１０の内蔵メモリやメモリカードに格納する形態であってもよい。

映像決定部１５は、音声認識結果に基づいて映像素材データベース１０２から映像データを取得すると、取得した映像データを通信部１４に出力する。

また、音声認識部１２は音声認識結果をバイブレーション決定部１６に出力する。バイブレーション決定部１６は、音声認識部１２から入力した音声認識結果に基づいて携帯電話機２０に送信するバイブレーション設定データを決定する。音声認識結果からバイブレーション設定データを取得するために、バイブレーション設定データベース１０３を利用する。

図５は、バイブレーション設定データベース１０３の登録例を示す図である。バイブレーション設定データベース１０３は、音声認識部１２における音声認識結果とバイブレーション設定データとを対応付けたデータベースである。バイブレーション設定データベース１０３の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。バイブレーション決定部１６は、音声認識部１２より入力した音声のテキストデータの中に、バイブレーション設定データベース１０３に登録されているキーワードが存在するか検索し、ヒットした場合には、そのキーワードに対応するバイブレーション設定データを取得する。あるいは、バイブレーション決定部１６は、音声認識部１２より入力した通話者の状態パターンと対応するバイブレーション設定データを取得する。

図の例であれば、たとえば、通話者が発した音声の中に、「うそつき」、「うそばっかり」、「うそばかり」といったキーワードが含まれていれば、強力なバイブレーションを１回だけ単発で発生させるというバイブレーション設定データが選択される。また、音声認識部１２から入力した状態パターンが「怒鳴り声」である場合には、強力なバイブレーションを連続して５回発生させるというバイブレーション設定データが選択される。なお、バイブレーション設定データには、バイブレーションの振動回数、振動時間、振動間隔、振動の強さなどを個別にあるいは複合的に設定可能とすればよい。

このバイブレーション設定データベース１０３についても、メモリカード３０に格納されて提供されている。ただし、バイブレーション設定データベース１０３は、ネットワーク上からダウンロードし、携帯電話機１０の内蔵メモリやメモリカードに格納する形態であってもよい。

バイブレーション決定部１６は、音声認識結果に基づいてバイブレーション設定データベース１０３からバイブレーション設定データを取得すると、取得したバイブレーション設定データを通信部１４に出力する。

通信部１４は、他の携帯電話機との間で音声の送受信を行う機能部とネットワークを介してデータを送受信する機能部とを備えている。上述したように、通信部１４は、音声合成部１３から、効果音やＢＧＭが合成された通話者の音声を入力する。また、通信部１４は、映像決定部１５から音声認識結果に基づいて決定された映像データを入力する。さらに、通信部１４は、バイブレーション決定部１６から音声認識結果に基づいて決定されたバイブレーション設定データを入力する。そして、通信部１４は、これら合成音声とデータとを携帯電話機２０に送信する。

ここで、通信部１４が合成音声を送信する方法は、通常の通話音声を送信する方法と同じである。つまり、携帯電話機１０の音声処理部において通話者から取得した音声と効果音やＢＧＭが合成されているので、通信部１４は、合成音声を通常の音声と同様に処理して送信することができるのである。これにより、この合成音声を受信する携帯電話機は特別な機能を必要としない。受信側の携帯電話機２０は、通常の通話音声と同様に合成音声を受信し、スピーカから合成音声を出力すればよいのである。

映像データおよびバイブレーション設定データは、音声通信とは別にＴＣＰ／ＩＰなどのデータ送受信プロトコルを利用して送信される。通信部１４は、このような通信を可能とするデータ通信機能を備えている。あるいは、通信部１４は、音声通信の特定の周波数帯域に映像データやバイブレーション設定データを重畳させて送信するようにしてもよい。

なお、携帯電話機１０から送信するバイブレーション設定データのデータ形式は、たとえば、バイブレータコマンドと、振動回数、振動時間、振動間隔、振動の強さなどを示す引数とで構成すればよい。

次に、携帯電話機２０の構成および機能について説明する。通信部２１は、通信部１４から送信された合成音声および映像データやバイブレーション設定データを受信する。通信部２１は、音声信号を送受信する機能とデータ通信機能を備えている。上述したように、映像データやバイブレーション設定データが、音声信号とは別にデータ通信機能を利用して送信された場合には、通信部２１は、データ通信機能を利用して映像データやバイブレーション設定データを受信する。映像データやバイブレーション設定データが音声信号に重畳されている場合には、通信部２１は、音声信号から映像データやバイブレーション設定データを分離して取得する。

通信部２１は、受信した音声信号を音声再生部２２に出力する。音声再生部２２は、携帯電話機２０が備えるスピーカから合成音声を出力する。このようにして、携帯電話機１０において通話者が言葉を発すると、その言葉に効果音やＢＧＭが合成され、合成音が携帯電話機２０において再生されるのである。

したがって、携帯電話機２０の通話者は、携帯電話機１０の通話者が発した言葉を単に聞くだけでなく、その言葉に効果音やＢＧＭが付加されることにより臨場感たっぷりのコミュニケーションをとることが可能である。たとえば、携帯電話機１０の通話者が「ハッピー」という言葉を発すると、その言葉とともにキラキラしたイメージの効果音が携帯電話機２０において再生されるので、携帯電話機２０の通話者は、通話相手の感情を充分に感じることができる。

また、上述したように、この合成音声は送信側の携帯電話機１０において合成され、通常の音声と同様の方法で送信されるので、受信側の携帯電話機２０は、通常の携帯電話機を用いて合成音声を再生することが可能である。したがって、このような合成音声再生機能を利用するために、送信側と受信側の双方の端末が機能に対応している必要はない。本発明の音声合成機能を備えた携帯電話機を用意すれば、どんな音声再生装置（携帯電話機に限らず、固定電話でもよいし、テレビ電話などであってもよい。）に対しても、表現豊かな合成音声を送信することが可能である。

通信部２１は、また、受信した映像データを映像再生部２３に出力する。映像再生部２３は、入力した映像データを携帯電話機２０のモニタに再生するのである。映像再生部２３は、受信した合成音声が音声再生部２２から再生されるのに同期して、モニタに映像データを再生するのである。映像データが動画データである場合には、映像再生部２３はモニタに動画を再生し、映像データが静止画データである場合には、モニタに静止画を表示する。これにより、携帯電話機２０では、受信した合成音声が再生されるとともに、音声認識結果から決定された映像が再生されるのである。

たとえば、図３、図４のデータベースを利用した場合を例にあげると、携帯電話機１０において「許さない」といった言葉が発せられた場合、携帯電話機２０では、「許さない」という音声に「ボキボキ」という指を鳴らす音の効果音が合成されて再生され、さらに、携帯電話機２０のモニタには、厳つい男が指を鳴らす映像が再生されるのである。

また、通信部２１は受信したバイブレーション設定データをバイブレータ２４に出力する。バイブレータ２４は、入力したバイブレーション設定データに基づいて振動を発生させるのである。つまり、バイブレータ２４は、バイブレーション設定データで指定されている振動回数、振動時間、振動間隔、振動の強さなどのパラメータにしたがって振動を発生させることができる。これにより、携帯電話機２０では、受信した合成音声が再生されるとともに、音声認識結果から決定されたバイブレーションが発生するのである。

たとえば、図３、図４、図５のデータベースを利用した場合を例にあげると、携帯電話機１０において「うそつき」といった言葉が発せられた場合、携帯電話機２０では、「うそつき」という音声が再生されるとともに、うそをついた者をたしなめる映像が再生され、さらに、強力なバイブレーションが１回単発で発生するのである。

このように本実施の形態の携帯電話コミュニケーションシステムを利用すれば、携帯電話機１０の操作者は、自分の気持ちを表現豊かに伝えることが可能である。言葉だけでは中々伝わらない意思、感情を映像やバイブレーションが表現力を増強させてくれるのである。また、携帯電話機１０の通話者は、感情をあらわにすることが苦手であっても、伝えたい言葉だけを発すれば、携帯電話機１０が表現力を増強させてくれるのである。一方、携帯電話機２０の操作者は、相手の気持ちを感情豊かに受け取ることができる。また、単なる意思伝達に多様性を持たせるというだけでなく、遊びの要素を取り入れ、バラエティ性の高いコミュニケーションが可能となる。

｛第２の実施の形態｝
次に、本発明の第２の実施の形態について説明する。上述したように、携帯電話機１０は、合成音声を通常の音声と同様の方法で送信するため、受信側は通常の音声再生機能を備えていれば良いことを説明した。これに対して、映像データおよびバイブレーション設定データについては、受信側の端末にも対応する機能が必要である。携帯電話機２０は、映像再生部２３およびバイブレータ２４を備え、これらの処理部が音声信号とともにデータを受信した場合に、合成音声の再生と同期させて映像の再生やバイブレータの駆動を行った。

第２の実施の形態においては、携帯電話機１０が送信先の携帯電話機２０の端末種別に応じて送信するデータを選択する。図６に示すように、携帯電話機２０は、端末情報記憶部２５を備えている。この端末情報記憶部２５には、携帯電話機２０のメーカ名、機種名、製造番号名などの情報が記録されている。

一方、携帯電話機１０は、図６に示すように端末情報取得部１７を備えている。端末情報取得部１７は、合成音声やその他のデータを送信する前に、携帯電話機２０から端末機種の情報を取得するのである。第２の実施の形態においても、第１の実施の形態と同様の方法で、合成音声が生成され、映像データおよびバイブレーション設定データが決定される。そして、第１の実施の形態においては、合成音声を生成し、映像データおよびバイブレーション設定データを決定すると、そのまま合成音声とデータを送信した。第２の実施の形態においては、まず、端末情報取得部１７が携帯電話機２０の端末機種情報を取得し、処理の方法を決定するのである。

具体的には、音声通話が開始された時点（端末同士が接続された時点で）で、端末情報取得部１７が端末機種の情報取得コマンドを生成すると、通信部１４よりコマンドが携帯電話機２０に送信される。携帯電話機２０では、端末情報記憶部２５より携帯電話機２０の端末機種情報が読み出され、読み出された情報が携帯電話機１０に送信されるのである。こうして、端末情報取得部１７が、携帯電話機２０の端末機種情報を得る。

端末情報取得部１７は、端末機種情報を映像決定部１５およびバイブレーション決定部１６に出力する。映像決定部１５は、送信先の携帯電話機が音声通話時における映像再生機能を備えているかどうかを端末機種情報から決定する。そして、送信先の携帯電話機が音声通話時の映像再生機能を備えていると判定した場合には、第１の実施の形態と同様、映像素材データベース１０２から取得した映像データを通信部１４に出力するのである。これに対して、送信先の携帯電話機が当該機能を備えていないと判定した場合には、通信部１４に対する映像データの出力を停止する。

バイブレーション決定部１６は、送信先の携帯電話機が音声通話時におけるバイブレーション機能を備えているかどうかを端末機種情報から決定する。そして、送信先の携帯電話機が音声通話時のバイブレーション機能を備えていると判定した場合には、第１の実施の形態と同様、バイブレーション設定データベース１０３を参照して決定したバイブレーション設定データを通信部１４に出力するのである。これに対して、送信先の携帯電話機が当該機能を備えていないと判定した場合には、通信部１４に対するバイブレーション設定データの出力を停止する。

これにより、通信部１４は、送信先の携帯電話機が音声通話時の映像再生機能を備えているが、バイブレーション機能を備えていない場合には、合成音声および映像データのみを送信する。送信先の携帯電話機が音声通話時のバイブレーション機能を備えているが、映像再生機能を備えていない場合には、合成音声およびバイブレーション設定データのみを送信する。送信先の携帯電話機が音声通話時の映像再生機能およびバイブレーション機能の両方を備えている場合には、合成音声に加えて映像データおよびバイブレーション設定データを送信するのである。

このように、送信先の携帯電話機の種別に応じて送信するデータを決定するので、送信先の携帯電話機が対応していない無駄なデータを送信することはない。これにより、データ送信のコストを低減させることが可能であり、また、通信帯域を無駄なデータで圧迫することを防止できる。

｛第３の実施の形態｝
次に、本発明の第３の実施の形態について説明する。第１の実施の形態においては、携帯電話機２０は、携帯電話機１０から送信された映像データをそのまま再生した。あるいは、携帯電話機１０から送信されたバイブレーション設定データに基づいてバイブレータ２４を駆動した。これに対して第３の実施の形態においては、携帯電話機２０においても、映像データの決定やバイブレーションの設定データを決定する。

第３の実施の形態においては、図７に示すように、音声認識部１２は、音声認識結果を通信部１４に出力する。そして、通信部１４は、合成音声と映像データとバイブレーション設定データとともに音声認識結果を携帯電話機２０に送信する。通信部１４は、映像データ等と同じ方法で音声認識結果を送信する。つまり、データ通信機能を利用するか音声信号に重畳させて音声認識結果を送信する。

携帯電話機２０では、通信部２１が音声信号から映像データやバイブレーション設定データとともに音声認識結果を分離して取得する。通信部２１は、映像再生部２３に対して、受信した映像データとともに音声認識結果を出力する。

携帯電話機２０は、図７に示すように、映像素材データベース２０１を備えている。映像素材データベース２０１のデータベース構造は、携帯電話機１０が備える映像素材データベース１０２と同様である。つまり、音声認識結果と映像データとが対応付けるとともに、対応付けられている映像データを蓄積している。

ただし、映像素材データベース２０１における音声認識結果と映像データとの対応付けは映像素材データベース１０２と異なる場合もある。たとえば、同じキーワードや同じ状態パターンに対しても異なる映像データが対応付けられている場合がある。たとえば、映像素材データベースを同じコンテンツプロバイダから取得していれば、内容も同じとなるが、異なるコンテンツプロバイダから取得していれば内容が異なる。あるいは、１つのコンテンツプロバイダから複数の異なる映像素材データベースが提供されていてもよい。映像素材データベース２０１についても、メモリカードに格納されてユーザに提供されてもよいし、ユーザがネットワーク経由でダウンロードする形態であってもよい。

映像再生部２３は、通信部２１から映像データと音声認識結果を入力すると、入力した映像データ、つまり携帯電話機１０から送信された映像データをそのままモニタに再生してもよい。あるいは、映像再生部２３は、入力した音声認識結果に基づいて映像素材データベース２０１を参照して対応する映像データを決定し、決定した映像データをモニタに再生させてもよい。どちらの映像を再生するかについては、携帯電話機２０において予め設定可能としておけばよい。相手の端末から送信されてくる映像を楽しみたいのであれば、受信する映像データを再生する設定にすればよいし、自分の携帯電話機２０で利用している映像素材データベース２０１を利用したいのであれば、受信する音声認識結果を利用するように設定すればよい。

また、通信部２１は、バイブレータ２４に対して受信したバイブレーション設定データとともに音声認識結果を出力する。携帯電話機２０は、図７に示すように、バイブレーション設定データベース２０２を備えている。バイブレーション設定データベース２０２のデータベース構造は、携帯電話機１０が備えるバイブレーション設定データベース１０３と同様である。つまり、音声認識結果に対してバイブレーション設定データが対応付けられている。

同様に、バイブレーション設定データベース１０３とバイブレーション設定データベース２０２は異なるデータベースであってもよいし、同じデータベースであってもよい。バイブレーション設定データベース２０２についても、メモリカードに格納されてユーザに提供されてもよいし、ユーザがネットワーク経由でダウンロードする形態であってもよい。

バイブレータ２４は、通信部２１からバイブレーション設定データと音声認識結果を入力すると、入力したバイブレーション設定データ、つまり携帯電話機１０から送信されたバイブレーション設定データに基づいて振動を発生させてもよい。あるいは、バイブレータ２４は、入力した音声認識結果に基づいてバイブレーション設定データベース２０２を参照してバイブレーション設定データを決定し、決定したデータに基づいて振動を発生させてもよい。

このように、第３の実施の形態においては、合成音声とともに再生される映像は、送信側の携帯電話機１０で取得されたものを利用するか、受信側の携帯電話機２０で取得されたものを利用するかを選択することが可能である。したがって、受信側がより豊富なデータベースを所持しているならば受信側のデータベースを利用し、より一層表現力豊かなコミュニケーションをとることが可能である。また、受信側のデータベースを利用することで、送信側の意図しない映像が受信側で再生されることを逆に楽しむことができる。

なお、第３の実施の形態においては、音声認識部１２の認識結果をそのまま通信部１４を介して携帯電話機２０に送信することとした。つまり、通話者の音声をテキストデータに変換したものか、あるいは、音声認識部１２において特定された状態パターンを指定したデータを携帯電話機２０に送信することとした。

別の方法として、携帯電話機１０側で採用されたキーワードのみを送信する形態であってもよい。つまり音声合成部１３、映像決定部１５、バイブレーション決定部１６は、音声認識部１２から音声認識結果であるテキストデータを入力すると、それぞれデータベース１０１〜１０３を参照してキーワードの検索を行った。そして、キーワードが検索された場合には、キーワードから音声データや映像データ、バイブレーション設定データを取得した。そこで、キーワードが検索された場合には、このキーワードを通信部１４に出力するのである。そして、通信部１４は、音声を変換したテキストデータの全部を送信するのではなく、キーワードのみを携帯電話機２０に送信するのである。これにより、データ送信量を少なくすることが可能である。

なお、第２の実施の形態の機能を第３の実施の形態に取り入れても良い。つまり、音声通話の開始時に送信先の携帯電話機の端末機種情報を取得し、送信先の携帯電話機が音声通話時の映像再生機能を備えている場合にのみ映像データと音声認識結果を送信するようにしてもよい。また、送信先の携帯電話機が音声通話時のバイブレーション機能を備えている場合のみ、バイブレーション設定データと音声認識結果を送信するようにしてもよい。

｛第４の実施の形態｝
第１〜第３の実施の形態においては、携帯電話機１０において入力した音声にリアルタイムで音声認識処理を実行した。そして、音声認識結果に基づいてデータベース１０１〜１０３を参照して音声素材データ、映像素材データ、バイブレーション設定データを取得した。つまり、データベース１０１〜１０３は、音声認識結果と素材データやバイブレーション設定データを対応付けていた。

第４の実施の形態では、音声素材データベースに登録されている音声素材データは、携帯電話機１０のキー操作と対応付けられている。同様に、映像素材データベースに登録されている映像素材データやバイブレーション設定データベースに登録されているバイブレーション設定データは、携帯電話機１０のキー操作と対応付けられている。

したがって、携帯電話機１０では、音声認識処理は行わず、操作者のキー操作に基づいて音声の合成や映像あるいはバイブレーション設定データの送信を行うのである。たとえば、音声の通話中に操作者が、「１」のキーを押下すると、これに応じて対応するＢＧＭが選択され、通話音声に選択されたＢＧＭが合成されて携帯電話機２０に送信される。あるいは、音声の通話中に操作者が、「２」のキーを押下すると、これに応じて対応する映像データおよびバイブレーション設定データが選択され、通話音声とともに、選択された映像データおよびバイブレーション設定データが携帯電話機２０に送信されるのである。

このように、ユーザが音声通話中に任意のタイミングで割り当てられているキー操作を行うことで、通話音声に任意のタイミングでＢＧＭや効果音を合成させることが可能である。また、任意のタイミングで映像データやバイブレーション設定データを相手の端末に送信することが可能である。上記の例では、１つのキー操作と音声素材データ等を対応付けているが、複数のキー操作と対応付けてもよい。たとえば、「１」のキーが音声を合成する指示に対応し、続けて「１」〜「９」までのキーを選択することによって、音声データを指定するような方法であってもよい。

この方法によっても、通話音声に表現力を増強させる特殊効果を付加することが可能である。また、リアルタイムの音声認識処理を行わないので、携帯電話機１０における処理負荷を小さくすることが可能である。

｛変形例｝
上記各実施の形態においては、合成音声とともに音声認識結果から取得された映像データを送信するようにした。別の実施例として、音声の合成は行わず、通話者が発した音声とともに、音声認識結果から取得された映像データを送信する形態であってもよい。

また、上記各実施の形態においては、合成音声とともに音声認識結果から取得されたバイブレーション設定データを送信するようにした。別の実施例として、音声の合成は行わず、通話者が発した音声とともに、音声認識結果から取得されたバイブレーション設定データを送信する形態であってもよい。

以上、本発明の実施の形態について、送信側および受信側の端末が携帯電話機である場合を例に説明したが、それら一方あるいは両方が携帯電話機以外の端末であってもよい。たとえば、映像の再生機能やバイブレーション機能を備えた固定電話であってもよい。あるいは、パソコン上で実行されるメッセンジャーなどであってもよい。

また、送信側の端末において、上記各実施の形態における機能をＯＮ／ＯＦＦする機能を備えることが望ましい。つまり、音声を合成するのか、映像データを送信するのか、バイブレーション設定データを送信するのか、という点についてそれぞれ個別に機能をＯＮ／ＯＦＦできるようにしておけばよい。たとえば、大事な仕事の内容の通話については、各機能をＯＦＦすることができる。

また、上記各実施の形態において、各データベースは、メモリカードに格納されて提供される場合やダウンロードにより取得できると説明したが、簡単なオーサリングツールを端末に持たせることで、これらデータベースをユーザ自身が作成できるようにしておいてもよい。

携帯電話機を利用したコミュニケーションシステムのイメージ図である。送信側および受信側の携帯電話機のブロック図である。音声素材データベースの登録例を示す図である。映像素材データベースの登録例を示す図である。バイブレーション設定データベースの登録例を示す図である。第２の実施の形態における送信側および受信側の携帯電話機のブロック図である。第３の実施の形態における送信側および受信側の携帯電話機のブロック図である。

符号の説明

１０（送信側）携帯電話機
２０（受信側）携帯電話機
１０１音声素材データベース
１０２映像素材データベース
１０３バイブレーション設定データベース
２０１（受信側）映像素材データベース
２０２（受信側）バイブレーション設定データベース

Claims

音声認識結果に対応付けられた音声素材データを蓄積する音声素材データベースと、
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、
音声素材データが合成された音声を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
請求項１に記載の音声送信端末において、さらに、
音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、
前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
を備え、
前記通信手段は、音声素材データが合成された音声とあわせて前記映像素材データベースから取得した映像を前記相手の端末に送信することを特徴とする音声送信端末。
請求項１に記載の音声送信端末において、さらに、
音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、
前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、
を備え、
前記通信手段は、音声素材データが合成された音声とあわせてバイブレーション設定データを前記相手の端末に送信することを特徴とする音声送信端末。
請求項２または請求項３に記載の音声送信端末において、さらに、
前記相手の端末の端末情報を取得する手段、
を備え、
前記相手の端末の種別に応じて映像素材データあるいはバイブレーション設定データの送信を停止することを特徴とする音声送信端末。
請求項２ないし請求項４のいずれかに記載の音声送信端末において、さらに、
前記通信手段は、前記音声認識手段による認識結果を前記相手の端末に送信することを特徴とする音声送信端末。
音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
前記音声入力手段から入力した音声とあわせて前記映像素材データベースから取得した映像を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、
前記音声入力手段から入力した音声とあわせてバイブレーション設定データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
請求項１ないし請求項７のいずれかに記載の音声送信端末において、
前記音声認識結果は、前記音声入力手段が入力した音声をテキスト変換した結果および／または前記音声入力手段が入力した音声から判定された音声の調子に関わる情報を含むことを特徴とする音声送信端末。
請求項１に記載の音声送信端末において、
前記音声素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記音声素材データベースが利用可能となることを特徴とする音声送信端末。
請求項２または請求項６に記載の音声送信端末において、
前記映像素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記映像素材データベースが利用可能となることを特徴とする音声送信端末。
請求項３または請求項７に記載の音声送信端末において、
前記バイブレーション設定データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記バイブレーション設定データベースが利用可能となることを特徴とする音声送信端末。
請求項１に記載の音声送信端末から送信された音声を受信する端末であって、
音声素材データが合成された音声をスピーカから出力することを特徴とする音声再生端末。
請求項２記載の音声送信端末から送信された音声およびデータを受信する端末であって、
音声素材データが合成された音声をスピーカから出力しつつ受信した映像素材データをモニタに出力することを特徴とする音声再生端末。
請求項３記載の音声送信端末から送信された音声およびデータを受信する端末であって、
音声素材データが合成された音声をスピーカから出力しつつ、受信したバイブレーション設定データに基づいてバイブレータを駆動することを特徴とする音声再生端末。
請求項５記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、
前記受信端末は、
音声認識結果に対応付けられた映像素材データを蓄積する受信側映像素材データベース、
を備え、
前記受信端末は、
前記音声送信端末から映像素材データを受信した場合、合成音声とともに受信した映像素材データを再生するか、受信した認識結果に基づいて前記受信側映像素材データベースから対応する映像素材データを取得し、合成音声とともに取得した映像素材データを再生するかを選択可能としたことを特徴とする音声再生端末。
請求項５記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、
前記受信端末は、
音声認識結果とバイブレーション設定データとを対応付けた受信側バイブレーション設定データベース、
を備え、
前記受信端末は、
前記音声送信端末からバイブレーション設定データを受信した場合、合成音声を再生するとともに受信したバイブレーション設定データに基づいてバイブレータを駆動するか、受信した音声認識結果に基づいて前記受信側バイブレーション設定データベースを参照してバイブレーション設定データを決定し、合成音声を再生するとともに決定したバイブレーション設定データに基づいてバイブレータを駆動するかを選択可能としたことを特徴とする音声再生端末。
キー操作に対応付けられた音声素材データを蓄積する音声素材データベースと、
音声入力手段と、
音声通話中に入力したキー操作から対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、
音声素材データが合成された音声を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
キー操作に対応付けられた映像素材データを蓄積する映像素材データベースと、
音声入力手段と、
音声通話中に入力したキー操作から対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
前記音声入力手段から入力した音声とともに取得した映像素材データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
キー操作に対応付けられたバイブレーション設定データを蓄積するバイブレーション設定データベースと、
音声入力手段と、
音声通話中に入力したキー操作から対応付けられているバイブレーション設定データを前記バイブレーション設定データベースから取得する手段と、
前記音声入力手段から入力した音声とともに取得したバイブレーション設定データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。