JP2007259427A - 携帯端末装置 - Google Patents
携帯端末装置 Download PDFInfo
- Publication number
- JP2007259427A JP2007259427A JP2007039006A JP2007039006A JP2007259427A JP 2007259427 A JP2007259427 A JP 2007259427A JP 2007039006 A JP2007039006 A JP 2007039006A JP 2007039006 A JP2007039006 A JP 2007039006A JP 2007259427 A JP2007259427 A JP 2007259427A
- Authority
- JP
- Japan
- Prior art keywords
- effect
- effect pattern
- unit
- analysis
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 claims abstract description 246
- 238000004458 analytical method Methods 0.000 claims abstract description 93
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Abstract
【課題】通話中にユーザーが予め定めた効果を出力する携帯端末装置を提供することを目的としている。
【解決手段】効果パターン管理部にあらかじめキーワード、音声パワーの変動やピッチの揺れなどの各パラメータに対応した効果を定義し、効果パターンデータベースに保存しておく。通話データについて、音声認識や感情推定などを用いた解析手段にて分析を行い、特定のキーワードや音声パワー変動やピッチの揺れなどを検出する。そして、検出した特定のキーワード等を効果パターンと照合して一致した場合、あらかじめ設定された効果が発せられ、データ音声化部において音声化してスピーカへ送出して、効果を付けた音声データの鳴動を行う。
【選択図】図1
【解決手段】効果パターン管理部にあらかじめキーワード、音声パワーの変動やピッチの揺れなどの各パラメータに対応した効果を定義し、効果パターンデータベースに保存しておく。通話データについて、音声認識や感情推定などを用いた解析手段にて分析を行い、特定のキーワードや音声パワー変動やピッチの揺れなどを検出する。そして、検出した特定のキーワード等を効果パターンと照合して一致した場合、あらかじめ設定された効果が発せられ、データ音声化部において音声化してスピーカへ送出して、効果を付けた音声データの鳴動を行う。
【選択図】図1
Description
本発明は、通話中にユーザーの希望する効果を付加して出力する機能を持たせた携帯端末装置、特に通話中にユーザーの希望する効果音、背景音または効果画像などの効果を、自端末に出力する音声または画像の少なくともどちらかに付加して出力する機能を持たせた携帯端末装置、および、通話中にユーザーの希望する効果音、背景音または効果画像などの効果を、相手側端末に送信する音声または画像の少なくともどちらかに付加して送信する機能を持たせた携帯端末装置に関する。
携帯端末装置である携帯電話が広範囲に普及し、既に人々の生活に欠かせないものとなっている。そして、携帯端末装置の高性能化、多機能化が着々と進んでいる。とりわけ、着信音メロディ等の、ユーザーが任意に着信音を設定できる機能は多くの支持を得ており、近年では着信音の出力のために高性能な音源チップを実装した携帯端末装置が実用化されている。そればかりでなく、通話の娯楽性をより高めるために任意のサウンドエフェクト機能を発揮することを目的として、通話中にキーボタンを利用した効果音または背景音の出力機能を持つ携帯端末装置も提案されている(例えば、特許文献1参照)。
図13に従来の携帯端末装置を示す。図13には、複数のキーボタンを有するキーボタン部180と、複数のキーボタン情報と通話中に相手側端末に送信する効果音または背景音が貯蔵されている貯蔵部110と、上記キーボタンに対応する効果音または背景音を出力するキートーン出力部142と、信号処理を行う送信側信号処理部160と、上記キーボタン部180から入力されるキーボタン選択信号に応じて効果音または背景音を上記貯蔵部110から読み込んで上記キートーン出力部142に出力し、更に上記送信側信号処理部160を通して出力される効果音または背景音を所定のチャンネルを通して転送するメインコントローラ170を含む構成が示されている。上記従来の携帯端末装置では、通話中にキーボタン部180のいずれかのキーボタンを押すと、キーボタンに対応する効果音または背景音を通話音声に付加して無線通信部130により、サーバー300を経由して相手側端末に送信することができる。
特開2004−312662号公報(第1ページ、図1)
ところが、上記従来の携帯端末装置では、効果音を発するためのキーボタンの操作が煩わしい。通話時は操作部が見えないので、タイミングよく適切なキーボタンを選んで希望する効果音を付与することが困難である。操作を間違うこともあり、その場にそぐわない効果音が付与されることもあるという問題点があった。本発明は、通話中にユーザーが希望する効果をキーボタン操作をすることなく自動的に付加して、自端末に出力する、あるいは相手側端末に送信するようにした携帯端末装置を提供することを目的としている。
以上の課題を解決すべく、本発明では、通話データを解析する解析手段と、解析した解析結果と照合する効果パターンと効果パターンに関連付けた効果を蓄積した効果パターンデータベースと、効果パターンの出力を管理する効果パターン管理手段と、解析した解析結果と効果パターンとを照合する解析照合手段と、音声または画像の少なくともどちらかに効果を付加する合成手段とを設け、解析手段で解析した解析結果と効果パターン管理手段で出力を管理している効果パターンを解析照合手段で照合し、適合した効果パターンに関連付けた効果を音声または画像の少なくともどちらかに付加して自端末に出力、または相手側端末に送信するよう携帯端末装置を構成している。
この構成により、効果パターンデータベースにユーザーの好みの効果を予め割り付けておくことができ、通話中に通話音声から特定のパラメータを検出して、検出したパラメータのパターンに応じた効果を付加して自端末に出力する、あるいは相手側端末に送信することで効果を自分または相手方に聞かせることを可能としている。
また、本発明は、適合した効果パターンに関連付けてある効果、または適合した効果パターンに関連付けてある効果を識別する識別情報を記憶する記憶手段をさらに設け、解析手段が通話データから一定時間の無音区間を検出したとき、前記記憶手段に記憶されている前記効果、または前記識別情報が示す効果を、前記音声または前記画像の少なくともどちらかに付加する合成手段を備えた構成を有する。
この構成により、無音区間を有効的に活用することができ、会話中に効果が音声または画像に頻繁に付加されることを防止し、ユーザーの会話に対する集中を阻害せずに効果を出力することを可能としている。
また、通話中に、携帯端末装置の表示手段に表示する画像に効果画像を合成する画像合成手段を更に設けたことにより、視覚的な効果を出力することを可能としている。
さらに本発明は、解析手段を音声認識手段を有する解析手段としたことにより、通話音声から特定のキーワードを検出して、検出したキーワードに対応する効果を出力することを可能としている。
さらに本発明は、解析手段を感情推定手段を有する解析手段としたことにより、音声パワー変動やピッチの揺れなどを抽出し、感情パターンを検出して、検出した感情パターンに対応する効果を出力することもできる。
(実施の形態1)
以下、本発明の第1の実施の形態を、図面を参照して説明する。本実施形態に係る携帯端末装置100は、携帯電話端末やPHS端末等の通信機能に加えて、通話中に効果音を付加して自端末に出力することができるように構成してある。効果音の例としては、種々のBGM(Back Ground Music)や駅や道路や公園などの環境音、掛け声や合いの手等の人の声、拍手や歓声、動物の鳴き声、著名人の声やユーザーが予め録音した音声、若しくは声以外の音である電子音、機械音、その他を挙げることができる。それ以外に通話音声に対して、繰り返しや、テンポやトーンなどを変調した音などがあげられる。
以下、本発明の第1の実施の形態を、図面を参照して説明する。本実施形態に係る携帯端末装置100は、携帯電話端末やPHS端末等の通信機能に加えて、通話中に効果音を付加して自端末に出力することができるように構成してある。効果音の例としては、種々のBGM(Back Ground Music)や駅や道路や公園などの環境音、掛け声や合いの手等の人の声、拍手や歓声、動物の鳴き声、著名人の声やユーザーが予め録音した音声、若しくは声以外の音である電子音、機械音、その他を挙げることができる。それ以外に通話音声に対して、繰り返しや、テンポやトーンなどを変調した音などがあげられる。
図1は、本発明における携帯端末装置100の構成を表すブロック図である。携帯端末装置100は、相手側端末から音声データを受信する無線部4と、受信した音声データのパターンを解析する解析手段としての音声解析部8と、あらかじめ効果パターンと効果パターンに関連付けた効果を貯蔵しておいた効果パターンデータベース10と、効果パターンの出力を管理する効果パターン管理部9と、解析結果と効果パターンを照合する解析照合部7と、効果パターンに対応する効果を音声化するデータ音声化部6と、相手側端末から受信した通話音声と効果パターンに対応する効果を音声化したデータを合成する音声合成部5と、合成した音声データをスピーカに送出する制御部1、ユーザーからの操作を受け付ける操作部2、音声データの鳴動を行うスピーカ3等からなる。
ここで、通話中とは、ユーザーが使用する携帯端末装置100と相手方の携帯端末装置(以下、相手側端末という)とが電気通信回線を介して通話可能に接続している状態を言う。効果音とは、通話中にマイクを介してリアルタイムに入力される音声信号以外の音声全般を意味する。よって、肉声を録音したものであることもある。携帯端末装置100とは、複数の人の間で会話を可能とするべく電気通信回線を介して通信を行い得る機器をおしなべて包含する概念である。
携帯端末装置100では、あらかじめ、音声認識したキーワード、音声パワーの変動やピッチの揺れなどの各パラメータのパターンに対応した効果を定義し、定義した対応関係を効果パターンデータベース10に保存してある。図2に効果パターンデータベース10の記憶領域に記憶されているデータ構成の一例を示す。図2に示すように、効果パターンデータベース10の記憶領域には、効果パターン90と、効果パターン90に関連付けた効果91が一組のデータとして複数組記憶されている。効果パターンデータベース10の効果パターン90と効果91は、効果パターン管理部9によって出力を管理されており、携帯端末装置100の動作に応じて解析照合部7にそれぞれ出力される。すなわち、効果パターン90は、解析結果と効果パターンを照合する際に解析照合部7に順次出力される。そして効果91は、解析結果と効果パターンが適合したときに、適合した効果パターンに関連付けてある効果が特定され、解析照合部7に出力される。
なお、効果パターンデータベース10には多数の効果パターンが保存され、定義された一つの効果パターンが、複数の組み合わせであることも考えられる。効果パターンは、例えば、電気通信回線を介してダウンロードしたり、図示しないマイクを介して予め録音しておいたりすることで、効果パターンデータベース10に格納される。
図3に本発明の携帯端末装置100の通話音声を解析し効果を付加する時の動作を説明するフローチャートを示す。図3において、携帯端末装置100が音声通話の発信側である相手側端末と音声通話を開始すると(ステップ201)、相手の声とまわりの音の音声データを受信する(ステップ202)。そして、音声解析部8が音声データに含まれる各種のパラメータを解析する(ステップ203)。解析結果がでると、効果パターン管理部9が効果パターン90を順次出力し、解析照合部7が解析結果であるパラメータのパターンを効果パターンと照合する(ステップ204)。解析照合部7において、効果パターンと照合して一致した場合、一致した効果パターンの効果91が出力されるべき効果として特定される(ステップ206)。効果パターン管理部9は、特定された効果91を解析照合部7を経由してデータ音声化部6へ出力し、データ音声化部6は効果91を音声化する(ステップ207)。その後、音声合成部5において、相手側端末から受信した音声データと、効果91を音声化したデータを合成する(ステップ208)。そして、制御部1により、スピーカ3へ送出し、効果を付加した音声データの鳴動を行う(ステップ209)。もしステップ204で、効果パターンデータベースにある効果パターンと音声データのパラメータのパターンを照合しても一致しない場合、特別な処理なしで(ステップ205)、通常の音声データをそのまま発する(ステップ209)。
(実施の形態2)
次に、本発明の第2の実施の形態にかかる携帯端末装置について説明する。本発明の第2の実施の形態にかかる携帯端末装置200は、既に実施の形態1で説明した図1の音声解析部8に音声認識部82を追加して、解析手段である音声解析部81を音声認識手段を有する解析手段として構成している。図4に本発明の第2の実施の形態にかかる携帯端末装置200のブロック図を示す。
次に、本発明の第2の実施の形態にかかる携帯端末装置について説明する。本発明の第2の実施の形態にかかる携帯端末装置200は、既に実施の形態1で説明した図1の音声解析部8に音声認識部82を追加して、解析手段である音声解析部81を音声認識手段を有する解析手段として構成している。図4に本発明の第2の実施の形態にかかる携帯端末装置200のブロック図を示す。
以下、音声認識手段を有する解析手段を用いた本発明の第2の実施の形態にかかる携帯端末装置の動作について説明する。図5はすでに説明した図3のフローチャート中のステップ203とステップ204に関して、音声データ解析の際に音声認識手段による解析動作を加えた場合のフローチャートである。以下、図面を参照して、本実施の形態における通話音声解析時の音声認識手段による解析動作を説明する。
図5において、相手側端末より受信した音声データから、音声認識部82を有する音声解析部81により、キーワードといったようなパラメータのパターンを抽出する(ステップ303)。例えば、「へー」というキーワードについて、効果パターンデータベース10にキーワード「へー」と対応して効果「へーへーへーへーへー」があらかじめ保存されているときには(ステップ204)、音声認識部82を有する音声解析部81により、「へー」というキーワードが検出されたら、解析照合部7で「照合あり」とされ、キーワード「へー」に対応した効果「へーへーへーへーへー」が特定される(ステップ206)。同じように、効果パターン管理部9が出力を管理している効果パターンデータベース10において、キーワード「あっ」と対応して効果「あっあっあっ…」が保存されていれば、音声データにキーワード「あっ」があって、解析照合部7で効果パターンデータベース10と照合できれば、キーワード「あっ」に対応する効果が特定され(ステップ206)、効果パターンに対応する効果「あっあっあっ…」を音声化する(ステップ207)。その後、効果「あっあっあっ…」を音声化したデータを合成する(ステップ208)。そして、音声データの鳴動を行う(ステップ209)。もしステップ204で、効果パターンデータベース10にある効果パターン90と音声データのキーワードが一致しない場合、特別な処理なしで(ステップ205)、通常の音声データをそのまま発する(ステップ209)。
(実施の形態3)
次に、本発明の第3の実施の形態にかかる携帯端末装置について説明する。本発明の第3の実施の形態にかかる携帯端末装置は、すでに実施の形態2にて説明した図4の音声認識部82を感情推定手段と置き換えたものであり、音声解析部を感情推定手段を有する解析手段として構成している。なお、他の構成は図4と同じなので、ブロック図は省略する。
次に、本発明の第3の実施の形態にかかる携帯端末装置について説明する。本発明の第3の実施の形態にかかる携帯端末装置は、すでに実施の形態2にて説明した図4の音声認識部82を感情推定手段と置き換えたものであり、音声解析部を感情推定手段を有する解析手段として構成している。なお、他の構成は図4と同じなので、ブロック図は省略する。
以下、感情推定手段を有する解析手段を用いた本発明の第3の実施の形態にかかる携帯端末装置の動作について説明する。図6は、すでに説明した図3のフローチャートの中のステップ203とステップ204に関して、音声データ解析の際に感情推定手段による解析動作を加えた場合のフローチャートである。以下、図面を参照して、本実施の形態にお
ける通話音声解析時の感情推定手段による解析動作を説明する。
ける通話音声解析時の感情推定手段による解析動作を説明する。
図6において、感情推定手段が相手側端末より受信した音声データから声の大きさと長さを表す音声パワー変動というパラメータや、周波数の変動を表すピッチのゆれというパラメータなどを抽出して感情パターンを検出する(ステップ403)。例えば、音声データには「わははは」という感情パターンがある場合、しかも効果パターンデータベース10に「わははは」と対応して会場がどっとわくような効果があらかじめ保存されているときには、音声解析部の感情推定手段により、「わははは」という感情パターンが検出されたら、処理を続行し、それに応じた会場がどっとわくような効果が発せられる。もし感情パターンがない場合、または感情パターンに対応する効果パターンがない場合、特別な処理がなく、音声データをそのまま発せられる。
同じように、効果パターンデータベース10において、一定時間以上の無音区間と対応して効果「ざわざわざわ」が保存されれば、効果「ざわざわざわ」が音声化される。一定時間以上の無音区間がないときは、通常の処理が行われる。また、「そうそう」「だよね」あるいは「Ye a h 」「H e y 」その他の合いの手、ラップの掛け合い等の人声など、ユーザーにより創作されたデータも効果として採用し、より多くのパラメータ及び大量の効果パターンを有することもできる。そして、複数の効果パターン管理部9及びその中にある効果パターンデータベース10を設けてもよい。
(実施の形態4)
次に、本発明の第4の実施の形態にかかる携帯端末装置について説明する。本発明の第4の実施の形態は、携帯端末装置をテレビ電話として、音声データの効果を出力するのみならず、通話中に画像の効果が見られるようにしている。図7に通話中に音声と画像が同時に送られる携帯端末装置300のブロック図を示す。携帯端末装置300では、音声合成部5とは別に画像合成部11が設置されており、効果パターンデータベース20には画像に対応する効果パターンも貯蔵されている。画像合成部11には、無線部4で受信した画像データが画像処理部93で処理されて出力される。また、カメラ92で撮影した画像も画像処理部93で処理されて画像合成部11に出力される。
次に、本発明の第4の実施の形態にかかる携帯端末装置について説明する。本発明の第4の実施の形態は、携帯端末装置をテレビ電話として、音声データの効果を出力するのみならず、通話中に画像の効果が見られるようにしている。図7に通話中に音声と画像が同時に送られる携帯端末装置300のブロック図を示す。携帯端末装置300では、音声合成部5とは別に画像合成部11が設置されており、効果パターンデータベース20には画像に対応する効果パターンも貯蔵されている。画像合成部11には、無線部4で受信した画像データが画像処理部93で処理されて出力される。また、カメラ92で撮影した画像も画像処理部93で処理されて画像合成部11に出力される。
携帯端末装置300の解析照合部7で音声データのパターンと効果パターンが一致すると、効果パターンに対応する画像が効果パターンデータベース20から読み出され、効果パターン管理部9、解析照合部7を経由して、画像合成部11に出力される。画像合成部11は受信した画像データあるいはカメラ92で撮影した画像と、一致した効果パターンに対応する画像とを合成する。制御部1には表示部12を接続しているので、合成した画像は表示部12に表示される。
例えば、テレビ電話の表示部に受信した通話相手の画像を表示している際、受信した音声データを解析し、「だめじゃん」というキーワードが検出され、しかも効果パターンデータベース20において、「だめじゃん」と対応して「すいません」という文字が表示画面の上から降りてくるという効果が効果パターンとして保存されていたとする。照合により音声データの解析結果と効果パターンが一致した場合は、画像合成部11において、この効果パターンに対応する効果を画像に合成する。このことにより、表示部12において、通話している相手本人の映像が表示されると同時に、画面の上端から「すいません」という文字が降りてくる。「だめじゃん」と怒っている通話相手の顔の上方から、返事すべき台詞として「すいません」の文字が降りてくれば、その文字を読むことで「すいません。」と素直に答えることができる。なお、一致しない場合は、効果が出力されない通常の処理が行われる。
なお、図7のテレビ電話ではテレビ電話で話している自分の顔をカメラ92で撮影して、表示部12の画面を分割して表示することにより、通話相手の顔を表示すると同時に自分の顔も表示することができるようにしている。そのため、受信した通話相手の音声データを解析して付加する効果画像を通話相手の画像に合成して表示し、送信する自分の音声データを解析して付加する効果画像を自分の画像に合成して表示するようにすると、それぞれが話した音声内容をそれぞれの画像の上に文字画像として強調して示すことができる。例えば「わははは」と相手が笑えば、笑った通話相手の画像に「わははは」という文字が表示され、「ホホホホ」と自分が笑えば「ホホホホ」という文字が自分の画像に表示される。
(実施の形態5)
以上、受信した相手の音声に効果を付加して、自端末に出力する実施の形態を説明したが、本発明の第5の実施の形態として、自分の音声に効果を付加して相手側端末に送信するようにした携帯端末装置について説明する。図8に自端末から発した音声に対して効果を出す場合の本発明の第5の実施の形態にかかる携帯端末装置400のブロック図を示す。
以上、受信した相手の音声に効果を付加して、自端末に出力する実施の形態を説明したが、本発明の第5の実施の形態として、自分の音声に効果を付加して相手側端末に送信するようにした携帯端末装置について説明する。図8に自端末から発した音声に対して効果を出す場合の本発明の第5の実施の形態にかかる携帯端末装置400のブロック図を示す。
本実施の形態によれば、自端末のマイク150に発せられた通話音声である音声データ
を解析手段である音声解析部8で解析してパラメータを抽出し、抽出したパラメータのパターンを解析し、解析したパターンと効果パターンを解析照合部7で照合して、一致した場合、効果パターンに対応する効果をデータ音声化部6で音声化し、音声合成部5で通話音声と合成することにより、自分の音声に効果を付加して、制御部1の制御のもと、無線部4より出力する。このことにより、自分の音声に自動的に効果を付加して送信し、相手側端末に出力することができる。
を解析手段である音声解析部8で解析してパラメータを抽出し、抽出したパラメータのパターンを解析し、解析したパターンと効果パターンを解析照合部7で照合して、一致した場合、効果パターンに対応する効果をデータ音声化部6で音声化し、音声合成部5で通話音声と合成することにより、自分の音声に効果を付加して、制御部1の制御のもと、無線部4より出力する。このことにより、自分の音声に自動的に効果を付加して送信し、相手側端末に出力することができる。
(実施の形態6)
次に、本発明の第6の実施の形態における携帯端末装置について説明する。本発明の第6の実施の形態では、上記第1〜第5の実施の形態で述べた解析照合部7で照合して一致する度に効果を付加するものではなく、会話が途切れたときに効果を付加する動作を特徴とする携帯端末装置について説明する。
次に、本発明の第6の実施の形態における携帯端末装置について説明する。本発明の第6の実施の形態では、上記第1〜第5の実施の形態で述べた解析照合部7で照合して一致する度に効果を付加するものではなく、会話が途切れたときに効果を付加する動作を特徴とする携帯端末装置について説明する。
図9は、本発明の第6の実施の形態における携帯端末装置500のブロック図を示す。
図9はすでに第2の実施の形態にて説明した図4の構成に加えて、記憶部13を備えた構成を有する。記憶部13は、携帯端末装置が標準的に備えている汎用的なメモリであって、解析照合部7で解析結果と効果パターンとが一致したときに、効果パターン管理部9から出力される効果を識別する識別情報(例として、識別番号とする)を記憶する。
図10は、本発明の第6の実施の形態における携帯端末装置500を構成する効果パターンデータベース30の記憶領域に記憶されているデータ構成の一例を示す図である。
図示したように、効果パターンデータベース30は、識別番号31、効果パターン90および効果91が一組のデータとして複数組記憶されている。ここで、効果パターン90が一定時間以上の無音区間の場合、効果91として、記憶部13に記憶されている効果を読み出すよう示している。
図11は、本発明の第6の実施の形態における携帯端末装置500の処理フローを示すフローチャートである。なお、本処理フローは、すでに第2の実施の形態にて説明した図5の処理フローに、適合した効果パターンに関連付けてある効果を識別する識別番号31を保存するステップ(ステップ501)と、会話が途切れたことを判定するステップ(ステップ502)とを加えたものである。
図11のステップ202において、相手側端末より受信した音声データが「へー、そうなんだ、わははは、(一定時間の無音区間)」である場合を例として、以下に携帯端末装置500の処理フローを説明する。
まず、携帯端末装置500は、音声通話の発信側である相手側端末と音声通話を開始し(ステップ201)、通話中に相手側端末より発信された音声データ「へー、そうなんだ、わははは、(一定時間の無音区間)」を受信する(ステップ202)。
次に、音声認識部82を有する音声解析部81により、音声データからキーワードといったようなパラメータのパターンを抽出する(ステップ203)。ここでは、音声解析部81は、「へー」、「そうなんだ」、「わははは」および「(一定時間の無音区間)」の4つのパターンを抽出し(ステップ303)、順次、解析照合部7に出力する。
次に、解析照合部7は、解析結果であるパターンと、効果パターンデータベース30の効果パターン90とを照合する(ステップ204)。
解析照合部7において、解析結果であるパターンと効果パターン90とを照合して一致した場合、一致した効果パターンが一定時間の無音区間であるか否かを判定する(ステップ502)。なお、無音区間であるか否かの判定は、ステップ203における音声データの解析時に、無音部分の継続時間を計測するタイマー(図示せず)を設定し、その経過時間に基づいて判定させてもよいし、第3の実施の形態で説明した、効果パターンデータベース10による無音区間選択の処理を用いてもよい。
一方、解析照合部7において、解析結果であるパターンと効果パターン90とが一致しない場合、特別な処理なしで(ステップ205)、通常の音声データをそのまま発する(ステップ209)。
次に、解析照合部7は、一致した効果パターン90が一定時間の無音区間でないと判定した場合、一致した効果91を出力すべき効果として特定し(ステップ206)、効果パターンデータベース30から、一致した効果パターンに対応する識別番号31と順番を対応させて順次、記憶部13に保存する(ステップ501)。そして、一致した効果パターンが一定時間の無音区間であるまで、ステップ202、ステップ203、ステップ303、ステップ204、ステップ502、ステップ206およびステップ501の処理を繰り返し行う。
ここで、図12に記憶部13に記憶されるデータ構成の一例を示す。記憶部13は、図12に示すように、左の列に記憶する順番121が、順に「1」、「2」というように並び、右の列に順番121に対応する識別番号が順次記憶される。図12では、相手側端末より受信した音声データが「へー、そうなんだ、わははは、(一定時間の無音区間)」である場合のデータ構成の一例を示している。
記憶部13は、解析照合部7で一致すると判定された効果パターン「へー」に対応する識別番号「0003」、および効果パターン「わははは」に対応する識別番号「0005」を解析照合部7で一致するとの判定がなされた順に記憶している。
次に、解析照合部7は、一致した効果パターンが一定時間の無音区間であると判定した場合、記憶部13に記憶されている識別番号92「0003」および「0005」を順番121に従って読み出し、効果パターン管理部9から効果91「ヘーヘーヘーヘーヘー」および効果91「会場がどっとわくような効果」を音声化する(ステップ207)。そして、音声合成部5は、相手側端末から受信した音声データ(無音部分)と、効果91とを音声化したデータを合成し(ステップ208)、スピーカ3は合成した音声データの鳴動を行う(ステップ209)。
なお、本実施の形態では、相手側端末より受信した音声データに基づいて無音区間に効果91を出力する場合について説明を行ったが、図8の構成に記憶部13を設けることにより、自端末から送信する音声データに基づいて無音区間に効果91を送信する場合についても同様に行うことができる。
なお、また、本実施の形態では、音声認識部82により、相手側端末より受信した音声データからキーワードを抽出し(ステップ303)、効果を付加する処理を説明したが、ステップ303の処理を、図6のステップ403に置き換えることにより、感情パターンにより効果を付加することもできる。
なお、また、本実施の形態では、音声データの効果を出力するのみであったが、通話中に音声と画像が同時に送受信できるテレビ電話の構成(図7)に記憶部13を設けることにより、無音区間に効果91を付加した画像を出力または送信することができる。
なお、また、本実施の形態では、記憶部13に、解析照合部7で一致した効果91を示す識別番号31を記憶するよう説明したが、効果パターンデータベース30を記憶部13として用い、効果パターンデータベース30に、一致した効果91を識別するフラグや順番121等を設けるようにしてもよい。
なお、また、本実施の形態では、記憶部13に、解析照合部7で一致した効果91を示す識別番号31を順次記憶するよう説明したが、解析照合部7で一致するとの判定がなされた最新の効果を示す識別番号のみを記憶させるようにしてもよい。これにより、効果91の出力または送信の頻度を抑えることができ、通話中に効果パターンデータベース30のキーワードが連呼された場合であっても、過度な効果の付加を防止することができる。
なお、また、記憶部13に、1つの文章中に使用されたキーワードと効果パターン90との一致する回数を、識別番号31と対応付けて記憶しておき、最も使用頻度の高かった効果パターン90に対応する効果91を出力または送信するようにしてもよい。
以上のように、本発明の第6の実施の形態の携帯端末装置によれば、無音区間を有効的に活用することができ、会話中に効果が音声または画像に頻繁に付加されることを防止し、ユーザーの会話に対する集中を阻害せずに効果を出力することができる。
そのほか、各部の具体的構成に関しては、上記実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
以上に詳述した本発明によれば、音声データを解析して、ユーザーの思うように予め定めた任意の効果を自端末に出力し、あるいは相手側端末に送信することができるので、通話中にエンターテインメント性を高め、高度なサウンドエフェクト機能を発揮する携帯端末装置に適用することができる。
1 制御部
2 操作部
3 スピーカ
4 無線部
5 音声合成部
6 データ音声化部
7 解析照合部
8 音声解析部
9 効果パターン管理部
10 効果パターンデータベース
11 画像合成部
12 表示部
13 記憶部
100 携帯端末装置
2 操作部
3 スピーカ
4 無線部
5 音声合成部
6 データ音声化部
7 解析照合部
8 音声解析部
9 効果パターン管理部
10 効果パターンデータベース
11 画像合成部
12 表示部
13 記憶部
100 携帯端末装置
Claims (7)
- 受信した通話データを解析する解析手段と、
通話データの解析結果と照合するための効果パターンと効果パターンに関連付けた効果を蓄積した効果パターンデータベースと、
前記効果パターンの出力を管理する効果パターン管理手段と、
前記解析結果と効果パターンとを照合する解析照合手段と
通話中に自端末に出力する音声または画像の少なくともどちらかに前記効果を付加して出力する合成手段とを設け、
前記解析手段で解析した解析結果と前記効果パターン管理手段で出力を管理している効果パターンを前記解析照合手段で照合し、適合した効果パターンに関連付けてある効果を、自端末に出力する音声または画像の少なくともどちらかに付加して出力するよう構成した携帯端末装置。 - 送信する通話データを解析する解析手段と、
通話データの解析結果と照合するための効果パターンと効果パターンに関連付けた効果を蓄積した効果パターンデータベースと、
前記効果パターンの出力を管理する効果パターン管理手段と、
前記解析結果と効果パターンとを照合する解析照合手段と
通話中に相手側端末に送信する音声または画像の少なくともどちらかに前記効果を付加する合成手段とを設け、
前記解析手段で解析した解析結果と前記効果パターン管理手段で出力を管理している効果パターンを前記解析照合手段で照合し、適合した効果パターンに関連付けてある効果を、相手側端末に送信する音声または画像の少なくともどちらかに付加して送信するよう構成した携帯端末装置。 - 前記合成手段は、前記解析結果と、前記効果パターンとが前記解析照合手段で照合され、一致するとの判定がなされる度に、適合した効果パターンに関連付けてある効果を前記音声または前記画像の少なくともどちらかに付加することを特徴とする請求項1または請求項2記載の携帯端末装置。
- 前記適合した効果パターンに関連付けてある効果、または前記適合した効果パターンに関連付けてある効果を識別する識別情報を記憶する記憶手段をさらに設け、
前記合成手段は、前記解析手段が前記通話データから一定時間の無音区間を検出したとき、前記記憶手段に記憶されている前記効果、または前記識別情報が示す効果を、前記音声または前記画像の少なくともどちらかに付加することを特徴とする請求項1または請求項2記載の携帯端末装置。 - 通話中に、表示する画像に効果を合成する画像合成手段を更に設けた請求項1から請求項4のいずれかに記載の携帯端末装置。
- 前記解析手段は、音声認識手段を有する解析手段とした請求項1から請求項4のいずれかに記載の携帯端末装置。
- 前記解析手段は、感情推定手段を有する解析手段とした請求項1から請求項4のいずれかに記載の携帯端末装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007039006A JP2007259427A (ja) | 2006-02-23 | 2007-02-20 | 携帯端末装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006046561 | 2006-02-23 | ||
JP2007039006A JP2007259427A (ja) | 2006-02-23 | 2007-02-20 | 携帯端末装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007259427A true JP2007259427A (ja) | 2007-10-04 |
Family
ID=38633125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007039006A Pending JP2007259427A (ja) | 2006-02-23 | 2007-02-20 | 携帯端末装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007259427A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166324A (ja) * | 2009-01-15 | 2010-07-29 | Nec Corp | 携帯端末、音声合成方法、及び音声合成用プログラム |
WO2011039884A1 (ja) * | 2009-10-01 | 2011-04-07 | 富士通株式会社 | 音声通話装置 |
WO2015175552A1 (en) * | 2014-05-12 | 2015-11-19 | Intelligent Digital Avatars, Inc. | Systems and methods for dynamically collecting and evaluating potential imprecise characteristics for creating precise characteristics |
-
2007
- 2007-02-20 JP JP2007039006A patent/JP2007259427A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166324A (ja) * | 2009-01-15 | 2010-07-29 | Nec Corp | 携帯端末、音声合成方法、及び音声合成用プログラム |
WO2011039884A1 (ja) * | 2009-10-01 | 2011-04-07 | 富士通株式会社 | 音声通話装置 |
US8526578B2 (en) | 2009-10-01 | 2013-09-03 | Fujitsu Limited | Voice communication apparatus |
WO2015175552A1 (en) * | 2014-05-12 | 2015-11-19 | Intelligent Digital Avatars, Inc. | Systems and methods for dynamically collecting and evaluating potential imprecise characteristics for creating precise characteristics |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5225847B2 (ja) | 情報処理端末、音楽情報生成方法、およびプログラム | |
US7706510B2 (en) | System and method for personalized text-to-voice synthesis | |
RU2382514C2 (ru) | Система и способ автоматического генерирования пользовательских видеоданных для сигналов вызова и передачи контекстной информации | |
JP2009112000A (ja) | 実時間対話型コンテンツを無線交信ネットワーク及びインターネット上に形成及び分配する方法及び装置 | |
JP2010028865A (ja) | インテリジェント着信音 | |
CA2539649C (en) | System and method for personalized text-to-voice synthesis | |
US20050190903A1 (en) | Text-to-speech and midi ringing tone for communications devices | |
JP2010034695A (ja) | 音声応答装置及び方法 | |
JP2010166324A (ja) | 携帯端末、音声合成方法、及び音声合成用プログラム | |
JP2011253389A (ja) | 端末および擬似会話用返答情報作成プログラム | |
US20070123234A1 (en) | Caller ID mobile terminal | |
US7443962B2 (en) | System and process for speaking in a two-way voice communication without talking using a set of speech selection menus | |
JP2008048030A (ja) | 情報処理装置 | |
US7302395B2 (en) | Speech notification | |
US20050239511A1 (en) | Speaker identification using a mobile communications device | |
JP2007259427A (ja) | 携帯端末装置 | |
JP2003218999A (ja) | 音声認識機能付き携帯電話装置及びその制御プログラム | |
US7403895B2 (en) | Control system outputting received speech with display of a predetermined effect or image corresponding to its ambient noise power spectrum | |
KR20070076942A (ko) | 휴대용 무선단말기의 작곡 장치 및 방법 | |
KR20110050483A (ko) | 통신 방법, 통신 관련 시스템 및 관련 변환부 | |
JP3073293B2 (ja) | 音声情報出力システム | |
JP2007251581A (ja) | 音声送信端末および音声再生端末 | |
CN111179943A (zh) | 一种对话辅助设备及获取信息的方法 | |
KR100553437B1 (ko) | 음성 합성을 이용한 음성 메시지 전송 기능을 가지는무선통신 단말기 및 그 방법 | |
JP2004200985A (ja) | 通話音声のテキスト変換システム |