JP2015231083A

JP2015231083A - 音声合成通話システム、通信端末および音声合成通話方法

Info

Publication number: JP2015231083A
Application number: JP2014115527A
Authority: JP
Inventors: 友里松本; Yuri Matsumoto
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-06-04
Filing date: 2014-06-04
Publication date: 2015-12-21

Abstract

【課題】音声通話をしていた相手と通話状態を維持しながら、一方が声を出さなくてもリアルタイムでやりとりを続けることができる、音声合成通話システム、通信端末および音声合成通話方法を提供する。【解決手段】音声合成通話システム１０００は、発信者端末１００（図２参照）が、テキストの入力を受け付けるテキスト入力部１７０と、音声通話状態を維持しつつ、テキスト入力部１７０によるテキスト入力に切り替える音声テキスト切替部１６０と、を備える。メディア処理装置（音声配信サーバ）２００は、テキストを音声データに変換する音声合成部２２０と、変換した音声データを着信者端末３００に送信する音声送信部２３０と、を備える。着信者端末３００は、音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力する。【選択図】図２

Description

本発明は、音声合成通話システム、通信端末および音声合成通話方法に関する。

特許文献１には、携帯機器各々に音声合成手段を搭載せずに、また、回線を占有することなく、携帯機器でメールの内容を自動的に読み上げる電子メール読み上げシステムが記載されている。特許文献１に記載の電子メール読み上げシステムは、音声合成エンジンが、メールサーバに着信したメールのコピーを音声ファイルに変換し、蓄積サーバに格納する。携帯機器は、メール着信通知を受けると音声ファイル要求をサーバシステムに送出して未ダウンロードの音声ファイルが蓄積サーバに存在することを確認し、ダウンロードする。

特開２００７−２３３４３５号公報

特許文献１に記載の技術では、あらかじめテキスト編集ソフト等により入力された文章を着信側の携帯機器に送信し、音声合成により再生することができる。しかしながら、もともと音声通話をしていた場合には、その通話を一度切断して、メールやテキスト編集ソフトに切り替えてテキスト文章を送る処理を行わなければならない。例えば、直前まで相手と電話で通話していたが、一方の人物が電車に乗る等して、音声では話せなくなるが、相手とのやりとりは継続したい時がある。
そこで、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けられる方法が必要である。

このような背景を鑑みて本発明がなされたのであり、本発明は、音声通話をしていた端末と通話状態を維持しながら、一方が声を出さなくてもリアルタイムで音声によるやりとりを続けることができる、音声合成通話システム、通信端末および音声合成通話方法を提供することを課題とする。

前記した課題を解決するため、請求項１に記載の発明は、ネットワークに接続可能な第１および第２の通信端末を有し、前記第１および第２の通信端末は、音声配信サーバを介して音声通話を行う音声通話部を備える音声合成通話システムであって、発信側の通信端末である前記第１の通信端末は、テキストの入力を受け付けるテキスト入力部と、音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、を備え、前記第１の通信端末または前記音声配信サーバは、前記テキストを音声データに変換する音声合成部と、前記変換した音声データを、受信側の通信端末である前記第２の通信端末に送信する音声送信部と、を備え、前記第２の通信端末の前記音声通話部は、前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力することを特徴とする音声合成通話システムとした。

また、請求項３に記載の発明は、ネットワークに接続可能な第１および第２の通信端末を有し、前記第１および第２の通信端末は、音声配信サーバを介して音声通話を行う音声合成通話システムの音声合成通話方法であって、発信側の通信端末である前記第１の通信端末は、前記音声配信サーバを介して音声通話を行うステップと、音声通話状態を維持しつつ、テキスト入力に切り替えるステップと、テキストの入力を受け付けるステップと、を実行し、前記第１の通信端末または前記音声配信サーバは、前記テキストを音声データに変換するステップと、前記変換した音声データを、受信側の通信端末である第２の通信端末に送信するステップと、を実行し、前記第２の通信端末は、前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力するステップを実行することを特徴とする音声合成通話方法とした。

このようにすることで、本発明の音声合成通話システムによれば、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。

また、請求項２に記載の発明は、音声配信サーバを介して音声通話を行う音声通話部と、テキストの入力を受け付けるテキスト入力部と、音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、前記テキストを音声データに変換する音声合成部と、前記変換した音声データを前記音声配信サーバに送信する音声送信部と、を備えることを特徴とする通信端末とした。

このようにすることで、本発明の通信端末によれば、それまでに音声通話をしていた相手と通話状態を維持しながら、一方が声を出さなくてもリアルタイムでやりとりを続けることができる。

本発明によれば、音声通話をしていた相手と通話状態を維持しながら、一方が声を出さなくてもリアルタイムでやりとりを続けることができる、音声合成通話システム、通信端末および音声合成通話方法を提供することができる。

本発明の概要を説明するための図である。本実施形態に係る音声合成通話システムの全体構成と処理概要を説明するための図である。本実施形態に係る音声合成通話システムの相手先アドレス情報格納部のデータ構成例を示す図である。本実施形態に係る音声合成通話システムの処理の流れを示すシーケンス図である。本実施形態に係る音声合成通話システムの音声合成手段がネットワーク側にある場合の全体構成と処理概要を説明するための図である。本実施形態に係る音声合成通話システムの音声合成手段が端末側にある場合の全体構成と処理概要を説明するための図である。

次に、本発明を実施するための形態（以下、「本実施形態」という。）における音声合成通話システム１０００等について説明する。

＜システム構成と処理概要＞
図１は、本発明の概要を示す図である。
本実施形態に係る音声合成通話システム１０００では、音声で通話していた発信者が備える端末と着信者が備える端末とが、その通話を切断せずに、一方の端末にテキスト文を入力すると、他方の端末にそのテキスト文が音声合成された音声データがリアルタイムで配信される。
ここで、本発明の音声合成手段３（後記する図２等のテキスト受信部２１０、音声合成部２２０および音声送信部２３０）を双方の端末側が備えることで、双方が声を出さなくてもリアルタイムでやりとりを続けることができる。なお、以下で、本発明の音声合成手段３を一方の端末が備える例について説明する。

図１に示すように、ユーザＡは、音声通話／テキスト入力可能な携帯電話やスマートフォン等の通信端末１を持ち、ユーザＢは、音声通話可能な携帯電話やスマートフォン等の通信端末２を持ち、音声通話を行っている。
通信端末１または通信ネットワーク（ＮＷ）２上には、音声通話の途中で通話状態を維持しながら、テキスト文を音声データに音声合成する音声合成手段３を備える。音声合成手段３は、通信端末１に内蔵した音声合成装置を利用する方法と、通信ネットワーク（ＮＷ）２上に設置された音声合成サーバを使用する方法とがある。
通信端末１（ユーザＡ）が、電車内等の声を出せない環境に移行しても、元々通話していた通信端末２（ユーザＢ）と通話状態を保持しながら、音声対音声の通話ではなくテキスト対音声の通話に切り替え、そのテキストを音声として合成し、音声によるやりとりが継続できる。

図２は、本実施形態に係る音声合成通話システム１０００の全体構成と処理概要を説明するための図である。
図２に示すように、本実施形態に係る音声合成通話システム１０００は、ネットワークに接続可能な発信者端末１００（第１の通信端末）と、メディア処理装置２００（音声配信サーバ）と、ネットワークに接続可能な着信者端末３００（第２の通信端末）と、を含んで構成される。

発信者端末１００は、音声通話／テキスト入力可能な携帯電話やスマートフォン等の通信端末である。発信者端末１００は、受信部１１０と、送信部１２０と、相互に音声通話を行う音声通話部１３０と、相手先アドレス情報格納部１４０と、切替ボタン１５０と、音声テキスト切替部１６０と、テキスト入力部１７０と、を備えて構成される。
受信部１１０および送信部１２０は、受信／送信のための物理的なインタフェース（Ｉ／Ｆ）である。音声通話部１３０は、音声通話を行うためのソフトウェアまたはミドルウェアからなる。音声通話部１３０は、受信部１１０を介して入力された音声を受話する受話機能（後記図５の受話部１０１参照）と、送信部１２０に音声を出力する発話機能（後記図５の発話部１０２参照）と、を有する。

切替ボタン１５０は、例えば図示しない表示部の表示画面内で、任意の位置を指示するためのタッチパネルに割り当てられたソフトキーである。このタッチキーの場合、ユーザが切替ボタン１５０として設定されたユーザ画面１５５（図４参照）を指で押したり、スライドしたり、離したりすることにより各操作を指示する。また、切替ボタン１５０は、キーボード等のキーのほか、専用に割り当てられた機能キーであってもよい。
また、本実施形態では、テキスト入力は、スマートフォン端末やフィーチャーフォン（携帯電話）にデフォルトで内蔵されている言語入力用キーボードを利用するものとして説明する。

テキスト入力部１７０は、テキスト入力画面が表示され、端末付属の文字入力機能（キーパッド等）によりテキスト文を受け付ける。

音声テキスト切替部１６０は、音声通話状態を維持しつつ、テキスト入力に切り替える。音声テキスト切替部１６０は、テキスト入力部１７０から取得したテキスト入力結果を音声合成手段３に送信する。

音声通話部１３０、音声テキスト切替部１６０およびテキスト入力部１７０は、ＲＯＭ（Read Only Memory）等に格納されたプログラムをＣＰＵ（Central Processing Unit）がメインメモリであるＲＡＭ（Random Access Memory）に展開し実行することで実現される。また、相手先アドレス情報格納部１４０は、具体的にはハードディスクやフラッシュメモリ、ＲＡＭ等の記憶手段からなる。

メディア処理装置２００は、ネットワーク上のメディアサーバ等である。メディア処理装置２００は、音声合成手段３を含む。この音声合成手段３は、テキスト受信部２１０と、テキストからアナログ音声を生成する音声合成エンジンからなる音声合成部２２０と、テキストから変換した音声データを着信者端末３００に送信する音声送信部２３０と、を備えて構成される。なお、図６に示すように、この音声合成手段３を発信者端末１００（通信端末Ａ）に備えるようにしてもよい。

着信者端末３００は、音声通話可能な携帯電話やスマートフォン、固定電話等である。着信者端末３００は、受信部３１０と、送信部３２０と、音声通話部３３０と、を備えて構成される。
受信部３１０および送信部３２０は、受信／送信のための物理的なインタフェース（Ｉ／Ｆ）である。音声通話部３３０は、音声通話を行うためのソフトウェアまたはミドルウェアからなる。音声通話部３３０は、受信部３１０を介して入力された音声を受話する受話機能（後記図５の受話部３０１参照）と、送信部３２０に音声を出力する発話機能（後記図５の発話部３０２参照）と、を有する。
音声通話部３３０は、音声データを受信した場合、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。これにより、音声通話部３３０は、音声データを受信した場合、音声通話状態を維持しつつ、音声データによる音声通話を継続する。

図３は、本実施形態に係る相手先アドレス情報格納部１４０のデータ構成例を示す図である。
図３に示すように、相手先アドレス情報格納部１４０には、各ユーザのユーザＩＤ１４１に対応付けて、相手先アドレス情報１４２や電話番号１４３等のユーザ端末識別情報が格納される。ここで、相手先アドレス情報１４２は、例えば、着信者端末３００のＩＰアドレスである。また、電話番号１４３は、着信者端末３００がスマートフォン等のように携帯電話機能を備える場合、その携帯電話番号が格納される。

以下、図２を参照して、音声合成通話システム１０００の処理概要を説明する。
まず、発信者端末１００は、通話確立時に、ユーザＩＤやその発信者端末１００に固有なユーザ端末識別情報（ＩＰ（Internet Protocol）アドレスや電話番号等）を含む相手先アドレス情報を、相手先アドレス情報格納部１４０に保持する（図２の符号ａ参照）。
発信者端末１００は、切替ボタン１５０の操作による切替指示を受け付ける（ステップＳ１：切替指示）。
切替指示を受信した、発信者端末１００の音声テキスト切替部１６０は、テキスト入力部１７０に対してテキスト入力機能の起動指示を行う（ステップＳ２：起動指示）。

起動指示を受信した、発信者端末１００のテキスト入力部１７０は、音声テキスト切替部１６０に入力結果を返却する（ステップＳ３：入力結果返却）。テキスト入力部１７０は、具体的には、スマートフォン端末やフィーチャーフォンにデフォルトで内蔵されている言語入力用キーボードを利用してテキスト入力を行う。
また、発信者端末１００の音声テキスト切替部１６０は、相手先アドレス情報格納部１４０に保持されている相手先アドレス情報を参照する（ステップＳ４：相手先アドレス情報参照）。
そして、発信者端末１００の音声テキスト切替部１６０は、メディア処理装置２００に対して相手先アドレス情報を付与してテキスト入力結果を送信する（ステップＳ５：テキスト入力結果送信）。

次に、メディア処理装置２００のテキスト受信部２１０は、発信者端末１００からのテキスト入力結果を受信し、音声合成部２２０に対して、テキストデータから音声データへの変換指示を行う（ステップＳ６：変換指示）。
変換指示を受信した、メディア処理装置２００の音声合成部２２０は、テキストデータを音声データに変換し、音声送信部２３０に対して送出指示を行う（ステップＳ７：送出指示）。
そして、メディア処理装置２００の音声送信部２３０は、送出指示に従って着信者端末３００に対して音声合成された音声データを送出する（ステップＳ８：音声データ送出）。
着信者端末３００は、受信部３１０が送出された音声を受信し、音声通話部３３０は、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。

このようにすることにより、本実施形態に係る音声合成通話システム１０００は、発信者端末１００のユーザが、それまでに音声通話をしていた着信者端末３００のユーザと通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。例えば、音声通話中に、その音声通話を継続できない状況が生じた場合に、発信者端末１００のユーザは、切替ボタン１５０を操作してテキスト入力画面に切替え、テキスト文を入力すると、入力されたテキスト文はメディア処理装置２００にリアルタイムで送出される。メディア処理装置２００の音声合成部２２０は、テキスト文を音声データに変換し、着信者端末３００にリアルタイムで送信する。

＜処理の流れ＞
次に、本実施形態に係る音声合成通話システム１０００の処理の流れについて詳細に説明する。
図４は、本実施形態に係る音声合成通話システム１０００の処理の流れを示すシーケンス図である。
図４に示すように、発信者端末１００と着信者端末３００との間で、通話が確立されている（ステップＳ１０１）。また、通話確立時には、発信者端末１００の相手先アドレス情報格納部１４０に相手先アドレス情報が保持されている。
まず、発信者端末１００は、通話確立時に、ユーザ画面１５５をタッチして切替ボタン１５０を押す等の切替指示を受け付け（ステップＳ１０２）、発信者端末１００の音声テキスト切替部１６０に出力する。

音声テキスト切替部１６０は、発信者端末１００のテキスト入力部１７０に対してテキスト入力機能の起動指示を行う（ステップＳ１０３）。
テキスト入力部１７０は、ユーザ画面１５５をテキスト入力が可能なテキスト入力画面に表示切替する（ステップＳ１０４）。
発信者端末１００のユーザは、ユーザ画面１５５へのテキスト入力結果をテキスト入力部１７０に出力する（ステップＳ１０５）。
テキスト入力部１７０は、テキスト入力結果を音声テキスト切替部１６０に出力する（ステップＳ１０６）。

音声テキスト切替部１６０は、相手先アドレス情報格納部１４０に保持されている相手先アドレス情報を参照する（ステップＳ１０７）。
そして、音声テキスト切替部１６０は、メディア処理装置２００のテキスト受信部２１０に対して相手先アドレス情報を付与してテキスト入力結果を送信する（ステップＳ１０８）。
メディア処理装置２００のテキスト受信部２１０は、発信者端末１００からのテキスト入力結果を受信し、音声合成部２２０に対して、テキストから音声への変換指示を行う（ステップＳ１０９）。

音声合成部２２０は、変換指示に従って受信したテキストデータを音声データに変換する（ステップＳ１１０）。
そして、音声合成部２２０は、メディア処理装置２００の音声送信部２３０に対して送出指示を行う（ステップＳ１１１）。
音声送信部２３０は、送出指示に従って着信者端末３００に対して音声合成された音声データを送出する（ステップＳ１１２）。
着信者端末３００は、受信部３１０が送出された音声データを受信し、音声通話部３３０が、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。

[適用例１]
図５は、音声合成手段３（音声合成部２２０等）がネットワーク（ＮＷ）側にある場合の音声合成通話システム１０００Ａの全体構成と処理概要を説明するための図である。図２と同一構成部分には同一符号を付している。
図５に示すように、音声合成手段３（音声合成部２２０等）がＮＷ側にある場合の音声合成通話システム１０００Ａは、発信者端末である通信端末１００Ａ（第１の通信端末）と、ＮＷ上の音声配信サーバ２００Ａと、着信者端末である通信端末３００Ａ（第２の通信端末）とを含んで構成される。

通信端末１００Ａは、音声通話やテキスト入力可能な携帯電話やスマートフォン等である。通信端末１００Ａは、受話部１０１（音声通話部１３０）、発話部１０２（音声通話部１３０）、相手先アドレス情報格納部１４０、切替ボタン１５０、音声テキスト切替部１６０、およびテキスト入力部１７０を備えて構成される。
音声配信サーバ２００Ａは、図２のメディア処理装置２００であり、音声合成手段３を含む。この音声合成手段３は、テキスト受信部２１０、音声合成部２２０、および音声送信部２３０を備えて構成される。
通信端末３００Ａは、音声通話可能な携帯電話、スマートフォン、固定電話等である。通信端末３００Ａは、受話部３０１（音声通話部）、および発話部３０２（音声通話部）を備えて構成される。

以下、図５を参照して、音声合成通話システム１０００Ａの処理概要を説明する。
図５に示すように、通信端末１００Ａと通信端末３００Ａとの間は、通話確立しており、呼接続状態にある。この呼接続状態では、通信端末３００Ａの発話部３０２から通信端末１００Ａの受話部１０１に音声データが送信され（図５の符号ａ参照）、また通信端末１００Ａの発話部１０２から通信端末３００Ａの受話部３０１に音声データが送信される（図５の符号ｂ参照）。
また、図５の符号ｃに示すように、通信端末１００Ａは、通話確立時に、ユーザＩＤやその通信端末に固有なユーザ端末識別情報（ＩＰアドレスや電話番号等）を含む相手先アドレス情報を、相手先アドレス情報格納部１４０に保持する。
通信端末１００Ａは、切替ボタン１５０の操作による切替指示を受け付ける（ステップＳ１：切替指示）。例えば、通信端末１００Ａのユーザが画面上でボタンをクリックする等してオンにする。

切替指示を受信した、発信者端末１００の音声テキスト切替部１６０は、テキスト入力部１７０に対してテキスト入力機能の起動指示を行う（ステップＳ２：起動指示）。
起動指示を受信した、通信端末１００Ａのテキスト入力部１７０は、音声テキスト切替部１６０に入力結果を返却する（ステップＳ３：入力結果返却）。具体的には、テキスト入力部１７０は、テキスト入力画面が表示され、端末付属の文字入力機能（キーパッド等）によりテキスト文を受け付ける。
また、通信端末１００Ａの音声テキスト切替部１６０は、相手先アドレス情報格納部１４０に保持されている相手先アドレス情報を参照する（ステップＳ４：相手先アドレス情報参照）。

そして、通信端末１００Ａの音声テキスト切替部１６０は、音声配信サーバ２００Ａに対して相手先アドレス情報を付与してテキスト入力結果を送信する（ステップＳ５：テキスト入力結果送信）。具体的には、音声テキスト切替部１６０は、送信等と描かれたボタンが押されることによりテキスト入力結果を送信する。

次に、音声配信サーバ２００Ａのテキスト受信部２１０は、通信端末１００Ａからのテキスト入力結果を受信し、音声合成部２２０に対して、テキストデータから音声データへの変換指示を行う（ステップＳ６：変換指示）。
変換指示を受信した、音声配信サーバ２００Ａの音声合成部２２０は、テキスト入力結果を音声データに変換し、また音声送信部２３０に対して送出指示を行う（ステップＳ７：送出指示）。
そして、音声配信サーバ２００Ａの音声送信部２３０は、送出指示に従って通信端末３００Ａに対して音声合成された音声データを送出する（ステップＳ８：音声データ送出）。

このように、音声配信サーバ２００Ａは、通信端末１００Ａからテキスト入力結果を受信した場合、音声合成部２２０によりテキスト入力結果を音声データに変換してから通信端末３００Ａに送信する。
通信端末３００Ａの受話部３０１は、音声配信サーバ２００Ａからの音声データを受信し、音声通話状態の音声通話（図５の符号ｂ参照）に合せて、受信した音声データを出力する。

このようにすることにより、本実施形態に係る音声合成通話システム１０００Ａは、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。

また、本適用例１では、通信端末１００Ａが、音声合成手段３（音声合成部２２０等）を備えていないので、既存の携帯端末等の軽微な変更で使用することができる。したがって、通信端末１００Ａについては低コストで運用することができる。

[適用例２]
図６は、音声合成手段３（音声合成部２２０等）が端末側にある場合の音声合成通話システム１０００Ｂの全体構成と処理概要を説明するための図である。図２および図５と同一構成部分には同一符号を付している。また、図６では、通信端末１００Ｂ側にのみ音声合成手段３を備える例として説明するが、通信端末３００Ｂ側に音声合成手段３を備えるようにしてもよい。このように構成すれば、双方が声を出さなくてもリアルタイムでやりとりを続けることができる。
図６に示すように、音声合成部２２０が端末側にある場合の音声合成通話システム１０００Ｂは、発信者端末である通信端末１００Ｂ（第１の通信端末）と、ＮＷ上の音声配信サーバ２００Ｂと、着信者端末である通信端末３００Ｂ（第２の通信端末）とを含んで構成される。なお、通信端末３００Ｂは、図５の通信端末３００Ａと同一構成である。

通信端末１００Ｂは、音声通話やテキスト入力可能な携帯電話やスマートフォン等である。通信端末１００Ｂは、受話部１０１（音声通信部１３０）、発話部１０２（音声通信部１３０）、相手先アドレス情報格納部１４０、切替ボタン１５０、音声テキスト切替部１６０、テキスト入力部１７０、テキスト受信部２１０、音声合成部２２０、および音声送信部２３０を備えて構成される。
音声配信サーバ２００Ｂは、図２のメディア処理装置２００である。

以下、図６を参照して、音声合成通話システム１０００Ｂの処理概要を説明する。
図６に示すように、通信端末１００Ｂと通信端末３００Ｂとの間は、通話確立しており、呼接続状態にある。この呼接続状態では、通信端末３００Ｂの発話部３０２から通信端末１００Ｂの受話部１０１に音声データが送信され（図６の符号ａ参照）、また通信端末１００Ｂの発話部１０２から通信端末３００Ｂの受話部３０１に音声データが送信される（図６の符号ｂ参照）。

また、図６の符号ｃに示すように、通信端末１００Ｂは、通話確立時に、ユーザＩＤやその通信端末に固有なユーザ端末識別情報（ＩＰアドレスや電話番号等）を含む相手先アドレス情報を、相手先アドレス情報格納部１４０に保持する。
通信端末１００Ｂは、切替ボタン１５０の操作による切替指示を受け付ける（ステップＳ１：切替指示）。例えば、通信端末１００Ｂのユーザが画面上でボタンをクリックする等してオンにする。
切替指示を受信した、通信端末１００Ｂの音声テキスト切替部１６０は、テキスト入力部１７０に対してテキスト入力機能の起動指示を行う（ステップＳ２：起動指示）。

起動指示を受信した、通信端末１００Ｂのテキスト入力部１７０は、音声テキスト切替部１６０に入力結果を返却する（ステップＳ３：入力結果返却）。具体的には、テキスト入力部１７０は、テキスト入力画面が表示され、端末付属の文字入力機能（キーパッド等）によりテキスト文を受け付ける。
また、通信端末１００Ｂの音声テキスト切替部１６０は、相手先アドレス情報格納部１４０に保持されている相手先アドレス情報を参照する（ステップＳ４：相手先アドレス情報参照）。

そして、通信端末１００Ｂの音声テキスト切替部１６０は、テキスト受信部２１０に対して相手先アドレス情報を付与してテキスト入力結果を出力する（ステップＳ５：テキスト入力結果出力）。具体的には、音声テキスト切替部１６０は、送信等と描かれたボタンが押されることにより、テキスト入力結果を送信する。

次に、テキスト受信部２１０は、音声テキスト切替部１６０からのテキスト入力結果を受信し、音声合成部２２０に対して、テキストデータから音声データへの変換指示を行う（ステップＳ６：変換指示）。
変換指示を受信した、音声合成部２２０は、テキスト入力結果を音声データに変換し、また音声送信部２３０に対して送出指示を行う（ステップＳ７：送出指示）。
そして、音声送信部２３０は、送出指示に従って通信端末３００Ｂに向けて音声合成された音声データを送出する（ステップＳ８：音声データ送出）。

このように、通信端末１００Ｂは、音声合成部２２０によりテキスト入力結果を音声データに変換してから通信端末３００Ｂに送信する。
通信端末３００Ｂの受話部３０１は、音声配信サーバ２００Ｂからの音声データを受信し、音声通話状態の音声通話（図６の符号ｂ参照）に合せて、受信した音声データを出力する。

このようにすることにより、本実施形態に係る音声合成通話システム１０００Ｂは、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。

また、本適用例２では、通信端末１００Ｂが、音声合成手段３（音声合成部２２０等）を備えるので、新たな機能を有する音声配信サーバ２００Ｂを導入することなく、既存のサーバをそのまま使用することができる。したがって、音声配信サーバ２００Ｂについては低コストでシステムを構築することができる。

以上説明したように、本実施形態に係る音声合成通話システム１０００は、発信者端末１００（図２参照）が、テキストの入力を受け付けるテキスト入力部１７０と、音声通話状態を維持しつつ、テキスト入力部１７０によるテキスト入力に切り替える音声テキスト切替部１６０と、を備える。メディア処理装置（音声配信サーバ）２００は、テキストを音声データに変換する音声合成部２２０と、変換した音声データを着信者端末３００に送信する音声送信部２３０と、を備える。着信者端末３００は、音声データを受信した場合、音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力する。これにより、音声通話中に、その音声通話を継続できない状況が生じた場合に、発信者端末１００のユーザは、切替ボタン１５０を操作してテキスト入力画面に切替え、テキスト文を入力すると、音声合成部２２０は、テキスト文を音声データに変換し、音声送信部２３０が着信者端末３００にリアルタイムで送信する。

したがって、音声通話の途中で通話状態を維持しながら、テキスト対音声の通話に切り替えることで、通話相手が車内などの声を出せない環境に移行しても会話を継続することができる。すなわち、元々通話していた相手と通話状態を保持しながら、やりとりが継続できる。通話相手から見ても、切り替え前と変わらず音声通話でやりとりが継続できる。

３音声合成手段
１００発信者端末（第１の通信端末）
１００Ａ，１００Ｂ通信端末（第１の通信端末）
１０１，３０１受話部（音声通話部）
１０２，３０２発話部（音声通話部）
１１０，３１０受信部
１２０，３２０送信部
１３０，３３０音声通話部
１４０相手先アドレス情報格納部
１５０切替ボタン
１６０音声テキスト切替部
１７０テキスト入力部
２００メディア処理装置（音声配信サーバ）
２００Ａ，２００Ｂ音声配信サーバ
２１０テキスト受信部
２２０音声合成部
２３０音声送信部
３００着信者端末（第２の通信端末）
３００Ａ，３００Ｂ通信端末（第２の通信端末）
１０００，１０００Ａ，１０００Ｂ音声合成通話システム

Claims

ネットワークに接続可能な第１および第２の通信端末を有し、前記第１および第２の通信端末は、音声配信サーバを介して音声通話を行う音声通話部を備える音声合成通話システムであって、
発信側の通信端末である前記第１の通信端末は、
テキストの入力を受け付けるテキスト入力部と、
音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、を備え、
前記第１の通信端末または前記音声配信サーバは、
前記テキストを音声データに変換する音声合成部と、
前記変換した音声データを、受信側の通信端末である前記第２の通信端末に送信する音声送信部と、を備え、
前記第２の通信端末の前記音声通話部は、
前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力すること
を特徴とする音声合成通話システム。
音声配信サーバを介して音声通話を行う音声通話部と、
テキストの入力を受け付けるテキスト入力部と、
前記音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、
前記テキストを音声データに変換する音声合成部と、
前記変換した音声データを、前記音声配信サーバに送信する音声送信部と、を備えること
を特徴とする通信端末。
ネットワークに接続可能な第１および第２の通信端末を有し、前記第１および第２の通信端末は、音声配信サーバを介して音声通話を行う音声合成通話システムの音声合成通話方法であって、
発信側の通信端末である前記第１の通信端末は、
音声配信サーバを介して音声通話を行うステップと、
音声通話状態を維持しつつ、テキスト入力に切り替えるステップと、
テキストの入力を受け付けるステップと、を実行し、
前記第１の通信端末または前記音声配信サーバは、
前記テキストを音声データに変換するステップと、
前記変換した音声データを受信側の通信端末である第２の通信端末に送信するステップと、を実行し、
前記第２の通信端末は、
前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力するステップを実行すること
を特徴とする音声合成通話方法。