JP2000285063A

JP2000285063A - 情報処理装置および情報処理方法、並びに媒体

Info

Publication number: JP2000285063A
Application number: JP11092862A
Authority: JP
Inventors: Kiyonobu Kojima; 清信小島; Tsunenori Noma; 恒毅野間
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-03-31
Filing date: 1999-03-31
Publication date: 2000-10-13

Abstract

(57)【要約】【課題】キーボードの操作に熟練していなくても、容
易に、チャットを楽しむことができるようにする。【解決手段】チャットクライアントであるパソコン１
では、入力された音声が音声認識され、その音声認識結
果としてのテキストデータが、チャットサーバであるサ
ーバ２に送信される。また、パソコン１では、サーバ２
から送信されてくるテキストデータが受信され、そのテ
キストデータに基づいて、音声合成が行われる。そし
て、そのテキストデータに対応する音声（合成音）が出
力される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び情報処理方法、並びに媒体に関し、特に、例えば、キ
ーボード等の操作に熟練していなくても、チャットを楽
しむことができるようにする情報処理装置および情報処
理方法、並びに媒体に関する。

【０００２】

【従来の技術】例えば、遠隔地にいる多数のユーザどう
しが、容易にコミュニケーションを図るためのツールと
しては、例えば、チャットシステムがある。チャットシ
ステムにおいては、サーバにログインしているあるクラ
イアントから送信されてくるテキストデータが、サーバ
で受信され、他のログインしているクライアントに送信
されるようになっており、これにより、遠隔地にいる多
数のユーザどうしが、容易にコミュニケーションを図る
ことができるようになっている。

【０００３】ここで、従来においては、ある１のサーバ
においては、そのサーバに接続しているユーザどうしの
間でしかチャットを行うことができなかったが、最近急
速に普及してきたインターネットでは、ＩＲＣ（Intern
et Relay Chat）方式と呼ばれるチャット方式によっ
て、ＩＲＣサーバと呼ばれるサーバのいずれかに接続す
れば、そのサーバとリンクしているサーバと接続してい
るクライアントとも、チャットを行うことができる。な
お、ＩＲＣについては、ＩＥＴＦ（Internet Engineeri
ng Task Force）のＲＦＣ（Request For Comments）１
４５９に規定されている。

【０００４】

【発明が解決しようとする課題】ところで、チャットシ
ステムでは、サーバとクライアントとの間で、テキスト
データがリアルタイムで送受信されるが、従来において
は、チャットを行うためには、ユーザは、キーボードを
操作して、テキストデータを入力しなければならない。
従って、キーボードの操作に熟練していないユーザは、
チャットを楽しむことが困難であった。また、キーボー
ドから入力した平仮名は、仮名漢字変換システム（フロ
ントエンドプロセッサ）によって漢字混じりの文章にし
なければ読みにくく、従って、仮名漢字変換システムの
操作にも熟練する必要があった。

【０００５】そこで、キーボードを操作することなく、
遠隔地にいる多数のユーザどうしがコミュニケーション
を図ることのできるツールとして、例えば、特開平６−
２７４５９６号公報に開示されているような、多数の端
末間で音声データのやりとりを行うシステムがある。

【０００６】しかしながら、特開平６−２７４５９６号
公報に開示されているシステムでは、音声データをその
まま送信するため、データ量が多く、広帯域の伝送路が
必要となる。また、特開平６−２７４５９６号公報に
は、音声データを圧縮して送信することが開示されてい
るが、高圧縮の場合には、音質が低下し、低圧縮の場合
には、広帯域の伝送路が必要となる。

【０００７】本発明は、このような状況に鑑みてなされ
たものであり、狭帯域の伝送路であっても、ユーザどう
しが、容易にコミュニケーションを図ることができるよ
うにするものである。

【０００８】

【課題を解決するための手段】請求項１に記載の情報処
理装置は、入力された音声を音声認識し、その音声認識
結果を、テキストデータで出力する音声認識手段と、音
声認識結果としてのテキストデータを、サーバに送信す
る送信手段とを含むことを特徴とする。

【０００９】請求項５に記載の情報処理方法は、入力さ
れた音声を音声認識し、その音声認識結果を、テキスト
データで出力する音声認識ステップと、音声認識結果と
してのテキストデータを、サーバに送信する送信ステッ
プとを含むことを特徴とする。

【００１０】請求項６に記載の媒体が情報処理装置に実
行させるプログラムは、入力された音声を音声認識し、
その音声認識結果を、テキストデータで出力する音声認
識ステップと、音声認識結果としてのテキストデータ
を、サーバに送信する送信ステップとを含むことを特徴
とする。

【００１１】請求項７に記載の情報処理装置は、サーバ
から送信されてくるテキストデータを受信する受信手段
と、サーバからのテキストデータに基づいて、音声合成
を行い、そのテキストデータに対応する合成音を出力す
る音声合成手段とを含むことを特徴とする。

【００１２】請求項９に記載の情報処理方法は、サーバ
から送信されてくるテキストデータを受信する受信ステ
ップと、サーバからのテキストデータに基づいて、音声
合成を行い、そのテキストデータに対応する合成音を出
力する音声合成ステップとを含むことを特徴とする。

【００１３】請求項１０に記載の媒体が情報処理装置に
実行させるプログラムは、サーバから送信されてくるテ
キストデータを受信する受信ステップと、サーバからの
テキストデータに基づいて、音声合成を行い、そのテキ
ストデータに対応する合成音を出力する音声合成ステッ
プとを含むことを特徴とする。

【００１４】請求項１に記載の情報処理装置および請求
項５に記載の情報処理方法、並びに請求項６に記載の媒
体においては、入力された音声が音声認識され、その音
声認識結果が、テキストデータで出力される。そして、
その音声認識結果としてのテキストデータが、サーバに
送信される。

【００１５】請求項７に記載の情報処理装置および請求
項９に記載の情報処理方法、並びに請求項１０に記載の
媒体においては、サーバから送信されてくるテキストデ
ータが受信され、そのサーバからのテキストデータに基
づいて、音声合成が行われ、そのテキストデータに対応
する合成音が出力される。

【００１６】

【発明の実施の形態】図１は、本発明を適用したチャッ
トシステムの一実施の形態の構成例を示している。

【００１７】図１の実施の形態においては、３台のパー
ソナルコンピュータ（パソコン）１−１乃至１−３、並
びに２台のチャットサーバ２−１および２−２が、例え
ば、インターネット等の通信ネットワーク３を介して相
互に接続されている。

【００１８】そして、サーバ２−１および２−２は、ユ
ーザがチャットを行う場としてのチャット空間を提供す
るためのチャットサーバプログラムが格納されたＨＤ
（HardDisk）２７（図３）を有し、そのプログラムを実
行することで、パソコンどうしでチャットを行うための
制御を行うチャットサーバとして機能するようになって
いる。即ち、サーバ２−１および２−２（サーバ２−１
および２−２を区別する必要がない場合は、以下、適
宜、サーバ２と記述する）は、通信ネットワーク３を介
して接続されているパソコン１−１乃至１−３に、その
ユーザがチャットを行うためのチャット環境を提供する
ようになっている。なお、ここでは、サーバ２−１およ
び２−２は、例えば、ＩＲＣ方式によるチャット環境を
提供するようになっており、従って、サーバ２−１に接
続したユーザどうし、サーバ２−２に接続したユーザど
うしの他、サーバ２−１の接続したユーザと、サーバ２
−２に接続したユーザとの間でも、チャットを行うこと
ができるようになっている。

【００１９】一方、パソコン１−１乃至１−３（パソコ
ン１−１乃至１−３を区別する必要がない場合は、以
下、適宜、パソコン１と記述する）は、サーバ２−１や
２−２が提供するチャット空間を、他のパソコンとの間
で共有しながらチャットを行うためのチャットクライア
ントプログラムを記憶しており、このチャットクライア
ントプログラムと、サーバ２−１や２−２におけるチャ
ットサーバプログラムの実行によって、パソコン１で
は、チャットを行うためのチャット空間が表示される。

【００２０】そして、パソコン１−１乃至１−３が、す
べてサーバ２に接続している場合において、そのうち
の、例えば、パソコン１−１からテキストデータが入力
され、通信ネットワーク３を介して、サーバ２に送信さ
れると、サーバ２では、そのテキストデータが受信さ
れ、他のパソコン１−２および１−３に送信される。ま
た、パソコン１−２や１−３において入力されたテキス
トデータも、同様にして、他のパソコンに送信される。

【００２１】以上のようにして、パソコン１−１乃至１
−３それぞれの間では、サーバ２を介して、チャットが
行われる。

【００２２】次に、図２は、図１のパソコン１のハード
ウェア構成例を示している。

【００２３】通信Ｉ／Ｆ（Interface）１１は、例え
ば、モデムや、ターミナルアダプタ、ネットワークカー
ド等でなり、通信ネットワーク３を介しての通信制御を
行うようになっている。ＲＯＭ（Read Only Memory）１
２は、例えば、ＢＩＯＳ（Basic Input Output Syste
m）のプログラムなどを記憶している。ＣＰＵ（Central
Processing Unit）１３は、ＨＤ１７に記憶されている
チャットクライアントプログラムや、音声処理プログラ
ム等のアプリケーションプログラムを、ＲＡＭ（Random
Access Memory）１４上に展開して実行することで、チ
ャットや音声認識、音声合成等のための処理を行うよう
になっている。ＲＡＭ１４は、ＣＰＵ１３の動作上必要
なプログラムやデータを一時記憶するようになってい
る。

【００２４】入力部１５は、例えば、キーボードや、マ
ウス、マイク（マイクロフォン）等で構成され、必要な
コマンドやデータを入力するときに用いられる。出力部
１６は、例えば、ディスプレイやスピーカ、ヘッドフォ
ン等で構成され、ＣＰＵ１３の制御の下、所定の情報を
表示したり、音声で出力するようになっている。ＨＤ１
７は、上述したようなアプリケーションプログラムの
他、例えば、Windows95や98（商標）、Linux等のＯＳ
（Operating System）のプログラム等を記憶している。

【００２５】以上のように構成されるパソコン１では、
ＣＰＵ１３において、ＨＤ１７に記憶されたＯＳのプロ
グラムが、ＲＡＭ１４に展開されて実行される。さら
に、ＣＰＵ１３において、ＯＳのプログラムの制御の
下、ＨＤ１７に記憶されたアプリケーションプログラム
が実行されることで、上述したようなチャットのための
処理や、後述する音声認識、音声合成その他の処理が行
われる。

【００２６】次に、図３は、図１のサーバ２のハードウ
ェア構成例を示している。

【００２７】図３に示すように、サーバ２は、パソコン
１を構成する通信Ｉ／Ｆ１１乃至ＨＤ１７とそれぞれ同
様の通信Ｉ／Ｆ２１乃至ＨＤ２７から構成されている。
但し、ＨＤ１７には、チャットサーバプログラム等の、
サーバ２がチャットサーバとして機能するためのプログ
ラムが記憶されている。

【００２８】以上のように構成されるサーバ２でも、Ｃ
ＰＵ２３において、ＨＤ２７に記憶されたアプリケーシ
ョンプログラムが実行されることで、パソコンどうしで
チャットを行うのに必要な処理が行われる。

【００２９】次に、図４を参照して、パソコン１におい
てチャットクライアントプログラムが実行され、サーバ
２においてチャットサーバプログラムが実行されること
により行われる処理について説明する。

【００３０】なお、図４において、パソコン１を構成す
るブロックは、パソコン１でチャットクライアントプロ
グラムが実行されることにより実現される機能的なブロ
ックであり、サーバ２を構成するブロックも、サーバ２
でチャットサーバプログラムが実行されることにより実
現される機能的なブロックである。

【００３１】また、図４では、パソコン１は、チャット
通信部３１およびチャット処理部３２で構成されている
が、パソコン１−ｉ（本実施の形態では、ｉ＝１，２，
３）を構成するチャット通信部３１とチャット処理部３
２を、それぞれチャット通信部３１−ｉとチャット処理
部３２−ｉと記述するものとする。

【００３２】いま、パソコン１−１と１−２が、通信ネ
ットワーク３を介して、サーバ２に接続しており、この
パソコン１−１と１−２との間でチャットが行われると
すると、例えば、パソコン１−１のユーザが、入力部１
５を構成するキーボードを操作することにより、テキス
トを入力すると、そのテキストデータは、チャット処理
部３２−１に供給される。チャット処理部３２−１で
は、入力されたテキストデータに対して、所定の処理が
施され、即ち、例えば、ＩＲＣ方式でチャットが行われ
る場合には、テキストデータが、７ビット可視ＡＳＣＩ
Ｉ文字列のデータに変換され、チャット通信部３１−１
に供給される。チャット通信部３１−１では、チャット
処理部３２−１からのテキストデータが、通信ネットワ
ーク３を介して、サーバ２に送信される。

【００３３】サーバ２では、チャットサーバ機能部４１
において、チャット通信部３１−１からのテキストデー
タが受信され、通信ネットワーク３を介して、パソコン
１−１以外の、いま接続している他のパソコン（チャッ
トクライアント）に送信される。即ち、図４の実施の形
態では、サーバ２に接続している、パソコン１−１以外
のパソコンは、パソコン１−２であり、従って、チャッ
トサーバ機能部４１では、チャット通信部３１−１から
のテキストデータは、通信ネットワーク３を介して、パ
ソコン１−２に送信される。

【００３４】パソコン１−２では、チャット通信部３１
−２において、チャットサーバ機能部４１からのテキス
トデータが受信され、チャット処理部３２−２に供給さ
れる。チャット処理部３２−２では、チャット通信部３
１−２からのテキストデータに必要な処理が施され、そ
の出力部１６に供給されて表示される。

【００３５】一方、パソコン１−２のユーザが、入力部
１５を構成するキーボードを操作することにより、テキ
ストを入力すると、そのテキストデータは、上述の場合
とは逆のルートで、パソコン１−１に送信される。

【００３６】即ち、パソコン１−２では、入力されたテ
キストデータが、チャット処理部３２−２およびチャッ
ト通信部３１−１、並びに通信ネットワーク３を介し
て、サーバ２に送信される。サーバ２では、チャットサ
ーバ機能部４１において、パソコン１−２からのテキス
トデータが受信され、通信ネットワーク３を介して、パ
ソコン１−２以外の、いま接続している他のパソコン
（チャットクライアント）、即ち、図４の実施の形態で
は、パソコン１−１に送信される。パソコン１−１で
は、チャット通信部３１−１において、チャットサーバ
機能部４１からのテキストデータが受信され、チャット
処理部３２−１に供給される。チャット処理部３２−１
では、チャット通信部３１−１からのテキストデータに
必要な処理が施され、その出力部１６に供給されて表示
される。

【００３７】以上のように、パソコン１において、チャ
ットクライアントプログラムが実行されるだけでは、ユ
ーザは、チャットの内容であるテキストを、キーボード
を操作して入力する必要があり、面倒である。

【００３８】そこで、図５は、パソコン１のＨＤ１７に
記憶されているチャットクライアントプログラムの他、
音声処理プログラムも実行されることにより実現される
パソコン１の機能的構成例を示している。

【００３９】図５において、音声入力装置５１は、図２
の入力部１５に相当し、マイク等で構成される。そし
て、音声入力装置５１は、そこに入力される音声を、電
気信号としての音声信号とし、さらに、Ａ／Ｄ変換し
て、ディジタルの音声データとして音声認識装置５２に
供給するようになっている。音声認識装置５２は、音声
入力装置５１からの音声データを、例えばＨＭＭ（Hidd
en Markou Models）法等の所定の音声認識アルゴリズム
にしたがって音声認識し、その音声認識結果を、テキス
トデータで出力するようになっている。この音声認識結
果としてのテキストデータは、図４に示したパソコン１
を構成するチャット通信部３１およびチャット処理部３
２に相当するチャットクライアント機能部３０に供給さ
れるようになっている。

【００４０】なお、音声認識装置５２では、音声認識結
果としてのテキストデータに対して、必要に応じて、仮
名漢字変換処理が施されて出力されるようになってい
る。

【００４１】音声読み上げ装置５３には、チャットクラ
イアント機能部３０から、サーバ２から送信されてくる
他のパソコンからのテキストデータが供給されるように
なっている。そして、音声読み上げ装置５３は、チャッ
トクライアント機能部３０からのテキストデータに基づ
いて音声合成を行い、そのテキストデータに対応する、
例えば、ＷＡＶ形式やＡＵ形式の合成音のデータを生成
して、音声出力装置５４に供給するようになっている。
音声出力装置５４は、図２の出力部１６に相当し、スピ
ーカ等で構成される。そして、音声出力装置５４は、音
声読み上げ装置５３からの合成音のデータにしたがい、
サーバ２からのテキストデータを読み上げる合成音を出
力するようになっている。

【００４２】次に、図６を参照して、図５のように構成
されるパソコン１の動作について説明する。

【００４３】パソコン１において、ユーザが、例えば、
「こんにちは」等の発話を行うと（図６）、その音声
は、音声入力装置（マイク）５１に入力され、電気信号
としての音声データとされる。この音声データは、音声
認識装置５２に供給され、そこで音声認識される。さら
に、音声認識装置５２では、その音声認識結果が、テキ
ストデータに変換され、必要に応じて、仮名漢字変換さ
れた後、チャットクライアント機能部３０に供給され
る。チャットクライアント機能部３０では、図４で説明
したように、音声認識装置５２からのテキストデータ
が、通信ネットワーク３を介して、サーバ２に送信され
る。即ち、以上のようにして、ユーザの発話「こんにち
は」は、テキストデータとされ、サーバ２に送信され
る。

【００４４】一方、サーバ２から通信ネットワーク３を
介して送信されてくるテキストデータは、チャットクラ
イアント機能部３０において、図４で説明したようにし
て受信され、音声読み上げ装置５３に供給される。音声
読み上げ装置５３では、チャットクライアント機能部３
０からのテキストデータに対応する合成音が生成され、
音声出力装置５４に供給される。音声出力装置５４で
は、音声読み上げ装置５３からの合成音が出力される。
即ち、例えば、サーバ２から「今日はいい天気ですね」
等のテキストデータが送信されてきた場合には、音声出
力装置５４では、その合成音「今日はいい天気ですね」
が出力される（図６）。

【００４５】次に、図７および図８を参照して、パソコ
ン１においてチャットクライアントプログラムおよび音
声処理プログラムが実行されることにより表示される画
面について説明する。

【００４６】パソコン１において、チャットクライアン
トプログラムが実行されると、出力部１６では、図７お
よび図８に示すようなチャット用のウインドウ６１が表
示される。

【００４７】なお、ここでは、例えば、パソコン１−１
と１−２との間でチャットが行われるものとし、パソコ
ン１−１のユーザを、ユーザＡとするとともに、パソコ
ン１−２のユーザを、ユーザＢとする。また、パソコン
１−１または１−２それぞれの出力部１６に表示される
ウインドウ６１を、ウインドウ６１−１または６１−２
と記述する。

【００４８】ウインドウ６１は、図７および図８に示す
ように、ユーザどうしの間で行われたチャットの内容が
表示されるチャット文字表示エリア６２と、ユーザが入
力した最新のテキストが表示されるテキスト入力フィー
ルド６３から構成される。なお、ウインドウ６１−１を
構成するチャット文字表示エリア６２またはテキスト入
力フィールド６３を、以下、適宜、チャット文字表示エ
リア６２−１またはテキスト入力フィールド６３−１と
それぞれ記述するとともに（図７）、ウインドウ６１−
２を構成するチャット文字表示エリア６２またはテキス
ト入力フィールド６３を、以下、適宜、チャット文字表
示エリア６２−２またはテキスト入力フィールド６３−
２とそれぞれ記述する（図８）。

【００４９】いま、ユーザＡが、例えば、「今日はいい
天気ですね」を発話すると、パソコン１−１において、
その音声は音声認識され、仮名漢字変換される。この仮
名漢字変換結果は、図７に示すように、テキスト入力フ
ィールド６３−１に表示され、その後、通信ネットワー
ク３を介して、サーバ２に送信される。

【００５０】サーバ２では、パソコン１−１からのテキ
ストデータ「今日はいい天気ですね」が受信され、通信
ネットワーク３を介して、パソコン１−２に送信され
る。パソコン１−２では、パソコン１−１からのテキス
トデータ「今日はいい天気ですね」が、図８に示すよう
に、その出力部１６に表示されたウインドウ６１−２の
チャット文字表示エリア６２−２に表示される。さら
に、パソコン１−２では、例えば、テキスト音声合成が
行われることにより、テキストデータ「今日はいい天気
ですね」に対応する合成音が生成されて出力される。

【００５１】以上のように、入力された音声が音声認識
され、その音声認識結果としてのテキストデータが、通
信ネットワーク３を介して、サーバ２に送信されるの
で、ユーザは、キーボードの操作に熟練していなくて
も、容易に、チャットを楽しむことができる。

【００５２】また、通信ネットワーク３を介して、パソ
コン１とサーバ２との間でやりとりされるのはテキスト
データであるため、従来のチャットシステムをそのまま
利用することができる。従って、パソコン１との間でチ
ャットを行うチャットクライアントが、上述したような
音声認識や音声合成を行うための音声処理プログラムを
有していなくても、パソコン１との間でチャットを行う
ことができる。そして、この場合でも、パソコン１にお
いては、音声でテキストデータを入力し、かつ送信され
てきたテキストデータを、合成音で出力することができ
る。

【００５３】さらに、音声データではなく、テキストデ
ータがやりとりされるため、その伝送は、狭帯域で行う
ことができる。

【００５４】また、サーバ２から送信されてくるテキス
トデータに対応する合成音を生成して出力するようにし
たので、ユーザは、出力部１６の表示を見なくてもチャ
ットを行うことができる。即ち、ディスプレイがなくて
も、チャットを行うことができる。

【００５５】従って、チャットクライアントとしては、
極端には、テキストを入力するためのキーや、テキスト
を表示するためのディスプレイが必要がなく、音声を入
力するためのマイクと、音声を出力するためのスピーカ
があれば良いから、携帯電話機等の携帯端末を、チャッ
トクライアントとして用いることも、容易に可能とな
る。

【００５６】なお、テキスト音声合成を行う場合には、
その合成の基本単位となる音素データや音節データが必
要となるが、これは、ＨＤ１７にあらかじめ記憶されて
いるものとする。但し、音素データや音声データは、通
信ネットワーク３を介してダウンロードするようにして
も良い。

【００５７】また、音声合成は、テキスト音声合成によ
る他、例えば、録音編集方式（あらかじめ発話された単
語や文節を蓄積しておいて接続する方式）によって行う
ことも可能である。

【００５８】次に、図９のフローチャートを参照して、
チャットクライアントとしての図２に示したパソコン１
の動作について、さらに説明する。

【００５９】ユーザが、入力部１５を、チャットクライ
アントプログラムを実行するように操作すると、ＣＰＵ
１３において、ＨＤ１７に記憶されたチャットクライア
ントプログラムが、ＲＡＭ１４にロードされて実行され
る。

【００６０】これにより、ＣＰＵ１３では、図７および
図８に示したようなチャット用のウインドウ６１が表示
され、さらに、ステップＳ１において、サーバ２との接
続を確立し、ログインするための処理が行われる。そし
て、サーバ２へのログインが完了すると、ステップＳ２
に進み、ユーザが発話を行ったかどうかが判定される。
ステップＳ２において、ユーザが発話を行っていないと
判定された場合、即ち、入力部１５に音声が入力されて
いない場合、ステップＳ３乃至Ｓ６をスキップして、ス
テップＳ７に進む。

【００６１】また、ステップＳ２において、ユーザが発
話を行ったと判定された場合、即ち、入力部１５に音声
が入力された場合、ステップＳ３に進み、その音声が音
声認識される。

【００６２】即ち、ステップＳ３では、ＣＰＵ１３にお
いて、ＨＤ１７に記憶された音声処理プログラムが、Ｒ
ＡＭ１４にロードされて実行されることにより、ユーザ
の発話が音声認識される。さらに、ステップＳ３では、
その音声認識結果がテキストデータに変換され、仮名漢
字変換される。そして、その仮名漢字変換結果が、ウイ
ンドウ６１のテキスト入力フィールド６３に表示され、
音声処理プログラムが、ＲＡＭ１４からアンロードされ
る。

【００６３】ユーザは、テキスト入力フィールド６３に
表示された音声認識結果（を仮名漢字変換したもの）を
見て、誤りがあれば、その誤りを、例えば、入力部１５
のキーボード等を操作することにより訂正する。この場
合、ステップＳ４において、入力部１５の操作にしたが
って、テキスト入力フィールド６３に表示された音声認
識結果が訂正される。

【００６４】なお、テキスト入力フィールド６３に表示
された音声認識結果の訂正は、入力部１５のキーボード
を操作するのではなく、音声入力によって行うようにす
ることも可能である。

【００６５】その後、ステップＳ５に進み、テキスト入
力フィールド６３に表示された音声認識結果としてのテ
キストデータを、サーバ２に送信するかどうかが判定さ
れる。ステップＳ５において、テキスト入力フィールド
６３に表示されたテキストデータを送信しないと判定さ
れた場合、即ち、例えば、テキストデータを送信するよ
うに、入力部１５が操作されなかった場合、ステップＳ
６をスキップして、ステップＳ７に進む。

【００６６】また、ステップＳ５において、テキスト入
力フィールド６３に表示されたテキストデータを送信す
ると判定された場合、即ち、例えば、テキストデータを
送信するように、入力部１５が操作された場合、ステッ
プＳ６に進み、ＣＰＵ１３は、通信Ｉ／Ｆ１１を制御す
ることにより、テキスト入力フィールド６３に表示され
たテキストデータを、通信ネットワーク３を介して、サ
ーバ２に送信させ、ステップＳ７に進む。

【００６７】この場合、サーバ２では、パソコン１から
のテキストデータが受信され、他のチャットクライアン
トに送信される。これにより、そのチャットクライアン
トでは、パソコン１からのテキストデータが表示され、
あるいは、パソコン１と同様に、音声処理プログラムが
インストールされているチャットクライアントでは、パ
ソコン１からのテキストデータに対応する合成音が出力
される。

【００６８】ステップＳ７では、サーバ２からテキスト
データが送信されてきたかどうかが判定され、送信され
てきていないと判定された場合、即ち、通信Ｉ／Ｆ１１
で、サーバ２からのテキストデータが受信されていない
場合、ステップＳ８およびＳ９をスキップして、ステッ
プＳ１０に進む。

【００６９】また、ステップＳ７において、サーバ２か
らテキストデータが送信されてきたと判定された場合、
即ち、通信Ｉ／Ｆ１１で、サーバ２からのテキストデー
タが受信された場合、ステップＳ８に進み、そのテキス
トデータに必要な処理が施され、ウインドウ６１のチャ
ット文字表示エリア６２に表示される。そして、ステッ
プＳ９に進み、ＣＰＵ１３において、ＨＤ１７に記憶さ
れた音声処理プログラムが、ＲＡＭ１４にロードされて
実行されることにより、チャット文字表示エリア６２に
表示されたテキストデータに対応する合成音が生成され
て出力される。

【００７０】そして、音声処理プログラムが、ＲＡＭ１
４からアンロードされ、ステップＳ１０に進み、ログア
ウトするかどうかが判定される。ステップＳ１０におい
て、ログアウトしないと判定された場合、即ち、例え
ば、入力部１５が、ログアウトするように操作されてい
ない場合、ステップＳ２に戻り、以下、同様の処理が繰
り返される。

【００７１】また、ステップＳ１０において、ログアウ
トすると判定された場合、即ち、例えば、入力部１５が
ログアウトするように操作された場合、サーバ２からロ
グアウトし、さらに、サーバ２との接続を切断して、処
理を終了する。

【００７２】なお、上述の場合においては、必要に応じ
て、音声処理プログラムを、ロード／アンロードするよ
うにしたが、音声処理プログラムは、チャットクライア
ントプログラムが実行されている間、ＲＡＭ１４に常駐
させておくようにすることも可能である。

【００７３】次に、上述の場合には、パソコン１におい
て、サーバ２から送信されてくるテキストデータに対応
した合成音を生成するようにしたが、サーバ２から送信
されてくるテキストデータは、合成音に変換する他、例
えば、ＦＡＸ（ファクシミリ）のデータに変換し、ＦＡ
Ｘに送信するようにすることが可能である。また、サー
バ２から送信されてくるテキストデータは保存しておく
ようにすることも可能である。

【００７４】そこで、図１０のフローチャートを参照し
て、そのようなパソコン１の処理について説明する。

【００７５】この場合、ステップＳ２１において、図９
のステップＳ１における場合と同様に、サーバ２との接
続を確立し、ログインするための処理が行われる。そし
て、ステップＳ２２に進み、サーバ２からテキストデー
タが送信されてきたかどうかが判定され、送信されてき
ていないと判定された場合、即ち、通信Ｉ／Ｆ１１で、
サーバ２からのテキストデータが受信されていない場
合、ステップＳ２３乃至２７をスキップして、ステップ
Ｓ２８に進む。

【００７６】また、ステップＳ２２において、サーバ２
からテキストデータが送信されてきたと判定された場
合、即ち、通信Ｉ／Ｆ１１で、サーバ２からのテキスト
データが受信された場合、ステップＳ２３に進み、その
テキストデータに必要な処理が施され、ステップＳ２４
に進む。

【００７７】ステップＳ２４では、サーバ２からのテキ
ストデータを、ＦＡＸに送信するかどうかが判定され
る。ステップＳ２４において、サーバ２からのテキスト
データを、ＦＡＸに送信すると判定された場合、即ち、
パソコン１において、テキストデータを、ＦＡＸに送信
することと、そのＦＡＸ番号が設定されている場合、ス
テップＳ２５に進み、サーバ２からのテキストデータ
が、ＦＡＸ用のデータに変換され、設定されているＦＡ
Ｘ番号に送信されて、ステップＳ２８に進む。

【００７８】また、ステップＳ２４において、サーバ２
からのテキストデータを、ＦＡＸに送信しないと判定さ
れた場合、ステップＳ２６に進み、そのテキストデータ
を保存しておくように、パソコン１が設定されているか
どうかが判定される。ステップＳ２６において、サーバ
２からのテキストデータを保存しておくように設定され
ていないと判定された場合、ステップＳ２７をスキップ
して、ステップＳ２８に進む。

【００７９】一方、ステップＳ２６において、サーバ２
からのテキストデータを保存しておくように設定されて
いると判定された場合、ステップＳ２７に進み、そのテ
キストデータが、ＨＤ１７に記憶され、ステップＳ２８
に進む。

【００８０】ステップＳ２８では、図９のステップＳ１
０における場合と同様に、ログアウトするかどうかが判
定され、ログアウトしないと判定された場合、ステップ
Ｓ２２に戻り、以下、同様の処理が繰り返される。

【００８１】また、ステップＳ２８において、ログアウ
トすると判定された場合、サーバ２からログアウトし、
さらに、サーバ２との接続を切断して、処理を終了す
る。

【００８２】ここで、パソコン１において、音声で入力
されたテキストデータを、ＦＡＸのデータに変換するよ
うにすれば、用紙に文字等を描くことなく、ＦＡＸ送信
を行うことが可能となる。また、パソコン１において、
ＦＡＸのデータを受信して、ＯＣＲ（Optical Characte
r Reader）等で、文字認識を行い、その文字認識結果を
対象に音声合成を行うようにすれば、ファックスされて
きた内容を見ることなく、その内容を把握することが可
能となる。さらに、例えば、留守番電話機能を有する電
話機、あるいは携帯電話機の留守番電話機能を司るセン
タにおいて、音声によるメッセージを音声認識し、テキ
ストデータに変換して記憶しておくようにすれば、音声
データを記憶する場合に比較して、記憶容量が少なくて
済み、コストの削減を図ることが可能となる。

【００８３】なお、本実施の形態では、チャットサーバ
およびチャットクライアントを、ソフトウェアで実現す
るようにしたが、チャットサーバやチャットクライアン
トは、それ専用のハードウェアで実現することも可能で
ある。

【００８４】また、上述したチャットクライアントプロ
グラムや音声処理プログラム等のアプリケーションプロ
グラムを、コンピュータにインストールして実行させる
場合には、そのアプリケーションプログラムは、ＨＤ１
７や、フロッピーディスク、ＣＤ−ＲＯＭ（Compact Di
sc - ROM），ＤＶＤ（Digtal Versatile Disc）等のパ
ッケージメディアや、プログラムが一時的若しくは永続
的に格納される半導体メモリ等に記録して提供したり、
ＬＡＮ（Local Area Network）や、インターネット、デ
ィジタル衛星回線等の有線／無線の通信ネットワーク
３、およびそのような通信ネットワーク３を介してのデ
ータの転送若しくは受信を行うルータやモデム等の通信
Ｉ／Ｆ１１を介して提供したりすることが可能であり、
本明細書における媒体とは、そのようなものを含む広義
の概念を意味する。

【００８５】

【発明の効果】請求項１に記載の情報処理装置および請
求項５に記載の情報処理方法、並びに請求項６に記載の
媒体によれば、入力された音声が音声認識され、その音
声認識結果が、テキストデータで出力される。そして、
その音声認識結果としてのテキストデータが、サーバに
送信される。従って、例えば、チャットを、容易に行う
ことが可能となる。

【００８６】請求項７に記載の情報処理装置および請求
項９に記載の情報処理方法、並びに請求項１０に記載の
媒体によれば、サーバから送信されてくるテキストデー
タが受信され、そのサーバからのテキストデータに基づ
いて、音声合成が行われ、そのテキストデータに対応す
る合成音が出力される。従って、例えば、チャットを、
画面表示を見なくても行うことが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したチャットシステムの一実施の
形態の構成例を示す図である。

【図２】図１のパソコン１のハードウェア構成例を示す
ブロック図である。

【図３】図１のサーバ２のハードウェア構成例を示すブ
ロック図である。

【図４】図１のチャットシステムの動作を説明するため
の図である。

【図５】図１のパソコン１の機能的構成例を示すブロッ
ク図である。

【図６】図５のパソコン１の動作を説明するための図で
ある。

【図７】チャットクライアントとしてのパソコン１の表
示画面を示す図である。

【図８】チャットクライアントとしてのパソコン１の表
示画面を示す図である。

【図９】図１のパソコン１の動作を説明するためのフロ
ーチャートである。

【図１０】図１のパソコン１の動作を説明するためのフ
ローチャートである。

【符号の説明】

１−１乃至１−３パソコン，２−１，２−２サー
バ，３通信ネットワーク，１１通信Ｉ／Ｆ，
１２ＲＯＭ，１３ＣＰＵ，１４ＲＡＭ，１
５入力部，１６出力部，１７ＨＤ，２１
通信Ｉ／Ｆ，２２ＲＯＭ，２３ＣＰＵ，２４
ＲＡＭ，２５入力部，２６出力部，２７Ｈ
Ｄ，３０チャットクライアント機能部，３１−
１，３１−２チャット通信部，３２−１，３２−２
チャット処理部，４１チャットサーバ機能部，
５１音声入力装置，５２音声認識装置，５３
音声読み上げ装置，５４音声出力装置，６１−
１，６１−２ウインドウ，６２−１，６２−２チャ
ット文字表示エリア，６３−１，６３−２テキス
ト入力フィールド

Claims

【特許請求の範囲】

【請求項１】クライアントから送信されてきたテキス
トデータを受信し、そのテキストデータを、１以上の他
のクライアントに送信するサーバに対して、テキストデ
ータを送信するとともに、前記サーバからのテキストデ
ータを受信する情報処理装置であって、入力された音声を音声認識し、その音声認識結果を、テ
キストデータで出力する音声認識手段と、前記音声認識結果としてのテキストデータを、前記サー
バに送信する送信手段と、前記サーバから送信されてくるテキストデータを受信す
る受信手段と、前記サーバからのテキストデータを出力する出力手段と
を含むことを特徴とする情報処理装置。
【請求項２】前記サーバからのテキストデータに基づ
いて、音声合成を行い、そのテキストデータに対応する
合成音を出力する音声合成手段をさらに含み、前記出力手段は、前記テキストデータに対応する合成音
を出力するむことを特徴とする請求項１に記載の情報処
理装置。
【請求項３】前記音声認識結果としてのテキストデー
タを訂正する訂正手段をさらに含むことを特徴とする請
求項１に記載の情報処理装置。
【請求項４】前記テキストデータを表示させる表示手
段をさらに含むことを特徴とする請求項１に記載の情報
処理装置。
【請求項５】クライアントから送信されてきたテキス
トデータを受信し、そのテキストデータを、１以上の他
のクライアントに送信するサーバに対して、テキストデ
ータを送信するとともに、前記サーバからのテキストデ
ータを受信する情報処理方法であって、入力された音声を音声認識し、その音声認識結果を、テ
キストデータで出力する音声認識ステップと、前記音声認識結果としてのテキストデータを、前記サー
バに送信する送信ステップと、前記サーバから送信されてくるテキストデータを受信す
る受信ステップと、前記サーバからのテキストデータを出力する出力ステッ
プとを含むことを特徴とする情報処理方法。
【請求項６】クライアントから送信されてきたテキス
トデータを受信し、そのテキストデータを、１以上の他
のクライアントに送信するサーバに対して、テキストデ
ータを送信するとともに、前記サーバからのテキストデ
ータを受信する処理を情報処理装置に行わせるためのプ
ログラムを、前記情報処理装置に実行させる媒体であっ
て、入力された音声を音声認識し、その音声認識結果を、テ
キストデータで出力する音声認識ステップと、前記音声認識結果としてのテキストデータを、前記サー
バに送信する送信ステップと、前記サーバから送信されてくるテキストデータを受信す
る受信ステップと、前記サーバからのテキストデータを出力する出力ステッ
プとを含むことを特徴とするプログラムを、前記情報処
理装置に実行させる媒体。
【請求項７】クライアントから送信されてきたテキス
トデータを受信し、そのテキストデータを、１以上の他
のクライアントに送信するサーバに対して、テキストデ
ータを送信するとともに、前記サーバからのテキストデ
ータを受信する情報処理装置であって、前記テキストデータを入力する入力手段と、入力された前記テキストデータを、前記サーバに送信す
る送信手段と、前記サーバから送信されてくるテキストデータを受信す
る受信手段と、前記サーバからのテキストデータに基づいて、音声合成
を行い、そのテキストデータに対応する合成音を出力す
る音声合成手段とを含むことを特徴とする情報処理装
置。
【請求項８】前記テキストデータを表示する表示手段
をさらに含むことを特徴とする請求項７に記載の情報処
理装置。
【請求項９】クライアントから送信されてきたテキス
トデータを受信し、そのテキストデータを、１以上の他
のクライアントに送信するサーバに対して、テキストデ
ータを送信するとともに、前記サーバからのテキストデ
ータを受信する情報処理方法であって、前記テキストデータを入力する入力ステップと、入力された前記テキストデータを、前記サーバに送信す
る送信ステップと、前記サーバから送信されてくるテキストデータを受信す
る受信ステップと、前記サーバからのテキストデータに基づいて、音声合成
を行い、そのテキストデータに対応する合成音を出力す
る音声合成ステップとを含むことを特徴とする情報処理
方法。
【請求項１０】クライアントから送信されてきたテキ
ストデータを受信し、そのテキストデータを、１以上の
他のクライアントに送信するサーバに対して、テキスト
データを送信するとともに、前記サーバからのテキスト
データを受信する処理を、情報処理装置に行わせるため
のプログラムを、前記情報処理装置に実行させる媒体で
あって、前記テキストデータを入力する入力ステップと、入力された前記テキストデータを、前記サーバに送信す
る送信ステップと、前記サーバから送信されてくるテキストデータを受信す
る受信ステップと、前記サーバからのテキストデータに基づいて、音声合成
を行い、そのテキストデータに対応する合成音を出力す
る音声合成ステップとを含むことを特徴とするプログラ
ムを、前記情報処理装置に実行させる媒体。