JP4319334B2

JP4319334B2 - 音声・画像処理装置

Info

Publication number: JP4319334B2
Application number: JP2000208021A
Authority: JP
Inventors: 岩夫野崎; 喜也丸本
Original assignee: Noritsu Koki Co Ltd
Current assignee: Noritsu Koki Co Ltd
Priority date: 2000-07-10
Filing date: 2000-07-10
Publication date: 2009-08-26
Anticipated expiration: 2020-07-10
Also published as: JP2002027177A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置に関する。
【０００２】
【従来の技術】
近年、マルチメディア時代を迎えて、情報の伝達を視覚だけに頼るのではなく、聴覚も利用することが積極的に試みられており、音声付き画像シート、特に音声付き写真もそのような試みの１つであり、例えば、日本国特開平６−２３１４６６号公報、及び、日本国特開平７−１８１６０６号公報では、図や写真、文字に加えて音声を光学的に読取可能に変換したドットコード（音声コードイメージ）を同一の用紙上に印刷し、このドットコードを読み取る専用のスキャナーにより音声が聞こえるという、音声付き画像シートを開示している。このような音声付き画像シートは、特に発音を繰り返し勉強するための語学教材、動物の鳴き声を収録する写真図鑑、音の出る絵本、あるいは、結婚式、成人式、七五三などの記念行事を行事に付随する音声とともに記録する写真として適用されている。
【０００３】
【発明が解決しようとする課題】
また、最近では、適当な写真に、音声コード化されたメッセージを付与したものが、新しいメッセージカードとして注目されてきているが、このようなメッセージカードの作成をＤＰショップ等に依頼する場合、プリントしたい画像を収めた写真フィルムやデジタルカメラの記録メディアを提出するだけでなく、店頭でマイクを通じて音声メッセージを吹き込む必要がある。これは、メッセージの内容にかかわらず、一般の人にとって結構恥ずかしい行為であり、このためにメッセージカードの作成を躊躇する人が少なくない。店頭での音声メッセージの吹き込みを避けるため、予め家で音声メッセージを吹き込んだカセットテープやＭＤなどを持参してもよいが、確認のために再生するケースが多いし、簡単なメッセージのためにいちいち家で録音することは煩わしいものである。
上記実状に鑑み、本発明の課題は、音声付き画像シートを作成依頼する際の音声データの入力方法を改善することである。
【０００４】
【課題を解決するための手段】
上記課題を解決するため、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置において、本発明では、入力されたテキストデータを処理するテキスト入力処理部と、前記テキスト入力処理部で処理されたテキストデータに基づいて合成音声データを生成する音声合成部とが備えられ、前記コード変換部が前記音声合成部で生成された合成音声データを前記音声コードイメージのためのソース音声データとして使用して、前記テキストデータの音声を再生する音声コードイメージを生成することを特徴としている。
【０００５】
この構成では、音声付き画像シートを作成するために必要な音声コードイメージのソースデータとしてテキストデータの形態で入力されたものから音声合成技術を利用して合成音声データ化されるものを用いるので、顧客はメッセージ内容を肉声で吹き込む必要がない。テキストデータの入力としては、例えば、この音声・画像処理装置に接続されたキーボードを用いて直接メッセージ内容を打ち込んでもよいし、予めワープロ等を利用して作成したメッセージをフロッピー等の記録メディアに記録して、それを店に持ち込んでもよい。さらには、電子メールを介して店にメッセージ内容を送ることも可能であり、その際、作成すべき音声付き画像シートのための画像データを添付ファイルとして送るなら、音声付き画像シートの注文時には顧客が店に出向く必要がなくなる。
【０００８】
音声合成部の一例として、本発明の好適な実施形態では、テキスト解析用辞書を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書を用いて合成音声データを生成するテキスト音声合成部を備えている。この構成では、キーボードから入力された仮名漢字混じりテキストデータや記録メディアに保存されたテキスト文書や電子メールを通じて送られてきたテキスト文書を読み込むことで入力されたテキストデータに対してテキスト解析用辞書を用いて読みと文節のアクセントが与えられ、さらに合成音声エレメント辞書にアクセスしながらの韻律パラメータの編集工程を通じて音声のパワーと基本周波数を調整することで、ある程度の口調を設定することができる。従って、顧客の要望に応じて、女性口調や男性口調、あるいは怒り口調や喜び口調を選択して、最終的な合成音声データを作成することができる。この点に関する、より好ましい形態として、前記合成音声エレメント辞書に格納される合成音声エレメントを個人別で登録された肉声データに基づいて作製するならば、合成音声を顧客の肉声に類似した親しみのある音声とすることも可能となる。
【０００９】
上述したようなテキスト音声合成部は高度の技術を必要とし、装置的にも操作的にも大きな負担となるものであることから、これに代わる簡易的な音声合成技術として、本発明の別な実施形態では、入力テキストデータを予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書を用いて断片的に順次合成音声データに変換する音声編集合成部を備えているものがある。これは、語彙・フレーズの限定された肉声の断片から文音声を生成する編集合成と呼ばれる方式であり、合成音声データの生成は、テキストデータの断片を登録音声エレメント辞書を用いて音声データの断片で置き換えることで行われるので、高速処理可能でかつ装置コストも抑えることができる。
【００１０】
このような編集合成によって得られる肉声に比べて低品質の合成音声データをより親しみをもって聞くことができるように、本発明では、その登録音声エレメント辞書に、個人別で登録された肉声データを格納することが提案される。つまり、音声付き画像シートの顧客に対して予め、編集合成のために最低限必要とされる音声エレメントを顧客自身の肉声で登録しておく。音声付き画像シートの注文時には、音声メッセージのソースとしてのテキストデータと適当な画像データを提出すると、本人の登録音声エレメントを用いた編集合成で合成音声データが作成されるので、流暢に流れる音声でなくとも、本人の肉声断片が使われているだけに、親しみのある音声として再生されることになる。
【００１１】
さらに、本発明の好適実施形態として、音声合成部が合成音声データの声質を変形させる声質変形部を備えているならば、世の中に存在しないような音声データを作り出すことが可能であり、特に遊び感覚での音声付き画像シートの交換などの目的にかなったものとなる。このような音質変形は、例えば、音声データの周波数を線形変換することにより簡単に実施することができる。その際、音質変形のパラメータを顧客別に管理しておくと、顧客は独自の音声特徴をもった音声データ変形パラメータを自分専用として確保することができる。
【００１２】
キーボードを用いて直接メッセージ内容を打ち込んだりすることを嫌う顧客に対する方策として、本発明の好適な実施形態の１つでは、文字認識装置が追加的に備えられており、この文字認識装置によって出力されたテキストデータが音声コードイメージ変換に用いられる。ここで、文字認識装置は用紙に手書きされた文字をＯＣＲで読み取ってテキストデータ化したり、タッチパネル上で所定のペンで書かれた文字を読み取ってテキストデータ化する装置の総称であり、この構成により、音声付き画像シートを作成依頼する際の音声データの入力方法はさらに簡単になるとともに、その入力形態も多様化することになる。
【００１３】
以上の説明から明らかなように、本発明の重要な特徴は、テキストデータを音声化することにあるが、本発明で取り扱っているテキストデータは、印刷されたテキストとしての文字や数字・記号の集まり、印刷物等に対するスキャナによる読取データ、電子化されたテキストとしての文字や数字・記号の集まり、入力デバイスを通じて逐次入力されるキャラクターコード群などに代表されるように、広義の意味合いで解釈されるべきであり、コンピュータのメディア変換技術において何らかの形で文字情報として認識される全てのデータが含まれるものである。
本発明によるその他の特徴及び利点は、以下図面を用いた実施例の説明により明らかになるだろう。
【００１４】
【発明の実施の形態】
音声付き画像シートを作成するための、本発明による音声・画像処理装置の１つの実施形態が、図１の外観図及び図２の機能ブロック図によって示されている。この音声・画像処理装置の中核となるのが、汎用コンピュータ１であり、図２で示された音声付き画像シートの作成に要求される種々の機能をハードウエアとソフトウエアによって構築している。この音声・画像処理装置はＤＰショップなどの店頭に配置され、顧客の依頼による音声付き写真を作成するサービスを行うタイプのものである。
【００１５】
このコンピュータ１には、Ｉ／Ｏインタフェース部１０を介して種々の入力機器と出力機器が接続している。出力機器としては、最終的に音声付き画像シートとしての音声付き写真２を出力するプリント部として銀塩写真プリンタ３（銀塩写真フィルムのプリントなどに使用されているものが兼用される）、作業中の画像の確認等のためのモニタ４や入力された音声データのチェックのためのスピーカ５が挙げられる。入力機器としては、直接的に音声をコンピュータ１に入力するためのマイク６ａやカセットプレーヤ６ｂ、さらにデジタルカメラによる撮影画像の取り込みのためのカードリーダ７ａや銀塩フィルムからの撮影画像の取り込みのためのフィルムスキャナ７ｂが挙げられる。さらに、テキストデータをコンピュータに入力するための機器として、キーボード８ａ、手書き又は印刷された文字を読み取るフラットベットスキャナ８ｃ、インターネットを通じて送られてくるテキストデータを受信するための通信機器８ｄが挙げられる。
【００１６】
また、音声データや画像データの入出力のためによく用いられているフロッピドライブ８ｅやＭＯドライブ８ｆもコンピュータ１に内蔵されている。キーボード８ａは、マウス８ｂとともに図３で示された各機能に対しコマンドを与えるためにも用いられるし、通信機器８ｄは当然テキストデータだけでなく、画像データも受信することができる。
【００１７】
入力された画像データと音声データを用いて音声付き写真２を作成するしくみは後で詳しく説明するとして、銀塩写真プリンタ３から出力された音声付き写真２では、図３に示すように写真画像領域２ａの周辺に配置された音声コードイメージ領域２ｂに対して専用の読取スキャナ９０で走査すると、この読取スキャナ９０に内蔵されている音声再生回路の働きで音声コードイメージに対応する音声信号が出力され、例えばイヤフォン９１等で音を聞くことができる。
【００１８】
この音声・画像処理装置は、主な機能ユニットととして、図２から理解できるように、音声付き写真２における写真画像のソースとしての画像データを受け取る画像入力処理部２１、音声付き写真２における音声コードイメージのソースとしての音声データを外部から直接受け取る音声入力処理部２２、音声コードイメージに変換される音声データのソースとなるべきテキストデータを受け取るテキスト入力処理部２３、入力されたテキストデータに基づいて合成音声データを生成する音声合成部３０、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部４０、画像データ格納部５１、音声コードイメージ格納部５２、そして適正に処理された画像データと音声コードイメージとから音声付き写真２のためのプリントデータを生成する画像音声合成処理部６０を備えている。
【００１９】
画像入力処理部２１は、画像編集部２１ａや画像選択部２１ｂを備えており、カードリーダ７ａ、フィルムスキャナ７ｂ、通信機器８ｄ、フロッピドライブ８ｅ、ＭＯドライブ８ｆなどから入力された画像データは必要に応じて画像選択部２１ｂによって選択され、選択された画像データに対して画像編集部２１ａが色調補正や解像度変換などの編集処理を行う。
【００２０】
音声入力処理部２２は、音声付き写真２に形成される音声コードイメージのソースとしての音声データが直接、顧客から与えられる場合に利用されるものであり、マイク６ａやカセットプレーヤ６ｂ、カードリーダ７ａ（デジタルボイスレコーダ用メモリカードの使用時）などから入力された音声データは必要に応じて、音声選択部２２ｂによって選択され、音声編集部２２ａによって編集処理が行われる。
【００２１】
テキスト入力処理部２３は、音声付き写真２に形成される音声コードイメージのソースとして顧客がテキストデータを与える場合に利用されるもので、顧客が持参したフロッピディスクに保存されたテキストファイルや電子メールの形で送付されたテキストデータをフロッピドライブ８ｅや通信機器８ｄを通じて取り込んだ後、テキスト編集部２３ａが必要なテキスト編集を施す。また、キーボード８ａを通じて、顧客又はオペレータが直接入力したテキストデータもこのテキスト編集部２３ａによって処理される。さらに、オプションとして、ＯＣＲ機能を持たせるために文字認識部２４を備えることも可能である。ＯＣＲ機能を持たせた場合、顧客が提示したメッセージ文書をフラットベットスキャナ８ｃで読み取らせた後、文字認識部２４によってテキストデータに変換する。つまり、フラットベットスキャナ８ｃと文字認識部２４が文字認識装置を構築している。
【００２２】
テキスト入力処理部２２によって必要な編集処理を施されたテキストデータを合成音声データに変換する音声合成部３０はテキスト音声合成部３１とテキスト解析用辞書３２と合成音声エレメント辞書３３を備えており、テキスト音声合成部３１はテキスト解析用辞書３２を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書３３を用いて合成音声データを生成する。なお、合成音声エレメント辞書３３のソースとしての音声としては女性の音声又は男性の音声のいずれでもよいが、両方備えて選択するようにすることも可能である。さらには、特定の人物の音声をソースとした数多くの合成音声エレメント辞書３３を用意して、任意に切り換えて利用する構成も可能である。
【００２３】
さらに、音声合成部３０には、上述のように作成された合成音声データの声質を変形させる声質変形部３４も付随しており、この声質変形部３４は入力した音声データに対して、アップ・ダウンサンプリングによる周波数の線形変換や時間軸調整によって、テープレコーダの早回しや遅回しと類似した変形を施して出力するものである。この音声変形部３４は、音声入力処理部２２から送られてくる音声データに対しても音声変形処理を施すことができる。
【００２４】
音声入力処理部２２から送られてきた肉声の音声データや音声合成部３０から送られてきた合成音声データを音声コードイメージに変換する音声コード変換部４０は、波形符号化、分析合成符号化など公知の符号化手法から適当に選ばれたもので構築された音声データ圧縮符号化部４１と、これにより符号化された音声コードデータを二次元のコードイメージに展開する音声コードイメージ生成部４２と、後ほど行われる画像データに基づく画像イメージと音声コードイメージとの音声付き写真におけるレイアウト編集の際に便利なように音声付き写真２に形成される音声コードイメージのサイズ（外形寸法）を算出するプリコードイメージ生成部４３とを備えている。
【００２５】
画像入力処理部２１で編集された画像データは画像イメージとして画像データ格納部５１に、コード変換部２１で変換された音声コードイメージは音声コードイメージ格納部５２に一時的に格納され、画像音声合成処理部６０によって所望のレイアウトでもってプリンタ３によってプリント出力されるようにプリントデータ化される。このため、画像音声合成処理部６０は、画像データ格納部５１に格納された画像イメージと音声コードイメージ格納部５２に格納された音声コードイメージのレイアウト処理を行う画像・音声コードイメージレイアウト編集部６１と、決定されたレイアウトで両イメージを合成してプリントデータを生成する画像・音声コードイメージ合成処理部６２を備えている。このレイアウト編集時には、プリコードイメージ生成部４３で算出された音声コードイメージのサイズに基づくダミーボックスエリアがモニタ４上に表示され、同じく表示されている画像イメージとの位置関係を見比べながらの正確なレイアウト作業を可能にしている。
【００２６】
上述した音声・画像処理装置による音声付き写真２の典型的な作成手順を図４のフローチャートを用いて説明する。ここでは音声付き写真２の注文が電子メールによってなされているとする。
電子メールが到着すると（＃１）、この電子メールの添付ファイルとしての画像データが画像入力処理部２１に入力される（＃１１）と、その画像データは画像編集部２１ａの働きで、モニタ４でその画像イメージを確認しながらオペレータの操作を通じて色調・階調変換、拡大縮小等の編集処理が行われる（＃１２）。入力された画像が複数存在する場合は画像選択部２１ｂによって選択された後この編集処理が行われる。編集処理された画像データは、一旦画像データ格納部５１に格納される（＃１３）。
【００２７】
一方、音声コードイメージのソースとしてのテキストデータを含む電子メールファイルは、テキスト入力処理部２３のテキスト編集部２３ａに送られ（＃１４）、そこで、その電子メールから音声付き写真２に音声コードイメージとして取り込まれるべきメッセージだけを含むテキストデータが切り出される（＃１５）。
【００２８】
漢字仮名混じりテキストとして音声合成部３０に送られてきたテキストデータは、テキスト音声合成部３１によってテキスト解析用辞書３２にアクセスしながら解析され（＃２１）、単語を同定しながら読み、アクセントが付与される（＃２２）。次いで、息継ぎ位置が設定されるとともに文全体のイントネーションが決定され、音素記号と韻律パラメータからなる音韻系列が作り出される（＃２３）。作り出された音韻系列に対して合成音声エレメント辞書３３にアクセスしながら順次合成音声エレメントを接続し、合成音声データを生成する（＃２４）。
【００２９】
この合成音声データに声質変形処理が要求されている場合（＃２５YES 分岐）、声質変形部３４によって周波数線形変換等が施され（＃２６）、要求されていない場合（＃２５NO分岐）、合成音声データはそのままコード変換部４０に送られる。
【００３０】
まず、合成音声データは音声データ圧縮符号化部４１に送られ、圧縮処理が行われ、続いて、音声コードイメージ生成部４２にて、光学的に読取り可能な音声コードイメージに変換される（＃３１）。さらにこの音声コードイメージのサイズ（外形寸法）がプリコードイメージ生成部４３によって算出され（＃３２）、音声コードイメージのデータとともにサイズデータもは音声コードイメージ格納部５２に一旦格納される（＃３３）。
【００３１】
画像データ格納部５１に記憶された画像データと、音声コードイメージ格納部５２に記憶された音声コードイメージは、画像音声合成処理部６０の画像・音声コードイメージレイアウト編集部６１にそれぞれ取り込まれて画像イメージと音声コードイメージのレイアウト編集処理がなされる（＃４０）。実際のレイアウト編集処理ではモニタ４の画面にレイアウト編集画面が表示され、カーソルの指示により画像イメージと音声コードイメージを擬似的に示すダミーボックスエリアのレイアウト編集が行われる。このレイアウト編集は予め選択されたテンプレートを用いて画像イメージと音声コードイメージを自動的に流し込む方法を採用することも可能である。その際、例えば、音声コードイメージの長さが印刷可能長さを越えると、これを２つに分離して２段構成にするなどの再編集が行われる。
【００３２】
画像・音声コードイメージ合成処理部６２は、画像・音声コードイメージレイアウト編集部６１からのレイアウト情報を受け取ると、画像データ格納部５１及び音声コードイメージ格納部５２にそれぞれリクエスト信号を送信し、対応画像データ及び音声コードイメージデータを受け取る。受け取った画像イメージのデータと音声コードイメージのデータはレイアウト情報に基づいて一体化され、プリントデータとして生成される（＃４１）。このプリントデータがプリンタ３に送信されることにより、画像イメージと音声コードイメージが印画紙に露光され、露光印画紙が現像処理されることにより図３で示されるような音声付き写真２が作成される（＃５０）。
【００３３】
〔別実施形態〕
図５で示された本発明の別実施形態の機能ブロック図では、図２で示された先の実施形態のものと比べて、音声合成部３０がテキスト音声合成部３１の代わりに音声編集合成部３５によって構成されている点で異なっている。
【００３４】
語彙・フレーズの限定された肉声の断片から文音声を生成する編集合成と呼ばれるこの方式で合成音声データを生成するためには、予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書３６が必要であり、音声編集合成部３５は、テキスト入力処理部２３から送られてきたテキストデータを断片化し、その断片を登録音声エレメント辞書を用いて音声データの断片で置き換えていく。
【００３５】
この実施形態では、その登録音声エレメント辞書３６に、個人別で登録された肉声データを格納することも可能である。つまり、音声付き画像シートの顧客に対して予め、編集合成のために最低限必要とされる音声エレメントを顧客自身の肉声で登録・格納しておき、音声付き画像シートの注文時には、本人の登録音声エレメントを用いた編集合成で合成音声データが作成される。登録されていない顧客に対しては、標準で用意されている音声エレメントが使用される。
【００３６】
また、この実施形態の音声・画像処理装置は、図６に示すような、証明写真装置やプリクラ装置のようなボックス形の外観を備えており、音声付き写真２を作成しようとする顧客は、料金を投入した後、モニタ４に表示される指示メッセージに従って、備え付けられているデジタルカメラで自分を撮影するとともに、音声メッセージ化したいテキストデータを備え付けられているタッチパネル式キーボード８ａを使って入力するか、又はマイク６ａを通じて肉声で入力する。また、プリント部３として昇華型の熱転写プリンタが採用されている。
【００３７】
この別実施形態の音声・画像処理装置による音声付き写真２の典型的な作成手順を図７のフローチャートを用いて説明する。ここでは音声付き写真２のための画像ソースはデジタルカメラの撮像画像データであり、その音声ソースは備え付けのキーボード８ａから直接入力されたテキストデータとする。
【００３８】
音声付き写真２の作成を希望する顧客は、指定された硬貨を硬貨投入口に入れることにより（＃１０１）モニタ４に表示されるメニュに従って、まず装置に備えられたデジタルカメラで証明写真装置やプリクラ装置と同様な手順で自分を撮影する（＃１１０）。このデジタルカメラはＩ／Ｏインタフェース１０と直接接続されているので、デジタルカメラによって取得された画像データは直ちに画像入力処理部２１に転送される（＃１１１）。画像入力処理部２１に転送された画像データは画像編集部２１ａの働きで、モニタ４でその画像イメージを確認しながらトリミングや拡大縮小等の編集処理を行うことができる（＃１１２）。編集処理された画像データは、一旦画像データ格納部５１に格納される（＃１１３）。
【００３９】
続いて、今回、音声コードイメージ化するためのソースデータとしてキーボード入力によるテキストデータを選択しているので、音声付き写真に組み込みたい音声メッセージを文としてキーボード８ａから入力する（＃１１４）。テキスト編集部２３ａはテキストエディタとしての機能を有するので、キーボード８ａを通じて入力されたデータから文章を作成し、最終的にこのテキストデータを編集合成に適したフォーマットに変換して音声合成部３０に送り出す（＃１１５）。
【００４０】
編集合成プロセスでは、まず、この顧客が予め音声登録しているかどうかをチェックする（＃１２１）。音声登録している場合、その顧客の登録音声エレメントファイルがロードされる（＃１２２）。この登録音声エレメントファイルのロードに関して種々の形態があるが、ここでは代表的な２つの形態を紹介する。
【００４１】
第１のものは、顧客が、予め音声エレメント登録装置によって、必要な語彙・フレーズを肉声で登録し、その登録された語彙・フレーズを編集合成に適したフォマットでファイル化することによって得られた音声エレメントファイルをメモリカードに記録しておく形態である。音声登録しているかどうかのチェック段階でカードリーダ７ａに該当メモリカードを挿入することにより、登録音声エレメントファイルが音声合成部３０の登録音声エレメント辞書３６にロードされる。第２のものは、予め音声エレメント登録装置によって作成された音声エレメントファイルを顧客ＩＤをキーとして登録音声エレメント辞書３６に格納しておく形態であり、音声登録しているかどうかのチェック段階で顧客ＩＤを入力することにより、この顧客の登録音声エレメントファイルが以後の編集合成作業における登録音声エレメント辞書３６として使用されるように設定される。登録音声エレメント辞書３６は、この音声・画像処理装置に内蔵されるのではなく、通信回線でつながったサーバ内に設けられることが望ましい。つまり、顧客ＩＤを入力すると、通信回線を通じて該当顧客の登録音声エレメントファイルが音声合成部３０の登録音声エレメント辞書３６にロードされる構成とするのである。
【００４２】
音声登録していない場合、登録音声エレメント辞書３６に格納されている標準音声エレメントファイルが以後の編集合成作業における登録音声エレメント辞書３６として使用されるように設定される。（＃１２３）。
【００４３】
いずれにしても、編集合成プロセスでは、まず処理すべきテキストデータで表されいるメッセージ文を語彙・フレーズに分解し（＃１２４）、それぞれに、登録音声エレメント辞書３６としての音声エレメントファイルから抽出された断片的な音声エレメントを割り当て、合成音声データを生成する（＃１２５）。
【００４４】
この合成音声データに声質変形処理が要求されている場合（＃２５YES 分岐）、声質変形部３４によって周波数線形変換等が施され（＃２６）、要求されていない場合（＃２５NO分岐）、合成音声データはそのままコード変換部４０に送られ、以下＃３１〜＃３３で前述したように合成音声データの音声コードイメージ化が行われ、生成された音声コードイメージは音声コードイメージ格納部５２に一旦格納される。
【００４５】
画像データ格納部５１に記憶された画像データと、音声コードイメージ格納部５２に記憶された音声コードイメージは、予め選択されたテンプレートを用いて画像・音声コードイメージレイアウト編集部６１によってレイアウト編集処理がなされる（＃４０）。
【００４６】
画像・音声コードイメージ合成処理部６２は、画像イメージのデータと音声コードイメージのデータをレイアウト情報に基づいて一体化し、プリントデータを生成する（＃４１）。このプリントデータがプリンタ３に送信されることにより、画像イメージと音声コードイメージが専用シートにプリントされ、図３で示されるような音声付き写真２として、装置前面に設けられたプリント取り出し口に排出される（＃５０）。
【００４７】
上述した実施の形態では、画像データと音声コードイメージは画像・音声合成処理部６０によって合成されていたが、画像・音声合成処理部６０を省略して、このプリンタ３によってプリント出力されていたが、画像データと音声コードイメージを別々のプリンタでプリント出力してもよい。その際、音声コードイメージのプリント出力にシールプリンタで、音声コードイメージを形成したシールを画像を形成したシート、例えば写真プリントに貼り付けるように構成するとよい。
【００４８】
さらに上述した全ての実施の形態では、入力されたテキストデータは、いったん音声合成部３０で合成音声データ化され、この合成音声データが音声コードイメージに変換されていたが、テキスト入力処理部２３で処理されたテキストデータを直接音声コードイメージに変換することも可能である。そのような音声・画像処理装置は、図８で示すように、音声合成部３０が省略された代わりに、コード変換部４０に、テキストデータを所定の要素に断片化して得られたテキストエレメントに順次対応する音声コードイメージを割り当てていくテキスト／音声コードイメージ置換部４４と、テキストエレメントに対応する音声コードイメージを登録した音声コードイメージ辞書４５を備えている。つまり、テキストを構成する語彙やフレーズに対応する音声コードイメージを当てはめながら順次つなぎ合わせていくことにより最終的な音声コードイメージを作り出すのである。
【図面の簡単な説明】
【図１】本発明による音声・画像処理装置の１つの実施形態を示す外観図
【図２】図１による音声・画像処理装置の機能ブロック図
【図３】音声・画像処理装置によって作成された音声付き写真から音声を再生する様子を示す説明図
【図４】図２に示された音声・画像処理装置を用いた音声付き写真の作成手順を示すフローチャート
【図５】本発明による音声・画像処理装置の別実施形態を示す機能ブロック図
【図６】図５による音声・画像処理装置の外観図
【図７】図５に示された音声・画像処理装置を用いた音声付き写真の作成手順を示すフローチャート
【図８】本発明による音声・画像処理装置のさらに別な実施形態を示す機能ブロック図
【符号の説明】
２音声付き画像シート（音声付き写真）
３プリント部（銀塩写真プリンタ、昇華型熱転写プリンタ）
２１画像入力部
２２音声入力部
２３テキスト入力処理部
２４文字認識部
３０音声合成部
３１テキスト音声合成部
３２テキスト解析用辞書
３３合成音声エレメント辞書
３４声質変形部
３５音声編集合成部
３６登録音声エレメント辞書
６０画像音声合成処理部

Claims

音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置において、
入力されたテキストデータを処理するテキスト入力処理部と、
前記テキスト入力処理部で処理されたテキストデータに基づいて合成音声データを生成する音声合成部とが備えられ、
前記コード変換部が前記音声合成部で生成された合成音声データを前記音声コードイメージのためのソース音声データとして使用して、前記テキストデータの音声を再生する音声コードイメージを生成することを特徴とする音声・画像処理装置。
前記音声合成部は、テキスト解析用辞書を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書を用いて合成音声データを生成するテキスト音声合成部を備えていることを特徴とする請求項１に記載の音声・画像処理装置。
前記合成音声エレメント辞書に格納される合成音声エレメントは個人別で登録された肉声データに基づいて作製されていることを特徴とする請求項２に記載の音声・画像処理装置。
前記音声合成部は、入力テキストデータを予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書を用いて断片的に順次合成音声データに変換する音声編集合成部を備えていることを特徴とする請求項１に記載の音声・画像処理装置。
前記登録音声エレメント辞書は、個人別で登録された肉声データを格納していることを特徴とする請求項４に記載の音声・画像処理装置。
前記音声合成部は前記合成音声データの声質を変形させる声質変形部を備えていることを特徴とする請求項１〜５のいずれかに記載の音声・画像処理装置。
文字認識装置が追加的に備えられており、この文字認識装置によって出力されたテキストデータが音声コードイメージ変換に用いられることを特徴とする請求項１〜６のいずれかに記載の音声・画像処理装置。