[go: up one dir, main page]

JP4319334B2 - 音声・画像処理装置 - Google Patents

音声・画像処理装置 Download PDF

Info

Publication number
JP4319334B2
JP4319334B2 JP2000208021A JP2000208021A JP4319334B2 JP 4319334 B2 JP4319334 B2 JP 4319334B2 JP 2000208021 A JP2000208021 A JP 2000208021A JP 2000208021 A JP2000208021 A JP 2000208021A JP 4319334 B2 JP4319334 B2 JP 4319334B2
Authority
JP
Japan
Prior art keywords
image
data
voice
speech
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000208021A
Other languages
English (en)
Other versions
JP2002027177A (ja
Inventor
岩夫 野崎
喜也 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Noritsu Koki Co Ltd
Original Assignee
Noritsu Koki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Noritsu Koki Co Ltd filed Critical Noritsu Koki Co Ltd
Priority to JP2000208021A priority Critical patent/JP4319334B2/ja
Publication of JP2002027177A publication Critical patent/JP2002027177A/ja
Application granted granted Critical
Publication of JP4319334B2 publication Critical patent/JP4319334B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Facsimiles In General (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置に関する。
【0002】
【従来の技術】
近年、マルチメディア時代を迎えて、情報の伝達を視覚だけに頼るのではなく、聴覚も利用することが積極的に試みられており、音声付き画像シート、特に音声付き写真もそのような試みの1つであり、例えば、日本国特開平6−231466号公報、及び、日本国特開平7−181606号公報では、図や写真、文字に加えて音声を光学的に読取可能に変換したドットコード(音声コードイメージ)を同一の用紙上に印刷し、このドットコードを読み取る専用のスキャナーにより音声が聞こえるという、音声付き画像シートを開示している。このような音声付き画像シートは、特に発音を繰り返し勉強するための語学教材、動物の鳴き声を収録する写真図鑑、音の出る絵本、あるいは、結婚式、成人式、七五三などの記念行事を行事に付随する音声とともに記録する写真として適用されている。
【0003】
【発明が解決しようとする課題】
また、最近では、適当な写真に、音声コード化されたメッセージを付与したものが、新しいメッセージカードとして注目されてきているが、このようなメッセージカードの作成をDPショップ等に依頼する場合、プリントしたい画像を収めた写真フィルムやデジタルカメラの記録メディアを提出するだけでなく、店頭でマイクを通じて音声メッセージを吹き込む必要がある。これは、メッセージの内容にかかわらず、一般の人にとって結構恥ずかしい行為であり、このためにメッセージカードの作成を躊躇する人が少なくない。店頭での音声メッセージの吹き込みを避けるため、予め家で音声メッセージを吹き込んだカセットテープやMDなどを持参してもよいが、確認のために再生するケースが多いし、簡単なメッセージのためにいちいち家で録音することは煩わしいものである。
上記実状に鑑み、本発明の課題は、音声付き画像シートを作成依頼する際の音声データの入力方法を改善することである。
【0004】
【課題を解決するための手段】
上記課題を解決するため、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置において、本発明では、入力されたテキストデータを処理するテキスト入力処理部と、前記テキスト入力処理部で処理されたテキストデータに基づいて合成音声データを生成する音声合成部とが備えられ、前記コード変換部が前記音声合成部で生成された合成音声データを前記音声コードイメージのためのソース音声データとして使用して、前記テキストデータの音声を再生する音声コードイメージ生成ることを特徴としている。
【0005】
この構成では、音声付き画像シートを作成するために必要な音声コードイメージのソースデータとしてテキストデータの形態で入力されたものから音声合成技術を利用して合成音声データ化されるものを用いるので、顧客はメッセージ内容を肉声で吹き込む必要がない。テキストデータの入力としては、例えば、この音声・画像処理装置に接続されたキーボードを用いて直接メッセージ内容を打ち込んでもよいし、予めワープロ等を利用して作成したメッセージをフロッピー等の記録メディアに記録して、それを店に持ち込んでもよい。さらには、電子メールを介して店にメッセージ内容を送ることも可能であり、その際、作成すべき音声付き画像シートのための画像データを添付ファイルとして送るなら、音声付き画像シートの注文時には顧客が店に出向く必要がなくなる。
【0008】
音声合成部の一例として、本発明の好適な実施形態では、テキスト解析用辞書を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書を用いて合成音声データを生成するテキスト音声合成部を備えている。この構成では、キーボードから入力された仮名漢字混じりテキストデータや記録メディアに保存されたテキスト文書や電子メールを通じて送られてきたテキスト文書を読み込むことで入力されたテキストデータに対してテキスト解析用辞書を用いて読みと文節のアクセントが与えられ、さらに合成音声エレメント辞書にアクセスしながらの韻律パラメータの編集工程を通じて音声のパワーと基本周波数を調整することで、ある程度の口調を設定することができる。従って、顧客の要望に応じて、女性口調や男性口調、あるいは怒り口調や喜び口調を選択して、最終的な合成音声データを作成することができる。この点に関する、より好ましい形態として、前記合成音声エレメント辞書に格納される合成音声エレメントを個人別で登録された肉声データに基づいて作製するならば、合成音声を顧客の肉声に類似した親しみのある音声とすることも可能となる。
【0009】
上述したようなテキスト音声合成部は高度の技術を必要とし、装置的にも操作的にも大きな負担となるものであることから、これに代わる簡易的な音声合成技術として、本発明の別な実施形態では、入力テキストデータを予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書を用いて断片的に順次合成音声データに変換する音声編集合成部を備えているものがある。これは、語彙・フレーズの限定された肉声の断片から文音声を生成する編集合成と呼ばれる方式であり、合成音声データの生成は、テキストデータの断片を登録音声エレメント辞書を用いて音声データの断片で置き換えることで行われるので、高速処理可能でかつ装置コストも抑えることができる。
【0010】
このような編集合成によって得られる肉声に比べて低品質の合成音声データをより親しみをもって聞くことができるように、本発明では、その登録音声エレメント辞書に、個人別で登録された肉声データを格納することが提案される。つまり、音声付き画像シートの顧客に対して予め、編集合成のために最低限必要とされる音声エレメントを顧客自身の肉声で登録しておく。音声付き画像シートの注文時には、音声メッセージのソースとしてのテキストデータと適当な画像データを提出すると、本人の登録音声エレメントを用いた編集合成で合成音声データが作成されるので、流暢に流れる音声でなくとも、本人の肉声断片が使われているだけに、親しみのある音声として再生されることになる。
【0011】
さらに、本発明の好適実施形態として、音声合成部が合成音声データの声質を変形させる声質変形部を備えているならば、世の中に存在しないような音声データを作り出すことが可能であり、特に遊び感覚での音声付き画像シートの交換などの目的にかなったものとなる。このような音質変形は、例えば、音声データの周波数を線形変換することにより簡単に実施することができる。その際、音質変形のパラメータを顧客別に管理しておくと、顧客は独自の音声特徴をもった音声データ変形パラメータを自分専用として確保することができる。
【0012】
キーボードを用いて直接メッセージ内容を打ち込んだりすることを嫌う顧客に対する方策として、本発明の好適な実施形態の1つでは、文字認識装置が追加的に備えられており、この文字認識装置によって出力されたテキストデータが音声コードイメージ変換に用いられる。ここで、文字認識装置は用紙に手書きされた文字をOCRで読み取ってテキストデータ化したり、タッチパネル上で所定のペンで書かれた文字を読み取ってテキストデータ化する装置の総称であり、この構成により、音声付き画像シートを作成依頼する際の音声データの入力方法はさらに簡単になるとともに、その入力形態も多様化することになる。
【0013】
以上の説明から明らかなように、本発明の重要な特徴は、テキストデータを音声化することにあるが、本発明で取り扱っているテキストデータは、印刷されたテキストとしての文字や数字・記号の集まり、印刷物等に対するスキャナによる読取データ、電子化されたテキストとしての文字や数字・記号の集まり、入力デバイスを通じて逐次入力されるキャラクターコード群などに代表されるように、広義の意味合いで解釈されるべきであり、コンピュータのメディア変換技術において何らかの形で文字情報として認識される全てのデータが含まれるものである。
本発明によるその他の特徴及び利点は、以下図面を用いた実施例の説明により明らかになるだろう。
【0014】
【発明の実施の形態】
音声付き画像シートを作成するための、本発明による音声・画像処理装置の1つの実施形態が、図1の外観図及び図2の機能ブロック図によって示されている。この音声・画像処理装置の中核となるのが、汎用コンピュータ1であり、図2で示された音声付き画像シートの作成に要求される種々の機能をハードウエアとソフトウエアによって構築している。この音声・画像処理装置はDPショップなどの店頭に配置され、顧客の依頼による音声付き写真を作成するサービスを行うタイプのものである。
【0015】
このコンピュータ1には、I/Oインタフェース部10を介して種々の入力機器と出力機器が接続している。出力機器としては、最終的に音声付き画像シートとしての音声付き写真2を出力するプリント部として銀塩写真プリンタ3(銀塩写真フィルムのプリントなどに使用されているものが兼用される)、作業中の画像の確認等のためのモニタ4や入力された音声データのチェックのためのスピーカ5が挙げられる。入力機器としては、直接的に音声をコンピュータ1に入力するためのマイク6aやカセットプレーヤ6b、さらにデジタルカメラによる撮影画像の取り込みのためのカードリーダ7aや銀塩フィルムからの撮影画像の取り込みのためのフィルムスキャナ7bが挙げられる。さらに、テキストデータをコンピュータに入力するための機器として、キーボード8a、手書き又は印刷された文字を読み取るフラットベットスキャナ8c、インターネットを通じて送られてくるテキストデータを受信するための通信機器8dが挙げられる。
【0016】
また、音声データや画像データの入出力のためによく用いられているフロッピドライブ8eやMOドライブ8fもコンピュータ1に内蔵されている。キーボード8aは、マウス8bとともに図3で示された各機能に対しコマンドを与えるためにも用いられるし、通信機器8dは当然テキストデータだけでなく、画像データも受信することができる。
【0017】
入力された画像データと音声データを用いて音声付き写真2を作成するしくみは後で詳しく説明するとして、銀塩写真プリンタ3から出力された音声付き写真2では、図3に示すように写真画像領域2aの周辺に配置された音声コードイメージ領域2bに対して専用の読取スキャナ90で走査すると、この読取スキャナ90に内蔵されている音声再生回路の働きで音声コードイメージに対応する音声信号が出力され、例えばイヤフォン91等で音を聞くことができる。
【0018】
この音声・画像処理装置は、主な機能ユニットととして、図2から理解できるように、音声付き写真2における写真画像のソースとしての画像データを受け取る画像入力処理部21、音声付き写真2における音声コードイメージのソースとしての音声データを外部から直接受け取る音声入力処理部22、音声コードイメージに変換される音声データのソースとなるべきテキストデータを受け取るテキスト入力処理部23、入力されたテキストデータに基づいて合成音声データを生成する音声合成部30、音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部40、画像データ格納部51、音声コードイメージ格納部52、そして適正に処理された画像データと音声コードイメージとから音声付き写真2のためのプリントデータを生成する画像音声合成処理部60を備えている。
【0019】
画像入力処理部21は、画像編集部21aや画像選択部21bを備えており、カードリーダ7a、フィルムスキャナ7b、通信機器8d、フロッピドライブ8e、MOドライブ8fなどから入力された画像データは必要に応じて画像選択部21bによって選択され、選択された画像データに対して画像編集部21aが色調補正や解像度変換などの編集処理を行う。
【0020】
音声入力処理部22は、音声付き写真2に形成される音声コードイメージのソースとしての音声データが直接、顧客から与えられる場合に利用されるものであり、マイク6aやカセットプレーヤ6b、カードリーダ7a(デジタルボイスレコーダ用メモリカードの使用時)などから入力された音声データは必要に応じて、音声選択部22bによって選択され、音声編集部22aによって編集処理が行われる。
【0021】
テキスト入力処理部23は、音声付き写真2に形成される音声コードイメージのソースとして顧客がテキストデータを与える場合に利用されるもので、顧客が持参したフロッピディスクに保存されたテキストファイルや電子メールの形で送付されたテキストデータをフロッピドライブ8eや通信機器8dを通じて取り込んだ後、テキスト編集部23aが必要なテキスト編集を施す。また、キーボード8aを通じて、顧客又はオペレータが直接入力したテキストデータもこのテキスト編集部23aによって処理される。さらに、オプションとして、OCR機能を持たせるために文字認識部24を備えることも可能である。OCR機能を持たせた場合、顧客が提示したメッセージ文書をフラットベットスキャナ8cで読み取らせた後、文字認識部24によってテキストデータに変換する。つまり、フラットベットスキャナ8cと文字認識部24が文字認識装置を構築している。
【0022】
テキスト入力処理部22によって必要な編集処理を施されたテキストデータを合成音声データに変換する音声合成部30はテキスト音声合成部31とテキスト解析用辞書32と合成音声エレメント辞書33を備えており、テキスト音声合成部31はテキスト解析用辞書32を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書33を用いて合成音声データを生成する。なお、合成音声エレメント辞書33のソースとしての音声としては女性の音声又は男性の音声のいずれでもよいが、両方備えて選択するようにすることも可能である。さらには、特定の人物の音声をソースとした数多くの合成音声エレメント辞書33を用意して、任意に切り換えて利用する構成も可能である。
【0023】
さらに、音声合成部30には、上述のように作成された合成音声データの声質を変形させる声質変形部34も付随しており、この声質変形部34は入力した音声データに対して、アップ・ダウンサンプリングによる周波数の線形変換や時間軸調整によって、テープレコーダの早回しや遅回しと類似した変形を施して出力するものである。この音声変形部34は、音声入力処理部22から送られてくる音声データに対しても音声変形処理を施すことができる。
【0024】
音声入力処理部22から送られてきた肉声の音声データや音声合成部30から送られてきた合成音声データを音声コードイメージに変換する音声コード変換部40は、波形符号化、分析合成符号化など公知の符号化手法から適当に選ばれたもので構築された音声データ圧縮符号化部41と、これにより符号化された音声コードデータを二次元のコードイメージに展開する音声コードイメージ生成部42と、後ほど行われる画像データに基づく画像イメージと音声コードイメージとの音声付き写真におけるレイアウト編集の際に便利なように音声付き写真2に形成される音声コードイメージのサイズ(外形寸法)を算出するプリコードイメージ生成部43とを備えている。
【0025】
画像入力処理部21で編集された画像データは画像イメージとして画像データ格納部51に、コード変換部21で変換された音声コードイメージは音声コードイメージ格納部52に一時的に格納され、画像音声合成処理部60によって所望のレイアウトでもってプリンタ3によってプリント出力されるようにプリントデータ化される。このため、画像音声合成処理部60は、画像データ格納部51に格納された画像イメージと音声コードイメージ格納部52に格納された音声コードイメージのレイアウト処理を行う画像・音声コードイメージレイアウト編集部61と、決定されたレイアウトで両イメージを合成してプリントデータを生成する画像・音声コードイメージ合成処理部62を備えている。このレイアウト編集時には、プリコードイメージ生成部43で算出された音声コードイメージのサイズに基づくダミーボックスエリアがモニタ4上に表示され、同じく表示されている画像イメージとの位置関係を見比べながらの正確なレイアウト作業を可能にしている。
【0026】
上述した音声・画像処理装置による音声付き写真2の典型的な作成手順を図4のフローチャートを用いて説明する。ここでは音声付き写真2の注文が電子メールによってなされているとする。
電子メールが到着すると(#1)、この電子メールの添付ファイルとしての画像データが画像入力処理部21に入力される(#11)と、その画像データは画像編集部21aの働きで、モニタ4でその画像イメージを確認しながらオペレータの操作を通じて色調・階調変換、拡大縮小等の編集処理が行われる(#12)。入力された画像が複数存在する場合は画像選択部21bによって選択された後この編集処理が行われる。編集処理された画像データは、一旦画像データ格納部51に格納される(#13)。
【0027】
一方、音声コードイメージのソースとしてのテキストデータを含む電子メールファイルは、テキスト入力処理部23のテキスト編集部23aに送られ(#14)、そこで、その電子メールから音声付き写真2に音声コードイメージとして取り込まれるべきメッセージだけを含むテキストデータが切り出される(#15)。
【0028】
漢字仮名混じりテキストとして音声合成部30に送られてきたテキストデータは、テキスト音声合成部31によってテキスト解析用辞書32にアクセスしながら解析され(#21)、単語を同定しながら読み、アクセントが付与される(#22)。次いで、息継ぎ位置が設定されるとともに文全体のイントネーションが決定され、音素記号と韻律パラメータからなる音韻系列が作り出される(#23)。作り出された音韻系列に対して合成音声エレメント辞書33にアクセスしながら順次合成音声エレメントを接続し、合成音声データを生成する(#24)。
【0029】
この合成音声データに声質変形処理が要求されている場合(#25YES 分岐)、声質変形部34によって周波数線形変換等が施され(#26)、要求されていない場合(#25NO分岐)、合成音声データはそのままコード変換部40に送られる。
【0030】
まず、合成音声データは音声データ圧縮符号化部41に送られ、圧縮処理が行われ、続いて、音声コードイメージ生成部42にて、光学的に読取り可能な音声コードイメージに変換される(#31)。さらにこの音声コードイメージのサイズ(外形寸法)がプリコードイメージ生成部43によって算出され(#32)、音声コードイメージのデータとともにサイズデータもは音声コードイメージ格納部52に一旦格納される(#33)。
【0031】
画像データ格納部51に記憶された画像データと、音声コードイメージ格納部52に記憶された音声コードイメージは、画像音声合成処理部60の画像・音声コードイメージレイアウト編集部61にそれぞれ取り込まれて画像イメージと音声コードイメージのレイアウト編集処理がなされる(#40)。実際のレイアウト編集処理ではモニタ4の画面にレイアウト編集画面が表示され、カーソルの指示により画像イメージと音声コードイメージを擬似的に示すダミーボックスエリアのレイアウト編集が行われる。このレイアウト編集は予め選択されたテンプレートを用いて画像イメージと音声コードイメージを自動的に流し込む方法を採用することも可能である。その際、例えば、音声コードイメージの長さが印刷可能長さを越えると、これを2つに分離して2段構成にするなどの再編集が行われる。
【0032】
画像・音声コードイメージ合成処理部62は、画像・音声コードイメージレイアウト編集部61からのレイアウト情報を受け取ると、画像データ格納部51及び音声コードイメージ格納部52にそれぞれリクエスト信号を送信し、対応画像データ及び音声コードイメージデータを受け取る。受け取った画像イメージのデータと音声コードイメージのデータはレイアウト情報に基づいて一体化され、プリントデータとして生成される(#41)。このプリントデータがプリンタ3に送信されることにより、画像イメージと音声コードイメージが印画紙に露光され、露光印画紙が現像処理されることにより図3で示されるような音声付き写真2が作成される(#50)。
【0033】
〔別実施形態〕
図5で示された本発明の別実施形態の機能ブロック図では、図2で示された先の実施形態のものと比べて、音声合成部30がテキスト音声合成部31の代わりに音声編集合成部35によって構成されている点で異なっている。
【0034】
語彙・フレーズの限定された肉声の断片から文音声を生成する編集合成と呼ばれるこの方式で合成音声データを生成するためには、予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書36が必要であり、音声編集合成部35は、テキスト入力処理部23から送られてきたテキストデータを断片化し、その断片を登録音声エレメント辞書を用いて音声データの断片で置き換えていく。
【0035】
この実施形態では、その登録音声エレメント辞書36に、個人別で登録された肉声データを格納することも可能である。つまり、音声付き画像シートの顧客に対して予め、編集合成のために最低限必要とされる音声エレメントを顧客自身の肉声で登録・格納しておき、音声付き画像シートの注文時には、本人の登録音声エレメントを用いた編集合成で合成音声データが作成される。登録されていない顧客に対しては、標準で用意されている音声エレメントが使用される。
【0036】
また、この実施形態の音声・画像処理装置は、図6に示すような、証明写真装置やプリクラ装置のようなボックス形の外観を備えており、音声付き写真2を作成しようとする顧客は、料金を投入した後、モニタ4に表示される指示メッセージに従って、備え付けられているデジタルカメラで自分を撮影するとともに、音声メッセージ化したいテキストデータを備え付けられているタッチパネル式キーボード8aを使って入力するか、又はマイク6aを通じて肉声で入力する。また、プリント部3として昇華型の熱転写プリンタが採用されている。
【0037】
この別実施形態の音声・画像処理装置による音声付き写真2の典型的な作成手順を図7のフローチャートを用いて説明する。ここでは音声付き写真2のための画像ソースはデジタルカメラの撮像画像データであり、その音声ソースは備え付けのキーボード8aから直接入力されたテキストデータとする。
【0038】
音声付き写真2の作成を希望する顧客は、指定された硬貨を硬貨投入口に入れることにより(#101)モニタ4に表示されるメニュに従って、まず装置に備えられたデジタルカメラで証明写真装置やプリクラ装置と同様な手順で自分を撮影する(#110)。このデジタルカメラはI/Oインタフェース10と直接接続されているので、デジタルカメラによって取得された画像データは直ちに画像入力処理部21に転送される(#111)。画像入力処理部21に転送された画像データは画像編集部21aの働きで、モニタ4でその画像イメージを確認しながらトリミングや拡大縮小等の編集処理を行うことができる(#112)。編集処理された画像データは、一旦画像データ格納部51に格納される(#113)。
【0039】
続いて、今回、音声コードイメージ化するためのソースデータとしてキーボード入力によるテキストデータを選択しているので、音声付き写真に組み込みたい音声メッセージを文としてキーボード8aから入力する(#114)。テキスト編集部23aはテキストエディタとしての機能を有するので、キーボード8aを通じて入力されたデータから文章を作成し、最終的にこのテキストデータを編集合成に適したフォーマットに変換して音声合成部30に送り出す(#115)。
【0040】
編集合成プロセスでは、まず、この顧客が予め音声登録しているかどうかをチェックする(#121)。音声登録している場合、その顧客の登録音声エレメントファイルがロードされる(#122)。この登録音声エレメントファイルのロードに関して種々の形態があるが、ここでは代表的な2つの形態を紹介する。
【0041】
第1のものは、顧客が、予め音声エレメント登録装置によって、必要な語彙・フレーズを肉声で登録し、その登録された語彙・フレーズを編集合成に適したフォマットでファイル化することによって得られた音声エレメントファイルをメモリカードに記録しておく形態である。音声登録しているかどうかのチェック段階でカードリーダ7aに該当メモリカードを挿入することにより、登録音声エレメントファイルが音声合成部30の登録音声エレメント辞書36にロードされる。第2のものは、予め音声エレメント登録装置によって作成された音声エレメントファイルを顧客IDをキーとして登録音声エレメント辞書36に格納しておく形態であり、音声登録しているかどうかのチェック段階で顧客IDを入力することにより、この顧客の登録音声エレメントファイルが以後の編集合成作業における登録音声エレメント辞書36として使用されるように設定される。登録音声エレメント辞書36は、この音声・画像処理装置に内蔵されるのではなく、通信回線でつながったサーバ内に設けられることが望ましい。つまり、顧客IDを入力すると、通信回線を通じて該当顧客の登録音声エレメントファイルが音声合成部30の登録音声エレメント辞書36にロードされる構成とするのである。
【0042】
音声登録していない場合、登録音声エレメント辞書36に格納されている標準音声エレメントファイルが以後の編集合成作業における登録音声エレメント辞書36として使用されるように設定される。(#123)。
【0043】
いずれにしても、編集合成プロセスでは、まず処理すべきテキストデータで表されいるメッセージ文を語彙・フレーズに分解し(#124)、それぞれに、登録音声エレメント辞書36としての音声エレメントファイルから抽出された断片的な音声エレメントを割り当て、合成音声データを生成する(#125)。
【0044】
この合成音声データに声質変形処理が要求されている場合(#25YES 分岐)、声質変形部34によって周波数線形変換等が施され(#26)、要求されていない場合(#25NO分岐)、合成音声データはそのままコード変換部40に送られ、以下#31〜#33で前述したように合成音声データの音声コードイメージ化が行われ、生成された音声コードイメージは音声コードイメージ格納部52に一旦格納される。
【0045】
画像データ格納部51に記憶された画像データと、音声コードイメージ格納部52に記憶された音声コードイメージは、予め選択されたテンプレートを用いて画像・音声コードイメージレイアウト編集部61によってレイアウト編集処理がなされる(#40)。
【0046】
画像・音声コードイメージ合成処理部62は、画像イメージのデータと音声コードイメージのデータをレイアウト情報に基づいて一体化し、プリントデータを生成する(#41)。このプリントデータがプリンタ3に送信されることにより、画像イメージと音声コードイメージが専用シートにプリントされ、図3で示されるような音声付き写真2として、装置前面に設けられたプリント取り出し口に排出される(#50)。
【0047】
上述した実施の形態では、画像データと音声コードイメージは画像・音声合成処理部60によって合成されていたが、画像・音声合成処理部60を省略して、このプリンタ3によってプリント出力されていたが、画像データと音声コードイメージを別々のプリンタでプリント出力してもよい。その際、音声コードイメージのプリント出力にシールプリンタで、音声コードイメージを形成したシールを画像を形成したシート、例えば写真プリントに貼り付けるように構成するとよい。
【0048】
さらに上述した全ての実施の形態では、入力されたテキストデータは、いったん音声合成部30で合成音声データ化され、この合成音声データが音声コードイメージに変換されていたが、テキスト入力処理部23で処理されたテキストデータを直接音声コードイメージに変換することも可能である。そのような音声・画像処理装置は、図8で示すように、音声合成部30が省略された代わりに、コード変換部40に、テキストデータを所定の要素に断片化して得られたテキストエレメントに順次対応する音声コードイメージを割り当てていくテキスト/音声コードイメージ置換部44と、テキストエレメントに対応する音声コードイメージを登録した音声コードイメージ辞書45を備えている。つまり、テキストを構成する語彙やフレーズに対応する音声コードイメージを当てはめながら順次つなぎ合わせていくことにより最終的な音声コードイメージを作り出すのである。
【図面の簡単な説明】
【図1】本発明による音声・画像処理装置の1つの実施形態を示す外観図
【図2】図1による音声・画像処理装置の機能ブロック図
【図3】音声・画像処理装置によって作成された音声付き写真から音声を再生する様子を示す説明図
【図4】図2に示された音声・画像処理装置を用いた音声付き写真の作成手順を示すフローチャート
【図5】本発明による音声・画像処理装置の別実施形態を示す機能ブロック図
【図6】図5による音声・画像処理装置の外観図
【図7】図5に示された音声・画像処理装置を用いた音声付き写真の作成手順を示すフローチャート
【図8】本発明による音声・画像処理装置のさらに別な実施形態を示す機能ブロック図
【符号の説明】
2 音声付き画像シート(音声付き写真)
3 プリント部(銀塩写真プリンタ、昇華型熱転写プリンタ)
21 画像入力部
22 音声入力部
23 テキスト入力処理部
24 文字認識部
30 音声合成部
31 テキスト音声合成部
32 テキスト解析用辞書
33 合成音声エレメント辞書
34 声質変形部
35 音声編集合成部
36 登録音声エレメント辞書
60 画像音声合成処理部

Claims (7)

  1. 音声データを光学的に読み取り可能なようにコード化された音声コードイメージに変換するコード変換部と、音声付き画像シートを作成するために前記音声コードイメージと画像データに基づく画像イメージをプリントするプリント部を備えた音声・画像処理装置において、
    入力されたテキストデータを処理するテキスト入力処理部と、
    前記テキスト入力処理部で処理されたテキストデータに基づいて合成音声データを生成する音声合成部とが備えられ、
    前記コード変換部が前記音声合成部で生成された合成音声データを前記音声コードイメージのためのソース音声データとして使用して、前記テキストデータの音声を再生する音声コードイメージ生成ることを特徴とする音声・画像処理装置。
  2. 前記音声合成部は、テキスト解析用辞書を用いて入力テキストデータを解析することでその読みを同定するとともにさらにアクセントと韻律を設定して得られた音韻系列から合成音声エレメント辞書を用いて合成音声データを生成するテキスト音声合成部を備えていることを特徴とする請求項に記載の音声・画像処理装置。
  3. 前記合成音声エレメント辞書に格納される合成音声エレメントは個人別で登録された肉声データに基づいて作製されていることを特徴とする請求項2に記載の音声・画像処理装置。
  4. 前記音声合成部は、入力テキストデータを予め登録された語彙やフレーズの肉声データを格納している登録音声エレメント辞書を用いて断片的に順次合成音声データに変換する音声編集合成部を備えていることを特徴とする請求項に記載の音声・画像処理装置。
  5. 前記登録音声エレメント辞書は、個人別で登録された肉声データを格納していることを特徴とする請求項に記載の音声・画像処理装置。
  6. 前記音声合成部は前記合成音声データの声質を変形させる声質変形部を備えていることを特徴とする請求項1〜5のいずれかに記載の音声・画像処理装置。
  7. 文字認識装置が追加的に備えられており、この文字認識装置によって出力されたテキストデータが音声コードイメージ変換に用いられることを特徴とする請求項1〜のいずれかに記載の音声・画像処理装置。
JP2000208021A 2000-07-10 2000-07-10 音声・画像処理装置 Expired - Fee Related JP4319334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000208021A JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000208021A JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Publications (2)

Publication Number Publication Date
JP2002027177A JP2002027177A (ja) 2002-01-25
JP4319334B2 true JP4319334B2 (ja) 2009-08-26

Family

ID=18704679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000208021A Expired - Fee Related JP4319334B2 (ja) 2000-07-10 2000-07-10 音声・画像処理装置

Country Status (1)

Country Link
JP (1) JP4319334B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007135110A (ja) * 2005-11-11 2007-05-31 Ricoh Co Ltd 画像形成装置
JP2022061363A (ja) * 2020-10-06 2022-04-18 シャープ株式会社 音声メッセージ付画像の生成制御装置および生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2833975B2 (ja) * 1992-09-28 1998-12-09 オリンパス光学工業株式会社 ドットコード
JP3439840B2 (ja) * 1994-09-19 2003-08-25 富士通株式会社 音声規則合成装置
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JP2000075874A (ja) * 1998-09-01 2000-03-14 Sharp Corp 情報処理装置および情報処理コンピュータプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2002027177A (ja) 2002-01-25

Similar Documents

Publication Publication Date Title
US6687383B1 (en) System and method for coding audio information in images
KR100805811B1 (ko) 영상 처리 장치 및 음성 코드화 기록 매체
EP0743614B1 (en) Information processor having two-dimensional bar code processing function
US7747655B2 (en) Printable representations for time-based media
CN1119698C (zh) 用于产生带有音频编码图象的记录媒体的装置
JPH02204827A (ja) 報告作成装置および方法
JP2010160316A (ja) 情報処理装置及びテキスト読み上げ方法
CN103348338A (zh) 文件格式、服务器、数字漫画的观看器设备、数字漫画产生设备
JP2002041502A (ja) ドキュメント作成システム及びドキュメント作成方法
JP2011043716A (ja) 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
JP4818415B2 (ja) 電子漫画製造装置及び電子漫画製造方法
JPH11175517A (ja) 情報処理装置およびその方法
JPH11175092A (ja) オーディオから派生したテキストのイメージとの関連付け
JPH1155614A (ja) 音声認識画像処理装置
JP2001075581A (ja) 電子漫画製造装置および電子漫画出力装置
JP4319334B2 (ja) 音声・画像処理装置
JP2001333378A (ja) 画像処理機及びプリンタ
JPH11175308A (ja) 文書読み上げ音声の声色指定方法
JP4765274B2 (ja) 音声合成装置及び音声合成方法
Fruchterman Accessing books and documents
JP2002215533A (ja) コミック自動生成装置
JPH11317025A (ja) マルチメディア記録媒体の再生装置、再生方法ならびに記録媒体への記録方法
JP2000075874A (ja) 情報処理装置および情報処理コンピュータプログラムを記録した記録媒体
JPH07146919A (ja) 文書作成補助装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090521

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090528

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees