JP2006093918A - デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 - Google Patents
デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 Download PDFInfo
- Publication number
- JP2006093918A JP2006093918A JP2004274404A JP2004274404A JP2006093918A JP 2006093918 A JP2006093918 A JP 2006093918A JP 2004274404 A JP2004274404 A JP 2004274404A JP 2004274404 A JP2004274404 A JP 2004274404A JP 2006093918 A JP2006093918 A JP 2006093918A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- information
- signal
- audio
- digital broadcast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Receiver Circuits (AREA)
- Television Systems (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
【課題】現在の場面に登場する話者が発する音声を聞き取り易くすることが可能なデジタル放送受信装置を提供する。
【解決手段】チューナ1で受信した放送信号から音声デコード部22b、字幕デコード部22cでそれぞれ抽出してデコードした音声信号と字幕情報とを音声・字幕比較部23で比較し字幕が付与されている音声信号部分を抽出して周波数変換部24で周波数領域の信号に変換し、メタデータ取得部22dで取得した番組に関するメタデータにより現在の場面で登場する話者が発する音声の周波数帯域を話者推定部25で推定し、周波数領域抽出部26で周波数領域に変換した音声信号の中から該話者の周波数帯域と推定した音声信号部分を抽出して時間領域の信号に逆変換して、音声調整部27で逆変換した音声信号部分あるいはそれ以外の背景音声部分の音量及び/又は音質を適切に調整し、バッファ28で映像信号と位相を合わせて出力部29から出力する。
【選択図】図2
【解決手段】チューナ1で受信した放送信号から音声デコード部22b、字幕デコード部22cでそれぞれ抽出してデコードした音声信号と字幕情報とを音声・字幕比較部23で比較し字幕が付与されている音声信号部分を抽出して周波数変換部24で周波数領域の信号に変換し、メタデータ取得部22dで取得した番組に関するメタデータにより現在の場面で登場する話者が発する音声の周波数帯域を話者推定部25で推定し、周波数領域抽出部26で周波数領域に変換した音声信号の中から該話者の周波数帯域と推定した音声信号部分を抽出して時間領域の信号に逆変換して、音声調整部27で逆変換した音声信号部分あるいはそれ以外の背景音声部分の音量及び/又は音質を適切に調整し、バッファ28で映像信号と位相を合わせて出力部29から出力する。
【選択図】図2
Description
本発明は、デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体に関し、特に、デジタルテレビジョン放送を受信するデジタル放送受信装置において、放送されてくる放送信号のストリーム情報から番組に関するメタデータと字幕情報とを抽出し、該メタデータから話者と該話者が発する声の周波数特性との推定を行ない、該話者が発する声の周波数特性に基づいて、字幕情報が付与されている音声信号部分のうち、該話者の音声信号部分を判別し、該話者の声や台詞など、該話者が話している音声信号部分の音量及び/又は音質を調整することを可能とする技術に関する。また、放送されてくる放送信号のストリーム情報から音声信号と字幕情報とを抽出し、該字幕情報を音声化し、前記ストリーム情報から抽出した前記音声信号とのマッチング処理を行なうことにより、登場人物の声や台詞など、該登場人物が話している音声信号部分の音量及び/又は音質を調整することを可能とする技術に関する。
近年、デジタルテレビジョン放送を視聴する環境として、5.1チャンネルスピーカなどを用いた音声の高音質化、サラウンド化が普及している。しかしながら、音声再生技術の発達と共に、アナウンサの声や出演者の台詞などといった、実際の登場人物が発している声が聞き取りにくくなる状況が発生している。例えば、番組の背景に流れる周囲の歓声などに遮られ、アナウンサの声が聞こえなくなる状況が起きている。
この点に関し、特許文献1に示す特開平8−181943号公報「情報記録担体再生装置」には、映像情報及び音声情報が記録されている情報記録担体を再生する情報記録担体装置(レーザディスク、ビデオCDなど)において、再生画像中に字幕部分を検出すると、人の声の音声帯域外の音量を減衰させることにより、当該人が発する台詞等を聞き取り易くする技術が記載されている。なお、地上デジタル放送の場合、字幕情報を付与することが可能な番組については、全ての番組において、登場人物が発する台詞等について、2007年までに、同一の情報からなる字幕情報を付与することが義務付けられている。
特開平8−181943号公報
しかしながら、前記特許文献1に示す技術は、情報記録担体装置で再生される映像情報、音声情報のみを対象としているものであり、デジタルテレビジョン放送等を受信するデジタル放送受信装置については何らの記載もなされていない。また、字幕情報が付与されている場面に関して、登場人物の声についての主な周波数帯域と推定される100Hz〜10KHzの範囲の信号を全て通過させ、その他の帯域の信号を減衰するように調整しているため、人の声と同じ周波数帯域を持つ、広い範囲の背景の音も同じように全て通過してしまう。
更に、字幕情報を検出する方法として、輝度レベルが高い白色を有する字幕情報を映像信号の輝度変化の中から検出する方法を用いているが、デジタルテレビジョン放送の字幕情報には色が白色以外のものもあり、また、字幕情報以外のテロップなどが映像情報の中に表れたときに、字幕情報として誤認識してしまう場合も発生する。更に、字幕情報には、映像情報としては表れないもの(即ち、Closed Caption)も存在していて、前記特許文献1の技術を適用することはできない。
以上のごとく、従来の前記特許文献1のような技術では、デジタルテレビジョン放送を受信するデジタル放送受信装置において、現在の場面で登場しているアナウンサの声や出演者の台詞などといった、登場人物が発している音声が聞き取りにくくなる状況を回避する効果的な対策が不十分であるという問題を有している。
本発明は、かかる問題に鑑みてなされたものであり、受信した放送信号の中から、少なくとも音声信号と字幕情報とを抽出し、場合によっては、更に番組に関するメタデータを抽出し、抽出した字幕情報に基づいて、場合によってはメタデータをも用いて、受信した音声信号のうち、現在の場面で登場する登場人物が発していると推定される音声信号部分を確実に抽出することにより、該登場人物が発する音声信号部分の音量及び/又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び/又は音質を調整し、該登場人物が発する音声を聞き取り易くすることを目的としている。
第1の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段によりデコードした前記音声信号と前記字幕情報とを比較する比較手段とを備え、該比較手段による比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別手段を備えていることを特徴とする。
第2の技術手段は、前記第1の技術手段に記載のデジタル放送受信装置において、前記判別手段により現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換手段を備えていることを特徴とする。
第3の技術手段は、前記第2の技術手段に記載のデジタル放送受信装置において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコード手段を備え、該メタデータデコード手段によりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換手段により周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出手段を備えていることを特徴とする。
第4の技術手段は、前記第3の技術手段に記載のデジタル放送受信装置において、前記周波数領域抽出手段により時間領域に逆変換した音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第5の技術手段は、前記第3の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出手段により時間領域に逆変換した音声信号以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第6の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコード手段によりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出手段とを備えていることを特徴とする。
第7の技術手段は、前記第6の技術手段に記載のデジタル放送受信装置において、前記抽出手段により抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第8の技術手段は、前記第6の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記抽出手段により抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第9の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とする。
第10の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とする。
第11の技術手段は、前記第9又は第10の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去手段を備え、前記マッチング手段において前記字幕音声化手段により音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコード手段でデコードした前記音声信号の代わりに、前記ノイズ除去手段により抽出された前記音声信号部分とすることを特徴とする。
第12の技術手段は、前記第9乃至第11の技術手段のいずれかに記載のデジタル放送受信装置において、前記マッチング手段により抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第13の技術手段は、前記第9乃至第11の技術手段のいずれかに記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記マッチング手段により抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とする。
第14の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とを抽出してデコードするデコードステップと、該デコードステップによりデコードした前記音声信号と前記字幕情報とを比較する比較ステップとを有し、該比較ステップによる比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別ステップを有していることを特徴とする。
第15の技術手段は、前記第14の技術手段に記載のデジタル放送受信方法において、前記判別ステップにより現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換ステップを有していることを特徴とする。
第16の技術手段は、前記第15の技術手段に記載のデジタル放送受信方法において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコードステップを有し、該メタデータデコードステップによりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換ステップにより周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出ステップを有していることを特徴とする。
第17の技術手段は、前記第16の技術手段に記載のデジタル放送受信方法において、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第18の技術手段は、前記第16の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第19の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコードステップによりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出ステップとを有していることを特徴とする。
第20の技術手段は、前記第19の技術手段に記載のデジタル放送受信方法において、前記抽出ステップにより抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第21の技術手段は、前記第19の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記抽出ステップにより抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第22の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とする。
第23の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とする。
第24の技術手段は、前記第22又は第23の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去ステップを有し、前記マッチングステップにおいて前記字幕音声化ステップにより音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコードステップでデコードした前記音声信号の代わりに、前記ノイズ除去ステップにより抽出された前記音声信号部分とすることを特徴とする。
第25の技術手段は、前記第22乃至第24の技術手段のいずれかに記載のデジタル放送受信方法において、前記マッチングステップにより抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第26の技術手段は、前記第22乃至第24の技術手段のいずれかに記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記マッチングステップにより抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とする。
第27の技術手段は、前記第14乃至第26の技術手段のいずれかに記載のデジタル放送受信方法を、コンピュータにより実行可能なプログラムとして実行するデジタル放送受信プログラムとすることを特徴とする。
第28の技術手段は、前記第27の技術手段に記載のデジタル放送受信プログラムをコンピュータにより読み取り可能な記録媒体に記録しているプログラム記録媒体とすることを特徴とする。
以上のような各技術手段から構成される本発明によれば、受信した放送信号の中から、少なくとも音声信号と字幕情報とを抽出し、場合によっては、更に番組に関するメタデータを抽出し、抽出した字幕情報に基づいて、場合によってはメタデータをも用いて、受信した音声信号のうち、現在の場面で登場する登場人物が発していると推定される音声信号部分を確実に抽出することにより、該登場人物が発する音声信号部分の音量及び/又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び/又は音質を調整し、たとえ、背景部分の音が存在しているような場面であっても、その場面に登場している登場人物が発する音声を聞き取り易くすることができる。
また、受信した放送信号のストリーム情報から音声信号と字幕情報とを抽出し、該字幕情報を音声化した後、前記ストリーム情報から抽出した前記音声信号と対応付けしたマッチング処理を行なうことにより、現在の場面で登場している登場人物の声や台詞など、該登場人物が話している音声信号部分の音量及び/又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び/又は音質を調整し、たとえ、背景部分の音が存在しているような場面であっても、その場面に登場している登場人物が発する音声を聞き取り易くすることができる。
以下に、本発明に係るデジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体の実施形態について、その一例を図面を参照しながら説明する。
なお、以下の説明においては、本発明に係るデジタル放送受信装置を例にして詳細に説明することにより、本発明に係るデジタル放送受信方法の実施形態についても容易に理解することができるので、デジタル放送受信方法に関する説明は省略している。また、本発明に係るデジタル放送受信方法をコンピュータにより実行可能なプログラムとして実現することも、また、該プログラムをコンピュータにより読み取り可能な記録媒体に記録することも容易に理解できるので、本発明に係るデジタル放送受信プログラム及びプログラム記録媒体の実施形態に関する説明も省略する。
図1は、本発明に係るデジタル放送受信装置の実施形態における構成の一例を示すブロック構成図である。デジタル放送受信装置10において、放送局から放送されてくる放送信号のストリーム情報は、チューナ1にて受信され、選局されている所定周波数の信号成分が取り出される。チューナ1にて取り出された信号は、MPEG−TSデコーダ2に供給され、RAM(Random Access Memory)3を作業用メモリとして使用することにより、映像信号a、音声信号b、字幕情報c、番組に関するメタデータdを抽出してデコードする。
また、OSD生成部4では、CPU5からのチャンネル番号やメニュー等の文字図形情報を映像信号aに重畳する形式に変換する。MPEG−TSデコーダ2から出力される映像信号a及びOSD生成部4から出力される文字図形情報は合成され、例えば、図示していないモニタ等の表示部に映像として表示されることになる。一方、MPEG−TSデコーダ2から出力される音声信号bは、字幕情報cやメタデータdを参照して得られた情報に基づいて音量及び/又は音質が調整されて、MPEG−TSデコーダ2から出力される映像信号aとの位相合わせをして、図示していないスピーカ等から音声として出力される。
CPU5は、ROM6に格納されているプログラムに基づいて、デジタル放送受信装置10全体の動作を制御する。更に、リモートコントロール受信部(リモコン受信部)7は、ユーザが操作を行なうためのリモートコントローラ(図示せず)からの操作信号を受信する。CPU5は、このリモートコントロール受信部7が受信した操作信号に基づいて、デジタル放送受信装置10の各種設定情報や状態等の変更処理を実行する。
図2は、本発明に係るデジタル放送受信装置におけるMPEG−TSデコーダの内部ブロック構成の第1の実施例を説明するためのブロック構成図であり、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2の内部構成に関する第1の実施例を説明しているものである。
図2に示すMPEG−TSデコーダ2は、放送されてくるデジタルテレビジョン放送を選局するチューナ1からの出力ストリームを受け取る入力部21と、入力部21からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部22a、音声デコード部22b、字幕デコード部22cと、音声デコード部22bでデコードした音声信号と字幕デコード部22cでデコードした字幕情報とを比較する比較手段と、該比較手段による比較結果、字幕情報として付与されている音声信号部分と同一の情報がデコードした音声信号に存在するか否かに基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別する判別手段とを提供すると共に、デコードした音声信号の中から字幕情報として付与されている音声信号部分を抽出する音声・字幕比較部23と、抽出した音声信号部分の周波数帯域を算出して時間領域から周波数領域の音声信号に変換する周波数変換部24とを備えている。
更に、図2に示すMPEG−TSデコーダ2は、入力部21に入力された番組のストリーム情報から番組に関する情報をデコードし取得するメタデータデコード手段となるメタデータ取得部22dと、取得したメタデータから現在の場面で登場して話している話者と該話者が発する声の周波数特性とを推定する話者推定部25と、周波数変換部24で周波数領域に変換した音声信号の中から、話者推定部25により推定した話者が発する声の周波数特性に基づいて、抽出すべき音声信号の周波数範囲を決定し、現在の場面の話者が話している音声信号部分のみを抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出部26と、話者が発した音声として時間領域に逆変換された音声信号とそれ以外の音声信号のいずれかの信号の音量及び/又は音質を調整する音声調整部27とを備えている。
更に、図2に示すMPEG−TSデコーダ2は、映像デコード部22aでデコードされた映像信号と音声調整部27で調整された音声信号との位相を合わせるためにバッファリングするバッファ28と、バッファリングしている映像信号と音声信号とを外部に出力する出力部29とを備えている。
なお、図2に示すブロック構成では、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2の内部に、図2における各種回路部を備えて構成するようにしているが、MPEG−TSデコーダ2の内部には、入力部21、映像デコード部22a、音声デコード部22b、字幕デコード部22c、メタデータ取得部22dのみを備えることとし、図2におけるその他の回路部は、MPEG−TSデコーダ2の外部に配置し、デジタル放送受信装置10内部のそれぞれの回路部として構成するようにしても構わない。
次に、図2に示すMPEG−TSデコーダ2の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ1で受信し、MPEG−TSデコーダ2の入力部21に入力されてくると、映像デコード部22a、音声デコード部22b、字幕デコード部22cにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。同様に、メタデータ取得部22dにて、番組に関するメタデータをデコードして取得する。
なお、BSデジタル放送や地上デジタル放送で用いられている放送信号に関する規格であるMPEG−2 TSでは、番組に関する映像信号、音声信号の他に、字幕情報や当該番組に関する情報が記述されたメタデータをそれぞれ格納しているフィールドが存在している。それぞれのフィールドに格納された字幕情報及びメタデータをストリーム情報の中から読み取ることにより、字幕情報及びメタデータを放送波の中から直接取り出すことができる。
続いて、音声デコード部22b、字幕デコード部22cにてそれぞれデコードした音声信号、字幕情報を音声・字幕比較部23にて比較する。音声・字幕比較部23は、前述の通り、音声デコード部22bにてデコードした音声信号の中に、字幕情報と同一の情報が含まれているか否かを調べて、現在の場面が字幕情報に付与されていて、登場人物が話している場面であるか否かを判別する。現在の場面が該場面で登場する登場人物が話している場面であると判別した場合、該字幕情報が付与されている音声信号部分を抽出する。
なお、デジタルテレビジョン放送では、2007年までに、各場面に登場する登場人物が話した言葉に対して、同一の情報からなる字幕情報を付与することとされている。放送されてきた音声信号に対応して、同一の情報の字幕情報が付与されていれば、その音声信号の部分は、現在の場面で登場する登場人物が話している部分と判断することができる。更に言えば、音声信号に対する字幕情報の有無の確認を行ない、字幕情報が付与されている音声信号の抽出を行なうことにより、現在の場面は、登場人物が話している場面か否かの判別をすることができる。
続いて、メタデータ取得部22dにて取得した番組に関するメタデータから、現在、話している話者と該話者が発する声の周波数特性とを話者推定部25にて推定する。デジタルテレビジョン放送では、番組に関するメタデータとして、番組に関連した様々な詳細情報(例えば、番組のアナウンサ名や出演者名、出演者の情報、番組名、番組ジャンルなど)が、ストリーム情報として送られてくる。このメタデータの記述に基づき、現在の場面で話している話者が、男性なのか女性なのか、大人なのか子供なのか、日本人なのか外国人なのか、などの話者の推定を行なうことができる。更に云えば、番組に関するメタデータに基づいて、現在の場面で話している話者の性別や幼長や国別などを識別することにより、該話者が発する声の周波数特性即ち該話者が話している音声の周波数帯域を推定することができる。
一般に、人が話す言葉の周波数帯域は、男性と女性、大人と子供、日本人と外国人などにより異なってくる。例えば、「音声の音響分析」(レイ・D・ケント著、開文堂刊)にも記載のように、一般男性の基本周波数は、大体120Hzと、低い周波数帯域で発声され、女性の基本周波数は、225Hz、幼児であれば、300Hzと、女性や子供は、一般男性に比して高い周波数帯域で発声されている。また、外国人が話す言語として英語(米語は別)の場合であれば、例えば、インターネット上のWebサイトの一つである「All About Japan」(「英語の周波数とは何か?:ビジネス英語」)(URL:http://allabout.co.jp/study/bizenglish/closeup/CU20030430biz15/)にも記載されているように、日本語の周波数が150〜1,500Hzであるのに対して、3,000〜12,000Hzと、日本語よりもかなり高い周波数帯域で発声されている。
一方、音声・字幕比較部23で抽出された音声信号は、周波数変換部24にて時間領域から周波数領域の信号に変換される。その後、周波数領域に変換された音声信号の中から取り出すべき音声信号の周波数範囲を、話者推定部25で推定した話者が発する声の周波数特性に基づき、周波数領域抽出部26にて決定して、現在の場面において該話者が発している音声信号部分の抽出を行ない、更に、周波数領域から時間領域の音声信号に逆変換する。即ち、音声・字幕比較部23にて字幕情報が付与されている信号として抽出された音声信号を周波数変換部24で周波数領域の信号に変換しているので、周波数領域抽出部26では、話者推定部25にて推定された話者が発する声の特性に合わせた周波数帯域のみの抽出を行ない、続いて、抽出した音声信号を周波数領域から元の時間領域の音声信号に戻す。
例えば、現在の場面で話している話者が、男性と推定されれば、男性の周波数特性に合わせた低い周波数帯域のみを抽出し、女性や子供と推定されれば、それぞれの周波数特性に合わせた高い周波数帯域のみの抽出を行なう。これにより、背景部分に音が入っているような場面においても、現在話している話者の周波数特性に合わせた周波数範囲の音声信号のみを抽出することができる。
ここで、周波数変換部24における周波数領域への変換とは、例えばフーリエ変換のような変換を意味しているが、本発明は、フーリエ変換に限るものではなく、時間領域の音声信号を周波数領域の信号に変換することができるものであれば、如何なる変換方法を用いても良い。また、周波数領域抽出部26における時間領域への逆変換とは、例えば逆フーリエ変換のような変換処理を意味するが、本発明は、この逆フーリエ変換に限るものではなく、周波数変換部24における周波数領域への変換に対する逆変換を施し、音声信号を元の時間領域の信号に変換するものであれば如何なる変換を用いても良い。
音声調整部27では、現在の場面において字幕情報が付与されている音声信号として抽出された話者の周波数特性に合った音声信号部分(話者音声信号部分)について、例えば信号レベル(音量)を増幅、減衰したり、及び/又は、周波数特性(音質)を変更したり、あるいは、逆に、字幕情報が付与されていない音声信号部分(背景音声信号部分)の信号レベル(音量)を減衰したり、及び/又は、周波数特性(音質)を変更したりして、話者が発する音声を聞き取り易くするように、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整することができる。
なお、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整する調整方法や調整レベルなどに関する音声調整部27に対する設定は、ユーザがリモコンなどを用いて操作した結果を、図1に示すリモートコントロール受信部7により操作信号として受信することにより、任意に行なうことができる。あるいは、デジタル放送受信装置10にデフォルト値として標準的な状態を予め設定しておくことにより、予め設定された或る一定のレベルで増幅や減衰を行なうようにしても良い。
音声調整部27により調整された音声信号は、バッファ28にバッファリングされ、映像デコード部22aからの映像信号と位相を合わせて出力部29から出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号を抽出して、音量及び/又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び/又は音質の調整を行なったりして、話者の発する音声を聞き取り易くすることができる。
なお、前述の説明では、字幕情報が付与されている音声信号を周波数変換部24において一旦周波数領域に変換し、周波数領域抽出部26において話者の周波数特性に合わせて抽出した音声信号を時間領域へ逆変換して戻す場合について説明したが、場合によっては、字幕情報が付与されている音声信号を周波数変換することなく、時間領域の音声信号のまま、話者推定部25にて推定された話者が発する声の周波数特性に合わせた音声信号を抽出するように構成しても構わない。
以上に説明した動作を、図3に示すフローチャートを用いて、更に説明する。ここに、図3は、本発明に係るデジタル放送受信装置の第1の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号、字幕情報及び番組に関するメタデータをMPEG−TSデコード2の各デコード部でそれぞれデコードする(ステップS1)。次に、デコードした音声信号に対応して、字幕情報が付与されているか否かの比較を、音声・字幕比較部23で行なう(ステップS2)。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号、字幕情報及び番組に関するメタデータをMPEG−TSデコード2の各デコード部でそれぞれデコードする(ステップS1)。次に、デコードした音声信号に対応して、字幕情報が付与されているか否かの比較を、音声・字幕比較部23で行なう(ステップS2)。
デコードした音声信号に対応した情報からなる字幕情報が付与されていると判定した場合(ステップS3のYES)、現在の場面が該場面で登場する登場人物が話している場面であるものと判定し、該字幕情報に対応した音声信号を抽出した後、抽出した音声信号の中から、メタデータから推定される話者の声の周波数特性に基づいて、現在の場面における話者の音声信号部分を確実に取り出すことができるように、抽出した音声信号を周波数変換部24にて周波数領域の信号に変換する(ステップS4)。
一方、音声信号に対応した情報からなる字幕情報が付与されていない場合には(ステップS3のNO)、現在の場面で話者が話している音声信号とは判定することができないので、音声信号はそのまま出力される。
一方、音声信号に対応した情報からなる字幕情報が付与されていない場合には(ステップS3のNO)、現在の場面で話者が話している音声信号とは判定することができないので、音声信号はそのまま出力される。
ステップS4において周波数領域に変換された音声信号は、話者推定部25にてメタデータにより推定された話者の声の周波数範囲に含まれているか否かが、周波数領域抽出部26にて判定される(ステップS5)。メタデータにより推定された話者の声の周波数範囲に含まれていると判定された場合には(ステップS5のYES)、現在の場面で話者が話している音声信号と判定されるので、該音声部分を抽出して時間領域の音声信号に逆変換した後、音声調整部27において話者の声の周波数範囲に該当する音声部分について音量及び/又は音質の調整が行なわれ(ステップS6)、バッファ28において、映像デコード部22aからの映像信号と位相を合わせて、出力部29から外部へ出力される(ステップS7)。一方、音声信号が、メタデータにより推定された話者の声の周波数範囲に含まれていないと判定された場合には(ステップS5のNO)、現在の場面で話者が話している音声信号とは判定することができないので、そのまま出力される。
本実施例1によれば、デジタルテレビジョン放送を受信するデジタル放送受信装置10において、字幕情報とメタデータとを利用して、各場面で登場する登場人物の話者が発する音声の周波数特性に合わせて、該話者の音声信号を抽出し、抽出した音声信号の音量及び/又は音質を聞き取り易いレベルに調整することができ、一方、話者には関係のない背景部分の音は増幅、減衰されることもなく、そのまま出力されるので、背景部分の音に遮られて、話者の発する声が聞き取りにくくなる状況を回避することができ、話者の声や台詞など、話者が話している音声部分を、聞き取り易い音量及び/又は音質に調整することができる。なお、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。
次に、本発明に係るデジタル放送受信装置の実施形態として、第2の実施例について説明する。図4は、本発明に係るデジタル放送受信装置におけるMPEG−TSデコーダの内部ブロック構成の第2の実施例を説明するためのブロック構成図であり、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2の内部構成に関する第2の実施例を説明しているものである。
図4に示すMPEG−TSデコーダ2′は、放送されてくるデジタルテレビジョン放送を選局するチューナ1からの出力ストリームを受け取る入力部21と、入力部21からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部22a、音声デコード部22b、字幕デコード部22cと、字幕デコード22cからの字幕情報を音声情報に変換するための字幕音声化手段である字幕・音声変換部30と、音声デコード部22bでデコードした音声信号と字幕・音声変換部30で変換した音声情報とを対応付けて照合し、マッチングしている音声信号の部分、即ち、字幕情報が付与されている音声信号の部分を、現在の場面で登場する登場人物が話している音声信号部分として抽出するマッチング部31とを備えている。
ここで、マッチング部31において、音声デコード部22bにてデコードした音声信号と字幕・音声変換部30にて変換した音声情報とを対応付けて照合を行なう方法としては、周波数領域にて対応付けて照合する方法と、時間領域のままで対応付けて照合を行なう方法のいずれでも用いることができ、いずれの方法を用いた場合でも、デコードした音声信号と変換した音声情報との各要素間を対応付けた両者の相関値を算出し、該相関値が予め設定した設定値以上の音声信号部分を抽出することにより、現在の場面で登場する登場人物が話している音声信号部分として、字幕情報が付与されている音声信号部分を抽出することができる。
更に、図4に示すMPEG−TSデコーダ2′は、マッチング部31で抽出した音声信号とそれ以外の音声信号とのいずれかの信号の音量及び/又は音質を調整する音声調整部27を備え、更に、映像デコード部22aでデコードされた映像信号と音声調整部27で調整された音声信号との位相を合わせるためにバッファリングするバッファ28と、バッファリングしている映像信号と音声信号とを外部に出力する出力部29とを備えている。即ち、図2に示すMPEG−TSデコーダ2の場合において字幕情報が付与された音声信号を得るために備えられた音声・字幕比較部23、周波数変換部24、メタデータから話者を特定し該当する音声信号部分を抽出するために備えられたメタデータ取得部22d、話者推定部25、周波数領域抽出部26の代わりに、字幕情報から音声情報を生成して、該音声情報にマッチングする音声信号を抽出するために、字幕・音声変換部30とマッチング部31とが備えられている。
なお、図4に示すブロック構成では、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2(即ち、図4のMPEG−TSデコーダ2′)の内部に、図4における各種回路部を備えて構成するようにしているが、第1の実施例の場合と同様に、図1のMPEG−TSデコーダ2の内部には、入力部21、映像デコード部22a、音声デコード部22b、字幕デコード部22cのみを備えることとし、図4におけるその他の回路部は、図1のMPEG−TSデコーダ2の外部に配置し、デジタル放送受信装置10内部のそれぞれの回路部として構成するようにしても構わない。
次に、図4に示すMPEG−TSデコーダ2′の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ1で受信し、MPEG−TSデコーダ2′の入力部21に入力されてくると、映像デコード部22a、音声デコード部22b、字幕デコード部22cにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。
なお、BSデジタル放送や地上デジタル放送で用いられている放送信号に関する規格であるMPEG−2 TSでは、番組に関する映像信号、音声信号の他に、字幕情報や当該番組に関する情報が記述されたメタデータをそれぞれ格納しているフィールドが存在している。これらのフィールドに格納された字幕情報をストリーム情報の中から読み取ることにより、字幕情報を放送波の中から直接取り出すことができる。
続いて、字幕デコード部22cにてデコードした字幕情報を字幕・音声変換部30にて音声情報に変換する。この字幕・音声変換部30における変換処理は、後述するマッチング部31における、人が発する言葉の速さ(話速)の差異を吸収したマッチングを可能にすることを考慮して、標準的な人が発する話速パターンの幅を網羅できる形態に変換される。例えば、同じ単語であっても、早口で話す音声パターンとゆっくり話す音声パターンとがあり、その中間の標準的な話速の音声パターンに変換することにより、マッチング部31において、字幕・音声変換部30にて変換した音声情報と音声デコード部22bからの音声信号とを各要素間で対応付けしてマッチングして、両者の類似度を算出する処理を比較的容易に行なうことができるようになる。
更に説明すれば、マッチング部31において、字幕・音声変換部30にて変換された音声情報と、放送波として送られてきて、音声デコード部22bにてデコードされた音声信号とのマッチングを行なう。このマッチング部31におけるマッチング処理は、字幕・音声変換部30で得られた音声情報の話速を標準モデルとして、該標準モデルと放送波として送られてきた音声信号の話速との差異を吸収するようなマッチング方法が用いられる。かくのごときマッチング方法とは、例えば、話速の差異を吸収可能なDPマッチング(Dynamic Programing Matching)のようなものを指すが、同様の機能を果たす方法であれば如何なるマッチング方法を用いても良い。また、前述のように、マッチング部31では、周波数領域にて対応付けて両者の音声の照合を行なうようにしても良いし、時間領域のままで対応付けて照合を行なうようにしても良い。
マッチング部31におけるマッチング処理により、音声デコード部22bにてデコードした音声信号の中に、字幕情報と同一の情報又は類似度が高い情報が含まれているか否かを調べて、デコードした音声信号の中から、字幕情報に付与されている情報と同一の情報又は類似度が高い情報からなる音声信号を、現在の場面で登場する登場人物が話している音声信号として抽出することができる。
なお、デジタルテレビジョン放送では、前述の通り、各場面に登場する登場人物が話した言葉に対して、同一の情報からなる字幕情報を付与することとされている。放送されてきた音声信号に対応して、同一の情報の字幕情報が付与されていれば、その音声信号の部分は、現在の場面で登場する登場人物が話している部分と判断することができる。
即ち、マッチング部31におけるマッチング処理により、音声化された字幕情報と、放送波として送られてきた音声信号との類似度即ち相関値を算出することができ、類似度即ち相関値が予め設定した或る設定値以上に高ければ、その音声信号部分は、現在の場面で登場人物が話している音声信号部分であると判断することができる。
最後に、音声調整部27では、現在の場面において、字幕情報が付与されている音声信号としてマッチング処理により類似度が高いものとされた話者の音声信号部分について、例えば信号レベル(音量)を増幅、減衰したり、及び/又は、周波数特性(音質)を変更したり、あるいは、逆に、字幕情報が付与されていない音声信号部分の信号レベル(音量)を減衰したり、及び/又は、周波数特性(音質)を変更したりして、話者が発する音声を聞き取り易くするように、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整することができる。
しかる後、音量調節部27により調整された音声信号は、バッファ28にバッファリングされ、映像デコード部22aからの映像信号と位相を合わせて出力部29から出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号のみを抽出して、音量及び/又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び/又は音質の調整を行なったりして、背景部分に音が入っているような場面においても、話者の発する音声を聞き取り易くすることができる。
なお、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整する調整方法や調整レベルなどに関する音声調整部27に対する設定は、第1の実施例の場合と同様に、ユーザがリモコンなどを用いて操作した結果を、図1に示すリモートコントロール受信部7により操作信号として受信することにより、任意に行なうことができる。あるいは、デジタル放送受信装置10にデフォルト値として標準的な状態を予め設定しておくことにより、予め設定された或る一定のレベルで増幅や減衰を行なうようにしても良い。
以上に説明した動作を、図5に示すフローチャートを用いて、更に説明する。ここに、図5は、本発明に係るデジタル放送受信装置の第2の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をMPEG−TSデコード2′の各デコード部でそれぞれデコードする(ステップS11)。次に、デコードした字幕情報を字幕・音声変換部30にて音声情報に変換する(ステップS12)。字幕・音声変換部30における音声情報への変換は、前述のように、後で行なうマッチング処理を考慮して、一般的な人が発する標準的な話速の音声パターンを網羅した形態とするように変換するものである。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をMPEG−TSデコード2′の各デコード部でそれぞれデコードする(ステップS11)。次に、デコードした字幕情報を字幕・音声変換部30にて音声情報に変換する(ステップS12)。字幕・音声変換部30における音声情報への変換は、前述のように、後で行なうマッチング処理を考慮して、一般的な人が発する標準的な話速の音声パターンを網羅した形態とするように変換するものである。
続いて、音声情報化した字幕情報と、放送波として送られてきて音声デコード部22bにてデコードされた音声信号とを対応付けるようなマッチング処理をマッチング部31にて行なう(ステップS13)。ここでのマッチング方法は、前述のように、DPマッチング法などを用いて、人が話す言葉の速さ(話速)の差異を吸収することが可能なマッチング方法とする。マッチング部31による音声情報(字幕情報)と音声信号とのマッチング結果として、両者の類似度を示す相関値を算出し、該相関値が予め設定されている設定値以上に大きいか否かを判定する(ステップS14)。なお、前記設定値とは、当該デジタル放送受信装置10が、デフォルト値として予め決められた設定値を保持していても良いし、あるいは、ユーザがリモコンなどを用いて予め自由に設定することも可能である。
音声情報(字幕情報)と音声信号との相関値が、前記設定値以上に大きいと判定された場合は(ステップS14のYES)、音声信号は、字幕情報が付与されていて、現在の場面で話者が話している音声であるものと判定して、音声調整部27において話者の声に該当する音声部分について音量及び/又は音質の調整が行なわれ(ステップS15)、バッファ28において、映像デコード部22aからの映像信号と位相を合わせて、出力部29から外部へ出力される(ステップS16)。
一方、音声情報(字幕情報)と音声信号との相関値が、前記設定値以上に大きいと判定されなかった場合には(ステップS14のNO)、現在の場面で話者が話している音声信号とは判定することができないので、背景部分の音としてそのまま出力される。なお、第1の実施例の場合と同様に、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。
次に、本発明に係るデジタル放送受信装置の実施形態として、第3の実施例について説明する。図6は、本発明に係るデジタル放送受信装置におけるMPEG−TSデコーダの内部ブロック構成の第3の実施例を説明するためのブロック構成図であり、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2の内部構成に関する第3の実施例を説明しているものである。
図6に示すMPEG−TSデコーダ2″は、放送されてくるデジタルテレビジョン放送を選局するチューナ1からの出力ストリームを受け取る入力部21と、入力部21からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部22a、音声デコード部22b、字幕デコード部22cと、字幕デコード22cからの字幕情報を音声情報に変換するための字幕音声化手段である字幕・音声変換部30と、音声デコード部22bでデコードした音声信号と字幕・音声変換部30で変換した音声情報とを対応付けて照合し、マッチングしている音声信号の部分、即ち、字幕情報が付与されている音声信号の部分を、現在の場面で登場する登場人物が話している音声信号部分として抽出するマッチング部31とを備え、更に、音声デコード部22bでデコードされた音声信号に含まれる背景音声成分を除去するためのノイズ除去部32を備えている。
ここで、マッチング部31において、音声デコード部22bにてデコードした音声信号と字幕・音声変換部30にて変換した音声情報とを対応付けて照合を行なう方法としては、第2の実施例の場合と同様に、周波数領域にて対応付けて照合する方法と、時間領域のままで対応付けて照合を行なう方法のいずれでも用いることができ、いずれの方法を用いた場合であっても、デコードした音声信号と変換した音声情報との各要素間を対応付けた両者の相関値を算出し、該相関値が予め設定した設定値以上の音声信号部分を抽出することにより、現在の場面で登場する登場人物が話している音声信号部分として、字幕情報が付与されている音声信号部分を抽出することができる。
更に、図6に示すMPEG−TSデコーダ2″は、マッチング部31で抽出した音声信号とそれ以外の音声信号とのいずれかの信号の音量及び/又は音質を調整する音声調整部27を備え、更に、映像デコード部22aでデコードされた映像信号と音声調整部27で調整された音声信号との位相を合わせるためにバッファリングするバッファ28と、バッファリングしている映像信号と音声信号とを外部に出力する出力部29とを備えている。即ち、図6に示すMPEG−TSデコーダ2″の構成は、図4に示すMPEG−TSデコーダ2′の構成に、更に、音声デコード部22bでデコードされた音声信号の中から、字幕情報が付与されていない音声信号を除去し、字幕情報が付与されている音声信号のみを抽出するノイズ除去部32が付加されて備えられている。
なお、図6に示すブロック構成では、図1に示すデジタル放送受信装置10のMPEG−TSデコーダ2(即ち、図6のMPEG−TSデコーダ2″)の内部に、図6における各種回路部を備えて構成するようにしているが、第1の実施例の場合と同様に、図1のMPEG−TSデコーダ2の内部には、入力部21、映像デコード部22a、音声デコード部22b、字幕デコード部22cのみを備えることとし、図6におけるその他の回路部は、図1のMPEG−TSデコーダ2の外部に配置し、デジタル放送受信装置10内部のそれぞれの回路部として構成するようにしても構わない。
次に、図6に示すMPEG−TSデコーダ2″の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ1で受信し、MPEG−TSデコーダ2″の入力部21に入力されてくると、映像デコード部22a、音声デコード部22b、字幕デコード部22cにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。
なお、BSデジタル放送や地上デジタル放送で用いられている放送信号に関する規格であるMPEG−2 TSでは、番組に関する映像信号、音声信号の他に、字幕情報や当該番組に関する情報が記述されたメタデータをそれぞれ格納しているフィールドが存在している。これらのフィールドに格納された字幕情報をストリーム情報の中から読み取ることにより、字幕情報を放送波の中から直接取り出すことができる。
続いて、音声デコード部22bにてデコードされた音声信号と字幕デコード部22cにてデコードされた字幕情報との照合をノイズ除去部32において行ない、音声信号に対応する字幕情報の有無を確認し、音声信号の中から字幕情報が付与されていない音声信号を取り除いて、字幕情報が付与されている音声信号のみを抽出する処理を行なう。即ち、ノイズ除去部32における抽出処理とは、字幕情報が付与されている音声信号の開始点を抽出し、該開始点の手前に位置する字幕情報が付与されていない音声信号を取り除く処理であり、この結果、字幕情報が付与されている音声信号の開始点から終了点までの音声情報のみを分離して、字幕情報が付与されている音声信号のみを抽出することができる。
即ち、ノイズ除去部32の抽出処理を行なうことにより、放送波として送られてきた音声信号の中から、字幕情報が付与されている音声信号の開始点から終了点までの音声信号を抽出することにより、現在の場面で話者が話している音声信号部分をより精度良く抽出することができ、後述するマッチング部31における音声信号と字幕情報とのマッチング処理の精度を更に向上させることができる。なお、ノイズ除去部32においては、マッチング部31に対して音声信号の中から背景音声部分を除去した音声信号を出力すると共に、背景音声部分の音声信号も音量調整部27にて音量及び/又は音質の調整対象として別個に出力するようにしても良い。
続いて、字幕デコード部22cにてデコードした字幕情報を字幕・音声変換部30にて音声情報に変換する。この字幕・音声変換部30における変換処理は、第2の実施例の場合と同様であり、後述するマッチング部31における、人が発する言葉の速さ(話速)の差異を吸収したマッチングを可能にすることを考慮して、一般的な人が発する標準的な話速の音声パターンを網羅できる形態に変換される。
続いて、マッチング部31において、ノイズ除去部32で得られた音声信号と、字幕音声変換部30で得られた音声情報とのマッチング処理を行なう。このマッチング部31におけるマッチング処理は、第2の実施例の場合と同様であり、字幕・音声変換部30で得られた音声情報の話速を標準モデルとして、該標準モデルと放送波として送られてきた音声信号の話速との差異を吸収するようなマッチング方法が用いられる。
マッチング部31のマッチング処理により、音声デコード部22bにてデコードした音声信号の中に、字幕情報と同一の情報又は類似度が高い情報が含まれているか否かを調べて、字幕情報に付与されている情報と同一の情報又は類似度が高い情報からなる音声信号を、現在の場面で登場する登場人物が話している音声信号として抽出することができる。また、前述のように、マッチング部31では、周波数領域にて対応付けて両者の音声の照合を行なうようにしても良いし、時間領域のままで対応付けて照合を行なうようにしても良い。
なお、デジタルテレビジョン放送では、前述の通り、各場面に登場する登場人物が話した言葉に対して、同一の情報からなる字幕情報を付与することとされている。放送されてきた音声信号に対応して、同一の情報の字幕情報が付与されていれば、その音声信号の部分は、現在の場面で登場する登場人物が話している部分と判断することができる。
即ち、マッチング部31におけるマッチング処理により、音声化された字幕情報と、放送波として送られてきた音声信号のうち背景音声部分を除去した音声信号との類似度即ち相関値を算出することができ、類似度即ち相関値が予め設定した或る設定値以上に高ければ、その音声信号部分は、現在の場面で登場する登場人物が話している音声信号部分であることをより正確に判断することができる。
最後に、音声調整部27では、現在の場面において、字幕情報が付与されている音声信号としてマッチング処理により類似度が高いものとされた話者の音声信号部分について、例えば信号レベル(音量)を増幅、減衰したり、及び/又は、周波数特性(音質)を変更したり、あるいは、逆に、字幕情報が付与されていない音声信号部分の信号レベル(音量)を減衰したり、及び/又は、周波数特性(音質)を変更したりして、話者が発する音声を聞き取り易くするように、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整することができる。
しかる後、音量調節部27により調整された音声信号は、バッファ28にバッファリングされ、映像デコード部22aからの映像信号と位相を合わせて出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号を抽出して、音量及び/又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び/又は音質の調整を行なったりして、背景部分に音が入っているような場面においても、話者の発する音声を聞き取り易くすることができる。
なお、話者が発する音声部分や背景音声部分の音量及び/又は音質を調整する調整方法や調整レベルなどに関する音声調整部27に対する設定は、第1の実施例の場合と同様に、ユーザがリモコンなどを用いて操作した結果を、図1に示すリモートコントロール受信部7により操作信号として受信することにより、任意に行なうことができる。あるいは、デジタル放送受信装置10にデフォルト値として標準的な状態を予め設定しておくことにより、予め設定された或る一定のレベルで増幅や減衰を行なうようにしても良い。
以上に説明した動作を、図7に示すフローチャートを用いて、更に説明する。ここに、図7は、本発明に係るデジタル放送受信装置の第3の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をMPEG−TSデコード2″の各デコード部でそれぞれデコードする(ステップS21)。次に、デコードした音声信号と字幕情報との照合を行ない、デコードした音声信号に対応して、字幕情報が付与されているか否かの確認をノイズ除去部32にて行なう(ステップS22)。
まず、放送波を受信し、チューナ1で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をMPEG−TSデコード2″の各デコード部でそれぞれデコードする(ステップS21)。次に、デコードした音声信号と字幕情報との照合を行ない、デコードした音声信号に対応して、字幕情報が付与されているか否かの確認をノイズ除去部32にて行なう(ステップS22)。
デコードした音声信号に対応して、字幕情報が付与されていると判定された場合には(ステップS23のYES)、音声信号の中から、字幕情報が付与されている音声信号の開始点を抽出し、該開始点からその開始点の手前に位置する字幕情報が付与されていない音声信号を取り除いて、字幕情報が付与されている音声信号のみを分離して抽出する(ステップS24)。一方、音声信号に対応した字幕情報が付与されていない場合には(ステップS23のNO)、現在の場面で話者が話している音声信号とは判定することができないので、そのまま出力される。
ステップS24において字幕情報が付与されている音声信号を抽出した場合、次に、デコードした字幕情報を字幕・音声変換部30にて音声情報に変換する(ステップS25)。字幕・音声変換部30における音声情報への変換は、前述のように、後で行なうマッチング処理を考慮して、一般的な人が発する標準的な話速の音声パターンを網羅した形態とするように変換するものである。
続いて、音声情報化した字幕情報と、放送波として送られてきてノイズ除去部32にてノイズ除去された音声信号とを対応付けるようなマッチングをマッチング部31にて行なう(ステップS26)。ここでのマッチング方法は、第2の実施例の場合と同様であり、DPマッチング法などを用いて、人が話す言葉の速さ(話速)の差異を吸収することが可能なマッチング方法とする。マッチング部31による音声情報(字幕情報)と音声信号とのマッチング結果として、両者の類似度を示す相関値を算出し、該相関値が予め設定されている設定値以上に大きいか否かを判定する(ステップS27)。なお、前記設定値とは、第2の実施例の場合と同様であり、当該デジタル放送受信装置10が、デフォルト値として予め決められた設定値を保持していても良いし、あるいは、ユーザがリモコンなどを用いて予め自由に設定することも可能である。
音声情報(字幕情報)と音声信号との相関値が、前記設定値以上に大きいと判定された場合は(ステップS27のYES)、音声信号は、字幕情報が付与されていて、現在の場面で話者が話している音声であるものと判定して、音声調整部27において話者の声に該当する音声部分について音量及び/又は音質の調整が行なわれ(ステップS28)、バッファ28において、映像デコード部22aからの映像信号と位相を合わせて、出力部29から外部へ出力される(ステップS29)。一方、音声情報(字幕情報)と音声信号との相関値が、前記設定値以上に大きいと判定されなかった場合には(ステップS27のNO)、現在の場面で話者が話している音声信号とは判定することができないので、背景部分の音としてそのまま出力される。なお、第1の実施例の場合と同様に、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。
以上に説明した第2、第3の実施例によれば、デジタルテレビジョン放送を受信するデジタル放送受信装置10において、字幕情報を利用して、現在の場面で話者が発する音声信号を抽出し、抽出した音声信号の音量及び/又は音質を聞き取り易いレベルに調整することができ、一方、話者には関係のない背景部分の音は、増幅、減衰されることもなくそのまま出力されるか、又は、音量及び/又は音質を際立たないレベルに調整して出力されるので、背景部分の音に遮られて、人の発する声が聞き取りにくくなる状況を回避することができ、話者の声や台詞など、話者が話している音声部分を聞き取り易い音量や音質に調整することができる。
また、本発明に係るデジタルテレビジョン放送の字幕情報を利用した話者の音声調整技術は、前述したような実施例に示す形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加え得ることは勿論である。例えば、前述の実施例においては、MPEG−TSデコーダ2にて、放送波から映像信号と音声情報と字幕情報と場合によってはメタデータをそれぞれ抽出してデコードする形式としているが、映像信号のデコード部を、音声情報や字幕情報のデコード部と別個に備えるように構成しても構わない。また、放送信号を受信するデジタル放送受信装置10は、如何なる形態であっても良く、例えば、デジタル放送信号を受信するSTB(Set Top Box)の形態で実現するものであっても良いし、あるいは、テレビ受像機として図1には図示していない表示部やスピーカ部と一体化して実現するものであっても良いし、あるいは、録画装置に内蔵する形態で実現しても良い。
また、MPEG−TSデコーダ2における音声調整部27において、現在の場面に登場する話者が発する声の音量及び/又は音質、あるいは、それ以外の背景音声部分の音量及び/又は音質を調整する実施例について説明したが、話者が発する声を聞き取り易くすることができる方法であれば、話者の音声信号の調整と同時に、話者以外の背景音声部分の音量レベルを減衰させたり、音質を変更させたりする調整を行なうようにしても良いし、更には、話者が発する音声信号部分の音声調整が困難な場合には、話者が発する音声信号部分を用いる代わりに、字幕情報から得られる標準的な音声情報を用いて出力するようにしても良い。
1…チューナ、2,2′,2″…MPEG−TSデコーダ、3…RAM、4…OSD生成部、5…CPU、6…ROM、7…リモートコントロール受信部、10…デジタル放送受信装置、21…入力部、22a…映像デコード部、22b…音声デコード部、22c…字幕デコード部、22d…メタデータ取得部、23…音声・字幕比較部、24…周波数変換部、25…話者推定部、26…周波数領域抽出部、27…音声調整部、28…バッファ、29…出力部、30…字幕・音声変換部、31…マッチング部、32…ノイズ除去部。
Claims (28)
- デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段によりデコードした前記音声信号と前記字幕情報とを比較する比較手段とを備え、該比較手段による比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項1に記載のデジタル放送受信装置において、前記判別手段により現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項2に記載のデジタル放送受信装置において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコード手段を備え、該メタデータデコード手段によりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換手段により周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項3に記載のデジタル放送受信装置において、前記周波数領域抽出手段により時間領域に逆変換した音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項3に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出手段により時間領域に逆変換した音声信号以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコード手段によりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出手段とを備えていることを特徴とするデジタル放送受信装置。
- 請求項6に記載のデジタル放送受信装置において、前記抽出手段により抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項6に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記抽出手段により抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とするデジタル放送受信装置。
- デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とするデジタル放送受信装置。
- 請求項9又は10に記載のデジタル放送受信装置において、前記デコード手段によりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去手段を備え、前記マッチング手段において前記字幕音声化手段により音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコード手段でデコードした前記音声信号の代わりに、前記ノイズ除去手段により抽出された前記音声信号部分とすることを特徴とするデジタル放送受信装置。
- 請求項9乃至11のいずれかに記載のデジタル放送受信装置において、前記マッチング手段により抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- 請求項9乃至11のいずれかに記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記マッチング手段により抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
- デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とを抽出してデコードするデコードステップと、該デコードステップによりデコードした前記音声信号と前記字幕情報とを比較する比較ステップとを有し、該比較ステップによる比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項14に記載のデジタル放送受信方法において、前記判別ステップにより現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項15に記載のデジタル放送受信方法において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコードステップを有し、該メタデータデコードステップによりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換ステップにより周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項16に記載のデジタル放送受信方法において、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項16に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコードステップによりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出ステップとを有していることを特徴とするデジタル放送受信方法。
- 請求項19に記載のデジタル放送受信方法において、前記抽出ステップにより抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項19に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記抽出ステップにより抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とするデジタル放送受信方法。
- デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とするデジタル放送受信方法。
- 請求項22又は23に記載のデジタル放送受信方法において、前記デコードステップによりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去ステップを有し、前記マッチングステップにおいて前記字幕音声化ステップにより音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコードステップでデコードした前記音声信号の代わりに、前記ノイズ除去ステップにより抽出された前記音声信号部分とすることを特徴とするデジタル放送受信方法。
- 請求項22乃至24のいずれかに記載のデジタル放送受信方法において、前記マッチングステップにより抽出した音声信号部分の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項22乃至24のいずれかに記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記マッチングステップにより抽出した音声信号部分以外の音声信号の音量及び/又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
- 請求項14乃至26のいずれかに記載のデジタル放送受信方法を、コンピュータにより実行可能なプログラムとして実行することを特徴とするデジタル放送受信プログラム。
- 請求項27に記載のデジタル放送受信プログラムをコンピュータにより読み取り可能な記録媒体に記録していることを特徴とするプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004274404A JP2006093918A (ja) | 2004-09-22 | 2004-09-22 | デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004274404A JP2006093918A (ja) | 2004-09-22 | 2004-09-22 | デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006093918A true JP2006093918A (ja) | 2006-04-06 |
Family
ID=36234493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004274404A Pending JP2006093918A (ja) | 2004-09-22 | 2004-09-22 | デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006093918A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013132321A (ja) * | 2011-12-26 | 2013-07-08 | Maruhon Industry Co Ltd | パチンコ機 |
JP2013132322A (ja) * | 2011-12-26 | 2013-07-08 | Maruhon Industry Co Ltd | パチンコ機 |
WO2015097831A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
CN112233647A (zh) * | 2019-06-26 | 2021-01-15 | 索尼公司 | 信息处理设备和方法以及计算机可读存储介质 |
WO2021084721A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
WO2021084719A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
-
2004
- 2004-09-22 JP JP2004274404A patent/JP2006093918A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013132321A (ja) * | 2011-12-26 | 2013-07-08 | Maruhon Industry Co Ltd | パチンコ機 |
JP2013132322A (ja) * | 2011-12-26 | 2013-07-08 | Maruhon Industry Co Ltd | パチンコ機 |
WO2015097831A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
JPWO2015097831A1 (ja) * | 2013-12-26 | 2017-03-23 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
US10176825B2 (en) | 2013-12-26 | 2019-01-08 | Kabushiki Kaisha Toshiba | Electronic apparatus, control method, and computer program |
CN112233647A (zh) * | 2019-06-26 | 2021-01-15 | 索尼公司 | 信息处理设备和方法以及计算机可读存储介质 |
WO2021084721A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
WO2021084719A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887578B2 (en) | Automatic dubbing method and apparatus | |
JP4128916B2 (ja) | 字幕制御装置および方法ならびにプログラム | |
JP3844431B2 (ja) | 発話認識に基づいたキャプションシステム | |
US7450821B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
JP6253671B2 (ja) | 電子機器、制御方法およびプログラム | |
JP2008546016A (ja) | マルチメディア信号で自動的なダビングを実行する方法及び装置 | |
JP4113059B2 (ja) | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム | |
JP4837123B1 (ja) | 音質制御装置及び音質制御方法 | |
JP2011250100A (ja) | 画像処理装置および方法、並びにプログラム | |
US8837744B2 (en) | Sound quality correcting apparatus and sound quality correcting method | |
JP2011150143A (ja) | 音質補正装置及び音質補正方法 | |
KR20140028336A (ko) | 음성 변환 장치 및 이의 음성 변환 방법 | |
JP2008160232A (ja) | 映像音声再生装置 | |
JP2006093918A (ja) | デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 | |
JP2009296274A (ja) | 映像音声信号処理装置 | |
US7697825B2 (en) | DVD player with language learning function | |
JP4086886B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2015018079A (ja) | 字幕音声生成装置 | |
WO2021157192A1 (ja) | 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム | |
US11551722B2 (en) | Method and apparatus for interactive reassignment of character names in a video device | |
JP6290260B2 (ja) | テレビシステムとサーバ装置及びテレビ装置 | |
JP4509188B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2013121096A (ja) | 音声調整装置およびデジタル放送受信装置 | |
JP2000358202A (ja) | 映像音声記録再生装置および同装置の副音声データ生成記録方法 | |
KR20010002739A (ko) | 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060912 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100518 |