JP2006093918A

JP2006093918A - デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体

Info

Publication number: JP2006093918A
Application number: JP2004274404A
Authority: JP
Inventors: Tateshi Aiba; 立志相羽; Michiaki Mukai; 理朗向井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-09-22
Filing date: 2004-09-22
Publication date: 2006-04-06

Abstract

【課題】現在の場面に登場する話者が発する音声を聞き取り易くすることが可能なデジタル放送受信装置を提供する。
【解決手段】チューナ１で受信した放送信号から音声デコード部２２ｂ、字幕デコード部２２ｃでそれぞれ抽出してデコードした音声信号と字幕情報とを音声・字幕比較部２３で比較し字幕が付与されている音声信号部分を抽出して周波数変換部２４で周波数領域の信号に変換し、メタデータ取得部２２ｄで取得した番組に関するメタデータにより現在の場面で登場する話者が発する音声の周波数帯域を話者推定部２５で推定し、周波数領域抽出部２６で周波数領域に変換した音声信号の中から該話者の周波数帯域と推定した音声信号部分を抽出して時間領域の信号に逆変換して、音声調整部２７で逆変換した音声信号部分あるいはそれ以外の背景音声部分の音量及び／又は音質を適切に調整し、バッファ２８で映像信号と位相を合わせて出力部２９から出力する。
【選択図】図２

Description

本発明は、デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体に関し、特に、デジタルテレビジョン放送を受信するデジタル放送受信装置において、放送されてくる放送信号のストリーム情報から番組に関するメタデータと字幕情報とを抽出し、該メタデータから話者と該話者が発する声の周波数特性との推定を行ない、該話者が発する声の周波数特性に基づいて、字幕情報が付与されている音声信号部分のうち、該話者の音声信号部分を判別し、該話者の声や台詞など、該話者が話している音声信号部分の音量及び／又は音質を調整することを可能とする技術に関する。また、放送されてくる放送信号のストリーム情報から音声信号と字幕情報とを抽出し、該字幕情報を音声化し、前記ストリーム情報から抽出した前記音声信号とのマッチング処理を行なうことにより、登場人物の声や台詞など、該登場人物が話している音声信号部分の音量及び／又は音質を調整することを可能とする技術に関する。

近年、デジタルテレビジョン放送を視聴する環境として、５．１チャンネルスピーカなどを用いた音声の高音質化、サラウンド化が普及している。しかしながら、音声再生技術の発達と共に、アナウンサの声や出演者の台詞などといった、実際の登場人物が発している声が聞き取りにくくなる状況が発生している。例えば、番組の背景に流れる周囲の歓声などに遮られ、アナウンサの声が聞こえなくなる状況が起きている。

この点に関し、特許文献１に示す特開平８−１８１９４３号公報「情報記録担体再生装置」には、映像情報及び音声情報が記録されている情報記録担体を再生する情報記録担体装置（レーザディスク、ビデオＣＤなど）において、再生画像中に字幕部分を検出すると、人の声の音声帯域外の音量を減衰させることにより、当該人が発する台詞等を聞き取り易くする技術が記載されている。なお、地上デジタル放送の場合、字幕情報を付与することが可能な番組については、全ての番組において、登場人物が発する台詞等について、２００７年までに、同一の情報からなる字幕情報を付与することが義務付けられている。
特開平８−１８１９４３号公報

しかしながら、前記特許文献１に示す技術は、情報記録担体装置で再生される映像情報、音声情報のみを対象としているものであり、デジタルテレビジョン放送等を受信するデジタル放送受信装置については何らの記載もなされていない。また、字幕情報が付与されている場面に関して、登場人物の声についての主な周波数帯域と推定される１００Ｈｚ〜１０ＫＨｚの範囲の信号を全て通過させ、その他の帯域の信号を減衰するように調整しているため、人の声と同じ周波数帯域を持つ、広い範囲の背景の音も同じように全て通過してしまう。

更に、字幕情報を検出する方法として、輝度レベルが高い白色を有する字幕情報を映像信号の輝度変化の中から検出する方法を用いているが、デジタルテレビジョン放送の字幕情報には色が白色以外のものもあり、また、字幕情報以外のテロップなどが映像情報の中に表れたときに、字幕情報として誤認識してしまう場合も発生する。更に、字幕情報には、映像情報としては表れないもの（即ち、ＣｌｏｓｅｄＣａｐｔｉｏｎ）も存在していて、前記特許文献１の技術を適用することはできない。

以上のごとく、従来の前記特許文献１のような技術では、デジタルテレビジョン放送を受信するデジタル放送受信装置において、現在の場面で登場しているアナウンサの声や出演者の台詞などといった、登場人物が発している音声が聞き取りにくくなる状況を回避する効果的な対策が不十分であるという問題を有している。

本発明は、かかる問題に鑑みてなされたものであり、受信した放送信号の中から、少なくとも音声信号と字幕情報とを抽出し、場合によっては、更に番組に関するメタデータを抽出し、抽出した字幕情報に基づいて、場合によってはメタデータをも用いて、受信した音声信号のうち、現在の場面で登場する登場人物が発していると推定される音声信号部分を確実に抽出することにより、該登場人物が発する音声信号部分の音量及び／又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び／又は音質を調整し、該登場人物が発する音声を聞き取り易くすることを目的としている。

第１の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段によりデコードした前記音声信号と前記字幕情報とを比較する比較手段とを備え、該比較手段による比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別手段を備えていることを特徴とする。

第２の技術手段は、前記第１の技術手段に記載のデジタル放送受信装置において、前記判別手段により現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換手段を備えていることを特徴とする。

第３の技術手段は、前記第２の技術手段に記載のデジタル放送受信装置において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコード手段を備え、該メタデータデコード手段によりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換手段により周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出手段を備えていることを特徴とする。

第４の技術手段は、前記第３の技術手段に記載のデジタル放送受信装置において、前記周波数領域抽出手段により時間領域に逆変換した音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第５の技術手段は、前記第３の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出手段により時間領域に逆変換した音声信号以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第６の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコード手段によりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出手段とを備えていることを特徴とする。

第７の技術手段は、前記第６の技術手段に記載のデジタル放送受信装置において、前記抽出手段により抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第８の技術手段は、前記第６の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記抽出手段により抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第９の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とする。

第１０の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とする。

第１１の技術手段は、前記第９又は第１０の技術手段に記載のデジタル放送受信装置において、前記デコード手段によりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去手段を備え、前記マッチング手段において前記字幕音声化手段により音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコード手段でデコードした前記音声信号の代わりに、前記ノイズ除去手段により抽出された前記音声信号部分とすることを特徴とする。

第１２の技術手段は、前記第９乃至第１１の技術手段のいずれかに記載のデジタル放送受信装置において、前記マッチング手段により抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第１３の技術手段は、前記第９乃至第１１の技術手段のいずれかに記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記マッチング手段により抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とする。

第１４の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とを抽出してデコードするデコードステップと、該デコードステップによりデコードした前記音声信号と前記字幕情報とを比較する比較ステップとを有し、該比較ステップによる比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別ステップを有していることを特徴とする。

第１５の技術手段は、前記第１４の技術手段に記載のデジタル放送受信方法において、前記判別ステップにより現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換ステップを有していることを特徴とする。

第１６の技術手段は、前記第１５の技術手段に記載のデジタル放送受信方法において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコードステップを有し、該メタデータデコードステップによりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換ステップにより周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出ステップを有していることを特徴とする。

第１７の技術手段は、前記第１６の技術手段に記載のデジタル放送受信方法において、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第１８の技術手段は、前記第１６の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第１９の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコードステップによりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出ステップとを有していることを特徴とする。

第２０の技術手段は、前記第１９の技術手段に記載のデジタル放送受信方法において、前記抽出ステップにより抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第２１の技術手段は、前記第１９の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記抽出ステップにより抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第２２の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とする。

第２３の技術手段は、デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とする。

第２４の技術手段は、前記第２２又は第２３の技術手段に記載のデジタル放送受信方法において、前記デコードステップによりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去ステップを有し、前記マッチングステップにおいて前記字幕音声化ステップにより音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコードステップでデコードした前記音声信号の代わりに、前記ノイズ除去ステップにより抽出された前記音声信号部分とすることを特徴とする。

第２５の技術手段は、前記第２２乃至第２４の技術手段のいずれかに記載のデジタル放送受信方法において、前記マッチングステップにより抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第２６の技術手段は、前記第２２乃至第２４の技術手段のいずれかに記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記マッチングステップにより抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とする。

第２７の技術手段は、前記第１４乃至第２６の技術手段のいずれかに記載のデジタル放送受信方法を、コンピュータにより実行可能なプログラムとして実行するデジタル放送受信プログラムとすることを特徴とする。

第２８の技術手段は、前記第２７の技術手段に記載のデジタル放送受信プログラムをコンピュータにより読み取り可能な記録媒体に記録しているプログラム記録媒体とすることを特徴とする。

以上のような各技術手段から構成される本発明によれば、受信した放送信号の中から、少なくとも音声信号と字幕情報とを抽出し、場合によっては、更に番組に関するメタデータを抽出し、抽出した字幕情報に基づいて、場合によってはメタデータをも用いて、受信した音声信号のうち、現在の場面で登場する登場人物が発していると推定される音声信号部分を確実に抽出することにより、該登場人物が発する音声信号部分の音量及び／又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び／又は音質を調整し、たとえ、背景部分の音が存在しているような場面であっても、その場面に登場している登場人物が発する音声を聞き取り易くすることができる。

また、受信した放送信号のストリーム情報から音声信号と字幕情報とを抽出し、該字幕情報を音声化した後、前記ストリーム情報から抽出した前記音声信号と対応付けしたマッチング処理を行なうことにより、現在の場面で登場している登場人物の声や台詞など、該登場人物が話している音声信号部分の音量及び／又は音質あるいは該登場人物の音声以外の背景音声部分の音量及び／又は音質を調整し、たとえ、背景部分の音が存在しているような場面であっても、その場面に登場している登場人物が発する音声を聞き取り易くすることができる。

以下に、本発明に係るデジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体の実施形態について、その一例を図面を参照しながら説明する。

なお、以下の説明においては、本発明に係るデジタル放送受信装置を例にして詳細に説明することにより、本発明に係るデジタル放送受信方法の実施形態についても容易に理解することができるので、デジタル放送受信方法に関する説明は省略している。また、本発明に係るデジタル放送受信方法をコンピュータにより実行可能なプログラムとして実現することも、また、該プログラムをコンピュータにより読み取り可能な記録媒体に記録することも容易に理解できるので、本発明に係るデジタル放送受信プログラム及びプログラム記録媒体の実施形態に関する説明も省略する。

図１は、本発明に係るデジタル放送受信装置の実施形態における構成の一例を示すブロック構成図である。デジタル放送受信装置１０において、放送局から放送されてくる放送信号のストリーム情報は、チューナ１にて受信され、選局されている所定周波数の信号成分が取り出される。チューナ１にて取り出された信号は、ＭＰＥＧ−ＴＳデコーダ２に供給され、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３を作業用メモリとして使用することにより、映像信号ａ、音声信号ｂ、字幕情報ｃ、番組に関するメタデータｄを抽出してデコードする。

また、ＯＳＤ生成部４では、ＣＰＵ５からのチャンネル番号やメニュー等の文字図形情報を映像信号ａに重畳する形式に変換する。ＭＰＥＧ−ＴＳデコーダ２から出力される映像信号ａ及びＯＳＤ生成部４から出力される文字図形情報は合成され、例えば、図示していないモニタ等の表示部に映像として表示されることになる。一方、ＭＰＥＧ−ＴＳデコーダ２から出力される音声信号ｂは、字幕情報ｃやメタデータｄを参照して得られた情報に基づいて音量及び／又は音質が調整されて、ＭＰＥＧ−ＴＳデコーダ２から出力される映像信号ａとの位相合わせをして、図示していないスピーカ等から音声として出力される。

ＣＰＵ５は、ＲＯＭ６に格納されているプログラムに基づいて、デジタル放送受信装置１０全体の動作を制御する。更に、リモートコントロール受信部（リモコン受信部）７は、ユーザが操作を行なうためのリモートコントローラ（図示せず）からの操作信号を受信する。ＣＰＵ５は、このリモートコントロール受信部７が受信した操作信号に基づいて、デジタル放送受信装置１０の各種設定情報や状態等の変更処理を実行する。

図２は、本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第１の実施例を説明するためのブロック構成図であり、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２の内部構成に関する第１の実施例を説明しているものである。

図２に示すＭＰＥＧ−ＴＳデコーダ２は、放送されてくるデジタルテレビジョン放送を選局するチューナ１からの出力ストリームを受け取る入力部２１と、入力部２１からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃと、音声デコード部２２ｂでデコードした音声信号と字幕デコード部２２ｃでデコードした字幕情報とを比較する比較手段と、該比較手段による比較結果、字幕情報として付与されている音声信号部分と同一の情報がデコードした音声信号に存在するか否かに基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別する判別手段とを提供すると共に、デコードした音声信号の中から字幕情報として付与されている音声信号部分を抽出する音声・字幕比較部２３と、抽出した音声信号部分の周波数帯域を算出して時間領域から周波数領域の音声信号に変換する周波数変換部２４とを備えている。

更に、図２に示すＭＰＥＧ−ＴＳデコーダ２は、入力部２１に入力された番組のストリーム情報から番組に関する情報をデコードし取得するメタデータデコード手段となるメタデータ取得部２２ｄと、取得したメタデータから現在の場面で登場して話している話者と該話者が発する声の周波数特性とを推定する話者推定部２５と、周波数変換部２４で周波数領域に変換した音声信号の中から、話者推定部２５により推定した話者が発する声の周波数特性に基づいて、抽出すべき音声信号の周波数範囲を決定し、現在の場面の話者が話している音声信号部分のみを抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出部２６と、話者が発した音声として時間領域に逆変換された音声信号とそれ以外の音声信号のいずれかの信号の音量及び／又は音質を調整する音声調整部２７とを備えている。

更に、図２に示すＭＰＥＧ−ＴＳデコーダ２は、映像デコード部２２ａでデコードされた映像信号と音声調整部２７で調整された音声信号との位相を合わせるためにバッファリングするバッファ２８と、バッファリングしている映像信号と音声信号とを外部に出力する出力部２９とを備えている。

なお、図２に示すブロック構成では、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２の内部に、図２における各種回路部を備えて構成するようにしているが、ＭＰＥＧ−ＴＳデコーダ２の内部には、入力部２１、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃ、メタデータ取得部２２ｄのみを備えることとし、図２におけるその他の回路部は、ＭＰＥＧ−ＴＳデコーダ２の外部に配置し、デジタル放送受信装置１０内部のそれぞれの回路部として構成するようにしても構わない。

次に、図２に示すＭＰＥＧ−ＴＳデコーダ２の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ１で受信し、ＭＰＥＧ−ＴＳデコーダ２の入力部２１に入力されてくると、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。同様に、メタデータ取得部２２ｄにて、番組に関するメタデータをデコードして取得する。

なお、ＢＳデジタル放送や地上デジタル放送で用いられている放送信号に関する規格であるＭＰＥＧ−２ＴＳでは、番組に関する映像信号、音声信号の他に、字幕情報や当該番組に関する情報が記述されたメタデータをそれぞれ格納しているフィールドが存在している。それぞれのフィールドに格納された字幕情報及びメタデータをストリーム情報の中から読み取ることにより、字幕情報及びメタデータを放送波の中から直接取り出すことができる。

続いて、音声デコード部２２ｂ、字幕デコード部２２ｃにてそれぞれデコードした音声信号、字幕情報を音声・字幕比較部２３にて比較する。音声・字幕比較部２３は、前述の通り、音声デコード部２２ｂにてデコードした音声信号の中に、字幕情報と同一の情報が含まれているか否かを調べて、現在の場面が字幕情報に付与されていて、登場人物が話している場面であるか否かを判別する。現在の場面が該場面で登場する登場人物が話している場面であると判別した場合、該字幕情報が付与されている音声信号部分を抽出する。

なお、デジタルテレビジョン放送では、２００７年までに、各場面に登場する登場人物が話した言葉に対して、同一の情報からなる字幕情報を付与することとされている。放送されてきた音声信号に対応して、同一の情報の字幕情報が付与されていれば、その音声信号の部分は、現在の場面で登場する登場人物が話している部分と判断することができる。更に言えば、音声信号に対する字幕情報の有無の確認を行ない、字幕情報が付与されている音声信号の抽出を行なうことにより、現在の場面は、登場人物が話している場面か否かの判別をすることができる。

続いて、メタデータ取得部２２ｄにて取得した番組に関するメタデータから、現在、話している話者と該話者が発する声の周波数特性とを話者推定部２５にて推定する。デジタルテレビジョン放送では、番組に関するメタデータとして、番組に関連した様々な詳細情報（例えば、番組のアナウンサ名や出演者名、出演者の情報、番組名、番組ジャンルなど）が、ストリーム情報として送られてくる。このメタデータの記述に基づき、現在の場面で話している話者が、男性なのか女性なのか、大人なのか子供なのか、日本人なのか外国人なのか、などの話者の推定を行なうことができる。更に云えば、番組に関するメタデータに基づいて、現在の場面で話している話者の性別や幼長や国別などを識別することにより、該話者が発する声の周波数特性即ち該話者が話している音声の周波数帯域を推定することができる。

一般に、人が話す言葉の周波数帯域は、男性と女性、大人と子供、日本人と外国人などにより異なってくる。例えば、「音声の音響分析」（レイ・Ｄ・ケント著、開文堂刊）にも記載のように、一般男性の基本周波数は、大体１２０Ｈｚと、低い周波数帯域で発声され、女性の基本周波数は、２２５Ｈｚ、幼児であれば、３００Ｈｚと、女性や子供は、一般男性に比して高い周波数帯域で発声されている。また、外国人が話す言語として英語（米語は別）の場合であれば、例えば、インターネット上のＷｅｂサイトの一つである「ＡｌｌＡｂｏｕｔＪａｐａｎ」（「英語の周波数とは何か？：ビジネス英語」）（ＵＲＬ：http://allabout.co.jp/study/bizenglish/closeup/CU20030430biz15/）にも記載されているように、日本語の周波数が１５０〜１，５００Ｈｚであるのに対して、３，０００〜１２，０００Ｈｚと、日本語よりもかなり高い周波数帯域で発声されている。

一方、音声・字幕比較部２３で抽出された音声信号は、周波数変換部２４にて時間領域から周波数領域の信号に変換される。その後、周波数領域に変換された音声信号の中から取り出すべき音声信号の周波数範囲を、話者推定部２５で推定した話者が発する声の周波数特性に基づき、周波数領域抽出部２６にて決定して、現在の場面において該話者が発している音声信号部分の抽出を行ない、更に、周波数領域から時間領域の音声信号に逆変換する。即ち、音声・字幕比較部２３にて字幕情報が付与されている信号として抽出された音声信号を周波数変換部２４で周波数領域の信号に変換しているので、周波数領域抽出部２６では、話者推定部２５にて推定された話者が発する声の特性に合わせた周波数帯域のみの抽出を行ない、続いて、抽出した音声信号を周波数領域から元の時間領域の音声信号に戻す。

例えば、現在の場面で話している話者が、男性と推定されれば、男性の周波数特性に合わせた低い周波数帯域のみを抽出し、女性や子供と推定されれば、それぞれの周波数特性に合わせた高い周波数帯域のみの抽出を行なう。これにより、背景部分に音が入っているような場面においても、現在話している話者の周波数特性に合わせた周波数範囲の音声信号のみを抽出することができる。

ここで、周波数変換部２４における周波数領域への変換とは、例えばフーリエ変換のような変換を意味しているが、本発明は、フーリエ変換に限るものではなく、時間領域の音声信号を周波数領域の信号に変換することができるものであれば、如何なる変換方法を用いても良い。また、周波数領域抽出部２６における時間領域への逆変換とは、例えば逆フーリエ変換のような変換処理を意味するが、本発明は、この逆フーリエ変換に限るものではなく、周波数変換部２４における周波数領域への変換に対する逆変換を施し、音声信号を元の時間領域の信号に変換するものであれば如何なる変換を用いても良い。

音声調整部２７では、現在の場面において字幕情報が付与されている音声信号として抽出された話者の周波数特性に合った音声信号部分（話者音声信号部分）について、例えば信号レベル（音量）を増幅、減衰したり、及び／又は、周波数特性（音質）を変更したり、あるいは、逆に、字幕情報が付与されていない音声信号部分（背景音声信号部分）の信号レベル（音量）を減衰したり、及び／又は、周波数特性（音質）を変更したりして、話者が発する音声を聞き取り易くするように、話者が発する音声部分や背景音声部分の音量及び／又は音質を調整することができる。

なお、話者が発する音声部分や背景音声部分の音量及び／又は音質を調整する調整方法や調整レベルなどに関する音声調整部２７に対する設定は、ユーザがリモコンなどを用いて操作した結果を、図１に示すリモートコントロール受信部７により操作信号として受信することにより、任意に行なうことができる。あるいは、デジタル放送受信装置１０にデフォルト値として標準的な状態を予め設定しておくことにより、予め設定された或る一定のレベルで増幅や減衰を行なうようにしても良い。

音声調整部２７により調整された音声信号は、バッファ２８にバッファリングされ、映像デコード部２２ａからの映像信号と位相を合わせて出力部２９から出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号を抽出して、音量及び／又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び／又は音質の調整を行なったりして、話者の発する音声を聞き取り易くすることができる。

なお、前述の説明では、字幕情報が付与されている音声信号を周波数変換部２４において一旦周波数領域に変換し、周波数領域抽出部２６において話者の周波数特性に合わせて抽出した音声信号を時間領域へ逆変換して戻す場合について説明したが、場合によっては、字幕情報が付与されている音声信号を周波数変換することなく、時間領域の音声信号のまま、話者推定部２５にて推定された話者が発する声の周波数特性に合わせた音声信号を抽出するように構成しても構わない。

以上に説明した動作を、図３に示すフローチャートを用いて、更に説明する。ここに、図３は、本発明に係るデジタル放送受信装置の第１の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ１で選局した放送信号のストリーム情報から、映像信号、音声信号、字幕情報及び番組に関するメタデータをＭＰＥＧ−ＴＳデコード２の各デコード部でそれぞれデコードする（ステップＳ１）。次に、デコードした音声信号に対応して、字幕情報が付与されているか否かの比較を、音声・字幕比較部２３で行なう（ステップＳ２）。

デコードした音声信号に対応した情報からなる字幕情報が付与されていると判定した場合（ステップＳ３のＹＥＳ）、現在の場面が該場面で登場する登場人物が話している場面であるものと判定し、該字幕情報に対応した音声信号を抽出した後、抽出した音声信号の中から、メタデータから推定される話者の声の周波数特性に基づいて、現在の場面における話者の音声信号部分を確実に取り出すことができるように、抽出した音声信号を周波数変換部２４にて周波数領域の信号に変換する（ステップＳ４）。
一方、音声信号に対応した情報からなる字幕情報が付与されていない場合には（ステップＳ３のＮＯ）、現在の場面で話者が話している音声信号とは判定することができないので、音声信号はそのまま出力される。

ステップＳ４において周波数領域に変換された音声信号は、話者推定部２５にてメタデータにより推定された話者の声の周波数範囲に含まれているか否かが、周波数領域抽出部２６にて判定される（ステップＳ５）。メタデータにより推定された話者の声の周波数範囲に含まれていると判定された場合には（ステップＳ５のＹＥＳ）、現在の場面で話者が話している音声信号と判定されるので、該音声部分を抽出して時間領域の音声信号に逆変換した後、音声調整部２７において話者の声の周波数範囲に該当する音声部分について音量及び／又は音質の調整が行なわれ（ステップＳ６）、バッファ２８において、映像デコード部２２ａからの映像信号と位相を合わせて、出力部２９から外部へ出力される（ステップＳ７）。一方、音声信号が、メタデータにより推定された話者の声の周波数範囲に含まれていないと判定された場合には（ステップＳ５のＮＯ）、現在の場面で話者が話している音声信号とは判定することができないので、そのまま出力される。

本実施例１によれば、デジタルテレビジョン放送を受信するデジタル放送受信装置１０において、字幕情報とメタデータとを利用して、各場面で登場する登場人物の話者が発する音声の周波数特性に合わせて、該話者の音声信号を抽出し、抽出した音声信号の音量及び／又は音質を聞き取り易いレベルに調整することができ、一方、話者には関係のない背景部分の音は増幅、減衰されることもなく、そのまま出力されるので、背景部分の音に遮られて、話者の発する声が聞き取りにくくなる状況を回避することができ、話者の声や台詞など、話者が話している音声部分を、聞き取り易い音量及び／又は音質に調整することができる。なお、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。

次に、本発明に係るデジタル放送受信装置の実施形態として、第２の実施例について説明する。図４は、本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第２の実施例を説明するためのブロック構成図であり、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２の内部構成に関する第２の実施例を説明しているものである。

図４に示すＭＰＥＧ−ＴＳデコーダ２′は、放送されてくるデジタルテレビジョン放送を選局するチューナ１からの出力ストリームを受け取る入力部２１と、入力部２１からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃと、字幕デコード２２ｃからの字幕情報を音声情報に変換するための字幕音声化手段である字幕・音声変換部３０と、音声デコード部２２ｂでデコードした音声信号と字幕・音声変換部３０で変換した音声情報とを対応付けて照合し、マッチングしている音声信号の部分、即ち、字幕情報が付与されている音声信号の部分を、現在の場面で登場する登場人物が話している音声信号部分として抽出するマッチング部３１とを備えている。

ここで、マッチング部３１において、音声デコード部２２ｂにてデコードした音声信号と字幕・音声変換部３０にて変換した音声情報とを対応付けて照合を行なう方法としては、周波数領域にて対応付けて照合する方法と、時間領域のままで対応付けて照合を行なう方法のいずれでも用いることができ、いずれの方法を用いた場合でも、デコードした音声信号と変換した音声情報との各要素間を対応付けた両者の相関値を算出し、該相関値が予め設定した設定値以上の音声信号部分を抽出することにより、現在の場面で登場する登場人物が話している音声信号部分として、字幕情報が付与されている音声信号部分を抽出することができる。

更に、図４に示すＭＰＥＧ−ＴＳデコーダ２′は、マッチング部３１で抽出した音声信号とそれ以外の音声信号とのいずれかの信号の音量及び／又は音質を調整する音声調整部２７を備え、更に、映像デコード部２２ａでデコードされた映像信号と音声調整部２７で調整された音声信号との位相を合わせるためにバッファリングするバッファ２８と、バッファリングしている映像信号と音声信号とを外部に出力する出力部２９とを備えている。即ち、図２に示すＭＰＥＧ−ＴＳデコーダ２の場合において字幕情報が付与された音声信号を得るために備えられた音声・字幕比較部２３、周波数変換部２４、メタデータから話者を特定し該当する音声信号部分を抽出するために備えられたメタデータ取得部２２ｄ、話者推定部２５、周波数領域抽出部２６の代わりに、字幕情報から音声情報を生成して、該音声情報にマッチングする音声信号を抽出するために、字幕・音声変換部３０とマッチング部３１とが備えられている。

なお、図４に示すブロック構成では、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２（即ち、図４のＭＰＥＧ−ＴＳデコーダ２′）の内部に、図４における各種回路部を備えて構成するようにしているが、第１の実施例の場合と同様に、図１のＭＰＥＧ−ＴＳデコーダ２の内部には、入力部２１、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃのみを備えることとし、図４におけるその他の回路部は、図１のＭＰＥＧ−ＴＳデコーダ２の外部に配置し、デジタル放送受信装置１０内部のそれぞれの回路部として構成するようにしても構わない。

次に、図４に示すＭＰＥＧ−ＴＳデコーダ２′の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ１で受信し、ＭＰＥＧ−ＴＳデコーダ２′の入力部２１に入力されてくると、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。

なお、ＢＳデジタル放送や地上デジタル放送で用いられている放送信号に関する規格であるＭＰＥＧ−２ＴＳでは、番組に関する映像信号、音声信号の他に、字幕情報や当該番組に関する情報が記述されたメタデータをそれぞれ格納しているフィールドが存在している。これらのフィールドに格納された字幕情報をストリーム情報の中から読み取ることにより、字幕情報を放送波の中から直接取り出すことができる。

続いて、字幕デコード部２２ｃにてデコードした字幕情報を字幕・音声変換部３０にて音声情報に変換する。この字幕・音声変換部３０における変換処理は、後述するマッチング部３１における、人が発する言葉の速さ（話速）の差異を吸収したマッチングを可能にすることを考慮して、標準的な人が発する話速パターンの幅を網羅できる形態に変換される。例えば、同じ単語であっても、早口で話す音声パターンとゆっくり話す音声パターンとがあり、その中間の標準的な話速の音声パターンに変換することにより、マッチング部３１において、字幕・音声変換部３０にて変換した音声情報と音声デコード部２２ｂからの音声信号とを各要素間で対応付けしてマッチングして、両者の類似度を算出する処理を比較的容易に行なうことができるようになる。

更に説明すれば、マッチング部３１において、字幕・音声変換部３０にて変換された音声情報と、放送波として送られてきて、音声デコード部２２ｂにてデコードされた音声信号とのマッチングを行なう。このマッチング部３１におけるマッチング処理は、字幕・音声変換部３０で得られた音声情報の話速を標準モデルとして、該標準モデルと放送波として送られてきた音声信号の話速との差異を吸収するようなマッチング方法が用いられる。かくのごときマッチング方法とは、例えば、話速の差異を吸収可能なＤＰマッチング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｉｎｇＭａｔｃｈｉｎｇ）のようなものを指すが、同様の機能を果たす方法であれば如何なるマッチング方法を用いても良い。また、前述のように、マッチング部３１では、周波数領域にて対応付けて両者の音声の照合を行なうようにしても良いし、時間領域のままで対応付けて照合を行なうようにしても良い。

マッチング部３１におけるマッチング処理により、音声デコード部２２ｂにてデコードした音声信号の中に、字幕情報と同一の情報又は類似度が高い情報が含まれているか否かを調べて、デコードした音声信号の中から、字幕情報に付与されている情報と同一の情報又は類似度が高い情報からなる音声信号を、現在の場面で登場する登場人物が話している音声信号として抽出することができる。

なお、デジタルテレビジョン放送では、前述の通り、各場面に登場する登場人物が話した言葉に対して、同一の情報からなる字幕情報を付与することとされている。放送されてきた音声信号に対応して、同一の情報の字幕情報が付与されていれば、その音声信号の部分は、現在の場面で登場する登場人物が話している部分と判断することができる。

即ち、マッチング部３１におけるマッチング処理により、音声化された字幕情報と、放送波として送られてきた音声信号との類似度即ち相関値を算出することができ、類似度即ち相関値が予め設定した或る設定値以上に高ければ、その音声信号部分は、現在の場面で登場人物が話している音声信号部分であると判断することができる。

最後に、音声調整部２７では、現在の場面において、字幕情報が付与されている音声信号としてマッチング処理により類似度が高いものとされた話者の音声信号部分について、例えば信号レベル（音量）を増幅、減衰したり、及び／又は、周波数特性（音質）を変更したり、あるいは、逆に、字幕情報が付与されていない音声信号部分の信号レベル（音量）を減衰したり、及び／又は、周波数特性（音質）を変更したりして、話者が発する音声を聞き取り易くするように、話者が発する音声部分や背景音声部分の音量及び／又は音質を調整することができる。

しかる後、音量調節部２７により調整された音声信号は、バッファ２８にバッファリングされ、映像デコード部２２ａからの映像信号と位相を合わせて出力部２９から出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号のみを抽出して、音量及び／又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び／又は音質の調整を行なったりして、背景部分に音が入っているような場面においても、話者の発する音声を聞き取り易くすることができる。

なお、話者が発する音声部分や背景音声部分の音量及び／又は音質を調整する調整方法や調整レベルなどに関する音声調整部２７に対する設定は、第１の実施例の場合と同様に、ユーザがリモコンなどを用いて操作した結果を、図１に示すリモートコントロール受信部７により操作信号として受信することにより、任意に行なうことができる。あるいは、デジタル放送受信装置１０にデフォルト値として標準的な状態を予め設定しておくことにより、予め設定された或る一定のレベルで増幅や減衰を行なうようにしても良い。

以上に説明した動作を、図５に示すフローチャートを用いて、更に説明する。ここに、図５は、本発明に係るデジタル放送受信装置の第２の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ１で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をＭＰＥＧ−ＴＳデコード２′の各デコード部でそれぞれデコードする（ステップＳ１１）。次に、デコードした字幕情報を字幕・音声変換部３０にて音声情報に変換する（ステップＳ１２）。字幕・音声変換部３０における音声情報への変換は、前述のように、後で行なうマッチング処理を考慮して、一般的な人が発する標準的な話速の音声パターンを網羅した形態とするように変換するものである。

続いて、音声情報化した字幕情報と、放送波として送られてきて音声デコード部２２ｂにてデコードされた音声信号とを対応付けるようなマッチング処理をマッチング部３１にて行なう（ステップＳ１３）。ここでのマッチング方法は、前述のように、ＤＰマッチング法などを用いて、人が話す言葉の速さ（話速）の差異を吸収することが可能なマッチング方法とする。マッチング部３１による音声情報（字幕情報）と音声信号とのマッチング結果として、両者の類似度を示す相関値を算出し、該相関値が予め設定されている設定値以上に大きいか否かを判定する（ステップＳ１４）。なお、前記設定値とは、当該デジタル放送受信装置１０が、デフォルト値として予め決められた設定値を保持していても良いし、あるいは、ユーザがリモコンなどを用いて予め自由に設定することも可能である。

音声情報（字幕情報）と音声信号との相関値が、前記設定値以上に大きいと判定された場合は（ステップＳ１４のＹＥＳ）、音声信号は、字幕情報が付与されていて、現在の場面で話者が話している音声であるものと判定して、音声調整部２７において話者の声に該当する音声部分について音量及び／又は音質の調整が行なわれ（ステップＳ１５）、バッファ２８において、映像デコード部２２ａからの映像信号と位相を合わせて、出力部２９から外部へ出力される（ステップＳ１６）。

一方、音声情報（字幕情報）と音声信号との相関値が、前記設定値以上に大きいと判定されなかった場合には（ステップＳ１４のＮＯ）、現在の場面で話者が話している音声信号とは判定することができないので、背景部分の音としてそのまま出力される。なお、第１の実施例の場合と同様に、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。

次に、本発明に係るデジタル放送受信装置の実施形態として、第３の実施例について説明する。図６は、本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第３の実施例を説明するためのブロック構成図であり、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２の内部構成に関する第３の実施例を説明しているものである。

図６に示すＭＰＥＧ−ＴＳデコーダ２″は、放送されてくるデジタルテレビジョン放送を選局するチューナ１からの出力ストリームを受け取る入力部２１と、入力部２１からの映像信号、音声信号、字幕情報をそれぞれデコードする映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃと、字幕デコード２２ｃからの字幕情報を音声情報に変換するための字幕音声化手段である字幕・音声変換部３０と、音声デコード部２２ｂでデコードした音声信号と字幕・音声変換部３０で変換した音声情報とを対応付けて照合し、マッチングしている音声信号の部分、即ち、字幕情報が付与されている音声信号の部分を、現在の場面で登場する登場人物が話している音声信号部分として抽出するマッチング部３１とを備え、更に、音声デコード部２２ｂでデコードされた音声信号に含まれる背景音声成分を除去するためのノイズ除去部３２を備えている。

ここで、マッチング部３１において、音声デコード部２２ｂにてデコードした音声信号と字幕・音声変換部３０にて変換した音声情報とを対応付けて照合を行なう方法としては、第２の実施例の場合と同様に、周波数領域にて対応付けて照合する方法と、時間領域のままで対応付けて照合を行なう方法のいずれでも用いることができ、いずれの方法を用いた場合であっても、デコードした音声信号と変換した音声情報との各要素間を対応付けた両者の相関値を算出し、該相関値が予め設定した設定値以上の音声信号部分を抽出することにより、現在の場面で登場する登場人物が話している音声信号部分として、字幕情報が付与されている音声信号部分を抽出することができる。

更に、図６に示すＭＰＥＧ−ＴＳデコーダ２″は、マッチング部３１で抽出した音声信号とそれ以外の音声信号とのいずれかの信号の音量及び／又は音質を調整する音声調整部２７を備え、更に、映像デコード部２２ａでデコードされた映像信号と音声調整部２７で調整された音声信号との位相を合わせるためにバッファリングするバッファ２８と、バッファリングしている映像信号と音声信号とを外部に出力する出力部２９とを備えている。即ち、図６に示すＭＰＥＧ−ＴＳデコーダ２″の構成は、図４に示すＭＰＥＧ−ＴＳデコーダ２′の構成に、更に、音声デコード部２２ｂでデコードされた音声信号の中から、字幕情報が付与されていない音声信号を除去し、字幕情報が付与されている音声信号のみを抽出するノイズ除去部３２が付加されて備えられている。

なお、図６に示すブロック構成では、図１に示すデジタル放送受信装置１０のＭＰＥＧ−ＴＳデコーダ２（即ち、図６のＭＰＥＧ−ＴＳデコーダ２″）の内部に、図６における各種回路部を備えて構成するようにしているが、第１の実施例の場合と同様に、図１のＭＰＥＧ−ＴＳデコーダ２の内部には、入力部２１、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃのみを備えることとし、図６におけるその他の回路部は、図１のＭＰＥＧ−ＴＳデコーダ２の外部に配置し、デジタル放送受信装置１０内部のそれぞれの回路部として構成するようにしても構わない。

次に、図６に示すＭＰＥＧ−ＴＳデコーダ２″の動作について説明する。まず、放送されてくる放送信号のストリーム情報をチューナ１で受信し、ＭＰＥＧ−ＴＳデコーダ２″の入力部２１に入力されてくると、映像デコード部２２ａ、音声デコード部２２ｂ、字幕デコード部２２ｃにて、それぞれ、映像信号、音声信号、字幕情報を抽出してデコードする。

続いて、音声デコード部２２ｂにてデコードされた音声信号と字幕デコード部２２ｃにてデコードされた字幕情報との照合をノイズ除去部３２において行ない、音声信号に対応する字幕情報の有無を確認し、音声信号の中から字幕情報が付与されていない音声信号を取り除いて、字幕情報が付与されている音声信号のみを抽出する処理を行なう。即ち、ノイズ除去部３２における抽出処理とは、字幕情報が付与されている音声信号の開始点を抽出し、該開始点の手前に位置する字幕情報が付与されていない音声信号を取り除く処理であり、この結果、字幕情報が付与されている音声信号の開始点から終了点までの音声情報のみを分離して、字幕情報が付与されている音声信号のみを抽出することができる。

即ち、ノイズ除去部３２の抽出処理を行なうことにより、放送波として送られてきた音声信号の中から、字幕情報が付与されている音声信号の開始点から終了点までの音声信号を抽出することにより、現在の場面で話者が話している音声信号部分をより精度良く抽出することができ、後述するマッチング部３１における音声信号と字幕情報とのマッチング処理の精度を更に向上させることができる。なお、ノイズ除去部３２においては、マッチング部３１に対して音声信号の中から背景音声部分を除去した音声信号を出力すると共に、背景音声部分の音声信号も音量調整部２７にて音量及び／又は音質の調整対象として別個に出力するようにしても良い。

続いて、字幕デコード部２２ｃにてデコードした字幕情報を字幕・音声変換部３０にて音声情報に変換する。この字幕・音声変換部３０における変換処理は、第２の実施例の場合と同様であり、後述するマッチング部３１における、人が発する言葉の速さ（話速）の差異を吸収したマッチングを可能にすることを考慮して、一般的な人が発する標準的な話速の音声パターンを網羅できる形態に変換される。

続いて、マッチング部３１において、ノイズ除去部３２で得られた音声信号と、字幕音声変換部３０で得られた音声情報とのマッチング処理を行なう。このマッチング部３１におけるマッチング処理は、第２の実施例の場合と同様であり、字幕・音声変換部３０で得られた音声情報の話速を標準モデルとして、該標準モデルと放送波として送られてきた音声信号の話速との差異を吸収するようなマッチング方法が用いられる。

マッチング部３１のマッチング処理により、音声デコード部２２ｂにてデコードした音声信号の中に、字幕情報と同一の情報又は類似度が高い情報が含まれているか否かを調べて、字幕情報に付与されている情報と同一の情報又は類似度が高い情報からなる音声信号を、現在の場面で登場する登場人物が話している音声信号として抽出することができる。また、前述のように、マッチング部３１では、周波数領域にて対応付けて両者の音声の照合を行なうようにしても良いし、時間領域のままで対応付けて照合を行なうようにしても良い。

即ち、マッチング部３１におけるマッチング処理により、音声化された字幕情報と、放送波として送られてきた音声信号のうち背景音声部分を除去した音声信号との類似度即ち相関値を算出することができ、類似度即ち相関値が予め設定した或る設定値以上に高ければ、その音声信号部分は、現在の場面で登場する登場人物が話している音声信号部分であることをより正確に判断することができる。

しかる後、音量調節部２７により調整された音声信号は、バッファ２８にバッファリングされ、映像デコード部２２ａからの映像信号と位相を合わせて出力することにより、放送されてくる番組の中から、現在の場面で話している話者の音声信号を抽出して、音量及び／又は音質の調整を行なったり、話者の音声信号以外である背景音声部分の音量及び／又は音質の調整を行なったりして、背景部分に音が入っているような場面においても、話者の発する音声を聞き取り易くすることができる。

以上に説明した動作を、図７に示すフローチャートを用いて、更に説明する。ここに、図７は、本発明に係るデジタル放送受信装置の第３の実施例における動作を説明するためのフローチャートである。
まず、放送波を受信し、チューナ１で選局した放送信号のストリーム情報から、映像信号、音声信号及び字幕情報をＭＰＥＧ−ＴＳデコード２″の各デコード部でそれぞれデコードする（ステップＳ２１）。次に、デコードした音声信号と字幕情報との照合を行ない、デコードした音声信号に対応して、字幕情報が付与されているか否かの確認をノイズ除去部３２にて行なう（ステップＳ２２）。

デコードした音声信号に対応して、字幕情報が付与されていると判定された場合には（ステップＳ２３のＹＥＳ）、音声信号の中から、字幕情報が付与されている音声信号の開始点を抽出し、該開始点からその開始点の手前に位置する字幕情報が付与されていない音声信号を取り除いて、字幕情報が付与されている音声信号のみを分離して抽出する（ステップＳ２４）。一方、音声信号に対応した字幕情報が付与されていない場合には（ステップＳ２３のＮＯ）、現在の場面で話者が話している音声信号とは判定することができないので、そのまま出力される。

ステップＳ２４において字幕情報が付与されている音声信号を抽出した場合、次に、デコードした字幕情報を字幕・音声変換部３０にて音声情報に変換する（ステップＳ２５）。字幕・音声変換部３０における音声情報への変換は、前述のように、後で行なうマッチング処理を考慮して、一般的な人が発する標準的な話速の音声パターンを網羅した形態とするように変換するものである。

続いて、音声情報化した字幕情報と、放送波として送られてきてノイズ除去部３２にてノイズ除去された音声信号とを対応付けるようなマッチングをマッチング部３１にて行なう（ステップＳ２６）。ここでのマッチング方法は、第２の実施例の場合と同様であり、ＤＰマッチング法などを用いて、人が話す言葉の速さ（話速）の差異を吸収することが可能なマッチング方法とする。マッチング部３１による音声情報（字幕情報）と音声信号とのマッチング結果として、両者の類似度を示す相関値を算出し、該相関値が予め設定されている設定値以上に大きいか否かを判定する（ステップＳ２７）。なお、前記設定値とは、第２の実施例の場合と同様であり、当該デジタル放送受信装置１０が、デフォルト値として予め決められた設定値を保持していても良いし、あるいは、ユーザがリモコンなどを用いて予め自由に設定することも可能である。

音声情報（字幕情報）と音声信号との相関値が、前記設定値以上に大きいと判定された場合は（ステップＳ２７のＹＥＳ）、音声信号は、字幕情報が付与されていて、現在の場面で話者が話している音声であるものと判定して、音声調整部２７において話者の声に該当する音声部分について音量及び／又は音質の調整が行なわれ（ステップＳ２８）、バッファ２８において、映像デコード部２２ａからの映像信号と位相を合わせて、出力部２９から外部へ出力される（ステップＳ２９）。一方、音声情報（字幕情報）と音声信号との相関値が、前記設定値以上に大きいと判定されなかった場合には（ステップＳ２７のＮＯ）、現在の場面で話者が話している音声信号とは判定することができないので、背景部分の音としてそのまま出力される。なお、第１の実施例の場合と同様に、背景部分の音をそのまま出力する代わりに、話者が話している音声部分を更に聞き取り易くするために、背景部分の音の音量レベルを減衰させたり、音質を変更したりして出力するようにしても良い。

以上に説明した第２、第３の実施例によれば、デジタルテレビジョン放送を受信するデジタル放送受信装置１０において、字幕情報を利用して、現在の場面で話者が発する音声信号を抽出し、抽出した音声信号の音量及び／又は音質を聞き取り易いレベルに調整することができ、一方、話者には関係のない背景部分の音は、増幅、減衰されることもなくそのまま出力されるか、又は、音量及び／又は音質を際立たないレベルに調整して出力されるので、背景部分の音に遮られて、人の発する声が聞き取りにくくなる状況を回避することができ、話者の声や台詞など、話者が話している音声部分を聞き取り易い音量や音質に調整することができる。

また、本発明に係るデジタルテレビジョン放送の字幕情報を利用した話者の音声調整技術は、前述したような実施例に示す形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加え得ることは勿論である。例えば、前述の実施例においては、ＭＰＥＧ−ＴＳデコーダ２にて、放送波から映像信号と音声情報と字幕情報と場合によってはメタデータをそれぞれ抽出してデコードする形式としているが、映像信号のデコード部を、音声情報や字幕情報のデコード部と別個に備えるように構成しても構わない。また、放送信号を受信するデジタル放送受信装置１０は、如何なる形態であっても良く、例えば、デジタル放送信号を受信するＳＴＢ(ＳｅｔＴｏｐＢｏｘ)の形態で実現するものであっても良いし、あるいは、テレビ受像機として図１には図示していない表示部やスピーカ部と一体化して実現するものであっても良いし、あるいは、録画装置に内蔵する形態で実現しても良い。

また、ＭＰＥＧ−ＴＳデコーダ２における音声調整部２７において、現在の場面に登場する話者が発する声の音量及び／又は音質、あるいは、それ以外の背景音声部分の音量及び／又は音質を調整する実施例について説明したが、話者が発する声を聞き取り易くすることができる方法であれば、話者の音声信号の調整と同時に、話者以外の背景音声部分の音量レベルを減衰させたり、音質を変更させたりする調整を行なうようにしても良いし、更には、話者が発する音声信号部分の音声調整が困難な場合には、話者が発する音声信号部分を用いる代わりに、字幕情報から得られる標準的な音声情報を用いて出力するようにしても良い。

本発明に係るデジタル放送受信装置の実施形態における構成の一例を示すブロック構成図である。本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第１の実施例を説明するためのブロック構成図である。本発明に係るデジタル放送受信装置の第１の実施例における動作を説明するためのフローチャートである。本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第２の実施例を説明するためのブロック構成図である。本発明に係るデジタル放送受信装置の第２の実施例における動作を説明するためのフローチャートである。本発明に係るデジタル放送受信装置におけるＭＰＥＧ−ＴＳデコーダの内部ブロック構成の第３の実施例を説明するためのブロック構成図である。本発明に係るデジタル放送受信装置の第３の実施例における動作を説明するためのフローチャートである。

符号の説明

１…チューナ、２，２′，２″…ＭＰＥＧ−ＴＳデコーダ、３…ＲＡＭ、４…ＯＳＤ生成部、５…ＣＰＵ、６…ＲＯＭ、７…リモートコントロール受信部、１０…デジタル放送受信装置、２１…入力部、２２ａ…映像デコード部、２２ｂ…音声デコード部、２２ｃ…字幕デコード部、２２ｄ…メタデータ取得部、２３…音声・字幕比較部、２４…周波数変換部、２５…話者推定部、２６…周波数領域抽出部、２７…音声調整部、２８…バッファ、２９…出力部、３０…字幕・音声変換部、３１…マッチング部、３２…ノイズ除去部。

Claims

デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段によりデコードした前記音声信号と前記字幕情報とを比較する比較手段とを備え、該比較手段による比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別手段を備えていることを特徴とするデジタル放送受信装置。
請求項１に記載のデジタル放送受信装置において、前記判別手段により現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換手段を備えていることを特徴とするデジタル放送受信装置。
請求項２に記載のデジタル放送受信装置において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコード手段を備え、該メタデータデコード手段によりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換手段により周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出手段を備えていることを特徴とするデジタル放送受信装置。
請求項３に記載のデジタル放送受信装置において、前記周波数領域抽出手段により時間領域に逆変換した音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
請求項３に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出手段により時間領域に逆変換した音声信号以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコード手段によりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出手段とを備えていることを特徴とするデジタル放送受信装置。
請求項６に記載のデジタル放送受信装置において、前記抽出手段により抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
請求項６に記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記抽出手段により抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とするデジタル放送受信装置。
デジタルテレビジョン放送を受信するデジタル放送受信装置において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコード手段と、該デコード手段でデコードした前記字幕情報を音声情報に変換する字幕音声化手段と、前記デコード手段でデコードした前記音声信号と前記字幕音声化手段により音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチング手段とを備えていることを特徴とするデジタル放送受信装置。
請求項９又は１０に記載のデジタル放送受信装置において、前記デコード手段によりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去手段を備え、前記マッチング手段において前記字幕音声化手段により音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコード手段でデコードした前記音声信号の代わりに、前記ノイズ除去手段により抽出された前記音声信号部分とすることを特徴とするデジタル放送受信装置。
請求項９乃至１１のいずれかに記載のデジタル放送受信装置において、前記マッチング手段により抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
請求項９乃至１１のいずれかに記載のデジタル放送受信装置において、前記デコード手段によりデコードした現在の場面における前記音声信号のうち、前記マッチング手段により抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整手段を備えていることを特徴とするデジタル放送受信装置。
デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とを抽出してデコードするデコードステップと、該デコードステップによりデコードした前記音声信号と前記字幕情報とを比較する比較ステップとを有し、該比較ステップによる比較結果に基づいて、現在の場面が該場面で登場する登場人物が話している場面か否かを判別することができる判別ステップを有していることを特徴とするデジタル放送受信方法。
請求項１４に記載のデジタル放送受信方法において、前記判別ステップにより現在の場面が該場面で登場する登場人物が話している場面であると判別した場合の前記音声信号を時間領域から周波数領域の信号に変換することができる周波数変換ステップを有していることを特徴とするデジタル放送受信方法。
請求項１５に記載のデジタル放送受信方法において、受信した放送信号のストリーム情報から番組に関するメタデータを抽出してデコードするメタデータデコードステップを有し、該メタデータデコードステップによりデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記周波数変換ステップにより周波数領域に変換した音声信号の中から、現在の画面における該話者が発する音声信号部分を抽出して、更に、時間領域の音声信号に逆変換する周波数領域抽出ステップを有していることを特徴とするデジタル放送受信方法。
請求項１６に記載のデジタル放送受信方法において、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
請求項１６に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記周波数領域抽出ステップにより時間領域に逆変換した音声信号以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と番組に関するメタデータと字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記メタデータに基づいて現在の場面で登場する登場人物に関する話者と該話者が発する声の周波数特性との推定を行ない、推定した該話者が発する声の周波数特性に基づいて、前記デコードステップによりデコードした前記音声信号の中から、現在の場面における該話者が発する音声信号部分を抽出することができる抽出ステップとを有していることを特徴とするデジタル放送受信方法。
請求項１９に記載のデジタル放送受信方法において、前記抽出ステップにより抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
請求項１９に記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記抽出ステップにより抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、周波数領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とするデジタル放送受信方法。
デジタルテレビジョン放送を受信するデジタル放送受信方法において、受信した放送信号のストリーム情報から少なくとも音声信号と字幕情報とをそれぞれ抽出してデコードするデコードステップと、該デコードステップでデコードした前記字幕情報を音声情報に変換する字幕音声化ステップと、前記デコードステップでデコードした前記音声信号と前記字幕音声化ステップにより音声情報に変換した字幕情報とを、時間領域にて対応付けして照合し、該照合結果に基づいて、両者の相関値を算出し、該相関値が予め設定した設定値以上の部分を抽出することにより、前記音声信号のうち、現在の場面で登場する登場人物が話している音声信号部分として前記字幕情報が付与されている音声信号部分を抽出することができるマッチングステップとを有していることを特徴とするデジタル放送受信方法。
請求項２２又は２３に記載のデジタル放送受信方法において、前記デコードステップによりデコードした前記音声信号と前記字幕情報とを比較照合し、前記音声信号のうち、前記字幕情報が付与されている音声信号の開始点から該開始点の手前に位置する前記字幕情報が付与されていない音声信号を除去し、前記字幕情報が付与されている音声信号部分を分離して抽出するノイズ除去ステップを有し、前記マッチングステップにおいて前記字幕音声化ステップにより音声情報に変換した字幕情報と対応付けして照合する音声信号を、前記デコードステップでデコードした前記音声信号の代わりに、前記ノイズ除去ステップにより抽出された前記音声信号部分とすることを特徴とするデジタル放送受信方法。
請求項２２乃至２４のいずれかに記載のデジタル放送受信方法において、前記マッチングステップにより抽出した音声信号部分の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
請求項２２乃至２４のいずれかに記載のデジタル放送受信方法において、前記デコードステップによりデコードした現在の場面における前記音声信号のうち、前記マッチングステップにより抽出した音声信号部分以外の音声信号の音量及び／又は音質を調整することができる音声調整ステップを有していることを特徴とするデジタル放送受信方法。
請求項１４乃至２６のいずれかに記載のデジタル放送受信方法を、コンピュータにより実行可能なプログラムとして実行することを特徴とするデジタル放送受信プログラム。
請求項２７に記載のデジタル放送受信プログラムをコンピュータにより読み取り可能な記録媒体に記録していることを特徴とするプログラム記録媒体。