[go: up one dir, main page]

JPWO2018216729A1 - 音声ガイド生成装置、音声ガイド生成方法及び放送システム - Google Patents

音声ガイド生成装置、音声ガイド生成方法及び放送システム Download PDF

Info

Publication number
JPWO2018216729A1
JPWO2018216729A1 JP2019520285A JP2019520285A JPWO2018216729A1 JP WO2018216729 A1 JPWO2018216729 A1 JP WO2018216729A1 JP 2019520285 A JP2019520285 A JP 2019520285A JP 2019520285 A JP2019520285 A JP 2019520285A JP WO2018216729 A1 JPWO2018216729 A1 JP WO2018216729A1
Authority
JP
Japan
Prior art keywords
information
unit
phoneme
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019520285A
Other languages
English (en)
Other versions
JP6824399B2 (ja
Inventor
正 熊野
正 熊野
山田 一郎
一郎 山田
今井 篤
篤 今井
住吉 英樹
英樹 住吉
山内 結子
結子 山内
清水 俊宏
俊宏 清水
信正 清山
信正 清山
庄衛 佐藤
庄衛 佐藤
礼子 齋藤
礼子 齋藤
太郎 宮▲崎▼
太郎 宮▲崎▼
清 栗原
清 栗原
麻乃 一木
麻乃 一木
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Publication of JPWO2018216729A1 publication Critical patent/JPWO2018216729A1/ja
Application granted granted Critical
Publication of JP6824399B2 publication Critical patent/JP6824399B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)

Abstract

メッセージ管理部は映像に表された競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積し、説明生成部は伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成し、音声合成部は前記説明テキストから変換した音声を出力し、前記説明生成部は、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする。

Description

本発明は、音声ガイド生成装置、音声ガイド生成方法及び放送システムに関する。
本願は、2017年5月24日に、日本に出願された特願2017−102847号に基づき優先権を主張し、その内容をここに援用する。
テレビジョン放送やその他の配信形態で、スポーツ競技の映像及び音声からなるスポーツ番組を提供する際、競技を説明する実況音声を重畳することは、広く行われている。このことは、スポーツ番組をより理解しやすく楽しめるものとすることに貢献する。
実況音声を制作するためには、従来、当該競技に精通したアナウンサーなどを競技が行われている間中、常に試合会場等に配置し、実況解説を行わせることがあった。この実況解説は、多くのコストがかかるため、多くの競技のスポーツ番組において提供を断念することや、あるいは実況音声を重畳しない形で提供にとどめることがあった。このことは、特に多くの競技が同時並行して実施される大規模スポーツ大会などで著しい。
そこで、スポーツ競技の競技データから競技の状況を説明するテキストを自動生成する手法が提案されていた。例えば、非特許文献1には、野球の各イニングにおける打者成績、スコアボードに表された情報などに基づくイニング速報テキストの自動生成について記載されている。
村上 聡一朗、笹野 遼平、高村 大也、奥村 学、"打者成績からのイニング速報の自動生成"、言語処理学会 第22回年次大会 発表論文集、p.338−341、2016年2月29日
一方、アナウンサーや解説者が発話する実況コメントが重畳されたテレビジョン放送番組においても、視聴者は、スポーツ競技の音声を聞く際、アナウンサーや解説者が発話する実況コメントだけでは競技の状況を十分に把握できないことがある。また、生放送の字幕放送では実況コメントが発話されてから、その発話内容を示す字幕が提示されるまで10秒程度の遅れが生じる。このことも直近の競技の状況を十分に把握できない原因になりうる。
視覚障がい者がテレビジョン放送番組をより楽しめるように、放送事業者は、解説放送を実施することがある。解説放送は、画面に映されている内容をアナウンサー等の説明者の音声で提供する放送サービスである。従来、解説放送のコンテンツを制作するには多くの人手を要する。そのため、放送事業者が提供する放送番組のうち解説放送が実施される放送番組の割合が限られている。また、字幕は、実況アナウンサー等が発話した音声に基づいて音声認識処理又は人手により制作されていた。このような発話内容に対しても、前述の非特許文献1に記載された技術を用いて、解説放送と同様の補足情報を音声で提供することが検討されてきた。
しかしながら、非特許文献1に記載の手法は、野球に限定され、イニング毎のデータをまとめて解析し、各イニングで起きている状況を要約した説明テキストを生成する手法である。即ち、非特許文献1に記載の手法では、スポーツ中継などの生放送番組の映像に連動して説明テキストを生成することは考慮されていなかった。
本発明は上記の点に鑑みてなされたものであり、映像と連動して競技の状況を的確に伝達する音声を生成することができる音声ガイド生成装置、音声ガイド生成方法及び放送システムを提供することを課題とする。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理部と、伝達済情報に基づいて前記メッセージから検出した未伝達情報の説明テキストを生成する説明生成部と、前記説明テキストから変換した音声を出力する音声合成部と、を備え、前記説明生成部は、前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする音声ガイド生成装置である。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記メッセージ管理部は、前記メッセージの更新により生じた変動部分を検出して、前記変動部分の種類に応じた新たな情報を生成し、生成した前記情報をさらに蓄積してもよい。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記メッセージ管理部は、前記新たな情報の構造を示す情報生成テンプレートを前記変動部分の種類毎に予め記憶し、前記情報生成テンプレートから、前記変動部分の種類に対応する情報生成テンプレートを選択し、選択した情報生成テンプレートに、前記変動部分の要素を統合することで前記新たな情報を生成してもよい。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記説明生成部は、伝達済情報として保持されている情報の中で所定の種類の情報を、伝達完了時刻から所定の時間が経過した場合に、未伝達であるとみなしてもよい。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記説明生成部は、前記説明テキストの文型を示す説明テンプレートを伝達する未伝達情報の種類毎に予め記憶し、前記説明テンプレートから、前記未伝達情報の種類に対応する説明テンプレートを選択し、選択した説明テンプレートに、前記未伝達情報の要素を統合して前記説明テキストを生成してもよい。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記説明生成部は、前記メッセージが示す競技の状況を示す競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示した前記説明テキストを生成し、前記音声合成部は、前記説明テキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成部と、時間長モデルを用いて、前記音素言語特徴量生成部が生成した前記言語特徴量と前記強調情報とから、前記音素の時間長を生成する時間長演算部と、前記時間長演算部が生成した音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成部と、音響特徴量モデルを用いて、前記フレーム言語特徴量生成部が生成したフレームの言語特徴量と前記フレームに対応する強調情報とから、前記フレームごとの音響特徴量を生成する音響特徴量演算部と、前記音響特徴量演算部が生成したフレームごとの音響特徴量を用いて音声合成を行う合成部と、を備え、前記時間長モデルは、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力とし、前記音素の時間長を出力として予め学習され、前記音響特徴量モデルは、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力とし、前記フレームの音響特徴量を出力として予め学習されたこと、を特徴としてもよい。
また、本発明の一態様は、上記の音声ガイド生成装置であって、前記時間長モデルおよび前記音響特徴量モデルは、それぞれ前記音素が品詞を名詞とする文末単語の音素であるか否かを示す文末情報をさらに用いて学習され、前記音素言語特徴量生成部は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、前記時間長演算部は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、前記フレーム言語特徴量生成部は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、前記音響特徴量演算部は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成すること、を特徴としてもよい。
また、本発明の一態様は、上記の音声ガイド生成装置と、前記音声合成部が変換した音声を示す音声データと前記説明テキストの生成に用いた競技の状況の時刻を示す時刻情報を記憶する第1バッファ部と、競技の状況を示す映像データと当該状況の時刻を示す時刻情報を対応付けて記憶する第2バッファ部と、現在時刻から所定時間過去の時刻である指定時刻の音声データを前記第1バッファ部から抽出し、前記指定時刻の映像データを前記第2バッファ部から抽出し、抽出した前記音声データと抽出した映像データとを重畳する重畳処理部と、を備える放送システムであってもよい。
また、本発明の一態様は、上記の放送システムであって、前記メッセージ管理部は、前記メッセージを含む競技データと前記メッセージが示す競技の状況の時刻を示す時刻情報を対応付けて記憶し、前記説明生成部は、前記未伝達情報として現在時刻から第2の所定時間過去の時刻の前記競技データを未伝達情報として前記メッセージ管理部から参照し、かつ、前記第2の所定時間は、前記所定時間よりも短いこと、を特徴としてもよい。
また、本発明の一態様は、上記の音声ガイド生成装置と、前記説明テキストと前記音声を送信する送信装置と、を備える放送システムであってもよい。
また、本発明の一態様は、音声ガイド生成装置における音声ガイド生成方法であって、競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理過程と、伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成する説明生成過程と、前記説明テキストから変換した音声を出力する音声合成過程と、を有し、前記説明生成過程は、前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復すること、を特徴とする音声ガイド生成方法である。
本発明によれば、映像と連動して競技の状況を的確に伝達する音声を効率的に提供することができる。
第1の実施形態に係る放送システムの構成例を示すブロック図である。 第1の実施形態に係る音声ガイド生成装置の構成例を示すブロック図である。 第1の実施形態に係るメッセージの一例を示す図である。 第1の実施形態に係るメッセージの他の例を示す図である。 第1の実施形態に係るメッセージ管理処理の第1例を示すフローチャートである。 第1の実施形態に係るメッセージ管理処理の第2例を示すフローチャートである。 第1の実施形態に係るメッセージ管理処理の第3例を示すフローチャートである。 第1の実施形態に係るイベント情報生成処理の一例を示す説明図である。 第1の実施形態に係る説明生成処理の一例を示すフローチャートである。 第1の実施形態に係る説明テンプレートの一例を示す図である。 第1の実施形態に係る説明テンプレートの選択ルールの一例を示す図である。 第1の実施形態に係る説明テキストの一例を示す図である。 第2の実施形態に係る音声ガイド生成装置の構成例を示すブロック図である。 第2の実施形態に係る事前学習部の構成例を示すブロック図である。 第2の実施形態に係る音声合成部の構成例を示すブロック図である。 第2の実施形態に係る時間長モデルの例を示す図である。 第2の実施形態に係る音響特徴量モデルの例を示す図である。 第2の実施形態に係る競技データの一例を示す図である。 第2の実施形態に係る競技データの他の例を示す図である。 第2の実施形態に係る説明テンプレートの一例を示す図である。 第2の実施形態に係る説明テンプレートの他の例を示す図である。 第2の実施形態に係る説明テンプレートのさらに他の例を示す図である。 第2の実施形態により生成されたテキストの一例を示す図である。 第2の実施形態により生成されたテキストの他の例を示す図である。 第2の実施形態により生成された合成音声の抑揚の一例を示す図である。 第2の実施形態により生成された合成音声の抑揚の他の例を示す図である。 第2の実施形態に係る事前学習の一例を示すフローチャートである。 第2の実施形態に係る音声ガイド生成処理の一例を示すフローチャートである。 第3の実施形態に係る音声ガイド生成装置の構成例を示すブロック図である。 第3の実施形態に係る音声ガイド配信処理の一例を示すフローチャートである
<第1の実施形態>
以下、図面を参照しながら本発明の第1の実施形態を詳細に説明する。
図1は、本実施形態に係る放送システム1の構成例を示すブロック図である。放送システム1は、音声ガイド生成装置10と、映像処理部15と、送信装置16と、受信装置20と、を備える。音声ガイド生成装置10、映像処理部15及び送信装置16は、主に放送事業者が有する送信側の装置群である。受信装置20は、主に視聴者が有する受信側の装置である。以下の説明では、放送システム1がテレビジョン放送に適用される場合を例にする。
音声ガイド生成装置10は、競技の最新情報を表すデータで、その更新の都度最新版のメッセージを取得する。音声ガイド生成装置10は、メッセージとして、例えば、データセンタから実時間で配信される競技データを、通信ネットワークを介して受信する。データセンタは、例えば、OBS(Olympic Broadcasting Services)など競技大会の公式のデータセンタでありうる。また、音声ガイド生成装置10は、放送事業者もしくはコンテンツ制作者の編集装置から競技データを直接又は間接的に受信してもよい。競技データは、放送などにより提供される映像に表されるスポーツ競技の状況を示す所定の形式のデータ(例えば、ODF(Olympic Data Feed))である。競技データの例については、後述する。
音声ガイド生成装置10は、取得した最新版の受信メッセージを蓄積する。音声ガイド生成装置10は、伝達済情報に基づいて受信メッセージから未伝達情報を検出する。音声ガイド生成装置10は、検出した未伝達情報を伝達するための説明テキストを生成し、生成した説明テキストから変換した音声データを送信装置16に出力する。また、音声ガイド生成装置10は、説明テキストの生成に用いた未伝達情報を伝達済情報として累積する。そして、音声ガイド生成装置10は、音声データを再生するのに必要な時間だけ待機した後、再び、新たに未伝達情報を検出し、検出した未伝達情報の説明テキストを生成する、という、一連の処理を反復する。音声ガイド生成装置10は、生成した説明テキストを送信装置16に出力してもよい。
映像処理部15は、映像データと音声データを取得する。取得される映像データ、音声データは、それぞれ競技データが示すスポーツ競技の映像、音声を表すデータである。映像処理部15は、例えば、競技会場に設置された撮影装置(例えば、ビデオカメラ)から映像データを、収音装置(例えば、マイクロホン)から音声データを直接又は間接的に受信する。映像処理部15は、取得された映像データと音声データからオペレータの操作に応じて放送される区間もしくは部分の映像データと音声データを編集してもよい。映像処理部15は、取得もしくは編集した映像データと音声データを送信装置16に出力する。
以下の説明では、映像処理部15から提供される音声データを原音声データと呼び、音声ガイド生成装置10が生成した音声データを音声ガイドデータと呼んで、両音声データを区別する。原音声データは、会場で収録した背景音のみであってもよいし、背景音に実況解説等の音声が重畳された音声を示すデータであってもよい。
送信装置16は、音声ガイド生成装置10から入力された音声ガイドデータと、映像処理部15から入力された映像データならびに原音声データとを多重化する、送信装置16は、多重化により得られた多重化データを放送伝送路に送出する。放送伝送路は、例えば、所定の周波数帯域の放送波である。放送伝送路の一部には、通信回線が含まれてもよい。
なお、音声ガイドデータ、原音声データは、それぞれ音声多重放送における副音声、主音声として多重化されてもよい。送信装置16は、音声ガイド生成装置10から説明テキストが入力されるとき、入力される説明テキストを字幕データとして、さらに多重化してもよい。
受信装置20は、放送伝送路を介して伝送される多重化データを受信し、受信した多重化データに基づいて放送番組の内容を提示する。受信装置20は、受信した多重化データから映像データ、原音声データ及び音声ガイドデータに分離する。受信装置20は、表示部(例えば、ディスプレイ)と、再生部(例えば、スピーカ)とを備える。表示部は、分離した映像データに基づく映像を表示する。再生部は、原音声データと音声ガイドデータのいずれか一方又は両方に係る音声を再生する。受信装置20は、ユーザの操作(例えば、リモートコントローラの主音声ボタンもしくは副音声ボタンの押下)に応じて、原音声データに基づく音声と、音声ガイドデータに基づくガイド音声のいずれか一方を選択してもよい。また、受信装置20は、原音声とガイド音声を重畳し、重畳により得られた重畳音声を再生部に再生させてもよい。
なお、多重化データに字幕データが含まれる場合には、受信装置20は、多重化データから字幕データを分離してもよい。受信装置20は、ユーザの操作(例えば、リモートコントローラの字幕ボタンの押下)に応じて、分離した字幕データで示される文字列を映像に重畳してもよい。受信装置20は、文字列を重畳した映像を表示部に表示させる。受信装置20は、例えば、テレビジョン受信装置である。
また、音声ガイド生成装置10は、生成した説明テキストを送信装置16に代えて、映像処理部15に出力してもよい。
映像処理部15は、音声ガイド生成装置10から説明テキストが入力されるとき、説明テキストで表される文字列を字幕として映像データに重畳し、字幕を重畳した映像データを送信装置16に出力してもよい。
(音声ガイド生成装置)
次に、本実施形態に係る音声ガイド生成装置10の構成例について説明する。
図2は、本実施形態に係る音声ガイド生成装置10の構成例を示すブロック図である。
音声ガイド生成装置10は、メッセージ管理部11と、説明生成部12と、音声合成部13と、を備える。
メッセージ管理部11は、取得した受信メッセージの最新版を保持する。メッセージ管理部11は、取得した受信メッセージが、複数の異なる種別に分かれているものとして、種別ごとに最新版を保持するように構成されてもよい。メッセージの種別は、例えば、競技の状態(試合状態)を示す試合状態メッセージや、起こった出来事を列挙したイベント一覧メッセージなどである。また、メッセージ管理部11は、取得した受信メッセージを最新版より以前のものも併せて保持し、新しい受信メッセージを取得した際にその以前の版と比較することでメッセージ変動部分を検出する。メッセージ管理部11は、検出した変動の種類に応じた新たな情報を生成した上で、生成した情報をメッセージ管理部11が保持する特別なメッセージ種別のメッセージに追加して保持するよう構成してもよい。この機能は、一例として、試合状態のみがメッセージとして配信される競技において、試合状態の変動からイベントを検出してイベント情報を生成し、生成したイベント情報からなるイベント一覧として保持するために用いることができる。メッセージ管理部11が行う処理については、後述する。
メッセージ管理部が前記の手順で新たな情報を生成する際、メッセージ管理部11は、自部に予め記憶しておいた情報生成テンプレートを用いてもよい。情報生成テンプレートは、メッセージの予め指定された一部である情報要素を空欄として有し、その情報要素を含んだ新たな情報をメッセージの一部として生成するための情報構造の雛形を示すデータである。メッセージ管理部11は、記憶した情報生成テンプレートから、受信メッセージの変動部分の種類を手がかりとする所定の選択ルールに合致するか否かを判定し、合致すると判定した選択ルールに対応する情報生成テンプレートを選択する。メッセージ管理部11は、選択した情報生成テンプレートに、所定の情報要素を統合して、追加すべきメッセージの一部を生成する。
説明生成部12は、説明生成処理と発話管理処理とを行う。説明生成処理において、説明生成部12は、メッセージ管理部11に記憶された受信メッセージと、自部に既に記憶した伝達済情報とを比較して、新たな未伝達情報の有無を検出する。未伝達情報は、メッセージ管理部11に記憶された受信メッセージのうち、伝達済情報との差分に相当する。伝達済情報は、既に出力された音声ガイドデータに変換された説明テキストの生成に用いられた過去の未伝達情報に相当する。説明生成部12は、新たに検出した未伝達情報で表される競技の状況を示す説明テキストを生成する。説明生成部12は、生成した説明テキストを音声合成部13に出力する。説明生成部12は、音声合成部13への出力と並行して、生成した説明テキストを送信装置16(図1)に出力してもよい。
発話管理処理において、説明生成部12は、音声合成部13からの音声ガイドデータの出力状態(つまり、発話状態)を監視し、その出力が完了するまで待機する。説明生成部12は、例えば、説明テキストの出力時点から音声合成部13から出力終了通知(後述)が入力される時点までの間、音声ガイドデータが出力中であると判定する。音声合成部13は、出力終了通知の入力後、次に説明テキストを出力するまでの間、音声ガイドデータが出力されていない(無発話)と判定する。説明生成部12は、音声ガイドデータの出力の終了後、出力が終了した音声ガイドデータへの変換に用いられた説明テキストの生成に用いられた未伝達情報を伝達済情報の追加分として記憶する。これにより、伝達済情報が更新される。なお、伝達済情報の更新処理は、音声合成部13における出力処理完了までの待機時間中に行われてもよい。その後、説明生成部12は、更新後の伝達済情報と最新の受信メッセージについて、再度、説明生成処理を行う。
説明テキストを生成する際、説明生成部12は、自部に予め記憶しておいた説明テンプレートを用いてもよい。説明テンプレートは、メッセージの予め指定された一部である情報要素の入力欄を空欄として有し、その情報要素を説明するための説明文の文型(つまり、穴あきテキスト)を示すデータである。説明生成部12は、記憶した説明テンプレートから、未伝達情報の種類を手がかりとする所定の選択ルールに従って対応する説明テンプレートを選択する。説明生成部12は、選択した説明テンプレートに、所定の情報要素を統合して、説明テキストを生成する。
音声合成部13は、説明生成部12から入力される説明テキストに対して音声合成処理を行って、その説明テキストで発話内容を表す発話音声を示す音声ガイドデータを生成する。音声合成部13は、公知の音声合成方式として、例えば、コーパスベース音声合成方式を用いることができる。コーパスベース音声合成方式を用いる場合、音声合成部13は、予め記憶させておいた音声コーパスを参照する。音声合成部13は、生成した音声ガイドデータを所定の発話速度(日本語の場合、例えば、300〜400モーラ/分)で送信装置16に出力する。音声合成部13は、音声ガイドデータの出力が終了したとき、その終了を示す出力終了通知を説明生成部12に出力する。
説明テキストが日本語で記述されるときであっても、説明テキストの一部の要素情報、例えば、競技の選手名にアルファベットからなる文字列が含まれる場合がある。その場合には、説明生成部12は、その文字列から、あるいはそれに加えて選手の国籍情報から、その要素情報の読み方推定処理を行い、その要素情報の文字列の読みを定めることとしてもよい。音声合成部13は、読み方推定処理の手法として、例えば、非特許文献:宮崎、熊野、今井、“国籍情報を用いた人名の音訳”、第15回情報科学技術フォーラム講演論文集(FIT2016)、E−018 No.2、p.145−146、2016年8月23日、に記載の手法を用いることができる。
(メッセージ)
次に、本実施形態に係るメッセージの例について説明する。
図3は、試合状態データを含むメッセージの一例を示す図である。本実施形態では、メッセージとしてODFに基づいて構成された競技データが利用可能である。ODFは、マークアップ言語の一種であるXML(Extensible Markup Language)を用いて記述されるメッセージを示すデータフィードである。マークアップ言語で規定されたタグが用いられることで、構成情報間の包含関係ならびに並列関係、それらの種別や属性が記述される。但し、図3、図4に示す例では、タグの表記が省略もしくは簡略化され、実体的な情報が表されている。
図3の冒頭には、メッセージ種別として「試合状態」が記述され、対象となる試合として、「サッカー男子決勝」が記述されている。
また、対戦カードの一方であるチーム1として「ブラジル」が記述され、他方であるチーム2として「ドイツ」が記述されている。
チーム1、2の得点として、それぞれ「3」、「4」が記述されている。
従って、図3に示すメッセージは、試合状態として、サッカー男子決勝がブラジルチームとドイツチームの対戦であり、得点が3対4であることを示す。
図4は、イベント情報を含むメッセージの一例を示す。図4の冒頭には、メッセージ種別として「イベント一覧」が記述され、対象となる試合として「サッカー男子決勝」が記述されている。
イベント[1]、イベント[2]、…、イベント[8]は、それぞれ第1、2、8番目のイベント情報を示す。
イベント[8]において、時刻として「前半27分」が記述されている。イベント種別として「フリーキック(直接ゴールを狙う)」が記述されている。結果として「成功」が記述されている。行為者として「チーム:ブラジル、選手名NM」が記述されている。
従って、図4に示すメッセージは、第8番目のイベントとして、サッカー男子決勝の前半セットの開始から27分において、ブラジルチームに所属する選手NMがフリーキックにより直接ゴールを狙ったことを示す。
(メッセージ管理)
次に、本実施形態に係るメッセージ管理処理について説明する。
図5は、本実施形態に係るメッセージ管理処理の第1例を示すフローチャートである。本例は、メッセージ管理処理の基本型である。
(ステップS11)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS12の処理に進む。
(ステップS12)メッセージ管理部11は、受信した最新版のメッセージを蓄積する。その後、ステップS11の処理に戻る。
図6は、本実施形態に係るメッセージ管理処理の第2例を示すフローチャートである。本例は、メッセージの種別が複数あり、そのうちのいずれに分類することを特徴とする。
(ステップS21)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS22の処理に進む。
(ステップS22)メッセージ管理部11は、その時点において最新版のメッセージの種別を判定する。種別の判定において、メッセージ管理部11は、メッセージに付随したタグや、設定されたパラメータを参照してもよい。その後、ステップS23の処理に進む。
(ステップS23)メッセージ管理部11は、判定した種別毎に受信した最新版のメッセージを蓄積する。その後、ステップS21の処理に戻る。
なお、ステップS12(図5)もしくはステップS23(図6)において、メッセージ管理部11は、過去に蓄積したメッセージを棄却し、完全に最新版のメッセージに置き換えてもよい。
図7は、本実施形態に係るメッセージ管理処理の第3例を示すフローチャートである。本例は、メッセージの変動部分のパターンが所定のパターンに合致する場合に、そのパターンに応じたイベント情報を生成することを特徴とする。
(ステップS31)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS32の処理に進む。
(ステップS32)メッセージ管理部11は、受信した最新版のメッセージを蓄積する。このとき、メッセージ管理部11は、過去に蓄積したメッセージを棄却せずに維持する。その後、ステップS33の処理に進む。
(ステップS33)メッセージ管理部11は、最新版のメッセージと直前の版のメッセージとを比較し、直前の版からの変動部分を検出する。その後、ステップS34の処理に進む。
(ステップS34)メッセージ管理部11は、予め記憶しておいた変動部分のパターンのうち、検出した変動部分のパターンに合致(つまり、マッチ)するパターンの有無を判定する。メッセージ管理部11には、変動部分のパターンと、そのパターンに対応する情報生成テンプレートのセットを、その変動部分の種別毎に記憶しておく。
合致するパターンがあると判定されるとき(ステップS34 YES)、ステップS35の処理に進む。合致するパターンがないと判定されるとき(ステップS34 NO)、ステップS31の処理に戻る。
(ステップS35)メッセージ管理部11は、イベント生成データを参照して、合致するパターンに対応する生成ルールを特定し、特定した生成ルールと最新版のメッセージに基づいてイベント情報を生成する。その後、ステップS36の処理に進む。
(ステップS36)メッセージ管理部11は、生成したイベント情報を最新版のメッセージに追加することで、その最新版メッセージと対応付けて蓄積する。その後、ステップS31の処理に戻る。
(イベント情報生成処理)
次に、ステップS33からステップS35(図7)で行われるイベント情報生成処理について説明する。
図8は、イベント情報生成処理の一例を示す説明図である。
図8は、過去のメッセージ、最新版のメッセージ、及び生成されたイベント情報の例を上方から下方に向けてその順序で示す。図8に示す例では、直前の版のメッセージ、最新版のメッセージが、それぞれテニス競技における試合状態データである場合を仮定する。
メッセージ管理部11は、ステップS33において、直前の版のメッセージと最新版のメッセージを比較し、変動部分を検出する。図8に示す例では、変動部分として、ゲームカウント、アンフォーストエラーの回数及びブレーク数(ブレーク成功)の項目が検出される。ここで、第4セット(4S)における競技者MRのゲームカウントの4から5への変化、競技者DPのアンフォーストエラーの回数の11から12への変化、ならびに競技者MRのブレーク数の2から3への変化が検出される。
メッセージ管理部11は、ステップS34において、検出された変動部分の要素情報のパターンと合致するパターンとして、予め記憶しておいた変動部分のパターンのうち、種別をポイント(得点)とするパターンがあると判定する。
メッセージ管理部11は、ステップS35において、情報生成テンプレートを参照して、選択したパターンに対応する生成ルールを特定し、特定した生成ルールに基づいてイベント情報を生成する。ここで、メッセージ管理部11は、変動部分に含まれる行為者として競技者MRと、原因として行為者の対戦相手である競技者DPのアンフォーストエラーと競技者MRのブレークの成功(Y)とを特定する。そして、メッセージ管理部11は、識別子「[イベント1123]」と特定した情報を統合して、種別「ポイント」、行為者「MR」、原因「DPのアンフォーストエラー」と「ブレーク:Y」、を含むイベント情報を生成する。識別子[イベント1123]は、個々のイベントを一意に特定するための識別情報である。
(説明生成処理)
次に、本実施形態に係る説明生成処理について説明する。
図9は、本実施形態に係る説明生成処理の一例を示すフローチャートである。図9に示す処理は、図5−図7のいずれかに示す処理とは、非同期で実行される。
(ステップS41)説明生成部12は、メッセージ管理部11に記憶された最新のメッセージと自部に記憶された伝達済情報とを比較し、未伝達情報を検出する。説明生成部12は、予め記憶しておいた未伝達情報のパターンのうち、検出した未伝達情報と合致(マッチ)するパターンの有無を判定する。説明生成部12には、未伝達情報のパターンと、そのパターンに対応する説明テンプレートのセットを、その未伝達情報の種別毎に記憶しておく。合致するパターンがあると判定するとき(ステップS41 YES)、ステップS43の処理に進む。合致するパターンがないと判定するとき(ステップS41 NO)、ステップS42の処理に進む。
(ステップS42)説明生成部12は、一定時間(例えば、1秒)処理を行わずに待機し(スリープ)、その後、ステップS41の処理に戻る。
(ステップS43)説明生成部12は、合致すると判定されたパターンに対応する説明テンプレートを読み出し、読み出した説明テンプレートと未伝達情報に基づいて説明テキストを生成する。その後、ステップS44の処理に進む。
(ステップS44)説明生成部12は、説明テキストに、例えば、アルファベットからなる文字列で記述される選手名が含まれるか否かを判定する。選手名が含まれると判定されるとき(ステップS44 YES)、ステップS45の処理に進む。選手名が含まれないと判定するとき(ステップS44 NO)、ステップS46の処理に進む。
(ステップS45)説明生成部12は、選手名の部分について国籍情報に基づいて上述の読み方推定処理を行って説明テキストの日本語の読みを定める。説明生成部12は、その部分について定めた読みをもって説明テキストを更新する。その後、ステップS46の処理に進む。
(ステップS46)説明生成部12は、生成した説明テキストを音声合成部13に出力する。音声合成部13は、説明生成部12から入力された説明テキストについて音声合成処理を行って音声ガイドデータを生成する。音声合成部13は、生成した音声ガイドデータを所定の発話速度で送信装置16に出力する。説明生成部12は、音声ガイドデータの出力が完了するまで待機し、その後、ステップS47の処理に進む。
(ステップS47)説明生成部12は、出力した説明テキストの生成に用いた未伝達情報を新たな伝達済情報として蓄積することにより、伝達済情報を更新する。その後、ステップS41の処理に戻る。
なお、未伝達情報のパターンには、伝達済情報のうち所定の情報要素について所定時間(例えば、30秒)経過後に未伝達とみなすことを示す指定情報が含まれることがある。説明生成部12は、ステップS41の処理において、その指定情報が含まれるパターンと未伝達情報のパターンとが合致するか否かを判定する際、指定された情報要素を未伝達情報に含める。そのため、指定された情報要素が、現実には伝達済であっても、再度伝達されうる。そのため、試合状況の変動がない、もしくは変動が少ない場合であっても、指定された情報要素、例えば、試合状態を反復して伝達することが可能となる。従って、そのような場合において受聴者が試合状況を忘れてしまうことを避けることができる。また、音声ガイドを試合の途中から受聴した受聴者であっても試合状態を把握することができる。
また、図9に示す処理のうち、ステップS44ならびにステップS45の処理は、必須ではなく、省略されてもよい。
(説明テンプレート)
次に、本実施形態に係る説明テンプレートの一例について説明する。
図10は、本実施形態に係る説明テンプレートの一例を示す図である。
図10は、イベントの種別をポイントとするパターンに対応付けられた説明テンプレートの例である。この説明テンプレートは、競技におけるイベントとして選手Bの動作を原因とするポイントと、試合状態としてゲームカウント、獲得ゲーム数、対象セットのブレーク数を説明するための文型を示す。この説明テンプレートには、未伝達情報の情報要素のうち、得点した[選手Bのフルネーム]、[原因]、その原因となるゲームブレークに成功した[選手Bのフルネーム]、[全体ゲーム数]、競技者である[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、各競技者の得点として[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、得点時における行為者である[選手Bのブレーク数]、をそれぞれ代入するための空欄が設けられている。
次に、図10に示す説明テンプレートに対応するパターンの選択ルールの例について説明する。
図11は、図10に示す説明テンプレートの選択ルールの例を示す図である。
この例では、説明テンプレートに対応するパターンを選択するための条件が、未伝達情報に含まれる情報要素として、イベントの種別を「ポイント」とし、かつ、イベントの原因として「選手A(もしくは選手B)のアンフォーストエラー」と「ブレークの成功(Y)」をいずれも含むこと、に合致することである。かかる選択ルールは、個々の説明テンプレートのパターン毎に予め設定される。
(説明テキスト)
次に、図10に示す説明テンプレートを用いて生成された説明テキストの例について説明する。図12は、図10に示す説明テンプレートを用いて生成された説明テキストの例を示す図である。
説明生成部12は、ステップS43(図9)において、未伝達情報のパターンとして、その未伝達情報に含まれる情報要素と合致するパターンとして、予め記憶されたパターンのうち図11に示すパターンの選択ルールを特定する。説明生成部12は、特定したパターンに対応する説明テンプレートとして図12に示す説明テンプレートを選択する。
そして、説明生成部12は、選択した説明テンプレートに設けられた空欄のそれぞれに対応する未伝達情報の情報要素を代入する。具体的には、説明生成部12は、図10に示す説明テンプレートに、[選手Bのフルネーム]、[原因]、[選手Bのファミリーネーム]、及び[全体ゲーム数]の空欄に、それぞれ「AD・MR」、「DPのアンフォーストエラー」、「MR」、及び「10」を代入する。説明生成部12は、この説明テンプレートに、さらに[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、及び[選手Bのブレーク数]の空欄に、それぞれ「DR」、「MR」、「5」、「5」、及び「3」を代入する。よって、「MR、第10ゲームブレーク成功。ゲームカウント、DR対MR、5−5。この3回目のブレーク。」との文を示す説明テキストが生成される。
なお、あるパターンに対して上述の指定情報が対応付けられている場合においても、説明生成部12は、指定情報で指定された情報要素については、伝達してから所定時間経過後に未伝達情報とみなしたうえで、上述した手法で説明テキストを生成することができる。
例えば、指定情報においてメッセージ種別を試合状態とする要素情報が設定する場合を仮定する。その場合には、メッセージ種別を試合状態とする要素情報を未伝達情報に含め、その未伝達情報の全体に含まれる要素情報のパターンに合致するパターンに対応する説明テンプレートを選択する。ここで、選択ルールとして、説明生成部12は、試合状態種別が「ゲームカウント」であり、要素情報として、[試合名]、[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、[セット数]、[選手Aの獲得ゲーム数]、及び[選手Bの獲得ゲーム数]をいずれも含むという条件に合致するとき、対応する説明テンプレートとして、次の説明テンプレートを選択する。
[試合名]、[選手Aのファミリーネーム]対[選手Bのファミリーネーム]。現在第[セット数]。ゲームカウント[選手Aの獲得ゲーム数]対[選手Bの獲得ゲーム数]。
そして、説明生成部12は、未伝達情報に含まれる要素情報である、それぞれ未伝達情報に含まれる要素情報である「テニス男子シングルス決勝」、「DP」、「MR」、「1」、「5」、及び「5」を、選択したテンプレートの[試合名]、[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、[セット数]、[選手Aの獲得ゲーム数]、及び[選手Bの獲得ゲーム数として]の各欄に代入する。これにより、説明生成部12は、次に示す説明テキストを生成することができる。
「テニス男子シングルス決勝、DP対MR。現在第1セット。ゲームカウント5対5。」
以上に説明したように、本実施形態に係る音声ガイド生成装置10は、メッセージ管理部11と、説明生成部12と、音声合成部13と、を備える。メッセージ管理部11は、競技の状況を示す競技データを受信メッセージとして蓄積する。競技データに記述される競技の状況は、並行して放送される映像に表されるものであってもよい。説明生成部12は、伝達済情報に基づいて受信メッセージから検出した未伝達情報の説明テキストを生成する。音声合成部13は、説明テキストから変換した音声を出力する。説明生成部12は、説明テキストの生成に用いた未伝達情報を伝達済情報とし、音声合成部13から音声の出力が終了した後、新たな未伝達情報の説明テキストを生成してもよい。
この構成によれば、映像に表された競技の状況を示す説明テキストに基づく音声が人手を介さずに提供される。また、1回の音声の提供が中断されずに完了した後で、その時点で新たな競技の状況を説明する音声の提供が開始される。そのため、映像に表された競技の進行に連動して、競技の状況を受聴者に的確に伝達することができる。
また、メッセージ管理部11は、受信メッセージの変動部分に競技のイベントを示すイベント情報が含まれないとき、変動部分に含まれる競技の状態である試合状態の変動をイベントとするイベント情報を生成してもよい。
この構成によれば、イベント情報が提供されない場合でも、試合状態の変動をイベントとして変動した試合状態とともに受聴者に伝達することができる。受聴者は競技の進行をより詳細に把握できるので、競技をより楽しむことができる。
また、説明生成部12は、伝達済情報に保持されている情報のうち、伝達されてから所定の時間が経過したものを、最新メッセージから変化していなくとも未伝達として扱い、再度同じ内容を説明するテキストを生成することが可能であってもよい。
この構成によれば、競技の状況が時間経過に応じて変化しない場合に、受聴者が忘却したかもしれない情報を繰り返し伝達することができる。また、競技の途中から受聴を開始する受聴者でも競技の状況を把握することができる。
説明生成部12は、説明テキストの文型を示す説明テンプレートを伝達すべき未伝達情報の種別毎に予め記憶しておき、記憶した説明テンプレートから、未伝達情報の種別に対応する説明テンプレートを選択してもよい。説明生成部12は、選択したテンプレートに、未伝達情報を統合して説明テキストを生成する。
この構成によれば、異なる競技に対応するシステムを個別に開発することなく、競技ごとに説明テンプレートを予め記述しておくだけでよいので、複雑な処理を行わずに競技の状況を伝達することができる。そのための作業やシステム規模を低減することで、経済的な実現を図ることができる。
また、放送システム1は、音声ガイド生成装置10と、説明テキストと生成された音声を送信する送信装置16とを備えてもよい。
この構成によれば、送信される音声の内容を示す説明テキストを介して競技の状況が視聴者に伝達される。そのため、聴覚が不自由な者であっても説明テキストを視認して、その競技の状況を把握することができる。そのため、経済的に多様な視聴者にスポーツ競技を楽しませることができる。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。第1の実施形態に係る音声ガイド生成装置10は、スポーツ競技のスコア、ゴール、反則等の進行状態を示す競技データから、音声による解説(つまり、音声ガイド)を生成する。この競技データから音声ガイドを生成することで、例えば、視覚障害者がテレビのスポーツ中継をより楽しむことができることや、インターネットで配信されるスポーツ競技映像に音声による解説を付加したりすることが可能になる。
また、近年、統計モデルを用いた音声合成技術が進歩している。例えば、ディープニューラルネットワーク(Deep Neural Network:DNN)を用いて、話者の特徴や感情表現を学習し、テキストから、話者や感情を制御した音声合成を行う技術が提案されている。これによって、表現の豊かな音声合成が可能になる。
第1の実施形態で説明したように、競技データから音声ガイドを生成する手法を用いることで、競技の進行を音声で案内することが可能になる。しかし、第1の実施形態では、単にテキストを音声合成するに過ぎない。そのため、合成音声は抑揚にメリハリのない音声となるので、案内の意図が十分に表現されないことがある。
また、話者や感情を制御した音声合成を行う手法を用いて、音声ガイドを生成するとき、テキスト全体に対して話者や感情を制御するだけでは、テキストの途中で音声を強調する等の制御を行うことはできない。そのため、この手法を用いて、競技データから音声ガイドを生成することとしても、音声の抑揚にメリハリをつけることはできないので、案内の意図を十分に表現することができないという課題がある。
本実施形態では、このような問題に鑑みてなされたものであり、競技データから、抑揚にメリハリのついた音声を生成することを課題とする。以下では、第1の実施形態との差異点を主として説明する。第1の実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図13は、本実施形態に係る音声ガイド生成装置30の構成例を示すブロック図である。
音声ガイド生成装置30は、スポーツ等の進行状態を示す競技データから、音声(合成音声)を生成するものである。
音声ガイド生成装置30は、事前学習段階において、コーパス記憶装置40に記憶した学習用のデータとしてコーパスを用いて、テキストを音声に変換するための音声モデルをDNNによりオフラインで学習する。
コーパスには、強調音声コーパスと通常音声コーパスとがある。
強調音声コーパスは、テキストと、当該テキストを強調して発話した音声(強調音声)とを対とした学習データである。
通常音声コーパスは、テキストと、当該テキストを通常(強調せず)に発話した音声(通常音声)とを対とした学習データである。
音声ガイド生成装置30は、合成処理段階において、学習した音声モデルを用いて、競技データから、競技の進行を解説した音声をオンラインで生成する。
音声ガイド生成装置30は、競技データの強調すべき箇所を予め定めたテンプレートに基づいて、競技データから、強調箇所を示す発話スタイルを付加した競技の進行を解説したテキスト(発話スタイル付きテキスト)を生成し、学習した音声モデルを用いて、音声合成を行う。
これによって、音声ガイド生成装置30は、競技データから、抑揚にメリハリのついた音声を生成することができる。
音声ガイド生成装置30は、メッセージ管理部11と、説明生成部12と、事前学習部31と、音声合成部34と、を含んで構成される。
事前学習部31は、事前学習段階において、音声モデルを構成する各種のパラメータを学習する。
音声合成部34は、合成処理段階において、学習済みの音声モデルを用いて、競技データから音声(合成音声)を生成する。
音声ガイド生成装置30は、コーパス記憶装置40と各種のデータを送受信可能に接続する。
(事前学習部)
次に、図14を参照して、事前学習部31の構成について説明する。事前学習部31は、コーパス入力部32と、モデル学習部33と、を備える。
コーパス入力部32は、コーパス記憶装置40から、強調音声コーパスおよび通常音声コーパスを入力する。
コーパス入力部32は、テキストと音声(つまり、強調音声または通常音声)とを対応付けて、コーパス記憶装置40から読み出し、モデル学習部33に出力する。コーパス入力部32は、強調音声コーパスから読み込んだテキストに対応する音声が強調音声であることを示す強調判別情報とともに、そのテキストと音声とを対応付けてモデル学習部33に出力する。また、コーパス入力部32は、通常音声コーパスから読み込んだテキストと対応する音声が通常音声である(強調音声ではない)ことを示す強調判別情報とともに、そのテキストと音声とを対応付けてモデル学習部33に出力する。
モデル学習部33は、コーパス入力部32から入力されたテキスト、強調判別情報および音声(つまり、強調音声または通常音声)を用いて、DNNの音声モデルとして、時間長モデル346aと、音響特徴量モデル346bと、を学習する。モデル学習部33は、テキスト解析部331と、音声解析部332と、DNN学習部333と、を備える。
テキスト解析部331は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調判別情報に基づいて、発話スタイルを特定する音素ごとのラベル(強調情報、文末情報)を生成するものである。テキスト解析部331は、音素言語特徴量生成部331aと、フレーム言語特徴量生成部331bと、を備える。
音素言語特徴量生成部331aは、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する文脈に依存する素性を示す。例えば、音素言語特徴量は、音素情報(前後の音素を含む音素ラベル)、アクセントの位置、アクセント句情報、品詞情報、呼気段落情報等のいずれかもしくはこれらの組である。なお、これらの音素言語特徴量は、公知の一般的なテキスト解析(例えば、形態素解析、韻律推定、等)により求めることができるため、解析手法についての詳細な説明を省略する。
また、音素言語特徴量生成部331aは、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル(発話スタイルラベル〔強調情報、文末情報〕)を付加する。
音素言語特徴量生成部331aは、テキストとともに入力される強調判別情報が、音声が強調音声であることを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成部331aは、テキストとともに入力される強調判別情報が、音声が通常音声である(つまり、強調音声ではない)ことを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
また、音素言語特徴量生成部331aは、入力したテキストの文末単語の品詞が名詞である場合、文末単語を構成するすべての音素に対して、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成部331aは、体言止めを示すラベルを付加する音素以外の音素については、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。体言止めとは、日本語文において文末の単語の品詞が名詞である表現形式を意味する。日本語文では、通例、述語が文末に配置される。述語として、品詞が動詞、形容詞、形容動詞又は助動詞となる単語が用いられる。言い換えれば、体言止めの文は、文末の名詞の動作や状態を表す述語が省略された表現形式と捉えることができる。そのため、文末単語が述語となる文とは、抑揚が異なりうる。一般に、日本語の陳述文では、体言止めの頻度は稀である。しかしながら、スポーツ実況等で用いられる陳述文では、体言止めが比較的多用される傾向がある。本実施形態に係る事前学習部31は、このことに着目して、体言止めの有無を示す情報を音声モデルの学習に利用する。
音素言語特徴量生成部331aは、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成部331bに出力するとともに、DNN学習部333の時間長モデル学習部333aに出力する。
さらに、音素言語特徴量生成部331aは、音素ごとに、解析した音素固有の音素ラベルを音声解析部332の音素区切り部332aに出力する。
フレーム言語特徴量生成部331bは、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。なお、フレームは、音声解析部332で解析される音響特徴量を生成する単位である。
フレーム言語特徴量は、音素言語特徴量生成部331aで生成された音素言語特徴量に、音素の時間長の区間を構成するフレームの番号(つまり、フレームの位置)、フレームの総数等の音素の時間的特徴を含んで構成される。このフレーム言語特徴量生成部331bは、1音素に対して、その音素の時間長に対応したフレーム言語特徴量を生成する。
フレーム言語特徴量生成部331bは、音声解析部332から音素の時間長を入力し、音素の時間長の区間を構成するフレームの番号、フレームの総数等を求める。なお、音素の時間長は、例えば、1音素あたりのフレームの数である。
フレーム言語特徴量生成部331bは、生成した1音素に対応するフレーム数分のフレーム言語特徴量と、音素言語特徴量生成部331aから入力された発話スタイルラベルとを対応付けて、DNN学習部333の音響特徴量モデル学習部333bに出力する。
音声解析部332は、入力した音声を解析して、音素の時間長とフレームごとの音響特徴量とを生成するものである。音声解析部332は、音素区切り部332aと、音響特徴量生成部332bと、を備える。
音素区切り部332aは、コーパス入力部32に入力される音声の音声波形において、テキスト解析部331から入力される音素ラベルの音素の区切りを検出するものである。
音素区切り部332aは、例えば、音素と当該音素の波形とを対応付けた素片辞書(図示せず)を用いて、音素の区切り位置を検出する。
音素区切り部332aは、検出した音素の区切り位置を音響特徴量生成部332bに出力する。
さらに、音素区切り部332aは、検出した音素の区切り位置に基づいて、音素ラベルに対応する音素の時間長を求め、テキスト解析部331のフレーム言語特徴量生成部331bと、DNN学習部333の時間長モデル学習部333aとに出力する。
なお、音素区切り部332aが生成する音素の時間長は、時間長モデル学習部333aで時間長モデル346aを学習する際の正解データとなる。
音響特徴量生成部332bは、入力した音声のフレームごとの音響特徴量を生成する。音響特徴量生成部332bは、音素の時間長の区間を構成するフレーム数分の音響特徴量を生成する。音響特徴量生成部332bは、音素区切り部332aで検出された区切り位置に基づく音素の時間長の区間において、入力した音声を所定のフレーム長(例えば、25ミリ秒)、所定のフレーム周期(例えば、5ミリ秒)ごとに切り出し、音響分析を行うことで、音響特徴量として、スペクトル係数(メルケプストラム係数等)、ピッチ(対数ピッチ周波数等)、雑音性係数、有/無声判定値等を生成する。
例えば、音響特徴量生成部332bは、60次元のスペクトル係数、1次元のピッチ、1次元の雑音性係数の計62次元の静特性と、静特性の時間方向の1次差分および2次差分の124次元の動特性と、1次元の有/無声判定値とからなる計187次元の音響特徴量を生成する。なお、これらの音響特徴量は、一般的な音響解析により求めることができるため、解析手法についての詳細な説明を省略する。
音響特徴量生成部332bは、生成した音響特徴量を、DNN学習部333の音響特徴量モデル学習部333bに出力する。
なお、音響特徴量生成部332bが生成する音響特徴量は、音響特徴量モデル学習部333bで音響特徴量モデル346bを学習する際の正解データとなる。
DNN学習部333は、DNNの音声モデルとして、時間長モデル346aと、音響特徴量モデル346bと、を学習する。DNN学習部333は、時間長モデル学習部333aと、音響特徴量モデル学習部333bと、を備える。
時間長モデル学習部333aは、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)を入力とし、音素の時間長を出力とするDNNのモデルとして時間長モデル346aを学習する。
図16にDNNで構成した時間長モデル346aの例を示す。図16に示すように、時間長モデル346aは、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)で構成することができる。
時間長モデル学習部333aは、時間長モデル346aの入力層Iの各ユニットに、テキスト解析部331で解析された音素言語特徴量をそれぞれ入力するとともに、発話スタイルラベルである強調情報(強調有無)、文末情報(体言止め有無)の各ラベルを入力する。そして、時間長モデル学習部333aは、入力層Iに入力された音素言語特徴量および発話スタイルラベル(強調情報、文末情報)の各値を、重みを付加して伝播させ、出力層Oからの出力が、音声解析部332で解析された音素の時間長となるように、時間長モデル346aにおける重みとするパラメータを学習する。なお、パラメータの学習には、例えば、誤差逆伝播法(back propagation)を用いることができる。
時間長モデル学習部333aは、モデル記憶部346において記憶した時間長モデル346aを、学習により得られた時間長モデル346aに逐次更新する。
音響特徴量モデル学習部333bは、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力し、音素のフレームごとの音響特徴量を出力するDNNのモデルとして音響特徴量モデル346bを学習する。
図17にDNNで構成した音響特徴量モデル346bの例を示す。図17に示すように、音響特徴量モデル346bは、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(FFNN)で構成することができる。
音響特徴量モデル学習部333bは、音響特徴量モデル346bの入力層Iの各ユニットに、テキスト解析部331で解析されたフレーム言語特徴量を入力するとともに、発話スタイルラベルである強調情報(強調有無)、文末情報(体言止め有無)の各ラベルを入力する。そして、音響特徴量モデル学習部333bは、入力層Iに入力されたフレーム言語特徴量および発話スタイルラベル(強調情報、文末情報)の各値を、重みを付加して伝播させ、出力層Oからの出力が、音声解析部332で解析されたフレームの音響特徴量となるように、音響特徴量モデル346bにおける重みとするパラメータを学習する。なお、パラメータの学習には、時間長モデル346aと同様に、誤差逆伝播法を用いることができる。
音響特徴量モデル学習部333bは、モデル記憶部346において記憶した音響特徴量モデル346bを、学習により得られた音響特徴量モデル346bに逐次更新する。
モデル記憶部346は、モデル学習部33で学習される音声モデル(つまり、時間長モデル346a、音響特徴量モデル346b)を記憶するものである。モデル記憶部346は、半導体メモリ等の一般的な記憶媒体で構成することができる。
モデル記憶部346に記憶された事前学習段階で学習した音声モデル(つまり、時間長モデル346a、音響特徴量モデル346b)は、合成音声生成部341において使用される。
以上に説明した事前学習部31は、通常の音声以外に、通常の音声よりも強調した音声や体言止めの音声における音素の時間長や音響特徴量を学習した音声モデルを生成することができる。
次に、図18と図19を参照して、競技データの他の例について説明する。
競技データは、例えば、試合に出場する出場選手(図18)、試合中に発生するイベント一覧(図19等の試合内容および試合進行に応じたデータである。図18と図19は、一例として、テニスを対象とした競技データの例を示す。
図18は、[選手Aのフルネーム]が“A1・A2”、[選手Aのファミリーネーム]が“A2”等であることを示している。
また、図19は、123番目のイベントが、[時刻]○時△分□秒に発生したことを示している。[セット]はゲームのセット数を示す。なお、競技データは、イベントが更新されるたびに、メッセージ管理部11に順次追加されていく。ここでは、123番目のイベントにおいて、第4セット(“4S”)であることを示している。[ゲームカウント]はゲームカウントが更新されたことを示す。ここでは、“B2”(選手B)に5点目(“5”)が入ったことを示している。[アンフォーストエラー]はアンフォーストエラーが発生したことを示す。ここでは、“A2”(選手A)がアンフォーストエラーを起こし、アンフォーストエラーが“12”回目であることを示している。[ブレーク成功]はブレークに成功したことを示す。ここでは、“B2”(選手B)が“6”回目のブレークに成功したことを示している。
さらに、図19は、[全体ゲーム数]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、[選手Bのブレーク数]等を試合状況として例示している。
もちろん、図18、図19に例示した競技データはこれに限定されるものでないし、競技の種類によっても競技データが異なりうる。
なお、説明生成部12には、競技データを、音声合成用のテキストに変換するための説明テンプレートを予め記憶させておく。説明テンプレートを記憶するテンプレート記憶部(図示せず)は、半導体メモリ等の一般的な記憶媒体で構成することができる。
テンプレート記憶部は、競技データにおける予め定めたデータを示す条件に対応付けて、説明テンプレートを複数記憶する。
例えば、図20は、図18に示した競技データにおいて、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合のテンプレートを示す。
図20に示した説明テンプレートにおいて、“[”および“]”で挟まれた箇所が、競技データに応じて変化することになる。
この説明テンプレートにおいて、音声を強調して発声させようとする箇所には、予め定めたタグで示すこととする。例えば、図20に示すように、<強調>タグと</強調>タグとで挟まれた箇所を強調対象とする。ここでは、“[選手Bのブレーク数]回目のブレーク”を強調する例を示している。
なお、説明テンプレートは、図20で示した条件において、さらに条件を付加して、強調の有無を制御するものとしてもよい。
例えば、図21に示すように、図20で示した、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合に加え、選手Bのブレーク数が予め定めた数(例えば“5”)以上である場合に使用する説明テンプレートは、図20と同様に、“[選手Bのブレーク数]回目のブレーク”を強調する説明テンプレートとする。
また、選手Bのブレーク数が予め定めた数(例えば“5”)未満である場合に使用する説明テンプレートは、図22に示すように、図21に示す説明テンプレートから<強調>タグと</強調>タグとを削除した説明テンプレートとする。
なお、説明生成部12は、予め記憶された説明テンプレートを用いて、メッセージ管理部11に入力された競技データを、音声合成を行うための説明テキストに変換する。
例えば、説明生成部12は、図18と図19で例示した競技データを入力し、各種データが条件に合致する説明テンプレートを読み出し、競技データに依存する文字列を埋め込む。なお、説明生成部12は、競技データが更新された場合、その更新した内容から説明テキストを生成する。
例えば、説明生成部12は、図19で示した競技データ(ここでは、123番目のイベント)を入力する場合、図20あるいは、図21に示した説明テンプレートに文字列を埋め込むことによって、図23に例示する説明テキストを生成する。
なお、説明生成部12は、図22に示した説明テンプレートを用いる場合、図24に例示する説明テキストを生成する。
これによって、説明生成部12は、発話スタイルとしてテキスト中に強調すべき箇所をタグで示した発話スタイル付きテキストを説明テキストとして生成することができる。
説明生成部12は、生成した発話スタイル付きテキストを音声合成部13に出力する。
(音声合成部)
次に、音声合成部13の構成について説明する。図13に示す例では、音声合成部13は、合成音声生成部341と、モデル記憶部346と、を備える。
合成音声生成部341は、モデル記憶部346に記憶されている学習済みの音声モデル(つまり、時間長モデル346a、音響特徴量モデル346b)を用いて、説明生成部12が生成した発話スタイル付きテキストに対して音声合成処理を行う。
図15に示す例では、合成音声生成部341は、スタイル解析部342と、テキスト解析部343と、DNN演算部344と、合成部345と、を備える。
スタイル解析部342は、説明生成部12が生成した発話スタイル付きテキストにおいて、強調箇所を解析する。
スタイル解析部342は、発話スタイル付きテキストにおいて、一文ごとに予め定めたタグ(<強調>、</強調>)を検出することで、当該文中における強調箇所を特定する。そして、スタイル解析部342は、文単位で、発話スタイル付きテキストからタグを削除したテキストと、当該テキストにおける強調箇所を示す強調位置情報とを、テキスト解析部343に出力する。なお、発話スタイル付きテキストにおいて、予め定めたタグが存在しない場合、スタイル解析部342は、文単位で、テキストと、強調箇所が存在しないことを示す強調位置情報とを、テキスト解析部343に出力する。
テキスト解析部343は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調位置情報に基づいて、発話スタイルを特定する音素ごとのラベルを生成する。テキスト解析部343は、音素言語特徴量生成部343aと、フレーム言語特徴量生成部343bと、を備える。
音素言語特徴量生成部343aは、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する素性を示す。また、音素言語特徴量生成部343aは、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル(発話スタイルラベル〔強調情報、文末情報〕)を含んで構成される。この音素言語特徴量生成部343aは、図14で説明した音素言語特徴量生成部331aと同じ機能を有する。
なお、音素言語特徴量生成部331aは、強調音声に対応するテキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調有り)を付加する。一方、音素言語特徴量生成部343aは、スタイル解析部342で解析された強調位置情報で示される強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加し、それ以外の音素に対して、強調ではないことを示すラベル(強調情報;強調無し)を付加する。
音素言語特徴量生成部343aは、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成部343bに出力するとともに、DNN演算部344の時間長演算部344aに出力する。
フレーム言語特徴量生成部343bは、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。このフレーム言語特徴量生成部343bは、図14で説明したフレーム言語特徴量生成部331bと同様の機能を有する。
フレーム言語特徴量生成部343bは、音素言語特徴量生成部343aで生成された音素言語特徴量と、DNN演算部344の時間長演算部344aで生成された当該音素の時間長とを入力し、フレーム言語特徴量生成部331b(図14)と同様にフレーム言語特徴量を生成する。
フレーム言語特徴量生成部343bは、生成したフレーム言語特徴量と、音素言語特徴量生成部343aから入力された発話スタイルラベルとを対応付けて、DNN演算部344の音響特徴量演算部344bに出力する。
DNN演算部344は、モデル記憶部346に記憶されている音声モデル(時間長モデル346a、音響特徴量モデル346b)を用いて、DNNの演算を行う。DNN演算部344は、時間長演算部344aと、音響特徴量演算部344bと、を備える。
時間長演算部344aは、学習済みの時間長モデル346aを用いて、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とから、音素の時間長を生成するものである。
時間長演算部344aは、例えば、図16に示した時間長モデル346aの入力層Iの各ユニットに、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、時間長演算部344aは、学習済みの時間長モデル346aのパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音素の時間長とする。
時間長演算部344aは、生成した音素の時間長を、テキスト解析部343のフレーム言語特徴量生成部343bに出力する。
音響特徴量演算部344bは、学習済みの音響特徴量モデル346bを用いて、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とから、音素のフレームごとの音響特徴量を生成するものである。
音響特徴量演算部344bは、例えば、図17に示した音響特徴量モデル346bの入力層Iの各ユニットに、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、音響特徴量演算部344bは、学習済みの音響特徴量モデル346bのパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音響特徴量とする。
音響特徴量演算部344bは、生成したフレームごとの音響特徴量を、合成部345に出力する。
合成部345は、DNN演算部344の音響特徴量演算部344bで生成されたフレームごとの音響特徴量を用いて音声合成を行い、合成音声を生成する。
合成部345は、音響特徴量に含まれるピッチ、雑音特性等の情報(音源パラメータ)に基づいて、声の高さ、大きさ、雑音性度合いの時間変化を表現した声帯音源波形を生成する。また、合成部345は、フレームごとの音響特徴量に含まれるスペクトル係数等の情報(スペクトルパラメータ)に基づいて、音韻の違いや声質を表現した声道フィルタを生成する。そして、合成部345は、声帯音源波形を声道フィルタへの入力として、フレームに対応する音声波形を生成する。
なお、音響特徴量を用いて音声合成を行う手法は、公知のボコーダ方式の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
合成部345は、フレームごとの音声波形を連結して合成音声を生成し、生成した合成音声を示す音声ガイドデータを出力する。
以上説明したように合成音声生成部341を構成することで、音声ガイド生成装置30は、事前学習部31で事前学習した音声モデルを用いて、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
例えば、強調を学習せずに音声合成を行う場合、図25に示すように、「このセット6回目のブレーク。」を表す音声として、通常、平坦な音の高さの音声が合成される。また、体言止めを学習せずに音声合成を行う場合、図25に示すように、通常、文末の「ブレーク」を表す音声として、下がり調子の音声が合成される。なお、図中、文字列の上に一般的な声の高さLを示している。
一方、音声ガイド生成装置30は、強調や体言止めを学習して得られた音声モデルを用いるため、図26に示すように、強調箇所である「6回目のブレーク」を表す音声の高さが高くなり、体言止めとなる文末の「ブレーク」を表す音声の高さが持ち上げられる。
以上、本発明の実施形態に係る音声ガイド生成装置30の構成について説明したが、音声ガイド生成装置30は、コンピュータを前記した各部として機能させるためのプログラム(音声合成プログラム)で動作させることができる。
(音声ガイド生成装置の動作)
次に、図27および図28を参照して、本発明の実施形態に係る音声ガイド生成装置30の動作について説明する。ここでは、音声ガイド生成装置30の動作を、事前学習部31の動作と、合成音声生成部341の動作とに分けて説明する。
(事前学習)
まず、図27を参照して、音声ガイド生成装置30の事前学習部31の動作について説明する。
(ステップS51)コーパス入力部32は、テキストと音声(強調音声または通常音声)とを対として、コーパス記憶装置40からコーパスを入力する。ここで、コーパス入力部32は、強調音声に対応するテキストに、当該テキストが強調音声に対応するものであることを示す強調判別情報を付加する。また、コーパス入力部32は、通常音声に対応するテキストに、当該テキストが強調音声ではないことを示す強調判別情報を付加する。
(ステップS52)テキスト解析部331の音素言語特徴量生成部331aは、ステップS51で入力したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
(ステップS53)音素言語特徴量生成部331aは、ステップS52で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成部331aは、テキストに、当該テキストが強調音声であることを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成部331aは、テキストに、当該テキストが強調音声ではないことを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
さらに、音素言語特徴量生成部331aは、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成部331aは、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。
(ステップS54)音声解析部332の音素区切り部332aは、ステップS51で入力した音声について、音素の区切り位置を検出し、音素の時間長を求める。
(ステップS55)DNN学習部333の時間長モデル学習部333aは、ステップS52で生成した音素言語特徴量と、ステップS53で付加した発話スタイルラベルとを入力し、ステップS54で求めた音素の時間長を出力するように、時間長モデル346aを学習する。
(ステップS56)テキスト解析部331のフレーム言語特徴量生成部331bは、ステップS54で求めた音素の時間長に基づいて音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
(ステップS57)フレーム言語特徴量生成部331bは、ステップS56で生成したフレーム言語特徴量に、ステップS53で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
(ステップS58)音声解析部332の音響特徴量生成部332bは、ステップS51で入力した音声について、ステップS54で求めた音素の区切り位置に基づいて、フレームの音響特徴量を生成する。
(ステップS59)DNN学習部333の音響特徴量モデル学習部333bは、ステップS56で生成したフレーム言語特徴量と、ステップS57で付加した発話スタイルラベルとを入力し、ステップS58で生成した音響特徴量を出力するように、音響特徴量モデル346bを学習する。その後、事前学習部31は、図27の処理を終了する。
(音声ガイド生成処理)
次に、図28を参照して、音声ガイド生成装置30の音声ガイド生成処理に係る動作について説明する。
(ステップS60)メッセージ管理部11は、音声ガイド生成装置30の外部から競技データを入力する。
(ステップS61)説明生成部12は、予めテンプレート記憶部(図示せず)に記憶されている説明テンプレートに基づいて、ステップS60で入力した競技データのうち未送信の競技データから、発話スタイル付きテキストを生成する。このテンプレートは、音声を強調して発声させたい箇所に、予め定めたタグ(<強調>、</強調>)が付加されている(図23参照)。説明生成部12は、説明テンプレートの可変箇所を、競技データで特定される情報に置き換えることで、発話スタイル付きテキストを生成する(図23参照)。
(ステップS62)合成音声生成部341のスタイル解析部342は、ステップS61で生成した発話スタイル付きテキストを解析し、タグを削除したテキストと、タグで指定された当該テキストにおける強調箇所を示す強調位置情報とを生成する。
(ステップS63)テキスト解析部343の音素言語特徴量生成部343aは、ステップS62で生成したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
(ステップS64)音素言語特徴量生成部343aは、ステップS63で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成部343aは、強調位置情報に基づいて強調が指定された強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加し、それ以外の音素に対して、強調ではないことを示すラベル(強調情報;強調無し)を付加する。
また、音素言語特徴量生成部343aは、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成部343aは、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。
(ステップS65)DNN演算部344の時間長演算部344aは、学習済みの時間長モデル346aを用いて、ステップS63で生成した音素言語特徴量と、ステップS64で付加した発話スタイルラベルとから、音素の時間長を生成する。
(ステップS66)テキスト解析部343のフレーム言語特徴量生成部343bは、ステップS65で生成した音素の時間長に基づいて、音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
(ステップS67)フレーム言語特徴量生成部343bは、ステップS66で生成したフレーム言語特徴量に、ステップS64で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
(ステップS68)DNN演算部344の音響特徴量演算部344bは、学習済みの音響特徴量モデル346bを用いて、ステップS66で生成したフレーム言語特徴量と、ステップS67で付加した発話スタイルラベルとから、フレームの音響特徴量を生成する。
(ステップS69)合成部345は、ステップS68で生成したフレームの音響特徴量を用いて音声合成を行い、生成した合成音声を示す音声ガイドデータを出力する。その後、音声ガイド生成装置30は、図28の処理を終了する。
以上の動作によって、音声ガイド生成装置30は、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
以上に説明したように、本実施形態に係る音声ガイド生成装置30は、ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声ガイド生成装置30であって、説明生成部12と、音素言語特徴量生成部343aと、時間長演算部344aと、フレーム言語特徴量生成部343bと、音響特徴量演算部344bと、合成部345と、を備える構成とした。
かかる構成において、音声ガイド生成装置30は、説明生成部12によって、競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、競技データから強調箇所を示したテキストを生成する。
そして、音声ガイド生成装置30は、音素言語特徴量生成部343aによって、説明生成部12で生成されたテキストに対して、形態素解析、韻律推定等の解析を行うことで、音素ごとの言語特徴量と音素に対する強調情報とを生成する。
そして、音声ガイド生成装置30は、時間長演算部344aによって、音素言語特徴量生成部343aで生成された音素の言語特徴量と強調情報とを、時間長モデルの入力として演算することで、音素の時間長を生成する。
また、音声ガイド生成装置30は、フレーム言語特徴量生成部343bによって、時間長演算部344aで生成された音素の時間長と、音素言語特徴量生成部343aで生成された音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。これによって、音素の時間長の区間を構成するフレームごとの言語特徴量と強調情報とが対応付けられる。
そして、音声ガイド生成装置30は、音響特徴量演算部344bによって、フレーム言語特徴量生成部343bで生成されたフレームの言語特徴量とフレームに対応する強調情報とを、音響特徴量モデルの入力として演算することで、フレームごとの音響特徴量を生成する。
さらに、音声ガイド生成装置30は、合成部345によって、音響特徴量演算部344bで生成されたフレームごとの音響特徴量により音声合成を行う。
これによって、音声ガイド生成装置30は、予め強調音声の特徴を学習した音響特徴量モデルにより、テキスト中の強調箇所を強調した合成音声を生成することができる。
なお、音声ガイド生成装置30は、コンピュータを、音声ガイド生成装置30の各部として機能させるための音声ガイド生成プログラムで動作させることができる。
本実施形態によれば、競技データから、強調すべき箇所を特定したテキストを生成し、当該個所を強調した合成音声を生成することができる。
これによって、本実施形態は、競技データから、抑揚にメリハリがつき、意図を表現可能な音声を生成することができる。
(変形例)
以上、本発明の実施形態に係る音声ガイド生成装置30の構成および動作について例示したが、この例に限定されるものではない。
音声ガイド生成装置30は、音声モデル(時間長モデル346a、音響特徴量モデル346b)を学習する事前学習と、音声モデルを用いて競技データから音声合成を行う合成処理との2つの動作を1つの装置で行うものである。しかし、これらの動作は、別々の装置で行うようにしても構わない。
具体的には、音声モデルを事前学習する装置として、図13に示した事前学習部31を独立した音声モデル学習装置として分離することができる。この場合、音声モデル学習装置(事前学習部31)は、コンピュータを、事前学習部31で説明した音声モデル学習装置の各部として機能させるためのプログラム(音声モデル学習プログラム)で動作させることができる。
音声モデル生成装置は、テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、合成音声生成部341で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習するモデル学習部33において、音素言語特徴量生成部331aと、音素区切り部332aと、時間長モデル学習部333aと、フレーム言語特徴量生成部331bと、音響特徴量生成部332bと、音響特徴量モデル学習部333bと、を備える構成とした。
かかる構成において、音素言語特徴量生成部331aは、テキストに対して、形態素解析、韻律推定等の解析を行うとともに、テキストが強調した音声に対応したものか否かにより、音素ごとの言語特徴量と音素に対する強調の有無を示す強調情報とを生成する。
そして、音素区切り部332aは、テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する。
そして、時間長モデル学習部333aは、音素言語特徴量生成部331aが生成した音素の言語特徴量と強調情報とを入力し、音素区切り部332aが特定した音素の時間長を出力するように時間長モデルを学習する。
また、フレーム言語特徴量生成部331bは、音素区切り部332aが特定した音素の時間長と、音素言語特徴量生成部331aが生成した音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。
そして、音響特徴量生成部332bは、音素区切り部332aが検出した音素の区切りに基づいて、テキストに対応する音声から音素の時間長の区間を構成するフレームごとの音響特徴量を生成する。
そして、音響特徴量モデル学習部333bは、フレーム言語特徴量生成部331bが生成したフレームの言語特徴量と強調情報とを入力し、音響特徴量生成部332bが生成した音響特徴量を出力するように音響特徴量モデルを学習する。
これによって、音声モデル学習装置は、テキストが同一であっても、強調情報によって異なる音素の時間長および音響特徴量を学習するモデルを生成することができる。
他方、競技データから音声合成を行う装置として、図13に示した音声ガイド生成装置30において事前学習部31が省略されてもよい。この場合、音声ガイド生成装置30は、コンピュータを、メッセージ管理部11、説明生成部12及び音声合成部34の各部の処理を実行させるためのプログラム(音声ガイド生成プログラム)で動作させることができる。
このように、音声モデルを学習する事前学習動作と、競技データの受信から音声モデルを用いて音声合成を行うまでの合成処理動作とを、異なる装置で動作させることで、1つの音声モデル学習装置(事前学習部31)で学習により得られた音声モデルを、複数の音声ガイド生成装置30で利用することが可能になる。
また、ここでは、音声ガイド生成装置30は、発話スタイルとして、強調および体言止めを実現した合成音声を生成するものとして説明したが、これには限られない。
例えば、音声ガイド生成装置30は、発話スタイルとして、強調のみを実現した合成音声を生成するものとしてもよい。
この場合、時間長モデル346aおよび音響特徴量モデル346bは、図16に示した時間長モデル346aの入力層Iから、文末情報(体言止め有無のラベル)を省略し、図17に示した音響特徴量モデル346bの入力層Iから、文末情報を省略したモデルとすればよい。また、テキスト解析部331からDNN学習部333に出力される発話スタイルラベルから、文末情報を省略すればよい。また、テキスト解析部343からDNN演算部344に出力される発話スタイルラベルから、文末情報を省略すればよい。
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。以下の説明は、上記の実施形態との差異を主とする。上記の実施形態と共通する構成や処理については、同一の符号を付して、その説明を援用する。
スポーツ競技などの生中継番組を提供する際、上述の放送システム1は、配信ストリームと競技データの双方を、別個の手段もしくは経路で受信することがある。配信ストリームは、競技の状況を定常的に表す映像データとその背景音を示す実況音声データが含まれる。競技データは、競技もしくは競技外のイベント等の発生に応じて散発的に配信されうる。これらのデータが、競技会場から放送システム1の設備の設置場所までに配信されるまでの伝送路において伝送遅延が生じる。伝送遅延の遅延量や揺らぎ特性は、伝送路に依存する。
仮に、配信ストリームと競技データの双方を単一の伝送路を通じて同期して配信されたとしても、配信ストリームを受信してから受信装置20に送信できるまでの処理時間と、競技データを受信してから当該競技データに基づいて音声ガイドデータを生成し背景音を示す実況音声データを含む配信ストリームに重畳できるまでに要する処理時間とは、一般に異なる。また、音声合成処理の所要時間は発話長に依存するため、処理時間は一定ではなく変動しうる。
これらの理由で、放送システム1では、受信装置20に提供される映像や背景音に表れるイベント発生と、その競技データに基づいて生成された音声ガイドデータが示すガイド音声とが同期しないことがある。そのため、ガイド音声がイベントに対して遅延することがある。場合によっては、発声したイベントを表す映像や背景音よりも前にガイド音声が提供されることがある。
また、競技データの配信に係る遅延時間は個々に異なりうるため、配信手段の動作や伝送路が不安定な場合には、イベント等の発生とは異なる順序で受信されることがある。逐次に競技データに基づいて音声ガイドデータを生成し、そのまま配信すると、本来イベントが発生した順序とは異なる順序で音声ガイドデータが提供される。このことも映像データと原音声データからなる配信ストリームが示すイベントの順序と異なる原因となる。
そこで、図29に例示するように、本実施形態に係る放送システム5は、音声ガイド生成装置50と、映像処理部55と、送信装置56と、を備える。
音声ガイド生成装置50は、メッセージ管理部11と、説明生成部12と、音声合成部13と、第1受信部17と、を備える。
送信装置56は、第1バッファ部561と、第2バッファ部562と、重畳処理部563と、を備える。第1バッファ部561は、音声ガイド生成装置10から逐次に所定の単位毎に受信した音声ガイドデータと時刻情報と対応付けて記憶する。所定の単位は、例えば、所定の時間長のフレーム(例えば、20ms−1s)であり、イベントの発生間隔と同等以下の期間であればよい。時刻情報は、説明生成部12が未伝達情報として説明テキストの生成に用いた競技データが示す競技の状況が生じた時刻の情報である。競技データは時刻情報と対応付けて取得される。その説明テキストは、音声合成部13が、音声合成処理を行ってその音声ガイドデータの生成に用いたものである。
第2バッファ部562は、映像処理部55から入力される映像データと時刻情報とを対応付けて記憶する。映像データは、その競技の状況の映像を示すデータである。その時刻情報は、その状況が生じた時刻を示す情報である。映像データは、その競技の状況の音声を示す原音声データをさらに対応付けて第2バッファ部562に記憶されてもよい。以下の説明では、映像データと原音声データを配信ストリームと総称する。
重畳処理部563は、現在時刻から所定のオフセット時間D過去の時刻(以下、指定時刻と呼ぶ)t−Dの音声ガイドデータと、その時刻t−Dの配信ストリームを、それぞれ第1バッファ部561と第2バッファ部562から読み出す。重畳処理部563には、予めオフセット時間Dを設定しておく。オフセット時間Dは、音声ガイド生成装置50における競技データの受信から音声ガイドデータの送信開始までの所要時間よりも長い時間であればよい。重畳処理部563は、読み出した音声ガイドデータと配信ストリームを重畳して、受信装置20に配信するための多重化データを生成する。
より具体的には、配信ストリームに原音声データが含まれず、映像データが含まれる場合には、重畳処理部563は、音声ガイドデータとその映像データとを多重化して、多重化データを生成する。配信ストリームに原音声データが含まれる場合には、重畳処理部563は、音声ガイドデータが示すガイド音声と原音声データが示す音声とをミキシングしてもよい。重畳処理部563は、ミキシングにより得られた重畳音声を示す重畳音声データと、配信ストリームに含まれる映像データとを多重化して多重化データを生成する。重畳処理部563は、生成した多重化データを放送伝送路又は通信伝送路に送出する。
受信装置20は、放送伝送路又は通信伝送路を介して多重化データを受信し、受信した多重化データから映像データと重畳音声データ又は音声ガイドデータに分離する。受信装置20は、分離した映像データに基づいて映像を表示し、重畳音声データ又は音声ガイドデータに基づいて音声を再生する。
また、音声ガイド生成装置10は、さらに第1受信部17を備える。第1受信部17は、例えば、データセンタから競技の最新の状況を示す競技データとその状況が生じた時刻を示す時刻情報を受信し、メッセージ管理部11に出力する。第1受信部17は、例えば、通信インタフェースを含んで構成される。
メッセージ管理部11は、第1受信部17から入力される競技データと時刻情報とを対応付けて記憶する。なお、時刻情報は、競技データに記述されていることがある。その場合には、第1受信部17は、競技データと別個に時刻情報を受信せずに、メッセージ管理部11が競技データに記述された時刻情報を抽出すればよい。
メッセージ管理部11は、送信元のデータセンタから第1受信部17を介してその時点の時刻を示す時刻情報を示す同期信号をさらに受信し、受信した時刻情報に基づいてデータセンタと同期をとってもよい。
説明生成部12は、メッセージ管理部11が蓄積する競技データのうち未伝達情報として現在時刻tから所定の第2のオフセット時間D’過去の時刻t−D’の競技データをメッセージ管理部11から参照する。説明生成部12には、予め第2のオフセット時間D’を設定しておく。第2のオフセット時間D’は、データセンタから自装置までの伝送時間の標準的なゆらぎ量よりも大きい時間であって、第1のオフセット時間Dよりも短い正の値であればよい(0<D’<D)。説明生成部12は、参照した競技データを説明テキストの生成に用いる。即ち、第1のオフセット時間Dは、第2のオフセット時間D’に説明生成部12が未伝達情報から説明テキストの生成に要する時間の最大値と、説明テキストから音声ガイドデータの生成に要する時間の最大値を加えた時間以上であることが望ましい。仮に、オフセット時間Dと第2のオフセット時間D’との差分D−D’が、説明テキストの生成に要する時間と音声ガイドデータの生成に要する時間の和である処理時間Δに満たない場合には、重畳処理部563は、時間差Δ−D+D’だけ、配信データを遅延させて音声ガイドデータと重畳させればよい。一般に、説明テキストの生成に要する時間と音声ガイドデータの生成に要する時間は、その説明テキストや音声ガイドデータが長いほど多くなる傾向がある。重畳処理部563に許容される遅延時間の最大値をオフセット時間Dと設定したとき、オフセット時間Dがそれらの時間の和である処理時間Δに満たない場合には、その音声ガイドデータによるガイド音声が遅延することとなる。一般に、短いガイド音声ほど、その内容に即応性が期待され、長いガイド音声には即応性が比較的期待されない傾向がある。そのため、このような遅延は、一時的に発生しても許容されうる。
映像処理部55は、第2受信部551を含んで構成される。第2受信部551は、例えば、データセンタから競技の状況を示す配信ストリームと、その状況が生じた時刻を示す時刻情報と所定の単位ごとに受信する。第2受信部551は、受信した配信ストリームと時刻情報とを対応付けて送信装置56の第2バッファ部562に逐次に記憶する。所定の単位は、例えば、映像のフレームである。時刻情報として、例えば、その映像が生成された時刻を示すタイムスタンプを用いることができる。所定の単位は、イベントの発生間隔と同等以下の期間であればよい。第2受信部551は、例えば、通信インタフェースを含んで構成される。
なお、第1バッファ部561、第2バッファ部562は、それぞれFIFO(First−in First−out;先入れ先出し)バッファとして構成されてもよい。その構成によれば、第1バッファ部561には、音声ガイドデータと時刻情報からなるセットの時系列として第1のFIFOキューが形成される。第2バッファ部562には、配信データと時刻情報とからなるセットの時系列として第2のFIFOキューが形成される。
次に、本実施形態に係る音声ガイド配信処理について説明する。
図30は、本実施形態に係る音声ガイド配信処理の例を示すフローチャートである。
(ステップS71)第2受信部551は、競技の状況を示す配信ストリームと、時刻情報と所定の単位ごとに受信する。第2受信部551は、受信した配信ストリームと時刻情報とを対応付けて送信装置56の第2バッファ部562に逐次に記憶する。
(ステップS72)第1受信部17は、競技の最新の状況を示す競技データとその状況が生じた時刻を示す時刻情報を受信する。メッセージ管理部11は、第1受信部17が受信した競技データと時刻情報とを対応付けて記憶する。
(ステップS73)説明生成部12は、メッセージ管理部11が蓄積する競技データのうち未伝達情報として現在時刻tから第2のオフセット時間D’過去の時刻t−D’の競技データをメッセージ管理部11から参照する。説明生成部12は、参照した競技データを用いて説明テキストを生成する。
(ステップS74)音声合成部13は、説明生成部12が生成した説明テキストに対して音声合成処理を行って音声ガイドデータを生成し、生成した音声ガイドデータと、その説明テキストの生成に用いた競技データに係る時刻を示す時刻情報と対応付けて第1バッファ部561に記憶する。
(ステップS75)重畳処理部563は、第1バッファ部561から現在時刻tから第1のオフセット時間D過去の指定時刻t−Dの音声ガイドデータを読み出し、第2バッファ部562から指定時刻t−Dの配信ストリームを読み出す。重畳処理部563は、読み出した音声ガイドデータと配信ストリームを重畳して多重化データを生成し、生成した多重化データを放送伝送路に送出する。その後、図30に示す処理を終了する。
(変形例)
なお、配信ストリームは、必ずしも時刻情報と対応付けて伝送されるとは限らない。そこで、第2バッファ部562は、配信ストリームを取得した時点の時刻tから遅延時間δを差し引いて、その配信ストリームが示す競技の状況を示す時刻t’を算出してもよい。第2バッファ部562は、例えば、配信ストリームの送信元(例えば、データセンタ)から第2受信部551を介して同期信号を受信し、現在時刻tから受信した同期信号が示す時刻tを差し引いてその遅延時間δを測定することができる。そして、第2バッファ部562は、取得した配信ストリームと算出した時刻t’を示す時刻情報とを対応付けて記憶する。これにより、送信元から音声ガイド生成装置50までの伝送ゆらぎが無視できるほど小さい場合には、配信ストリームで表されるイベントと、競技データから生成された音声ガイドデータが示すガイド音声との同期をとることができる。
また、音声ガイド生成装置50は、音声合成部13に代えて、音声合成部34(図13)を備えてもよい。
以上に説明したように、本実施形態に係る放送システム5によれば、競技の状況を示す配信データと、その状況に係る音声ガイドデータとを同期して配信することができる。また、競技データの伝送遅延のゆらぎが吸収されるので、競技データに基づいて生成される音声ガイドデータと配信データとの同期を、より安定的に実現することができる。
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声ガイド生成装置10、30は、映像処理部15と送信装置16の一方又は双方と一体化され、単一の音声ガイド生成装置10、30として構成されてもよい。
また、音声ガイド生成装置50は、映像処理部55と送信装置56の一方又は双方と一体化され、単一の音声ガイド生成装置50として構成されてもよい。
また、放送システム1、5は、さらにサーバ装置(図示せず)を備え、放送通信連携システムとして構成されてもよい。その場合、音声ガイド生成装置10、30、50は、生成した音声ガイドデータをサーバ装置に出力する。サーバ装置は、通信伝送路を介して接続された受信装置20に、音声ガイドデータを送信可能とする。他方、受信装置20は、アプリケーションプログラムに記述された命令で指示される処理を実行して通信放送連携サービスの機能を提供する。受信装置20は、その機能として、サーバ装置から受信した音声ガイドデータに基づく音声を再生する。
音声ガイド生成装置10、30は、必ずしも放送システム1の一部をなしていなくてもよい。例えば、音声ガイド生成装置10、30は、通信伝送路に接続されたサーバ装置に音声ガイドデータを出力してもよい。サーバ装置は、音声ガイド生成装置10、30から入力された音声ガイドデータと、その競技の映像データとを対応付けて通信伝送路に接続された各種の端末装置に送信してもよい。サーバ装置は、端末装置からの配信要求信号の受信の応答として、映像データと音声ガイドデータを送信してもよいし、予め登録された端末装置に一斉に送信してもよい。
また、放送システム5の送信装置56は、生成した多重化データを放送伝送路に代え、又は放送伝送路とともに通信伝送路に送信してもよい。
なお、上述の音声ガイド生成装置10、30、50は、専用のハードウェアとして構成されてもよいし、内部にコンピュータシステムを備えたハードウェアとして構成されてもよい。そして、音声ガイド生成装置10、30、50の一部の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU(Central Processing Unit)などのプロセッサ及び各種メモリやOS(Operating System)、周辺機器等のハードウェアを含むものである。また、上述の各機能部は、1個又は2以上のコンピュータシステムで構成されてもよいし、1個の機能部又は2以上の機能部からなるセットが各1個のコンピュータシステムで構成されてもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read−Only Memory)、CD(Compact Disc)−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現されてもよい。
1、5…放送システム、10、30、50…音声ガイド生成装置、11…メッセージ管理部、12…説明生成部、13、34…音声合成部、15、55…映像処理部、16、56…送信装置、17…第1受信部、20…受信装置、31…事前学習部、32…コーパス入力部、33…モデル学習部、34…音声合成部、331…テキスト解析部、331a…音素言語特徴量生成部、331b…フレーム言語特徴量生成部、332…音声解析部、332a…音素区切り部、332b…音響特徴量生成部、333…DNN学習部、333a…時間長モデル学習部、333b…音響特徴量モデル学習部、341…合成音声生成部、342…スタイル解析部、343…テキスト解析部、343a…音素言語特徴量生成部、343b…フレーム言語特徴量生成部、344…DNN演算部、344a…時間長演算部、344b…音響特徴量演算部、345…合成部、346…モデル記憶部、346a…時間長モデル、346b…音響特徴量モデル、551…第2受信部、561…第1バッファ部、562…第2バッファ部、563…重畳処理部

Claims (11)

  1. 競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理部と、
    伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成する説明生成部と、
    前記説明テキストから変換した音声を出力する音声合成部と、を備え
    前記説明生成部は、
    前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする
    音声ガイド生成装置。
  2. 前記メッセージ管理部は、
    前記メッセージの更新により生じた変動部分を検出して、前記変動部分の種類に応じた新たな情報を生成し、生成した新たな情報をさらに蓄積する
    請求項1に記載の音声ガイド生成装置。
  3. 前記メッセージ管理部は、
    前記新たな情報の構造を示す情報生成テンプレートを前記変動部分の種類毎に予め記憶し、
    前記情報生成テンプレートから、前記変動部分の種類に対応する情報生成テンプレートを選択し、
    選択した情報生成テンプレートに、前記変動部分の要素を統合することで前記新たな情報を生成する
    請求項2に記載の音声ガイド生成装置。
  4. 前記説明生成部は、
    伝達済情報として保持されている情報の中で所定の種類の情報を、伝達完了時刻から所定の時間が経過した場合に、未伝達であるとみなす
    請求項1から請求項3のいずれか一項に記載の音声ガイド生成装置。
  5. 前記説明生成部は、
    前記説明テキストの文型を示す説明テンプレートを未伝達情報の種類毎に予め記憶し、
    前記説明テンプレートから、前記未伝達情報の種類に対応する説明テンプレートを選択し、
    選択した説明テンプレートに、前記未伝達情報の要素を統合して前記説明テキストを生成する
    請求項1から請求項4のいずれか一項に記載の音声ガイド生成装置。
  6. 前記説明生成部は、前記メッセージが示す競技の状況を示す競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示した前記説明テキストを生成し、
    前記音声合成部は、
    前記説明テキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成部と、
    時間長モデルを用いて、前記音素言語特徴量生成部が生成した前記言語特徴量と前記強調情報とから、前記音素の時間長を生成する時間長演算部と、
    前記時間長演算部が生成した音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成部と、
    音響特徴量モデルを用いて、前記フレーム言語特徴量生成部が生成したフレームの言語特徴量と前記フレームに対応する強調情報とから、前記フレームごとの音響特徴量を生成する音響特徴量演算部と、
    前記音響特徴量演算部が生成したフレームごとの音響特徴量を用いて音声合成を行う合成部と、を備え、
    前記時間長モデルは、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力とし、前記音素の時間長を出力として予め学習され、
    前記音響特徴量モデルは、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力とし、前記フレームの音響特徴量を出力として予め学習されたことを特徴とする
    請求項1から請求項5のいずれか一項に記載の音声ガイド生成装置。
  7. 前記時間長モデルおよび前記音響特徴量モデルは、それぞれ前記音素が品詞を名詞とする文末単語の音素であるか否かを示す文末情報をさらに用いて学習され、
    前記音素言語特徴量生成部は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、
    前記時間長演算部は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、
    前記フレーム言語特徴量生成部は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、
    前記音響特徴量演算部は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成することを特徴とする
    請求項6に記載の音声ガイド生成装置。
  8. 請求項1から請求項7のいずれか一項に記載の音声ガイド生成装置と、
    前記音声合成部が変換した音声を示す音声データと前記説明テキストの生成に用いた競技の状況の時刻を示す時刻情報を記憶する第1バッファ部と、
    前記競技の状況を示す映像データと当該状況の時刻を示す時刻情報を対応付けて記憶する第2バッファ部と、
    現在時刻から所定時間過去の時刻である指定時刻の音声データを前記第1バッファ部から抽出し、前記指定時刻の映像データを前記第2バッファ部から抽出し、抽出した前記音声データと抽出した映像データとを重畳する重畳処理部と、を備える
    放送システム。
  9. 前記メッセージ管理部は、前記メッセージを含む競技データと前記メッセージが示す競技の状況の時刻を示す時刻情報を対応付けて記憶し、
    前記説明生成部は、前記未伝達情報として現在時刻から第2の所定時間過去の時刻の前記競技データを未伝達情報として前記メッセージ管理部から参照し、かつ、
    前記第2の所定時間は、前記所定時間よりも短いことを特徴とする
    請求項8に記載の放送システム。
  10. 請求項1から請求項7のいずれか一項に記載の音声ガイド生成装置と、
    前記説明テキストと前記音声を送信する送信装置と、を備える
    放送システム。
  11. 音声ガイド生成装置における音声ガイド生成方法であって、
    競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理過程と、
    伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成する説明生成過程と、
    前記説明テキストから変換した音声を出力する音声合成過程と、を有し、
    前記説明生成過程は、
    前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする
    音声ガイド生成方法。
JP2019520285A 2017-05-24 2018-05-23 音声ガイド生成装置、音声ガイド生成方法及び放送システム Active JP6824399B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017102847 2017-05-24
JP2017102847 2017-05-24
PCT/JP2018/019828 WO2018216729A1 (ja) 2017-05-24 2018-05-23 音声ガイド生成装置、音声ガイド生成方法及び放送システム

Publications (2)

Publication Number Publication Date
JPWO2018216729A1 true JPWO2018216729A1 (ja) 2020-04-02
JP6824399B2 JP6824399B2 (ja) 2021-02-03

Family

ID=64395715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019520285A Active JP6824399B2 (ja) 2017-05-24 2018-05-23 音声ガイド生成装置、音声ガイド生成方法及び放送システム

Country Status (6)

Country Link
US (1) US11404041B2 (ja)
EP (1) EP3633671B1 (ja)
JP (1) JP6824399B2 (ja)
CN (1) CN110622240B (ja)
ES (1) ES2894123T3 (ja)
WO (1) WO2018216729A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170758B2 (en) 2018-09-27 2021-11-09 Rovi Guides, Inc. Systems and methods for providing notifications within a media asset without breaking immersion
JP6840124B2 (ja) * 2018-12-27 2021-03-10 株式会社エーアイ 言語処理装置、言語処理プログラムおよび言語処理方法
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
JP7469015B2 (ja) * 2019-10-02 2024-04-16 日本放送協会 学習装置、音声合成装置及びプログラム
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN113596355B (zh) * 2020-04-14 2024-04-16 瑞昱半导体股份有限公司 字幕图像产生装置及方法
CN111538862B (zh) * 2020-05-15 2023-06-20 北京百度网讯科技有限公司 用于解说视频的方法及装置
WO2021240644A1 (ja) * 2020-05-26 2021-12-02 富士通株式会社 情報出力プログラム、装置、及び方法
KR102392904B1 (ko) * 2020-09-25 2022-05-02 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치
JP7657574B2 (ja) 2020-11-12 2025-04-07 株式会社東芝 放送システム、放送番組送出装置及び放送方法
CN113539231B (zh) * 2020-12-30 2024-06-18 腾讯科技(深圳)有限公司 音频处理方法、声码器、装置、设备及存储介质
EP4036755A1 (de) * 2021-01-29 2022-08-03 Deutsche Telekom AG Verfahren zur generierung und bereitstellung einer einem nutzer dargebotenen information eines dienstes
CN113393864A (zh) * 2021-06-11 2021-09-14 浙江同花顺智能科技有限公司 一种口语发音纠正方法、装置、设备及存储介质
US12142260B2 (en) * 2022-01-20 2024-11-12 Zoom Video Communications, Inc. Time distributions of participants across topic segments in a communication session
JP2024011105A (ja) * 2022-07-14 2024-01-25 株式会社電通 実況音声リアルタイム生成システム
CN116403559B (zh) * 2023-03-30 2025-01-24 东南大学 一种文本驱动视频生成系统的实现方法
US12283291B1 (en) * 2023-08-16 2025-04-22 Amazon Technologies, Inc. Factually consistent generative narrations

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0580791A (ja) * 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JPH07199992A (ja) 1993-12-28 1995-08-04 Nippon Telegr & Teleph Corp <Ntt> 情報提供装置
JP3126009B2 (ja) * 1994-01-25 2001-01-22 株式会社日立製作所 ボイスメール音声メッセージ重畳方式
JP2001282268A (ja) 2000-03-30 2001-10-12 Advanced Telecommunication Research Institute International 音声データ配信システム
JP2001356784A (ja) * 2000-06-12 2001-12-26 Yamaha Corp 端末装置
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置
JP3621663B2 (ja) 2001-07-16 2005-02-16 株式会社コナミコンピュータエンタテインメントスタジオ 音声出力プログラム、音声出力方法及びビデオゲーム装置
JP2005026837A (ja) * 2003-06-30 2005-01-27 Nippon Hoso Kyokai <Nhk> スポーツ映像インデックス生成装置、その方法、そのプログラム及びスポーツ中継アナウンスデータ生成装置並びにスポーツダイジェスト映像生成装置
EP1640968A1 (en) * 2004-09-27 2006-03-29 Multitel ASBL Method and device for speech synthesis
WO2006022075A1 (ja) 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. 情報端末及びイベント報知方法
US7458894B2 (en) * 2004-09-15 2008-12-02 Microsoft Corporation Online gaming spectator system
JP2006145690A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
US20070078294A1 (en) * 2005-09-03 2007-04-05 Yogendra Jain Dynamic relaxation and motivational agent
JP4476255B2 (ja) 2006-08-10 2010-06-09 株式会社コナミデジタルエンタテインメント ゲームプログラム、ゲーム装置及びゲーム制御方法
KR101349797B1 (ko) * 2007-06-26 2014-01-13 삼성전자주식회사 전자기기에서 음성 파일 재생 방법 및 장치
US8515257B2 (en) * 2007-10-17 2013-08-20 International Business Machines Corporation Automatic announcer voice attenuation in a presentation of a televised sporting event
US9055271B2 (en) 2008-03-20 2015-06-09 Verna Ip Holdings, Llc System and methods providing sports event related media to internet-enabled devices synchronized with a live broadcast of the sports event
US20120330666A1 (en) 2011-06-21 2012-12-27 Verna IP Holdings, LLC. Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
JP6078964B2 (ja) * 2012-03-26 2017-02-15 富士通株式会社 音声対話システム及びプログラム
JP5814879B2 (ja) * 2012-07-30 2015-11-17 株式会社日立製作所 投稿音声再生制御システム、投稿音声再生制御方法、投稿音声再生制御プログラム
CN103050138B (zh) * 2012-11-19 2015-12-02 长沙中联消防机械有限公司 提示音播放控制方法、装置及工程机械设备
US9431002B2 (en) * 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
US10659851B2 (en) * 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
JP2017102847A (ja) 2015-12-04 2017-06-08 日本電気株式会社 情報処理システム、中継装置、方法およびプログラム
US20180077440A1 (en) * 2016-09-09 2018-03-15 Cayke, Inc. System and method of creating, analyzing, and categorizing media

Also Published As

Publication number Publication date
WO2018216729A1 (ja) 2018-11-29
US20200066251A1 (en) 2020-02-27
CN110622240B (zh) 2023-04-14
EP3633671A4 (en) 2021-03-03
JP6824399B2 (ja) 2021-02-03
EP3633671B1 (en) 2021-09-08
CN110622240A (zh) 2019-12-27
EP3633671A1 (en) 2020-04-08
ES2894123T3 (es) 2022-02-11
US11404041B2 (en) 2022-08-02

Similar Documents

Publication Publication Date Title
JP6824399B2 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
US7450821B2 (en) Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US20060136226A1 (en) System and method for creating artificial TV news programs
Lambourne et al. Speech-based real-time subtitling services
US20080275700A1 (en) Method of and System for Modifying Messages
CN108604455A (zh) 自动确定音频流中语音字幕的定时窗口
JP7033478B2 (ja) 音声合成装置、音声モデル学習装置およびそれらのプログラム
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
CN110740275A (zh) 一种非线性编辑系统
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
JP2020140326A (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2008517315A (ja) メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法
JP5137031B2 (ja) 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
JP2015061194A (ja) 情報処理装置、情報処理方法、及びプログラム
CN110992984B (zh) 音频处理方法及装置、存储介质
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
JP4210723B2 (ja) 自動字幕番組制作システム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP7087041B2 (ja) 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
JP7137815B2 (ja) 録画再生システム
JP2002215533A (ja) コミック自動生成装置
JP2003309786A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2025034460A (ja) 処理システム、プログラム及び処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210112

R150 Certificate of patent or registration of utility model

Ref document number: 6824399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250