JPWO2018216729A1 - 音声ガイド生成装置、音声ガイド生成方法及び放送システム - Google Patents
音声ガイド生成装置、音声ガイド生成方法及び放送システム Download PDFInfo
- Publication number
- JPWO2018216729A1 JPWO2018216729A1 JP2019520285A JP2019520285A JPWO2018216729A1 JP WO2018216729 A1 JPWO2018216729 A1 JP WO2018216729A1 JP 2019520285 A JP2019520285 A JP 2019520285A JP 2019520285 A JP2019520285 A JP 2019520285A JP WO2018216729 A1 JPWO2018216729 A1 JP WO2018216729A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- phoneme
- text
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Machine Translation (AREA)
Abstract
Description
本願は、2017年5月24日に、日本に出願された特願2017−102847号に基づき優先権を主張し、その内容をここに援用する。
以下、図面を参照しながら本発明の第1の実施形態を詳細に説明する。
図1は、本実施形態に係る放送システム1の構成例を示すブロック図である。放送システム1は、音声ガイド生成装置10と、映像処理部15と、送信装置16と、受信装置20と、を備える。音声ガイド生成装置10、映像処理部15及び送信装置16は、主に放送事業者が有する送信側の装置群である。受信装置20は、主に視聴者が有する受信側の装置である。以下の説明では、放送システム1がテレビジョン放送に適用される場合を例にする。
映像処理部15は、音声ガイド生成装置10から説明テキストが入力されるとき、説明テキストで表される文字列を字幕として映像データに重畳し、字幕を重畳した映像データを送信装置16に出力してもよい。
次に、本実施形態に係る音声ガイド生成装置10の構成例について説明する。
図2は、本実施形態に係る音声ガイド生成装置10の構成例を示すブロック図である。
音声ガイド生成装置10は、メッセージ管理部11と、説明生成部12と、音声合成部13と、を備える。
次に、本実施形態に係るメッセージの例について説明する。
図3は、試合状態データを含むメッセージの一例を示す図である。本実施形態では、メッセージとしてODFに基づいて構成された競技データが利用可能である。ODFは、マークアップ言語の一種であるXML(Extensible Markup Language)を用いて記述されるメッセージを示すデータフィードである。マークアップ言語で規定されたタグが用いられることで、構成情報間の包含関係ならびに並列関係、それらの種別や属性が記述される。但し、図3、図4に示す例では、タグの表記が省略もしくは簡略化され、実体的な情報が表されている。
また、対戦カードの一方であるチーム1として「ブラジル」が記述され、他方であるチーム2として「ドイツ」が記述されている。
チーム1、2の得点として、それぞれ「3」、「4」が記述されている。
従って、図3に示すメッセージは、試合状態として、サッカー男子決勝がブラジルチームとドイツチームの対戦であり、得点が3対4であることを示す。
イベント[1]、イベント[2]、…、イベント[8]は、それぞれ第1、2、8番目のイベント情報を示す。
イベント[8]において、時刻として「前半27分」が記述されている。イベント種別として「フリーキック(直接ゴールを狙う)」が記述されている。結果として「成功」が記述されている。行為者として「チーム:ブラジル、選手名NM」が記述されている。
従って、図4に示すメッセージは、第8番目のイベントとして、サッカー男子決勝の前半セットの開始から27分において、ブラジルチームに所属する選手NMがフリーキックにより直接ゴールを狙ったことを示す。
次に、本実施形態に係るメッセージ管理処理について説明する。
図5は、本実施形態に係るメッセージ管理処理の第1例を示すフローチャートである。本例は、メッセージ管理処理の基本型である。
(ステップS11)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS12の処理に進む。
(ステップS12)メッセージ管理部11は、受信した最新版のメッセージを蓄積する。その後、ステップS11の処理に戻る。
(ステップS21)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS22の処理に進む。
(ステップS22)メッセージ管理部11は、その時点において最新版のメッセージの種別を判定する。種別の判定において、メッセージ管理部11は、メッセージに付随したタグや、設定されたパラメータを参照してもよい。その後、ステップS23の処理に進む。
(ステップS23)メッセージ管理部11は、判定した種別毎に受信した最新版のメッセージを蓄積する。その後、ステップS21の処理に戻る。
(ステップS31)メッセージ管理部11は、その時点において最新版のメッセージを配信元から受信する。その後、ステップS32の処理に進む。
(ステップS32)メッセージ管理部11は、受信した最新版のメッセージを蓄積する。このとき、メッセージ管理部11は、過去に蓄積したメッセージを棄却せずに維持する。その後、ステップS33の処理に進む。
(ステップS33)メッセージ管理部11は、最新版のメッセージと直前の版のメッセージとを比較し、直前の版からの変動部分を検出する。その後、ステップS34の処理に進む。
合致するパターンがあると判定されるとき(ステップS34 YES)、ステップS35の処理に進む。合致するパターンがないと判定されるとき(ステップS34 NO)、ステップS31の処理に戻る。
(ステップS36)メッセージ管理部11は、生成したイベント情報を最新版のメッセージに追加することで、その最新版メッセージと対応付けて蓄積する。その後、ステップS31の処理に戻る。
次に、ステップS33からステップS35(図7)で行われるイベント情報生成処理について説明する。
図8は、イベント情報生成処理の一例を示す説明図である。
図8は、過去のメッセージ、最新版のメッセージ、及び生成されたイベント情報の例を上方から下方に向けてその順序で示す。図8に示す例では、直前の版のメッセージ、最新版のメッセージが、それぞれテニス競技における試合状態データである場合を仮定する。
メッセージ管理部11は、ステップS35において、情報生成テンプレートを参照して、選択したパターンに対応する生成ルールを特定し、特定した生成ルールに基づいてイベント情報を生成する。ここで、メッセージ管理部11は、変動部分に含まれる行為者として競技者MRと、原因として行為者の対戦相手である競技者DPのアンフォーストエラーと競技者MRのブレークの成功(Y)とを特定する。そして、メッセージ管理部11は、識別子「[イベント1123]」と特定した情報を統合して、種別「ポイント」、行為者「MR」、原因「DPのアンフォーストエラー」と「ブレーク:Y」、を含むイベント情報を生成する。識別子[イベント1123]は、個々のイベントを一意に特定するための識別情報である。
次に、本実施形態に係る説明生成処理について説明する。
図9は、本実施形態に係る説明生成処理の一例を示すフローチャートである。図9に示す処理は、図5−図7のいずれかに示す処理とは、非同期で実行される。
(ステップS41)説明生成部12は、メッセージ管理部11に記憶された最新のメッセージと自部に記憶された伝達済情報とを比較し、未伝達情報を検出する。説明生成部12は、予め記憶しておいた未伝達情報のパターンのうち、検出した未伝達情報と合致(マッチ)するパターンの有無を判定する。説明生成部12には、未伝達情報のパターンと、そのパターンに対応する説明テンプレートのセットを、その未伝達情報の種別毎に記憶しておく。合致するパターンがあると判定するとき(ステップS41 YES)、ステップS43の処理に進む。合致するパターンがないと判定するとき(ステップS41 NO)、ステップS42の処理に進む。
(ステップS42)説明生成部12は、一定時間(例えば、1秒)処理を行わずに待機し(スリープ)、その後、ステップS41の処理に戻る。
(ステップS44)説明生成部12は、説明テキストに、例えば、アルファベットからなる文字列で記述される選手名が含まれるか否かを判定する。選手名が含まれると判定されるとき(ステップS44 YES)、ステップS45の処理に進む。選手名が含まれないと判定するとき(ステップS44 NO)、ステップS46の処理に進む。
(ステップS45)説明生成部12は、選手名の部分について国籍情報に基づいて上述の読み方推定処理を行って説明テキストの日本語の読みを定める。説明生成部12は、その部分について定めた読みをもって説明テキストを更新する。その後、ステップS46の処理に進む。
(ステップS47)説明生成部12は、出力した説明テキストの生成に用いた未伝達情報を新たな伝達済情報として蓄積することにより、伝達済情報を更新する。その後、ステップS41の処理に戻る。
また、図9に示す処理のうち、ステップS44ならびにステップS45の処理は、必須ではなく、省略されてもよい。
次に、本実施形態に係る説明テンプレートの一例について説明する。
図10は、本実施形態に係る説明テンプレートの一例を示す図である。
図10は、イベントの種別をポイントとするパターンに対応付けられた説明テンプレートの例である。この説明テンプレートは、競技におけるイベントとして選手Bの動作を原因とするポイントと、試合状態としてゲームカウント、獲得ゲーム数、対象セットのブレーク数を説明するための文型を示す。この説明テンプレートには、未伝達情報の情報要素のうち、得点した[選手Bのフルネーム]、[原因]、その原因となるゲームブレークに成功した[選手Bのフルネーム]、[全体ゲーム数]、競技者である[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、各競技者の得点として[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、得点時における行為者である[選手Bのブレーク数]、をそれぞれ代入するための空欄が設けられている。
図11は、図10に示す説明テンプレートの選択ルールの例を示す図である。
この例では、説明テンプレートに対応するパターンを選択するための条件が、未伝達情報に含まれる情報要素として、イベントの種別を「ポイント」とし、かつ、イベントの原因として「選手A(もしくは選手B)のアンフォーストエラー」と「ブレークの成功(Y)」をいずれも含むこと、に合致することである。かかる選択ルールは、個々の説明テンプレートのパターン毎に予め設定される。
次に、図10に示す説明テンプレートを用いて生成された説明テキストの例について説明する。図12は、図10に示す説明テンプレートを用いて生成された説明テキストの例を示す図である。
説明生成部12は、ステップS43(図9)において、未伝達情報のパターンとして、その未伝達情報に含まれる情報要素と合致するパターンとして、予め記憶されたパターンのうち図11に示すパターンの選択ルールを特定する。説明生成部12は、特定したパターンに対応する説明テンプレートとして図12に示す説明テンプレートを選択する。
そして、説明生成部12は、選択した説明テンプレートに設けられた空欄のそれぞれに対応する未伝達情報の情報要素を代入する。具体的には、説明生成部12は、図10に示す説明テンプレートに、[選手Bのフルネーム]、[原因]、[選手Bのファミリーネーム]、及び[全体ゲーム数]の空欄に、それぞれ「AD・MR」、「DPのアンフォーストエラー」、「MR」、及び「10」を代入する。説明生成部12は、この説明テンプレートに、さらに[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、及び[選手Bのブレーク数]の空欄に、それぞれ「DR」、「MR」、「5」、「5」、及び「3」を代入する。よって、「MR、第10ゲームブレーク成功。ゲームカウント、DR対MR、5−5。この3回目のブレーク。」との文を示す説明テキストが生成される。
例えば、指定情報においてメッセージ種別を試合状態とする要素情報が設定する場合を仮定する。その場合には、メッセージ種別を試合状態とする要素情報を未伝達情報に含め、その未伝達情報の全体に含まれる要素情報のパターンに合致するパターンに対応する説明テンプレートを選択する。ここで、選択ルールとして、説明生成部12は、試合状態種別が「ゲームカウント」であり、要素情報として、[試合名]、[選手Aのファミリーネーム]、[選手Bのファミリーネーム]、[セット数]、[選手Aの獲得ゲーム数]、及び[選手Bの獲得ゲーム数]をいずれも含むという条件に合致するとき、対応する説明テンプレートとして、次の説明テンプレートを選択する。
[試合名]、[選手Aのファミリーネーム]対[選手Bのファミリーネーム]。現在第[セット数]。ゲームカウント[選手Aの獲得ゲーム数]対[選手Bの獲得ゲーム数]。
「テニス男子シングルス決勝、DP対MR。現在第1セット。ゲームカウント5対5。」
この構成によれば、イベント情報が提供されない場合でも、試合状態の変動をイベントとして変動した試合状態とともに受聴者に伝達することができる。受聴者は競技の進行をより詳細に把握できるので、競技をより楽しむことができる。
この構成によれば、競技の状況が時間経過に応じて変化しない場合に、受聴者が忘却したかもしれない情報を繰り返し伝達することができる。また、競技の途中から受聴を開始する受聴者でも競技の状況を把握することができる。
この構成によれば、異なる競技に対応するシステムを個別に開発することなく、競技ごとに説明テンプレートを予め記述しておくだけでよいので、複雑な処理を行わずに競技の状況を伝達することができる。そのための作業やシステム規模を低減することで、経済的な実現を図ることができる。
この構成によれば、送信される音声の内容を示す説明テキストを介して競技の状況が視聴者に伝達される。そのため、聴覚が不自由な者であっても説明テキストを視認して、その競技の状況を把握することができる。そのため、経済的に多様な視聴者にスポーツ競技を楽しませることができる。
次に、本発明の第2の実施形態について説明する。第1の実施形態に係る音声ガイド生成装置10は、スポーツ競技のスコア、ゴール、反則等の進行状態を示す競技データから、音声による解説(つまり、音声ガイド)を生成する。この競技データから音声ガイドを生成することで、例えば、視覚障害者がテレビのスポーツ中継をより楽しむことができることや、インターネットで配信されるスポーツ競技映像に音声による解説を付加したりすることが可能になる。
音声ガイド生成装置30は、スポーツ等の進行状態を示す競技データから、音声(合成音声)を生成するものである。
音声ガイド生成装置30は、事前学習段階において、コーパス記憶装置40に記憶した学習用のデータとしてコーパスを用いて、テキストを音声に変換するための音声モデルをDNNによりオフラインで学習する。
コーパスには、強調音声コーパスと通常音声コーパスとがある。
強調音声コーパスは、テキストと、当該テキストを強調して発話した音声(強調音声)とを対とした学習データである。
通常音声コーパスは、テキストと、当該テキストを通常(強調せず)に発話した音声(通常音声)とを対とした学習データである。
音声ガイド生成装置30は、競技データの強調すべき箇所を予め定めたテンプレートに基づいて、競技データから、強調箇所を示す発話スタイルを付加した競技の進行を解説したテキスト(発話スタイル付きテキスト)を生成し、学習した音声モデルを用いて、音声合成を行う。
これによって、音声ガイド生成装置30は、競技データから、抑揚にメリハリのついた音声を生成することができる。
事前学習部31は、事前学習段階において、音声モデルを構成する各種のパラメータを学習する。
音声合成部34は、合成処理段階において、学習済みの音声モデルを用いて、競技データから音声(合成音声)を生成する。
音声ガイド生成装置30は、コーパス記憶装置40と各種のデータを送受信可能に接続する。
次に、図14を参照して、事前学習部31の構成について説明する。事前学習部31は、コーパス入力部32と、モデル学習部33と、を備える。
コーパス入力部32は、テキストと音声(つまり、強調音声または通常音声)とを対応付けて、コーパス記憶装置40から読み出し、モデル学習部33に出力する。コーパス入力部32は、強調音声コーパスから読み込んだテキストに対応する音声が強調音声であることを示す強調判別情報とともに、そのテキストと音声とを対応付けてモデル学習部33に出力する。また、コーパス入力部32は、通常音声コーパスから読み込んだテキストと対応する音声が通常音声である(強調音声ではない)ことを示す強調判別情報とともに、そのテキストと音声とを対応付けてモデル学習部33に出力する。
音素言語特徴量生成部331aは、テキストとともに入力される強調判別情報が、音声が強調音声であることを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成部331aは、テキストとともに入力される強調判別情報が、音声が通常音声である(つまり、強調音声ではない)ことを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
さらに、音素言語特徴量生成部331aは、音素ごとに、解析した音素固有の音素ラベルを音声解析部332の音素区切り部332aに出力する。
フレーム言語特徴量は、音素言語特徴量生成部331aで生成された音素言語特徴量に、音素の時間長の区間を構成するフレームの番号(つまり、フレームの位置)、フレームの総数等の音素の時間的特徴を含んで構成される。このフレーム言語特徴量生成部331bは、1音素に対して、その音素の時間長に対応したフレーム言語特徴量を生成する。
フレーム言語特徴量生成部331bは、生成した1音素に対応するフレーム数分のフレーム言語特徴量と、音素言語特徴量生成部331aから入力された発話スタイルラベルとを対応付けて、DNN学習部333の音響特徴量モデル学習部333bに出力する。
音素区切り部332aは、例えば、音素と当該音素の波形とを対応付けた素片辞書(図示せず)を用いて、音素の区切り位置を検出する。
音素区切り部332aは、検出した音素の区切り位置を音響特徴量生成部332bに出力する。
なお、音素区切り部332aが生成する音素の時間長は、時間長モデル学習部333aで時間長モデル346aを学習する際の正解データとなる。
なお、音響特徴量生成部332bが生成する音響特徴量は、音響特徴量モデル学習部333bで音響特徴量モデル346bを学習する際の正解データとなる。
図16にDNNで構成した時間長モデル346aの例を示す。図16に示すように、時間長モデル346aは、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)で構成することができる。
時間長モデル学習部333aは、モデル記憶部346において記憶した時間長モデル346aを、学習により得られた時間長モデル346aに逐次更新する。
図17にDNNで構成した音響特徴量モデル346bの例を示す。図17に示すように、音響特徴量モデル346bは、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(FFNN)で構成することができる。
音響特徴量モデル学習部333bは、モデル記憶部346において記憶した音響特徴量モデル346bを、学習により得られた音響特徴量モデル346bに逐次更新する。
モデル記憶部346に記憶された事前学習段階で学習した音声モデル(つまり、時間長モデル346a、音響特徴量モデル346b)は、合成音声生成部341において使用される。
競技データは、例えば、試合に出場する出場選手(図18)、試合中に発生するイベント一覧(図19等の試合内容および試合進行に応じたデータである。図18と図19は、一例として、テニスを対象とした競技データの例を示す。
また、図19は、123番目のイベントが、[時刻]○時△分□秒に発生したことを示している。[セット]はゲームのセット数を示す。なお、競技データは、イベントが更新されるたびに、メッセージ管理部11に順次追加されていく。ここでは、123番目のイベントにおいて、第4セット(“4S”)であることを示している。[ゲームカウント]はゲームカウントが更新されたことを示す。ここでは、“B2”(選手B)に5点目(“5”)が入ったことを示している。[アンフォーストエラー]はアンフォーストエラーが発生したことを示す。ここでは、“A2”(選手A)がアンフォーストエラーを起こし、アンフォーストエラーが“12”回目であることを示している。[ブレーク成功]はブレークに成功したことを示す。ここでは、“B2”(選手B)が“6”回目のブレークに成功したことを示している。
さらに、図19は、[全体ゲーム数]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、[選手Bのブレーク数]等を試合状況として例示している。
もちろん、図18、図19に例示した競技データはこれに限定されるものでないし、競技の種類によっても競技データが異なりうる。
例えば、図20は、図18に示した競技データにおいて、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合のテンプレートを示す。
図20に示した説明テンプレートにおいて、“[”および“]”で挟まれた箇所が、競技データに応じて変化することになる。
この説明テンプレートにおいて、音声を強調して発声させようとする箇所には、予め定めたタグで示すこととする。例えば、図20に示すように、<強調>タグと</強調>タグとで挟まれた箇所を強調対象とする。ここでは、“[選手Bのブレーク数]回目のブレーク”を強調する例を示している。
例えば、図21に示すように、図20で示した、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合に加え、選手Bのブレーク数が予め定めた数(例えば“5”)以上である場合に使用する説明テンプレートは、図20と同様に、“[選手Bのブレーク数]回目のブレーク”を強調する説明テンプレートとする。
また、選手Bのブレーク数が予め定めた数(例えば“5”)未満である場合に使用する説明テンプレートは、図22に示すように、図21に示す説明テンプレートから<強調>タグと</強調>タグとを削除した説明テンプレートとする。
例えば、説明生成部12は、図18と図19で例示した競技データを入力し、各種データが条件に合致する説明テンプレートを読み出し、競技データに依存する文字列を埋め込む。なお、説明生成部12は、競技データが更新された場合、その更新した内容から説明テキストを生成する。
例えば、説明生成部12は、図19で示した競技データ(ここでは、123番目のイベント)を入力する場合、図20あるいは、図21に示した説明テンプレートに文字列を埋め込むことによって、図23に例示する説明テキストを生成する。
なお、説明生成部12は、図22に示した説明テンプレートを用いる場合、図24に例示する説明テキストを生成する。
これによって、説明生成部12は、発話スタイルとしてテキスト中に強調すべき箇所をタグで示した発話スタイル付きテキストを説明テキストとして生成することができる。
説明生成部12は、生成した発話スタイル付きテキストを音声合成部13に出力する。
次に、音声合成部13の構成について説明する。図13に示す例では、音声合成部13は、合成音声生成部341と、モデル記憶部346と、を備える。
合成音声生成部341は、モデル記憶部346に記憶されている学習済みの音声モデル(つまり、時間長モデル346a、音響特徴量モデル346b)を用いて、説明生成部12が生成した発話スタイル付きテキストに対して音声合成処理を行う。
図15に示す例では、合成音声生成部341は、スタイル解析部342と、テキスト解析部343と、DNN演算部344と、合成部345と、を備える。
スタイル解析部342は、発話スタイル付きテキストにおいて、一文ごとに予め定めたタグ(<強調>、</強調>)を検出することで、当該文中における強調箇所を特定する。そして、スタイル解析部342は、文単位で、発話スタイル付きテキストからタグを削除したテキストと、当該テキストにおける強調箇所を示す強調位置情報とを、テキスト解析部343に出力する。なお、発話スタイル付きテキストにおいて、予め定めたタグが存在しない場合、スタイル解析部342は、文単位で、テキストと、強調箇所が存在しないことを示す強調位置情報とを、テキスト解析部343に出力する。
音素言語特徴量生成部343aは、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成部343bに出力するとともに、DNN演算部344の時間長演算部344aに出力する。
フレーム言語特徴量生成部343bは、生成したフレーム言語特徴量と、音素言語特徴量生成部343aから入力された発話スタイルラベルとを対応付けて、DNN演算部344の音響特徴量演算部344bに出力する。
時間長演算部344aは、例えば、図16に示した時間長モデル346aの入力層Iの各ユニットに、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、時間長演算部344aは、学習済みの時間長モデル346aのパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音素の時間長とする。
時間長演算部344aは、生成した音素の時間長を、テキスト解析部343のフレーム言語特徴量生成部343bに出力する。
音響特徴量演算部344bは、例えば、図17に示した音響特徴量モデル346bの入力層Iの各ユニットに、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、音響特徴量演算部344bは、学習済みの音響特徴量モデル346bのパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音響特徴量とする。
音響特徴量演算部344bは、生成したフレームごとの音響特徴量を、合成部345に出力する。
合成部345は、音響特徴量に含まれるピッチ、雑音特性等の情報(音源パラメータ)に基づいて、声の高さ、大きさ、雑音性度合いの時間変化を表現した声帯音源波形を生成する。また、合成部345は、フレームごとの音響特徴量に含まれるスペクトル係数等の情報(スペクトルパラメータ)に基づいて、音韻の違いや声質を表現した声道フィルタを生成する。そして、合成部345は、声帯音源波形を声道フィルタへの入力として、フレームに対応する音声波形を生成する。
なお、音響特徴量を用いて音声合成を行う手法は、公知のボコーダ方式の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
合成部345は、フレームごとの音声波形を連結して合成音声を生成し、生成した合成音声を示す音声ガイドデータを出力する。
一方、音声ガイド生成装置30は、強調や体言止めを学習して得られた音声モデルを用いるため、図26に示すように、強調箇所である「6回目のブレーク」を表す音声の高さが高くなり、体言止めとなる文末の「ブレーク」を表す音声の高さが持ち上げられる。
次に、図27および図28を参照して、本発明の実施形態に係る音声ガイド生成装置30の動作について説明する。ここでは、音声ガイド生成装置30の動作を、事前学習部31の動作と、合成音声生成部341の動作とに分けて説明する。
(事前学習)
まず、図27を参照して、音声ガイド生成装置30の事前学習部31の動作について説明する。
(ステップS55)DNN学習部333の時間長モデル学習部333aは、ステップS52で生成した音素言語特徴量と、ステップS53で付加した発話スタイルラベルとを入力し、ステップS54で求めた音素の時間長を出力するように、時間長モデル346aを学習する。
(ステップS57)フレーム言語特徴量生成部331bは、ステップS56で生成したフレーム言語特徴量に、ステップS53で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
(ステップS59)DNN学習部333の音響特徴量モデル学習部333bは、ステップS56で生成したフレーム言語特徴量と、ステップS57で付加した発話スタイルラベルとを入力し、ステップS58で生成した音響特徴量を出力するように、音響特徴量モデル346bを学習する。その後、事前学習部31は、図27の処理を終了する。
次に、図28を参照して、音声ガイド生成装置30の音声ガイド生成処理に係る動作について説明する。
(ステップS61)説明生成部12は、予めテンプレート記憶部(図示せず)に記憶されている説明テンプレートに基づいて、ステップS60で入力した競技データのうち未送信の競技データから、発話スタイル付きテキストを生成する。このテンプレートは、音声を強調して発声させたい箇所に、予め定めたタグ(<強調>、</強調>)が付加されている(図23参照)。説明生成部12は、説明テンプレートの可変箇所を、競技データで特定される情報に置き換えることで、発話スタイル付きテキストを生成する(図23参照)。
(ステップS63)テキスト解析部343の音素言語特徴量生成部343aは、ステップS62で生成したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
(ステップS66)テキスト解析部343のフレーム言語特徴量生成部343bは、ステップS65で生成した音素の時間長に基づいて、音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
(ステップS68)DNN演算部344の音響特徴量演算部344bは、学習済みの音響特徴量モデル346bを用いて、ステップS66で生成したフレーム言語特徴量と、ステップS67で付加した発話スタイルラベルとから、フレームの音響特徴量を生成する。
以上の動作によって、音声ガイド生成装置30は、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
そして、音声ガイド生成装置30は、音素言語特徴量生成部343aによって、説明生成部12で生成されたテキストに対して、形態素解析、韻律推定等の解析を行うことで、音素ごとの言語特徴量と音素に対する強調情報とを生成する。
そして、音声ガイド生成装置30は、時間長演算部344aによって、音素言語特徴量生成部343aで生成された音素の言語特徴量と強調情報とを、時間長モデルの入力として演算することで、音素の時間長を生成する。
そして、音声ガイド生成装置30は、音響特徴量演算部344bによって、フレーム言語特徴量生成部343bで生成されたフレームの言語特徴量とフレームに対応する強調情報とを、音響特徴量モデルの入力として演算することで、フレームごとの音響特徴量を生成する。
これによって、音声ガイド生成装置30は、予め強調音声の特徴を学習した音響特徴量モデルにより、テキスト中の強調箇所を強調した合成音声を生成することができる。
これによって、本実施形態は、競技データから、抑揚にメリハリがつき、意図を表現可能な音声を生成することができる。
以上、本発明の実施形態に係る音声ガイド生成装置30の構成および動作について例示したが、この例に限定されるものではない。
音声ガイド生成装置30は、音声モデル(時間長モデル346a、音響特徴量モデル346b)を学習する事前学習と、音声モデルを用いて競技データから音声合成を行う合成処理との2つの動作を1つの装置で行うものである。しかし、これらの動作は、別々の装置で行うようにしても構わない。
そして、音素区切り部332aは、テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する。
そして、時間長モデル学習部333aは、音素言語特徴量生成部331aが生成した音素の言語特徴量と強調情報とを入力し、音素区切り部332aが特定した音素の時間長を出力するように時間長モデルを学習する。
そして、音響特徴量生成部332bは、音素区切り部332aが検出した音素の区切りに基づいて、テキストに対応する音声から音素の時間長の区間を構成するフレームごとの音響特徴量を生成する。
そして、音響特徴量モデル学習部333bは、フレーム言語特徴量生成部331bが生成したフレームの言語特徴量と強調情報とを入力し、音響特徴量生成部332bが生成した音響特徴量を出力するように音響特徴量モデルを学習する。
これによって、音声モデル学習装置は、テキストが同一であっても、強調情報によって異なる音素の時間長および音響特徴量を学習するモデルを生成することができる。
例えば、音声ガイド生成装置30は、発話スタイルとして、強調のみを実現した合成音声を生成するものとしてもよい。
この場合、時間長モデル346aおよび音響特徴量モデル346bは、図16に示した時間長モデル346aの入力層Iから、文末情報(体言止め有無のラベル)を省略し、図17に示した音響特徴量モデル346bの入力層Iから、文末情報を省略したモデルとすればよい。また、テキスト解析部331からDNN学習部333に出力される発話スタイルラベルから、文末情報を省略すればよい。また、テキスト解析部343からDNN演算部344に出力される発話スタイルラベルから、文末情報を省略すればよい。
次に、本発明の第3の実施形態について説明する。以下の説明は、上記の実施形態との差異を主とする。上記の実施形態と共通する構成や処理については、同一の符号を付して、その説明を援用する。
また、競技データの配信に係る遅延時間は個々に異なりうるため、配信手段の動作や伝送路が不安定な場合には、イベント等の発生とは異なる順序で受信されることがある。逐次に競技データに基づいて音声ガイドデータを生成し、そのまま配信すると、本来イベントが発生した順序とは異なる順序で音声ガイドデータが提供される。このことも映像データと原音声データからなる配信ストリームが示すイベントの順序と異なる原因となる。
音声ガイド生成装置50は、メッセージ管理部11と、説明生成部12と、音声合成部13と、第1受信部17と、を備える。
送信装置56は、第1バッファ部561と、第2バッファ部562と、重畳処理部563と、を備える。第1バッファ部561は、音声ガイド生成装置10から逐次に所定の単位毎に受信した音声ガイドデータと時刻情報と対応付けて記憶する。所定の単位は、例えば、所定の時間長のフレーム(例えば、20ms−1s)であり、イベントの発生間隔と同等以下の期間であればよい。時刻情報は、説明生成部12が未伝達情報として説明テキストの生成に用いた競技データが示す競技の状況が生じた時刻の情報である。競技データは時刻情報と対応付けて取得される。その説明テキストは、音声合成部13が、音声合成処理を行ってその音声ガイドデータの生成に用いたものである。
重畳処理部563は、現在時刻から所定のオフセット時間D過去の時刻(以下、指定時刻と呼ぶ)t−Dの音声ガイドデータと、その時刻t−Dの配信ストリームを、それぞれ第1バッファ部561と第2バッファ部562から読み出す。重畳処理部563には、予めオフセット時間Dを設定しておく。オフセット時間Dは、音声ガイド生成装置50における競技データの受信から音声ガイドデータの送信開始までの所要時間よりも長い時間であればよい。重畳処理部563は、読み出した音声ガイドデータと配信ストリームを重畳して、受信装置20に配信するための多重化データを生成する。
受信装置20は、放送伝送路又は通信伝送路を介して多重化データを受信し、受信した多重化データから映像データと重畳音声データ又は音声ガイドデータに分離する。受信装置20は、分離した映像データに基づいて映像を表示し、重畳音声データ又は音声ガイドデータに基づいて音声を再生する。
メッセージ管理部11は、第1受信部17から入力される競技データと時刻情報とを対応付けて記憶する。なお、時刻情報は、競技データに記述されていることがある。その場合には、第1受信部17は、競技データと別個に時刻情報を受信せずに、メッセージ管理部11が競技データに記述された時刻情報を抽出すればよい。
メッセージ管理部11は、送信元のデータセンタから第1受信部17を介してその時点の時刻を示す時刻情報を示す同期信号をさらに受信し、受信した時刻情報に基づいてデータセンタと同期をとってもよい。
図30は、本実施形態に係る音声ガイド配信処理の例を示すフローチャートである。
(ステップS71)第2受信部551は、競技の状況を示す配信ストリームと、時刻情報と所定の単位ごとに受信する。第2受信部551は、受信した配信ストリームと時刻情報とを対応付けて送信装置56の第2バッファ部562に逐次に記憶する。
(ステップS72)第1受信部17は、競技の最新の状況を示す競技データとその状況が生じた時刻を示す時刻情報を受信する。メッセージ管理部11は、第1受信部17が受信した競技データと時刻情報とを対応付けて記憶する。
(ステップS74)音声合成部13は、説明生成部12が生成した説明テキストに対して音声合成処理を行って音声ガイドデータを生成し、生成した音声ガイドデータと、その説明テキストの生成に用いた競技データに係る時刻を示す時刻情報と対応付けて第1バッファ部561に記憶する。
なお、配信ストリームは、必ずしも時刻情報と対応付けて伝送されるとは限らない。そこで、第2バッファ部562は、配信ストリームを取得した時点の時刻tから遅延時間δを差し引いて、その配信ストリームが示す競技の状況を示す時刻t’を算出してもよい。第2バッファ部562は、例えば、配信ストリームの送信元(例えば、データセンタ)から第2受信部551を介して同期信号を受信し、現在時刻t0から受信した同期信号が示す時刻t1を差し引いてその遅延時間δを測定することができる。そして、第2バッファ部562は、取得した配信ストリームと算出した時刻t’を示す時刻情報とを対応付けて記憶する。これにより、送信元から音声ガイド生成装置50までの伝送ゆらぎが無視できるほど小さい場合には、配信ストリームで表されるイベントと、競技データから生成された音声ガイドデータが示すガイド音声との同期をとることができる。
また、音声ガイド生成装置50は、音声合成部13に代えて、音声合成部34(図13)を備えてもよい。
また、音声ガイド生成装置50は、映像処理部55と送信装置56の一方又は双方と一体化され、単一の音声ガイド生成装置50として構成されてもよい。
また、放送システム1、5は、さらにサーバ装置(図示せず)を備え、放送通信連携システムとして構成されてもよい。その場合、音声ガイド生成装置10、30、50は、生成した音声ガイドデータをサーバ装置に出力する。サーバ装置は、通信伝送路を介して接続された受信装置20に、音声ガイドデータを送信可能とする。他方、受信装置20は、アプリケーションプログラムに記述された命令で指示される処理を実行して通信放送連携サービスの機能を提供する。受信装置20は、その機能として、サーバ装置から受信した音声ガイドデータに基づく音声を再生する。
また、放送システム5の送信装置56は、生成した多重化データを放送伝送路に代え、又は放送伝送路とともに通信伝送路に送信してもよい。
Claims (11)
- 競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理部と、
伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成する説明生成部と、
前記説明テキストから変換した音声を出力する音声合成部と、を備え
前記説明生成部は、
前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする
音声ガイド生成装置。 - 前記メッセージ管理部は、
前記メッセージの更新により生じた変動部分を検出して、前記変動部分の種類に応じた新たな情報を生成し、生成した新たな情報をさらに蓄積する
請求項1に記載の音声ガイド生成装置。 - 前記メッセージ管理部は、
前記新たな情報の構造を示す情報生成テンプレートを前記変動部分の種類毎に予め記憶し、
前記情報生成テンプレートから、前記変動部分の種類に対応する情報生成テンプレートを選択し、
選択した情報生成テンプレートに、前記変動部分の要素を統合することで前記新たな情報を生成する
請求項2に記載の音声ガイド生成装置。 - 前記説明生成部は、
伝達済情報として保持されている情報の中で所定の種類の情報を、伝達完了時刻から所定の時間が経過した場合に、未伝達であるとみなす
請求項1から請求項3のいずれか一項に記載の音声ガイド生成装置。 - 前記説明生成部は、
前記説明テキストの文型を示す説明テンプレートを未伝達情報の種類毎に予め記憶し、
前記説明テンプレートから、前記未伝達情報の種類に対応する説明テンプレートを選択し、
選択した説明テンプレートに、前記未伝達情報の要素を統合して前記説明テキストを生成する
請求項1から請求項4のいずれか一項に記載の音声ガイド生成装置。 - 前記説明生成部は、前記メッセージが示す競技の状況を示す競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示した前記説明テキストを生成し、
前記音声合成部は、
前記説明テキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成部と、
時間長モデルを用いて、前記音素言語特徴量生成部が生成した前記言語特徴量と前記強調情報とから、前記音素の時間長を生成する時間長演算部と、
前記時間長演算部が生成した音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成部と、
音響特徴量モデルを用いて、前記フレーム言語特徴量生成部が生成したフレームの言語特徴量と前記フレームに対応する強調情報とから、前記フレームごとの音響特徴量を生成する音響特徴量演算部と、
前記音響特徴量演算部が生成したフレームごとの音響特徴量を用いて音声合成を行う合成部と、を備え、
前記時間長モデルは、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力とし、前記音素の時間長を出力として予め学習され、
前記音響特徴量モデルは、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力とし、前記フレームの音響特徴量を出力として予め学習されたことを特徴とする
請求項1から請求項5のいずれか一項に記載の音声ガイド生成装置。 - 前記時間長モデルおよび前記音響特徴量モデルは、それぞれ前記音素が品詞を名詞とする文末単語の音素であるか否かを示す文末情報をさらに用いて学習され、
前記音素言語特徴量生成部は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、
前記時間長演算部は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、
前記フレーム言語特徴量生成部は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、
前記音響特徴量演算部は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成することを特徴とする
請求項6に記載の音声ガイド生成装置。 - 請求項1から請求項7のいずれか一項に記載の音声ガイド生成装置と、
前記音声合成部が変換した音声を示す音声データと前記説明テキストの生成に用いた競技の状況の時刻を示す時刻情報を記憶する第1バッファ部と、
前記競技の状況を示す映像データと当該状況の時刻を示す時刻情報を対応付けて記憶する第2バッファ部と、
現在時刻から所定時間過去の時刻である指定時刻の音声データを前記第1バッファ部から抽出し、前記指定時刻の映像データを前記第2バッファ部から抽出し、抽出した前記音声データと抽出した映像データとを重畳する重畳処理部と、を備える
放送システム。 - 前記メッセージ管理部は、前記メッセージを含む競技データと前記メッセージが示す競技の状況の時刻を示す時刻情報を対応付けて記憶し、
前記説明生成部は、前記未伝達情報として現在時刻から第2の所定時間過去の時刻の前記競技データを未伝達情報として前記メッセージ管理部から参照し、かつ、
前記第2の所定時間は、前記所定時間よりも短いことを特徴とする
請求項8に記載の放送システム。 - 請求項1から請求項7のいずれか一項に記載の音声ガイド生成装置と、
前記説明テキストと前記音声を送信する送信装置と、を備える
放送システム。 - 音声ガイド生成装置における音声ガイド生成方法であって、
競技の最新の状況を表すデータであり、その更新の都度配信されるメッセージを受信して蓄積するメッセージ管理過程と、
伝達済情報に基づいて前記メッセージから検出した未伝達情報を伝達するための説明テキストを生成する説明生成過程と、
前記説明テキストから変換した音声を出力する音声合成過程と、を有し、
前記説明生成過程は、
前記説明テキストの生成を行った後に、前記説明テキストの生成に用いた未伝達情報を伝達済情報として記録し、その後、前記音声の再生が完了するまで待機した後に、再び、新たな未伝達情報の説明テキストを生成するまでの一連の処理を反復することを特徴とする
音声ガイド生成方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017102847 | 2017-05-24 | ||
JP2017102847 | 2017-05-24 | ||
PCT/JP2018/019828 WO2018216729A1 (ja) | 2017-05-24 | 2018-05-23 | 音声ガイド生成装置、音声ガイド生成方法及び放送システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018216729A1 true JPWO2018216729A1 (ja) | 2020-04-02 |
JP6824399B2 JP6824399B2 (ja) | 2021-02-03 |
Family
ID=64395715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019520285A Active JP6824399B2 (ja) | 2017-05-24 | 2018-05-23 | 音声ガイド生成装置、音声ガイド生成方法及び放送システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11404041B2 (ja) |
EP (1) | EP3633671B1 (ja) |
JP (1) | JP6824399B2 (ja) |
CN (1) | CN110622240B (ja) |
ES (1) | ES2894123T3 (ja) |
WO (1) | WO2018216729A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170758B2 (en) | 2018-09-27 | 2021-11-09 | Rovi Guides, Inc. | Systems and methods for providing notifications within a media asset without breaking immersion |
JP6840124B2 (ja) * | 2018-12-27 | 2021-03-10 | 株式会社エーアイ | 言語処理装置、言語処理プログラムおよび言語処理方法 |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
JP7469015B2 (ja) * | 2019-10-02 | 2024-04-16 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
TWI739377B (zh) * | 2020-04-08 | 2021-09-11 | 瑞昱半導體股份有限公司 | 字幕影像產生裝置及方法 |
CN113596355B (zh) * | 2020-04-14 | 2024-04-16 | 瑞昱半导体股份有限公司 | 字幕图像产生装置及方法 |
CN111538862B (zh) * | 2020-05-15 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于解说视频的方法及装置 |
WO2021240644A1 (ja) * | 2020-05-26 | 2021-12-02 | 富士通株式会社 | 情報出力プログラム、装置、及び方法 |
KR102392904B1 (ko) * | 2020-09-25 | 2022-05-02 | 주식회사 딥브레인에이아이 | 텍스트 기반의 음성 합성 방법 및 장치 |
JP7657574B2 (ja) | 2020-11-12 | 2025-04-07 | 株式会社東芝 | 放送システム、放送番組送出装置及び放送方法 |
CN113539231B (zh) * | 2020-12-30 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 音频处理方法、声码器、装置、设备及存储介质 |
EP4036755A1 (de) * | 2021-01-29 | 2022-08-03 | Deutsche Telekom AG | Verfahren zur generierung und bereitstellung einer einem nutzer dargebotenen information eines dienstes |
CN113393864A (zh) * | 2021-06-11 | 2021-09-14 | 浙江同花顺智能科技有限公司 | 一种口语发音纠正方法、装置、设备及存储介质 |
US12142260B2 (en) * | 2022-01-20 | 2024-11-12 | Zoom Video Communications, Inc. | Time distributions of participants across topic segments in a communication session |
JP2024011105A (ja) * | 2022-07-14 | 2024-01-25 | 株式会社電通 | 実況音声リアルタイム生成システム |
CN116403559B (zh) * | 2023-03-30 | 2025-01-24 | 东南大学 | 一种文本驱动视频生成系统的实现方法 |
US12283291B1 (en) * | 2023-08-16 | 2025-04-22 | Amazon Technologies, Inc. | Factually consistent generative narrations |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0580791A (ja) * | 1991-09-20 | 1993-04-02 | Hitachi Ltd | 音声規則合成装置および方法 |
JPH07199992A (ja) | 1993-12-28 | 1995-08-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報提供装置 |
JP3126009B2 (ja) * | 1994-01-25 | 2001-01-22 | 株式会社日立製作所 | ボイスメール音声メッセージ重畳方式 |
JP2001282268A (ja) | 2000-03-30 | 2001-10-12 | Advanced Telecommunication Research Institute International | 音声データ配信システム |
JP2001356784A (ja) * | 2000-06-12 | 2001-12-26 | Yamaha Corp | 端末装置 |
JP2002132281A (ja) * | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
JP3621663B2 (ja) | 2001-07-16 | 2005-02-16 | 株式会社コナミコンピュータエンタテインメントスタジオ | 音声出力プログラム、音声出力方法及びビデオゲーム装置 |
JP2005026837A (ja) * | 2003-06-30 | 2005-01-27 | Nippon Hoso Kyokai <Nhk> | スポーツ映像インデックス生成装置、その方法、そのプログラム及びスポーツ中継アナウンスデータ生成装置並びにスポーツダイジェスト映像生成装置 |
EP1640968A1 (en) * | 2004-09-27 | 2006-03-29 | Multitel ASBL | Method and device for speech synthesis |
WO2006022075A1 (ja) | 2004-08-27 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | 情報端末及びイベント報知方法 |
US7458894B2 (en) * | 2004-09-15 | 2008-12-02 | Microsoft Corporation | Online gaming spectator system |
JP2006145690A (ja) * | 2004-11-17 | 2006-06-08 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
US20070078294A1 (en) * | 2005-09-03 | 2007-04-05 | Yogendra Jain | Dynamic relaxation and motivational agent |
JP4476255B2 (ja) | 2006-08-10 | 2010-06-09 | 株式会社コナミデジタルエンタテインメント | ゲームプログラム、ゲーム装置及びゲーム制御方法 |
KR101349797B1 (ko) * | 2007-06-26 | 2014-01-13 | 삼성전자주식회사 | 전자기기에서 음성 파일 재생 방법 및 장치 |
US8515257B2 (en) * | 2007-10-17 | 2013-08-20 | International Business Machines Corporation | Automatic announcer voice attenuation in a presentation of a televised sporting event |
US9055271B2 (en) | 2008-03-20 | 2015-06-09 | Verna Ip Holdings, Llc | System and methods providing sports event related media to internet-enabled devices synchronized with a live broadcast of the sports event |
US20120330666A1 (en) | 2011-06-21 | 2012-12-27 | Verna IP Holdings, LLC. | Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores |
WO2013018294A1 (ja) * | 2011-08-01 | 2013-02-07 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
JP5814879B2 (ja) * | 2012-07-30 | 2015-11-17 | 株式会社日立製作所 | 投稿音声再生制御システム、投稿音声再生制御方法、投稿音声再生制御プログラム |
CN103050138B (zh) * | 2012-11-19 | 2015-12-02 | 长沙中联消防机械有限公司 | 提示音播放控制方法、装置及工程机械设备 |
US9431002B2 (en) * | 2014-03-04 | 2016-08-30 | Tribune Digital Ventures, Llc | Real time popularity based audible content aquisition |
US10659851B2 (en) * | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
JP2017102847A (ja) | 2015-12-04 | 2017-06-08 | 日本電気株式会社 | 情報処理システム、中継装置、方法およびプログラム |
US20180077440A1 (en) * | 2016-09-09 | 2018-03-15 | Cayke, Inc. | System and method of creating, analyzing, and categorizing media |
-
2018
- 2018-05-23 CN CN201880031920.6A patent/CN110622240B/zh active Active
- 2018-05-23 EP EP18805990.1A patent/EP3633671B1/en active Active
- 2018-05-23 ES ES18805990T patent/ES2894123T3/es active Active
- 2018-05-23 JP JP2019520285A patent/JP6824399B2/ja active Active
- 2018-05-23 WO PCT/JP2018/019828 patent/WO2018216729A1/ja active Application Filing
- 2018-05-23 US US16/611,276 patent/US11404041B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018216729A1 (ja) | 2018-11-29 |
US20200066251A1 (en) | 2020-02-27 |
CN110622240B (zh) | 2023-04-14 |
EP3633671A4 (en) | 2021-03-03 |
JP6824399B2 (ja) | 2021-02-03 |
EP3633671B1 (en) | 2021-09-08 |
CN110622240A (zh) | 2019-12-27 |
EP3633671A1 (en) | 2020-04-08 |
ES2894123T3 (es) | 2022-02-11 |
US11404041B2 (en) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6824399B2 (ja) | 音声ガイド生成装置、音声ガイド生成方法及び放送システム | |
US7450821B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
US20060136226A1 (en) | System and method for creating artificial TV news programs | |
Lambourne et al. | Speech-based real-time subtitling services | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
CN108604455A (zh) | 自动确定音频流中语音字幕的定时窗口 | |
JP7033478B2 (ja) | 音声合成装置、音声モデル学習装置およびそれらのプログラム | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
CN110740275A (zh) | 一种非线性编辑系统 | |
CN110781649A (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
JP2020140326A (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
JP2008517315A (ja) | メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法 | |
JP5137031B2 (ja) | 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム | |
JP2015061194A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
JP4210723B2 (ja) | 自動字幕番組制作システム | |
JP4086886B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP4509188B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP7087041B2 (ja) | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム | |
JP7137815B2 (ja) | 録画再生システム | |
JP2002215533A (ja) | コミック自動生成装置 | |
JP2003309786A (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
JP2025034460A (ja) | 処理システム、プログラム及び処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6824399 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |