JP6948934B2

JP6948934B2 - コンテンツ加工システム、端末装置、およびプログラム

Info

Publication number: JP6948934B2
Application number: JP2017243198A
Authority: JP
Inventors: 成暁加藤; 宗遠藤; 馬場　秋継; 秋継馬場; 石川　清彦; 清彦石川; 雅晴高野; 隅倉　正隆; 正隆隅倉; 剛太岩浪; 忠義小山
Original assignee: BITMEDIA INC.; Infocity KK; Japan Broadcasting Corp
Current assignee: BITMEDIA INC.; Infocity KK; Japan Broadcasting Corp
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2021-10-13
Anticipated expiration: 2037-12-19
Also published as: JP2019110480A

Description

本発明は、コンテンツ加工システム、端末装置、およびプログラムに関する。

ライブ（各種イベント、舞台、音楽等）等の映像および音声を通信回線（インターネット等）によって配信する技術が普及してきている。従来技術において、ライブの映像および音声の編集・加工には、編集機材、スイッチャ―、ミキサーなどといった装置が用いられる。そして、従来技術において、編集および加工は、配信処理の前段において一元的に実施されるものであった。

例えば、非特許文献１には、大規模なスポーツイベントに関して、放送事業者が、インターネット経由で全競技・全種目の映像を実際にライブストリーミングで配信した際のシステム構成が記載されている。この文献によれば、イベントが開催されている現地都市のセンター（ブラジル）から、国際回線を用いて、ＩＰＶａｎｄＡのＳＤ画質の映像リソースが、東京の放送センターまで伝送された。なお、ＳＤ画質の映像は、約２．５Ｍｂｐｓのビットレートによるものである。そして、その放送センターにおいて、ＩＰＶａｎｄＡの映像をより低ビットレートの映像にコーディングし直して、インターネット経由での配信が行われた。また、一部の競技の映像に関しては、上記の放送センター内に音声の加工のための音声ブースを構築し、ネット配信独自の解説・実況を付加して配信することが行われた。

島西顕司，遠藤宗，小久保幸紀，折下伸也，坂井駿一，前田彩、「リオデジャネイロオリンピックデジタルコンテンツ制作について」、放送技術、２０１６年１１月、ｐ．１０４−１０６．

しかしながら、ライブ配信済みのコンテンツを基に、より低コストで実現できる構成で、コンテンツを追加したり差し替えたりすることができれば、多様なコンテンツを生成することが可能となる。

本発明は、上記の課題認識に基づいて行なわれたものであり、配信されたコンテンツを、安価な機器構成で手軽に加工することのできる、コンテンツ加工システム、端末装置、およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様によるコンテンツ加工システムは、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、前記追加コンテンツをエンコードするエンコーダー部と、エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、を具備する。

［２］また、本発明の一態様は、上記のコンテンツ加工システムにおいて、前記マニュフェスト生成部は、取得した前記オリジナルセグメントファイルのすべてを含み、且つ前記追加セグメントファイルを含んだ追加型加工コンテンツを再生するための前記加工マニュフェストファイルを生成する、ことを特徴とする。

［３］また、本発明の一態様は、上記のコンテンツ加工システムにおいて、前記マニュフェスト生成部は、取得した前記オリジナルセグメントファイルのうちの一部のみを含み、且つ前記追加セグメントファイルを含んだ差し替え型加工コンテンツを再生するための前記加工マニュフェストファイルを生成する、ことを特徴とする。

［４］また、本発明の一態様は、サーバー装置と端末装置とを含むコンテンツ加工システムであって、端末装置は、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、前記追加コンテンツをエンコードするエンコーダー部と、エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、を具備し、前記サーバー装置は、前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、を具備する、コンテンツ加工システムである。

［５］また、本発明の一態様は、上記のコンテンツ加工システムにおいて、前記オリジナルセグメントファイルは、映像または音声の少なくともいずれかを符号化してなるデータを格納したものであり、前記デコーダー部が出力する映像または音声を解析することによって前記オリジナルセグメントファイルに基づく前記追加コンテンツを自動的に生成するコンテンツ生成部、をさらに具備するものである。

［６］また、本発明の一態様は、上記のコンテンツ加工システムにおいて、前記コンテンツ生成部は、前記デコーダー部が出力する映像または音声の認識処理を行うことによって得られるテキストデータを含んだ前記追加コンテンツを生成するものである。

［７］また、本発明の一態様は、上記のコンテンツ加工システムにおいて、前記マニュフェスト生成部は、外部からの指示に基づき、前記オリジナルセグメントファイルのみを再生するための加工マニュフェストファイルを生成する機能を備え、前記再配信部は、外部からの前記指示に基づき、前記オリジナルセグメントファイルと前記加工マニュフェストファイルとのみを配信する機能を備える、ものである。

［８］また、本発明の一態様は、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、前記追加コンテンツをエンコードするエンコーダー部と、エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、を具備する端末装置である。

［９］また、本発明の一態様は、コンピューターを、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、前記追加コンテンツをエンコードするエンコーダー部と、エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、を具備するコンテンツ加工システムとして機能させるためのプログラムである。

［１０］また、本発明の一態様は、コンピューターを、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、前記追加コンテンツをエンコードするエンコーダー部と、エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、を具備する端末装置として機能させるためのプログラムである。

実施形態によれば、追加するコンテンツのみをエンコードして配信し、オリジナルのコンテンツはオリジナルのセグメントファイルのまま配信することが可能である。これにより、小規模な装置構成で、ストリーミング配信されたコンテンツを加工して再配信することが可能となる。

本発明の実施形態によるコンテンツ加工システム１を含んだ配信システムの概略機能構成を示すブロック図である。同実施形態における端末装置３のより詳細な機能構成を示すブロック図である。同実施形態によるコンテンツ加工システム１による処理のアーキテクチャーを示す概略図である。同実施形態によるコンテンツ加工システム１がコンテンツを追加する加工を行う場合のセグメントファイルの構成を示す概略図である。同実施形態によるコンテンツ加工システム１がコンテンツを差し替える加工を行う場合のセグメントファイルの構成を示す概略図である。同実施形態において、ウェブサーバー装置７から配信され、コンテンツ加工システム１が受信する、オリジナルのマニュフェストファイルの例を示す概略図である。同実施形態によるサーバー装置２のマニュフェスト生成部２２が生成するマニュフェストファイルの例を示す概略図である。同実施形態によるコンテンツ加工システム１が管理のために用いる加工コンテンツ管理情報の構成例を示す概略図である。

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態による配信システムの概略機能構成を示すブロック図である。この図において、符号０は、配信システムである。図示するように、配信システム０は、コンテンツ加工システム１と、エンコーダー装置６と、ウェブサーバー装置７と、受信端末８と、を含んで構成される。ウェブサーバー装置７とコンテンツ加工システム１との間は、インターネット１００によって接続されており、両者間での通信が可能である。また、コンテンツ加工システム１と受信端末８との間も、インターネット１００によって接続されており、両者間での通信が可能である。なお、コンテンツ加工システム１や、エンコーダー装置６や、ウェブサーバー装置７や、受信端末８として、それぞれ専用の装置を用いてもよいし、コンピューターを用いて実現してもよい。

配信システム０は、ウェブサーバー装置７側から、コンテンツ（映像、音声、テキスト等）を、受信端末８に配信するためのものである。
コンテンツ加工システム１は、ウェブサーバー装置７から配信されたコンテンツを受信し、加工し、加工済みのコンテンツを再配信する。ここでコンテンツの加工とは、例えば、コンテンツ（映像、音声、テキスト等）の追加や、一部のコンテンツの差し替えである。
エンコーダー装置６は、映像や音声等のコンテンツを符号化する装置である。
ウェブサーバー装置７は、エンコーダー装置６によって符号化されたコンテンツをＨＴＴＰライブストリーミング形式で配信する。ＨＴＴＰライブストリーミングには、例えば、ＨＬＳ（HTTP Live Streaming）やＭＰＥＧ−ＤＡＳＨ（Dynamic Adaptive Streaming over HTTP）といった技術を用いることができる。ＨＬＳやＭＰＥＧ−ＤＡＳＨ自体は、既存技術である。なお、「ＨＴＴＰ」は、ハイパーテキスト転送プロトコルを意味する。
受信端末８は、コンテンツ加工システム１から配信されるコンテンツを受信し、再生する。

図１に示すように、コンテンツ加工システム１は、サーバー装置２と、端末装置３と、を含んで構成される。サーバー装置２と端末装置３とは、相互に協調しながら動作することによって、ウェブサーバー装置７側から配信されたコンテンツを適宜加工する。なお、サーバー装置２は、複数台のコンピューターで構成されてもよい。また、サーバー装置２は、いわゆるクラウドサーバーであってもよい。また、同図では１台の端末装置３を示しているが、複数の端末装置３がコンテンツ加工システム１に含まれていてもよい。

サーバー装置２は、マニュフェスト取得部２１と、マニュフェスト生成部２２と、セグメント取得部２５と、セグメント選択部２６と、ウェブサーバー部２８と、を含んで構成される。
端末装置３は、デコーダー部４１と、再生部４２と、エンコーダー部４８と、セグメント化部４９と、を含んで構成される。なお、端末装置３のより詳細な構成については、後で図２を参照しながら説明する。
ここに列挙した各機能部は、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。

なお、図１に示す構成では端末装置３がウェブサーバー装置７側から配信されるコンテンツをインターネット１００から直接受信するようにしているが、端末装置３が、サーバー装置２からコンテンツを受け取るようにしてもよい。

ここで、本実施形態でコンテンツ加工システム１が配信するコンテンツの構成について説明する。
コンテンツは、１つまたは複数の素材で構成される。
素材は、映像や、音声や、テキストや、その他である。ここで、素材としてのテキストには、例えば、字幕テキストのように受信側の装置の画面に表示されるテキストもあれば、受信側のプログラムによって処理されるテキストもある。テキストは、例えば、プレーンテキストや、ＸＭＬ形式のデータ等である。
映像や音声は、適宜、符号化されている。
映像や音声やテキストなどといった素材は、適宜、セグメント化されている。セグメントは、コンテンツの素材を所定の時間長で切った断片である。セグメントの長さは、典型的には数秒程度である。コンテンツは、セグメント単位のファイルとして、配信され、必要に応じて保存され、管理される。１セグメント分のファイルを、セグメントファイルと呼ぶ場合がある。コンテンツの各セグメントには、開始時刻（提示開始時刻）および時間長が関連付けられている。開始時刻は、絶対時刻あるいは相対時刻として表現される。なお、開始時刻の代わりに、各セグメントが何らかのタイミング情報に関連付けられていてもよい。このタイミング情報は、例えば、コンテンツを送出する側のシステムにおけるクロック参照情報（「タイムスタンプ」とも呼ばれる）である。このようなタイミング情報は、配信時や再生時における時刻と厳密に一致していなくてもよい。ただし、こう言ったタイミング情報により、連続するセグメント間での相対的な時間関係は把握可能である。以下において、この種のタイミング情報を用いる場合も含めて、セグメントの「開始時刻」と呼ぶ。
なお、セグメントは、フラグメント、チャンク、断片などとも呼ばれる。
コンテンツが複数の素材で構成される場合、それら複数の素材は、各セグメントに関連付けられた開始時刻の情報によって同期する。
コンテンツは、１つまたは複数の素材で構成される。つまり、コンテンツが、１時点で複数の素材を含んでいてもよい。例えば、あるコンテンツが、ある時点において映像の素材と音声の素材とを含んでいてもよい。また、あるコンテンツが、ある時点において複数の音声素材、あるいは複数の映像素材を含んでいてもよい。あるコンテンツは、ある時点において任意の数の素材を含んでいてもよい。

１つのコンテンツにおける複数の素材および複数のセグメントを指標するためのデータがマニュフェストである。マニュフェストのデータは、マニュフェストファイル内に保持される。マニュフェストのデータは、セグメントの開始時刻と、素材の種類と、そのセグメントのコンテンツデータを有するセグメントファイルの所在情報とを関連付けて管理する。ファイルの所在情報とは、ファイル名やＵＲＩ（Uniform Resource Identifier）やそれに類する情報である。つまり、マニュフェストのデータは、いつ（開始時刻）から何秒間（時間長）、どの種類の素材（映像か、音声か、その他か）を、どのファイルから読み込んで提示すべきかを表す。つまり、マニュフェストファイルは、配信されるコンテンツの再生手順に関する情報を含むものである。具体的には、ＨＬＳにおけるマニュフェストファイルは、ｍ３u８ファイルである。また、ＭＰＥＧ−ＤＡＳＨにおけるマニュフェストファイルは、ＭＰＤファイルである。コンテンツの再生装置（あるいは再生プログラム）は、マニュフェストのデータを参照することにより、適切なタイミングで、セグメントファイルを所定の場所から読み取り、提示する。ここで、提示とは、映像を表示装置に表示したり、音声をスピーカー等から出力したりすることである。

つまり、ウェブサーバー装置７は、ＨＬＳやＭＰＥＧ−ＤＡＳＨを用いて、コンテンツを含んだセグメントファイルを配信する。また、ウェブサーバー装置７は、セグメントファイルの再生手順等を記述したマニュフェストファイルを配信する。これら、ウェブサーバー装置７側から送られるファイルを、便宜的に「オリジナル」と呼ぶ。端末装置３側では、後で説明するように、オリジナルのセグメントファイルの時刻情報（開始時刻（「先頭時刻」とも呼ばれる）および時間長（「デュレーション」とも呼ばれる））に同期したセグメントファイルが生成される。生成されるセグメントファイルは、例えば、映像、音声、映像プラス音声、テキスト等のコンテンツを格納したファイルである。端末装置３側で生成されるファイルを、便宜的に「追加」と呼ぶ。

サーバー装置２側では、オリジナルのセグメントファイルに、追加のセグメントファイルを加えて、新たなコンテンツとする。あるいは、サーバー装置２が、オリジナルのセグメントファイルの少なくとも一部を、追加のセグメントファイルで差し替えて、新たなコンテンツとしてもよい。また、サーバー装置２が、追加のセグメントファイルを加え、且つオリジナルのセグメントファイルの少なくとも一部を追加のセグメントファイルで差し替えるようにしてもよい。なお、「差し替え」は、追加のセグメントファイルを加え、且つオリジナルのセグメントファイルの少なくとも一部を削除する（つまり、下流側に流さない）ことと等価である。本実施形態の特徴の一つは、上記のいずれの場合も、コンテンツ加工システム１において生成された新たな追加のコンテンツが、ウェブサーバー装置７側から配信されるオリジナルのコンテンツに加えられる。具体的には、セグメント選択部２６が、セグメント取得部２５によって取得されたセグメントと、端末装置３側から渡されるセグメントの内、受信端末８に向けて再配信するセグメントを選択する。

なお、サーバー装置２においては上記のように、追加のセグメントファイルが加えられる。しかし、例えばエンドユーザー側である受信端末８からの要求に応じて、追加のセグメントファイルを加えない形態を選択できるようにしてもよい。つまり、セグメントファイルの追加あるいは差し替えを行わないことを選択できるようにしてもよい。これを、便宜的に「パススルー」と呼ぶ。
コンテンツをパススルーするよう指示された場合、マニュフェスト生成部２２は、オリジナルセグメントファイルのみを再生するための加工マニュフェストファイルを生成する。また、その場合、ウェブサーバー部２８は、オリジナルセグメントファイルと加工マニュフェストファイルとのみを配信する。

また、サーバー装置２のマニュフェスト生成部２２は、セグメント選択部２６が選択するセグメントファイルに合わせて、マニュフェストファイルを生成する。

これにより、コンテンツ加工システム１は、コンテンツを追加したり差し替えたり、といった加工を行うことができる。また、コンテンツ加工システム１は、オリジナルコンテンツをパススルーして再配信する動作を選択することもできる。これにより、受信端末８側において、加工されたコンテンツを受信し、視聴することができるようになる。コンテンツ加工システム１においてコンテンツを加工しても、受信端末８側ではストリームの切り替え等を意識せずに、動的に映像や音声等のコンテンツの差し替え、追加が可能となる。

次に、サーバー装置２が有する各機能部の機能について説明する。
マニュフェスト取得部２１は、ウェブサーバー装置７から送信されるマニュフェストファイルを取得する。つまり、マニュフェスト取得部２１は、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得する。
マニュフェスト生成部２２は、マニュフェスト取得部２１が取得したマニュフェストファイルに基づき、またセグメント選択部２６が選択するセグメントファイルに基づき、新たなマニュフェストファイルを生成し、ウェブサーバー部２８に渡す。マニュフェスト生成部２２が生成するマニュフェストファイルは、コンテンツ加工システム１が実施する加工内容に対応するものである。つまり、マニュフェスト生成部２２は、オリジナルマニュフェストファイルに基づいて、オリジナルセグメントファイル（オリジナルコンテンツのセグメントファイル）と追加セグメントファイル（追加コンテンツのセグメントファイル）とが同期するように、加工マニュフェストファイル（加工コンテンツのマニュフェストファイル）を生成する。

マニュフェスト生成部２２は、取得したオリジナルセグメントファイルのすべてを含み、且つ追加セグメントファイルを含んだ追加型加工コンテンツを再生するための加工マニュフェストファイルを生成することができる。これは、コンテンツの追加用である。また、マニュフェスト生成部２２は、取得した前記オリジナルセグメントファイルのうちの一部のみを含み、且つ追加セグメントファイルを含んだ差し替え型加工コンテンツを再生するための加工マニュフェストファイルを生成することができる。これは、コンテンツの差し替え用である。

セグメント取得部２５は、ウェブサーバー装置７から送信されるセグメントファイルを取得する。
セグメント選択部２６は、セグメント取得部２５が取得したセグメントファイルと、端末装置３から渡されるセグメントファイルとから、配信対象とするセグメントファイルを選択する。セグメント選択部２６は、配信対象として選択したセグメントファイルをウェブサーバー部２８に渡す。

ウェブサーバー部２８は、セグメント選択部２６から渡されたセグメントファイルと、マニュフェスト生成部２２によって生成されたマニュフェストファイルとを、インターネット１００経由で配信する。つまり、ウェブサーバー部２８は、オリジナルセグメントファイルと、追加セグメントファイルと、加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する。ウェブサーバー部２８は、例えば、ＨＬＳやＭＰＥＧ−ＤＡＳＨといった方法を用いて、コンテンツの再配信を行う。ウェブサーバー部２８は、「再配信部」とも呼ばれる。

端末装置３内の内部の各部については、図２を参照しながら説明するため、ここでは説明を省略する。

図２は、端末装置３のより詳細な機能構成を示すブロック図である。図示するように、端末装置３は、マニュフェスト取得部３１と、マニュフェスト解析部３２と、セグメント取得部３３と、時刻解析部３５と、デコーダー部４１と、再生部４２と、コンテンツ生成部４３と、Ａ／Ｖインターフェース部４４と、ミキサー部４５と、エンコーダー部４８と、セグメント化部４９と、アップロード部５０と、を含んで構成される。

マニュフェスト取得部３１は、ウェブサーバー装置７から送信されるマニュフェストファイルを取得する。つまり、マニュフェスト取得部３１は、ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得する。マニュフェスト取得部３１は、取得したマニュフェストファイルをマニュフェスト解析部３２に渡す。
マニュフェスト解析部３２は、マニュフェスト取得部３１から渡されたマニュフェストファイルを解析する。即ち、マニュフェスト解析部３２は、ウェブサーバー装置７から配信されるコンテンツの構造を解析する。具体的には、マニュフェスト解析部３２は、マニュフェストファイルから、取得すべきセグメントファイルに関して、その所在情報と開始時刻とを抽出する。マニュフェスト解析部３２は、解析結果に基づきセグメントのアクセス情報をセグメント取得部３３に渡す。具体的には、マニュフェスト解析部３２は、取得すべきセグメントファイルの所在情報と開始時刻の情報を、セグメント取得部３３に渡す。さらに、マニュフェスト解析部３２が、セグメントファイルの時間長の情報を抽出してセグメント取得部３３に渡してもよい。また、マニュフェスト解析部３２は、マニュフェストファイルからセグメントファイルの構成の情報と、各セグメントファイルの時刻情報とを抽出する。マニュフェスト解析部３２は、抽出した情報（各セグメントファイルの時刻情報等）をセグメント化部４９に渡す。

セグメント取得部３３は、マニュフェスト解析部３２から、取得すべきセグメントファイルに関する情報を受け取る。そして、セグメント取得部３３は、マニュフェスト解析部３２から受け取った情報に基づいて、ウェブサーバー装置７から送信されるセグメントファイルを取得する。つまり、セグメント取得部３３は、前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得する。セグメント取得部３３は、取得したセグメントファイルをデコーダー部４１に渡す。また、セグメント取得部３３は、取得したセグメントファイルの少なくとも時刻に関する情報を、時刻解析部３５に渡す。

時刻解析部３５は、セグメント取得部３３から、セグメントファイル、またはセグメントファイルの時刻に関する情報を受け取る。そして、時刻解析部３５は、セグメントファイルごとに時刻情報の解析を行う。時刻解析部３５は、セグメントファイルごとに、少なくとも開始時刻および時間長の情報を出力する。つまり、時刻解析部３５は、各セグメントの開始時刻および時間長の情報をセグメント化部４９に渡す。

デコーダー部４１は、セグメント取得部３３が取得したセグメントファイルをデコードする。つまり、デコーダー部４１は、オリジナルセグメントファイルをデコードし、出力する。具体的には、デコーダー部４１は、セグメントファイル内に格納されている映像や音声のデータをデコードする。また、デコーダー部４１は、セグメントファイル内に格納されている他のデータ（テキストデータ等）を抽出する。デコーダー部４１は、デコードした結果のデータを再生部４２、コンテンツ生成部４３、およびＡ／Ｖインターフェース部４４に渡す。

再生部４２は、デコーダー部４１においてデコードされた映像や音声を、指定された時刻情報に基づいて再生する。再生部４２は、映像をディスプレイ装置に表示し、音声をスピーカー等から出力する。また、再生部４２が、デコーダー部４１から渡された映像や音声以外のデータを、定められた方法で適切に処理するようにしてもよい。一例として、再生部４２は、デコーダー部４１から渡されるテキストデータを、指定されたタイミングで、且つ指定された方法で、画面に表示する。このテキストデータは、例えば、タイムドテキスト（timed text）であり、より具体的には、スーパーインポーズや字幕のデータである。また、再生部４２が、デコーダー部４１から渡される画像のデータを画面に表示するようにしてもよい。また、再生部４２が、デコーダー部４１から渡されるテキストデータを読み上げるように合成音声を出力してもよい。また、再生部４２が、デコーダー部４１から渡されるその他のデータを、再生部４２上で稼働するプログラムへの入力として与えてもよい。また、再生部４２が、デコーダー部４１から渡されるプログラムを、再生部４２上で稼働させてもよい。プログラムを実行させる場合、再生部４２は、プログラム実行環境を具備する。プログラム実行環境の一例は、ＪａｖａＳｃｒｉｐｔインタープリターであるが、プログラムの記述言語あるいは形態はこれに限られない。

コンテンツ生成部４３は、デコーダー部４１がデコードした結果のデータに基づく処理を行う。そして、コンテンツ生成部４３は、その処理の結果として、セグメント取得部３３が取得したセグメントファイルとは別のコンテンツ（あるいはコンテンツの素材）を生成する。
例えば、コンテンツ生成部４３は、デコーダー部４１が出力する映像または音声を解析することによってオリジナルセグメントファイルに基づく追加コンテンツを自動的に生成することができる。
また、コンテンツ生成部４３は、前記デコーダー部が出力する映像または音声の認識処理を行うことによって得られるテキストデータを含んだ前記追加コンテンツを生成することができる。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた音声に含まれる発話文章の音声認識を行い、その文章を書き起こしたテキストデータを出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた音声に含まれる発話文章の言語翻訳処理を行い、翻訳後の文章を、テキストとしてあるいは音声として出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた音声に含まれる発話文章に対する応答を、人工知能等を用いて生成し、生成した応答文章を、テキストとしてあるいは音声として出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた音声のフーリエ解析処理を行い、フーリエ解析の結果のデータを出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた映像に基づいて認識処理（画像認識、文字認識等）を行い、認識処理の結果を出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた映像に関する各種の画像処理を行い、画像処理の結果を出力する。
また、コンテンツ生成部４３は、例えば、デコーダー部４１においてデコードされた映像および音声の内容に関する認識処理を行い、映像および音声内に特定のシーンが検出された場合に、効果音あるいは特定の映像・画像を出力する。
また、コンテンツ生成部４３が、上に例示した処理だけでなく、デコーダー部４１から渡されるコンテンツに基づいて様々な処理を行い、新たなコンテンツを生成するようにしてもよい。
なお、上で例示したコンテンツ生成部４３による処理に含まれる、音声認識処理、言語翻訳処理、人工知能による応答処理、フーリエ変換処理、認識処理、画像処理等の処理自体は、既存技術により実現可能なものである。

Ａ／Ｖインターフェース部４４は、デコーダー部４１によってデコードされたコンテンツ素材を受け取る。また、Ａ／Ｖインターフェース部４４は、デコーダー部４１から渡されたコンテンツ素材をミキサー部４５に渡す。また、Ａ／Ｖインターフェース部４４は、ミキサー部４５から新たなコンテンツ素材を受け取り、エンコーダー部４８に渡す。つまり、Ａ／Ｖインターフェース部４４は、デコードされたオリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得する。なお、Ａ／Ｖインターフェース部４４が、デコーダー部４１から渡されたコンテンツ素材の少なくとも一部を、エンコーダー部４８に渡すようにしてもよい。
なお、Ａ／Ｖインターフェース部４４は、単に「インターフェース部」とも呼ばれる。

ミキサー部４５は、Ａ／Ｖインターフェース部４４から渡されたコンテンツと、外部から入力されるコンテンツとを、適宜混合して、出力する。ミキサー部４５が出力するコンテンツは、Ａ／Ｖインターフェース部４４を経由して、エンコーダー部４８に渡される。ミキサー部４５が混合する処理は、例えば、音声と音声の混合、映像と映像の混合などである。映像コンテンツ素材が内部に音声を含む場合、ミキサー部４５が、映像と音声とを混合する処理を行ってもよい。ミキサー部４５が混合する場合の混合比は、任意に設定可能である。また、ミキサー部４５は、コンテンツ生成部４３から渡されるコンテンツや、外部から入力される映像または音声等を、単独で、Ａ／Ｖインターフェース部４４側に渡してもよい。

つまり、デコーダー部４１がオリジナルコンテンツをデコードし、再生部４２がオリジナルコンテンツを再生するタイミングに合わせて、ミキサー部４５は新たなコンテンツを取得する。あるいは、デコーダー部４１がオリジナルコンテンツをデコードし、コンテンツ生成部４３がオリジナルコンテンツを処理（解析処理等）するタイミングに合わせて、ミキサー部４５は新たなコンテンツを取得する。
なお、新たなコンテンツは、追加用のコンテンツや、差し替え用のコンテンツである。

エンコーダー部４８は、Ａ／Ｖインターフェース部４４から渡されるコンテンツ素材をエンコードし、セグメント化部４９に渡す。つまり、エンコーダー部４８は、追加コンテンツをエンコードする。つまり、エンコーダー部４８は、端末装置３側で追加されたコンテンツ（映像や、音声や、映像プラス音声など）を、再度エンコードして出力する。なお、エンコーダー部４８がエンコード処理する際のパラメーターは、ウェブサーバー装置７側から配信されたオリジナルの映像／音声にしたがって動的に設定される。

セグメント化部４９は、セグメント取得部３３が取得したセグメントファイルに同期するように、ミキサー部４５で入力された新たなコンテンツをセグメント化する。つまり、オリジナルコンテンツと新たに追加されたコンテンツは、同期する。具体的には、セグメント化部４９は、時刻解析部３５から渡される時刻情報にしたがって、エンコーダー部４８からの出力を適切に区切り、セグメント化する。つまり、セグメント化部４９は、エンコードされた追加コンテンツを、オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成する。そして、セグメント化部４９は、生成したセグメントファイルをアップロード部５０に渡す。
アップロード部５０は、セグメント化部４９から渡されたセグメントファイルを、サーバー装置２にアップロードする。

上記の処理により、セグメント化部４９は、オリジナルセグメントファイルと追加セグメントファイルとの間で、セグメントの開始時刻およびセグメント時間長を同一にする。そのため、セグメント化部４９は、時刻解析部３５が最初に受信したオリジナルセグメントファイルの先頭タイムスタンプの情報を取得する。そして、セグメント化部４９は、時刻解析部３５から取得したセグメントの開始時刻を起点として、予め定められたセグメント時間長に基づいて、最初のセグメントおよび以後のセグメントの開始時刻を算出する。セグメント化部４９は、そのように算出された各セグメントの開始時刻を用いて、生成する追加セグメントファイルのタイムススタンプの情報を決定する。これにより、サーバー装置２側では、コンテンツの統合を容易に行うことができる。

上記のように、端末装置３では、再生部４２が再生したコンテンツ（オリジナルのコンテンツ）と、付加するコンテンツ（映像または音声等）をミキサー部４５でミックスする。これにより、オリジナルコンテンツとミックスしたコンテンツとの間で、映像／音声の同期ずれはほぼ生じない。
例えば、端末装置３が映像および音声を含むオリジナルコンテンツを取得し、そのコンテンツに追加の音声コンテンツを付加する場合、次の３つのコンテンツがサーバー装置２から再配信されることとなる。即ち、オリジナルコンテンツに含まれる音声であるオリジナル音声と、端末側で付加する音声である付加音声と、オリジナルコンテンツに含まれるオリジナル映像の３つのコンテンツである。これらの３つのコンテンツ相互間で、同期ずれは生じない。よって、例えば、上記のオリジナル映像とオリジナル音声とを再生する場合にも、上記のオリジナル映像と付加音声とを再生する場合にも、映像と音声との間で同期ずれは生じない。

図３は、コンテンツ加工システム１による処理のアーキテクチャーを示す概略図である。図３に示すクラウド処理２０２は、図１におけるサーバー装置２による処理に対応する。つまり、図３に示すアーキテクチャーは、図１におけるサーバー装置２として、いわゆるクラウドサーバーを利用する場合のものである。また、図３に示す端末処理２０３は、図１における端末装置３による処理に対応する。また、ストリーム２００は、ウェブサーバー装置７側から配信されるオリジナルのストリームである。

クラウド処理２０２は、コンテンツの追加の処理とコンテンツの差し替えの処理を含む。追加用および差し替え用のコンテンツは、端末処理２０３側で生成されるものである。端末処理２０３は、ストリーム２００を参照するとともに、そのストリーム２００に基づき、追加用または差し替え用のコンテンツの素材を生成し、クラウド処理２０２側に提供する。制御２０１は、どの素材を追加するか、また、どの素材をどの素材で差し替えるかといったことを制御する。つまり、制御２０１は、素材のセグメントファイルを取捨選択するとともに、選択されたセグメントに合うマニュフェストファイルを生成するための制御を行う。また、追加用のセグメントファイルや、差し替え用のセグメントファイルは、オリジナルのセグメントファイルとの間で同期するように制御される。つまり、追加用のコンテンツ素材や、差し替え用のコンテンツ素材は、オリジナルのセグメントファイルと整合するようにセグメント化される。そして、追加用のセグメントファイルや差し替え用のセグメントファイルには、オリジナルのセグメントファイルと同期する時刻情報（開始時刻、時間長）が付与される。マニュフェストファイルには、同期を考慮して付与された時刻情報が書き込まれる。つまり、受信側では、マニュフェストファイルを参照することにより、オリジナルのコンテンツと、追加ないしは差し替えのコンテンツとが同期して再生される。

選択２１０は、クラウド処理２０２から出力されるどのようなストリームを受信側で視聴するかを選択する処理である。
ストリーム２１１は、コンテンツ追加のストリームである。即ち、ストリーム２１１は、オリジナルのストリーム２００に含まれるコンテンツを維持したまま、さらに端末処理２０３において生成された追加のコンテンツを含んだストリームである。
ストリーム２１２は、コンテンツ差し替えのストリームである。即ち、ストリーム２１２は、オリジナルのストリーム２００に含まれるコンテンツのうちの少なくとも一部を、端末処理２０３において生成された追加のコンテンツで置き換えたストリームである。
ストリーム２１３は、パススルーのストリームである。即ち、ストリーム２１３は、オリジナルのストリーム２００にコンテンツを追加したり、ストリーム２００のコンテンツを差し替えたりすることなく、ストリーム２００をそのまま再配信する。

次に、コンテンツを追加したり差し替えたりした場合におけるセグメントファイルの具体例について説明する。

図４は、コンテンツ加工システム１がコンテンツを追加する場合のセグメントファイルの構成を示す概略図である。同図において、横方向が時間軸である。また、同図には、時刻ｔ１，ｔ２，・・・，ｔ７のそれぞれを開始時刻とするセグメントファイルが含まれている。なお、時刻ｔ８以後については記載を省略している。図示するＣ１１，Ｃ１２，・・・，Ｃ１７は、当該コンテンツに含まれる特定の素材（例えば、映像あるいは音声など）のセグメントファイルの系列である。また、Ｃ２１，Ｃ２２，・・・，Ｃ２７は、当該コンテンツに含まれる他の素材（例えば、映像あるいは音声など）のセグメントファイルの系列である。これらの２つの系列、即ち、Ｃ１１，Ｃ１２，・・・，Ｃ１７の系列と、Ｃ２１，Ｃ２２，・・・，Ｃ２７の系列とは、オリジナルのコンテンツに含まれるものである。つまり、これらの２つの系列に属するセグメントファイルを、実線の四角形で示している。一方、時刻ｔ５を開始時刻とするＣ３５と、それに後続するＣ３６，Ｃ３７は、コンテンツ加工システム１によって追加されたコンテンツである。つまり、Ｃ３５，Ｃ３６，Ｃ３７は、オリジナルのコンテンツには含まれていない。これら、コンテンツ加工システム１によって追加されたコンテンツのセグメントファイルを、破線の四角形で示している。図示するように、追加されたコンテンツのセグメントファイルＣ３５，Ｃ３６，Ｃ３７は、それぞれ、オリジナルコンテンツに含まれるセグメントファイルＣ１５，Ｃ１６，Ｃ１７およびＣ２５，Ｃ２６，Ｃ２７と同期している。つまり、追加されたコンテンツは、オリジナルコンテンツのセグメントファイルと同期するように分割され、時刻情報の付与が行われる。

図４で示したように、追加されるコンテンツ（セグメントファイルＣ３５，Ｃ３６，Ｃ３７）の系列は、オリジナルコンテンツのセグメントファイルと同期するようにセグメント化される。つまり、セグメントファイルＣ３５の開始時刻は、セグメントファイルＣ１５およびＣ２５の開始時刻と同じである。また、セグメントファイルＣ３５の時間長が、セグメントファイルＣ１５およびＣ２５の時間長と同一になるようにしてもよい。以後のセグメントファイルに関しても同様である。また、マニュフェストファイル（プレイリストファイル）においては、各セグメントファイルが同期するように時刻情報が記述される。セグメント化部４９およびマニュフェスト生成部２２は、上記の通り系列間でセグメントファイルが同期するように、出力するファイルの時刻情報を制御する。

図５は、コンテンツ加工システム１がコンテンツの差し替えを行う場合のセグメントファイルの構成を示す概略図である。この図においても、横方向が時間軸である。また、図４の場合と同様に、図示するセグメントファイルＣ１１，Ｃ１２，・・・，Ｃ１７は、コンテンツに含まれる特定の素材に属する。そして、本図の場合、セグメントファイルＣ２１，Ｃ２２，・・・，Ｃ２７の系列は、途中から、別のコンテンツのセグメントファイルＣ４５，Ｃ４６，Ｃ４７に差し替えられている。

図５で示したように、差し替えられるコンテンツ（セグメントファイルＣ４５，Ｃ４６，Ｃ４７）の系列は、オリジナルコンテンツのセグメントファイルと同期するようにセグメント化される。つまり、セグメントファイルＣ４５の開始時刻は、セグメントファイルＣ１５の開始時刻と同じである。また、セグメントファイルＣ４５の時間長が、セグメントファイルＣ１５の時間長と同一になるようにしてもよい。以後のセグメントファイルに関しても同様である。また、マニュフェストファイル（プレイリストファイル）においては、各セグメントファイルが同期するように時刻情報が記述される。セグメント化部４９およびマニュフェスト生成部２２は、上記の通り系列間でセグメントファイルが同期するように、出力するファイルの時刻情報を制御する。

次に、マニュフェストファイルの例について説明する。既に述べたように、コンテンツ加工システム１は、ウェブサーバー装置７側から受信したオリジナルコンテンツを加工し、加工コンテンツとして再配信する。このとき、コンテンツ加工システム１は、オリジナルコンテンツのマニュフェストファイルを受信する。また、コンテンツ加工システム１内のマニュフェスト生成部２２は、再配信する加工コンテンツのためのマニュフェストファイルを生成する。図６および図７は、それぞれ、オリジナルコンテンツのマニュフェストファイルと、加工コンテンツのマニュフェストファイルを示す。なお、図６および図７に示すマニュフェストファイルは、「マスタープレイリスト」とも呼ばれる。マスタープレイリストファイル内に定義されるプレイリストファイルが、実際に再生すべきセグメントファイルの情報を含む。

図６は、ウェブサーバー装置７から配信され、コンテンツ加工システム１が受信する、オリジナルのマニュフェストファイルの例を示す概略図である。図示するマニュフェストファイルは、Ｍ３Ｕ８ファイル（Ｍ３Ｕファイル）である。なお、同図では、ファイルの各行に参照のための行番号を付している。オリジナルのマニュフェストファイルの内容は、次の通りである。
第１行目の「＃ＥＸＴＭ３Ｕ」は、ファイルのヘッダーであり、このファイルが拡張Ｍ３Ｕファイルであることを表している。
第２行目の「＃ＥＸＴ−Ｘ−ＶＥＲＳＩＯＮ：３」は、マニュフェストファイルのバージョン番号が「３」であることを表している。
第３行目の「＃ＥＸＴ−Ｘ−ＩＮＤＥＰＥＮＤＥＮＴ−ＳＥＧＭＥＮＴＳ」は、当該マスタープレイリストから参照されるすべてのプレイリスト内のあるセグメント内のコンテンツが、他のセグメントの情報から独立であることを表すタグである。つまり、あるセグメント内のコンテンツは、他のセグメントの情報なしに復号可能である。
第４行目から第１７行目までは、７本のストリームを定義している情報である。第４行目と第５行目とのペアが、第１のストリームを定義する。第６行目と第７行目とのペアが、第２のストリームを定義する。第８行目と第９行目とのペアが、第３のストリームを定義する。第１０行目と第１１行目とのペアが、第４のストリームを定義する。第１２行目と第１３行目とのペアが、第５のストリームを定義する。第１４行目と第１５行目とのペアが、第６のストリームを定義する。第１６行目と第１７行目とのペアが、第７のストリームを定義する。各ストリームの情報は、「＃ＥＸＴ−Ｘ−ＳＴＲＥＡＭ−ＩＮＦ」タグと、プレイリストファイルのファイル名（ｍ３ｕ８ファイル名）の情報とで構成される。「＃ＥＸＴ−Ｘ−ＳＴＲＥＡＭ−ＩＮＦ」タグは、「ＢＡＮＤＷＩＤＴＨ」と、「ＡＶＥＲＡＧＥ−ＢＡＮＤＷＩＤＴＨ」と、「ＣＯＤＥＣＳ」と、「ＲＥＳＯＬＵＴＩＯＮ」と、「ＦＲＡＭＥ−ＲＡＴＥ」と、「ＣＬＯＳＥＤ−ＣＡＰＴＩＯＮ」の各パラメーターを有している。「ＢＡＮＤＷＩＤＴＨ」は、帯域幅を表す。「ＡＶＥＲＡＧＥ−ＢＡＮＤＷＩＤＴＨ」は、平均帯域幅を表す。「ＣＯＤＥＣＳ」は、符号化および復号の情報を表す。「ＲＥＳＯＬＵＴＩＯＮ」は、映像の解像度を表す。「ＦＲＡＭＥ−ＲＡＴＥ」は、フレームレート（単位時間当たりフレーム数）を表す。「ＣＬＯＳＥＤ−ＣＡＰＴＩＯＮ」は、クローズドキャプションの有無を表す。
各ストリームのｍ３ｕ８ファイルは、例えば第５行目の「ｔｅｓｔ２＿２７０．ｍ３ｕ８」のように、相対的な位置の情報としてマニュフェストファイルに記述される。

図７は、サーバー装置２のマニュフェスト生成部２２が生成するマニュフェストファイルの例を示す概略図である。マニュフェスト生成部２２は、サーバー装置２が受信した図６のマニュフェストファイルに基づいて、この図７のマニュフェストファイルを生成する。図示するマニュフェストファイルは、Ｍ３Ｕ８ファイル（Ｍ３Ｕファイル）である。なお、同図では、ファイルの各行に参照のための行番号を付している。コンテンツ加工システム１によって生成される加工コンテンツのマニュフェストファイルの内容は、次の通りである。
第１行目の「＃ＥＸＴＭ３Ｕ」（ヘッダー）と、第２行目の「＃ＥＸＴ−Ｘ−ＶＥＲＳＩＯＮ：３」（バージョン情報）とは、図６において説明したものと同様である。

第３行目および第４行目は、マニュフェスト生成部２２が付加した情報であり、音声（オーディオ）のｍ３ｕ８ファイルを規定するものである。第３行目および第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグは、相互に代替可能な２つのメディアを関連付ける。第３行目および第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグは、「ＴＹＰＥ＝ＡＵＤＩＯ」（種別が、音声）、「ＧＲＯＵＰ−ＩＤ＝”ａｕｄｉｏ”」（「ａｕｄｉｏ」というグループＩＤを有する）という共通の記述を持つ。
しかし、第３行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグが「ＮＡＭＥ＝ｍｉｘｅｄ」（混合音声）という記述を持つのに対して、第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグは「ＮＡＭＥ＝ｏｒｉｇｉｎａｌ」（オリジナル音声）という記述を持つ。このように、第３行目と第４行目とでは、音声メディアの名称が異なる。また、第３行目が「ＤＥＦＡＵＬＴ＝ＹＥＳ」（デフォルト音声である）という記述を持つのに対して、第４行目は「ＤＥＦＡＵＬＴ＝ＮＯ」（デフォルト音声ではない）という記述を持つ。また、第３行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグが指定するプレイリストファイルのＵＲＬは「ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。一方、第４行目の「＃ＥＸＴ−Ｘ−ＭＥＤＩＡ」タグが指定するプレイリストファイルのＵＲＬは「ｏｒｉｇｉｎａｌ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８」である。

上記のように、サーバー装置２側のマニュフェスト生成部２２は、端末装置３が生成した追加用あるいは差し替え用のコンテンツ（セグメントファイルの系列）に応じて、マニュフェストファイルを生成する。具体的には、マニュフェスト生成部２２が生成したマニュフェストファイルでは、第３行目と第４行目において、代替可能な２種類の音声コンテンツを記述する。また、それらは、互いに異なる名称を持ち、異なるプレイリストのＵＲＬを指定する。また、第３行目で指定される音声がデフォルトである（即ち、暗黙に選択される）のに対して、第４行目で指定される音声はデフォルトではない。

さらに、図７に示すように、マニュフェスト生成部２２は、第３行目および第４行目で定義される音声コンテンツのグループＩＤ（ＧＲＯＵＰ−ＩＤ＝”ａｕｄｉｏ”）を、第６行目から第１９行目までが参照するように書き換える。つまり、図７の第６行目から第１９行目までは、図６の第４行目から第１７行目までに対応する記述である。図７のマニュフェストファイルに記述された７本のストリームに関して、マニュフェスト生成部２２は、「＃ＥＸＴ−Ｘ−ＳＴＲＥＡＭ−ＩＮＦ」タグに、「ＡＵＤＩＯ＝”ａｕｄｉｏ”」というパラメーター指定を追記している。この小文字で記載された「ａｕｄｉｏ」が、第３行目および第４行目で定義されたグループＩＤである。つまり、図７に記述された７本のストリームは、図６のファイルから引き継いだものであるが、マニュフェスト生成部２２は、これらのストリームのそれぞれに「ａｕｄｉｏ」というグループを関連付けている。

マニュフェスト生成部２２が生成するこのマニュフェストファイルにより、受信端末８側では、オリジナル音声（プレイリストのＵＲＬが、ｏｒｉｇｉｎａｌ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８）だけではなく、加工された混合音声（プレイリストのＵＲＬが、ｍｉｘｅｄ／ｐｌａｙｌｉｓｔ．ｍ３ｕ８）を再生することができる。
なお、混合音声（ｍｉｘｅｄ）は、例えば、スポーツイベントの中継映像において、オリジナルの配信元からの音声（例えば、イベント会場音声）と、コンテンツ加工システム１で入力される音声（例えば、日本語解説等）とをミックスしたものである。

図８は、コンテンツ加工システム１が管理のために用いる加工コンテンツ管理情報の構成例を示す概略図である。端末装置３の制御部（不図示）がコンテンツを加工する際に、図８に示す加工コンテンツ管理情報を生成し、サーバー装置２に渡す。サーバー装置２の制御部（不図示）は、端末装置３からこの加工コンテンツ管理情報を受け取り、蓄積する。１つのオリジナルコンテンツに対して、１つの端末装置３が、１つまたは複数の加工コンテンツを生成し、そのセグメントファイルをサーバー装置２に渡す。その際、端末装置３は、加工コンテンツごとに、図８の加工コンテンツ管理情報を生成する。また、１つのオリジナルコンテンツに対して、複数の端末装置３が、それぞれ加工コンテンツを生成し、そのセグメントファイルをサーバー装置２に渡すようにしてもよい。その際、加工コンテンツを生成する各々の端末装置３が、加工コンテンツごとに、図８の加工コンテンツ管理情報を生成する。

図示するように、加工コンテンツ管理情報は、オリジナルコンテンツＩＤと、加工コンテンツＩＤと、被置換系列リストと、追加系列リストと、加工者ＩＤとを含む（同図（Ａ））。ここで、「ＩＤ」は、識別情報（identifier）を意味する。

オリジナルコンテンツＩＤは、加工対象であるオリジナルのコンテンツをユニークに識別するための情報である。図示する例では、オリジナルコンテンツＩＤとして８桁の数値を用いているがデータの形式に特に制約はない。
加工コンテンツＩＤは、コンテンツ加工システム１において生成した加工コンテンツをユニークに識別するための情報である。図示する例では、加工コンテンツＩＤとして、オリジナルコンテンツＩＤと枝番（４ケタの数値）とを用いているが、データの形式に特に制約はない。なお、加工コンテンツＩＤは、端末装置３側で付与するようにしてもよいし、サーバー装置２側で付与するようにしてもよい。
被置換系列リストは、オリジナルコンテンツには存在していたがこの加工コンテンツで置換されたセグメントファイルの系列の情報である。被置換系列リストに含まれる系列数は任意である。図示する例では、被置換系列リスト（同図（Ｂ））は、２個の系列を有している。これは、オリジナルコンテンツが含む複数の系列のうちの２個の系列が被置換系列であることを表す。被置換系列リストは、表形式のデータであり、系列ＩＤと、系列種別と、開始時刻と、終了時刻の各項目を有している。系列ＩＤは、セグメントフィルの系列をユニークに識別するための情報である。系列種別は、系列の種別（例えば、映像、音声、映像プラス音声、字幕等）を表す情報である。開始時刻は、当該被置換系列の置換が開始される時刻を、年月日、時分秒、および秒未満の通し番号の形式で表した情報である。終了時刻は、当該被置換系列の置換が終了される時刻を、開始時刻と同様の形式で表した情報である。
追加系列リストは、オリジナルコンテンツには存在せずこの加工コンテンツで追加されたセグメントファイルの系列の情報である。追加系列リストに含まれる系列数は任意である。図示する例では、追加系列リスト（同図（Ｃ））は、２個の系列を有している。これは、当該加工コンテンツにおいて２個の系列が追加されることを表す。追加系列リストは、表形式のデータであり、被置換系列リストと同様に、系列ＩＤと、系列種別と、開始時刻と、終了時刻の各項目を有している。開始時刻は、当該追加系列の追加が開始される時刻を表す。終了時刻は、当該追加系列の追加が終了する時刻を表す。
加工者ＩＤは、当該加工コンテンツを生成する者（ユーザーや事業者等）をユニークに識別するための情報である。

なお、上記の追加系列リストに含まれる系列は、被置換系列を置換するものである場合と、オリジナルコンテンツに単純に追加されるものである場合とがある。

なお、上述した実施形態におけるサーバー装置２や端末装置３の機能の少なくとも一部を、コンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

次に、コンテンツ加工システム１を用いて実現できるサービスの例について説明する。

第１サービス例：動画同期共有アプリ
例えば、スポーツ競技の映像および音声が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。当該スポーツ競技をスタジアム等で観戦しているユーザーが、端末装置３（例えば、スマートフォン等）においてコンテンツ加工用のアプリケーションプログラム（以下において「アプリ」と呼ぶ場合あり）を立ち上げる。ユーザーの操作により、当該スタジアム内で、端末装置３は動画を撮影し、追加コンテンツとしてサーバー装置２にアップロードすることができる。また、ユーザーの入力操作等により、端末装置３はコメントテキストをサーバー装置２にアップロードすることができる。それら追加のコンテンツを含んだ加工コンテンツが、コンテンツ加工システム１から配信される。その加工コンテンツを、他のユーザーの端末装置３が受信し、さらに別のコンテンツ（映像、音声、テキスト等）を追加することができる。このようなコンテンツの追加は、多段階的に行ってもよい。また、その加工コンテンツを、コンテンツ配信事業者等が加工・編集して配信することができる。つまり、オリジナルコンテンツに、多数のユーザーがコンテンツを付加して多元的にコンテンツを楽しむことが可能となる。

第２サービス例：聖火リレー動画配信サービス
例えば、スポーツイベントに関連して、聖火リレーの模様、および関連する映像および音声が、スポーツ競技の映像および音声が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。例えば、聖火リレーで運ばれる聖火トーチに、３６０度撮影可能な小型のカメラを取り付ける。また、その聖火トーチに、小型の端末装置３を取り付ける。聖火トーチに取り付けられた端末装置３は、聖火視点の３６０度動画を、追加コンテンツとしてサーバー装置２にアップロードする。また、聖火リレーを沿道で応援する一般ユーザーは、端末装置３（例えば、スマートフォン等）でリレーの模様を撮影し、追加コンテンツとしてサーバー装置２にアップロードする。サーバー装置は、追加コンテンツを含んだ映像コンテンツを、ウェブサーバー部２８から再配信する。
これにより、聖火視点の映像や一般ユーザーが撮影した映像を用いたコンテンツを楽しむことが可能となる。沿道で聖火リレーを応援する誰もが、コンテンツの制作者として参加することができる。

第３サービス例：ＶＲ映像の生成および配信
例えば、映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。その映像撮影現場に近い場所にいる単数または複数のユーザーは、端末装置３（例えば、スマートフォン等）を用いて、オリジナル映像に映るオブジェクトを、それぞれ別の角度から、撮影する。各ユーザーの端末装置３は、各視点から映した映像を、追加コンテンツとして、サーバー装置２にアップロードする。例えば、同一のオブジェクトを３台以上の端末装置３で、それぞれ異なる角度から撮影する。それらの複数の視点から同一のオブジェクトを映した映像を、ＶＲ（バーチャルリアリティ）映像として、ウェブサーバー部２８から再配信することができる。

第４サービス例：顔認識機能に関連したメタデータ付与
例えば、スポーツ競技の映像および音声が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。視聴者であるユーザーは、端末装置３（例えば、スマートフォン等）において、お気に入りの選手を予め登録しておく。端末装置３は、登録されたお気に入り選手の顔画像や、あるいは顔画像の特徴量のデータを予め保存しておく。端末装置３は、顔認識機能を実行させることにより、オリジナルコンテンツの映像において、お気に入り選手が登場したシーンを検出する。端末装置３は、お気に入り選手が登場したシーンが検出されると、例えば、ユーザーに対する通知を行ったり、タイムライン上にチャプターマークを付与したり、当該選手が登場する場面のみをつなぎあわせた自動編集ハイライト動画を生成し表示したりする。これにより、特定の野球選手の打席の場面や、特定のゴルフ選手のショットの場面や、特定のサッカー選手がプレイする場面などを、映像で楽しむことができる。
端末装置３は、そのようなコンテンツに、さらに情報を付加することができる。例えば、端末装置３は、ユーザーの操作により、自動的な顔認識では検出できなかったお気に入り選手の登場シーンを追加（補正）することができる。端末装置３は、この追加情報（メタデータ）を、例えばテキストコンテンツとして追加する。また、端末装置３は、ユーザーの操作により、顔認識によって抽出されたシーンのそれぞれにシーン名称を付与することができる。端末装置３は、この追加情報（シーン名称を表すテキスト）を、コンテンツとして追加する。また、端末装置３は、顔認識によって抽出されたシーンのそれぞれに「いいね」属性を付加することができる。端末装置３は、この追加情報（「いいね」を表すメタデータ）を、例えばテキストコンテンツとして追加する。このように、端末装置３は、メタデータの修飾機能を有する。コンテンツ加工システム１は、これらのメタデータを端末装置３から収集し、メタデータを付加した加工コンテンツを再配信することができる。また、オリジナルコンテンツの制作者は、収集されたメタデータをリアルタイムに取込み、オリジナルコンテンツに反映させることも可能となる。

第５サービス例：シフト同期映像生成
例えば、スピードスケートや、スキーや、陸上競技や、水泳などでは、タイムが競われるが、競技者がスタートするタイミングがまちまちである場合がある。ウェブサーバー装置７は、その時にスタートする競技者の映像を、オリジナルコンテンツとして配信する。一方、端末装置３は、既にスタートした競技者の映像を予め受信し、録画保存している。そして、端末装置３は、現時点でウェブサーバー装置７から配信されている競技映像に同期させて、自らが録画保存している映像を追加する。このとき、複数の競技者のスタートのタイミングが同期するよう制御する。サーバー装置２は、ウェブサーバー装置７から配信されている映像（リアルタイム映像）と、端末装置３によって追加された映像（タイムシフトの録画映像）とを同時に配信することができる。これにより、受信端末８側では、スタートのタイミングが異なる競技者同士を、時間的に重ねあわせて視聴することが可能となる。

第６サービス例：路上および公共スペース見守りアプリ
例えば、映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。一方、道路上（例えば、通学路）や公園などの公共スペースなどの複数の箇所に、予め端末装置３を設置しておく。各端末装置３は、ウェブサーバー装置７からオリジナルコンテンツを受信するとともに、設置された場所（道路や公園等）の映像を撮影して、追加コンテンツとしてその映像をサーバー装置２に提供する。サーバー装置２のウェブサーバー部２８は、端末装置３から提供された映像も追加コンテンツとして含めて再配信する。受信端末８側では、複数の端末装置３からの映像を同期させて、同時に視聴することが可能となる。

第７サービス例：記念写真等自動生成
オリジナルコンテンツがウェブサーバー装置７から配信される。例えば観光地等に複数の端末装置３が設置される。各端末装置３は、設置された場所を撮影し、高画質映像（または画像）を追加コンテンツとしてサーバー装置２に提供する。サーバー装置２は、追加コンテンツを含んだコンテンツを配信する。さらに、端末装置３は、特定の場所（観光地等）および時刻を鍵として、映像（または画像）を検索する。サーバー装置２は、検索された映像（または画像）を配信する。ここで、例えば、オンデマンド配信の仕組みを用いてもよい。端末装置３は、配信された映像（または画像）と、自らが有する撮影手段で撮影した映像（または画像）とを合成して、記念映像（または記念写真）を作成することができる。端末装置３は、合成処理によって得られた映像（または画像）を、さらなる追加コンテンツとして、サーバー装置２に提供する。サーバー装置２は、さらに、追加されたコンテンツを含む加工コンテンツを配信する。

第８サービス例：リプレイスロー挿入
例えば、スポーツ競技の映像等が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３のコンテンツ生成部４３は、受信した映像のフレームを間引くことによって、簡易スロー映像を生成する。端末装置３は、生成したスロー映像をライブストリーム中に挿入して、サーバー装置２に提供する。サーバー装置２は、スロー映像の挿入された映像を、再配信する。
さらに、端末装置３は、再配信された映像（スロー映像入り）を受信し、ユーザーの入力操作等により、ライブコメントのテキストを生成する。端末装置３は、このライブコメントのテキストコンテンツをサーバー装置２に提供する。サーバー装置２は、渡されたテキストコンテンツを追加した加工コンテンツを、再配信する。

第９サービス例：仮想カメラスイッチング
例えば、スポーツ中継や、音楽ライブの中継や、舞台（演劇等）の中継の映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。オリジナルコンテンツとして配信される映像は、例えば８Ｋ（横７６８０画素×縦４３２０画素）といった高解像で撮影された映像である。また、オリジナルコンテンツとして配信される映像は、典型的には、固定カメラおよび広角レンズを用いて撮影された映像である。端末装置３は、オリジナルコンテンツの一部の領域をクロッピングすることによって得られる映像ストリームを生成する。つまり、クロッピング映像は、オリジナルの映像よりも画素数が少ない。また、端末装置３が、複数のクロッピング映像間での切り替え（スイッチング）を行うようにしてもよい。つまり、仮想カメラスイッチングを実現する。このクロッピングおよびスイッチングによる映像ストリームの生成を、端末装置３内のコンテンツ生成部４３が行う。サーバー装置２は、端末装置３によって生成された映像を、再配信する。
なお、コンテンツ生成部４３が、自動的にクロッピングする領域を選択したり、自動的にカメラの仮想スイッチングを行ったりするようにしてもよい。自動的なクロッピングや、自動的な仮想スイッチングを行うためには、例えば、ＡＩ（人工知能）の技術を利用する。具体的には、予め、クロッピングやスイッチングの結果得られる映像に評価値を付与することにより、学習処理を行っておく。そして、学習済みのＡＩによって、クロッピングや仮想スイッチングを行うようにする。
さらに、再配信されたクロッピング映像を端末装置３が受信してもよい。そして、例えばユーザーの操作等により、ライブコメントのテキストデータを端末装置３が取得する。端末装置３は、取得したテキストのデータを追加コンテンツとして、サーバー装置２に提供する。サーバー装置２は、端末装置３から提供されたライブコメントのテキストデータも、コンテンツとして再配信する。

第１０サービス例：仮想スイッチングによるクリップ映像の挿入
例えば、記者会見や、ニュースの現場からの中継や、スポーツ中継の映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３は、上記のオリジナルコンテンツを再生しながら、ユーザーの操作等に基づき予め記憶しておいたクリップ映像を差し替え画像として挿入し、新たな映像コンテンツを生成する。このとき、例えば、オリジナルコンテンツに含まれる音声の差し替えは行わず、その音声をそのまま再送信（パススルー）する。挿入するクリップ映像は、例えば、当該記者会見やニュースやスポーツ中継に関連するＶＴＲ映像である。端末装置３は、生成された新たなコンテンツをサーバー装置２に提供する。サーバー装置２は、差し替え映像を伴う新たな映像コンテンツを、再配信する。
これにより、現場（記者会見、ニュース中継、スポーツ中継等）では、カメラ映像のライブ配信を行うだけで済む。つまり、現場で必要とする機材は、カメラと、小型ライブ配信用のエンコーダー装置のみである。そして、端末装置３側で必要な映像クリップを挿入する操作を行うことができる。コンテンツ加工システム１側では、映像のライブストリーミングをデコードしたり再エンコードしたりすることなく、映像の差し替え装入が可能となる。
さらに、再配信された映像（クリップ映像が差し替えとして挿入された映像）を端末装置３が受信してもよい。そして、例えばユーザーの操作等により、ライブコメントのテキストデータを端末装置３が取得する。端末装置３は、取得したテキストのデータを追加コンテンツとして、サーバー装置２に提供する。サーバー装置２は、端末装置３から提供されたライブコメントのテキストデータも、コンテンツとして再配信する。

第１１サービス例：ライブ配信コメンタリー付加アプリ
例えば、スポーツ中継の映像および音声が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３（例えば、スマートフォン）は、配信された上記オリジナルコンテンツを受信して再生する。また、端末装置３は、オリジナルコンテンツを再生しながら、ユーザーの発話音声を取得し、追加の音声コンテンツを生成する。端末装置３は、生成した音声コンテンツをサーバー装置２に渡す。サーバー装置２は、オリジナルコンテンツに含まれる映像と、端末装置３によって生成された音声とを少なくとも含んだコンテンツを再配信する。これにより、ソーシャルコメンタリーサービス（Social Commentary Service）が実現できる。
また、サーバー装置２は、複数の端末装置３から渡される音声のコンテンツを、相互に同期させ、つまりサーバー装置２上で統合して、オリジナルの映像とともに再配信してもよい。これにより、複数のユーザーによるコメンタリーを、オリジナルの映像に付加して配信することができる。
さらに、端末装置３は、コメンタリーの追加されたコンテンツ（加工コンテンツ）を受信する。そして、端末装置３は、ユーザーの操作等に基づき、コメンタリーの評価情報（例えば、レーティング数値の情報）を取得し、この評価情報を例えば追加のテキストコンテンツとして生成する。端末装置３は、追加のテキストコンテンツをサーバー装置２に渡す。サーバー装置２は、必要に応じて評価情報を適宜処理して、元のコンテンツと共に再配信することができる。これにより、多数の音声トラック（コメンタリーのコンテンツ）のそれぞれに対して、ユーザーの評価情報を付加することができる。これにより、ユーザーからの人気が高い、質の良いコメンタリーを、効率よく選択することも可能となる。

第１２サービス例：仮想スタジアム
例えば、スポーツ中継等のライブ映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。不特定多数のユーザーの端末装置３が、そのコンテンツを受信するとともに、ユーザーの音声によるコメントを取得し、音声のコンテンツを生成する。端末装置３は、生成された音声のコンテンツをサーバー装置２に渡す。サーバー装置２は、端末装置３から渡される音声のコンテンツを受け取る。サーバー装置２は、多数の端末装置３からそれぞれの音声のコンテンツを受信し、それらを統合してもよい。サーバー装置２は、オリジナルコンテンツに含まれる映像と、端末装置３から受け取った音声とを少なくとも含んだ加工コンテンツを、再配信する。
受信端末８は、オリジナルコンテンツの映像と、端末装置３によって生成された多数のユーザーのコメントとを同期して再生することができる。つまり、受信端末８では、あたかもスポーツ競技が行われている現場のような雰囲気に混合された音声とともに、オリジナルの映像を鑑賞することが可能となる。つまり、視聴ユーザーは、現場の一体感を味わうことができる。
また、サーバー装置２が複数の端末装置３からの音声コメントのコンテンツを集める際に、友人同士の複数のユーザーが持つ端末装置３からの音声コメントのみを統合して再配信するようにしてもよい。また、サーバー装置２が、特定のチームあるいは選手を贔屓にするユーザーが持つ端末装置３からの音声コメントのみを統合して再配信するようにしてもよい。

第１３サービス例：ソーシャルオーケストラアプリ
例えば、音楽の演奏音を含む映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３は、オリジナルコンテンツの映像を受信して再生するとともに、当該端末装置３のユーザーによる歌唱や、ユーザーによる楽器演奏の音声を、取得する。端末装置３は、音声のコンテンツを生成する。端末装置３は、追加された音声のコンテンツをサーバー装置２に渡す。サーバー装置２は、端末装置３から渡された音声のコンテンツと、オリジナルコンテンツの映像（音声が付加されていてもよい）とを同期させ、再配信する。サーバー装置２は、複数の端末装置３から渡された音声のコンテンツを、オリジナルコンテンツの映像と同期させ、再配信してもよい。これにより、複数の演奏者や歌唱者による仮想音楽セッションを実現することが可能となる。
また、端末装置３は、歌唱するユーザーあるいは楽器を演奏するユーザーを撮影した映像を、さらに追加コンテンツとして取得するようにしてもよい。端末装置３は、取得した映像を、サーバー装置２に渡す。サーバー装置２は、端末装置３から渡された映像をも、オリジナルのコンテンツと同期させ、配信する。
また、複数の端末装置３は、必ずしも同時にセッションする必要はない。つまり、ある端末装置３と他の端末装置３との間で、オリジナルコンテンツを再生するタイミングが異なっており、その結果として歌唱あるいは楽器演奏の音声や映像を取得するタイミングが異なっていても良い。その場合、サーバー装置２は、それぞれのタイミングで取得された追加コンテンツ（映像や音声）を端末装置３から取得し、すべての追加コンテンツを、オリジナルコンテンツのタイミングに同期させて、再配信する。これにより、各端末装置３のユーザーが同時に歌唱あるいは演奏しなくても、セッションのコンテンツを生成することができる。
また、サーバー装置２が、受信端末８に加工コンテンツを配信する際に、例えば受信端末８からの要求に基づいて、特定の音声トラックあるいは特定の映像トラックのみを選択して配信するようにしてもよい。あるいは、受信端末８側で、特定の音声トラックあるいは特定の映像トラックのみを選択して再生するようにしてもよい。
また、サーバー装置２が、受信端末８に加工コンテンツを配信する際に、各音声トラックのボリューム（音量）レベルを任意の比率でミックスするようにしてもよい。これにより、例えば、楽器重視の音声コンテンツや、歌唱重視の音声コンテンツなど、複数のパターンのコンテンツを配信することができるようになる。

第１４サービス例：映像作品アフレコアプリ
例えば、映画やアニメーション等の映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３は、そのオリジナルコンテンツの映像を受信し、再生する。端末装置３は、オリジナルコンテンツの映像のタイミングに合わせて発話されるユーザーの音声を取得する。端末装置３は、音声のコンテンツを生成し、サーバー装置２に渡す。サーバー装置２は、端末装置３から渡された追加の音声コンテンツと、オリジナルコンテンツである映像とを同期させ、再配信する。
また、サーバー装置２は、複数の端末装置３から追加の音声コンテンツを受信し、複数の音声コンテンツをオリジナルコンテンツに同期させて再配信することもできる。これにより、複数のユーザーが異なる役割を分担してアフレコを行うことが可能となる。サーバー装置２は、複数の端末装置３からの追加の音声コンテンツを、同時に受信してもよいし、異なるタイミングで受信してもよい。
また、サーバー装置２は、１台の端末装置３から、複数回、追加の音声コンテンツを受信し、それら複数の音声コンテンツを、オリジナルの映像コンテンツに同期させて再配信してもよい。これにより、１人のユーザーが、複数の役割を演じながらアフレコを行うことも可能となる。
また、サーバー装置２から再配信された加工コンテンツを、端末装置３が受信するとともに、端末装置３のユーザーが、加工コンテンツへの投票や、評価数値の入力などを行うようにしてもよい。これにより、端末装置３は、様々な加工コンテンツの人気のテキストデータを追加コンテンツとして取得する。端末装置３は、このテキストデータを、サーバー装置２に渡す。サーバー装置２は、加工コンテンツごとの人気を表すテキストデータのコンテンツを、再配信することができる。この仕組みにより、例えば、どの加工コンテンツ（映像）が面白かったかを競うイベントを行うこともできる。

第１５サービス例：多言語実況および解説
例えば、スポーツイベントの中継映像が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。当該スポーツイベントの実況者や解説者の操作により、端末装置３は、当該オリジナルコンテンツの映像（音声を伴っていてもよい）を受信し、再生する。実況者および解説者は、同じ場所に居てもよいし、異なる場所に居てもよい。また、端末装置３は、実況者および解説者の音声を取得し、追加の音声コンテンツを生成する。端末装置３は、生成した音声コンテンツを、サーバー装置２に渡す。サーバー装置２は、オリジナルコンテンツである映像と、端末装置３によって生成された音声コンテンツとを、同期させて配信する。これにより、実況者および解説者は、特定の言語による実況音声および解説音声をコンテンツに付加することができる。また、言語ごとに（例えば、日本語、英語、中国語、フランス語、・・・等）、実況者および解説者が実況音声および解説音声のコンテンツを発し、追加コンテンツを生成するようにしてもよい。また、実況者と解説者が相互に離れていても、その掛け合い音声によるコンテンツを生成することが可能となる。これにより、例えば大規模なスポーツイベントの、多言語実況等が可能となる。

第１６サービス例：ライブストリーミングに対する音声コメンタリー
例えば、何らかの映像コンテンツ（音楽ライブ、トークライブ等を含む任意のコンテンツ）が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３は、そのオリジナルコンテンツを受信し、再生する。また、端末装置３は、ユーザーの音声を取得し、音声による追加コンテンツを生成する。端末装置３は、生成された音声コンテンツを、サーバー装置２に渡す。サーバー装置２は、受信した追加コンテンツを、オリジナルコンテンツと同期させて、再配信する。
サーバー装置２は、複数の端末装置３から追加コンテンツ（音声）を受信し、それらをミックスして再配信してもよい。
この仕組みにより、動画配信サービスにおいて、ユーザーが音声コメントを共有することが可能となる。

第１７サービス例：パブリックビューイング会場の観客音声の配信
例えば、大規模スポーツイベントの中継映像（音声を含む）が、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。いわゆるパブリックビューイング会場において、端末装置３（ＰＣ等）が、オリジナルコンテンツの映像および音声を再生する。映像はパブリックビューイング会場の大画面に表示され、音声はスピーカー等から出力される。端末装置３は、パブリックビューイング会場の観客の音声を取得し、音声コンテンツを生成する。端末装置３は、生成した追加コンテンツをサーバー装置２に渡す。サーバー装置２は、端末装置３から渡された追加の音声コンテンツと、オリジナルコンテンツとを同期させ、それらを再配信する。これにより、受信端末８は、スポーツイベントが行われている会場の音声だけではなく、パブリックビューイング会場の音声をも含んだコンテンツを受信し、再生することができる。
パブリックビューイング会場は、当該スポーツイベントの会場と同地域に存在していてもよいし、遠隔地（異なる国を含む）に存在していてもよい。スポーツイベントの会場とパブリックビューイングの会場とが離れている場合には、スポーツイベントの会場に居る観客の客層と、パブリックビューイングの会場に居る観客の客層とが異なる場合もある。例えば、両会場の観客で、贔屓の選手、贔屓のチーム、文化的背景等が異なる場合もあり得る。この場合、受信端末８側では、配信される加工コンテンツを通して、スポーツイベント会場の音声による臨場感とは異なる、パブリックビューイング会場の音声による臨場感をも味わうことが可能となる。

第１８サービス例：道案内動画生成アプリ
ユーザーの操作等に基づき、端末装置３は、検索エンジンのサーバー装置に対して検索キーワードを送信する。検索キーワードは、例えば「汐留から日本橋まで」といったように、移動の出発地と目的地の地名を含むものである。このときのユーザーの意図は、道案内の情報を得ることである。すると、オリジナルコンテンツとして、検索キーワードに対応した基本移動映像がウェブサーバー装置７から配信される。検索キーワードが「汐留から日本橋まで」である場合、基本移動映像はそれらの地点間の移動のルートにおける映像である。基本移動映像は、予め、データベースに格納されている。また、基本移動映像には位置情報（経度，緯度）や、時刻情報や、移動手段に関する情報が関連付けられている。なお、基本移動映像が、時間帯毎に予め準備されていてもよい。その場合、実際の時間帯に最も近い時間帯の基本移動映像がオリジナルコンテンツとして配信される。また、基本移動映像は、複数の映像をつなぎ合わせたものであってもよい。例えば、汐留から日本橋までの基本移動映像は、汐留から銀座四丁目までの移動映像と、銀座四丁目から日本橋までの移動映像とをつなぎ合わせたものであってよい。端末装置３は、オリジナルコンテンツである基本移動映像を受信し、再生する。また、端末装置３内のコンテンツ生成部４３は、基本移動映像に関連付けられているデータを抽出する。例えば、コンテンツ生成部４３は、移動中の位置情報（座標情報）を抽出する。そして、コンテンツ生成部４３は、抽出した位置情報に基づいて他のデータベース（例えば、端末装置３自身が持つデータベース、またはインターネットを介してアクセスするサーバー上のデータベース）を検索し、位置に関連した情報を取得する。位置に関連した情報は、例えば、観光スポットの案内情報（場所、見どころ、歴史的背景等）や、飲食店の情報（場所、メニュー等）や、他の店舗の情報（場所、業態、販売物等）などである。位置に関連した情報は、例えば、テキスト情報で与えられる。コンテンツ生成部４３は、オリジナルコンテンツである移動映像と、上記の観光スポットや飲食店や店舗の情報とに基づいて、複合コンテンツを生成する。この複合コンテンツにおいて、観光スポットや飲食店や店舗の情報は、例えば、映像内の特定の場所において表示される画像やテキストを含む。端末装置３は、新たに生成したコンテンツ（移動映像と店舗等の情報の複合コンテンツ）をサーバー装置２に渡す。サーバー装置２は、加工されたコンテンツを再配信する。再配信されたコンテンツは、端末装置３自身で閲覧することもできるし、他の受信端末８で閲覧することもできる。
これにより、観光スポットや店舗等の情報を、わかりやすく観光客らに提供することができる。また、基本移動情報に関連付けて、広告情報を提供するようにしてもよい。

第１９サービス例：タイムライン検索キー生成
例えば、任意の映像または音声（両方を含んでもよい）のコンテンツが、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３はそのオリジナルコンテンツを受信し、端末装置３のデコーダー部４１はコンテンツをデコードして映像や音声等をコンテンツ生成部４３に提供する。コンテンツ生成部４３は、映像認識エンジンおよび音声認識エンジンを備えている。コンテンツ生成部４３の映像認識エンジンは、デコーダー部４１から供給される映像の認識処理を行い、映像に含まれている人物やオブジェクトやシーンが何であるかを認識し、認識結果のテキストデータを出力する。また、コンテンツ生成部４３の音声認識エンジンは、デコーダー部４１から供給される音声の認識処理を行い、音声に含まれる語や文章が何であるかを認識し、認識結果のテキストデータを出力する。さらに、コンテンツ生成部４３は、映像認識や音声認識の結果として得られるテキストデータを、検索キー用のメタデータとして利用しやすい形に編集し、出力する。検索キー用のメタデータでは、検索語と、映像コンテンツや音声コンテンツにおける時刻位置（例えば、コンテンツの開始時からの相対時刻等）とが相互に関連付けられている。また、検索語と、映像等のシーンとが相互に関連付けられていてもよい。映像コンテンツをシーンの切り替えのポイントで分割したり、音声コンテンツを所定の長さの無音区間で分割したりすることは、既存技術を用いて行うことができる。端末装置３は、検索キー用メタデータとして生成したテキストデータを、サーバー装置２に渡す。サーバー装置２は、オリジナルコンテンツとともに、端末装置３から渡されたテキストデータを再配信する。コンテンツ加工システム１から再配信された加工コンテンツを受信する受信端末８側では、検索キー用のメタデータを参照することにより、映像コンテンツや音声コンテンツ内の検索語に該当する箇所をすばやくサーチする（例えば、頭出しする）ことが可能となる。つまり、受信端末８を操作する視聴者は、所望のシーン等を手軽に視聴することが可能となる。

第２０サービス例：字幕生成
例えば、任意の映像または音声（両方を含んでもよい）のコンテンツが、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３はそのオリジナルコンテンツを受信し、端末装置３のデコーダー部４１はコンテンツをデコードして映像や音声等をコンテンツ生成部４３に提供する。コンテンツ生成部４３は、音声認識エンジンを備えている。コンテンツ生成部４３の音声認識エンジンは、デコーダー部４１から供給される音声の認識処理を行い、音声から文字起こしテキストデータを出力する。また、コンテンツ生成部４３は、自動的に、あるいは少なくとも一部で校閲者の操作にも基づいて、上記テキストデータから字幕テキストデータを生成する。例えば、字幕テキストデータは、タイムドテキストとして、あるいはタイムライン型テキストデータとして出力される。端末装置３は、生成された字幕テキストデータを、サーバー装置２に渡す。サーバー装置２は、オリジナルコンテンツと同期させる形で、端末装置３から渡されたテキストデータを再配信する。この加工コンテンツを受信する受信端末８側では、オリジナルコンテンツとともに字幕テキストを表示することが可能となる。あるいは、受信端末８側では、字幕テキストに対して所定の処理を行った結果を、オリジナルコンテンツに関連付けて出力することができる。

第２１サービス例：自動ハイライト映像の生成（１）
例えば、任意の映像または音声（両方を含んでもよい）のコンテンツが、オリジナルコンテンツとして、ウェブサーバー装置７から配信される。端末装置３はそのオリジナルコンテンツを受信し、端末装置３のデコーダー部４１はコンテンツをデコードして映像や音声等をコンテンツ生成部４３に提供する。コンテンツ生成部４３は、映像認識エンジンや音声認識エンジンを備えている。これらの認識エンジンは、人工知能の技術を援用するものであってもよい。コンテンツ生成部４３は、映像や音声を認識し解析することによって、オリジナルコンテンツ中の主要イベントを抽出する。この主要イベントは、例えば、音声の内容や、音圧レベルや、映像の内容や、映像内の特定のパターン等に基づき、学習済みの人工知能によって抽出される。コンテンツ生成部４３は、オリジナルコンテンツ中の、主要イベントを含む断片をハイライトシーンとして認識し、例えば複数のハイライトシーンのみを切り出して連結することにより、ハイライト映像（または音声）を生成する。ハイライト映像等は「ハイライトクリップ」とも呼ばれる。端末装置３は、このハイライトクリップのコンテンツをサーバー装置２に渡す。サーバー装置２は、オリジナルコンテンツとともに、端末装置３から渡されたハイライトクリップを再配信する。あるいは、サーバー装置２は、オリジナルコンテンツを置換して、端末装置３から渡されたハイライトクリップのみを再配信する。この仕組みにより、映像や音声のコンテンツのハイライトのみを容易に配信することが可能となる。

以上、複数のサービス例を説明したが、コンテンツ加工システム１は、上で説明したサービス例のうちの複数を組み合わせて実施してもよい。

上記実施形態では、サーバー装置２と端末装置３とを用いてコンテンツ加工システム１を構成した。各装置の機能構成は図１および図２に示した通りである。しかし、変形例として、サーバー装置２と端末装置３とのそれぞれへの機能の配置を任意に変更してもよい。また、３個以上の装置に機能分散させてコンテンツ加工システム１を構成してもよい。また、サーバー装置２と端末装置３が有する機能を統合して１台の装置としてコンテンツ加工システム１を構成してもよい。

本実施形態およびその変形例によれば、追加するコンテンツのみをエンコードして配信し、オリジナルのコンテンツはオリジナルのセグメントファイルのまま配信することが可能である。これにより、比較的小規模な装置構成で、ストリーミング配信されたコンテンツを加工して再配信することが可能となる。
また、オリジナルのセグメントファイルの一部を差し替える形で上記の追加のコンテンツを配信することにより、コンテンツの差し替えを、比較的小規模な装置構成で実現することができる。
また、本実施形態を利用して、多岐にわたるサービスを実現することができる。

以上、この発明の実施形態、変形例、実現するサービス例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、コンテンツ配信事業等（放送事業を含む）において利用可能である。ただし、本発明の利用範囲はここに例示した事業に限定されるものではない。

０配信システム
１コンテンツ加工システム（コンテンツ加工装置）
２サーバー装置
３端末装置
６エンコーダー装置
７ウェブサーバー装置
８受信端末
２１マニュフェスト取得部
２２マニュフェスト生成部
２５セグメント取得部
２６セグメント選択部
２８ウェブサーバー部（再配信部）
３１マニュフェスト取得部
３２マニュフェスト解析部
３３セグメント取得部
３５時刻解析部
４１デコーダー部
４２再生部
４３コンテンツ生成部
４４Ａ／Ｖインターフェース部（インターフェース部）
４５ミキサー部
４８エンコーダー部
４９セグメント化部
５０アップロード部

Claims

ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、
前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、
前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、
デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、
前記追加コンテンツをエンコードするエンコーダー部と、
エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、
前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、
前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、
を具備するコンテンツ加工システム。
前記マニュフェスト生成部は、取得した前記オリジナルセグメントファイルのすべてを含み、且つ前記追加セグメントファイルを含んだ追加型加工コンテンツを再生するための前記加工マニュフェストファイルを生成する、
ことを特徴とする請求項１に記載のコンテンツ加工システム。
前記マニュフェスト生成部は、取得した前記オリジナルセグメントファイルのうちの一部のみを含み、且つ前記追加セグメントファイルを含んだ差し替え型加工コンテンツを再生するための前記加工マニュフェストファイルを生成する、
ことを特徴とする請求項１に記載のコンテンツ加工システム。
サーバー装置と端末装置とを含むコンテンツ加工システムであって、
端末装置は、
ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、
前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、
前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、
デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、
前記追加コンテンツをエンコードするエンコーダー部と、
エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、
を具備し、
前記サーバー装置は、
前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、
前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、
を具備する、
コンテンツ加工システム。
前記オリジナルセグメントファイルは、映像または音声の少なくともいずれかを符号化してなるデータを格納したものであり、
前記デコーダー部が出力する映像または音声を解析することによって前記オリジナルセグメントファイルに基づく前記追加コンテンツを自動的に生成するコンテンツ生成部、
をさらに具備する請求項１から４までのいずれか一項に記載のコンテンツ加工システム。
前記コンテンツ生成部は、前記デコーダー部が出力する映像または音声の認識処理を行うことによって得られるテキストデータを含んだ前記追加コンテンツを生成する、
請求項５に記載のコンテンツ加工システム。
前記マニュフェスト生成部は、外部からの指示に基づき、前記オリジナルセグメントファイルのみを再生するための加工マニュフェストファイルを生成する機能を備え、
前記再配信部は、外部からの前記指示に基づき、前記オリジナルセグメントファイルと前記加工マニュフェストファイルとのみを配信する機能を備える、
請求項１から６までのいずれか一項に記載のコンテンツ加工システム。
ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、
前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、
前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、
デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、
前記追加コンテンツをエンコードするエンコーダー部と、
エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、
を具備する端末装置。
コンピューターを、
ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、
前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、
前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、
デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、
前記追加コンテンツをエンコードするエンコーダー部と、
エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、
前記オリジナルマニュフェストファイルに基づいて、前記オリジナルセグメントファイルと前記追加セグメントファイルとが同期するように、加工マニュフェストファイルを生成するマニュフェスト生成部と、
前記オリジナルセグメントファイルと、前記追加セグメントファイルと、前記加工マニュフェストファイルとを、加工コンテンツとして、ハイパーテキスト転送プロトコルを用いて配信する再配信部と、
を具備するコンテンツ加工システムとして機能させるためのプログラム。
コンピューターを、
ハイパーテキスト転送プロトコルを用いたストリーミングのオリジナルコンテンツに含まれるオリジナルマニュフェストファイルを取得するマニュフェスト取得部と、
前記オリジナルコンテンツに含まれるオリジナルセグメントファイルを取得するセグメント取得部と、
前記オリジナルセグメントファイルをデコードし、出力するデコーダー部と、
デコードされた前記オリジナルセグメントファイルに関連付けられる形で新たに追加される追加コンテンツを取得するインターフェース部と、
前記追加コンテンツをエンコードするエンコーダー部と、
エンコードされた前記追加コンテンツを、前記オリジナルセグメントファイルの時刻に同期するようにセグメント化することによって追加セグメントファイルを生成するセグメント化部と、
を具備する端末装置として機能させるためのプログラム。