JP5870944B2

JP5870944B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP5870944B2
Application number: JP2013037497A
Authority: JP
Inventors: 翼梅津; 建太郎牛山
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2016-03-01
Anticipated expiration: 2033-02-27
Also published as: JP2014164685A; WO2014132988A1

Description

本発明は、動画を表示させる端末装置の技術分野に関する。

従来、インターネットを介してサーバにアップロードされた動画データを、端末装置からの配信要求に応じてストリーミング配信する動画投稿サイトが知られている。動画投稿サイトからストリーミング配信された動画データは、例えば、端末装置のブラウザのウインドウ画面に表示される。このとき、ウインドウ画面には、ストリーミング配信された動画データに関連する動画データ中の代表となる静止画が表示される場合がある。この静止画により、ストリーミング配信された動画データに関連する動画データを端末装置のユーザに推奨することができる。

一方、特許文献１には、動画データの特定のシーンを他のユーザに推奨するために、ユーザが動画データの再生位置などを示す編集データを他のユーザへメールで配信するシステムが開示されている。これにより、編集データを作成したユーザは、迅速に他のユーザに動画データ中の特定のシーンを見せることができる。

特開２００９−１２４５１６号公報

ところで、例えばパノラマ動画などの動画に対して疑似的なカメラワークがユーザにより行われる場合がある。疑似的なカメラワークでは、例えば、仮想的なカメラの向きや視界の広さなどを操作部から指示することで、動画を構成する複数の画像フレームにおける表示範囲が指定される。近年、疑似的なカメラワークを示すカメラワークデータをサーバにアップロードして他のユーザに提供したいというニーズがある。この場合、例えば端末装置で表示中の動画に対して他のユーザにより行われた疑似的なカメラワークを端末装置のユーザに推奨することが想定される。しかしながら、疑似的なカメラワークは、動画を構成する複数の画像フレームにおける時系列的な表示範囲の動きに特徴がある。そのため、従来のように静止画によって、疑似的なカメラワークの特徴をユーザに分かり易く伝えることは困難である。また、疑似的なカメラワークの特徴は、特許文献１に開示された技術を適用した場合であっても、ユーザに分かり易く伝えることは困難である。さらに、例えば、複数のユーザそれぞれにより行われた疑似的なカメラワークを示すカメラワークデータをサーバにアップロードされることが想定される。この場合、それぞれのカメラワークデータに対応する疑似的なカメラワークの中から、ユーザが所望するカメラワークを効率良く検索する手法は知られていなかった。

本発明は、以上の点に鑑みてなされたものであり、ユーザが所望するカメラワークを効率良く検索することが可能な情報処理装置及び情報処理方法を提供する。

上記課題を解決するために、請求項１に記載の発明は、動画を構成する画像フレーム内で、表示手段により表示される表示範囲が、動画の再生位置に応じて変化可能な動画の前記表示範囲を再生位置ごとに示す表示範囲情報の要求であって、前記動画の前記画像フレームにおける１以上の画素から構成される領域の検索に用いられる第１の検索情報を含む前記要求を端末装置から受信する受信手段と、複数の前記領域それぞれに対応付けられた第２の検索情報であって、前記領域の特徴を示す第２の検索情報と、複数の前記領域それぞれに対する前記第２の検索情報の対応付け回数と、を記憶する記憶手段と、前記記憶手段に記憶された前記第２の検索情報に基づいて、前記受信手段により受信された前記第１の検索情報に対応する前記第２の検索情報が対応付けられた前記領域を前記記憶手段から検索し、前記対応付け回数の多い領域を優先して決定する第１決定手段と、前記第１決定手段により決定された前記領域を含む前記表示範囲を示す表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定する第２決定手段と、を備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の情報処理装置において、前記領域に対応付けられた前記第２の検索情報は、前記領域を含む前記動画の表示範囲に表れる被写体を示し、前記受信手段は、被写体を示す前記第１の検索情報を含む前記要求を受信し、前記第１決定手段は、前記領域に対応付けられた前記第２の検索情報に基づいて、前記受信手段により受信された前記第１の検索情報が示す被写体が表れる表示範囲を含む前記領域を決定し、前記第２決定手段は、前記第１決定手段により決定された前記領域を含む前記表示範囲を示す前記表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定することを特徴とする。

請求項３に記載の発明は、請求項１又は２に記載の情報処理装置において、前記受信手段は、前記端末装置において前記動画の表示中に前記第１の検索情報が入力されたときの前記動画の再生位置を示す再生位置情報と前記第１の検索情報とを含む前記要求を受信し、前記第１決定手段は、前記受信手段により受信された再生位置情報が示す再生位置の前記画像フレームにおける前記領域の中から、前記受信手段により受信された前記第１の検索情報に対応する前記第２の検索情報に対応付けられた前記領域を決定し、前記第２決定手段は、前記第１決定手段により決定された前記領域を含む前記表示範囲を示す前記表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定することを特徴とする。

請求項４に記載の発明は、コンピュータにより行われる情報処理方法であって、動画を構成する画像フレーム内で、表示手段により表示される表示範囲が、動画の再生位置に応じて変化可能な動画の前記表示範囲を再生位置ごとに示す表示範囲情報の要求であって、前記動画の前記画像フレームにおける１以上の画素から構成される領域の検索に用いられる第１の検索情報を含む前記要求を端末装置から受信する受信ステップと、複数の前記領域それぞれに対応付けられた第２の検索情報であって、前記領域の特徴を示す第２の検索情報と、複数の前記領域それぞれに対する前記第２の検索情報の対応付け回数と、を記憶する記憶手段に記憶された前記第２の検索情報に基づいて、前記受信ステップにより受信された前記第１の検索情報に対応する前記第２の検索情報が対応付けられた前記領域を検索し、前記対応付け回数の多い領域を優先して決定する第１決定ステップと、前記第１決定ステップにより決定された前記領域を含む前記表示範囲を示す表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定する第２決定ステップと、を含むことを特徴とする。

請求項１及び４に記載の発明によれば、ユーザが所望するカメラワークに対応する表示範囲を示す表示範囲情報を、的確に且つ効率良く検索することができる。

請求項２に記載の発明によれば、ユーザが見たい人物等の被写体が表れるシーンを含む表示範囲を示す表示範囲情報を効率良く検索することができる。

請求項３に記載の発明によれば、動画の再生時間全体においてユーザが所望するタイミングにおける表示範囲を示す表示範囲情報を効率良く検索することができる。

本実施形態の通信システムＳの概要構成例を示す図である。３次元動画空間を、複数の動画ブロックに分けた例を示す概念図である。（Ａ）〜（Ｃ）は、仮想スクリーンの例と、仮想スクリーンに対する表示範囲の例とを示す図である。（Ａ）〜（Ｃ）は、制御部２１により生成されたカメラワークデータの一例である。（Ａ）は、クライアント２の制御部２１におけるメイン処理を示すフローチャートである。（Ｂ）は、（Ａ）に示すステップＳ４における入力処理の一例を示すフローチャートである。（Ｃ），（Ｄ）は、シーン情報を入力するための画面例を示す図である。配信サーバ１の制御部１１における処理を示すフローチャートである。（Ａ）は、クライアント２の制御部２１における処理を示すフローチャートである。（Ｂ），（Ｃ）は、検索キーを入力するための画面例を示す図である。（Ｄ）は、メイン画面ＭＶとサブ画面ＳＶ１〜ＳＶ５の一例を示す図である。配信サーバ１の制御部１１における処理を示すフローチャートである。（Ａ）は、動画を構成する１画像フレームにおける部分領域をピクセルとした場合の表示範囲を示す図である。（Ｂ）は、動画を構成する１画像フレームにおける部分領域を動画ブロックとした場合の表示範囲を示す図である。（Ｃ）は、５秒間隔ごとに決定された表示範囲Ｒ３１〜Ｒ３３の間が連続的に変化するように補完された例を示す概念図である。（Ａ）は、配信サーバ１の制御部１１におけるカメラワークデータの自動生成処理を示すフローチャートである。（Ｂ）は、カメラワークデータの自動生成処理の他の例を示すフローチャートである。カメラワークデータの自動生成処理の他の例を示す概念図である。

以下、本発明の実施形態を図面に基づいて説明する。

［１．通信システムＳの構成及び動作概要］
始めに、図１等を参照して、本実施形態の通信システムの構成及び動作概要について説明する。図１は、本実施形態の通信システムＳの概要構成例を示す図である。図１に示すように、通信システムＳは、配信サーバ１、及び複数のクライアント２を含んで構成される。配信サーバ１は、本発明の情報処理装置の一例である。クライアント２は、本発明の端末装置の一例である。また、配信サーバ１とクライアント２とはネットワークＮＷを介して通信可能になっている。ネットワークＮＷは、例えば、インターネット等により構成される。

配信サーバ１は、例えばクライアント２からのコンテンツ、またはコンテンツのカメラワークデータのアップロードを受け付ける。配信サーバ１は、例えばクライアント２からのコンテンツ要求に応じて、コンテンツをクライアント２へ送信する。コンテンツは、動画データを含む。動画データは、動画を構成する画像フレーム内で、表示手段により表示される表示範囲が、動画の再生位置に応じて変化可能な動画を表すデータである。このような動画には、例えばパノラマ動画がある。パノラマ動画は、例えば高解像度のカメラで、且つ広範囲を撮影可能なレンズを搭載するカメラにより被写体が撮影された動画である。広範囲を撮影可能なレンズには、ワイドレンズ、魚眼レンズ、３６０レンズ等がある。再生位置とは、動画データの再生開始からの経過時間である。なお、コンテンツは、音声データを含んでもよい。コンテンツの送信は、例えば、ネットワークＮＷを介してストリーミング配信により行われる。クライアント２は、配信サーバ１からストリーミング配信されたコンテンツを受信する。

また、配信サーバ１は、例えばクライアント２からカメラワークデータのリクエストに応じて、コンテンツのカメラワークデータをクライアント２へ送信する。カメラワークデータは、動画を構成する画像フレーム内で表示手段により表示される表示範囲を再生位置ごとに示す表示範囲情報の一例である。この表示範囲は、１画像フレームのうち表示手段の画面に描画される描画領域に相当する。言い換えれば、表示範囲は、画像フレームで画定される撮影範囲から切り出される範囲である。このような表示範囲は、例えば、疑似的なカメラワーク（以下、「疑似カメラワーク」という）により指定される。例えば、動画を構成する画像フレームが三次元仮想空間に配置された仮想スクリーンに投影されるものとし、三次元仮想空間において動画を見る人物が存在すると仮定する。疑似カメラワークとは、例えば仮想スクリーンに投影された動画を見る人物の視点位置、視線方向、及び視野面積の少なくともいずれか一つを決めることをいう。言い換えれば、疑似カメラワークとは、仮想カメラの向きや視界の広さなどを決めることをいう。ここで、仮想カメラは、動画を構成する画像フレーム内の描画領域を決定する仮想的なカメラをいう。上記カメラワークデータ（以下、「疑似カメラワークデータ」という）により疑似カメラワークを再現することができる。１つの疑似カメラワークデータは、例えば、動画データの再生開始からの再生終了までの再生時間に含まれる全ての画像フレームにおける表示範囲が示されるとは限らない。つまり、１つの疑似カメラワークデータは、再生時間における一部の時間範囲に含まれる画像フレームにおける表示範囲が示される場合もある。クライアント２は、例えば、ストリーミングでコンテンツを受信しながら、取得された疑似カメラワークデータが示す表示範囲に従って、動画を表示させる。

配信サーバ１は、記憶装置３と接続可能になっている。記憶装置３は、例えばハードディスクドライブ（ＨＤＤ）により構成される。記憶装置３は、配信サーバ１に備えられる。或いは、記憶装置３は、配信サーバ１とは異なるサーバに備えられてもよい。記憶装置３は、クライアント２からの要求に応じて、クライアント２へ送信されるＷｅｂページのデータが記憶される。さらに、記憶装置３には、動画データ記憶領域３１ａ、音声データ記憶領域３１ｂ、ワークファイル記憶領域３１ｃ、及びシーン情報記憶領域３１ｄが設けられている。

動画データ記憶領域３１ａには、複数の動画データが記憶される。動画データ記憶領域３１ａに記憶された動画データは、配信サーバ１にアクセス可能な複数のクライアント２間で共有することができる。音声データ記憶領域３１ｂには、複数の音声データが記憶される。音声データ記憶領域３１ｂに記憶された音声データは、配信サーバ１にアクセス可能な複数のクライアント間で共有することができる。

次に、ワークファイル記憶領域３１ｃには、ワークファイルがコンテンツごとに対応付けられて記憶される。ワークファイルには、コンテンツのタイトル、及び疑似カメラワークデータ等が格納される。疑似カメラワークデータには、シーン情報が付与されている場合もある。シーン情報は、動画のシーンの特徴を示す情報である。ここで、動画のシーンとは、動画上のある動作の一区切りとなる範囲を示す。このようなシーンには、例えば、歌手が歌唱するシーン、俳優が演じるシーン、又はイベントの様子を映し出すシーンなどがある。シーン情報には、例えば、シーンに表れる歌手や俳優等の被写体を示すテキスト情報や被写体を識別する識別情報等が含まれる。ワークファイルには、例えば、このワークファイルを識別するワークＩＤが付与される。なお、ワークファイルには、コンテンツを識別するコンテンツＩＤが含まれてもよい。ワークファイル記憶領域３１ｃに記憶されるワークファイルには、例えば、クライアント２からアップロードされたワークファイルも含まれる。１つのコンテンツには、複数のワークファイルが対応付けられる場合もある。例えば、あるコンテンツに対して、複数のユーザそれぞれにより行われた疑似カメラワークにより指定された表示範囲を示す疑似カメラワークデータが対応付けられる。

シーン情報記憶領域３１ｄは、シーン情報データベースがコンテンツごとに対応付けられて記憶される。シーン情報データベースは、動画を構成する画像フレームにおける部分領域ごと、且つ再生位置ごとにシーン情報を対応付けて登録可能なデータベースである。部分領域とは、画像フレームにおける１以上のピクセル（画素）から構成される領域である。部分領域は、動画の再生位置と、この再生位置における画像フレーム上の位置とによって決定される。シーン情報データベースに登録されるシーン情報は、領域の特徴を示す第２の検索情報の一例である。なお、シーン情報データベースには、動画のシーン以外の特徴を示す情報が部分領域に対応つけられて登録されるように構成してもよい。なお、部分領域を、１画像フレームにおける１ピクセルとしてもよいが、この場合、シーン情報を管理するための負荷が大きくなる。そのため、動画を、「縦ピクセル（複数ピクセル）Ｈ×横ピクセル（複数ピクセル）Ｗ×再生時間（複数フレーム）Ｆ」の立体的なブロックに分けて、ブロックごとにシーン情報が対応付けられて登録されることが望ましい。このようなブロックを、以下、「動画ブロック」という。図２は、３次元動画空間を、複数の動画ブロックに分けた例を示す概念図である。図２の例では、各動画ブロックには、それぞれ、固有のブロックＩＤが付与されている。各動画ブロックには、それぞれ、動画を構成する画像フレームＦ上の座標位置、及び再生位置が対応付けられている。この再生位置は、例えば、動画ブロックに含まれる複数の画像フレームの中で、先頭の画像フレームの再生位置である。この場合の画像フレームは、図２に示すように分割された画像フレームである。そして、シーン情報データベースには、例えば、クライアント２からアップロードされた疑似カメラワークデータに付与されたシーン情報が、ブロックＩＤに対応付けられて登録される。この場合のシーン情報は、クライアント２のユーザにより投稿されたシーン情報である。同一の動画ブロックに対して、同一又は類似するシーン情報が複数のユーザにより投稿される場合がある。そのため、シーン情報データベースには、図２に示すように、シーン情報の投稿回数がブロックＩＤに対応付けられて登録される。なお、図２に示すように、全ての動画ブロックにシーン情報及びシーン情報の投稿回数が登録されるとは限らない。また、シーン情報データベースは、クライアント２から提供されるシーン情報に依らず、例えばシステム運営者側で生成、更新されるようにしてもよい。

そして、配信サーバ１は、図１に示すように、制御部１１及びインターフェース部１２を備えて構成される。制御部１１は、コンピュータとしてのＣＰＵ、ＲＯＭ、及びＲＡＭ等により構成される。制御部１１は、本発明の受信手段、第１決定手段、及び第２決定手段の一例である。制御部１１は、コンテンツの送信又は受信制御、及び疑似カメラワークデータの送信又は受信制御等を行う。制御部１１は、クライアント２から、疑似カメラワークデータのリクエストを受信したとき、リクエストに基づいて、クライアント２へ返信する疑似カメラワークデータを決定する。なお、疑似カメラワークデータの決定方法については後述する。

次に、クライアント２は、図１に示すように、制御部２１、記憶部２２、ビデオＲＡＭ２３、映像制御部２４、操作処理部２５、音声制御部２６、インターフェース部２７、及びバス２８等を備えて構成される。これらの構成要素は、バス２８に接続されている。映像制御部２４には、ディスプレイを備える表示部２４ａが接続される。ディスプレイは、表示手段の一例である。操作処理部２５には、操作部２５ａが接続される。操作部２５ａには、例えば、マウス、キーボード、リモコン等がある。表示部２４ａと操作部２５ａとを兼ねるタッチパネルが適用されてもよい。制御部２１は、ユーザによる操作部２５ａからの操作指示を、操作処理部２５を介して受け付ける。ユーザは、操作部２５ａを用いて、上述した疑似カメラワークの操作を行うことができる。音声制御部２６には、スピーカ２６ａが接続される。インターフェース部２７は、ネットワークＮＷに接続される。

制御部２１は、コンピュータとしてのＣＰＵ、ＲＯＭ、及びＲＡＭ等により構成される。制御部２１は、タイマー機能を備える。記憶部２２は、例えば、例えばハードディスクドライブ（ＨＤＤ）により構成される。記憶部２２には、ＯＳ（Operating System）、及びプレイヤーソフトウェア等が記憶されている。プレイヤーソフトウェアは、コンテンツを再生するためのプログラムである。なお、プレイヤーソフトウェアは、例えば、ネットワークＮＷに接続された所定のサーバからダウンロードされるようにしてもよい。或いは、プレイヤーソフトウェアは、例えば、記録媒体に記録されて記録媒体のドライブを介して読み込まれるようにしてもよい。

制御部２１は、プレイヤーソフトウェアを実行することでコンテンツを再生するプレイヤーとして機能する。制御部２１はプレイヤーの機能により、配信サーバ１からストリーミング配信されたコンテンツを順次取得し、コンテンツを再生させる。制御部２１におけるＲＡＭにはバッファメモリが設けられている。バッファメモリには、例えば配信サーバ１からストリーミング配信されたコンテンツに含まれる動画データ等が一時的に保持される。また、バッファメモリには、例えば配信サーバ１から配信された疑似カメラワークデータが一時的に保持される。制御部２１は、バッファメモリからビデオＲＡＭ２３へ動画データを出力する。ビデオＲＡＭ２３には、フレームバッファがＲＡＭに設けられている。例えば、フレームバッファには、動画データにより再生される動画を構成する画像フレームにおいて、疑似カメラワークデータが示す表示範囲に対応する部分の画像データが書き込まれる。映像制御部２４は、制御部２１からの制御信号に従って、フレームバッファに書き込まれた画像データを、それぞれに対応する画面に描画することで表示させる。なお、例えば配信サーバ１からバッファメモリに保持されたコンテンツに音声データが含まれる場合がある。この場合、制御部２１は、バッファメモリから音声データを再生して音声制御部２６へ出力する。音声制御部２６は、音声データからアナログ音声信号を生成し、生成したアナログ音声信号をスピーカ２６ａへ出力する。

また、制御部２１は、ユーザの疑似カメラワークの操作により、ディスプレイの画面に表示中の動画を構成する画像フレームにおける一部分の表示範囲の指示を受け付ける。例えば、制御部２１は、画面に表示中の動画を構成する画像フレームにおいて表示される表示範囲の変更指示を受け付ける。制御部２１は、この変更指示に応じて、画面に表示される表示範囲を変更表示する。言い換えれば、ユーザは、疑似カメラワークの操作により、視点位置、視線方向及び視野面積のうち少なくとも何れか１つを変更することで、画面に表示中の動画の表示範囲を変更させることができる。例えば、動画を構成する画像フレームが三次元仮想空間に配置された仮想スクリーンに投影されるものとし、三次元仮想空間において動画を見る人物が存在すると仮定する。視点位置は、その人物が動画を見ている位置である。視線方向は、その人物の動画に対する視線の方向である。視野面積は、例えば、三次元仮想空間に配置された仮想スクリーン上において、その人物の視野の範囲にある領域の面積である。なお、視野面積は、その人物の視野の範囲としてもよい。そして、疑似カメラワークの操作により、仮想スクリーン上において、動画の表示範囲が決定される。つまり、仮想スクリーンから、表示範囲として決定された範囲の画像が切り出され、切り出された画像が画面に表示される。

図３（Ａ）〜（Ｃ）は、仮想スクリーンの例と、仮想スクリーンに対する表示範囲の例とを示す図である。図３（Ａ）の例では、仮想スクリーンとしてスクリーンＳＣ１が定義される。スクリーンＳＣ１は、長方形の平面スクリーンであり、長方形の平面に動画が投影される。スクリーンＳＣ１上の表示範囲Ｒ１は、例えば、Ｘ座標、Ｙ座標、幅及び高さにより規定される。例えば、スクリーンＳＣ１の左上の頂点をスクリーンＳＣ１の座標系における原点とする。Ｘ座標及びＹ座標は、視点位置を定める。Ｘ座標は、表示範囲Ｒ１の左上の頂点の横方向の座標であり、Ｙ座標は、表示範囲Ｒ１の左上の頂点の縦方向の座標である。例えば三次元仮想空間において、スクリーンＳＣ１から所定距離離れている点を視点と仮定してもよい。例えば、視点を通り、スクリーンＳＣ１と垂直に交わる線を、視線とする。視線とスクリーンＳＣ１とが交わる点が、表示範囲Ｒ１の中心となる。幅及び高さは、視野面積を定める。幅及び高さは、表示範囲Ｒ１の横の長さ及び縦の長さである。視線方向は、予め定められている。

図３（Ｂ）の例では、仮想スクリーンとしてスクリーンＳＣ２が定義される。スクリーンＳＣ２は、円筒形のスクリーンであり、円筒の側面に動画が投影される。円筒の側面は、仮想立体面の一例である。スクリーンＳＣ２には、例えば円筒状のパノラマ動画が投影される。パノラマ動画は、例えば、全方位映像である。パノラマ動画は、３６０度より視野角が狭い部分方位映像であってもよい。スクリーンＳＣ２上の表示範囲Ｒ２は、例えば、方位角、横視野角、及び高さにより規定される。方位角は、視線方向を定める。例えば、スクリーンＳＣ２の円筒の中心軸の中点を、視点とする。また、視点を、三次元仮想空間の座標系における原点とし、スクリーンＳＣ２の中心軸をＺ軸とする。Ｘ軸は、原点を通り、Ｙ軸及びＺ軸に垂直である。Ｙ軸は、原点を通り、Ｘ軸及びＺ軸に垂直である。方位角は、視点からの視線の方向を定める。視線は、例えば、Ｚ軸と垂直である。方位角は、例えば、Ｘ軸と視線とがなす角度である。横視野角及び高さは、視野面積を定める。横視野角は、視線の方向を中心とした横方向の視野の範囲を示す角度である。高さは、表示範囲Ｒ２の縦の長さである。方位角、横視野角及び高さに基づいて、三次元仮想空間における視野範囲を示す四角錐が定義される。この四角錐がビューボリュームである。ビューボリュームとは、三次元仮想空間において、投影変換の対象となる範囲をいう。実際のビューボリュームは四角錐台であるが、説明の便宜上、四角錐を用いる。ビューボリュームの頂点が視点であり、ビューボリュームの底面の中心を視線が通る。ビューボリュームの側面Ｐ２１〜Ｐ２４のうち、Ｚ軸と平行な側面Ｐ２１と側面Ｐ２２とがなす角度が横視野角である。ビューボリュームとスクリーンＳＣ２とが交わる面の縦方向の長さが、高さである。そして、ビューボリュームとスクリーンＳＣ２とが交わる面が、表示範囲Ｒ２である。視点位置は、予め定められている。

図３（Ｃ）の例では、仮想スクリーンとしてスクリーンＳＣ３が定義される。スクリーンＳＣ３は、球状のスクリーンであり、球面に動画が表示される。スクリーンＳＣ３には、例えば球状のパノラマ動画が表示される。スクリーンＳＣ３上の表示範囲Ｒ３は、例えば、方位角、仰俯角、横視野角、縦視野角により規定される。方位角及び仰俯角は、視線方向を定める。三次元仮想空間において、例えば、スクリーンＳＣ３に囲まれている範囲内に、視点が位置する。例えば、スクリーンＳＣ３の球の中心を、視点とする。また、視点を、三次元仮想空間の座標系における原点とし、縦方向の座標軸をＺ軸とする。Ｘ軸は、原点を通り、Ｙ軸及びＺ軸に垂直である。Ｙ軸は、原点を通り、Ｘ軸及びＺ軸に垂直である。方位角は、例えば、ＸＺ平面と視線とがなす角度である。仰俯角は、例えば、ＸＹ平面と視線とがなす角度である。横視野角及び縦視野角は、視野面積を定める。横視野角は、視線の方向を中心とした横方向の視野の範囲を示す角度である。縦視野角は、視線の方向を中心とした縦方向の視野の範囲を示す角度である。ＸＹ平面上の線であって、原点を通り、視線と垂直に交わる線を、視線の縦回転軸とする。原点を通り、視線と縦回転軸とのそれぞれに垂直に交わる線を、視線の横回転軸とする。方位角、仰俯角、横視野角及び縦視野角に基づいて、三次元仮想空間における視野範囲を示す四角錐が定義される。この四角錐がビューボリュームである。ビューボリュームの頂点が視点であり、ビューボリュームの底面の中心を視線が通る。ビューボリュームの側面Ｐ３１〜Ｐ３４のうち、Ｚ軸と平行な側面Ｐ３１と側面Ｐ３２とがなす角度が横視野角である。側面Ｐ３３と側面Ｐ３４とがなす角度が縦視野角である。そして、ビューボリュームとスクリーンＳＣ３とが交わる面が、表示範囲Ｒ３である。視点位置は、予め定められている。透視変換により、視点位置、視線方向及び視野面積に基づいて、仮想スクリーン上の表示範囲の三次元座標が、二次元座標に変換される。変換された二次元座標により、例えばパノラマ動画を構成する画像フレームのうちどの部分が表示範囲内にあるかを特定することができる。方位角及び仰俯角の少なくとも何れかが変化することにより、視線方向が変化すると、視線方向に応じて表示範囲Ｒ３が変化する。また、縦視野角および横視野角の少なくとも何れかが変化することにより、視野面積が変化すると、視野面積に応じて表示範囲Ｒ３は変化する。つまり、表示範囲Ｒ３は、視線方向および視野面積に応じた範囲となる。なお、スクリーンＳＣ３は、一般に視点を完全に覆う立体であればよく、例えば、立方体等の形状をしたスクリーンであってもよい。

なお、スクリーンＳＣ１〜ＳＣ３のうち何れの仮想スクリーンが用いられるかは、例えば、動画データの種類に応じて、仮想スクリーンが決定されてもよい。例えば、パノラマ動画以外の動画に対しては、スクリーンＳＣ１が決定され、円筒状のパノラマ動画に対しては、スクリーンＳＣ２が決定され、球状のパノラマ動画に対しては、スクリーンＳＣ３が決定されてもよい。

また、制御部２１は、画面に表示中の動画の上記表示範囲を示す疑似カメラワークデータを生成する。図４（Ａ）〜（Ｃ）は、制御部２１により生成された疑似カメラワークデータの一例である。図４（Ａ）は、仮想スクリーンが長方形のスクリーンＳＣ１である場合の例を示す。図４（Ｂ）は、仮想スクリーンが円筒形のスクリーンＳＣ２である場合の例を示す。図４（Ｃ）は、仮想スクリーンが球形のスクリーンＳＣ３である場合の例を示す。なお、図４（Ａ）の例において、例えば、アスペクト比が１６対９のように決まっている場合、幅と高さの何れか一方が決まれば他方が決まるので、疑似カメラワークデータには幅と高さの何れか一方が含まれればよい。図４（Ａ）〜図４（Ｃ）の例では、０ミリ秒、１６ミリ秒、３３ミリ秒、４９ミリ秒等のそれぞれの再生位置の画像フレームにおける表示範囲を示す疑似カメラワークデータを示している。なお、１６ミリ秒は、ディスプレイのリフレッシュレート（６０Ｈｚ）と同程度である。

［２．通信システムＳの動作］
次に、本実施形態の通信システムＳの動作について説明する。

（２−１．疑似カメラワークデータのアップロード動作）
先ず、クライアント２においてコンテンツ再生中に疑似カメラワークデータが配信サーバ１へアップロードされる際の動作について説明する。

（２−１−１．クライアント２の処理）
図５を参照して、疑似カメラワークデータのアップロード動作におけるクライアント２の処理を説明する。図５（Ａ）は、クライアント２の制御部２１におけるメイン処理を示すフローチャートである。図５（Ｂ）は、図５（Ａ）に示すステップＳ４における入力処理の一例を示すフローチャートである。

例えばクライアント２においてプレイヤーソフトウェアが起動すると、クライアント２はページリクエストを配信サーバ１へ送信する。そして、クライアント２は、ページリクエストに応じて配信サーバ１から送信されたＷｅｂページを受信して表示部２４ａにおけるディスプレイに表示する。このＷｅｂページには、例えば、コンテンツの情報が選択可能に表示される。Ｗｅｂページに表示されるコンテンツの情報は、配信サーバ１にアップロードされた複数のコンテンツの中の一部のコンテンツの情報である。これには、例えば、ユーザに推奨されるコンテンツの情報、またはユーザにより入力されたキーワードに基づき検索されたコンテンツの情報が該当する。コンテンツの情報には、例えば、コンテンツのタイトル等の情報が含まれる。

そして、ユーザが操作部２５ａを操作して再生対象のコンテンツの情報を選択すると、図５（Ａ）に示すメイン処理を開始する。メイン処理が開始されると、制御部２１は、ワークファイルを初期化し、選択されたコンテンツの再生を開始する（ステップＳ１）。これにより、配信サーバ１からストリーミング配信されたコンテンツに含まれる動画データにより再生された動画がディスプレイのメイン画面に表示される。ワークファイルは、疑似カメラワークデータをアップロードするためのファイルである。ワークファイルは、記憶部２２に予め記憶される。ワークファイルの初期化により、再生が開始されたコンテンツのタイトルがワークファイルに設定される。ワークファイルには、コンテンツＩＤが設定されてもよい。

なお、図５（Ａ）の例では、メイン画面に表示された動画に対する疑似カメラワークの操作入力は「手動」に設定されているものとする。これにより、メイン画面に表示される動画の表示範囲は、例えば配信サーバ１から取得される疑似カメラワークデータに依らず、ユーザの疑似カメラワークの操作により変化することになる。

次いで、制御部２１は、現在の再生位置における動画の表示範囲を示す疑似カメラワークデータをワークファイルに格納する（ステップＳ２）。次いで、制御部２１は、現在の再生位置に対してユーザによるシーン情報の入力があるか否かを判定する（ステップＳ３）。

図５（Ｃ），（Ｄ）は、シーン情報を入力するための画面例を示す図である。図５（Ｃ）に示す画面には、再生された動画が表示されていると共に、表示中の動画のシーンに表れる複数の人物それぞれに対応するボタンが選択可能に表示されている。この人物は、例えば歌手であり、被写体の一例である。これらのボタンは、シーン情報を入力するためのボタン（以下、「シーン情報入力ボタン」という）である。各シーン情報入力ボタンは、例えばコンテンツ再生中に、ユーザから操作部２５ａを介してシーン情報入力ボタンの表示指示があった場合に表示される。各シーン情報入力ボタンには、それぞれ、人物を識別するＩＤ（識別情報）が対応付けられている。この対応付けは、例えば配信サーバ１側でコンテンツ生成時に行われる。なお、図５（Ｃ）の例では、人物を識別するＩＤがシーン情報入力ボタンに対応付けられている。しかし、人物以外の動物や建物等の被写体が表示される動画である場合、これらの被写体を識別するＩＤがシーン情報入力ボタンに対応付けられる。一方、図５（Ｄ）に示す画面には、再生された動画が表示されていると共に、文字列等のテキスト情報を入力するためのテキスト入力欄が表示されている。テキスト入力欄は、例えばコンテンツ再生中に、ユーザから操作部２５ａを介してテキスト入力欄の表示指示があった場合に表示される。

例えば、図５（Ｃ）に示す画面の表示状態で、ユーザが好きな人物に対応するシーン情報入力ボタンを選択すると、制御部２１は、シーン情報の入力があると判定し（ステップＳ３：ＹＥＳ）、ステップＳ４の入力処理へ進む。シーン情報入力ボタンの選択は、例えばマウスによりシーン情報入力ボタンをクリック、または指やペン等でシーン情報入力ボタンをタップすることにより行われる。また、例えば、図５（Ｄ）に示す画面の表示状態で、ユーザがテキスト入力欄を指定すると、制御部２１は、シーン情報の入力があると判定し（ステップＳ３：ＹＥＳ）、ステップＳ４の入力処理へ進む。テキスト入力欄の指定は、例えばマウスによりテキスト入力欄をクリック、または指やペン等でテキスト入力欄をタップすることにより行われる。一方、ユーザによるシーン情報の入力がないと判定された場合（ステップＳ３：ＮＯ）、ステップＳ６へ進む。

ステップＳ４の入力処理では、図５（Ｂ）に示すように、制御部２１は、シーン情報の入力がシーン情報入力ボタンによる「ＩＤ入力」であるか否かを判定する。例えば、図５（Ｃ）に示す画面の表示状態でシーン情報入力ボタンが選択された場合、シーン情報入力ボタンによる「ＩＤ入力」であると判定され（ステップＳ４１：ＹＥＳ）、ステップＳ４２へ進む。一方、例えば、図５（Ｄ）に示す画面の表示状態でテキスト入力欄が指定された場合、シーン情報入力ボタンによる「ＩＤ入力」でないと判定され（ステップＳ４１：ＮＯ）、ステップＳ４３へ進む。

ステップＳ４２では、制御部２１は、選択されたシーン情報入力ボタンに対応するＩＤをシーン情報として記憶し、且つ、このシーン情報入力ボタンが選択された時の動画の再生位置を示す再生位置情報をシーン情報に対応付けて記憶する。一方、ステップＳ４３では、制御部２１は、テキスト入力と判断して、ユーザが例えばキーボード等から最初の１文字目を入力した時の動画の再生位置を示す再生位置情報を記憶する。なお、最初の１文字目を入力した時の動画の再生位置でなく、２文字目からテキスト入力完了までの間の何れかの時点における動画の再生位置を示す再生位置情報が記憶されるように構成してもよい。そして、制御部２１は、ユーザによりテキスト入力欄に入力されたテキスト情報をシーン情報として、ステップＳ４３で記憶された再生位置情報に対応付けて記憶する（ステップＳ４４）。

図５（Ａ）に示す処理に戻り、ステップＳ５では、制御部２１は、図５（Ｂ）の処理で記憶されたシーン情報と再生位置情報とを、ステップＳ２で格納された疑似カメラワークデータに対応付けてワークファイルに格納する。これにより、疑似カメラワークデータにはシーン情報と再生位置情報とが付与される。次いで、制御部２１は、ユーザによる疑似カメラワークデータのアップロード指示があるか否かを判定する（ステップＳ６）。アップロード指示があったと判定された場合（ステップＳ６：ＹＥＳ）、ステップＳ７へ進む。一方、アップロード指示がないと判定された場合（ステップＳ６：ＮＯ）、ステップＳ９へ進む。

ステップＳ７では、制御部２１は、少なくとも、疑似カメラワークデータが格納されたワークファイルをネットワークＮＷを介して配信サーバ１へ送信する。これにより、動画の再生開始から再生終了までの一部分の疑似カメラワークデータがアップロードされる。次いで、制御部２１は、ワークファイルの内容をクリアし（ステップＳ８）、ステップＳ２に戻る。これにより、空のワークファイルが記憶部２２に残る。

ステップＳ９では、制御部２１は、コンテンツの終了位置まで再生したか否かを判定する。コンテンツの終了位置まで再生していないと判定された場合（ステップＳ９：ＮＯ）、ステップＳ２に戻り、上記処理を繰り返す。一方、コンテンツの終了位置まで再生したと判定された場合（ステップＳ９：ＹＥＳ）、ステップＳ１０へ進む。

ステップＳ１０では、制御部２１は、疑似カメラワークデータをアップロードするかをユーザに問い合わせるメッセージとともにアップロードボタンを画面に表示する。次いで、制御部２１は、ユーザによる疑似カメラワークデータのアップロード指示があるか否かを判定する（ステップＳ１１）。例えば、ユーザがアップロードボタンを選択すると、制御部２１は、アップロード指示があったと判定し（ステップＳ１１：ＹＥＳ）、ステップＳ１２へ進む。一方、アップロード指示がないと判定された場合（ステップＳ１１：ＮＯ）、図５（Ａ）に示す処理を終了する。ステップＳ１２では、少なくとも疑似カメラワークデータが格納されたワークファイルをネットワークＮＷを介して配信サーバ１へ送信し、図５（Ａ）に示す処理を終了する。

（２−１−２．配信サーバ１の処理）
図６を参照して、疑似カメラワークデータのアップロード動作における配信サーバ１の処理を説明する。図６は、配信サーバ１の制御部１１における処理を示すフローチャートである。図６に示す処理は、配信サーバ１がクライアント２からワークファイルを受信した場合に開始される。図６に示す処理が開始されると、制御部１１は、受信されたワークファイルをワークファイル記憶領域３１ｃに記憶する（ステップＳ１０１）。次いで、制御部１１は、受信されたワークファイルに設定されたコンテンツのタイトルからコンテンツの動画データを動画データ記憶領域３１ａから特定する（ステップＳ１０２）。

次いで、制御部１１は、受信されたワークファイルに格納された疑似カメラワークデータの中で、シーン情報及び再生位置情報が付与されている疑似カメラワークデータを特定する（ステップＳ１０３）。次いで、制御部１１は、ステップＳ１０２で特定された動画データを構成する動画ブロックに対応付けられた座標位置及び再生位置と、特定した疑似カメラワークデータが示す表示範囲及び疑似カメラワークデータに付与された再生位置情報とに基づいて、１以上の動画ブロックを特定する（ステップＳ１０４）。例えば、動画データを構成する複数の動画ブロックの中から、特定された疑似カメラワークデータが示す表示範囲に上記座標位置が含まれ、且つ、特定された疑似カメラワークデータに付与された再生位置情報が示す再生位置における画像フレームの一部が含まれる動画ブロックが特定される。

次いで、制御部１１は、ステップＳ１０３で特定された疑似カメラワークデータに付与されたシーン情報中にテキスト情報が含まれているか否かを判定する（ステップＳ１０５）。シーン情報中にテキスト情報が含まれていると判定された場合（ステップＳ１０５：ＹＥＳ）、ステップＳ１０６へ進む。一方、シーン情報中にテキスト情報が含まれていないと判定された場合（ステップＳ１０５：ＮＯ）、ステップＳ１０８へ進む。この場合、シーン情報中には、例えば、人物を識別するＩＤが含まれていることになる。

ステップＳ１０６では、制御部１１は、シーン情報中に含まれるテキスト情報を構文解析して単語情報を取り出す。これにより、例えばテキスト情報が例えば文章であった場合、文章中からワード（単語）が１以上取り出される。次いで、制御部１１は、例えば予め記憶されたキーワード辞書を用いて、ステップＳ１０６で取り出された単語情報の中からキーワードを、登録対象となるシーン情報として抽出する（ステップＳ１０７）。

ステップＳ１０８では、制御部１１は、疑似カメラワークデータに付与されたシーン情報またはステップＳ１０７で抽出されたシーン情報と同一又は類似するシーン情報が、ステップＳ１０４で特定された動画ブロックに既に対応付けられてシーン情報データベースに登録されているか否かを判定する。ここで、このシーン情報データベースは、ステップＳ１０２で特定された動画データに対応するシーン情報データベースである。シーン情報データベースは、ステップＳ１０８の処理前にシーン情報記憶領域３１ｄから特定される。また、類似するシーン情報であるか否かの判定は、例えば予め記憶された同義語辞書又は類義語辞書が用いられて判定される。例えばステップＳ１０７で抽出されたシーン情報と同義語又は類義語の関係にあるシーン情報は、類似するシーン情報として判定される。そして、ステップＳ１０４で特定された動画ブロックに既に対応付けられてシーン情報データベースに登録されていないと判定された場合（ステップＳ１０８：ＮＯ）、ステップＳ１０９へ進む。一方、ステップＳ１０４で特定された動画ブロックに既に対応付けられてシーン情報データベースに登録されていると判定された場合（ステップＳ１０８：ＹＥＳ）、ステップＳ１１０へ進む。

ステップＳ１０９では、制御部１１は、疑似カメラワークデータに付与されたシーン情報またはステップＳ１０７で抽出されたシーン情報を、ステップＳ１０４で特定された動画ブロックに対応付けてシーン情報データベースに登録し、図６に示す処理を終了する。このように、ユーザにより入力されたシーン情報が、このシーン情報に対応するシーンが表示される動画ブロックに対応付けられてシーン情報データベースに登録される。そのため、複数のユーザの嗜好が反映されたシーン情報データベースを効率良く生成することができる。ステップＳ１１０では、制御部１１は、ステップＳ１０４で特定された動画ブロックに対応付けて登録されているシーン情報の投稿回数を１インクリメントし、図６に示す処理を終了する。つまり、ステップＳ１０４で特定された動画ブロックに対応付けられた投稿回数に「１」が加算されてシーン情報データベースに更新登録される。このように、ユーザにより入力されたシーン情報の投稿回数が、このシーン情報に対応するシーンが表示される動画ブロックに対応付けられてシーン情報データベースに登録される。そのため、シーン情報が、ユーザから、より多く投稿されている注目度の高いシーンが表示される動画ブロックは、どの動画ブロックであるかを判定可能なシーン情報データベースを効率良く生成することができる。

（２−２．疑似カメラワークデータのリクエスト動作）
次に、クライアント２から配信サーバ１へ疑似カメラワークデータがリクエストされる際の動作について説明する。

（２−２−１．クライアント２の処理）
図７を参照して、疑似カメラワークデータのリクエスト動作におけるクライアント２の処理を説明する。図７（Ａ）は、クライアント２の制御部２１における処理を示すフローチャートである。

図７（Ａ）に示す処理は、例えば、プレイヤーソフトウェアの実行中に、ユーザから操作部２５ａを介して疑似カメラワークデータの検索指示があった場合に開始される。図７（Ａ）に示す処理が開始されると、制御部２１は、ユーザによる検索キーの入力があるか否かを判定する（ステップＳ２１）。検索キーは、例えば、ユーザが好きな人物が表れるシーンを検索するためのキーである。検索キーは、動画の部分領域の検索に用いられる第１の検索情報の一例である。

図７（Ｂ），（Ｃ）は、検索キーを入力するための画面例を示す図である。図７（Ｂ）に示す画面には、再生された動画が表示されていると共に、表示中の動画のシーンに表れる複数の人物それぞれに対応するボタンが選択可能に表示されている。これらのボタンは、検索キーを入力するためのボタン（以下、「検索キー入力ボタン」という）である。各検索キー入力ボタンは、例えばコンテンツ再生中に、ユーザから操作部２５ａを介して検索キー入力ボタンの表示指示があった場合に表示される。各検索キー入力ボタンには、図５（Ｃ）に示すシーン情報入力ボタンと同様、人物を識別するＩＤが対応付けられている。一方、図７（Ｃ）に示す画面には、再生された動画が表示されていると共に、検索キーワードを含むテキスト情報を入力するための検索キーワード入力欄が表示されている。検索キーワード入力欄は、例えばコンテンツ再生中に、ユーザから操作部２５ａを介して検索キーワード入力欄の表示指示があった場合に表示される。

例えば、図７（Ｂ）に示す画面の表示状態で、ユーザが好きな人物に対応する検索キー入力ボタンを選択すると、制御部２１は、ユーザによる検索キーの入力があると判定し（ステップＳ２１：ＹＥＳ）、ステップＳ２２へ進む。検索キー入力ボタンの選択方法は、シーン情報入力ボタンと同様である。また、例えば、図７（Ｃ）に示す画面の表示状態で、ユーザが検索キーワード入力欄を指定すると、制御部２１は、ユーザによる検索キーの入力と判定し（ステップＳ２１：ＹＥＳ）、ステップＳ２２へ進む。検索キーワード入力欄の指定方法は、テキスト入力欄と同様である。一方、ユーザによる検索キーの入力がないと判定された場合（ステップＳ２１：ＮＯ）、ステップＳ２８へ進む。

ステップＳ２２では、制御部２１は、検索キーの入力が検索キー入力ボタンによる「ＩＤ入力」であるか否かを判定する。例えば、図７（Ｂ）に示す画面の表示状態で検索キー入力ボタンが選択された場合、検索キー入力ボタンによる「ＩＤ入力」であると判定され（ステップＳ２２：ＹＥＳ）、ステップＳ２３進む。一方、例えば、図７（Ｃ）に示す画面の表示状態で検索キーワード入力欄が指定された場合、検索キー入力ボタンによる「ＩＤ入力」でないと判定され（ステップＳ２２：ＮＯ）、ステップＳ２４へ進む。

ステップＳ２３では、制御部２１は、選択された検索キー入力ボタンに対応するＩＤを検索キーとして記憶する。ここで、検索キー入力ボタンが選択された時の動画の再生位置を示す再生位置情報を検索キーに対応付けて記憶するように構成してもよい。ステップＳ２４では、制御部２１は、ユーザにより検索キーワード入力欄に入力されたテキスト情報を検索キーとして記憶する。ここで、ユーザが例えばキーボード等から最初の１文字目を入力した時の動画の再生位置を示す再生位置情報を検索キーに対応付けて記憶するように構成してもよい。なお、最初の１文字目を入力した時の動画の再生位置でなく、２文字目からテキスト入力完了までの間の何れかの時点における動画の再生位置を示す再生位置情報が記憶されるように構成してもよい。

次いで、制御部２１は、疑似カメラワークデータのリクエストを、ネットワークＮＷを介して配信サーバ１へ送信する（ステップＳ２５）。このリクエストは、疑似カメラワークデータの要求である。疑似カメラワークデータのリクエストには、例えばユーザにより選択されたコンテンツのタイトル、及びステップＳ２３またはステップＳ２４で記憶された検索キーが含まれる。疑似カメラワークデータのリクエストには、コンテンツの識別するコンテンツＩＤが含まれてもよい。また、疑似カメラワークデータのリクエストには、検索キーに対応付けられた再生位置情報が含まれるように構成してもよい。そして、制御部２１は、疑似カメラワークデータのリクエストに応じて配信サーバ１から送信されたワークファイルを受信する（ステップＳ２６）。次いで、制御部２１は、受信したワークファイルに格納された疑似カメラワークデータに従って、メイン画面とは異なるサブ画面に動画を表示させる（ステップＳ２７）。ここで、配信サーバ１から複数のワークファイルが受信される場合がある。この場合、サブ画面は、サムネイル画面として複数表示される。このサムネイル画面により、疑似カメラワークデータの一覧を表示することができる。

図７（Ｄ）は、メイン画面ＭＶとサブ画面ＳＶ１〜ＳＶ５の一例を示す図である。図７（Ｄ）の例では、サブ画面ＳＶ１〜ＳＶ５には、配信サーバ１から受信されたそれぞれの疑似カメラワークデータに従って、動画が表示されている。受信された疑似カメラワークデータが示す表示範囲には、上述した検索キーに基づいて検索された動画ブロックに含まれるシーンが含まれる。また、サブ画面ＳＶ１〜ＳＶ５に表示されている動画の再生位置は同一になっている。つまり、サブ画面ＳＶ１〜ＳＶ５に表示されている画像フレームは同一であるが、この画像フレームにおける表示範囲が互いに異なっている。これは、例えば仮想カメラのアングルや視界の広さなどが異なることを意味する。ユーザは、サブ画面ＳＶ１〜ＳＶ５に表示された動画により、ユーザは、コンテンツ再生中に見たいシーンを見ることができる。なお、サブ画面ＳＶ１〜ＳＶ５に表示中の何れかの動画が、ユーザにより選択指示された場合、メイン画面ＭＶに表示中の動画が、選択指示された動画に切換えられる。

ステップＳ２８では、例えばユーザからプレイヤーの終了指示があるか否かを判定する。プレイヤーの終了指示があったと判定された場合（ステップＳ２８：ＹＥＳ）、図７（Ａ）に示す処理は終了する。一方、プレイヤーの終了指示がないと判定された場合（ステップＳ２８：ＮＯ）、ステップＳ２１に戻り、上記処理を継続する。

（２−２−２．配信サーバ１の処理）
図８を参照して、疑似カメラワークデータのリクエスト動作における配信サーバ１の処理を説明する。図８は、配信サーバ１の制御部１１における処理を示すフローチャートである。図８に示す処理は、配信サーバ１がクライアント２から疑似カメラワークデータのリクエストを受信した場合に開始される。図８に示す処理が開始されると、制御部１１は、受信されたリクエストから検索キーを取得する（ステップＳ１１１）。ここで、リクエストには、文章から構成されたテキスト情報が含まれる場合がある。この場合、制御部１１は、テキスト情報を構文解析することで文章中から検索キーとして検索キーワードを取得する。また、リクエストには、再生位置情報が含まれる場合がある。この場合、制御部１１は、リクエストから検索キー及び再生位置情報を取得する。

次いで、制御部１１は、リクエストに含まれるコンテンツのタイトルまたはコンテンツＩＤに対応付けられたシーン情報データベースをシーン情報記憶領域３１ｄから特定する（ステップＳ１１２）。次いで、制御部１１は、ステップＳ１１１で取得された検索キーと、ステップＳ１１２で特定されたシーン情報データベースに登録されたシーン情報とに基づいて、検索キーに対応するシーン情報が対応付けられた動画ブロックをシーン情報データベースから検索する（ステップＳ１１３）。ここで、検索キーに対応するシーン情報とは、検索キーと一致するシーン情報である。また、検索キーが複数ある場合、検索キーに対応するシーン情報とは、全ての検索キーを含むシーン情報である。なお、ステップＳ１１１で再生位置情報が取得される場合がある。この場合、制御部１１は、シーン情報データベースを参照して、取得された再生位置情報が示す再生位置の画像フレームにおける動画ブロックの中から、検索キーに対応するシーン情報が対応付けられた動画ブロックを検索する。

次いで、制御部１１は、ステップＳ１１３の検索結果、動画ブロックが検索されたか否かを判定する（ステップＳ１１４）。そして、動画ブロックが検索されないと判定された場合（ステップＳ１１４：ＮＯ）、ステップＳ１１５へ進む。ステップＳ１１５では、制御部１１は、検索対象のシーンが存在しないことを示す情報をクライアント２へ通知し、図８に示す処理を終了する。一方、動画ブロックが検索されたと判定された場合（ステップＳ１１４：ＹＥＳ）、ステップＳ１１６へ進む。

ステップＳ１１６では、制御部１１は、ステップＳ１１３で検索された動画ブロックを、検索対象のシーンを含む動画ブロックとして決定する。例えば、検索キーが示す人物等の被写体が表れる動画ブロックを含むシーンが決定される。次いで、制御部１１は、ステップＳ１１６で決定された動画ブロックが含まれる表示範囲を示す疑似カメラワークデータをワークファイル記憶領域３１ｃから取得する（ステップＳ１１７）。つまり、ステップＳ１１６で決定された動画ブロックを通過する疑似カメラワークデータが取得される。

次いで、制御部１１は、ステップＳ１１７で取得された疑似カメラワークデータが所定数以上あるか否かを判定する（ステップＳ１１８）。ここで、所定数は、例えばクライアント２におけるサブ画面の数に設定される。そして、ステップＳ１１７で取得された疑似カメラワークデータが所定数以上ないと判定された場合（ステップＳ１１８：ＮＯ）、ステップＳ１１９へ進む。一方、ステップＳ１１７で取得された疑似カメラワークデータが所定数以上あると判定された場合（ステップＳ１１８：ＹＥＳ）、ステップＳ１２０へ進む。

ステップＳ１１９では、制御部１１は、ステップＳ１１７で取得された疑似カメラワークデータを、クライアント２のユーザへ提供する疑似カメラワークデータとして決定する。ステップＳ１２０では、制御部１１は、ステップＳ１１６で決定された動画ブロックに対応付けられたシーン情報の投稿回数に基づいて、ステップＳ１１７で取得された疑似カメラワークデータを順位付けする。例えば、制御部１１は、疑似カメラワークデータが示す表示範囲を含む各動画ブロックに対応付けられた投稿回数の総和が多い順に、ステップＳ１１７で取得された疑似カメラワークデータを順位付けする。そして、制御部１１は、順位付けされた順位が高い上位所定数の疑似カメラワークデータを、クライアント２のユーザへ提供する疑似カメラワークデータとして決定する（ステップＳ１２１）。ここで、上位所定数は、例えばクラアイント２で表示可能なサブ画面の数（図７（Ｄ）の例では、５つ）に基づき設定されるように構成するとよい。この場合、上述したリクエストには、サブ画面の数を示す情報が含まれる。これにより、シーン情報がより多く投稿されている注目度が高い動画ブロックを通過する疑似カメラワークデータを、クライアント２のユーザへ提供する疑似カメラワークデータとして決定することができる。

次いで、制御部１１は、ステップＳ１１９またはステップＳ１２１で決定された疑似カメラワークデータが格納されたワークファイルを、クライアント２へ送信し（ステップＳ１２２）、図８に示す処理を終了する。

なお、疑似カメラワークデータのリクエスト動作において、メイン画面に動画が表示されているときに、ユーザによる検索キーの入力される場合を例で示した。しかし、ユーザによる検索キーの入力、及びクライアント２から配信サーバ１へのリクエストの送信は、メイン画面に動画が表示されていないときに行われるものであってもよい。例えば、クライアント２のユーザの携帯端末から入力された検索キーを含むリクエストが配信サーバ１へ送信されるように構成してもよい。この場合、配信サーバ１の制御部１１は、リクエストの受信後、ステップＳ１１９またはステップＳ１２１で決定された疑似カメラワークデータが格納されたワークファイルを、リクエストを送信した携帯端末へは送信しない。配信サーバ１の制御部１１は、このワークファイルを、クライアント２及び携帯端末のユーザを識別するユーザＩＤに対応付けてワークファイル記憶領域３１ｃに記憶する。その後、クライアント２が配信サーバ１へアクセスし、例えばユーザＩＤを用いてユーザのログインが行われた場合、配信サーバ１は、ユーザＩＤに対応付けられて記憶されたワークファイルを、クライアント２へ送信する。これにより、クライアント２は、受信したワークファイルに格納された疑似カメラワークデータに従って、メイン画面とは異なるサブ画面に動画を表示させる。

以上説明したように、上記実施形態によれば、配信サーバ１は、疑似カメラワークデータのリクエストをクライアント２から受信したとき、動画を構成する画像フレームにおける部分領域に対応付けられて予め記憶されたシーン情報に基づいて、リクエストに含まれる検索キーに対応するシーン情報に対応付けられた部分領域を決定し、決定された部分領域を含む表示範囲を示す疑似カメラワークデータを、クライアント２のユーザへ提供する疑似カメラワークデータとして決定する。そのため、検索キーを入力するユーザが所望する疑似カメラワークに対応する表示範囲を示す疑似カメラワークデータを効率良く検索し、ユーザに対して提供することができる。例えば、ユーザが見たい人物等の被写体が表れるシーンを含む表示範囲を示す疑似カメラワークデータをユーザに対して提供することができる。

また、ユーザにより検索キーが入力されたときの動画の再生位置を示す再生位置情報が上記リクエストに含まれる場合、配信サーバ１は、この再生位置情報が示す再生位置の画像フレームにおける部分領域の中から、リクエストに含まれる検索キーに対応するシーン情報に対応付けられた部分領域を決定する。そのため、動画の再生時間全体においてユーザが所望するタイミングにおける表示範囲を示す疑似カメラワークデータを効率良く検索し、ユーザに対して提供することができる。

なお、図８に示すステップＳ１１７において、制御部１１は、ステップＳ１１２で特定されたシーン情報データベースに基づいて、ステップＳ１１６で決定された動画ブロックが含まれる表示範囲を示す疑似カメラワークデータを生成することで取得するように構成してもよい。例えば、制御部１１は、上述したシーン情報データベースにおける動画ブロックに対応付けられた投稿回数の中で、投稿回数が最も多い動画ブロックを中心とするか又は投稿回数が多い上位の複数の動画ブロックの重心を中心とする表示範囲を動画ブロックの再生位置ごとに決定し、決定した表示範囲を再生位置ごとに示す疑似カメラワークデータを生成する。

図９（Ａ）は、動画を構成する１画像フレームにおける部分領域をピクセルとした場合の表示範囲を示す図である。図９（Ｂ）は、動画を構成する１画像フレームにおける部分領域を動画ブロックとした場合の表示範囲を示す図である。図９（Ａ）の例では、投稿回数が最も多いピクセルＰを中心として、１画像フレームＦ全体の合計投稿回数の５０％が含まれる領域が表示範囲Ｒ２１として決定されている。この５０％は、表示割合である。例えば、１画像フレームＦ全体の合計投稿回数が「３０」であるとすると、表示範囲Ｒ２１内の合計投稿回数は「１５」になる。なお、投稿回数が最も多いピクセルが複数ある場合、これらのピクセルの重心が表示範囲の中心とされる。一方、図９（Ｂ）の例では、投稿回数が最も多い動画ブロックＢ１の中心を中心として、１画像フレームＦ全体の合計投稿回数の５０％が含まれる領域が表示範囲Ｒ２２になっている。なお、投稿回数が最も多い動画ブロックが複数ある場合、これらの動画ブロックの中心から求まる重心が表示範囲の中心とされる。また、図９（Ｂ）において、動画ブロックＢ１の隣接する動画ブロックＢ２〜Ｂ９は、一部分の領域が表示範囲Ｒ２２に含まれている。例えば、動画ブロックＢ２の３０％の領域が表示範囲Ｒ２２に含まれているとすると、動画ブロックＢ２の投稿回数の３０％が表示範囲Ｒ２２の投稿回数に含まれることになる。つまり、表示範囲Ｒ２２の投稿回数が、１画像フレームＦ全体の合計投稿回数の５０％になるように、隣接する動画ブロックＢ２〜Ｂ９が分割されることになる。

表示範囲Ｒ２１又はＲ２２の投稿回数が１画像フレームＦ全体の合計投稿回数の５０％以上になるように決定すれば、より多く投稿されている注目度の高いシーンを表示する疑似カメラワークデータを生成することができる。ただし、１画像フレームＦ全体の合計投稿回数の５０％という表示割合に限定されるものではない。例えば、表示範囲Ｒ２１又はＲ２２の投稿回数が１画像フレームＦ全体の合計投稿回数の４０％以上になるように表示割合を決定してもよい。なお、仮想スクリーンが長方形のスクリーンＳＣ１の場合、例えばアスペクト比を１６：９などに固定して、表示範囲のサイズが調整される。

ところで、疑似カメラワークデータの自動生成処理により１画像フレームＦごとに表示範囲を決定すると再生したときに、動画が連続せず見づらくなることがある。そのため、画像フレームＦにおける表示範囲を、単位再生時間ごとに決定して、その間が連続的に変化するように補完してもよい。図９（Ｃ）は、５秒間隔ごとに決定された表示範囲Ｒ３１〜Ｒ３３の間が連続的に変化するように補完された例を示す概念図である。図９（Ｃ）の例では、「０秒〜５秒」の単位再生時間範囲、「５秒〜１０秒」の単位再生時間範囲、及び「１０秒〜１５秒」の単位再生時間範囲のそれぞれにおいて表示範囲が決定されている。「０秒〜５秒」の単位再生時間範囲における表示範囲Ｒ３１は、この単位再生時間範囲の真中の２．５秒の再生位置における表示範囲として決定されている。５秒〜１０秒の単位再生時間範囲における表示範囲Ｒ３２は、この単位再生時間範囲の真中の７．５秒の再生位置における表示範囲として決定されている。「１０秒〜１５秒」の単位再生時間範囲における表示範囲Ｒ３３は、この単位再生時間範囲の真中の１２．５秒の再生位置における表示範囲として決定されている。そして、２．５秒の再生位置と５秒の再生位置との間に位置する画像フレームＦにおける表示範囲、及び５秒の再生位置と７．５秒の再生位置との間に位置する画像フレームＦにおける表示範囲は連続的に変化するように補完されている。このような補完は、図９（Ｃ）に示すように直線的でなくともよく、滑らかな曲線になるようにした方が望ましい。

図１０（Ａ）は、配信サーバ１の制御部１１における疑似カメラワークデータの自動生成処理を示すフローチャートである。このフローチャートは、図９に示す例を考慮したものである。図１０（Ａ）に示す疑似カメラワークデータの自動生成処理は、例えば、シーン情報データベースが更新される度に、または所定回数（例えば、１０回）更新される度に実行される。或いは、疑似カメラワークデータの自動生成処理は、定期的に実行されるように構成してもよい。あるいは、運用者等の判断で任意のタイミングで実行しても良い。疑似カメラワークデータの自動生成処理が開始されると、新規の疑似カメラワークデータが生成される。生成された疑似カメラワークデータは、この段階では、空の疑似カメラワークデータである。次いで、制御部１１は、先頭要素として再生位置「０」における表示範囲を再生位置「０」に対応付けて新規の疑似カメラワークデータに登録する（ステップＳ２０１）。再生位置「０」における表示範囲は、例えば、再生位置「０」における画像フレームＦ全体として決定される。

次いで、制御部１１は、変数ｉに「０」をセットする（ステップＳ２０２）。次いで、制御部１１は、上述した単位再生時間範囲「Ｔ×ｉ〜Ｔ×（ｉ＋１）」に含まれる各再生位置における画像フレームＦの集合を処理対象として決定する（ステップＳ２０３）。ここで、「Ｔ」は、１つの単位再生時間範囲の時間的な長さである。次いで、制御部１１は、シーン情報データベースを参照して、ステップＳ２０３で決定された処理対象の中で、投稿回数が最も多い部分領域の中心を表示範囲の中心として決定する（ステップＳ２０４）。

次いで、制御部１１は、シーン情報データベースを参照して、表示割合が例えば０．５となるように画像フレームＦにおける表示範囲を決定する（ステップＳ２０５）。この表示割合は、例えば、動画の再生時間全体の合計投稿回数を、ステップＳ２０３で決定された処理対象の合計投稿回数で除算することにより算出される。次いで、制御部１１は、ステップＳ２０５で決定した表示範囲の再生位置を「Ｔ×ｉ＋Ｔ／２）」として決定する（ステップＳ２０６）。例えば、０秒〜５秒の単位再生時間範囲である場合、再生位置「Ｔ×ｉ＋Ｔ／２）」は２．５秒として決定される。

次いで、制御部１１は、新規の疑似カメラワークデータに登録された再生位置の中で、最後に登録された再生位置から、再生位置「Ｔ×ｉ＋Ｔ／２）」までの間の各再生位置における表示範囲を補完計算により決定する（ステップＳ２０７）。補完計算では、例えば、再生位置「０」における表示範囲と再生位置「２．５秒」における表示範囲とに基づき、再生位置「０」〜再生位置「２．５秒」の間に位置する画像フレームＦにおける表示範囲が連続的に変化するように計算される。なお、このような補完計算自体は、公知の方法を適用することができるので詳しい説明は省略する。

次いで、制御部１１は、ステップＳ２０５で決定された表示範囲、及びステップＳ２０７で決定された表示範囲を、それぞれの再生位置に対応付けて新規の疑似カメラワークデータに登録する（ステップＳ２０８）。次いで、制御部１１は、変数ｉを１インクリメントする（ステップＳ２０９）。次いで、制御部１１は、「Ｔ×ｉ」が動画の再生時間全体より大きいか否かを判定する（ステップＳ２１０）。「Ｔ×ｉ」が動画の再生時間全体より大きくないと判定された場合（ステップＳ２１０：ＮＯ）、ステップＳ２０３に戻る。これにより、次の単位再生時間範囲において上記と同様の処理が実行される。「Ｔ×ｉ」が動画の再生時間全体より大きいと判定された場合（ステップＳ２１０：ＹＥＳ）、疑似カメラワークデータの自動生成処理を終了する。

次に、図１１は、疑似カメラワークデータの自動生成処理の他の例を示す概念図である。図１１の例では、ある再生位置における画像フレームＦにおける部分領域を動画ブロックとした場合に、表示範囲が決定されるまでの様子を示している。図１１に示す数値は、各動画ブロックの投稿回数である。疑似カメラワークデータの自動生成処理では、先ず、図１１（Ａ）に示すように、最も投稿回数の大きい動画ブロックＢ１が選定される。このときの表示割合は、１画像フレームＦ全体の合計投稿回数が「３０」であるとすると、２０％（＝６／３０）となる。この表示割合が、例えば５０％を超えるまで動画ブロックの選定が繰り返される。次に、図１１（Ｂ）に示すように、選定された動画ブロックＢ１に隣接する動画ブロックの中で最も投稿回数の大きい動画ブロックＢ３が選定される。このときの表示割合は、３３％（＝１０／３０）となる。次に、図１１（Ｃ）に示すように、選定された動画ブロックＢ１に隣接する動画ブロックの中で動画ブロックＢ３の次に投稿回数の大きい動画ブロックＢ５が選定される。このときの表示割合は、４３％（＝１３／３０）となる。次に、図１１（Ｄ）に示すように、選定された動画ブロックＢ１に隣接する動画ブロックの中で動画ブロックＢ３及びＢ５の次に投稿回数の大きい動画ブロックＢ８が選定される。このときの表示割合は、５３％（＝１６／３０）となる。このように表示割合が５０％を超えた場合、図１１（Ｅ）に示すように、上記選定された動画ブロックＢ１，Ｂ２，Ｂ４，及びＢ８を全て含む最小の領域が表示範囲Ｒ４１として決定される。なお、アスペクト比が固定の場合、決定された表示範囲Ｒ４１はアスペクト比に応じた表示範囲に調整される。

図１０（Ｂ）は、疑似カメラワークデータの自動生成処理の他の例を示すフローチャートである。このフローチャートは、図１１に示す例を考慮したものである。図１０（Ｂ）に示す疑似カメラワークデータの自動生成処理の開始条件は、図１０（Ａ）に示す疑似カメラワークデータの自動生成処理の開始条件と同様である。なお、図１０（Ｂ）に示すステップＳ２１１〜Ｓ２１３の処理は、図１０（Ａ）に示すステップＳ２０１〜Ｓ２０３の処理と同様である。

図１０（Ｂ）に示すステップＳ２１４では、制御部１１は、シーン情報データベースを参照して、ステップＳ２１３で決定された処理対象の中で、投稿回数が最も多い動画ブロックを選定する。次いで、制御部１１は、シーン情報データベースを参照して、ステップＳ２１４で選定された動画ブロックが配置された画像フレームＦにおいて、ステップＳ２１４で選定された動画ブロックに隣接する動画ブロックの中で最も投稿回数の大きい動画ブロックを選定する（ステップＳ２１５）。なお、ステップＳ２１５で選定された動画ブロックは以降のステップＳ２１６の処理で選定対象外に設定される。

次いで、制御部１１は、シーン情報データベースを参照して、表示割合が例えば０．５以上になったか否かを判定する（ステップＳ２１６）。ここで、表示割合は、図１０（Ａ）に示すステップＳ２０５の処理の場合と同様である。表示割合が例えば０．５以上になっていないと判定された場合（ステップＳ２１６：ＮＯ）、ステップＳ２１５に戻る。これにより、例えば、ステップＳ２１４で選定された動画ブロックに隣接する動画ブロックの中で次に投稿回数の大きい動画ブロックが選定される。一方、表示割合が例えば０．５以上になったと判定された場合（ステップＳ２１６：ＹＥＳ）、ステップＳ２１７へ進む。ステップＳ２１７では、制御部１１は、ステップＳ２１４及びステップＳ２１５で選定された動画ブロックを全て含む最小の領域を表示範囲として決定し、ステップＳ２１８へ移行する。図１０（Ｂ）に示すステップＳ２１８〜Ｓ２２２の処理は、図１０（Ａ）に示すステップＳ２０６〜Ｓ２１０の処理と同様である。以上のように、疑似カメラワークデータの自動生成処理により生成された疑似カメラワークデータは、図８に示すステップＳ１２２において、クライアント２へ送信される。

以上説明したように、疑似カメラワークデータの自動生成処理によれば、シーン情報データベースを利用して、より多く投稿されている注目度の高いシーンを含む表示範囲を示す疑似カメラワークデータを自動的に生成して、生成された疑似カメラワークデータを、ユーザに対して推奨する適切な疑似カメラワークデータとして決定することができる。

なお、上記実施形態において、クライアント２は配信サーバ１からコンテンツ及びコンテンツの疑似カメラワークデータを受信する構成を示した。しかし、ハイブリッド型またはピア型のピアツーピアネットワークにおいて、クライアント２が他のクライアント２からコンテンツ及びコンテンツの疑似カメラワークデータを受信する場合に対しても本発明は適用できる。この場合、クライアント２が本発明の情報処理装置として機能する。また、上記実施形態において、クライアント２が記憶装置３と接続可能であるように構成してもよい。この場合、クライアント２は記憶装置３から取得したコンテンツを再生する。そして、クライアント２は、記憶装置３から取得した疑似カメラワークデータに従って、動画を表示することになる。

１配信サーバ
２クライアント
１１記憶装置
２１制御部
２２記憶部
Ｓ通信システムＳ

Claims

動画を構成する画像フレーム内で、表示手段により表示される表示範囲が、動画の再生位置に応じて変化可能な動画の前記表示範囲を再生位置ごとに示す表示範囲情報の要求であって、前記動画の前記画像フレームにおける１以上の画素から構成される領域の検索に用いられる第１の検索情報を含む前記要求を端末装置から受信する受信手段と、
複数の前記領域それぞれに対応付けられた第２の検索情報であって、前記領域の特徴を示す第２の検索情報と、複数の前記領域それぞれに対する前記第２の検索情報の対応付け回数と、を記憶する記憶手段と、
前記記憶手段に記憶された前記第２の検索情報に基づいて、前記受信手段により受信された前記第１の検索情報に対応する前記第２の検索情報が対応付けられた前記領域を前記記憶手段から検索し、前記対応付け回数の多い領域を優先して決定する第１決定手段と、
前記第１決定手段により決定された前記領域を含む前記表示範囲を示す表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定する第２決定手段と、
を備えることを特徴とする情報処理装置。
前記領域に対応付けられた前記第２の検索情報は、前記領域を含む前記動画の表示範囲に表れる被写体を示し、
前記受信手段は、被写体を示す前記第１の検索情報を含む前記要求を受信し、
前記第１決定手段は、前記領域に対応付けられた前記第２の検索情報に基づいて、前記受信手段により受信された前記第１の検索情報が示す被写体が表れる表示範囲を含む前記領域を決定し、
前記第２決定手段は、前記第１決定手段により決定された前記領域を含む前記表示範囲を示す前記表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定することを特徴とする請求項１に記載の情報処理装置。
前記受信手段は、前記端末装置において前記動画の表示中に前記第１の検索情報が入力されたときの前記動画の再生位置を示す再生位置情報と前記第１の検索情報とを含む前記要求を受信し、
前記第１決定手段は、前記受信手段により受信された再生位置情報が示す再生位置の前記画像フレームにおける前記領域の中から、前記受信手段により受信された前記第１の検索情報に対応する前記第２の検索情報に対応付けられた前記領域を決定し、
前記第２決定手段は、前記第１決定手段により決定された前記領域を含む前記表示範囲を示す前記表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定することを特徴とする請求項１又は２に記載の情報処理装置。
コンピュータにより行われる情報処理方法であって、
動画を構成する画像フレーム内で、表示手段により表示される表示範囲が、動画の再生位置に応じて変化可能な動画の前記表示範囲を再生位置ごとに示す表示範囲情報の要求であって、前記動画の前記画像フレームにおける１以上の画素から構成される領域の検索に用いられる第１の検索情報を含む前記要求を端末装置から受信する受信ステップと、
複数の前記領域それぞれに対応付けられた第２の検索情報であって、前記領域の特徴を示す第２の検索情報と、複数の前記領域それぞれに対する前記第２の検索情報の対応付け回数と、を記憶する記憶手段に記憶された前記第２の検索情報に基づいて、前記受信ステップにより受信された前記第１の検索情報に対応する前記第２の検索情報が対応付けられた前記領域を検索し、前記対応付け回数の多い領域を優先して決定する第１決定ステップと、
前記第１決定ステップにより決定された前記領域を含む前記表示範囲を示す表示範囲情報を、前記端末装置へ提供する表示範囲情報として決定する第２決定ステップと、
を含むことを特徴とする情報処理方法。