JP2017059902A - 情報処理装置、プログラム、画像処理システム - Google Patents
情報処理装置、プログラム、画像処理システム Download PDFInfo
- Publication number
- JP2017059902A JP2017059902A JP2015181145A JP2015181145A JP2017059902A JP 2017059902 A JP2017059902 A JP 2017059902A JP 2015181145 A JP2015181145 A JP 2015181145A JP 2015181145 A JP2015181145 A JP 2015181145A JP 2017059902 A JP2017059902 A JP 2017059902A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- image
- image data
- transmission
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/698—Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】頻繁な画面の変化が抑制された情報処理装置を提供する。【解決手段】ネットワークを介して通信可能な他の伝送端末に画像データを送信する伝送端末10であって、撮像手段17が撮像した画像データから人を認識する認識手段と、画像データに撮像されている人のうち話者を推定する話者推定手段14と、話者推定手段が推定した話者の発言時間を測定する測定手段と、測定手段が測定した発言時間に基づいて、継続して発言する話者を含む話者画像を画像データから取得する取得手段と、取得手段が取得した話者画像を情報端末に送信する送信手段11と、を有する。【選択図】図7
Description
本発明は、情報処理装置、プログラム及び画像処理システムに関する。
インターネット等の通信ネットワークを介して複数の端末装置間でテレビ会議等を行う伝送システムが知られている。このような伝送システムでは、一方の伝送端末でテレビ会議中に収集された画像データ及び音声データを他方の伝送端末に送信する。他方の伝送端末はこの画像データ及び音声データを受信し、ディスプレイ等に画像を表示したり、スピーカから音声を出力したりすることで、これらの伝送端末間でテレビ会議を行うことができる。
伝送端末が画像データを取得するためにはカメラが用いられるが、このカメラに周囲360度を撮像可能なカメラ(以下、全天球カメラという)を用いることが検討されている。従来のカメラでは画角が狭いため、複数の話者を正面から撮像することは困難であったが、全天球カメラでは全天球カメラを囲むように存在する複数の話者をそれぞれ正面から撮像することが可能になる。
しかし、全天球カメラが撮像する画像には複数の話者が含まれているため、他方の伝送端末のユーザが話者を特定することが困難になる傾向がある。このような不都合に対し、広角画像から話者を取り出して他方の伝送端末に送信する技術が考案されている(例えば、特許文献1参照。)。特許文献1には、音声入力手段から入力した音声の時間差又は強度に基づいて音源方向を特定し、音源方向の領域を画像から抽出して表示する画像出力装置が開示されている。
しかしながら、特許文献1に記載された画像出力装置のように、話者が変わるたびに伝送端末が送信する画像を切り替えると、他方の伝送端末のディスプレイで頻繁な画面の変化が生じ、ユーザにとって好ましくない画面遷移となるおそれがあるという問題があった。
本発明は、上記課題に鑑み、頻繁な画面の変化が抑制された情報処理装置を提供することを目的とする。
上記課題に鑑み、本発明は、ネットワークを介して通信可能な情報端末に画像データを送信する情報処理装置であって、撮像手段が撮像した画像データから人を認識する認識手段と、前記画像データに撮像されている人のうち話者を推定する話者推定手段と、前記話者推定手段が推定した前記話者の発言時間を測定する測定手段と、前記測定手段が測定した前記発言時間に基づいて、継続して発言する前記話者を含む話者画像を画像データから取得する取得手段と、前記取得手段が取得した前記話者画像を前記情報端末に送信する送信手段と、を有する情報処理装置を提供する。
頻繁な画面の変化が抑制された情報処理装置を提供することができる。
以下、本発明を実施するための形態について図面を参照しながら説明する。
図1は、本実施形態の伝送システム1の概略的な構成を説明する図の一例である。図1では拠点Iと拠点IIの2拠点間でテレビ会議が行われている。拠点Iには、6人の参加者A〜Fがテーブルを囲むように着席しており、拠点IIには一人の参加者aが存在する。
拠点Iのテーブルには、周囲360を撮像可能な全天球カメラ112aとマイク114が配置されている。全天球カメラ112aとマイク114は伝送端末10aaと接続されている。また、伝送端末10aaにはディスプレイ120aaが接続されている。拠点IIにはカメラ及びマイクを内蔵した伝送端末10abが配置されており、伝送端末10abにはディスプレイ120abが接続されている。
このような構成において、伝送端末10aaは、全天球カメラ112aが撮像した画像データを後述するように加工して拠点IIに送信する。また、伝送端末10abは、内蔵のカメラが撮像した画像データを拠点Iに送信する。従って、ディスプレイ120aaは参加者aを含む画像データを表示し、ディスプレイ120abは参加者A〜Fの一人以上(図1の例では六人全て)を含む画像データを表示する。
このように全天球カメラ112aが参加者A〜Fを撮像することで、参加者aは拠点Iの全ての参加者A〜Fを目視することが可能となり、臨場感のあるテレビ会議が可能になる。
そして、本実施形態の伝送端末10aaは、参加者A〜Fのうちの話者の検出結果に基づいて、全天球カメラ112aが撮像した画像データから一部をトリミングし、トリミングした画像データ(以下、トリミング画像という)を拠点IIに送信する。
図2を用いて、伝送端末10aaのトリミングについて説明する。図2は、伝送端末10aaによるトリミングと拠点IIのディスプレイ120abに表示される画面を説明する図の一例である。
図2(a)はディスプレイ120abに表示されるトリミング画像と伝送端末10aaが行う処理を説明している。参加者Bが発言しているため、伝送端末10aaは画像データから参加者Bが撮像されている範囲をトリミングする。従って、ディスプレイ120abには参加者Bが含まれるトリミング画像9が表示される。
図2(b)は参加者Eが発言を開始した状態のディスプレイ120abに表示されるトリミング画像と伝送端末10aaが行う処理を説明している。伝送端末10aaは参加者Eが発言を開始したことを検出する。しかしながら、本実施形態の伝送端末10aaは切替時間が経過するまでトリミング画像9を変更しない。従って、ディスプレイ120abには参加者Bが含まれるトリミング画像9が継続して表示される。
図2(c)は参加者Eが発言を開始してから切替時間が経過した場合にディスプレイ120abに表示されるトリミング画像と伝送端末10aaが行う処理を説明している。伝送端末10aaは参加者Eが切替時間以上、継続して発言していることを検出する。伝送端末10aaは画像データから参加者Eが撮像されている範囲をトリミングする。従って、ディスプレイ120abには参加者Eが含まれるトリミング画像9が表示される。
このように、話者が切替時間以上、継続して話さないとトリミング画像9が切り替わらないので、ディスプレイ120abの画面が頻繁に変更することを軽減できる。すなわち、トリミング画像9は最低でも切替時間が経過しないと切り替わらないので、トリミング画像9の取得頻度又は切り替え頻度(更新頻度)は所定以下に制限され、ディスプレイ120abの画面が頻繁に変更されることを軽減できる。
続いて、複数の話者を同時に伝送端末10aaがトリミングする場合のトリミング画像9について説明する。
図3は、伝送端末10aaが複数の話者を同時にトリミングするトリミング画像9と拠点IIのディスプレイ120abに表示される画面を説明する図の一例である。図3では複数の話者として2人(伝送端末10aaのユーザ)が選択されているものとする。
図3(a)では、参加者C,Dの発言時間が他の参加者よりも長いため、伝送端末10aaは画像データから参加者C,Dが撮像されている範囲をトリミングする。従って、ディスプレイ120abには参加者C,Dが含まれるトリミング画像9が表示される。
図3(b)に示すように、伝送端末10aaは一定時間ごとに各参加者の発言時間を集計する。この一定時間(所定時間)を集計時間と称する。すなわち、伝送端末10aaは集計時間の間に発言した時間が長い順に二人を特定する。集計時間の間、トリミング画像9は切り替わらない。
図3(c)は集計時間が経過した際のトリミング画像9と拠点IIのディスプレイ120abに表示される画面を示す。集計時間の間に、発言時間が長い上位の二人が参加者E,Fであったとする。この場合、伝送端末10aaは画像データから参加者E,Fが撮像されている範囲をトリミングする。従って、ディスプレイ120abには参加者E,Fが含まれるトリミング画像が表示される。
このように、集計時間ごとにトリミング画像9を切り替えることで、トリミング画像9は集計時間が経過しないと切り替わらないので、ディスプレイ120abの画面が頻繁に変更されることを軽減できる。
また、集計時間の間に、発言時間が長い上位の二人が参加者A,Dであったとする。図3(d)を用いてこの場合を説明する。伝送端末10aaは画像データから参加者A〜Dが撮像されている範囲をトリミングする。従って、ディスプレイ120abには参加者A,B,C,Dが含まれるトリミング画像9が表示される。このように、複数の話者が離れていても発言時間が長い上位の二人をトリミングして表示することができる。
<システム構成例>
図4は、本実施例に係る伝送システム1の一例の概略図である。伝送システム1(通信システムの一例)は、伝送管理システム50を介して複数の伝送端末間で情報や感情等を相互に伝達するためのコミュニケーションシステムである。伝送システム1には、テレビ会議システム、テレビ電話システム、音声会議システム、音声電話システム、PC(Personal Computer)画面共有システム、テキストチャットシステム等が例として挙げられる。また、伝送システム1には、伝送管理システム50を介して一方の伝送端末から他方の伝送端末に一方向でコンテンツデータを伝送するデータ提供システムが含まれる。
図4は、本実施例に係る伝送システム1の一例の概略図である。伝送システム1(通信システムの一例)は、伝送管理システム50を介して複数の伝送端末間で情報や感情等を相互に伝達するためのコミュニケーションシステムである。伝送システム1には、テレビ会議システム、テレビ電話システム、音声会議システム、音声電話システム、PC(Personal Computer)画面共有システム、テキストチャットシステム等が例として挙げられる。また、伝送システム1には、伝送管理システム50を介して一方の伝送端末から他方の伝送端末に一方向でコンテンツデータを伝送するデータ提供システムが含まれる。
本実施例では、コミュニケーションシステムの一例としてのテレビ会議を行うことができるシステムを想定して説明する。
図4に示されている伝送システム1は、複数の伝送端末(10aa,10ab,・・・)、複数の携帯端末(20aa,20ab,・・・)、各伝送端末(10aa,10ab,・・・)用のディスプレイ(120aa,120ab,・・・)、複数の中継装置(30a,30b,・・・)、伝送管理システム50、及び、プログラム提供システム90によって構築されている。
複数の伝送端末10は、コンテンツデータの一例としての画像データ及び音声データの送受信を行う。すなわち、複数の伝送端末10は、テレビ会議サービスを利用することができるテレビ会議端末である。本実施例では、伝送端末10はテレビ会議に専用の端末であるとする。
他方、複数の携帯端末20は、コンテンツデータの一例としての画像データ及び音声データの送受信を行う。携帯端末20はテキストデータを送受信可能であってもよい。すなわち、複数の携帯端末20は、テレビ会議だけでなく、テキストチャットを利用できてもよい。本実施例では、携帯端末20は、特に断らない限り、タブレット型端末、携帯電話、スマートフォン、PDA(Personal Digital Assistant)、ウェアラブルPC、ゲーム機器、汎用PC端末、カーナビゲーション端末、電子ホワイトボード、プロジェクタ、監視カメラ、通信機能を備えた産業用機器などであってもよい。また、産業用機器には、MFP(Multifunction Peripheral/Printer/Product)等のオフィス機器、内視鏡等の医療用機器、耕耘機等の農業用機器などが含まれる。ウェアラブルPCには腕時計やヘッドマウントディスプレイ等が含まれる。なお、携帯端末20は、例えば携帯電話通信網やWiFi(Wireless Fidelity)などを介して通信ネットワーク2に無線で接続されている。
後述するハードウェア構成から明らかなように伝送端末10及び携帯端末20は情報処理装置と称される。
伝送端末10及び携帯端末20は、伝送システム1の呼制御を管理する伝送管理システム50により管理される。
なお、以下では、複数の伝送端末(10aa,10ab,・・・)のうちの任意の伝送端末は「伝送端末10」と表され、複数の携帯端末(20aa,20ab,・・・)のうちの任意の携帯端末は「携帯端末20」と表されている。ディスプレイ120、中継装置30、ルータ70についても同様とする。
また、一方の伝送端末10又は携帯端末20から他方の伝送端末10又は携帯端末20へテレビ会議の開始を要求する伝送端末は「要求元端末」と表され、要求先である宛先としての端末は「宛先端末」と表されている。
また、伝送システム1において、要求元端末と宛先端末との間では、伝送管理システム50を介して、各種の管理情報を送受信するための管理情報用セッションが確立される。また、要求元端末と宛先端末との間では、中継装置30を介して、コンテンツデータを送受信するためのセッションが確立される。なお、コンテンツデータのセッションでは、必ず中継装置30を介する必要はなく、伝送管理システム50を介して通信してもよいし、要求元端末と宛先端末とが直接、通信してもよい。
中継装置30は、上記のように、複数の伝送端末10と携帯端末20との間で、コンテンツデータの中継を行う。
伝送管理システム50は、伝送端末10又は携帯端末20の間で呼制御を行う。その他、伝送端末10及び携帯端末20のログイン認証、通話状況の管理、宛先リストの管理、及び、中継装置30に対しコンテンツデータの送信先を通知したり通話状況を管理させる等を行う。
伝送管理システム50は情報処理装置であるが、又は、監視カメラ、通信機能を備えた産業用機器、ウェアラブルPC等であってもよい。また、産業用機器には、MFP等のオフィス機器、内視鏡等の医療用機器、耕耘機等の農業用機器などが含まれる。ウェアラブルPCには腕時計やヘッドマウントディスプレイ等が含まれる。
プログラム提供システム90は、後述のHD(Hard Disk)304に、伝送端末10や携帯端末20に各種機能を実現させるための端末用プログラムを記憶しており、伝送端末10や携帯端末20に端末用プログラムを送信することができる。プログラム提供システム90は後述するHD304に、伝送管理システム50に各種機能を実現させるための管理装置用プログラムをも記憶しており、伝送管理システム50に管理装置用プログラムを送信することができる。
伝送端末(10aa,10ab,10ac,・・・)、中継装置30a、及びルータ70aは、LAN2aによって通信可能に接続されている。伝送端末(10ad,10bb,10bc,・・・)、携帯端末(20aa、20ab、…)、中継装置30b、及びルータ70bは、LAN2bによって通信可能に接続されている。また、LAN2a及びLAN2bは、ルータ70abが含まれた専用線2abによって通信可能に接続されており、所定の地域A内で構築されている。例えば、地域Aは日本であり、LAN2aは東京の事業所内で構築されており、LAN2bは大阪の事業所内で構築されている。また、携帯端末(20aa,20ab,・・・)は、地域Aで利用されている。
一方、伝送端末(10ca,10cb,10cc,・・・)、中継装置30c、及びルータ70cは、LAN2cによって通信可能に接続されている。伝送端末(10da,10db,10dc,・・・)、携帯端末(20ac、20ad、…)、中継装置30d、及びルータ70dは、LAN2dによって通信可能に接続されている。また、LAN2c及びLAN2dは、ルータ70cdが含まれた専用線2cdによって通信可能に接続されており、所定の地域B内で構築されている。例えば、地域Bはアメリカ合衆国であり、LAN2cはニューヨークの事業所内で構築されており、LAN2dはワシントンD.C.の事業所内で構築されている。また、携帯端末(20ac,20ad,・・・)は、地域Bで利用されている。
また、伝送管理システム50及びプログラム提供システム90は、インターネット2iを介して、伝送端末10、携帯端末20及び中継装置30と通信可能に接続されている。伝送管理システム50又はプログラム提供システム90は、地域A又は地域Bに設置されていてもよいし、これら以外の地域に設置されていてもよい。
また、図4において、各伝送端末10、各携帯端末20、各中継装置30、伝送管理システム50、各ルータ70、及び、プログラム提供システム90の下に示されている4組の数字は、一般的なIPv4におけるIPアドレスを簡易的に示している。
<ハードウェア構成>
<<伝送端末>>
次に、図5を用いて、伝送端末10のハードウェア構成について説明する。図5は、本実施例に係る伝送端末10のハードウェア構成図の一例である。図5に示されているように、本実施例の伝送端末10は、伝送端末10全体の動作を制御するCPU(Central Processing Unit)101を有する。また、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、及び、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103を有する。また、端末用プログラム1010、画像データ、及び音声データ等の各種データを記憶するフラッシュメモリ104を有する。また、CPU101の制御に従ってフラッシュメモリ104に対する各種データの読み出し又は書き込みを制御するSSD(Solid State Drive)105を有する。また、フラッシュメモリ等の記録メディア106に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ107、及び、伝送端末10の宛先を選択する場合などに操作される操作ボタン108を有する。また、伝送端末10の電源のON/OFFを切り換えるための電源スイッチ109、SIMカードが脱着されるSIMスロット121、及び、通信ネットワーク2を利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
<<伝送端末>>
次に、図5を用いて、伝送端末10のハードウェア構成について説明する。図5は、本実施例に係る伝送端末10のハードウェア構成図の一例である。図5に示されているように、本実施例の伝送端末10は、伝送端末10全体の動作を制御するCPU(Central Processing Unit)101を有する。また、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、及び、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103を有する。また、端末用プログラム1010、画像データ、及び音声データ等の各種データを記憶するフラッシュメモリ104を有する。また、CPU101の制御に従ってフラッシュメモリ104に対する各種データの読み出し又は書き込みを制御するSSD(Solid State Drive)105を有する。また、フラッシュメモリ等の記録メディア106に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ107、及び、伝送端末10の宛先を選択する場合などに操作される操作ボタン108を有する。また、伝送端末10の電源のON/OFFを切り換えるための電源スイッチ109、SIMカードが脱着されるSIMスロット121、及び、通信ネットワーク2を利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
また、伝送端末10は、CPU101の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ112、このカメラ112の駆動を制御する撮像素子I/F113、及び、音声を入力する内蔵型のマイク114を有する。カメラ112は周囲360度(経度方向と緯度方向のそれぞれ360度)を撮像可能な全天球カメラである。ただし、必ずしも周囲360度を全て撮像可能である必要はなく、経度方向にだけ360度の範囲で撮像可能でもよい。また、経度方向に180度だけの広角な範囲で撮像可能でもよい。撮像範囲の下限としては複数の参加者を一度に撮像可能である程度の広角な画角があればよい。
マイク114は指向性マイクであることが好ましい。また、音声を出力する内蔵型のスピーカ115、及び、CPU101の制御に従ってマイク114及びスピーカ115との間で音声信号の入出力を処理する音声入出力I/F116を有する。また、CPU101の制御に従って外付けのディスプレイ120に画像データを伝送するディスプレイI/F117、及び、各種の外部機器を接続するための外部機器接続I/F118を有する。また、認証受付I/F119、及び、上記各構成要素を図5に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン110を備えている。
ディスプレイ120は、被写体の画像や操作用アイコン等を表示する液晶や有機ELによって構成された表示装置である。また、ディスプレイ120は、ケーブル120cによってディスプレイI/F117に接続される。伝送端末10のディスプレイ120は、ケーブル120cによってディスプレイI/F117に接続されているが、これに限られず、ディスプレイ120は、伝送端末10に内蔵されていてもよい。
外部機器接続I/F118には、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイク、及び外付けスピーカ等の外部機器がそれぞれ接続可能である。外付けカメラが全天球カメラ112aであってもよく、外付けマイクが指向性のマイクであってもよい。全天球カメラ112aが外付けの場合、伝送端末10と全天球カメラ112aは画像処理システムとして動作する。
認証受付I/F119は、ユーザから認証情報の入力を受け付けるインタフェースであり、具体的には、ICカードリーダや(例えばNFC(Near field communication))、SDカードやSIMカード等の読み取り器が該当する。
さらに、端末用プログラム1010は、インストール可能な形式又は実行可能な形式のファイルで、記録メディア106等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、端末用プログラム1010は、フラッシュメモリ104ではなくROM102に記憶させるようにしてもよい。
携帯端末20のハードウェア構成については伝送端末10のハードウェア構成と重複している部分が多く、また、その相違があるとしても伝送システム1を構築する上で支障がないものとする。
<<伝送管理システム、中継装置、プログラム提供システム≫
次に、図6を用いて、伝送管理システム50のハードウェア構成について説明する。図6は、本実施例に係る伝送管理システム50のハードウェア構成図の一例である。
次に、図6を用いて、伝送管理システム50のハードウェア構成について説明する。図6は、本実施例に係る伝送管理システム50のハードウェア構成図の一例である。
なお、図示する伝送管理システム50等のハードウェア構成は、1つの筐体に収納されていたりひとまとまりの装置として備えられていたりする必要はなく、伝送管理システム50等が備えていることが好ましいハード的な要素を示す。また、クラウドコンピューティングに対応するため、本実施例の伝送管理システム50等の物理的な構成は固定的でなくてもよく、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。
伝送管理システム50は、伝送管理システム50全体の動作を制御するCPU301、IPL等のCPU301の駆動に用いられるプログラムを記憶したROM302、及び、CPU301のワークエリアとして使用されるRAM303を有する。また、管理装置用プログラム等の各種データを記憶するHD304、及び、CPU301の制御に従ってHD304に対する各種データの読み出し又は書き込みを制御するHDD(Hard Disk Drive)305を有する。また、フラッシュメモリ等の記録メディア306に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ307、及び、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示するディスプレイ308を有する。また、通信ネットワーク2を利用してデータ伝送をするためのネットワークI/F309、文字、数値、各種指示などの入力のための複数のキーを備えたキーボード311、及び、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行うマウス312を有する。また、着脱可能な記録媒体の一例としてのCD−ROM(Compact Disc Read Only Memory)313に対する各種データの読み出し又は書き込みを制御するCD−ROMドライブ314を有する。さらに、上記各構成要素を図6に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン310を備えている。
なお、管理装置用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、記録メディア306やCD−ROM313等のコンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、管理装置用プログラムは、HD304ではなくROM302に記憶されるようにしてもよい。
また、中継装置30及びプログラム提供システム90は、上記の伝送管理システム50と同様のハードウェア構成を有しているため、その説明を省略する。
<伝送システムの機能構成>
次に、図7を用いて本実施形態の伝送システム1の機能構成について説明する。図7は、本実施形態の伝送システム1に含まれる伝送管理システム50、及び、伝送端末10、の機能ブロック図の一例である。図7では、伝送端末10、及び伝送管理システム50が通信ネットワーク2を介してデータ通信することができるように接続されている。また、図4に示されている中継装置30とプログラム提供システム90は、トリミングに関しては直接関係ないため図7では省略されている。
次に、図7を用いて本実施形態の伝送システム1の機能構成について説明する。図7は、本実施形態の伝送システム1に含まれる伝送管理システム50、及び、伝送端末10、の機能ブロック図の一例である。図7では、伝送端末10、及び伝送管理システム50が通信ネットワーク2を介してデータ通信することができるように接続されている。また、図4に示されている中継装置30とプログラム提供システム90は、トリミングに関しては直接関係ないため図7では省略されている。
<<伝送端末の各機能構成>>
伝送端末10は、送受信部11、ログイン要求部12、音声入力部13、話者方向推定部14、音声出力部15、操作入力受付部16、撮像部17、トリミング部18、表示制御部19、宛先リスト作成部21、及び、記憶・読出処理部29を有している。これら各部は、図5に示されている各構成要素のいずれかが、フラッシュメモリ104からRAM103上に展開された端末用プログラム1010に従ったCPU101からの命令によって動作することで実現される機能、又は提供される手段である。
伝送端末10は、送受信部11、ログイン要求部12、音声入力部13、話者方向推定部14、音声出力部15、操作入力受付部16、撮像部17、トリミング部18、表示制御部19、宛先リスト作成部21、及び、記憶・読出処理部29を有している。これら各部は、図5に示されている各構成要素のいずれかが、フラッシュメモリ104からRAM103上に展開された端末用プログラム1010に従ったCPU101からの命令によって動作することで実現される機能、又は提供される手段である。
また、伝送端末10は、図5に示されているRAM103、ROM102及びフラッシュメモリ104によって構築される記憶部1000を有している。記憶部1000には、端末用プログラム1010が記憶されている。
(伝送端末の各機能構成)
次に、図5及び図7を用いて、伝送端末10の各機能構成について詳細に説明する。伝送端末10の送受信部11は、図5に示されているCPU101からの命令、及び図5に示されているネットワークI/F111等によって実現され、通信ネットワーク2を介して中継装置30及び伝送管理システム50と各種データの送受信を行う。送受信部11は、所望の宛先端末と通信を開始する前から、伝送管理システム50と宛先候補としての各端末の状態を示す各状態情報の受信を開始する。なお、この状態情報は、各伝送端末10の稼動状態(ONラインかOFFラインかの状態)だけでなく、ONラインであってもさらに通信中であるか、離籍中であるか等の詳細な状態を示す。
次に、図5及び図7を用いて、伝送端末10の各機能構成について詳細に説明する。伝送端末10の送受信部11は、図5に示されているCPU101からの命令、及び図5に示されているネットワークI/F111等によって実現され、通信ネットワーク2を介して中継装置30及び伝送管理システム50と各種データの送受信を行う。送受信部11は、所望の宛先端末と通信を開始する前から、伝送管理システム50と宛先候補としての各端末の状態を示す各状態情報の受信を開始する。なお、この状態情報は、各伝送端末10の稼動状態(ONラインかOFFラインかの状態)だけでなく、ONラインであってもさらに通信中であるか、離籍中であるか等の詳細な状態を示す。
ログイン要求部12は、図5に示されているCPU101からの命令等によって実現され、電源ONの受け付けを契機として、送受信部11から通信ネットワーク2を介して伝送管理システム50に、ログインを要求する旨を示すログイン要求情報、及び要求元端末の現時点のIPアドレスを自動的に送信する。また、ユーザが電源スイッチ109をONの状態からOFFにすると、送受信部11が伝送管理システム50へ電源をOFFする旨の状態情報を送信した後に、操作入力受付部16が電源を完全にOFFにする。これにより、伝送管理システム50側では、伝送端末10が電源ONから電源OFFになったことを把握することができる。
音声入力部13は、図5に示されているCPU101からの命令、及び図5に示されている音声入出力I/F116等によって実現され、マイク114によってユーザの音声が音声信号に変換された後、この音声信号に係る音声データを入力する。
話者方向推定部14は、図5に示されているCPU101からの命令、及び図5に示されている音声入出力I/F116等によって実現され、話者の方向を特定する。詳細は図13にて説明される。
音声出力部15は、図5に示されているCPU101からの命令、及び図5に示されている音声入出力I/F116等によって実現され、音声データに係る音声信号をスピーカに出力し、スピーカ115から音声を出力させる。
操作入力受付部16は、図5に示されているCPU101からの命令、並びに図5に示されている操作ボタン108及び電源スイッチ109等によって実現され、ユーザによる各種入力を受け付ける。例えば、ユーザが、図5に示されている電源スイッチ109をONにすると、図5に示されている操作入力受付部16が電源ONを受け付けて、電源をONにする。
撮像部17は、図5に示されているCPU101からの命令、並びに図5に示されているカメラ112及び撮像素子I/F113等によって実現され、被写体を撮像して、この撮像して得た画像データを出力する。
トリミング部18は、図5に示されているCPU101からの命令等によって実現され、撮像部が撮像した周囲360度の画像データから一部をトリミングする。トリミング部18の詳細は図8にて説明される。
表示制御部19は、図5に示されているCPU101からの命令、及び図5に示されているディスプレイI/F117等によって実現され、会議中に表示される画面を生成しディスプレイ120に対してこの画面を送信するための制御を行う。
宛先リスト作成部21は、図5に示されているCPU101からの命令等により実現され、伝送管理システム50から受信した、各宛先候補としての伝送端末10の状態情報に基づいて、宛先候補の伝送端末10の状態がアイコンで示された宛先リストの作成及び更新を行う。
また、記憶・読出処理部29は、図5に示されているCPU101からの命令、及び図4に示すSSD105によって実現され、記憶部1000に各種データを記憶したり、記憶部1000に記憶された各種データを読み出す処理を行う。なお、記憶部1000には、図示されるものの他、宛先端末との通話を行う際に受信される画像データ、音声データ及び表示データが受信される度に上書き記憶される。
<<伝送管理システムの機能構成>>
伝送管理システム50は、送受信部51、端末認証部52、状態管理部53、端末状態取得部54、セッション管理部55、端末抽出部56、及び、記憶・読出処理部59を有している。これら各部は、図6に示されている各構成要素のいずれかが、HD304からRAM303上に展開された管理装置用プログラム5010に従ったCPU301からの命令によって動作することで実現される機能又は提供される手段である。
伝送管理システム50は、送受信部51、端末認証部52、状態管理部53、端末状態取得部54、セッション管理部55、端末抽出部56、及び、記憶・読出処理部59を有している。これら各部は、図6に示されている各構成要素のいずれかが、HD304からRAM303上に展開された管理装置用プログラム5010に従ったCPU301からの命令によって動作することで実現される機能又は提供される手段である。
また、伝送管理システム50は、図6に示されているHDD305、RAM303、ROM302等により構築される記憶部5000を有している。以下、記憶部5000に記憶されている各種データベースについて説明する。
記憶部5000には、中継装置管理テーブルによって構成されている中継装置管理DB5001が構築されている。この中継装置管理テーブルでは、各中継装置30の中継装置ID毎に、各中継装置30の稼動状態、稼動状態が示される状態情報が伝送管理システム50で受信された受信日時、中継装置30のIPアドレス、及び中継装置30における最大データ伝送速度(Mbps)が関連付けられて管理される。
(伝送管理システムの各機能構成)
次に、伝送管理システム50の各機能構成について詳細に説明する。送受信部51は、図6に示されているCPU301からの命令及びネットワークI/F309等によって実現され、通信ネットワーク2を介して伝送端末10又は中継装置30と各種データの送受信を行う。
次に、伝送管理システム50の各機能構成について詳細に説明する。送受信部51は、図6に示されているCPU301からの命令及びネットワークI/F309等によって実現され、通信ネットワーク2を介して伝送端末10又は中継装置30と各種データの送受信を行う。
端末認証部52は、図6に示されているCPU301からの命令等によって実現され、送受信部51を介して受信されたログイン要求情報に含まれている通信ID及びパスワードを検索キーとし伝送端末10を認証する。すなわち、端末認証管理DB5002を検索し、端末認証管理DB5002に同一の通信ID及びパスワードが管理されているかを判定することによって端末認証を行う。なお、認証方法はこれに限られず、クライアント証明書(公開鍵と秘密鍵を用いた認証方法)を用いてもよい。
状態管理部53は、図6に示されているCPU301からの命令等によって実現され、ログイン要求してきた要求元端末の稼動状態を管理すべく、端末管理DB5003にこの要求元端末の通信ID、要求元端末の稼動状態、伝送管理システム50でログイン要求情報が受信された受信日時、及び要求元端末のIPアドレスを関連付けて記憶して管理する。
また、状態管理部53は、図6に示されているCPU301からの命令等によって実現され、ユーザが伝送端末10の電源スイッチ109をONの状態からOFFにすることで、伝送端末10から送られてきた、電源をOFFする旨の状態情報に基づいて、端末管理DB5003のONラインを示す稼動状態をOFFラインに変更する。
端末抽出部56は、図6に示されているCPU301からの命令によって実現され、ログイン要求した要求元端末の通信IDをキーとして宛先リスト管理DB5004を検索し、要求元端末と通話することができる宛先端末の候補の通信IDを読み出す。また、端末抽出部56は、ログイン要求してきた要求元端末の通信IDをキーとして、宛先リスト管理DB5004を検索し、要求元端末の通信IDを宛先端末の候補として登録している他の要求元端末の通信IDも抽出する。
端末状態取得部54は、図6に示されているCPU301からの命令によって実現され、端末抽出部56によって抽出された宛先端末の候補の通信IDを検索キーとして、端末管理DB5003を検索し、端末抽出部56によって抽出された通信ID毎に稼動状態を読み出す。これにより、端末状態取得部54は、ログイン要求してきた要求元端末と通話することができる宛先端末の候補の稼動状態を取得することができる。
セッション管理部55は、図6に示されているCPU301からの命令によって実現され、セッション管理DB5005に、セッションID、要求元端末の通信ID、宛先端末の通信ID、及び、会議IDを関連付けて記憶して管理する。
記憶・読出処理部59は、図6に示されているCPU301からの命令及びHDD305等によって実現され、記憶部5000に各種データを記憶したり、記憶部5000に記憶された各種データを読み出す処理を行う。
<トリミング部18>
図8は、トリミング部18の機能ブロック図の一例を示す。トリミング部18は参加者検出部61、発言時間測定部62、切取領域決定部63、及び、画面切替部64を有している。
図8は、トリミング部18の機能ブロック図の一例を示す。トリミング部18は参加者検出部61、発言時間測定部62、切取領域決定部63、及び、画面切替部64を有している。
参加者検出部61は、画像データを解析して参加者を検出する。すなわち、画像データに顔認識などの画像処理を施して、人が撮像されていればその場所を特定する。この場所は例えば顔の重心などが画素の座標又は緯度・経度などで表されたものである。
発言時間測定部62は、参加者ごとに発言時間を測定する。例えば、継続して発言している時間を発言時間として測定したり、ある一定時間の間に発言している時間を測定したりする。具体的には、話者方向推定部14から話者の方向を取得して、参加者の場所と照らし合わせて話者を特定する。そして、話者の発言時間を測定する。なお、継続とは、一般の会話で生じ得る1秒未満〜数秒未満の沈黙であれば、継続していると見なされる場合を含む。
切取領域決定部63は、各参加者の発言時間に基づいて画像データから切取領域を決定する。切取領域には一人以上の話者が含まれる。図2、3にて説明したように話者は一人の場合と複数の場合がある。切取領域決定部63は画像データの対角頂点の座標などで切取領域を決定する。
画面切替部64は指示された切取領域を画像データから切り取ることでトリミング画像9を作成する。なお、切取領域を切り取る際には、現在の切取領域から新しい切取領域まで少しずつ切取領域を移動させる処理を行う(後述するスライド処理、ズーム処理)。従って、トリミング画像9が切り替えられる際、多くのトリミング画像9が作成される。これにより、トリミング画像9がスライドしているように見える。あるいは、ズームアウトしたりズームインするように見える。さらに、画面切替部64は司会者や話者が北方向に配置されるように全天球の画像の配置方向を決定する。
<通信の開始からセッションの確立まで>
図9は、複数の伝送端末10の間で通信を開始する準備段階の処理を示したシーケンス図の一例である。図9では伝送端末10aaが伝送端末10ac、10ab,10adと通信を開始する準備の処理を説明する。
図9は、複数の伝送端末10の間で通信を開始する準備段階の処理を示したシーケンス図の一例である。図9では伝送端末10aaが伝送端末10ac、10ab,10adと通信を開始する準備の処理を説明する。
まず、ユーザが電源スイッチ109をONにすると伝送端末10aaの操作入力受付部16が電源ONを受け付けて、電源をONにする(ステップS21)。そして、伝送端末10aaのログイン要求部12は電源ONの受信を契機とし、送受信部11から通信ネットワーク2を介して伝送管理システム50に、ログイン要求を示すログイン要求情報を自動的に送信する(ステップS22)。ログイン要求は電源ON時だけでなくユーザ操作によって任意のタイミングで送信されることができる。このログイン要求情報には、要求元である伝送端末10aaを識別するための通信ID、及びパスワードが含まれている。なお、伝送端末10aaから伝送管理システム50へログイン要求情報が送信される際は、受信側である伝送管理システム50は、伝送端末10aaの「IPアドレス」を把握することができる。なお、携帯端末20が要求元端末の場合、操作入力受付部16がユーザのログイン操作を受け付けて、通信ID及びパスワードを伝送管理システム50に送信する。
次に、伝送管理システム50の端末認証部52は、送受信部51を介して受信したログイン要求情報に含まれている通信ID及びパスワードと同一の通信ID及びパスワードが管理されているかを判定することによって端末認証を行う(ステップS23)。本実施形態では、認証が成立したものとして説明する。
端末認証部52によって、伝送端末10の認証が成立した場合、状態管理部53は端末管理テーブルに、伝送端末10aaの通信ID、「稼動状態」、「通信状態」、上記ログイン要求情報が受信された「受信時間」、及び伝送端末10aaの「IPアドレス」を関連付けて記憶する(ステップS24)。なお、この時の「稼動状態」は"ONライン"である。
伝送管理システム50の送受信部51は、端末認証部52によって得られた認証結果が示された認証結果情報を、通信ネットワーク2を介してログイン要求してきた伝送端末10aaに送信する(ステップS25)。
伝送管理システム50の端末抽出部56は、ログイン要求した伝送端末10aaの通信IDである"01aa"を検索キーとして、宛先リスト管理テーブルを検索し、伝送端末10aaと通信することができる伝送端末の候補の通信IDを読み出すことによって抽出する(ステップS26)。ここでは、伝送端末10aaの通信IDである"01aa"に対応する宛先端末(10ab,10ac、10ad、10bb)のそれぞれの通信IDである"01ab"、"01ac"、"01ad"、"01bb"が抽出されることになる。
次に、端末状態取得部54は、端末抽出部56によって抽出された伝送端末10ab、10ac、10ad、10bbの通信ID("01ab"、"01ac"、"01ad"、"01bb")を検索キーとして端末管理テーブルを検索し、通信ID毎に「稼動状態」を読み出す(S27)。ここでは説明のため、伝送端末10ab、10ac、10adが"ONライン"、伝送端末10bbが"OFFライン"であるとする。
次に、送受信部51は、端末抽出部56が抽出した通信ID("01ab"、"01ac"、"01ad"、"01bb")と「稼動状態」とが含まれた宛先状態情報を、通信ネットワーク2を介して伝送端末10aaに送信する(ステップS28)。これにより、伝送端末10aaは、伝送端末10aaと通信することができる伝送端末(10ab,10ac、10ad、10bb)の現時点のそれぞれの「稼動状態」を把握することができる。
さらに、伝送管理システム50の端末抽出部56は、ログイン要求してきた伝送端末10aaの通信IDである"01aa"を検索キーとして、宛先リスト管理テーブルを検索し、通信IDである"01aa"を宛先端末の候補として登録している伝送端末10の通信IDを抽出する(ステップS29)。上記の宛先リスト管理テーブルでは、抽出される他の伝送端末10の通信IDは"01ab""01ac""01ad""01bb"である。
次に、伝送管理システム50の端末状態取得部54は、ログイン要求して来た伝送端末10aaの通信IDである"01aa"を検索キーとして、端末管理テーブルを検索し伝送端末10aaの「稼動状態」を取得する(ステップS30)。
そして、送受信部51は、上記ステップS29で抽出された通信ID("01ab"、"01ac""01ad""01bb")に係る伝送端末10のうち、端末管理テーブルで「稼動状態」が"ONライン"となっている伝送端末10に、上記ステップS30で取得された伝送端末10aaの通信IDである"01aa"と「稼動状態」として"ONライン"が含まれる宛先状態情報を送信する(ステップS31、S32、S33)。従って、伝送端末10ab、10ac、10adに宛先状態情報が送信される。なお、送受信部51が伝送端末10ab、10ac、10adに宛先状態情報を送信する際に、通信ID("01ab"、"01ac"、"01ad")に基づいて、端末管理テーブルで管理されている伝送端末10の「IPアドレス」を参照する。
伝送端末10aaの宛先リスト作成部21は、宛先リストの情報と宛先端末の候補の「稼動状態」とを受け取ると、宛先リスト画面を作成し、表示装置203に表示させる(ステップS34)。この場合の宛先リスト画面には、伝送端末10ab、10ac、10adの名称と「稼動状態」として"ONライン"が表示され、伝送端末10bbの名称と「稼動状態」として"OFFライン"が表示される。
一方、他の伝送端末10ab、10ac、10adでも、図9と同様の処理を行うことで、各伝送端末10ab、10ac、10adが宛先候補の伝送端末10のディスプレイ120に宛先リスト画面が表示される。
図10は、本実施形態に係る複数の伝送端末10の間でセッションを確立する処理の一例のシーケンス図である。
ユーザが伝送端末10aaの操作ボタン108から宛先リスト画面に表示された通信IDとして例えば"01ac"の宛先端末を選択すると、操作入力受付部16は、接続を開始する要求を受け付ける(ステップS41)。
伝送端末10aaの送受信部11は、伝送端末10aaの通信IDである"01aa"と、「宛先端末の通信ID」である"01ac"とが含まれ、接続を開始したい旨を示す開始要求情報を伝送管理システム50に送信する(ステップS42)。これにより、伝送管理システム50は要求元端末(伝送端末10aa)の「IPアドレス」を把握する。
次に、伝送管理システム50のセッション管理部55は「セッションID」を生成する(ステップS43)。「セッションID」としては重複しないIDが生成される。
そして、この生成した「セッションID」と、要求元端末(伝送端末10aa)の通信IDである"01aa"と、宛先端末(伝送端末10ac)の通信IDである"01ac"とをセッション管理DB5005に関連付けて記憶して管理する(ステップS44)。また、会議IDを付与する。
さらに、伝送管理システム50のセッション管理部55は、要求元端末と宛先端末とが通信するのに適切な中継装置30を決定する(ステップS45)。中継装置30を決定するための方法は、例えば受信と送信の帯域が最も広いネットワーク上にある中継装置30を選択する等の方法が考えられる。
なお、中継装置30を選択せずに、要求元端末及び宛先端末間で直接セッションを確立してもよいし、伝送管理システム50を介したセッションを確立してもよい。
そして、伝送管理システム50の送受信部51は、ステップS43で生成した「セッションID」と、ステップS45で決定した中継装置30の「IPアドレス」とを要求元端末(伝送端末10aa)及び宛先端末(伝送端末10ac)に送信する(ステップS46,47)。
伝送端末10acの表示制御部19は要求元端末(伝送端末10aa)の通信IDをディスプレイ120(携帯端末20の場合は表示装置203)に表示するなどして、操作入力受付部16がユーザによるテレビ会議の許可を受け付ける。そして、伝送端末10acの送受信部11は開始許可を伝送管理システム50に送信する(ステップS47−1)。
次に、伝送管理システム50の状態管理部53は、中継開始要求情報として、要求元端末(伝送端末10aa)の「IPアドレス」と通信ID、宛先端末(伝送端末10ac)の「IPアドレス」と通信ID、及び、会議IDを中継装置30に送信する(ステップS48)。中継装置30は中継管理テーブルにおいて会議IDに通信IDを対応づけて管理する。また、中継装置30は通信IDに重複しないデータIDを付与する。データIDは各伝送端末10に通知されてもよいし、されなくてもよい。通知される場合、伝送端末10はコンテンツデータにデータIDを付与して中継装置30に送信する。通知されない場合、中継装置30がIPアドレス等に基づき伝送端末10を識別しコンテンツデータにデータIDを付与して伝送端末10に送信する。
中継装置30は伝送管理システム50から通信IDを受信すると、伝送端末10aaと10acが送信する通信IDを元にこれらがコンテンツデータの送信先であることを検出する。これにより、要求元端末(伝送端末10aa)と宛先端末(伝送端末10ac)との間でセッションが確立される(ステップS49)。セッションが確立することで、伝送端末10aaは中継装置30を介してコンテンツデータを伝送端末10acに送信し、伝送端末10acは中継装置30を介してコンテンツデータを伝送端末10aaに送信する。
次に、伝送端末10aaのユーザが招待通知を伝送管理システム50に送信する(ステップS50)。招待通知とは、すでにセッションが確立されているテレビ会議に別の伝送端末10を参加させるための通知である。招待通知には招待通知を送信した伝送端末10aaの通信IDである"01aa"、招待される伝送端末10ab、10adの通信IDである"01ab" "01ad"が含まれる。また、伝送管理システム50は招待通知を送信した伝送端末10aaの「IPアドレス」を取得する。
伝送管理システム50の送受信部51が招待通知を受信すると、伝送管理システム50の端末状態取得部54は端末管理テーブルから招待される伝送端末10ab、10adの「IPアドレス」を取得する。これにより、伝送管理システム50の送受信部51は伝送端末10ab、10adに招待通知を送信する(ステップS51)。
伝送端末10ab、10adの表示制御部19は要求元端末(伝送端末10aa)の通信IDをディスプレイ120(携帯端末20の場合は表示装置203)に表示するなどして、操作入力受付部16がユーザによるテレビ会議への招待に対する応答を受け付ける。ここではユーザは招待を受諾したものとする。そして、伝送端末10ab、10adの送受信部11は招待受諾を伝送管理システム50に送信する(ステップS52)。
伝送管理システム50のセッション管理部55は伝送端末10ab、10adに伝送端末10aa、10acと同じ会議IDを付与する。
伝送管理システム50の送受信部51は招待通知を送信した伝送端末10aaに招待受諾を送信する(ステップS53)。
この後、伝送管理システム50の送受信部51は招待された伝送端末10ab、10adに関し、ステップS47、S48の処理を行うことで、伝送端末10aaと10acのセッションに伝送端末10ab、10adが参加することができる。すなわち、中継装置30は同じ会議IDの伝送端末10aa、10ac、10ab、10adの間でコンテンツデータを送信(転送)する。
以降は、要求元端末(伝送端末10aa)、宛先端末(伝送端末10ac)、及び、招待された伝送端末10ab、10adとの間で、中継装置30を介してコンテンツデータが送受信される。
<周囲360度の画像データの平面の画像データへの変換>
全天球カメラ112aにより撮像される画像は、例えば、図11(a)に示すような形式で表現される。図11(a)は全天球の画像データを模式的に示す図の一例である。全天球の画像データは、水平方向に360度、垂直方向に180度の画角を有するため、周囲の全方位が撮像されている。
全天球カメラ112aにより撮像される画像は、例えば、図11(a)に示すような形式で表現される。図11(a)は全天球の画像データを模式的に示す図の一例である。全天球の画像データは、水平方向に360度、垂直方向に180度の画角を有するため、周囲の全方位が撮像されている。
図11(a)に示した全天球の画像データの座標系(θ, φ)と、平面画像の座標系(x, y)には、式(1)の関係がある。
また、平面画像の半画角(被写体の端がレンズの光軸となす角)は、参加者の撮像範囲に合わせて設定される。平面画像の半画角は90度が最大となる(90度で発散してしまう)ため、半画角は最大で75度程度にしておくことが望ましい。従って、参加者の撮像範囲は水平方向から上下(緯度方向に)75度の範囲として決定してよい。あるいは、全天球の画像データのまま顔認識を行い、全ての参加者の緯度方向の顔の位置の最大値と最小値を求め、少なくとも最大値と最小値が含まれるように半画角を決定してもよい。
以下では、説明の便宜上、xとθ、yとφを区別せず、水平方向をθ、垂直方向をφとして説明する。
<画像データからの参加者の検出>
図12は、全天球の画像データから変換された平面の画像データ又は全天球の画像データの一部を模式的に示す図である。参加者検出部61はこのような画像データに対し顔認識処理を施す。なお、顔認識は平面画像に行われても全天球の画像データのまま行われてもよい。
図12は、全天球の画像データから変換された平面の画像データ又は全天球の画像データの一部を模式的に示す図である。参加者検出部61はこのような画像データに対し顔認識処理を施す。なお、顔認識は平面画像に行われても全天球の画像データのまま行われてもよい。
参加者検出部61は、予め大量の学習データを用いてBoostingにより識別器の学習を行っておく。Boostingでは、認識率は決して高くない複数の弱識別器hT(Tは弱識別器の数)の重みαTを決定することで学習データを正しく識別するように識別器を学習させていく。
なお、弱識別器としてはHaar-like型弱識別器や参照ベクトル型弱識別器が知られているがこれらには限られない。
図12では、このようにして認識された参加者の顔が矩形枠31で示されている。矩形枠31の位置は緯度φと経度θにて特定される。例えば、参加者Aの顔は(θA1,φA1)(θA2,φA2)を対角の頂点とする矩形枠31に含まれている。同様に、参加者B〜Fの矩形枠31は、(θB1,φB1)(θB2,φB2)、(θC1,φC1)(θC2,φC2)、(θD1,φD1)(θD2,φD2)、(θE1,φE1)(θE2,φE2)、(θF1,φF1)(θF2,φF2)となる。これらが参加者位置の一例となる。
画像データは周期的に更新される(カメラ112は所定のフレームレートで撮像を繰り返す)ため、参加者検出部61は、過去に認識した参加者の位置を利用して、画像データから顔認識できる。すなわち、参加者Aであれば、(θA1、φA1)(θA2、φA2)の矩形枠31の周囲だけ顔認識を行えばよく、常に参加者位置を監視できる。
単一表示モードにおいて、切取領域決定部63は、参加者検出部61が検出した参加者位置にマージンを考慮して切取領域を決定する。例えば、矩形枠31の辺の長さを10〜20%大きくするなどして切取領域を決定する。複数表示モードの切取領域については図36にて説明する。
<話者方向の特定>
話者方向推定部14は、音声入力部13が入力した音声データから音源方向を検出する。本実施形態では、話者方向推定部14が、マイクロフォンアレイに入力される音声の到達時間差により音源方向を検出する方法について説明する。
話者方向推定部14は、音声入力部13が入力した音声データから音源方向を検出する。本実施形態では、話者方向推定部14が、マイクロフォンアレイに入力される音声の到達時間差により音源方向を検出する方法について説明する。
図13は、話者方向推定部14による音源方向の検出原理を説明する図の一例である。マイク1とマイク2が水平方向に間隔Lだけ離れて配置されている。音声がδ方向から到達する場合、マイク1が検出する音声データは時間tだけ遅れてマイク2により検出される。この時間tは以下のように表すことができる。なお、vは音速である。
時間t=(L・cosδ)/v …(3)
従って、L、vを一定として、時間tが分かればδを求めることができる。時間tは、たとえばマイク1の音声データs1(t)とマイク2の音声データs2(t+dt)との相互相関値により計算する。相互相関値C(t,dt)は、式(4)により算出される。
時間t=(L・cosδ)/v …(3)
従って、L、vを一定として、時間tが分かればδを求めることができる。時間tは、たとえばマイク1の音声データs1(t)とマイク2の音声データs2(t+dt)との相互相関値により計算する。相互相関値C(t,dt)は、式(4)により算出される。
なお、図13では、マイク114が2つしかないため、0〜180度の範囲のθしか検出できない。そこで、別にもう1組のマイク3,4をマイク1,2の配置方向と直行するように配置する。これにより、水平方向の360度の範囲で音源方向を特定できる。
カメラ112とマイク114が一体型であり、一方の配置を決定すると自動的に他方の配置も決定される場合、ユーザは特に意識せずにカメラ112とマイク114を机の上などに配置すればよい。これに対し、カメラ112とマイク114が別体の場合(別々に配置可能な場合)、ユーザはカメラ112とマイク114の向きを揃えて机の上などに配置する。これにより、話者の水平方向の基準と画像データの経度方向の基準とを一致させることができる。
なお、話者の特定にマイク114を使用しなくてもよい。例えば、話者方向推定部14は画像データを解析して、口を開閉したり動かしている参加者を話者に特定できる。
<参加者位置と話者方向の紐付け>
発言時間測定部62は、以上のようにして得られた参加者位置と話者方向を以下のように紐づける。まず、参加者位置として経度方向の矩形枠31の中心を用いる。これは、話者方向が経度方向にのみ分布しているためであるが、話者が緯度方向にも分布している場合には、経度方向及び緯度方向の矩形枠31の中心を用いればよい。
発言時間測定部62は、以上のようにして得られた参加者位置と話者方向を以下のように紐づける。まず、参加者位置として経度方向の矩形枠31の中心を用いる。これは、話者方向が経度方向にのみ分布しているためであるが、話者が緯度方向にも分布している場合には、経度方向及び緯度方向の矩形枠31の中心を用いればよい。
図14は、話者方向の一例を示す図である。経度方向に参加者A〜Fが存在するが、例えば、経度θa度という話者方向が話者方向推定部14により得られたものとする。この場合、発言時間測定部62は、経度θa度と最も近い参加者位置の参加者と紐づける。各参加者の参加者位置は(θX1+θX2)/2なので(X:A〜F)、これらと経度θa度の差の絶対値が最も小さくなる参加者位置を特定する。経度θb度〜経度θf度という話者方向が検出された場合も同様に参加者位置と紐づけることができる。
以上のようにして、話者と参加者を特定することができる。発言時間測定部62は、話者方向と参加者位置により特定した参加者ごとに発言時間を測定する。
<表示モード及びオプション>
続いて、伝送端末10aaのユーザが選択する表示モードとオプションについて説明する。伝送端末10は3つの表示モードとそれぞれの表示モードでユーザが設定可能なオプションを有する。
表示モード…単一表示モード、複数表示モード、360度表示モード
単一表示モードは、画面切替部64が1名の話者のみをトリミングするモードである。
続いて、伝送端末10aaのユーザが選択する表示モードとオプションについて説明する。伝送端末10は3つの表示モードとそれぞれの表示モードでユーザが設定可能なオプションを有する。
表示モード…単一表示モード、複数表示モード、360度表示モード
単一表示モードは、画面切替部64が1名の話者のみをトリミングするモードである。
複数表示モードは、予め決められた人数の話者が含まれる範囲を画面切替部64が画像データからトリミングするモードである。一度に表示される人数が多い分、単一表示モードに比べて画面が切り替わる頻度が少なく、伝送端末10abのディスプレイ120abを見ているユーザにとって好ましい画面遷移が得られやすい。一方、参加者の顔のサイズが小さくなるというデメリットがある。
360度表示モードは、全方位分の画像データを常に表示させておくモードである。全天球の画像データには360度の範囲が撮像されているので、全天球の画像データのまま表示される。なお、伝送端末10aaが横長のパノラマ画像に変換してもよい。常に、全体が表示されているので画面遷移がなくなり、ユーザは常に一つの画面を見ていれば会議の参加者全員を一望できる。一方、全天球の画像は円形になるため、ユーザによっては慣れない画像となる場合がある。また、パノラマ画像に変換した場合、歪み補正の影響で本来直線の部分が歪んで見える場合があるため、ユーザのストレスにつながるおそれがある。
図15(a)は、伝送端末10aaのディスプレイ120aaに表示される表示モード選択画面501の一例を示す図である。表示モード選択画面501では上記の3つの表示モードと共にラジオボタン502が表示される。伝送端末10aaのユーザはラジオボタン502から表示モードを選択してOKボタン503を押下する。伝送端末10aaの操作入力受付部16はユーザの選択を受け付け、トリミング部18が選択された表示モードに応じた画面に遷移させる。なお、キャンセルボタン504が押下された場合、操作入力受付部16は表示モードの設定を受け付けない。この場合、最後に設定されている表示モードが有効になる。
図15(b)は、単一表示モードオプション選択画面510の一例を示す図である。単一表示モードオプション選択画面510は切替時間設定欄511を有している。切替時間設定欄511は、話者がどのくらい継続して発言した場合にトリミング画像9を切り替えるかをユーザが設定する欄である。図では20秒となっている。ユーザは予め定められた下限や上限の範囲で所望の切替時間を設定できる。
また、単一表示モードオプション選択画面510は、「90度画面切替オプション」、「二画面オプション」、及び、「速度変化オプション」とそれぞれのラジオボタン512を有する。ユーザは所望のオプションを選択して、OKボタン503を押下する。伝送端末10aaの操作入力受付部16はユーザによるオプションの設定を受け付ける。なお、キャンセルボタン504が押下された場合、操作入力受付部16はオプションの設定を受け付けない。なお、オプションを設定するかどうかはユーザの任意である。
「90度画面切替オプション」、「二画面オプション」、及び、「速度変化オプション」の内容は後に説明される。
図16(a)は、複数表示モードオプション選択画面520の一例を示す図である。複数表示モードオプション選択画面520は集計時間設定欄521を有している。集計時間設定欄521は、複数の話者が含まれるトリミング画像9がどのくらいの頻度で切り替えられるかをユーザが設定する欄である。図では3分となっている。ユーザは予め定められた下限や上限の範囲で所望の集計時間を設定できる。
また、複数表示モードオプション選択画面520は話者人数設定欄522を有している。話者人数設定欄522は、何人の話者をトリミング画像9に含めるかをユーザが設定する欄である。図では2人となっている。ユーザは予め定められた下限や上限の範囲で所望の話者人数を設定できる。
また、複数表示モードオプション選択画面520は、「司会者オプション」「90度画面切替オプション」、「二画面オプション」、及び、「速度変化オプション」とそれぞれのラジオボタン523を有する。ユーザは所望のオプションを選択して、OKボタン503を押下する。伝送端末10aaの操作入力受付部16はユーザによるオプションの設定を受け付ける。なお、キャンセルボタン504が押下された場合、操作入力受付部16はオプションの設定を受け付けない。なお、オプションを設定するかどうかはユーザの任意である。
なお、「90度画面切替オプション」、「二画面オプション」、及び、「速度変化オプション」は単一表示モードオプション選択画面510と同じものである。「司会者オプション」の内容は後に説明される。
また、「司会者オプション」のラジオボタン523が選択された場合、表示制御部19は図16(b)の司会者オプション画面530をポップアップ表示する。司会者オプション画面530は、「司会者設定」及び「発言時間利用」とそれぞれのラジオボタン531を有する。「司会者設定」はユーザが司会者を選択するための設定であり、「発言時間利用」は発言時間の最も長い参加者が司会者として選択される設定である。
また、「司会者設定」が選択されると、表示制御部19は図16(c)の画像データを表示する。この画像データはカメラ112がリアルタイムに撮像した全天球の画像データでもよいし、平面画像に変換されたものでもよい。ユーザは参加者をマウスや指で押下する。操作入力受付部16は画像データのうち押下された位置(座標など)をトリミング部18に通知する。トリミング部18は顔認識により参加者位置を特定しているので、押下された位置に最も近い参加者を司会者に決定する。
図17は、360度表示モードオプション選択画面540の一例を示す図である。360度表示モードオプション選択画面540は、「司会者固定」「参加者固定」「話者強調」とそれぞれのラジオボタン541を有する。ユーザは所望のオプションを選択して、OKボタン503を押下する。伝送端末10aaの操作入力受付部16はユーザによるオプションの設定を受け付ける。なお、キャンセルボタン504が押下された場合、操作入力受付部16はオプションの設定を受け付けない。なお、オプションを設定するかどうかはユーザの任意である。
また、360度表示モードオプション選択画面540は「話者強調」が選択された場合にのみ有効な切替時間設定欄542を有している。切替時間設定欄542には話者を切り替える時間が設定される。
なお、「司会者固定」「参加者固定」及び「話者強調」の内容については後に説明される。
<伝送端末の動作手順>
図18は、伝送端末10の全体的な動作の流れを説明するフローチャート図の一例である。
図18は、伝送端末10の全体的な動作の流れを説明するフローチャート図の一例である。
伝送端末10の操作入力受付部16は表示モード選択画面にて単一表示モード、複数表示モード、又は、360度表示モードのいずれかの選択を受け付ける(S10)。
そして、単一表示モードが選択された場合、伝送端末10のトリミング部18は単一表示モードで動作する(S20)。
複数表示モードが選択された場合、伝送端末10のトリミング部18は複数表示モードで動作する(S30)。
360度表示モードが選択された場合、伝送端末10のトリミング部18は360度表示モードで動作する(S40)。
<<単一表示モード>>
図19は、単一表示モードにおける伝送端末10の処理手順を示すフローチャート図の一例である。図19の処理手順は単一表示モードが選択されテレビ会議が開始されるとスタートする。
図19は、単一表示モードにおける伝送端末10の処理手順を示すフローチャート図の一例である。図19の処理手順は単一表示モードが選択されテレビ会議が開始されるとスタートする。
テレビ会議が開始されると、伝送端末10の話者方向推定部14は発言開始待ちの状態になる(S10)。
話者方向推定部14は、音声入力部13などを監視して発言が開始されたか否かを判定する(S20)。なお、発言されるまでの間、参加者検出部61は発言を待つ。
発言が開始された場合(S20のYes)、発言時間測定部62は話者の発言時間を測定する単一話者時間タイマーをスタートする(S30)。単一話者時間タイマーは、話者の継続発言時間を測定するためのタイマーである。
伝送端末10の発言時間測定部62は、単一話者時間タイマーを監視し(S40)、切替時間を超えたか否かを判定する(S50)。図19では切替時間は20秒となっているが、頻繁に画面が変わることを抑制できる程度の時間でよい。
ステップS50の判定がNoの場合、発言時間測定部62は発言が終了したか否かを判定する(S60)。
発言が終了していない場合(S60のNo)、処理はステップS40に戻り、引き続き単一話者時間タイマーが監視される。
発言が終了した場合(S60のYes)、処理はステップS10に戻り、伝送端末10は発言開始待ちの状態に戻る。従って、単一話者時間タイマーが切替時間に到達する前に発言が終了した場合、トリミング部18はトリミング画像9を切り替えない。
なお、発言が終了したかどうかは、話者の発言が継続して例えば10秒以上、検出されないかどうかにより判定される。つまり、予め設定した時間以上に発言が無いことを条件としてよい。
ステップS50の判定がYesの場合、発言時間測定部62は単一話者時間タイマーをクリアする(S70)。
そして、トリミング部18は話者を含む範囲を画像データからトリミングする(S80)。すなわち、切取領域決定部63が切取領域を決定し、画面切替部64が切取領域を切り取ることでトリミング画像9を作成する。
発言時間測定部62は発言が終了したか否かを判定し(S90)、発言が終了するまで継続して発言する話者が含まれるトリミング画像9が作成される。
発言が終了した場合(S90のYes)、処理はステップS10に戻り、伝送端末10は発言開始待ちの状態に戻る。従って、発言終了後に切替時間以上に継続して発言する参加者が現れると、トリミング画像9が変更される。以上のような処理により図2に示したような画面遷移が得られる。
(単一表示モードの画面遷移例)
図20は、単一表示モードの画面遷移例を表すタイムチャート図の一例である。図20では、3名(A,B,C)の参加者が参加している。横軸は時間であり、縦軸は上部から順番に、トリミング画像9に含まれる参加者(伝送端末10abのディスプレイ120abに表示される参加者)、参加者Cの発言状況、参加者Bの発言状況、参加者Aの発言状況、である。
図20は、単一表示モードの画面遷移例を表すタイムチャート図の一例である。図20では、3名(A,B,C)の参加者が参加している。横軸は時間であり、縦軸は上部から順番に、トリミング画像9に含まれる参加者(伝送端末10abのディスプレイ120abに表示される参加者)、参加者Cの発言状況、参加者Bの発言状況、参加者Aの発言状況、である。
時刻t1:まず、参加者Aが発言を開始する。この時点でトリミング画像9にどの参加者が写っているかはだれでもよい。
時刻t2:参加者Aが発言を開始してから20秒が経過した。このため、画面切替部64は参加者Aが含まれる範囲をトリミングする。従って、伝送端末10abのディスプレイ120abには参加者Aが表示される。
時刻t3:参加者Aが発言を終了し、参加者Bが発言を開始する。この時点では参加者Bが発言を開始してから20秒経過していないので、トリミング画像9に変更はない。
時刻t4:参加者Bが発言を開始してから20秒が経過した。このため、画面切替部64は参加者Bが含まれる範囲をトリミングする。従って、伝送端末10abのディスプレイ120abには参加者Bが表示される。
時刻t5:参加者Aが発言を開始する。
時刻t6:参加者Aが20秒経過する前に発言を終了する。従って、トリミング画像9には参加者Bが含まれたままである。
時刻t7:参加者Cが発言を開始するが、発言時間は20秒に達していないためトリミング画像9には参加者Bが含まれたままである。
時刻t8:参加者Bが発言を再開する。
時刻t9:参加者Bが発言を再開し20秒以上が経過するが、トリミング画像9には参加者Bが含まれたままである。
時刻t10:参加者Bが発言を終了し、参加者Aが発言を開始する。
時刻t11:参加者Aが発言を開始してから20秒が経過したので、画面切替部64は参加者Aが含まれる範囲をトリミングする。従って、伝送端末10abのディスプレイ120abには参加者Aが表示される。
以上のように、トリミング画像9が切り替わるには、最低でも20秒が必要なので、全天球の画像に複数の参加者が撮像されており、次々に発言しても伝送端末10abのディスプレイ120abに表示される画面が頻繁に変わることを抑制できる。
<<複数表示モード>>
図21は、複数表示モードにおける伝送端末10の処理手順を示すフローチャート図の一例である。図21の処理手順は複数表示モードが選択されテレビ会議が始まるとスタートする。
図21は、複数表示モードにおける伝送端末10の処理手順を示すフローチャート図の一例である。図21の処理手順は複数表示モードが選択されテレビ会議が始まるとスタートする。
テレビ会議が開始されると、発言時間測定部62は複数話者時間タイマーをスタートさせる(S10)。複数話者時間タイマーとは、上記の集計時間を測定するためのタイマーである。発言時間測定部62は複数話者時間タイマーをスタートさせると、各参加者の累積の発言時間の測定を開始する。
次に、トリミング部18は、事前に司会者が設定されているか否かを判定する(S20)。すなわち複数表示モードオプション選択画面520で司会者オプションが選択されたか否かを判定する。
ステップS20の判定がYesの場合、トリミング部18は参加者のうちユーザが選択した参加者を司会者として決定する(S30)。
次に、発言時間測定部62は複数話者時間タイマーが集計時間のカウントを終えるまで待機する(S40)。これは、2番目以降の話者を特定するためである。
ステップS20の判定がNoの場合、発言時間測定部62は複数話者時間タイマーが集計時間のカウントを終えるまで待機する(S50)。
複数話者時間タイマーが集計時間のカウントを終えると(S50のYes)、発言時間測定部62は集計時間内に発言時間が一番長い参加者を司会者として決定する(S60)。
次に、発言時間測定部62は二番目以降に発言時間が長い参加者を決定する(S70)。何人まで参加者を決定するかは、複数表示モードオプション選択画面520の話者人数設定欄522により決定される。
次に、切取領域決定部63は発言時間が長い複数の話者を含む切取領域を決定し、画面切替部64は画像データから決定された切取領域を切り取ることでトリミング画像9を作成する(S80)。
発言時間測定部62は複数話者時間タイマーをクリアする(S90)。
そして、発言時間測定部62は複数話者時間タイマーが集計時間のカウントを終えるまで待機する(S100)。この後、処理はステップS70に進み、集計時間がカウントされるごとに切取領域を決定する。
以上のような処理によれば、伝送端末10aaは集計時間の間で発言量の多い順に話者を特定し、上位の複数名をトリミング画像9に含めることができる。トリミング画像9は集計時間の間はそのまま維持され、集計時間が経過するごとに、発言時間がゼロから測定し直される。従って、トリミング画像9が切り替わるには集計時間が必要なので、伝送端末10abのディスプレイ120abに表示される画面が頻繁に変わることを抑制できる。
(発言時間の測定)
図22は、発言時間測定部62が発言時間を測定する手順を示すフローチャート図の一例であり、図23は参加端末の累積の発言時間を模式的に示す図の一例である。
図22は、発言時間測定部62が発言時間を測定する手順を示すフローチャート図の一例であり、図23は参加端末の累積の発言時間を模式的に示す図の一例である。
図22の処理は図21において複数話者時間タイマーの測定がスタートするとスタートする。
発言時間測定部62が複数話者時間タイマーをスタートさせると(S10のYes)、発言時間測定部62は参加者ごとに発言時間の累積を開始する(S20)。
次に、発言時間測定部62は複数話者時間タイマーがタイムアウトしたか否かを判定する(S30)。
複数話者時間タイマーがタイムアウトされると、発言時間測定部62は参加者の全員の発言時間をクリアする(S40)。
この後、処理はステップS20に戻り、発言時間測定部62は参加者ごとに発言時間の累積を開始する。
このような処理により、図23に示すように参加者の発言時間が得られる。図23は、複数話者時間タイマーが5分を測定するごとにクリアされる場合の累積された発言時間を示している。図23(a)は0〜5分の累積の発言時間であり、図23(b)は5〜10分の累積の発言時間である。
図23(a)に示すように、テレビ会議の開始当初である5分間では、累積の発言時間が上位2名となるのは参加者A,Bである。従って、切取領域決定部63は参加者A,Bが含まれる範囲を切取領域に決定する。
図23(b)に示すように、次の5分間では、累積の発言時間が上位2名となるのは参加者A,Dである。従って、切取領域決定部63は参加者A,Dが含まれる範囲を切取領域に決定する。参加者AとDが隣り合っていない場合、トリミング画像9には参加者AとDの間の参加者も含まれる。以上のような処理により図3に示したような画面遷移が得られる。
<単一表示モード、複数表示モードにおけるトリミング画像>
<<トリミング画像の切り替え時の制御>>
本実施形態では全天球の画像データが得られているので、撮像される参加者を選択するためにカメラ112が向きを変えるような制御は不要である。しかし、トリミング画像9が瞬間的に切り替わるとユーザが参加者の配置を把握しにくくなるおそれがある。そこで、本実施形態ではカメラ112が徐々に向きを変えているかのようにトリミング画像9の切り替えを行う。
<<トリミング画像の切り替え時の制御>>
本実施形態では全天球の画像データが得られているので、撮像される参加者を選択するためにカメラ112が向きを変えるような制御は不要である。しかし、トリミング画像9が瞬間的に切り替わるとユーザが参加者の配置を把握しにくくなるおそれがある。そこで、本実施形態ではカメラ112が徐々に向きを変えているかのようにトリミング画像9の切り替えを行う。
図24は、トリミング画像9の切り替えを説明する図の一例である。トリミング画像9の切替制御は単一表示モードと複数表示モードに共通に行われるため、図24(a)は単一表示モードを例にして説明する。まず、トリミング画像9に参加者Aが含まれている。発言時間に基づき次に参加者Dがトリミング画像9に含まれる場合、画面切替部64は、参加者Aから参加者Dまで徐々にトリミング画像9を移動させる。
図24(b)はトリミング画像9の切替途中の中間画像8を示す。図24(b)に示すようにトリミング画像9aがトリミング画像9dに至る過程の中間画像8がトリミングされる。このような処理をトリミング画像9のスライド処理と称する。中間画像8は以下のようにして決定される。
(i)トリミング画像9aとトリミング画像9d(すなわち、切取領域決定部63が決定した切取領域)の4つの頂点をそれぞれ取得する。切り替え前のトリミング画像9aの頂点をK1、K2,K3,K4,切り替え後のトリミング画像9dの頂点をM1、M2,M3,M4とする。
(ii)スライド処理の過程で使用する中間画像の数をnとして、K1とM1、K2とM2、K3とM3、K4とM4を結ぶ直線をn等分する点を求める。nはスライド量に応じて決定される変数である。
(iii)n等分する点を結ぶ四角形をスライド処理の過程で使用する中間画像8に決定する。
(i)トリミング画像9aとトリミング画像9d(すなわち、切取領域決定部63が決定した切取領域)の4つの頂点をそれぞれ取得する。切り替え前のトリミング画像9aの頂点をK1、K2,K3,K4,切り替え後のトリミング画像9dの頂点をM1、M2,M3,M4とする。
(ii)スライド処理の過程で使用する中間画像の数をnとして、K1とM1、K2とM2、K3とM3、K4とM4を結ぶ直線をn等分する点を求める。nはスライド量に応じて決定される変数である。
(iii)n等分する点を結ぶ四角形をスライド処理の過程で使用する中間画像8に決定する。
従って、伝送端末10abのディスプレイ120abには、カメラ112が徐々に向きを変えたかのようにトリミング画像9が表示される。参加者Dから参加者Aにトリミング画像9が切り替わる際も同様にスライド処理される。
なお、スライドする方向は、経度θが大きくなる方向と小さくなる方向のうちスライド量が少ない方向でよい。従って、最大でもスライド量は180度である。複数表示モードの場合も同様にスライド処理されるが、図35において補足される。
続いて、ズームアウト処理について説明する。スライド処理が、元サイズのまま、元のトリミング画像9からトリミング画像9に切り替わるのに対し、ズームアウト処理ではトリミング画像9のサイズが大きくなる。しかしながら、処理の内容は同じである。
図25は、ズームアウト処理によるトリミング画像9の切り替えを説明する図の一例である。図25(a)は複数表示モードの場合を示し、トリミング画像9abに参加者A、Bが含まれている。発言時間に基づき次に参加者A,Dがトリミング画像9adに含まれる場合、画面切替部64は、現在のトリミング画像9abから参加者Aと参加者Dが含まれるトリミング画像9adまで徐々にトリミング画像9abを大きくする。
画面切替部64は、例えば以下のようにしてズームアウト処理を行う。
(i)切り替え前のトリミング画像9と切り替え後のトリミング画像9の4つの頂点をそれぞれ取得する。切り替え前のトリミング画像9の頂点をK1、K2,K3,K4,切り替え後のトリミング画像9の頂点をM1、M2,M3,M4とする。
(ii)ズームアウト処理の過程で使用する画像の数をnとして、K1とM1、K2とM2、K3とM3、K4とM4を結ぶ直線をn等分する点を求める。
(iii) 直線をn等分する点を結ぶ四角形をズームアウト処理の過程で使用する中間画像8決定する。
(i)切り替え前のトリミング画像9と切り替え後のトリミング画像9の4つの頂点をそれぞれ取得する。切り替え前のトリミング画像9の頂点をK1、K2,K3,K4,切り替え後のトリミング画像9の頂点をM1、M2,M3,M4とする。
(ii)ズームアウト処理の過程で使用する画像の数をnとして、K1とM1、K2とM2、K3とM3、K4とM4を結ぶ直線をn等分する点を求める。
(iii) 直線をn等分する点を結ぶ四角形をズームアウト処理の過程で使用する中間画像8決定する。
図25(b)はトリミング画像9の切替途中のトリミング画像9を示す。図25(b)ではトリミング画像9abがトリミング画像9adに至る過程の領域が中間画像8としてトリミングされる。このような処理をトリミング画像9のズームアウトと称する。従って、伝送端末10abのディスプレイ120abには、カメラ112が徐々にズームアウトしたかのようにトリミング画像9が表示される。
なお、アスペクト比を維持するため、元の画像データにない範囲がトリミングされる場合がある。この場合、元の画像データにない範囲に黒画素、白画素、模様、幾何学パターン等が配置される。
逆に、トリミング画像9adからトリミング画像9abに切り替わる場合、ズームイン処理が行われる。すなわち、トリミング画像9adがトリミング画像9abに至る過程の領域がトリミングされる。
なお、例えば、参加者AとFがトリミングされる場合、切取領域決定部63は参加者A〜Fの全てを切取領域に決定する必要はない。これは、画像データは0〜360度の範囲を含むため、参加者Fと参加者Aは実際には隣り合っているためである。従って、切取領域決定部63は参加者FとAを含むように切取領域に決定すればよい。すなわち、切取領域決定部63は、複数の参加者を含むように切取領域を決定する場合、切取領域の経度方向の画角が少なくなるように切取領域を決定する。
<<90度画面切替オプション>>
図24でスライド処理について説明したが、スライド処理においてスライド量があまりに多いと却ってユーザにとって好ましくない画面遷移となる可能性がある。このような場合にスライド量を制限するのが90度画面切替オプションである。
図24でスライド処理について説明したが、スライド処理においてスライド量があまりに多いと却ってユーザにとって好ましくない画面遷移となる可能性がある。このような場合にスライド量を制限するのが90度画面切替オプションである。
図26は90度画面切替オプションが選択された場合のトリミング画像9を説明する図の一例である。図26(a)ではトリミング画像9aに参加者Aが含まれている。発言時間に基づき次に参加者Eがトリミング画像9eに含まれる場合、画面切替部64は、トリミング画像9aの経度方向の移動量601を算出する。画面切替部64は、移動量601が±90度を超える場合、トリミング画像9のスライド処理を行うことなく、参加者Eが含まれる領域を切取領域に決定する。
従って、図26(b)に示すように、トリミング画像9aの後、トリミング画像9eがトリミングされる。スライド量が多い場合にはスライド処理を行わないことで、ユーザにとって好ましい画面遷移にすることができる。
なお、図26は単一表示モードの例であるが、複数表示モードの場合も同様に判定される。また、ズームアウト処理/ズームイン処理についてもトリミング画像9の大きさの変化量が90度を超える場合、ズームアウト処理/ズームイン処理が行われない。あるいは、ユーザの設定などでズームアウト処理/ズームイン処理が行われてもよい。
±90度としたのは一例であって、例えば90〜180度の範囲でスライド量が閾値より大きい場合、スライド処理を行わないとしてもよい(移動量601の最大が180度)。この閾値をユーザが設定可能であってもよい。
<<二画面オプション>>
二画面オプションは、画面切替部64が360度の画像を180度ずつ二つに分けてそれぞれからトリミング画像9を作成し、2つの画像データを会議に参加している伝送端末10に送信するオプションである。
二画面オプションは、画面切替部64が360度の画像を180度ずつ二つに分けてそれぞれからトリミング画像9を作成し、2つの画像データを会議に参加している伝送端末10に送信するオプションである。
図27は二画面オプションを説明する図の一例である。切取領域決定部63は0〜179度の領域Iと180〜360度の領域IIのそれぞれで最も発言時間が長い参加者を含むように切取領域を決定する。
従って、伝送端末10abには2つのトリミング画像9が送信される。伝送端末10abのユーザはいずれか一方のみを選択して表示させたり、一度に2つのトリミング画像9を表示させることができる。参加者が表示される機会が2倍になるので、トリミング画像9が切り替わる頻度が低減される。また、臨場感のあるテレビ会議が可能になる。
なお、図27は単一表示モードの例であるが、複数表示モードの場合も同様に処理される。また、領域IとIIの境界に参加者が存在する場合、領域Iを前方に短縮するか又は後方に延長する。短縮するか延長するかは、参加者の人数が均等に近づくように判定される。
<<速度変化オプション>>
速度変化オプションは、スライド処理におけるトリミング画像9のスライド速度が制御されるオプションである。
速度変化オプションは、スライド処理におけるトリミング画像9のスライド速度が制御されるオプションである。
図28(a)は速度変化オプションを説明する図の一例である。速度変化オプションが選択された場合、画面切替部64は、移動開始直後611と移動終了直前613(所定範囲)は遅い速度でスライドさせ、中間部分612(所定範囲外)は高速でスライドさせる。
具体的には、画面切替部64は移動元のトリミング画像9a及び移動先のトリミング画像9eから所定内ではトリミング間隔Δ1ごとにトリミング画像9を取り込むと決定する。それ以外では、トリミング間隔Δ2ごとにトリミング画像9を取り込むと決定する。Δ1<Δ2なので、移動開始直後611と移動終了直前613は遅い速度でトリミング画像9がスライドし、中間部分612はトリミング画像9が高速でスライドする。Δ1とΔ2は上記のn等分のnにより決定されるため、移動開始直後611(移動終了直前613)と中間部分612でnを変更すればよい。
あるいは、トリミング画像9の間隔が連続的に変化されてもよい。図28(b)はスライド量に対するトリミング間隔Δを示す。トリミング間隔Δは、スライド量の中点で折り返すように決定される。初期値Δsから徐々に大きくなり、中点を超えたと判定されると、初期値Δsに向けて徐々に小さくなる。移動元と移動先の中点で最大値Δmaxとなるが、最大値Δmaxはスライド量によって変わる。従って、移動開始直後と移動終了直前は遅い速度でトリミング画像9がスライドし、さらに、スライド量が多いほど中間部分を高速でスライドさせることができる。
なお、図28は単一表示モードの例であるが、複数表示モードの場合も同様に処理される。また、スライド量が所定以下の場合には画面切替部64は速度変化させなくてもよい。スライド量が少ないと速度変化がユーザに違和感を与えるおそれがあるためである。
<<司会者オプション>>
司会者オプションは、画面切替部64が司会者を常にトリミング画像9に含めるオプションである。なお、司会者オプションは複数表示モードのみのオプションである。
司会者オプションは、画面切替部64が司会者を常にトリミング画像9に含めるオプションである。なお、司会者オプションは複数表示モードのみのオプションである。
図29は、司会者オプションを説明する図の一例である。図29では司会者が参加者Cであるとする。司会者は、ユーザが選択するか又は発言時間が最も長い参加者が決定される。また、図29では話者人数として2人が選択されているものとする。従って、司会者とは別に、最も発言時間が長い参加者が話者として特定される。
図29(a)では、参加者Dの発言時間が最も長いと判定され、司会者Cと参加者Dが含まれるトリミング画像9cdが作成されている。
次の集計時間で参加者Eの発言時間が最も長いと判定されたものとする。図29(b)に示すように、切取領域決定部63は司会者Cから参加者Eまでが含まれる切取領域を決定する。これによりトリミング画像9cdeが作成される。
次の集計時間で参加者Aの発言時間が最も長いと判定されたものとする。図29(c)に示すように、画面切替部64は司会者Cから参加者Aまでが含まれる切取領域を決定する。これによりトリミング画像9acが作成される。
従って、司会者オプションが設定されることで、常に司会者が表示される。司会者は重要発言をすることが多いと想定されるので、重要な発言を行う参加者を常に表示させることができる。
<360度表示モード>
図30は360度表示モードにて表示された画像データを示す。360度表示モードでは全天球の画像を天頂部から見下した方向の全天球の画像データが表示される。このような画像により、全ての参加者を一度に表示させることができる。なお、次述するオプションが設定されない場合、経度ゼロの方向が例えば北方向になるように画像データが配置される。
図30は360度表示モードにて表示された画像データを示す。360度表示モードでは全天球の画像を天頂部から見下した方向の全天球の画像データが表示される。このような画像により、全ての参加者を一度に表示させることができる。なお、次述するオプションが設定されない場合、経度ゼロの方向が例えば北方向になるように画像データが配置される。
<<司会者固定オプション>>
司会者固定オプションは司会者が常に北方向に配置されるオプションである。伝送端末10の画面切替部64は全天球の画像データから司会者を特定し、司会者を北方向に配置する。図30を例にすると、参加者Bが司会者である。なお、司会者の向きは西、東、南でもよくこれら以外でもよい。
司会者固定オプションは司会者が常に北方向に配置されるオプションである。伝送端末10の画面切替部64は全天球の画像データから司会者を特定し、司会者を北方向に配置する。図30を例にすると、参加者Bが司会者である。なお、司会者の向きは西、東、南でもよくこれら以外でもよい。
<<参加者固定オプション>>
参加者固定オプションは参加者が固定して配置されるオプションである。つまり、図30のように表示されるとすると、参加者の表示位置が変わることはない。司会者固定オプションと異なるのは、発言者が強調して表示される点である。
参加者固定オプションは参加者が固定して配置されるオプションである。つまり、図30のように表示されるとすると、参加者の表示位置が変わることはない。司会者固定オプションと異なるのは、発言者が強調して表示される点である。
図31は参加者固定オプションを説明する図の一例である。図31(a)では話者方向により参加者Aが話者であることが検出されている。画面切替部64は参加者Aを強調する処理を画像データに行う。図31(a)では参加者Aが強調枠602で囲まれている。強調する方法は、参加者Bを含む画素の輝度を上げたりコントラストを上げるなどどのような方法でもよい。
次に、話者方向により参加者Cが話者であることが検出されたものとする。画面切替部64は参加者Cを強調する処理を画像データに行う。図31(b)では参加者Cが強調枠602で囲まれている。
参加者固定オプションによれば、全ての参加者を一度に表示させた状態で、ユーザが話者を特定することができる。また、画面遷移が生じないのでユーザにとって好ましい画像となる。なお、画面切替部64は、同時に複数の参加者を強調することができる。
<<話者強調オプション>>
話者強調オプションは話者が常に北方向に配置されるオプションである。伝送端末10の画面切替部64は話者方向により話者を特定し、話者を北方向に配置する(西、東、南でもよくこれら以外でもよい。)。そして、単一表示モードと同様に話者が切替時間、継続して発言すると北方向に配置される参加者が切り替えられる。
話者強調オプションは話者が常に北方向に配置されるオプションである。伝送端末10の画面切替部64は話者方向により話者を特定し、話者を北方向に配置する(西、東、南でもよくこれら以外でもよい。)。そして、単一表示モードと同様に話者が切替時間、継続して発言すると北方向に配置される参加者が切り替えられる。
図32は話者強調オプションを説明する図の一例である。図32(a)では話者方向により参加者Cが話者であることが検出されている。画面切替部64は参加者Cが北方向に配置されるように画像データを回転させる。図32(a)では参加者Cが北方向に配置されている。
次に、参加者Fが切替時間、継続して発言したものとする。画面切替部64は参加者Fが北方向に配置されるように画像データを回転させる。図32(b)では参加者Fが北方向に配置されている。
話者強調オプションによれば、話者を北方向に配置できるためユーザが話者を特定しやすい。また、切替時間が経過しないと参加者の配置が変わらないので、頻繁な画面遷移も抑制できる。
<処理手順>
続いて、トリミング部18がトリミング画像9を決定する手順を説明する。まず、単一表示モードの場合を説明する。
続いて、トリミング部18がトリミング画像9を決定する手順を説明する。まず、単一表示モードの場合を説明する。
<<単一表示モードの90度画面切替オプション>>
図33は、単一表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図33の処理は切取領域を決定するタイミングになるとスタートする。
図33は、単一表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図33の処理は切取領域を決定するタイミングになるとスタートする。
画面切替部64は90度画面切替オプションが有効か否かを判定する(S10)。
90度画面切替オプションが有効でない場合(S10のNo)、トリミング画像9の切り替え時に90度を超えてスライドしてよいため、画面切替部64はスライド処理を行って切り替え先の話者を含むトリミング画像9を作成する(S20)。
90度画面切替オプションが有効である場合(S10のYes)、トリミング画像9の切り替え時に90度を超えてスライドできないため、画面切替部64は切り替え先の話者が切り替え元の話者を中心に±90度以内の位置に存在するか否かを判定する(S30)。
ステップS30の判定がYesの場合、画面切替部64はスライド処理を行って切り替え先の話者を含むトリミング画像9を作成する(S50)。
ステップS30の判定がNoの場合、画面切替部64はスライド処理を行うことなく切り替え先の話者を含むトリミング画像9を作成する(S40)。
このような手順により、90度画面切替オプションが有効である場合にトリミング画像9を作成できる。
<<単一表示モードの二画面オプション、90度画面切替オプション、速度変化オプション>>
図34は、単一表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図34の処理は切取領域を決定するタイミングになるとスタートする。
図34は、単一表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図34の処理は切取領域を決定するタイミングになるとスタートする。
画面切替部64は二画面オプションが有効か否かを判定する(S10)。
二画面オプションが有効である場合(S10のYes)、トリミング部18は画像データを水平方向に半分に分割する(S20)。従って、水平方向に180度の画角を有する2つの画像が作成される。
次に、画面切替部64は、切り替え先の話者が切り替え元の話者の画面に存在するか否かを判定する(S30)。ステップS30の判定がNoの場合、処理はステップS90に進む。
ステップS30の判定がYesの場合、画面切替部64は速度変化オプションが有効か否かを判定する(S40)。
ステップS40の判定がNoの場合、画面切替部64は切り替え先の話者まで一定速度のスライド処理を行いトリミング画像9を作成する(S50)。
ステップS40の判定がYesの場合、画面切替部64は切り替え先の話者まで速度変化させたスライド処理を行いトリミング画像9を作成する(S60)。移動開始時:低速、移動中:高速、移動終了時:低速である。
ステップS10に戻って説明する。二画面オプションが無効である場合(S10のNo)、画面切替部64は90度画面切替オプションが有効か否かを判定する(S70)。
ステップS70の判定がNoの場合、処理はステップS40に進む。すなわち、速度変化オプションの有無が判定される。
ステップS70の判定がYesの場合、トリミング画像9の切り替え時に90度を超えてスライドできないため、画面切替部64は切り替え先の話者が切り替え元の話者を中心に±90度以内の位置に存在するか否かを判定する(S80)。
ステップS80の判定がYesの場合、スライド処理させてよいので処理はステップS50に進む。ステップS80の判定がNoの場合、スライド処理できないので、画面切替部64は切り替え先の話者を含むトリミング画像9を作成する(S90)。
<<複数表示モード>>
図35(a)は、複数表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図35の処理は切取領域を決定するタイミングになるとスタートする。
図35(a)は、複数表示モードにおけるトリミング部18の動作手順を示すフローチャート図の一例である。図35の処理は切取領域を決定するタイミングになるとスタートする。
まず、切取領域決定部63は二者の距離が所定方向に180度以上あるか否かを判定する(S10)。二者とは、1つのトリミング画像9に含めるべき最左と最右の話者をいう。また、所定方向とは、経度が大きくなる方向又は小さくなる方向のどちらでもよいが予め定められている。
ステップS10の判定がNoの場合、図35(b)(c)に示すように切取領域決定部63は所定方向にズームアウトする(S20)。参加者Aを残して参加者Bを含んだまま参加者Cに切り替わる。
ステップS10の判定がYesの場合、図35(d)(e)に示すように切取領域決定部63は所定方向とは逆方向にズームアウトし、両者が画面に入るように切取領域を決定する(S30)。参加者Aを残して参加者Dに切り替わる。
このような処理により、複数表示モードでも画角が180度以下になるように切取領域を決定できる。
<<複数表示モード 切取領域の決定>>
単一表示モードの場合、一人の話者の顔などを含むように切取領域を決定すればよい。これに対し、複数表示モードの場合、参加者の顔が同じ高さにあるとは限らないので、緯度方向の適切な画角を決定することが好ましい。
単一表示モードの場合、一人の話者の顔などを含むように切取領域を決定すればよい。これに対し、複数表示モードの場合、参加者の顔が同じ高さにあるとは限らないので、緯度方向の適切な画角を決定することが好ましい。
図36(a)は、複数表示モードにおいて緯度方向の画角を決定する手順を示すフローチャート図の一例である。
切取領域決定部63は、画像データに写っている全ての顔を認識し、緯度方向の顔の平均値を中心線621に設定する(S10)。図36(b)は中心線621の一例を示す。
緯度方向の顔の位置は例えば、眼、鼻、口など検出が容易な顔の部品の位置とする。
緯度方向の顔の位置は例えば、眼、鼻、口など検出が容易な顔の部品の位置とする。
次に、切取領域決定部63は中心線621を中心に、縦横比が16:9になるように緯度方向の画角を決定する(S20)。例えば、二人の話者の距離が160度の場合、緯度方向の画角は中心線621を中心に上下それぞれ45度である。図36(c)は複数表示モードにおけるトリミング画像9の一例を示す。
このような処理により、複数表示モードにおいて話者の顔を含むようにトリミング画像9を作成できる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、伝送端末10aaのユーザが表示モードとオプションを選択するのでなく、会議に参加している他の伝送端末10abのユーザが表示モードとオプションを選択可能でもよい。伝送端末10aaのユーザ以外に複数の参加者がいる場合は、伝送端末10aaのユーザが任意の伝送端末10に決定権を与える。
まあ、画像データの送信元の伝送端末10aaがトリミング画像を作成するのでなく、受信元の伝送端末が行ってもよいし、伝送管理システム50や中継装置30などのネットワーク上の装置が行ってもよい。
また、図7などの構成例は、伝送管理システム50及び伝送端末10による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。伝送管理システム50及び伝送端末10の処理は、処理内容に応じてさらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。
また、本実施形態では説明の都合上、伝送管理システム50と中継装置30を別々の装置として説明したが、両者の機能が統合された装置が伝送管理システム50と中継装置30の機能を提供してもよい。
また、本実施形態では、中継装置30を介して伝送端末10が通信しているが、伝送端末10は中継装置を介さずに通信してもよい。このような通信の通信プロトコルとして例えばWebRTC(Web Real-Time Communication)が知られている。
また、伝送システム1が複数の伝送管理システム50を有していてもよく、伝送管理システム50の機能が複数のサーバに分散して配置されていてもよい。
また、伝送管理システム50が記憶部5000に有する各データベースの1つ以上は通信ネットワーク2上に存在していてもよい。
また、表示装置としてディスプレイ120を例にしたが、プロジェクタ、HUD(Head Up Display)、テレビ受像器、カーナビゲーション端末、など画像を表示できるものであればよい。
なお、撮像部17は撮像手段の一例であり、参加者検出部61は認識手段の一例であり、話者方向推定部14は話者推定手段の一例であり、発言時間測定部62は測定手段の一例であり、切取領域決定部63と画面切替部64は取得手段の一例である。全天球カメラ112aは撮像装置の一例である。トリミング画像9は話者画像の一例であり、切り替え前のトリミング画像9は第一話者画像、切り替え後のトリミング画像9は第二話者画像のそれぞれ一例である。操作入力受付部16は選択受付手段の一例であり、切替時間は第一閾値の一例であり、90度は第二閾値の一例である。送受信部11は送信手段の一例である。伝送端末10abは情報端末の一例である。
1 伝送システム
8 中間画像
9 トリミング画像
10 伝送端末
14 話者方向推定部
17 撮像部
18 トリミング部
50 伝送管理システム
61 参加者検出部
61 認識手段
62 発言時間測定部
63 切取領域決定部
64 画面切替部
8 中間画像
9 トリミング画像
10 伝送端末
14 話者方向推定部
17 撮像部
18 トリミング部
50 伝送管理システム
61 参加者検出部
61 認識手段
62 発言時間測定部
63 切取領域決定部
64 画面切替部
Claims (15)
- ネットワークを介して通信可能な情報端末に画像データを送信する情報処理装置であって、
撮像手段が撮像した画像データから人を認識する認識手段と、
前記画像データに撮像されている人のうち話者を推定する話者推定手段と、
前記話者推定手段が推定した前記話者の発言時間を測定する測定手段と、
前記測定手段が測定した前記発言時間に基づいて、継続して発言する前記話者を含む話者画像を画像データから取得する取得手段と、
前記取得手段が取得した前記話者画像を前記情報端末に送信する送信手段と、
を有する情報処理装置。 - 前記測定手段が第一閾値より長い前記発言時間を継続して測定した場合、前記取得手段は、前記発言時間が前記第一閾値より長い前記話者の前記話者画像を前記画像データから取得する請求項1に記載の情報処理装置。
- 前記取得手段は、所定時間における累積の前記発言時間が長い順に予め定められた数の前記話者が含まれる前記話者画像を前記画像データから取得する請求項1に記載の情報処理装置。
- 第一話者画像を取得した後に第二話者画像を取得する際、前記取得手段は、前記第一話者画像と前記第二話者画像の間の前記画像データから1つ以上の中間画像を取得し、
前記送信手段は前記中間画像を前記情報端末に送信する請求項1〜3いずれか1項に記載の情報処理装置。 - 第一話者画像を取得した後に、前記第一話者画像の少なくとも一部を含み前記第一話者画像よりも大きい第二話者画像を取得する際、前記取得手段は前記第一話者画像よりも大きく前記第二話者画像よりも小さい1つ以上の中間画像を前記画像データから取得し、
前記送信手段は前記中間画像を前記情報端末に送信する請求項1〜3いずれか1項に記載の情報処理装置。 - 第一話者画像を取得した後に、前記第一話者画像の少なくとも一部を含み前記第一話者画像よりも小さい第二話者画像を取得する際、前記取得手段は前記第一話者画像よりも小さく前記第二話者画像よりも大きい1つ以上の中間画像を前記画像データから取得し、
前記送信手段は前記中間画像を前記情報端末に送信する請求項1〜3いずれか1項に記載の情報処理装置。 - 前記取得手段が、前記第一話者画像と前記第二話者画像の間の前記画像データから複数の前記中間画像を取得する際、
前記第一話者画像及び前記第二話者画像から所定範囲内では、所定範囲外よりも短い間隔で前記中間画像を前記画像データから取得する請求項4に記載の情報処理装置。 - 前記取得手段は、前記第一話者画像と前記第二話者画像が第二閾値よりも離れている場合、前記中間画像を取得することなく前記第一話者画像の次に、前記画像データから前記第二話者画像を取得する請求項4に記載の情報処理装置。
- 前記取得手段は、前記画像データが複数に分割されたそれぞれの領域から、前記発言時間に基づいて、継続して発言する前記話者を含む前記話者画像を取得する請求項1〜8のいずれか1項に記載の情報処理装置。
- 前記画像データに撮像されている人のうち一人の選択を受け付ける選択受付手段を有するか、又は、前記測定手段が測定した前記発言時間が最も長い人を前記取得手段が特定し、
前記取得手段は、前記選択受付手段が受け付けた前記人又は前記発言時間が最も長い人を含むと共に、前記発言時間に基づいて特定された前記話者の前記話者画像を前記画像データから取得する請求項1〜9いずれか1項に記載の情報処理装置。 - 前記画像データに撮像されている人のうち一人の選択を受け付ける選択受付手段を有するか、又は、前記測定手段が測定した前記発言時間が最も長い人を前記取得手段が特定し、
前記画像データが前記撮像手段の周囲360度が撮像された広角の画像データの場合、
前記取得手段は、前記選択受付手段が受け付けた前記人又は前記発言時間が最も長い人が所定方向に配置されるように前記広角の画像データを配置する請求項1〜9いずれか1項に記載の情報処理装置。 - 前記画像データが前記撮像手段の周囲360度が撮像された広角の画像データの場合、
前記取得手段は、前記第一閾値より長い前記発言時間が測定された前記話者が所定方向に配置されるように前記広角の画像データを配置する請求項2〜9いずれか1項に記載の情報処理装置。 - 前記画像データが前記撮像手段の周囲360度が撮像された広角の画像データの場合、
前記取得手段は、前記話者推定手段が推定した前記話者を強調する処理を前記広角の画像データに施す請求項1〜9いずれか1項に記載の情報処理装置。 - ネットワークを介して通信可能な情報端末に画像データを送信する情報処理装置を、
撮像手段が撮像した画像データから人を認識する認識手段と、
前記画像データに撮像されている人のうち話者を推定する話者推定手段と、
前記話者推定手段が推定した前記話者の発言時間を測定する測定手段と、
前記測定手段が測定した前記発言時間に基づいて、継続して発言する前記話者を含む話者画像を画像データから取得する取得手段と、
前記取得手段が取得した前記話者画像を前記情報端末に送信する送信手段と、
として機能させるためのプログラム。 - ネットワークを介して通信可能な情報端末に画像データを送信する情報処理装置と、撮像装置とが通信する画像処理システムであって、
前記撮像装置は、周囲360度を撮像する撮像手段を有し、
前記情報処理装置は、
前記撮像手段が撮像した画像データから人を認識する認識手段と、
前記画像データに撮像されている人のうち話者を推定する話者推定手段と、
前記話者推定手段が推定した前記話者の発言時間を測定する測定手段と、
前記測定手段が測定した前記発言時間に基づいて、継続して発言する前記話者を含む話者画像を画像データから取得する取得手段と、
前記取得手段が取得した前記話者画像を前記情報端末に送信する送信手段と、
を有する画像処理システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181145A JP2017059902A (ja) | 2015-09-14 | 2015-09-14 | 情報処理装置、プログラム、画像処理システム |
US15/262,542 US9894320B2 (en) | 2015-09-14 | 2016-09-12 | Information processing apparatus and image processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015181145A JP2017059902A (ja) | 2015-09-14 | 2015-09-14 | 情報処理装置、プログラム、画像処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017059902A true JP2017059902A (ja) | 2017-03-23 |
Family
ID=58257730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015181145A Pending JP2017059902A (ja) | 2015-09-14 | 2015-09-14 | 情報処理装置、プログラム、画像処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9894320B2 (ja) |
JP (1) | JP2017059902A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019036807A (ja) * | 2017-08-10 | 2019-03-07 | 株式会社リコー | 閲覧システム、情報処理装置、画像配信方法、プログラム |
JP2019080252A (ja) * | 2017-10-26 | 2019-05-23 | 株式会社リコー | プログラム、画像表示方法、画像表示システム、情報処理装置 |
JP2019180045A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社リコー | 通信管理システム、通信システム、通信方法、及びプログラム |
JP2020053741A (ja) * | 2018-09-25 | 2020-04-02 | 京セラドキュメントソリューションズ株式会社 | テレビ会議装置及びテレビ会議プログラム |
JP2021026457A (ja) * | 2019-08-02 | 2021-02-22 | 株式会社デンソーテン | 画像配信装置及び方法並びに画像配信システム |
CN112752059A (zh) * | 2019-10-30 | 2021-05-04 | 纬创资通股份有限公司 | 视频会议系统以及视频会议方法 |
JP6908906B1 (ja) * | 2020-12-09 | 2021-07-28 | 日本テレビ放送網株式会社 | 自動スイッチング装置、自動スイッチング方法及びプログラム |
JP6967735B1 (ja) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理システム |
JP7657661B2 (ja) | 2021-06-23 | 2025-04-07 | 日本テレビ放送網株式会社 | 自動スイッチング装置、自動スイッチング方法及びプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018010439A (ja) | 2016-07-13 | 2018-01-18 | 株式会社リコー | 座標検出装置 |
US12249342B2 (en) | 2016-07-16 | 2025-03-11 | Ron Zass | Visualizing auditory content for accessibility |
US10433052B2 (en) * | 2016-07-16 | 2019-10-01 | Ron Zass | System and method for identifying speech prosody |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
JP7258482B2 (ja) * | 2018-07-05 | 2023-04-17 | キヤノン株式会社 | 電子機器 |
JP7420078B2 (ja) * | 2018-11-06 | 2024-01-23 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US11048408B2 (en) | 2019-05-27 | 2021-06-29 | Ricoh Company, Ltd. | Display apparatus, recording medium, and display method |
JP6946499B2 (ja) * | 2020-03-06 | 2021-10-06 | 株式会社日立製作所 | 発話支援装置、発話支援方法、および発話支援プログラム |
US11503440B2 (en) | 2020-04-16 | 2022-11-15 | Avaya Management L.P. | Methods and systems for providing enterprise services to wearable and mobile devices |
US11503426B2 (en) * | 2020-04-16 | 2022-11-15 | Avaya Management L.P. | Methods and systems for managing conferencing features using a distributed communication controller |
CN112532911A (zh) * | 2020-11-12 | 2021-03-19 | 深圳市慧为智能科技股份有限公司 | 图像数据处理方法、装置、设备及存储介质 |
US11907023B2 (en) | 2021-04-23 | 2024-02-20 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, terminal device, and display method |
US11762617B2 (en) | 2021-09-13 | 2023-09-19 | Ricoh Company, Ltd. | Display apparatus, display method, and display system |
JP2023094195A (ja) | 2021-12-23 | 2023-07-05 | 株式会社リコー | 表示装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7015954B1 (en) | 1999-08-09 | 2006-03-21 | Fuji Xerox Co., Ltd. | Automatic video system using multiple cameras |
JP2001352530A (ja) | 2000-06-09 | 2001-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 通信会議装置 |
NO326770B1 (no) * | 2006-05-26 | 2009-02-16 | Tandberg Telecom As | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
US9154730B2 (en) * | 2009-10-16 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | System and method for determining the active talkers in a video conference |
JP5031016B2 (ja) | 2009-12-07 | 2012-09-19 | 株式会社リコー | 画像処理装置、画像処理方法およびプログラム |
JP5999873B2 (ja) | 2010-02-24 | 2016-09-28 | 株式会社リコー | 伝送システム、伝送方法、及びプログラム |
JP6303270B2 (ja) | 2012-05-18 | 2018-04-04 | 株式会社リコー | ビデオ会議端末装置、ビデオ会議システム、映像の歪み補正方法および映像の歪み補正プログラム |
US9210269B2 (en) * | 2012-10-31 | 2015-12-08 | Cisco Technology, Inc. | Active speaker indicator for conference participants |
JP2014176034A (ja) | 2013-03-12 | 2014-09-22 | Ricoh Co Ltd | 映像伝送装置 |
JP6651989B2 (ja) * | 2015-08-03 | 2020-02-19 | 株式会社リコー | 映像処理装置、映像処理方法、及び映像処理システム |
-
2015
- 2015-09-14 JP JP2015181145A patent/JP2017059902A/ja active Pending
-
2016
- 2016-09-12 US US15/262,542 patent/US9894320B2/en active Active
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7031168B2 (ja) | 2017-08-10 | 2022-03-08 | 株式会社リコー | 閲覧システム、情報処理装置、画像配信方法、プログラム |
JP2019036807A (ja) * | 2017-08-10 | 2019-03-07 | 株式会社リコー | 閲覧システム、情報処理装置、画像配信方法、プログラム |
JP2019080252A (ja) * | 2017-10-26 | 2019-05-23 | 株式会社リコー | プログラム、画像表示方法、画像表示システム、情報処理装置 |
JP7031228B2 (ja) | 2017-10-26 | 2022-03-08 | 株式会社リコー | プログラム、画像表示方法、画像表示システム、情報処理装置 |
JP7164831B2 (ja) | 2018-03-30 | 2022-11-02 | 株式会社リコー | 通信管理システム、通信システム、通信方法、及びプログラム |
JP2019180045A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社リコー | 通信管理システム、通信システム、通信方法、及びプログラム |
JP2020053741A (ja) * | 2018-09-25 | 2020-04-02 | 京セラドキュメントソリューションズ株式会社 | テレビ会議装置及びテレビ会議プログラム |
JP7230394B2 (ja) | 2018-09-25 | 2023-03-01 | 京セラドキュメントソリューションズ株式会社 | テレビ会議装置及びテレビ会議プログラム |
JP2021026457A (ja) * | 2019-08-02 | 2021-02-22 | 株式会社デンソーテン | 画像配信装置及び方法並びに画像配信システム |
JP7254000B2 (ja) | 2019-08-02 | 2023-04-07 | 株式会社デンソーテン | 画像配信装置及び方法並びに画像配信システム |
CN112752059A (zh) * | 2019-10-30 | 2021-05-04 | 纬创资通股份有限公司 | 视频会议系统以及视频会议方法 |
CN112752059B (zh) * | 2019-10-30 | 2023-06-30 | 纬创资通股份有限公司 | 视频会议系统以及视频会议方法 |
JP6908906B1 (ja) * | 2020-12-09 | 2021-07-28 | 日本テレビ放送網株式会社 | 自動スイッチング装置、自動スイッチング方法及びプログラム |
JP2022091640A (ja) * | 2020-12-09 | 2022-06-21 | 日本テレビ放送網株式会社 | 自動スイッチング装置、自動スイッチング方法及びプログラム |
JP6967735B1 (ja) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理システム |
JP2022108638A (ja) * | 2021-01-13 | 2022-07-26 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理システム |
JP7657661B2 (ja) | 2021-06-23 | 2025-04-07 | 日本テレビ放送網株式会社 | 自動スイッチング装置、自動スイッチング方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20170078616A1 (en) | 2017-03-16 |
US9894320B2 (en) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017059902A (ja) | 情報処理装置、プログラム、画像処理システム | |
US9912907B2 (en) | Dynamic video and sound adjustment in a video conference | |
JP6547496B2 (ja) | 通信装置、通信方法、プログラムおよび通信システム | |
JP6171263B2 (ja) | 遠隔会議システム及び遠隔会議端末 | |
US9967518B2 (en) | Video conference system | |
JP6551155B2 (ja) | 通信システム、通信装置、通信方法およびプログラム | |
RU2672173C2 (ru) | Способ и устройство для обработки видеоинформации | |
CN105247881B (zh) | 信息处理设备、显示控制方法以及程序 | |
US9699414B2 (en) | Information processing apparatus, information processing method, and computer program product | |
WO2011109578A1 (en) | Digital conferencing for mobile devices | |
JP6269609B2 (ja) | 情報処理装置、画像表示方法、通信システム、プログラム | |
CN111049848B (zh) | 通话方法、装置、系统、服务器及存储介质 | |
US20170127020A1 (en) | Communication system, communication device, and communication method | |
US9007531B2 (en) | Methods and apparatus for expanding a field of view in a video communication session | |
US20130329114A1 (en) | Image magnifier for pin-point control | |
US20230362332A1 (en) | Detailed Videoconference Viewpoint Generation | |
CN114531564A (zh) | 处理方法及电子设备 | |
JP6500366B2 (ja) | 管理装置、端末装置、伝送システム、伝送方法およびプログラム | |
JP2017103641A (ja) | 情報処理装置、会議システム、情報処理方法およびプログラム | |
JP2017028660A (ja) | 情報処理装置、画像表示方法、通信システム、プログラム | |
JP6680031B2 (ja) | 会議用装置、送信方法、およびコンピュータプログラム | |
WO2013066290A1 (en) | Videoconferencing using personal devices | |
JP2010028299A (ja) | 会議撮影画像処理方法及び会議装置等 | |
JP7392383B2 (ja) | 伝送端末、通信システム、通信制御方法、及びプログラム | |
US20230388447A1 (en) | Subject-based smart segmentation of video feed on a transmitting device |