[go: up one dir, main page]

JP2012027339A - Karaoke device - Google Patents

Karaoke device Download PDF

Info

Publication number
JP2012027339A
JP2012027339A JP2010167540A JP2010167540A JP2012027339A JP 2012027339 A JP2012027339 A JP 2012027339A JP 2010167540 A JP2010167540 A JP 2010167540A JP 2010167540 A JP2010167540 A JP 2010167540A JP 2012027339 A JP2012027339 A JP 2012027339A
Authority
JP
Japan
Prior art keywords
microphone
video data
karaoke
video
singer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010167540A
Other languages
Japanese (ja)
Other versions
JP5299374B2 (en
Inventor
Tatsuji Kawai
竜次 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2010167540A priority Critical patent/JP5299374B2/en
Publication of JP2012027339A publication Critical patent/JP2012027339A/en
Application granted granted Critical
Publication of JP5299374B2 publication Critical patent/JP5299374B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】1台のカメラで、歌唱者の姿を切れ目なく撮影した映像を確実に生成する。
【解決手段】カラオケ装置10は、装置本体100と、マーカ光を発生させるマイク300と、マイク300及び歌唱者を含む所定範囲の視野を撮影し映像データを生成する全周カメラ400とを有している。装置本体100は、音源106等と、背景映像データ及び歌詞データを表示する表示部109と、全周カメラ400で撮影して得られた所定範囲の映像データを取得し、その映像データに含まれるマーカ光に基づいてマイク300の位置を特定し、カラオケルームKR内の映像データからマイク300の位置を含む部分映像データを切り出し、その部分映像データの補正処理を行って出力映像を得る制御部101とを有している。
【選択図】図5
An image in which a singer's figure is continuously captured with a single camera is reliably generated.
A karaoke apparatus 10 includes an apparatus main body 100, a microphone 300 that generates marker light, and an all-around camera 400 that captures a predetermined range of view including the microphone 300 and a singer and generates video data. ing. The apparatus main body 100 acquires sound data 106 and the like, a display unit 109 that displays background video data and lyrics data, and video data in a predetermined range obtained by photographing with the all-around camera 400, and is included in the video data. A control unit 101 that identifies the position of the microphone 300 based on the marker light, cuts out partial video data including the position of the microphone 300 from the video data in the karaoke room KR, and corrects the partial video data to obtain an output video. And have.
[Selection] Figure 5

Description

本発明は、カラオケ演奏曲の再生サービスを提供するカラオケ装置に関する。   The present invention relates to a karaoke apparatus that provides a reproduction service for karaoke performance songs.

近年、カラオケ装置において、カラオケ演奏曲の再生以外に、これに付帯する種々様々なサービスが提唱されている。例えば、歌唱者の歌唱している姿を1台のビデオカメラで撮影してディスプレイに表示するカラオケ装置が、従来既に提唱されている(例えば、特許文献1参照)。この従来のカラオケ装置には、1台のビデオカメラと、このビデオカメラの向きを所定範囲内で自在に変化させるためのサーボ式雲台と、歌唱者の持つワイヤレスマイクロフォンからの無線標識信号を受信し、その無線標識信号の発信源の位置にビデオカメラの向きを合わせるようにサーボ式雲台を駆動する駆動制御手段と、が備えられている。   In recent years, in the karaoke apparatus, in addition to the reproduction of the karaoke performance music, various services accompanying this have been proposed. For example, a karaoke apparatus that shoots a singer's appearance with a single video camera and displays it on a display has been proposed in the past (for example, see Patent Document 1). This conventional karaoke device receives one video camera, a servo head for freely changing the orientation of the video camera within a predetermined range, and a radio beacon signal from a wireless microphone of the singer. Drive control means for driving the servo head so that the direction of the video camera is aligned with the position of the source of the radio signal.

特開平10−240276号公報JP-A-10-240276

しかしながら、上記従来技術のように、マイクロフォンからの無線標識信号に基づき狭い視野範囲のビデオカメラを回転させて歌唱者を追尾し撮影する手法の場合、歌唱者が歌いながら席を移動したり、速い動作をした等の場合、歌唱者の姿が瞬間的にフレームアウトする可能性があった。これを防止するためには、歌唱者は、フレームアウトしないように自らの移動や動作を制限する必要があり、不便であった。   However, in the case of the technique of tracking and shooting a singer by rotating a video camera with a narrow visual field range based on a radio beacon signal from a microphone as in the above prior art, the singer moves his seat while singing or is fast In the case of movements, the singer's figure could momentarily frame out. In order to prevent this, the singer needs to restrict his movement and movement so as not to be out of frame, which is inconvenient.

本発明の目的は、1台のカメラで、歌唱者の姿を切れ目なく撮影した映像を確実に生成できるカラオケ装置を提供することにある。   The objective of this invention is providing the karaoke apparatus which can produce | generate reliably the image | video which image | photographed the figure of the singer seamlessly with one camera.

上記目的を達成するために、第1の発明は、楽曲データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供するカラオケ装置であって、前記楽曲データを再生する楽曲再生手段と、前記楽曲再生手段により前記楽曲データの再生が行われるのに従い、前記映像データを表示可能な表示手段と、歌唱者に所持され、前記歌唱者によるカラオケ歌唱の音声信号を入力するためのマイクロフォンと、前記マイクロフォンに設けられ、標識信号を発生する標識信号発生手段と、前記マイクロフォン及び前記歌唱者を含む所定範囲の視野を撮影し、前記標識信号発生手段から発生された前記標識信号を含む前記所定範囲の映像データを生成する1台の動画撮影カメラと、前記1台の動画撮影カメラにより生成された前記所定範囲の映像データに含まれる前記標識信号に基づいて前記マイクロフォンの位置を特定し、前記所定範囲の映像データから前記特定した位置を含む部分映像データを切り出す映像抽出手段と、前記映像抽出手段により切り出された部分映像データに所定の補正処理を行い、補正処理後の映像を前記表示手段に表示させる表示制御手段とを有することを特徴とする。   In order to achieve the above object, the first invention is a karaoke apparatus that provides a reproduction service of karaoke performance music using music data and video data, the music reproduction means for reproducing the music data, As the music data is played back by the music playback means, the display means capable of displaying the video data, a microphone possessed by the singer and used to input a voice signal of karaoke singing by the singer, and A sign signal generating means for generating a sign signal and a predetermined field of view including the microphone and the singer provided in the microphone, and the sign signal generating means including the sign signal generated from the sign signal generating means. One moving picture camera for generating video data, and the predetermined range of video data generated by the one moving picture camera. Video extraction means for specifying the position of the microphone based on the marker signal included in the video signal and cutting out the partial video data including the specified position from the video data in the predetermined range; and the partial video cut out by the video extraction means And display control means for performing a predetermined correction process on the data and displaying the corrected image on the display means.

本願第1発明のカラオケ装置においては、カラオケ演奏時には、楽曲再生手段によって楽曲データの再生が行われるとともに表示手段により映像データが表示され、それら再生及び表示に合わせて、歌唱者がマイクロフォンにより歌唱を行う。また、カラオケ装置には、1台の動画撮影カメラが備えられている。上記歌唱の際には、その1台の動画撮影カメラが、歌唱者及びマイクロフォンを含む所定範囲の視野を撮影し、当該所定範囲の映像データを生成する。このとき、例えば上記視野が広い動画撮影カメラ(例えば魚眼レンズを備え全周360°撮影可能なカメラ)を用いることで、1人の歌唱者が歌唱中に移動したり複数の歌唱者が同時に歌唱したり歌唱者が順次入れ替わったりしても、動画撮影カメラが生成した映像データの中に常に歌唱者が含まれるようにすることができる。   In the karaoke apparatus of the first invention of the present application, at the time of karaoke performance, the music data is reproduced by the music reproducing means and the video data is displayed by the display means, and the singer sings with the microphone in accordance with the reproduction and display. Do. In addition, the karaoke apparatus is provided with one moving image shooting camera. At the time of singing, the one video camera captures a predetermined field of view including the singer and the microphone, and generates video data of the predetermined range. At this time, for example, by using a video camera with a wide field of view (for example, a camera equipped with a fisheye lens and capable of shooting 360 ° around the circumference), one singer moves while singing or a plurality of singers sing simultaneously. Even if the singers are sequentially changed, the singers can always be included in the video data generated by the video camera.

ここで、本願第1発明のマイクロフォンには、標識信号を発生する標識信号発生手段が備えられている。したがって、上記生成された所定範囲の映像データには、歌唱者の所持したマイクロフォンの位置に対応した標識信号が、歌唱者の姿と共に必ず記録されている。そこで、これに対応して、映像抽出手段が、映像データに含まれる標識信号を用いて、マイクロフォンの位置を特定し、上記所定範囲の映像データから上記特定した位置を含む部分映像データを切り出す。マイクロフォンは歌唱者によって所持されることから、この切り出された部分映像データに対し表示制御手段が所定の補正処理を行うことで、歌唱者を含む補正処理後の映像を表示手段に表示させることができる。   Here, the microphone of the first invention of the present application is provided with a sign signal generating means for generating a sign signal. Therefore, a sign signal corresponding to the position of the microphone possessed by the singer is always recorded together with the appearance of the singer in the generated video data in the predetermined range. Accordingly, in response to this, the video extraction means specifies the position of the microphone using the marker signal included in the video data, and cuts out the partial video data including the specified position from the video data in the predetermined range. Since the microphone is possessed by the singer, the display control means performs a predetermined correction process on the clipped partial video data, so that the video after the correction process including the singer can be displayed on the display means. it can.

以上のようにして、本願第1発明においては、広範囲の視野を1台の動画撮影カメラで常時撮影しておき、その映像データの中から標識信号を手がかりにして歌唱者を含む映像データを切り出し、さらに補正することで歌唱者の正しい映像を得る。この結果、マイクロフォンからの無線標識信号に基づき狭い視野範囲のビデオカメラを回転させて歌唱者を追尾し撮影する場合のように、歌唱者の姿が瞬間的にフレームアウトすることを防止できる。すなわち、本願第1発明によれば、1台のカメラを用いつつ、歌唱者の姿を切れ目なく撮影した映像を確実に生成することができる。この結果、歌唱中の自己の姿を撮影したい場合であっても、歌唱者は、場所の制限のない広い範囲において歌唱可能となり、あるいは、自由に動きながら歌唱することもできる。   As described above, in the first invention of the present application, a wide field of view is always photographed by one video camera, and video data including a singer is cut out from the video data by using a sign signal as a clue. By correcting further, the correct video of the singer is obtained. As a result, it is possible to prevent the appearance of the singer from being momentarily out of the frame, as in the case where the video camera with a narrow visual field range is rotated based on the radio beacon signal from the microphone to track and photograph the singer. That is, according to the first invention of the present application, it is possible to reliably generate an image in which a singer's figure is continuously captured while using one camera. As a result, even if the user wants to take a picture of himself / herself during singing, the singer can sing in a wide range without restrictions on the place, or can sing while moving freely.

第2発明は、上記第1発明において、前記マイクロフォンより入力される音声信号の入力レベルが所定値以上であるか否かを判定する音声判定手段を有し、前記映像抽出手段は、前記入力レベルが所定値以上であると判定されるとともに前記標識信号発生手段からの前記標識信号が前記所定範囲の映像データに含まれる前記マイクロフォンの位置を特定し、前記所定範囲の映像データから前記特定した位置を含む部分映像データを切り出すことを特徴とする。   According to a second aspect of the present invention, in the first aspect of the present invention, there is provided audio determination means for determining whether or not an input level of an audio signal input from the microphone is equal to or higher than a predetermined value. Is determined to be greater than or equal to a predetermined value, the marker signal from the marker signal generating means specifies the position of the microphone included in the video data of the predetermined range, and the specified position from the video data of the predetermined range It is characterized by cutting out partial video data including

これにより、音声信号の入力レベルが所定値未満であるマイクロフォンの位置は、部分映像データの切り出し対象から除外される。したがって、マイクロフォンを所持した歌唱者が歌唱しているときの映像だけを確実に部分映像データとして切り出すことができる。また例えば、複数のマイクロフォンをそれぞれ所持する複数の人物が順番に入れ替わって歌唱したり交互に歌唱している場合には、それら複数の人物のうちその時点で歌唱している人物の映像だけを確実に切り出すことができる。   Thereby, the position of the microphone whose input level of the audio signal is less than the predetermined value is excluded from the target for cutting out the partial video data. Therefore, it is possible to reliably cut out only the video when the singer who possesses the microphone sings as partial video data. In addition, for example, when a plurality of persons each possessing a plurality of microphones are switched in order and singing or singing alternately, only the image of the person singing at that time among the plurality of persons is surely obtained. Can be cut out.

第3発明は、上記第1又は第2発明において、前記複数のマイクロフォンにそれぞれ設けられた複数の標識信号発生手段が、互いに異なる色の前記標識信号を発生し、前記映像抽出手段は、前記所定範囲の映像データに含まれる前記標識信号の備える色に基づいて複数の前記マイクロフォンそれぞれの位置を区別して特定し、特定した各位置の部分映像データを前記所定範囲の映像データから切り出すことを特徴とする。   According to a third aspect of the present invention, in the first or second aspect of the present invention, the plurality of indicator signal generating means provided in each of the plurality of microphones generates the indicator signals of different colors, and the video extracting means A feature of distinguishing and specifying the position of each of the plurality of microphones based on the color of the marker signal included in the video data of the range, and cutting out the partial video data at each specified position from the video data of the predetermined range, To do.

これにより、複数の歌唱者がそれぞれ別のマイクロフォンを所持して歌唱するとき、マイクロフォンの色別に各歌唱者を特定しつつ、それぞれの部分映像データを切り出すことができる。また、同時に歌唱した複数の歌唱者それぞれの映像をすべて部分映像データとして切り出すことで、1台のカメラで(歌唱者を特定しつつ)複数の歌唱者の姿を同時に映像データ化することができる。   Thereby, when a plurality of singers sing with different microphones, the respective partial video data can be cut out while specifying each singer for each color of the microphone. In addition, by cutting out all the videos of a plurality of singers sung at the same time as partial video data, it is possible to simultaneously convert a plurality of singers into video data with one camera (identifying the singer). .

第4発明は、上記第1乃至第3発明のいずれかにおいて、前記楽曲再生手段によって前記楽曲データの再生が行われた際に、前記マイクロフォンから入力される前記カラオケ歌唱の音声信号を、各マイクロフォンごとに、採点する採点手段と、前記映像抽出手段は、前記採点手段による採点結果が所定値以上である特定の前記マイクロフォンの位置を前記標識信号を用いて特定し、前記特定した位置の部分映像データを前記所定範囲の映像データから切り出すことを特徴とする。   According to a fourth invention, in any one of the first to third inventions, when the music data is played back by the music playing means, the voice signal of the karaoke song input from the microphone is used for each microphone. Each of the scoring means for scoring and the video extracting means specify the position of the specific microphone whose scoring result by the scoring means is greater than or equal to a predetermined value using the marker signal, and the partial video at the specified position Data is cut out from the predetermined range of video data.

これにより、歌唱者が上手に歌えた場合のみ、その姿を部分映像データとして切り出すようにし、娯楽性を向上することができる。また例えば、複数のマイクロフォンをそれぞれ所持する複数の歌唱者が歌った場合には、それら複数の歌唱者のうち採点結果があるレベル以上の者、あるいは最も採点結果がよかった者の姿だけを部分映像データとして切り出すこともできる。この場合、複数人で楽しむゲーム感覚により、さらに娯楽性を向上することができる。   Thereby, only when a singer sings well, the figure can be cut out as partial video data, and entertainment can be improved. Also, for example, when multiple singers each possessing multiple microphones sang, only a partial image of those multiple singers who are at or above the level with a scoring result or who has the best scoring result It can also be cut out as data. In this case, entertainment can be further improved by a game sensation enjoyed by a plurality of people.

本発明によれば、1台のカメラで、歌唱者の姿を切れ目なく撮影した映像を確実に生成することができる。   According to the present invention, it is possible to reliably generate a video in which the appearance of a singer is seamlessly captured with a single camera.

本発明の一実施の形態のカラオケ装置が設置されたカラオケルームを概略的に表す図である。It is a figure which represents roughly the karaoke room in which the karaoke apparatus of one embodiment of this invention was installed. 全周カメラによりカラオケルーム内を撮影したときに取得される画像を模式的に表す図である。It is a figure which represents typically the image acquired when the inside of a karaoke room is image | photographed with the all-around camera. マイクの外観を表す側面図である。It is a side view showing the external appearance of a microphone. カラオケ装置を備えたカラオケシステムの全体構成を表す機能ブロック図である。It is a functional block diagram showing the whole structure of the karaoke system provided with the karaoke apparatus. 全周カメラから入力された映像を画像処理して歌唱者の動画データを得るプロセスを表す説明図である。It is explanatory drawing showing the process of obtaining the moving image data of a singer by image-processing the image | video input from the perimeter camera. 装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。It is a flowchart showing the detail of the process sequence performed by the control part of an apparatus main body. ホストサーバにアップロードされたカラオケ動画の表示例を表す図である。It is a figure showing the example of a display of the karaoke moving image uploaded to the host server. 1人の歌唱者が歌唱中に移動する領域の一例を表す説明図である。It is explanatory drawing showing an example of the area | region where one singer moves during singing. 本発明の比較例における映像データを表す説明図である。It is explanatory drawing showing the video data in the comparative example of this invention. 本発明の一実施形態における映像データの取得原理を表す概念的説明図である。It is a conceptual explanatory drawing showing the acquisition principle of the video data in one Embodiment of this invention. 本発明の一実施形態における映像データを表す図である。It is a figure showing the video data in one Embodiment of this invention. 発生するマーカ光の色が異なる複数のマイクを備える変形例のカラオケ装置を備えたカラオケシステムの全体構成を表す機能ブロック図である。It is a functional block diagram showing the whole structure of the karaoke system provided with the karaoke apparatus of the modification provided with the some microphone from which the color of the marker light to generate differs. 装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。It is a flowchart showing the detail of the process sequence performed by the control part of an apparatus main body. 緑マーカ光マイクの所在するエリア及び赤マーカ光マイクが所在するエリアの一例を表す説明図である。It is explanatory drawing showing an example of the area where the green marker light microphone exists, and the area where the red marker light microphone exists. 緑マーカ光マイク及び赤マーカ光マイクの音声入力レベルの時間推移の一例を表すグラフである。It is a graph showing an example of the time transition of the audio | voice input level of a green marker optical microphone and a red marker optical microphone. カラオケ歌唱の採点結果を加味して切り出しを行う変形例において、装置本体の制御部により実行される処理手順の詳細を表すフローチャートである。It is a flowchart showing the detail of the process sequence performed by the control part of an apparatus main body in the modification which cuts out considering the scoring result of a karaoke song.

以下、本発明の一実施の形態を図面を参照しつつ説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

図1は、本実施形態のカラオケ装置が設置されたカラオケルームを概略的に表す図である。   FIG. 1 is a diagram schematically showing a karaoke room in which the karaoke apparatus of the present embodiment is installed.

図1において、カラオケ店舗等のカラオケルームKRには、カラオケ装置10が設置されている。カラオケ装置10は、楽曲データとしてのMusical Instrument Digital Interface(MIDI;登録商標)データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供する装置である。図1に示すものでは、利用者A〜Cがカラオケ歌唱を行っている。カラオケ装置10は、コマンダと称される装置本体100と、リモコン200と、マイクロフォン(以下、略してマイク)300と、1台の全周カメラ400(動画撮影カメラ)とを有している。装置本体100、リモコン200、及びマイク300については、後で詳述する。   In FIG. 1, a karaoke apparatus 10 is installed in a karaoke room KR such as a karaoke store. The karaoke device 10 is a device that provides a karaoke performance reproduction service using Musical Instrument Digital Interface (MIDI) data and video data as music data. In the one shown in FIG. 1, users A to C perform karaoke singing. The karaoke apparatus 10 includes an apparatus main body 100 called a commander, a remote controller 200, a microphone (hereinafter abbreviated as a microphone) 300, and a single all-around camera 400 (moving picture camera). The apparatus main body 100, the remote controller 200, and the microphone 300 will be described in detail later.

全周カメラ400は、この例では、例えばカラオケルームKRの天井中心に下向きに備え付けられている。全周カメラ400は、マイク300及び歌唱者A〜Cを含む所定範囲の固定的な視野を撮影し、その範囲の映像データを生成する。具体的には、全周カメラ400は、魚眼レンズを有し、左右360度、上下90度の半球状視野を1枚に収めた映像データを得る。魚眼レンズの機能によって、全周カメラ400の視野内の像は、近い物体ほど円の中心に写り、遠い物体ほど円の周辺部に写る性質を持つ。また、魚眼レンズにより広い視野角が得られる代償として、全ての物体は扇状に歪曲して写るようになる。   In this example, the all-around camera 400 is provided downward in the center of the ceiling of the karaoke room KR, for example. The all-around camera 400 captures a fixed range of visual field including the microphone 300 and the singers A to C, and generates video data of the range. Specifically, the all-around camera 400 has a fisheye lens, and obtains video data in which a hemispherical field of 360 degrees on the left and right and 90 degrees on the top and bottom is contained in one sheet. Due to the function of the fisheye lens, the image in the field of view of the omnidirectional camera 400 has a property that a closer object appears in the center of the circle and a farther object appears in the periphery of the circle. In addition, as a price for obtaining a wide viewing angle with a fisheye lens, all objects are distorted in a fan shape.

従って、全周カメラ400によりカラオケルームKR内の全体を撮影すると、全体的に扇状に歪曲した画像が取得される(図2に模式的に表す)。   Therefore, when the entire inside of the karaoke room KR is photographed by the all-around camera 400, an overall fan-shaped image is obtained (schematically shown in FIG. 2).

図3は、マイク300の外観を表す図である。図3において、マイク300は、利用者によるカラオケ歌唱の音声を音声信号に変換して入力するものである。   FIG. 3 is a diagram illustrating the appearance of the microphone 300. In FIG. 3, the microphone 300 converts the voice of karaoke singing by the user into a voice signal and inputs it.

マイク300は、マイク素子301が内蔵されたマイクハウジング302を有している。マイクハウジング302の上部には、電源スイッチ303が設けられている。マイクハウジング302の下部には、所定の色(この例では、緑色)の光学標識信号としてのマーカ光を発光する発光ダイオード(LED)304と、このLED304から発した緑色のマーカ光を均一に拡散させる半透明の光拡散球305とが設けられている。   The microphone 300 has a microphone housing 302 in which a microphone element 301 is built. A power switch 303 is provided on the top of the microphone housing 302. In the lower part of the microphone housing 302, a light emitting diode (LED) 304 that emits marker light as an optical marker signal of a predetermined color (in this example, green) and green marker light emitted from the LED 304 are uniformly diffused. A translucent light diffusion sphere 305 is provided.

図4は、上記のカラオケ装置10を備えたカラオケシステムの全体構成を表す機能ブロック図である。   FIG. 4 is a functional block diagram showing the overall configuration of the karaoke system including the karaoke apparatus 10 described above.

図4において、カラオケシステム1は、上記カラオケルームKRに設置された上記カラオケ装置10と、ホストサーバ20とを有している。カラオケ装置10とホストサーバ20とは、例えば通信ネットワーク等のネットワークNWとを介し、互いに情報送受信可能に接続されている。   In FIG. 4, the karaoke system 1 includes the karaoke apparatus 10 installed in the karaoke room KR and a host server 20. The karaoke apparatus 10 and the host server 20 are connected to each other so as to be able to transmit and receive information via a network NW such as a communication network.

カラオケ装置10は、上記の装置本体100、リモコン200、マイク300、及び全周カメラ400を有している。装置本体100とリモコン200とは、例えば無線又は有線のLAN等のネットワークを介し、互いに情報送受信可能に接続されている。装置本体100とマイク300とは、無線回線又は有線回線により接続されている。   The karaoke apparatus 10 includes the apparatus main body 100, the remote controller 200, the microphone 300, and the all-around camera 400. The apparatus main body 100 and the remote controller 200 are connected to each other so as to be able to transmit / receive information to / from each other via a network such as a wireless or wired LAN. The apparatus main body 100 and the microphone 300 are connected by a wireless line or a wired line.

装置本体100は、制御部101と、大容量記憶装置103と、操作部104と、受信部105と、音源106と、音声制御部107と、スピーカ108と、表示部109と、通信制御部110とを有している。   The apparatus main body 100 includes a control unit 101, a mass storage device 103, an operation unit 104, a reception unit 105, a sound source 106, a sound control unit 107, a speaker 108, a display unit 109, and a communication control unit 110. And have.

制御部101は、図示しないCPUや、RAM及びROM等のメモリを備えている。この制御部101は、RAMの一時記憶機能を利用しつつ、ROMや上記大容量記憶装置103に予め記憶された各種プログラムを実行する。これにより、装置本体100全体の制御を行う。特に、制御部101は、全周カメラ400により得られたカラオケルームKR内の撮像画像に対して所定の画像処理を行い、マイク300を持った歌唱者の複数の画像(動画を構成可能な複数の画像。以下同様)を生成し、その画像を大容量記憶装置103に記憶するとともに表示部109に表示させる処理を行う(詳細は後述)。   The control unit 101 includes a CPU (not shown) and a memory such as a RAM and a ROM. The control unit 101 executes various programs stored in advance in the ROM or the large-capacity storage device 103 while using the temporary storage function of the RAM. Thereby, the entire apparatus main body 100 is controlled. In particular, the control unit 101 performs predetermined image processing on the captured image in the karaoke room KR obtained by the omnidirectional camera 400, and includes a plurality of images of a singer who has the microphone 300 (a plurality of videos that can form a moving image). (The same applies below), and the image is stored in the mass storage device 103 and displayed on the display unit 109 (details will be described later).

大容量記憶装置103は、例えばHard Disk Drive(HDD)などから構成される。この大容量記憶装置103には、MIDIデータ、背景映像データ、及び歌詞データ等の各種情報が記憶されている。また、この大容量記憶装置103には、利用者の歌唱時の動画データが順次記憶される。   The mass storage device 103 is composed of, for example, a hard disk drive (HDD). The mass storage device 103 stores various information such as MIDI data, background video data, and lyrics data. Also, the large-capacity storage device 103 sequentially stores moving image data when the user sings.

操作部104は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部104又は後述のリモコン200の操作部204を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。   The operation unit 104 includes, for example, a plurality of keys and switches. The user can perform various operations such as a reservation operation for a karaoke performance using the operation unit 104 or an operation unit 204 of the remote controller 200 described later.

受信部105は、上記のマイク300から出力された歌唱者の音声信号を受信する。   The receiving unit 105 receives the singer's voice signal output from the microphone 300.

音源106は、上記制御部101によって大容量記憶装置103から読み出されたMIDIデータを再生して音声制御部107へ出力する。音声制御部107は、音源106から出力されたMIDIデータ、及び、受信部105を介してマイク300により入力された音声信号を増幅し、スピーカ108へ出力する。スピーカ108は、音声制御部107から出力されたMIDIデータ及び音声信号を音声出力する。   The sound source 106 reproduces the MIDI data read from the mass storage device 103 by the control unit 101 and outputs it to the audio control unit 107. The audio control unit 107 amplifies the MIDI data output from the sound source 106 and the audio signal input from the microphone 300 via the receiving unit 105 and outputs the amplified signal to the speaker 108. The speaker 108 outputs the MIDI data and audio signal output from the audio control unit 107 as audio.

なお、以下適宜、音源106、音声出力部107、及びスピーカ108を、省略して「音源106等」と称する。音源106等は、楽曲データを再生する楽曲再生手段を構成している。   Hereinafter, the sound source 106, the audio output unit 107, and the speaker 108 are appropriately omitted and referred to as “sound source 106 etc.”. The sound source 106 and the like constitute music reproducing means for reproducing music data.

表示部109は、例えば液晶ディスプレイなどから構成され、各種映像を表示する表示手段として機能する。特に、表示部109は、上記音源106等によるMIDIデータの再生に同期して、言い換えれば、音源106等によりMIDIデータの再生が行われるのに従い、大容量記憶装置103から読み出された背景映像データ、及び歌詞データに対応したテロップ等を表示することができる。   The display unit 109 is composed of a liquid crystal display, for example, and functions as display means for displaying various videos. In particular, the display unit 109 synchronizes with the reproduction of the MIDI data by the sound source 106 or the like, in other words, the background video read from the mass storage device 103 as the MIDI data is reproduced by the sound source 106 or the like. Data and telops corresponding to the lyrics data can be displayed.

通信制御部110は、リモコン200やホストサーバ20との間で情報通信の制御を行う。   The communication control unit 110 controls information communication with the remote controller 200 and the host server 20.

リモコン200は、利用者がカラオケ演奏曲の予約操作等の各種操作を行うための操作端末である。このリモコン200は、制御部201と、記憶装置203と、操作部204と、表示部209と、通信制御部210とを有している。   The remote controller 200 is an operation terminal for a user to perform various operations such as a reservation operation for a karaoke performance song. The remote controller 200 includes a control unit 201, a storage device 203, an operation unit 204, a display unit 209, and a communication control unit 210.

制御部201は、図示しないCPUやRAM及びROM等のメモリを備えている。この制御部201は、RAMの一時記憶機能を利用しつつ、ROMや上記記憶装置203に予め記憶された各種プログラムを実行する。これにより、リモコン200全体の制御を行う。   The control unit 201 includes a memory such as a CPU, RAM, and ROM (not shown). The control unit 201 executes various programs stored in advance in the ROM or the storage device 203 while using the temporary storage function of the RAM. As a result, the entire remote controller 200 is controlled.

記憶装置203は、例えば不揮発性メモリなどから構成され、各種情報を記憶する。操作部204は、例えば複数のキーやスイッチなどから構成される。利用者は、この操作部204又は上記カラオケ装置100の操作部104を用いて、カラオケ演奏曲の予約操作等の各種操作を行うことができる。表示部209は、例えば液晶ディスプレイなどから構成され、各種表示を行う。   The storage device 203 is composed of, for example, a nonvolatile memory and stores various types of information. The operation unit 204 is composed of, for example, a plurality of keys and switches. Using the operation unit 204 or the operation unit 104 of the karaoke apparatus 100, the user can perform various operations such as a reservation operation for karaoke performance songs. The display unit 209 is composed of, for example, a liquid crystal display and performs various displays.

通信制御部210は、装置本体100やホストサーバ20との間で情報通信の制御を行う。   The communication control unit 210 controls information communication with the apparatus main body 100 and the host server 20.

ホストサーバ20には、利用者の歌唱中の姿の動画データが圧縮動画ファイルとしてアップロード可能である(詳細は後述)。このホストサーバ20にアップロードされた動画データは、所定のWebページにおいて特定の利用者の端末より閲覧可能となっている(後述の図7も参照)。   The host server 20 can upload the moving image data of the user's singing as a compressed moving image file (details will be described later). The moving image data uploaded to the host server 20 can be viewed from a specific user terminal on a predetermined Web page (see also FIG. 7 described later).

ここで、本実施形態の最大の特徴は、全周カメラ400により得られたカラオケルームKR内の映像画像に含まれるマーカ光に基づいてマイク300の位置を特定し、そのマイク300の位置を含む部分映像を切り出して、マイク300を持った歌唱者の動画(カラオケ投稿動画)データを取得することである。   Here, the greatest feature of this embodiment is that the position of the microphone 300 is specified based on the marker light included in the video image in the karaoke room KR obtained by the all-around camera 400, and includes the position of the microphone 300. This is to cut out the partial video and acquire the video (karaoke post video) data of the singer with the microphone 300.

ところで、全周カメラ400で撮像して得られた映像信号は、人間の通常の視野とは大きく異なるので、カラオケ投稿動画の用途としてそのまま使うことはできない。このため、全周カメラ400で撮像して得られた映像信号に対して所定の処理を施す必要がある。   By the way, since the video signal obtained by imaging with the all-around camera 400 is significantly different from the normal visual field of human beings, it cannot be used as it is for a karaoke posted moving image. For this reason, it is necessary to perform a predetermined process on the video signal obtained by imaging with the omnidirectional camera 400.

図5(a)〜(f)は、全周カメラ400より入力された映像を画像処理して歌唱者の動画データを得るプロセスを表す説明図である。本処理は、装置本体100の制御部101によって実行される。   FIGS. 5A to 5F are explanatory diagrams illustrating a process of obtaining video data of a singer by performing image processing on the video input from the all-around camera 400. This process is executed by the control unit 101 of the apparatus main body 100.

図5(a)に示すように、まず全周カメラ400で取得したカラオケルームKR内の映像を入力する。ここでは、利用者A〜C及びマイク300の映像のみを表し、テーブルや装置本体100等の映像は省略してある。   As shown in FIG. 5A, first, an image in the karaoke room KR acquired by the all-around camera 400 is input. Here, only the images of the users A to C and the microphone 300 are shown, and the images of the table, the apparatus main body 100, and the like are omitted.

その後、図5(b)に示すように、全周カメラ400より入力された映像において、所定の色(この例では緑)の成分以外の成分を除去するカラーフィルタ処理を行う。具体的には、色フィルタ(ここでは緑フィルタ)を通して、全周カメラ400より入力された映像から緑色の成分のみを抽出する。色フィルタは、RGBのG値のみを通過させるか、又は、YUVのUVが一定範囲内にある画素値のみを通過させる、CPU演算処理による画素データファイルである。   Thereafter, as shown in FIG. 5B, color filter processing is performed to remove components other than a component of a predetermined color (in this example, green) in the video input from the all-around camera 400. Specifically, only the green component is extracted from the video input from the all-around camera 400 through a color filter (here, a green filter). The color filter is a pixel data file obtained by CPU calculation processing that passes only the G values of RGB or passes only the pixel values of YUV UV within a certain range.

その後、図5(c)に示すように、カラーフィルタ処理が行われた映像データを輝度フィルタに通し、輝度が一定以上の値を示す画素値のみを通過させることで、画像データの2値化を行う。これにより、画像の中の「純粋な緑色に近く、一定以上の明るさがある」画素のみが「1」を示し、それ以外の画素は「0」を示すビットマップが得られる。   Thereafter, as shown in FIG. 5C, the image data that has been subjected to the color filter processing is passed through a luminance filter, and only pixel values that have a luminance of a certain value or higher are passed, thereby binarizing the image data. I do. Thereby, only a pixel “close to pure green and having a certain level of brightness” in the image indicates “1”, and other pixels indicate “0”.

その後、図5(d)に示すように、全周カメラ400より入力された映像についてエリア判定を行う。具体的には、予め蜘蛛の巣状に定義されたマップに従い、角度方向(人間の視覚での左右に相当)に対して8分解(A〜H)、距離方向(人間の視覚での奥行きに相当)に対して3分解(1〜3)又は4分解(1〜4)の計28分解された各エリアについて、エリアごとにビットマップの画素値を全て加算する。この加算値が最も大きい値(図中ではエリアG2)がマーカ光を検知しており、撮影すべき歌唱者がいるエリア(方向)であると判定される。なお、エリアA1〜H4のうち隣り合うエリア同士の境界部は例えば一部重なり合っている。   Thereafter, as shown in FIG. 5D, area determination is performed on the video input from the all-round camera 400. Specifically, according to a map defined in the shape of a spider web in advance, the angle direction (corresponding to left and right in human vision) is divided into 8 (A to H) and the distance direction (in human visual depth). All the pixel values of the bitmap are added for each area for each area that has been divided into a total of 28 (three) (1-3) or four (1-4). The value with the largest added value (area G2 in the figure) detects the marker light and is determined to be the area (direction) where the singer to be photographed is. In addition, the boundary part of adjacent areas among areas A1-H4 overlaps partially, for example.

その後、図5(e)に示すように、図5(d)に示す処理で選択されたエリアについて、扇状スキャンによる画像の形状補正を行う。具体的には、エリア内にある画素を同図に示した走査線に従って並べなおす処理を行う。これによって、扇形状の直径方向はY軸、円周方向はX軸の矩形状に変形し矯正される。ここで、中心部に近い走査線は短く、円周部に近い走査線は長いが、同一値の画素で補完して拡大するか、画素を省略して縮小し、一定長の線データを得る。走査線の座標パターンは、エリアA1〜H4ごとに予め用意されている。   Thereafter, as shown in FIG. 5E, the shape of the image is corrected by fan scan for the area selected in the process shown in FIG. Specifically, a process of rearranging the pixels in the area according to the scanning line shown in FIG. As a result, the fan-shaped diameter direction is deformed and corrected to a Y-axis rectangular shape and the circumferential direction is an X-axis rectangular shape. Here, the scanning line close to the central part is short and the scanning line close to the circumferential part is long, but it is supplemented with pixels of the same value and enlarged, or the pixels are omitted and reduced to obtain line data of a fixed length. . A scanning line coordinate pattern is prepared in advance for each of the areas A1 to H4.

全ての走査線について変換処理が終了すると、図5(f)に示すような、最終的な出力画像(図中ではエリアG2の画像)が得られる。この画像は、全周カメラ400に写ったマーカ光の周辺領域だけを切り取った上で、湾曲した魚眼レンズの円形視野角を通常の矩形視野角へと変換補正したものであるため、結果的にマイク300を持っている歌唱者に対して通常のカメラを向けたのと同等の結果が得られる。   When the conversion process is completed for all the scanning lines, a final output image (an image of area G2 in the drawing) as shown in FIG. 5F is obtained. This image is obtained by cutting out only the peripheral region of the marker light captured by the all-round camera 400 and converting and correcting the circular viewing angle of the curved fish-eye lens into a normal rectangular viewing angle. The result is equivalent to pointing a normal camera to a singer with 300.

なお、これらの処理は、動画を構成する各画像に対して行われるので、毎秒30フレームの速度で処理されるが、演算能力の関係上、例えば10フレームにつき1フレームの頻度で処理を行うなど、間引きを行ってもよい。   Since these processes are performed on each image constituting the moving image, the process is performed at a rate of 30 frames per second. However, for example, the process is performed at a frequency of 1 frame per 10 frames because of the calculation capability. , Thinning may be performed.

図6は、制御部101により実行される処理手順の詳細を表すフローチャートである。   FIG. 6 is a flowchart showing details of a processing procedure executed by the control unit 101.

図6において、カラオケ演奏曲に対応したMIDIデータの再生が開始されると、このフローが開始される。すなわち、音源106等によるMIDIデータの再生と同期して、背景映像データ及び歌詞データが表示部109に表示される。すると、歌唱者によるカラオケ演奏曲の歌唱が行われ、マイク300よりカラオケ歌唱の音声が入力される。   In FIG. 6, when the reproduction of the MIDI data corresponding to the karaoke performance music is started, this flow is started. That is, the background video data and the lyrics data are displayed on the display unit 109 in synchronization with the reproduction of the MIDI data by the sound source 106 or the like. Then, the singing of the karaoke performance music by the singer is performed, and the voice of the karaoke singing is input from the microphone 300.

まずステップS10において、全周カメラ400により撮影された、カラオケルームKR内の映像データを取得する。その後、ステップS15において、ステップS10で取得したカラオケルームKR内の映像データに基づいて、マイク300のマーカ光が検知されたかどうかを判定する。マイク300のマーカ光が検知されたときは、ステップS15の判定が満たされてステップS20に移り、マイク300のマーカ光が検知されないときは、ステップS15の判定が満たされずステップS10に戻り、同様の手順を繰り返す。   First, in step S10, video data in the karaoke room KR taken by the all-around camera 400 is acquired. Then, in step S15, it is determined whether the marker light of the microphone 300 is detected based on the video data in the karaoke room KR acquired in step S10. When the marker light of the microphone 300 is detected, the determination of step S15 is satisfied and the process proceeds to step S20. When the marker light of the microphone 300 is not detected, the determination of step S15 is not satisfied and the process returns to step S10. Repeat the procedure.

ステップS20では、受信部105及び音声制御部107を介して入力されたマイク300の音声信号の入力レベルが所定値以上であるかどうかを判定する。マイク300の音声信号の入力レベルが所定値以上であるときは、ステップS20の判定が満たされてステップS25に移る。一方、マイク300の音声信号の入力レベルが所定値以上でないときは、ステップS20の判定が満たされずステップS10に戻り、同様の手順を繰り返す。   In step S20, it is determined whether or not the input level of the audio signal of the microphone 300 input via the receiving unit 105 and the audio control unit 107 is equal to or higher than a predetermined value. When the input level of the audio signal of the microphone 300 is equal to or higher than the predetermined value, the determination in step S20 is satisfied and the process proceeds to step S25. On the other hand, when the input level of the audio signal of the microphone 300 is not equal to or higher than the predetermined value, the determination in step S20 is not satisfied, the process returns to step S10, and the same procedure is repeated.

ステップS25では、カラオケルームKR内の映像データに含まれるマーカ光に基づいて、マイク300の位置を特定する。このステップS25の処理は、前述の図5(a)〜図5(c)に示した画像処理に対応するものである。そして、ステップS30において、カラオケルームKR内の映像データからマイク300の位置を含む部分映像データを切り出す。このステップS30の処理は、図5(d)に示したエリア判定処理に対応するものである。   In step S25, the position of the microphone 300 is specified based on the marker light included in the video data in the karaoke room KR. The processing in step S25 corresponds to the image processing shown in FIGS. 5 (a) to 5 (c). In step S30, partial video data including the position of the microphone 300 is cut out from the video data in the karaoke room KR. The process in step S30 corresponds to the area determination process shown in FIG.

その後、ステップS35において、マイク300の位置を含む部分映像データの補正処理を行い、マイク300を持った歌唱者の姿が写った出力映像を得る。このステップS35の処理は、図5(e),図5(f)に示した画像の形状矯正に対応する。そして、ステップS40において、補正処理後の出力映像を表示部109の一部領域に表示させるとともに大容量記憶装置103に保存する。   Thereafter, in step S35, correction processing of the partial video data including the position of the microphone 300 is performed, and an output video in which the figure of the singer holding the microphone 300 is captured is obtained. The process of step S35 corresponds to the shape correction of the image shown in FIGS. 5 (e) and 5 (f). In step S <b> 40, the output video after the correction process is displayed in a partial area of the display unit 109 and stored in the large capacity storage device 103.

その後、ステップS45において、カラオケ演奏曲に対応したMIDIデータの再生が終了したかどうかを判定する。カラオケ演奏曲に対応したMIDIデータの再生が終了したときは、ステップS45の判定が満たされてステップS50に移る。一方、カラオケ演奏曲に対応したMIDIデータの再生が終了していないときは、ステップS45の判定が満たされず、ステップS10に戻り、同様の手順を繰り返す。これにより、カラオケ演奏曲の再生が終了しない間は、ステップS10〜ステップS40が繰り返され、ステップS40を経るたびにステップS40において大容量記憶装置103に補正処理後の映像が順次保存されていく。   Thereafter, in step S45, it is determined whether or not the reproduction of the MIDI data corresponding to the karaoke performance song has been completed. When the reproduction of the MIDI data corresponding to the karaoke performance song is completed, the determination at step S45 is satisfied, and the routine goes to step S50. On the other hand, when the reproduction of the MIDI data corresponding to the karaoke performance song is not finished, the determination in step S45 is not satisfied, and the process returns to step S10 and the same procedure is repeated. Thus, steps S10 to S40 are repeated while the reproduction of the karaoke performance song is not completed, and the corrected video is sequentially stored in the large capacity storage device 103 in step S40 every time step S40 is passed.

ステップS50では、動画投稿指示操作画面を表示部109の一部領域に表示させる。その後、ステップS55において、表示部109の動画投稿指示操作画面によって、操作者(例えば利用者A〜Cのいずれか)よりカラオケ動画の投稿が指示されたかどうかを判定する。カラオケ動画の投稿が指示されたときは、ステップS55の判定が満たされてステップS60に移り、カラオケ動画の投稿が指示されないときは、ステップS55の判定が満たされず、このフローを終了する。   In step S <b> 50, the moving image posting instruction operation screen is displayed in a partial area of the display unit 109. Thereafter, in step S55, it is determined whether posting of a karaoke video is instructed by an operator (for example, any of users A to C) on the video posting instruction operation screen of the display unit 109. When the posting of the karaoke video is instructed, the determination at step S55 is satisfied, and the process proceeds to step S60. When the posting of the karaoke video is not instructed, the determination at step S55 is not satisfied and the flow ends.

ステップS60では、前述の繰り返し時にステップS40で大容量記憶装置103に順次保存された補正処理後の複数の出力映像を用いた動画データを、ホストサーバ20にアップロードし、このフローを終了する。   In step S60, the moving image data using the plurality of output videos after the correction processing sequentially stored in the large-capacity storage device 103 in step S40 at the time of the above repetition is uploaded to the host server 20, and this flow is finished.

なお、以上において、図6に示すステップS10、ステップS15、ステップS25、及びステップS30が、各請求項記載の映像抽出手段として機能し、ステップS35、ステップS40が、表示制御手段として機能する。また、図6に示すステップS20が、音声判定手段として機能する。   Note that, in the above, step S10, step S15, step S25, and step S30 shown in FIG. 6 function as the video extraction unit described in each claim, and step S35 and step S40 function as the display control unit. Moreover, step S20 shown in FIG. 6 functions as a voice determination unit.

ホストサーバ20にアップロードされたカラオケ動画の表示例を図7に示す。図7に示す表示例では、歌唱者(例えば利用者A〜Cのいずれか。図1及び図2の例に沿うと、歌唱している利用者A)が歌唱している画像の他、カラオケ演奏曲の曲名、歌唱日時、カラオケ動画の再生回数等)が表示される。なお、この例では、前述の所定のWebページでの特定の利用者の閲覧の後の、当該カラオケ動画に対する閲覧した利用者による評価(「うまい」「おもしろい」「かわいい」「泣ける」が併せて記入されて、表示されている。   A display example of a karaoke video uploaded to the host server 20 is shown in FIG. In the display example shown in FIG. 7, in addition to the image sung by a singer (for example, any of users A to C. The user A singing according to the examples of FIGS. 1 and 2), karaoke The name of the performance song, the singing date and time, the number of times the karaoke video is played, etc.) are displayed. In this example, after the browsing of a specific user on the predetermined Web page described above, the browsing user's evaluation on the karaoke video (“delicious”, “interesting”, “cute”, “crying” is also included) Filled in and displayed.

以上説明したように、本実施形態においては、カラオケ演奏時に、音源106等により楽曲データとしてのMIDIデータの再生が行われるとともに、表示部109により背景映像データが表示され、それら再生及び表示に合わせて、歌唱者(前述の例では利用者A)がマイク300により歌唱を行う。歌唱者による歌唱時には、1台の全周カメラ400が歌唱者及びマイク300を含むカラオケルームKRの所定の視野を撮影し、その映像データを生成する。このとき、視野が広い全周カメラ400を用いることで、歌唱者が歌唱中にカラオケルームKR内を移動しても、全周カメラ400が生成した映像データの中に常に歌唱者が含まれるようにすることができる(なお、必ずしも全周カメラに限られず、カラオケルームKR内の所定の広い範囲を一度に撮影できる機能を備えたカメラであれば足りる)。   As described above, in the present embodiment, during karaoke performance, MIDI data as music data is reproduced by the sound source 106 and the like, and background video data is displayed by the display unit 109, and the reproduction and display are performed accordingly. Then, a singer (user A in the above example) sings with the microphone 300. When singing by a singer, one all-around camera 400 captures a predetermined field of view of the karaoke room KR including the singer and the microphone 300, and generates video data thereof. At this time, by using the omnidirectional camera 400 with a wide field of view, even if the singer moves in the karaoke room KR while singing, the singer is always included in the video data generated by the omnidirectional camera 400. (It is not necessarily limited to the all-round camera, and any camera having a function capable of photographing a predetermined wide range in the karaoke room KR at a time is sufficient).

ここで、1人の歌唱者が歌唱中に移動するときに得られる映像データを、比較例を用いて説明する。ここでは、図8に示すように、領域Pにおいて立って歌唱している歌唱者が、領域Qを通って領域Rに移動し、領域Rにある椅子に座って歌唱する場合を例にとって説明する。なお、領域P〜Rは、例えば、図5(d)に示したエリアA1〜H4のいずれかのエリアに相当する。   Here, the video data obtained when one singer moves during singing will be described using a comparative example. Here, as shown in FIG. 8, a case where a singer standing and singing in the region P moves to the region R through the region Q and sings while sitting on a chair in the region R will be described. . The regions P to R correspond to, for example, any one of the areas A1 to H4 illustrated in FIG.

図9(a)〜(c)は、本実施形態の比較例として、前述の従来構造に相当する、マイクからの無線標識信号に基づきサーボ式雲台を駆動制御し1台のビデオカメラを回転させて歌唱者を撮影する場合における映像データを表したものである。前述したように、歌唱者が、歌唱中に領域P→領域Q→領域Rと移動した場合、この変形例のビデオカメラは、視野範囲が狭いことから歌唱者を追尾して撮影することになる。すなわち、上記歌唱者の領域P→領域Q→領域Rの移動に追尾するように、ビデオカメラも領域P、領域Q、領域Rの順に順次パン動作をしながら撮影を行う。   FIGS. 9A to 9C show, as a comparative example of the present embodiment, a servo-type pan head driven and controlled on the basis of a radio beacon signal corresponding to the above-described conventional structure, and one video camera is rotated. The video data in the case where the singer is photographed. As described above, when the singer moves from the region P → the region Q → the region R during the singing, the video camera of this modified example tracks and shoots the singer because the visual field range is narrow. . That is, the video camera also shoots while sequentially performing the pan operation in the order of the region P, the region Q, and the region R so as to track the movement of the region P → the region Q → the region R of the singer.

このとき、領域Pにおいては歌唱者が移動を開始する直前で移動速度ゼロである(又は移動開始直後で移動速度が小さい)ことから、ビデオカメラによって、領域Pにいる歌唱者の姿を捉えた映像データが得られる(図9(a))。同様に、領域Rにおいては歌唱者が移動を終了した後であって移動速度がゼロ(又は移動終了直前で移動速度が小さい)ことから、ビデオカメラの上記回転による追尾機能によって、領域Rにいる歌唱者の姿を捉えた映像データを得ることができる(図9(c))。   At this time, in the area P, the moving speed is zero immediately before the singer starts moving (or the moving speed is low immediately after the movement starts), so the singer in the area P is captured by the video camera. Video data is obtained (FIG. 9A). Similarly, in the region R, since the singer has finished moving and the moving speed is zero (or the moving speed is low just before the end of the movement), the singer is in the region R by the tracking function based on the rotation of the video camera. Video data that captures the appearance of the singer can be obtained (FIG. 9C).

しかしながら、歌唱者の上記領域P→領域Q→領域Rの移動が比較的速かった場合等では、上記ビデオカメラの回転による追尾動作が歌唱者の移動に追いつかず、ビデオカメラが上記領域Pからパン動作(首振り動作)をして領域Qを撮影したときには、歌唱者は既に領域Qよりも領域R側へ移動してしまっており、歌唱者の姿が瞬間的にフレームアウトした映像データとなってしまう(図9(b))。従って、歌唱中の自分の姿を確実に撮影したい場合には、フレームアウトしないように自らの移動や動作を制限する必要があり、歌唱中に自由に動き回ることができなくなって不便である。   However, when the singer moves from the region P to the region Q to the region R relatively quickly, the tracking operation by the rotation of the video camera cannot catch up with the movement of the singer, and the video camera pans from the region P. When the region Q is photographed by performing an action (swinging motion), the singer has already moved to the region R side from the region Q, and the singer's figure is instantaneously framed out. (FIG. 9B). Therefore, if you want to shoot your own figure while singing, you need to restrict your movement and movement so that you don't get out of the frame, and you can't move freely during singing, which is inconvenient.

図10(a)〜(c)は、本実施形態において、上記領域P、領域Q、及び領域Rを全周カメラ400により撮影した場合の映像データの説明図である。本実施形態においては、前述したように、カラオケルームKR内の全領域(上記図5(d)のエリアA1〜H4参照)を固定的な全周カメラ400で常時撮影している。図10(a)は、上記全領域のうち、領域Rの時間ごとの映像データに相当するもの(上記図5(e)を用いて説明したような形状補正を行った場合を仮想した概念的な姿)を示した図である。図10(b)は、上記同様、領域Qの時間ごとの映像データに相当するものを示した図であり、図10(c)は、領域Pの時間ごとの映像データに相当するものを示した図である。   FIGS. 10A to 10C are explanatory diagrams of video data when the area P, the area Q, and the area R are captured by the all-round camera 400 in the present embodiment. In the present embodiment, as described above, the entire area in the karaoke room KR (see the areas A1 to H4 in FIG. 5D) is always photographed by the fixed all-around camera 400. FIG. 10 (a) is a conceptual view of the case where the shape correction as described with reference to FIG. 5 (e) is performed, corresponding to the video data for each time of the region R out of all the regions. It is a figure showing a figure. FIG. 10B is a diagram showing video data corresponding to the time-dependent video data in the area Q, and FIG. 10C shows video data corresponding to the video data per time in the area P. It is a figure.

本実施形態においては、上述したように、カラオケルームKR内を固定的な全周カメラ400で常時撮影し、そのカラオケルームKR内の映像データから、マイク300のマーカ光を手がかりにしてマイク300の位置を特定する。そして、マイク300を所持する歌唱者を含む部分映像データを切り出し、さらにその部分映像データに対して所定の補正処理を行うことで、歌唱者の正しい映像が得られる。すなわち、上記比較例のように、領域P→領域Q→領域Rの順で、1台のビデオカメラを回転させ追尾して撮影を行うのではなく、本実施形態では、領域P、領域Q、及び領域Rに対して常時撮影を行って映像データを取得している。そして、本実施形態では、その取得された映像データの中から、上記領域P→領域Q→領域Rの順で移動する歌唱者が領域Pにいる瞬間の当該領域Pを含む映像データを切り出し(図10(c)の最上段参照)、歌唱者が領域Qにいる瞬間の当該領域Qを含む映像データを切り出し(図10(b)の中段参照)、歌唱者が領域Rにいる瞬間の当該領域Rを含む映像データを切り出す(図10(a)の下段参照)。これによって、上記領域P→領域Q→領域Rの順で移動する歌唱者の姿を常に捉えた、歌唱者の姿が瞬間的にフレームアウトすることのない映像データを確実に得ることができる(図11参照)。   In the present embodiment, as described above, the inside of the karaoke room KR is always photographed by the fixed all-around camera 400, and the marker light of the microphone 300 is used as a clue from the video data in the karaoke room KR. Identify the location. Then, by cutting out partial video data including the singer who possesses the microphone 300 and further performing a predetermined correction process on the partial video data, a correct video of the singer can be obtained. That is, as in the above comparative example, instead of rotating and tracking one video camera in the order of the region P → the region Q → the region R, in this embodiment, the region P, the region Q, In addition, the image data is acquired by always photographing the region R. In this embodiment, video data including the region P at the moment when the singer who moves in the order of the region P → the region Q → the region R is in the region P is cut out from the acquired video data ( 10C), the video data including the region Q at the moment when the singer is in the region Q is cut out (see the middle row in FIG. 10B), and the singer is in the region R at the moment. Video data including the region R is cut out (see the lower part of FIG. 10A). Accordingly, it is possible to reliably obtain video data in which the appearance of the singer that always captures the appearance of the singer moving in the order of the region P → the region Q → the region R and that the singer's appearance does not instantaneously frame out ( FIG. 11).

このように本実施形態によれば、視野が広い1台の全周カメラ400を用いて、歌唱者の姿を切れ目なく撮影した映像を確実に生成することができる(図11参照)。この結果、歌唱中の自己の姿を撮影したい場合であっても、歌唱者は、カラオケルームKR内を自由に動きながら歌唱することができ、利便性を向上することができる。   As described above, according to the present embodiment, it is possible to reliably generate an image in which the appearance of the singer is seamlessly captured using a single all-around camera 400 with a wide field of view (see FIG. 11). As a result, even if it is a case where he / she wants to photograph himself / herself during singing, the singer can sing while moving freely in the karaoke room KR, and convenience can be improved.

また、本実施形態では特に、マイク300の音声信号の入力レベルが所定値以上であるときに、マーカ光に基づいてマイク300の位置を特定し、マイク300を所持する歌唱者を含む部分映像データを切り出す。これにより、音声信号の入力レベルが所定値未満であるマイク300は、部分映像データの切り出し対象から除外される。上記の例では、歌唱者である利用者Aが所持しているマイク300において、マイク300のスイッチがONであっても、利用者Aが歌唱を中止している場合には、当該マイク300を含む部分映像データは切り出されない。したがって、マイク300を所持した歌唱者(利用者A)が歌唱しているときの映像だけを確実に部分映像データとして切り出すことができる。   Further, in this embodiment, in particular, when the input level of the audio signal of the microphone 300 is equal to or higher than a predetermined value, the position of the microphone 300 is specified based on the marker light, and partial video data including a singer who owns the microphone 300 Cut out. Thereby, the microphone 300 whose audio signal input level is less than the predetermined value is excluded from the segmentation target of the partial video data. In the above example, in the microphone 300 possessed by the user A who is a singer, even if the switch of the microphone 300 is ON, if the user A stops singing, the microphone 300 is The included partial video data is not cut out. Therefore, only the video when the singer (user A) who possesses the microphone 300 is singing can be reliably cut out as partial video data.

なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を説明する。   The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit and technical idea of the present invention. Hereinafter, such modifications will be described.

(1)発生するマーカ光の色が異なる複数のマイクを備える場合
上記実施形態では、マイク300が1つしか設けられていないが、本発明はこれに限られず、複数のマイクを設け、各マイクから発するマーカ光の色を異なるようにしてもよい。
(1) When a plurality of microphones with different marker light colors are provided In the above embodiment, only one microphone 300 is provided. However, the present invention is not limited to this, and a plurality of microphones are provided. The color of the marker light emitted from may be different.

図12は、本変形例のカラオケ装置を備えたカラオケシステムの全体構成を表す機能ブロック図である。   FIG. 12 is a functional block diagram illustrating the overall configuration of a karaoke system including the karaoke apparatus of the present modification.

図12において、本変形例のカラオケ装置10は、上記の装置本体100、リモコン200、及び全周カメラ400と、マイク300A,300Bとを有している。マイク300A,300Bの構造は、上記のマイク300と同様である。マイク300AのLED304(前述の図3参照)は、上記のマイク300と同様に緑色のマーカ光を発光し、マイク300BのLED304(前述の図3参照)は、赤色のマーカ光を発光する。   In FIG. 12, a karaoke apparatus 10 according to this modification includes the apparatus main body 100, the remote controller 200, the all-around camera 400, and microphones 300A and 300B. The structure of the microphones 300A and 300B is the same as that of the microphone 300 described above. The LED 304 (refer to FIG. 3 described above) of the microphone 300A emits green marker light similarly to the microphone 300 described above, and the LED 304 (refer to FIG. 3 described above) of the microphone 300B emits red marker light.

図13は、本変形例における制御部101により実行される処理手順の詳細を表すフローチャートである。なお、この図13は、前述の図6に対応する図である。図6と同等の手順には同符号を付し説明を適宜省略する。   FIG. 13 is a flowchart showing details of a processing procedure executed by the control unit 101 in this modification. FIG. 13 corresponds to FIG. 6 described above. The same steps as those in FIG. 6 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

図13において、上記ステップS10が実行された後、ステップS15において、カラオケルームKR内の映像データに基づいて、マイク300A,300Bの少なくとも一方のマーカ光が検知されたかどうかを判定する。マイク300A,300Bの少なくとも一方のマーカ光が検知されたときは、判定が満たされてステップS105に移り、マイク300A及び300Bのいずれかのマーカ光も検知されないときは、判定が満たされずステップS10に戻る。   In FIG. 13, after step S <b> 10 is executed, in step S <b> 15, it is determined whether at least one marker light of the microphones 300 </ b> A and 300 </ b> B has been detected based on the video data in the karaoke room KR. When at least one of the marker lights of the microphones 300A and 300B is detected, the determination is satisfied and the process proceeds to step S105. When neither of the marker lights of the microphones 300A and 300B is detected, the determination is not satisfied and the process proceeds to step S10. Return.

ステップS105では、マイク300A,300Bがいずれも使用されているか、つまりマイク300A,300Bの電源スイッチがいずれもONになっているかどうかを判定する。マイク300A,300Bがいずれも使用されているときは、ステップS105の判定が満たされてステップS110に移る。マイク300A,300Bのいずれか一方のみが使用されているときは、ステップS105の判定が満たされず、後述のステップS115に移る。   In step S105, it is determined whether both microphones 300A and 300B are used, that is, whether the power switches of microphones 300A and 300B are both turned on. When both the microphones 300A and 300B are used, the determination in step S105 is satisfied, and the process proceeds to step S110. When only one of the microphones 300A and 300B is used, the determination in step S105 is not satisfied, and the process proceeds to step S115 described later.

ステップS110では、緑色のマーカ光を発するマイク(以下適宜、緑マーカ光マイクという)300Aより入力される音声レベルのほうが赤色のマーカ光を発するマイク(以下適宜、赤マーカ光マイクという)300Bより入力される音声レベルよりも大きいかどうかを判定する。緑マーカ光マイク300Aより入力される音声レベルのほうが赤マーカ光マイク300Bより入力される音声レベルよりも大きいときは、ステップS110の判定が満たされてステップS120に移る。緑マーカ光マイク300Aより入力される音声レベルのほうが赤マーカ光マイク300Bより入力される音声レベルよりも大きくないときは、ステップS110の判定が満たされず、後述のステップS135に移る。   In step S110, a sound level input from a microphone 300A that emits green marker light (hereinafter referred to as a green marker light microphone) 300A is input from a microphone 300B that emits red marker light (hereinafter referred to as a red marker light microphone) 300B. It is determined whether the sound level is higher than the sound level to be played. When the sound level input from the green marker light microphone 300A is higher than the sound level input from the red marker light microphone 300B, the determination in step S110 is satisfied, and the process proceeds to step S120. When the sound level input from the green marker light microphone 300A is not higher than the sound level input from the red marker light microphone 300B, the determination in step S110 is not satisfied, and the process proceeds to step S135 described later.

一方、ステップS115では、緑マーカ光マイク300Aのみが使用されているかどうかを判定する。緑マーカ光マイク300Aのみが使用されているときは、判定が満たされてステップS120に移り、緑マーカ光マイク300Aではなく赤マーカ光マイク300Bのみが使用されているときは、判定が満たされずステップS135に移る。   On the other hand, in step S115, it is determined whether or not only the green marker light microphone 300A is used. When only the green marker light microphone 300A is used, the determination is satisfied, and the process proceeds to step S120. When only the red marker light microphone 300B is used instead of the green marker light microphone 300A, the determination is not satisfied and the step is performed. The process moves to S135.

ステップS120では、カラオケルームKR内の映像データに含まれる緑マーカ光マイク300Aのマーカ光に基づいて、緑マーカ光マイク300Aの位置を特定する。そして、ステップS125において、カラオケルームKR内の映像データから緑マーカ光マイク300Aの位置を含む部分映像データを切り出す。その後、ステップS130において、緑マーカ光マイク300Aの位置を含む部分映像データの補正処理を行い、前述と同様のステップS40に移る。なお、ステップS120〜S130の処理は、前述の図6に示したすステップS25〜S35と同様にして行えば足りるので、詳細な説明を省略する。   In step S120, the position of the green marker light microphone 300A is specified based on the marker light of the green marker light microphone 300A included in the video data in the karaoke room KR. In step S125, partial video data including the position of the green marker light microphone 300A is cut out from the video data in the karaoke room KR. Thereafter, in step S130, the partial video data including the position of the green marker light microphone 300A is corrected, and the process proceeds to step S40 similar to the above. Note that the processing in steps S120 to S130 may be performed in the same manner as steps S25 to S35 shown in FIG.

一方、ステップS135では、カラオケルームKR内の映像データに含まれる赤マーカ光マイク300Bのマーカ光に基づいて、赤マーカ光マイク300Bの位置を特定する。そして、ステップS140において、カラオケルームKR内の映像データから赤マーカ光マイク300Bの位置を含む部分映像データを切り出す。その後、ステップS145において、赤マーカ光マイク300Bの位置を含む部分映像データの補正処理を行い、上記ステップS40に移る。なお、ステップS135〜S145の処理は、図6に示したステップS25〜S35と同様にして行えば足りるので、詳細な説明を省略する。   On the other hand, in step S135, the position of the red marker light microphone 300B is specified based on the marker light of the red marker light microphone 300B included in the video data in the karaoke room KR. In step S140, partial video data including the position of the red marker light microphone 300B is cut out from the video data in the karaoke room KR. Thereafter, in step S145, the partial video data including the position of the red marker light microphone 300B is corrected, and the process proceeds to step S40. Note that steps S135 to S145 need only be performed in the same manner as steps S25 to S35 shown in FIG.

ステップS40の後の、ステップS45〜S60での処理は、上記実施形態と同様であるので、説明を省略する。   Since the processes in steps S45 to S60 after step S40 are the same as those in the above embodiment, the description thereof is omitted.

上記のフローにより実行される本変形例の動作を説明する。例えば、利用者A(図1参照)が緑マーカ光マイク300Aを持ち、利用者B(図1参照)が赤マーカ光マイク300Bを持って歌唱を行う場合を例にとって説明する。この場合、図14に示すように、カラオケルームKR内の映像データから、緑マーカ光マイク300Aの位置であるエリアG2を含む部分映像と、赤マーカ光マイク300Bの位置であるエリアC2を含む部分映像とが切り出されることとなる。   The operation of this modification executed by the above flow will be described. For example, the case where the user A (see FIG. 1) has the green marker light microphone 300A and the user B (see FIG. 1) sings with the red marker light microphone 300B will be described as an example. In this case, as shown in FIG. 14, from the video data in the karaoke room KR, a partial image including the area G2 that is the position of the green marker light microphone 300A and a portion including the area C2 that is the position of the red marker light microphone 300B The video will be cut out.

図15は、利用者Aが所持する緑マーカ光マイク300A及び利用者Bが所持する赤マーカ光マイク300Bの音声入力レベルの時間推移の一例を表すグラフである。   FIG. 15 is a graph showing an example of a time transition of the voice input level of the green marker optical microphone 300A possessed by the user A and the red marker optical microphone 300B possessed by the user B.

図15において、この例では、時間tから時間tまでは赤マーカ光マイク300Bの音声入力レベル(言い換えれば、例えば利用者Bの音声レベル)が緑マーカ光マイク300Aの音声入力レベル(言い換えれば、例えば利用者Aの音声レベル)よりも高くなっている。この結果、赤フィルタで画像処理を行ってエリアC2を含む部分映像が切り出され、利用者Bの歌唱中の画像が得られる。一方、時間tから時間tまでは、緑マーカ光マイク300Aの音声入力レベルが赤マーカ光マイク300Bの音声入力レベルよりも高い。この結果、緑フィルタで画像処理を行ってエリアG2を含む部分映像が切り出され、利用者Aの歌唱中の画像が得られる。時間tから時間tまでは赤マーカ光マイク300Bの音声入力レベルが緑マーカ光マイク300Aの音声入力レベルよりも高いため、赤フィルタで画像処理を行ってエリアC2を含む部分映像が切り出され、利用者Bの歌唱中の画像が得られる。時間tから時間tまでは緑マーカ光マイク300Aの音声入力レベルが赤マーカ光マイク300Bの音声入力レベルよりも高いため、緑フィルタで画像処理を行ってエリアG2を含む部分映像が切り出され、利用者Aの歌唱中の画像が得られる。このようにして、本変形例では、声を出して歌唱している歌唱者の動画に交互に切り替えられるように取得されることとなる。 15, in this example, from time t 0 to time t 1 red marker light microphone 300B audio input level (in other words, for example, the sound level of the user B) is in other words sound input level of the green marker light microphone 300A ( For example, it is higher than the voice level of user A). As a result, image processing is performed with the red filter, and a partial video including the area C2 is cut out, and an image during the singing of the user B is obtained. On the other hand, from the time t 1 to time t 2, the audio input level of the green marker light microphone 300A is higher than the audio input level of the red marker light microphone 300B. As a result, image processing is performed with the green filter, and a partial video including the area G2 is cut out, and an image of the user A who is singing is obtained. Since the time t 2 to time t 3 audio input level of the red marker light microphone 300B higher than the audio input level of green marker light microphone 300A, partial image including an area C2 performs image processing with the red filter is cut An image during the singing of the user B is obtained. Higher than the audio input level of the audio input level red marker light microphone 300B green marker light microphone 300A from time t 3 to time t 4, partial video is cut out containing area G2 performs image processing with the green filter The image during the singing of the user A is obtained. Thus, in this modification, it will acquire so that it may switch to the animation of the singer who is singing out loud.

なお、図13に示すフローでは、緑マーカ光マイク300A及び赤マーカ光マイク300Bのうち入力される音声レベルが大きいほうのマイクの位置を特定し、その後の処理を順次実行するようにしたが、図6で示すフローチャートと同様に、マイク300A,300Bより入力される音声信号の音声レベルが所定値以上であるときに、マイク300A,300Bの位置を特定し、その後の処理を順次実行するようにしてもよい。この場合には、マイク300A,300Bより入力される音声信号の音声レベルがいずれも高いときには、マイク300A,300Bを持って歌唱する2人の歌唱者の歌唱中の画像が同時に得られることとなる。   In the flow shown in FIG. 13, the position of the microphone with the higher input audio level among the green marker light microphone 300 </ b> A and the red marker light microphone 300 </ b> B is specified, and the subsequent processing is sequentially executed. Similar to the flowchart shown in FIG. 6, when the sound level of the sound signal input from the microphones 300A and 300B is equal to or higher than a predetermined value, the positions of the microphones 300A and 300B are specified, and the subsequent processing is sequentially executed. May be. In this case, when the sound levels of the sound signals input from the microphones 300A and 300B are both high, images of the two singers singing with the microphones 300A and 300B can be obtained simultaneously. .

以上説明した本変形例によれば、上記実施形態と同様の効果に加え、以下のような効果を得ることができる。すなわち、マイク300A,300Bをそれぞれ所持する複数の利用者A〜Cが順番に入れ替わって歌唱したり交互に歌唱している場合に、それら複数の利用者A〜Cのうちその時点で歌唱している利用者の映像だけを確実に切り出すことができる。また、同時に歌唱した2人の歌唱者それぞれの映像をすべて部分映像データとして切り出すことで、1台の全周カメラ400で歌唱者を特定しつつ、2人の歌唱者の姿を同時に映像データ化することもできる。   According to this modification described above, the following effects can be obtained in addition to the same effects as those of the above embodiment. That is, when a plurality of users A to C having microphones 300A and 300B are sequentially switched and singing or singing alternately, singing at that time among the plurality of users A to C. Only the image of the user who is present can be cut out reliably. In addition, by extracting all the images of two singers sung at the same time as partial video data, the singers can be identified with a single all-around camera 400 and the images of the two singers can be converted into video data simultaneously. You can also

なお、本変形例では、2つのマイク300A,300Bを設けたが、マイクを3つ以上設け、各マイクから異なる色のマーカ光を発生させるようにしてもよい。   In this modification, two microphones 300A and 300B are provided. However, three or more microphones may be provided and marker lights of different colors may be generated from each microphone.

(2)カラオケ歌唱の採点結果を加味して切り出しを行う場合
本変形例では、マイク300A,300Bから入力されるカラオケ歌唱の音声を採点し、その採点結果に基づいてマイク300A,300Bの位置の部分映像データを切り出す。
(2) When cutting out considering the scoring result of karaoke singing In this modification, the voice of karaoke singing input from the microphones 300A and 300B is scored, and the positions of the microphones 300A and 300B are determined based on the scoring results. Cut out partial video data.

図16は、本変形例において、制御部101により実行される処理手順の詳細を表すフローチャートである。なお、この図16は、前述の図13に対応する図である。図13と同等の手順には同符号を付し説明を適宜省略する。   FIG. 16 is a flowchart showing details of a processing procedure executed by the control unit 101 in this modification. FIG. 16 corresponds to FIG. 13 described above. The same steps as those in FIG. 13 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

図16において、まずステップS150において、マイク300A,300Bから入力されるカラオケ歌唱の音声の採点を公知の適宜の手法で開始する。このステップS150は、各請求項記載の採点手段を構成する。その後、上記のステップS10に移る。   In FIG. 16, first, in step S150, scoring of the voice of the karaoke song input from the microphones 300A and 300B is started by a known appropriate method. This step S150 constitutes scoring means described in each claim. Thereafter, the process proceeds to step S10.

その後、ステップS105において、マイク300A,300Bがいずれも使用されているかどうかを判定し、マイク300A,300Bがいずれも使用されているときは、判定が満たされてステップS155に移る。   Thereafter, in step S105, it is determined whether both of the microphones 300A, 300B are used. If both of the microphones 300A, 300B are used, the determination is satisfied and the process proceeds to step S155.

ステップS155では、緑マーカ光マイク300Aより入力されるカラオケ歌唱のほうが赤マーカ光マイク300Bより入力されるカラオケ歌唱よりも得点が高いかどうかを判定する。緑マーカ光マイク300Aより入力されるカラオケ歌唱のほうが赤マーカ光マイク300Bより入力されるカラオケ歌唱よりも得点が高いときは、ステップS155の判定が満たされて上記のステップS120に移る。緑マーカ光マイク300Aより入力されるカラオケ歌唱のほうが赤マーカ光マイク300Bより入力されるカラオケ歌唱よりも得点が高くないときは、ステップS155の判定が満たされず、上記のステップS135に移る。   In step S155, it is determined whether or not the karaoke song input from the green marker light microphone 300A has a higher score than the karaoke song input from the red marker light microphone 300B. When the score of the karaoke song input from the green marker light microphone 300A is higher than that of the karaoke song input from the red marker light microphone 300B, the determination in step S155 is satisfied and the process proceeds to step S120. When the score of the karaoke song input from the green marker light microphone 300A is not higher than the score of the karaoke song input from the red marker light microphone 300B, the determination in step S155 is not satisfied, and the process proceeds to step S135.

上記ステップS120及びステップS130以降の処理は前述と同様であるので、説明を省略する。なお、上記は、緑マーカ光マイク300A及び赤マーカ光マイク300Bより入力されるカラオケ歌唱のうち得点が高いほうのマイクの位置を特定し、その後の処理を順次実行したが、これには限られない。すなわち、マイク300A,300Bより入力されるカラオケ歌唱の得点が所定値以上であるときに、マイク300A,300Bの位置を特定し、その後の処理を順次実行するようにしてもよい。   Since the processes after step S120 and step S130 are the same as described above, the description thereof will be omitted. In the above, the position of the microphone with the higher score among the karaoke songs input from the green marker optical microphone 300A and the red marker optical microphone 300B is specified, and the subsequent processing is sequentially executed. Absent. That is, when the score of the karaoke song input from the microphones 300A and 300B is equal to or greater than a predetermined value, the positions of the microphones 300A and 300B may be specified, and the subsequent processing may be sequentially executed.

本変形例においては、複数の歌唱者のうち採点結果があるレベル以上の者、あるいは最も採点結果がよかった者の姿だけを部分映像データとして切り出すことができる。この場合、複数人で楽しむゲーム感覚により、娯楽性を向上することができる。   In this modification, it is possible to cut out only the figure of a person who has a graded result or higher among a plurality of singers or who has the best graded result as partial video data. In this case, amusement can be improved by a game sensation enjoyed by a plurality of people.

なお、本変形例では、2人の利用者がマイク300A,300Bを用いて歌唱するようにしたが、これに限られない。すなわち、利用者が1人で歌唱する場合には、歌唱者が上手に歌えたときのみ、その姿を部分映像データとして切り出すことで、娯楽性を向上することもできる。   In this modification, two users sing using the microphones 300A and 300B, but the present invention is not limited to this. That is, when a user sings alone, entertainment can be improved by cutting out the appearance as partial video data only when the singer sings well.

(3)その他
上記実施形態や(1)(2)の変形例では、マイク300のマーカ光に基づいてマイク300の位置を特定し、マイク300を所持する歌唱者を含む部分映像データを切り出し、この部分映像データを補正するという処理を、歌唱者の歌唱中にリアルタイムに実行しているが、これに限られない。すなわち、全周カメラ400で撮影して得られたカラオケルームKR内の映像を録画しておき、上記の処理を歌唱後に実行してもよい。これにより、例えば複数の歌唱者が一斉に歌唱し、うまく映像が撮れた者の姿のみ、上手に歌えた者の姿のみ、をアップロードする等のゲーム性を与えることができる。
(3) Others In the above embodiment and the modifications of (1) and (2), the position of the microphone 300 is specified based on the marker light of the microphone 300, and the partial video data including the singer who owns the microphone 300 is cut out. The process of correcting the partial video data is performed in real time during the singing of the singer, but is not limited thereto. That is, a video in the karaoke room KR obtained by photographing with the all-around camera 400 may be recorded, and the above processing may be executed after singing. Thereby, for example, a plurality of singers can sing all at once, and it is possible to give game characteristics such as uploading only the figure of a person who has successfully taken a picture or only the figure of a person who sang well.

また、上記実施形態では、マイク300を所持する歌唱者を含む部分映像データを構成するエリアA1〜H4が自動的に判定されるが、これに限られない。すなわち、全周カメラ400で撮影して得られたカラオケルームKR内の映像を録画しておき、歌唱者の歌唱後に、利用者に自らカーソルキー等でエリアA1〜H4を選択させるようにしてもよい。この場合には、1人でカラオケ店舗に訪れているにもかかわらず、歌唱者が自ら好みのアングルで歌唱している映像を選択するという楽しみ方を実現することが可能となる。   Moreover, in the said embodiment, although area A1-H4 which comprises the partial video data containing the singer who possesses the microphone 300 is determined automatically, it is not restricted to this. That is, the video in the karaoke room KR obtained by shooting with the all-around camera 400 is recorded, and after the singing of the singer, the user can select the areas A1 to H4 with the cursor keys or the like. Good. In this case, it is possible to realize a way of enjoying that a singer selects a video singing at a favorite angle, even though the karaoke store is visited alone.

また、図6、図13、図16等に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。   The flowcharts shown in FIG. 6, FIG. 13, FIG. 16 and the like do not limit the present invention to the procedure shown in the above-mentioned flow, and the addition / deletion or order of the procedures within the scope not departing from the gist and technical idea of the invention. May be changed.

また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。   In addition to those already described above, the methods according to the above-described embodiments and modifications may be used in appropriate combination.

その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。   In addition, although not illustrated one by one, the present invention is implemented with various modifications within a range not departing from the gist thereof.

10 カラオケ装置
100 装置本体
101 制御部
106 音源(楽曲再生手段)
107 音声制御部(楽曲再生手段)
108 スピーカ(楽曲再生手段)
109 表示部(表示手段)
200 リモコン
300 マイク(マイクロフォン)
300A マイク(マイクロフォン)
300B マイク(マイクロフォン)
304 LED(標識信号発生手段)
400 全周カメラ(動画撮影カメラ)
DESCRIPTION OF SYMBOLS 10 Karaoke apparatus 100 Apparatus main body 101 Control part 106 Sound source (music reproduction means)
107 Voice control unit (music playback means)
108 Speaker (music playback means)
109 Display section (display means)
200 remote control 300 microphone (microphone)
300A microphone (microphone)
300B microphone (microphone)
304 LED (sign signal generating means)
400 All around camera (video camera)

Claims (4)

楽曲データ及び映像データを用いて、カラオケ演奏曲の再生サービスを提供するカラオケ装置であって、
前記楽曲データを再生する楽曲再生手段と、
前記楽曲再生手段により前記楽曲データの再生が行われるのに従い、前記映像データを表示可能な表示手段と、
歌唱者に所持され、前記歌唱者によるカラオケ歌唱の音声信号を入力するためのマイクロフォンと、
前記マイクロフォンに設けられ、標識信号を発生する標識信号発生手段と、
前記マイクロフォン及び前記歌唱者を含む所定範囲の視野を撮影し、前記標識信号発生手段から発生された前記標識信号を含む前記所定範囲の映像データを生成する1台の動画撮影カメラと、
前記1台の動画撮影カメラにより生成された前記所定範囲の映像データに含まれる前記標識信号に基づいて前記マイクロフォンの位置を特定し、前記所定範囲の映像データから前記特定した位置を含む部分映像データを切り出す映像抽出手段と、
前記映像抽出手段により切り出された部分映像データに所定の補正処理を行い、補正処理後の映像を前記表示手段に表示させる表示制御手段と
を有することを特徴とするカラオケ装置。
A karaoke apparatus that provides a reproduction service of karaoke performance music using music data and video data,
Music playback means for playing back the music data;
Display means capable of displaying the video data as the music data is played back by the music playback means;
A microphone possessed by a singer and for inputting a voice signal of karaoke singing by the singer;
A sign signal generating means for generating a sign signal provided in the microphone;
One moving image capturing camera that captures a predetermined range of visual field including the microphone and the singer, and generates the predetermined range of video data including the beacon signal generated from the beacon signal generation unit;
The position of the microphone is specified based on the indicator signal included in the video data of the predetermined range generated by the one video camera, and the partial video data including the specified position from the video data of the predetermined range Video extraction means for cutting out
A karaoke apparatus comprising: display control means for performing predetermined correction processing on the partial video data cut out by the video extraction means and displaying the video after the correction processing on the display means.
請求項1記載のカラオケ装置において、
前記マイクロフォンより入力される音声信号の入力レベルが所定値以上であるか否かを判定する音声判定手段を有し、
前記映像抽出手段は、
前記入力レベルが所定値以上であると判定されるとともに前記標識信号発生手段からの前記標識信号が前記所定範囲の映像データに含まれる前記マイクロフォンの位置を特定し、前記所定範囲の映像データから前記特定した位置を含む部分映像データを切り出す
ことを特徴とするカラオケ装置。
The karaoke apparatus according to claim 1,
Voice determination means for determining whether an input level of a voice signal input from the microphone is a predetermined value or more;
The video extraction means includes
The input level is determined to be greater than or equal to a predetermined value, and the marker signal from the marker signal generating means identifies the position of the microphone included in the video data of the predetermined range. A karaoke apparatus characterized by cutting out partial video data including a specified position.
請求項1又は請求項2記載のカラオケ装置において、
前記複数のマイクロフォンにそれぞれ設けられた複数の標識信号発生手段が、互いに異なる色の前記標識信号を発生し、
前記映像抽出手段は、
前記所定範囲の映像データに含まれる前記標識信号の備える色に基づいて複数の前記マイクロフォンそれぞれの位置を区別して特定し、特定した各位置の部分映像データを前記所定範囲の映像データから切り出す
ことを特徴とするカラオケ装置。
In the karaoke apparatus according to claim 1 or 2,
A plurality of indicator signal generating means provided in each of the plurality of microphones generates the indicator signals of different colors;
The video extraction means includes
Distinguishing and specifying the position of each of the plurality of microphones based on the color of the indicator signal included in the predetermined range of video data, and cutting out the partial video data at each specified position from the predetermined range of video data. A karaoke device that features it.
請求項1乃至請求項3のいずれか1項記載のカラオケ装置において、
前記楽曲再生手段によって前記楽曲データの再生が行われた際に、前記マイクロフォンから入力される前記カラオケ歌唱の音声信号を、各マイクロフォンごとに、採点する採点手段と、
前記映像抽出手段は、
前記採点手段による採点結果が所定値以上である特定の前記マイクロフォンの位置を前記標識信号を用いて特定し、前記特定した位置の部分映像データを前記所定範囲の映像データから切り出す
ことを特徴とするカラオケ装置。
The karaoke apparatus according to any one of claims 1 to 3,
When the music data is played back by the music playback means, scoring means for scoring the voice signal of the karaoke song input from the microphone for each microphone;
The video extraction means includes
The position of the specific microphone whose scoring result by the scoring means is greater than or equal to a predetermined value is specified using the marker signal, and the partial video data at the specified position is cut out from the video data in the predetermined range. Karaoke equipment.
JP2010167540A 2010-07-26 2010-07-26 Karaoke equipment Expired - Fee Related JP5299374B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010167540A JP5299374B2 (en) 2010-07-26 2010-07-26 Karaoke equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010167540A JP5299374B2 (en) 2010-07-26 2010-07-26 Karaoke equipment

Publications (2)

Publication Number Publication Date
JP2012027339A true JP2012027339A (en) 2012-02-09
JP5299374B2 JP5299374B2 (en) 2013-09-25

Family

ID=45780303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010167540A Expired - Fee Related JP5299374B2 (en) 2010-07-26 2010-07-26 Karaoke equipment

Country Status (1)

Country Link
JP (1) JP5299374B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101382359B1 (en) * 2012-10-11 2014-04-08 주식회사 금영 A karaoke apparatus and a karaoke system for dynamically synthesizing external video to the internal video
JP2016046731A (en) * 2014-08-25 2016-04-04 日本放送協会 Video presentation device and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146687A (en) * 1993-04-02 1995-06-06 J M C:Kk Karaoke production device
JP2006081128A (en) * 2004-09-13 2006-03-23 Yamaha Corp Photographing system, karaoke system, and photographing method
JP2007174155A (en) * 2005-12-21 2007-07-05 Yamaha Corp Amplifying system
JP2008061260A (en) * 2007-09-21 2008-03-13 Fujitsu Ltd Fisheye lens camera device and image distortion correction method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146687A (en) * 1993-04-02 1995-06-06 J M C:Kk Karaoke production device
JP2006081128A (en) * 2004-09-13 2006-03-23 Yamaha Corp Photographing system, karaoke system, and photographing method
JP2007174155A (en) * 2005-12-21 2007-07-05 Yamaha Corp Amplifying system
JP2008061260A (en) * 2007-09-21 2008-03-13 Fujitsu Ltd Fisheye lens camera device and image distortion correction method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101382359B1 (en) * 2012-10-11 2014-04-08 주식회사 금영 A karaoke apparatus and a karaoke system for dynamically synthesizing external video to the internal video
JP2016046731A (en) * 2014-08-25 2016-04-04 日本放送協会 Video presentation device and program

Also Published As

Publication number Publication date
JP5299374B2 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
CN107872731B (en) Panoramic video playback method and device
US11363325B2 (en) Augmented reality apparatus and method
ES2548139T3 (en) Procedure and system to generate data to control a system to render at least one signal
JP5406813B2 (en) Panorama image display device and panorama image display method
CN107852476B (en) Moving picture playback device, moving picture playback method, moving picture playback system, and moving picture transmission device
WO2018043135A1 (en) Information processing device, information processing method, and program
JP2020514900A (en) Mixed reality viewer system and method
CN110178158B (en) Information processing apparatus, information processing method, and recording medium
WO2011064918A1 (en) Image data creation support device and image data creation support method
JP6307426B2 (en) Image projection method and image projection system
KR102028139B1 (en) Method for displaying image using augmented reality
JPWO2016009865A1 (en) Information processing apparatus and method, display control apparatus and method, playback apparatus and method, program, and information processing system
WO2015151766A1 (en) Projection photographing system, karaoke device, and simulation device
CN105210379A (en) Display control apparatus, display control method, and program
JP5349463B2 (en) Panorama sound image generation and reproduction method and panoramic sound image reproduction apparatus
JP2005094713A (en) Data display system, data display method, program and recording medium
TWI672948B (en) System and method for video production
JP5201540B2 (en) Karaoke device and karaoke singer&#39;s still image output method
JP5299374B2 (en) Karaoke equipment
KR20100121614A (en) A broadcasting system, a transmission apparatus and a transmission method, a reception apparatus and a reception method as well as a program
JPH09247532A (en) Image synthesis method and its device
US20250056101A1 (en) Video creation system, video creation device, and video creation program
CN115550704B (en) Remote family interaction activity method based on multifunctional household appliance
CN108391115A (en) 3D imaging method for image based on computer and imaging system
CN114632324A (en) Immersive space virtual establishment system and method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Ref document number: 5299374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees