JP7536735B2

JP7536735B2 - ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法

Info

Publication number: JP7536735B2
Application number: JP2021190472A
Authority: JP
Inventors: デファンキム; ジョンシクキム; ドンファンキム; テギュイ; ジョンフンソ; ジウォンオ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-11-24
Filing date: 2021-11-24
Publication date: 2024-08-20
Anticipated expiration: 2041-11-24
Also published as: JP2022083445A; US20220167104A1; US11930349B2

Description

多様な実施形態は、製作ツールを利用して、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法に関する。

一般的に、コンテンツ提供サーバは、利用者のために完成形態のオーディオコンテンツを提供する。このとき、完成形態のオーディオコンテンツは、複数のオーディオ信号がミキシングされたものであって、例えば、ステレオ形態のオーディオコンテンツなどがある。これにより、利用者の電子装置は、完成形態のオーディオコンテンツを受信し、これを再生する。すなわち、利用者は、完成形態のオーディオコンテンツに基づいた、定められた構成の音響しか聞くことができない。

多様な実施形態は、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法を提供する。

多様な実施形態に係るコンピュータシステムによる方法は、現場で複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成する段階、製作ツールを利用して、前記客体に対して前記現場の空間的特徴をそれぞれ設定する段階、および前記空間的特徴に基づいて、前記オーディオファイルのメタデータを生成する段階を含んでよい。

多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体に記録されるコンピュータプログラムは、前記方法を前記コンピュータシステムに実行させるためのものであってよい。

多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体には、前記方法を前記コンピュータシステムに実行させるためのプログラムが記録されていてよい。

多様な実施形態に係るコンピュータシステムは、メモリ、および前記メモリと連結し、前記メモリに記録された少なくとも１つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、現場で複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成し、製作ツールを利用して、前記客体に対して前記現場の空間的特徴をそれぞれ設定し、前記空間的特徴に基づいて、前記オーディオファイルのメタデータを生成するように構成されてよい。

多様な実施形態によると、ユーザカスタム型臨場感を実現するための材料であるオーディオコンテンツを製作するためのツールを提案することができる、このとき、コンピュータシステムは、ある現場に位置する複数の客体のオーディオファイルをそれぞれ生成することができる。また、コンピュータシステムは、製作ツールを利用して、客体に対して現場の空間的特徴を含むメタデータを生成したり、オーディオファイルを生成あるいは変更したりすることができる。このとき、コンピュータシステムは、創作者の設定に基づいて、客体の空間的特徴をそれぞれ生成することができる。これにより、電子装置は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型のオーディオコンテンツを再生することができる。すなわち、電子装置は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして、立体音響を実現することができる。したがって、電子装置は、オーディオと関連してユーザカスタム型臨場感を実現し、これにより、電子装置の利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くような、ユーザカスタム型臨場感を感じることができるようになる。

多様な実施形態における、コンテンツ提供システムを示したブロック図である。多様な実施形態における、コンテンツ提供システムの機能を説明するための例示図である。多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。多様な実施形態における、コンピュータシステムの内部構成を示したブロック図である。多様な実施形態における、コンピュータシステムの動作の流れを示したフローチャートである。図６のオーディオファイルを生成する段階の詳細な流れを示したフローチャートである。図６の空間的特徴を設定する段階の詳細な流れを示したフローチャートである。図６のメタデータを生成する段階の詳細な流れを示したフローチャートである。多様な実施形態における、電子装置の内部構成を示したブロック図である。多様な実施形態における、電子装置の動作の流れを示したフローチャートである。

以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。

以下、客体（ｏｂｊｅｃｔ）という用語は、オーディオ信号を発生させる機器または人物を示すものとする。例えば、客体は、楽器、楽器演奏者、ボーカリスト（ｖｏｃａｌｉｓｔ）、対話者（ｔａｌｋｅｒ）、伴奏や音響効果などを発生させるスピーカ、または背景音（ａｍｂｉｅｎｃｅ）を発生させる背景のうちの１つを含んでよい。また、オーディオファイル（ａｕｄｉｏｆｉｌｅ）という用語は、各客体から発生するオーディオ信号に対するオーディオデータを示すものとする。

以下、メタデータという用語は、少なくとも１つのオーディオファイルと関連するオーディオ場面の属性を説明するための情報を示すものとする。このとき、オーディオ場面は、少なくとも１つの客体で構成されてよく、メタデータは、客体に対する少なくとも１つの空間的特徴を含んでよい。例えば、メタデータは、少なくとも１つの客体の位置情報、少なくとも２つの客体の位置の組み合わせを示すグループ情報、または少なくとも１つの客体が配置される現場（ｖｅｎｕｅ）の環境情報のうちの少なくとも１つを含んでよい。また、現場は、例えば、スタジオ（ｓｔｕｄｉｏ）、コンサートホール（ｃｏｎｃｅｒｔｈａｌｌ）、ストリート（ｓｔｒｅｅｔ）、スタジアム（ｓｔａｄｉｕｍ）などを含んでよい。

図１は、多様な実施形態における、コンテンツ提供システム１００を示したブロック図であり、図２は、多様な実施形態における、コンテンツ提供システム１００の機能を説明するための例示図であり、図３と図４は、多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。

図１を参照すると、多様な実施形態に係るコンテンツ提供システム１００は、コンピュータシステム１１０と電子装置１５０を含んでよい。例えば、コンピュータシステム１１０は、少なくとも１つのサーバ（ｓｅｒｖｅｒ）を含んでよい。例えば、電子装置１５０は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ナビゲーション、ＰＣ、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ｐｏｒｔａｂｌｅｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、タブレット、ゲームコンソール（ｇａｍｅｃｏｎｓｏｌｅ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、家電機器、医療機器、またはロボット（ｒｏｂｏｔ）のうちの少なくとも１つを含んでよい。

コンピュータシステム１１０は、利用者のためにコンテンツを提供してよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ、ＶＲ）コンテンツ、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ、ＡＲ）コンテンツ、エクステンデッド・リアリティ（ｅｘｔｅｎｄｅｄｒｅａｌｉｔｙ、ＸＲ）コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン（ｐｌａｉｎ）コンテンツまたはイマーシブ（ｉｍｍｅｒｓｉｖｅ）コンテンツのうちの少なくとも１つを含んでよい。プレーンコンテンツが完成形態のコンテンツであることに対し、イマーシブコンテンツは、ユーザカスタムコンテンツであってよい。以下、オーディオコンテンツを例に挙げて説明する。

プレーンオーディオコンテンツは、複数の客体から発生するオーディオ信号がミキシングされてステレオ形態で実現されてよい。例えば、コンピュータシステム１１０は、図２に示すように、現場でオーディオ信号がミキシングされたオーディオ信号を取得し、これに基づいてプレーンオーディオコンテンツを生成してよい。この反面、イマーシブオーディオコンテンツは、現場で複数の客体から発生するオーディオ信号に対するオーディオファイルと、これに対するメタデータとで構成されてよい。このとき、イマーシブオーディオコンテンツ内において、オーディオファイルとこれに対するメタデータは、個別に存在してよい。例えば、コンピュータシステム１１０は、図２に示すように、複数の客体に対するオーディオファイルをそれぞれ取得し、これに基づいてイマーシブオーディオコンテンツを生成してよい。

電子装置１５０は、コンピュータシステム１１０から提供されるコンテンツを再生してよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ（ＶＲ）コンテンツ、拡張現実（ＡＲ）コンテンツ、エクステンデッド・リアリティ（ＸＲ）コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン（ｐｌａｉｎ）コンテンツまたはイマーシブ（ｉｍｍｅｒｓｉｖｅ）コンテンツのうちの少なくとも１つを含んでよい。

コンピュータシステム１１０からイマーシブオーディオコンテンツが受信されれば、電子装置１５０は、イマーシブオーディオコンテンツから、オーディオファイルとこれに対するメタデータをそれぞれ取得してよい。この後、電子装置１５０は、メタデータに基づいて、オーディオファイルのうちの少なくとも１つをレンダリングしてよい。これにより、電子装置１５０は、イマーシブオーディオコンテンツに基づいて、オーディオと関連するユーザカスタム型臨場感を実現することができる。したがって、利用者は、少なくとも１つの客体が配置される現場において、該当の客体から発生するオーディオ信号を直に聞くような、臨場感を感じることができるようになる。

このために、コンピュータシステム１１０は、製作ツールを利用して、客体に対して現場の空間的特徴をそれぞれ設定してよい。このとき、コンピュータシステム１１０は、グラフィックインタフェース（ｇｒａｐｈｉｃｉｎｔｅｒｆａｃｅ）３００、４００を利用した少なくとも１つの創作者の入力に基づいて、客体の空間的特徴をそれぞれ設定してよい。空間的特徴は、少なくとも１つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも１つに対するものであってよい。一実施形態において、コンピュータシステム１１０は、図３または図４のうちの少なくとも１つに示すように、製作ツールを利用してグラフィックインタフェース３００、４００を出力し、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、コンピュータシステム１１０は、各客体に対して空間的特徴を設定してよく、少なくとも２つの客体の空間的特徴を１つのグループとして設定してよい。

一実施形態において、コンピュータシステム１１０は、図３に示すような第１グラフィックインタフェース３００、および、図４に示すような第２グラフィックインタフェース４００を利用して、客体の空間的特徴を設定してよい。一実施形態によると、コンピュータシステム１１０は、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００を同時に出力してよい。ここで、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００は、分離して提供されてもよいし、１つに統合されて提供されてもよい。他の実施形態によると、コンピュータシステム１１０は、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００を個別に出力してもよい。

第１グラフィックインタフェース３００は、少なくとも１つの現場に対してリストを表示し、各現場に位置する少なくとも１つの客体に対してリストで表示するための第１領域３１０、第１領域３１０から選択される客体の位置を設定するための第２領域３２０、または、第１領域３１０から選択される客体の位置またはオーディオ効果のうちの少なくとも１つを微調整するための第３領域３３０、のうちの少なくとも１つを含んでよい。例えば、第１領域３１０、第２領域３２０、または第３領域３３０のうちの少なくとも１つが、同じ画面上に表示されてよい。すなわち、コンピュータシステム１１０は、第１グラフィックインタフェース３００を提供し、第１グラフィックインタフェース３００から少なくとも１つの創作者の入力を検出してよい。創作者は、第１領域３１０により、いずれかの現場を生成するか選択して該当の現場に位置する客体を選択してよい。また、創作者は、第２領域３２０により、該当の現場に位置する該当の客体の位置を選択してよい。これにより、コンピュータシステム１１０は、該当の客体の位置に基づいて、該当の客体の空間的特徴を設定してよい。一方、創作者は、第３領域３３０により、該当の客体のオーディオ効果を微調整してよい。ここで、オーディオ効果とは、該当の空間内の客体と聴者の位置関係を示してよい。例えば、オーディオ効果は、聴者の位置に対して、客体の位置の方位角（ａｚｉｍｕｔｈ）、高度（ｅｌｅｖａｔｉｏｎ）、距離（ｄｉｓｔａｎｃｅ）、ＢＥＳ、ゲイン（ｇａｉｎ）などを含んでよい。本文書では、方位角、高度、距離によって客体の位置を表現したが、客体の位置を示すことが可能な表現方式が特定の座標系に限定されてはならない。これにより、コンピュータシステム１１０は、該当の客体の位置とオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。

第２グラフィックインタフェース４００は、少なくとも１つの現場に対するリストを表示する第４領域４４０、または、第４領域４４０から選択される現場と関連するオーディオ効果を微調整するための第５領域４５０のうちの少なくとも１つを含んでよい。すなわち、コンピュータシステム１１０は、第２グラフィックインタフェース４００を提供し、第２グラフィックインタフェース４００から少なくとも１つの創作者の入力を検出してよい。創作者は、第４領域４４０により、いずれかの現場を選択してよい。また、創作者は、第５領域４５０により、該当の現場と関連するオーディオ効果を微調整してよい。これにより、コンピュータシステム１１０は、該当の現場と関連するオーディオ効果に基づいて、該当の現場に位置する客体の空間的特徴を設定してよい。

多様な実施形態によると、コンピュータシステム１１０は、電子機器（製作スタジオと指称されてもよい）（図示せず）またはサーバ（図示せず）のうちの少なくとも１つを含んでよい。例えば、電子機器は、オーディオコンソール、ダンテ（ｄａｎｔｅ）のようなオーディオインタフェースなどの多様なハードウェアを備える機器であって、スマートフォン、携帯電話、ナビゲーション、ＰＣ、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ、ＰＭＰ、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴデバイス、家電機器、医療機器、またはロボットのうちの少なくとも１つを含んでよい。

電子機器は、複数の客体のオーディオファイルと、これに対するメタデータを生成してよい。このために、電子機器は、ある現場に位置する客体それぞれが発生するオーディオ信号をそれぞれ取得してよい。このとき、電子機器は、各客体に直接的に付着されるか各客体に隣接して設置されるマイクロホン（ｍｉｃｒｏｐｈｏｎｅ）により、各オーディオ信号を取得してよい。追加で、電子機器は、カメラ（ｃａｍｅｒａ）により、各客体の直接的な位置を認識してもよい。また、電子機器は、オーディオ信号を利用して、オーディオファイルをそれぞれ生成してよい。さらに、電子機器は、オーディオファイルのメタデータを生成してよい。このために、電子機器は、客体に対して現場の空間的特徴をそれぞれ設定してよい。例えば、電子機器は、グラフィックインタフェース３００、４００を利用した創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、電子機器は、各客体の直接的な位置や各客体のためのマイクロホンの位置を利用して、各客体の位置情報または少なくとも２つの客体の位置の組み合わせを示すグループ情報のうちの少なくとも１つを検出してよい。また、電子機器は、客体が配置された現場の環境情報を検出してよい。

この後、電子機器は、客体の空間的特徴に基づいて、メタデータを生成してよい。このとき、電子機器は、客体の空間的特徴を組み合わせて、電子装置１５０で選択可能なプリセットを生成してよい。例えば、電子機器は、ある現場の環境情報とある客体の位置情報、およびオーディオ効果を組み合わせてプリセットを生成してよい。

サーバは、オーディオファイルとこれに対するメタデータを電子装置１５０に送信してよい。具体的に説明すると、サーバは、オーディオファイルとこれに対するメタデータにより、予め定められたフォーマット４００のイマーシブオーディオコンテンツを生成してよい。このとき、イマーシブオーディオコンテンツ内において、オーディオファイルとこれに対するメタデータは、個別的に存在してよい。また、サーバは、イマーシブオーディオコンテンツを電子装置１５０に送信してよい。ここで、サーバは、ライブストリーミング（ｌｉｖｅｓｔｒｅａｍｉｎｇ）サーバであってよい。

これにより、電子装置１５０は、メタデータに基づいて、オーディオファイルをレンダリングしてよい。例えば、電子装置１５０は、ユーザインタフェース（ｕｓｅｒｉｎｔｅｒｆａｃｅ、ＵＩ）を利用した利用者の入力に基づいて、プリセットのうちの１つを選択してよい。すなわち、電子装置１５０は、多数のプリセットを表示し、利用者の入力に基づいて、プリセットのうちの１つを選択してよい。これにより、電子装置１５０は、選択されるプリセットに基づいて、客体の空間的特徴を利用してオーディオファイルをレンダリングしてよい。これにより、電子装置１５０は、該当の現場に対するユーザカスタム型臨場感を実現することができる。

一実施形態において、コンピュータシステム１１０は、オーディオファイルとメタデータをＰＣＭ（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）オーディオ信号で構成して、送信してよい。このとき、コンピュータシステム１１０は、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力に基づいて生成されるメタデータ、または他の電子機器から受信されるメタデータをＰＣＭ信号のメタデータトラック（ｍｅｔａｄａｔａｔｒａｃｋ）に埋め込んで（Ｅｍｂｅｄｄｉｎｇ）よい。ここで、メタデータは、最終配信の際のエンコードのために使用されるオーディオコデックスのフレームサイズに基づいて、オーディオチャンネルと時間同期化（ｔｉｍｅｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ）されて埋め込まれてよい。フレームごとに時間同期化されたメタデータは、各フレームに対して複数のセットで埋め込まれてよい。このとき、埋め込まれる複数のセットのメタデータは、同じ内容を含んでいてよく、同じ内容のメタデータセットが含まれることにより、以後のオーディオエンコード過程においてメタデータの損失と損傷の防止に役立つようになる。コンピュータシステム１１０、特に、電子機器のハードウェアの特性に応じてドリフト補正が適用されてよい。ドリフト補正が適用される場合、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力を基づいて生成されるメタデータと他の電子機器から受信されるメタデータとの差が生じることがあるため、メタデータが生成されるときには、ドリフト補正によるチャンネル間の補正が適用されないように生成してメタデータトラックに記入されてよい。

図５は、多様な実施形態における、コンピュータシステム１１０の内部構成を示したブロック図である。

図５を参照すると、多様な実施形態に係るコンピュータシステム１１０は、連結端子５１０、通信モジュール５２０、入力モジュール５３０、表示モジュール５４０、オーディオモジュール５５０、メモリ５６０、またはプロセッサ５７０のうちの少なくとも１つを含んでよい。一実施形態によると、コンピュータシステム１１０の構成要素のうちの少なくともいずれか１つが省略されてもよいし、少なくとも１つの他の構成要素が追加されてもよい。一実施形態によると、コンピュータシステム１１０の構成要素のうちの少なくともいずれか２つが、１つの統合された回路で実現されてもよい。

連結端子５１０は、コンピュータシステム１１０で外部装置と物理的に連結されてよい。例えば、外部装置は、他の電子機器を含んでよい。このために、連結端子５１０は、少なくとも１つのコネクタを含んでよい。例えば、コネクタは、ＨＤＭＩコネクタ、ＵＳＢコネクタ、ＳＤカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか１つを含んでよい。

通信モジュール５２０は、コンピュータシステム１１０で外部装置との通信を実行してよい。通信モジュール５２０は、コンピュータシステム１１０と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、外部サーバまたは電子装置１５０のうちの少なくとも１つを含んでよい。通信モジュール５２０は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも１つを含んでよい。有線通信モジュールは、連結端子５１０を介して外部装置と有線で連結し、外部装置と有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか１つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）、Ｗｉ－Ｆｉ（登録商標）ダイレクト（Ｗｉ－Ｆｉｄｉｒｅｃｔ）、または赤外線通信（ＩｒＤＡ、ｉｎｆｒａｒｅｄｄａｔａａｓｓｏｃｉａｔｉｏｎ）のうちの少なくともいずれか１つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）やＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）のようなコンピュータネットワークのうちの少なくともいずれか１つを含んでよい。

入力モジュール５３０は、コンピュータシステム１１０の少なくとも１つの構成要素が使用する信号を入力してよい。入力モジュール５３０は、利用者がコンピュータシステム１１０に信号を直接入力するように構成される入力装置、周辺環境を感知して信号が発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか１つを含んでよい。例えば、入力装置は、マイクロホン（ｍｉｃｒｏｐｈｏｎｅ）、マウス（ｍｏｕｓｅ）、またはキーボード（ｋｅｙｂｏａｒｄ）のうちの少なくともいずれか１つを含んでよい。一実施形態によると、センサ装置は、タッチを感知するように設定されたタッチ回路（ｔｏｕｃｈｃｉｒｃｕｉｔｒｙ）、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか１つを含んでよい。

表示モジュール５４０は、情報を視覚的に表示してよい。例えば、表示モジュール５４０は、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか１つを含んでよい。一例として、表示モジュール５４０は、入力モジュール５３０のタッチ回路またはセンサ回路のうちの少なくともいずれか１つと組み立てられてタッチスクリーンとして実現されてよい。

オーディオモジュール５５０は、情報を聴覚的に再生してよい。例えば、オーディオモジュール５５０は、スピーカまたはレシーバのうちの少なくともいずれか１つを含んでよい。

メモリ５６０は、コンピュータシステム１１０の少なくとも１つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ５６０は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか１つを含んでよい。データは、少なくとも１つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ５６０に少なくとも１つの命令を含むソフトウェアとして記録されてよい。メモリ５６０は、オーディオファイルとこれに対するメタデータを生成するための製作ツール５６５を記録してよい。

プロセッサ５７０は、メモリ５６０のプログラムを実行し、コンピュータシステム１１０の少なくとも１つの構成要素を制御してよい。これにより、プロセッサ５７０は、データ処理または演算を実行してよい。このとき、プロセッサ５７０は、メモリ５６０に記録された命令を実行してよい。プロセッサ５７０は、利用者のためにコンテンツを提供してよい。このとき、プロセッサ５７０は、通信モジュール５２０により、コンテンツを送信してよい。コンテンツは、ビデオコンテンツ、プレーンオーディオコンテンツ、またはイマーシブオーディオコンテンツのうちの少なくとも１つを含んでよい。

プロセッサ５７０は、ある現場に位置する客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれ生成してよい。また、プロセッサ５７０は、製作ツール５６５を利用して、客体に対してそれぞれ設定される現場の空間的特徴を含むメタデータを生成してよい。一実施形態によると、プロセッサ５７０は、オーディオファイルとメタデータに基づいて、リアルタイムで再生可能なオーディオ信号を生成してよい。他の実施形態によると、プロセッサ５７０は、客体のオーディオファイルとメタデータを送信してよい。このために、プロセッサ５７０は、客体のオーディオファイルとメタデータを記録してよい。

このとき、プロセッサ５７０は、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力に基づいて客体の空間的特徴をそれぞれ設定し、客体と関連して空間的特徴をそれぞれ記録してよい。空間的特徴は，少なくとも１つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも１つに対するものであってよい。これにより、客体と関連して記録された空間的特徴は、客体によって生成されたオーディオファイルをレンダリングするために利用されるだけでなく、客体と関連する他のオーディオファイルをレンダリングするためにも活用することが可能となる。例えば、前記空間的特徴は、臨場感を表現するためのリバーブトラックなどのレンダリングに活用されてよい。一実施形態において、プロセッサ５７０は、製作ツール５６５を利用して、図３または図４のうちの少なくとも１つに示すようにグラフィックインタフェース３００、４００を出力し、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、コンピュータシステム１１０は、各客体に対して空間的特徴を設定してよく、少なくとも２つの客体に対して空間的特徴を１つのグループとして設定してよい。

図６は、多様な実施形態における、コンピュータシステム１１０の動作の流れを示したフローチャートである。

図６を参照すると、段階６１０で、コンピュータシステム１１０は、現場に位置する複数の客体に対してオーディオファイルをそれぞれ生成してよい。プロセッサ５７０は、ある現場に位置する客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれ生成してよい。これについては、図７を参照しながらより詳細に説明する。

図７は、図６のオーディオファイルを生成する段階（段階６１０）の詳細な流れを示したフローチャートである。

図７を参照すると、段階７１１で、コンピュータシステム１１０は、ある現場に位置する複数の客体のオーディオ信号を取得してよい。すなわち、プロセッサ５０は、現場に位置する客体それぞれが発生するオーディオ信号を取得してよい。このとき、プロセッサ５７０は、各客体に直接的に付着されるか各客体に隣接して設置されるマイクロホンにより、各オーディオ信号を取得してよい。

次に、段階７１３で、コンピュータシステム１１０は、オーディオ信号からオーディオファイルをそれぞれ生成してよい。プロセッサ６７０は、客体のオーディオ信号からオーディオファイルをそれぞれ生成してよい。

この後、コンピュータシステム１１０は、図６にリターンし、段階６２０に進んでよい。

再び図６を参照すると、段階６２０で、コンピュータシステム１１０は、製作ツール５６５を利用して、客体に対して現場の空間的特徴をそれぞれ設定してよい。このとき、プロセッサ５７０は、グラフィックインタフェース３００、４００を利用して、少なくとも１つの創作者の入力に基づいて客体の空間的特徴をそれぞれ設定してよい。空間的特徴は、少なくとも１つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも１つに対するものであってよい。ここで、プロセッサ５７０は、各客体に対して空間的特徴を設定してよく、少なくとも２つの客体に対して空間的特徴を１つのグループとして設定してよい。これについては、図８を参照しながらより詳細に説明する。

図８は、図６の空間的特徴を設定する段階（段階６２０）の詳細な流れを示したフローチャートである。

図８を参照すると、段階８２１で、コンピュータシステム１１０は、創作者のためにグラフィックインタフェース３００、４００を出力してよい。プロセッサ５７０は、製作ツール５６５を利用して、図３または図４のうちの少なくとも１つに示すようにグラフィックインタフェース３００、４００を出力してよい。一例として、プロセッサ５７０は、通信モジュール５２０により、外部装置にグラフィックインタフェース３００、４００を出力してよい。他の例として、プロセッサ５７０は、表示モジュール５４０により、グラフィックインタフェース３００、４００を出力してよい。

一実施形態において、グラフィックインタフェース３００、４００は、第１グラフィックインタフェース３００または第２グラフィックインタフェース４００のうちの少なくとも１つを含んでよい。一実施形態によると、コンピュータシステム１１０は、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００を同時に出力してよい。ここで、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００は、分離して提供されてもよいし、１つに統合されて提供されてもよい。他の実施形態によると、コンピュータシステム１１０は、第１グラフィックインタフェース３００と第２グラフィックインタフェース４００を個別に出力してもよい。

第１グラフィックインタフェース３００は、少なくとも１つの現場に対してリストを表示し、各現場に位置する少なくとも１つの客体に対してリストで表示するための第１領域３１０、第１領域３１０から選択される客体の位置を設定するための第２領域３２０、または、第１領域３１０から選択される客体のオーディオ効果を微調整するための第３領域３３０のうちの少なくとも１つを含んでよい。ここで、オーディオ効果とは、該当の空間内の客体と聴者の位置関係を示してよい。例えば、オーディオ効果は、聴者の位置に対して、客体の位置の方位角（ａｚｉｍｕｔｈ）、高度（ｅｌｅｖａｔｉｏｎ）、距離（ｄｉｓｔａｎｃｅ）、ＢＥＳ、ゲイン（ｇａｉｎ）などを含んでよい。例えば、第１領域３１０、第２領域３２０、または第３領域３３０のうちの少なくとも１つが、同じ画面上に表示されてよい。第２グラフィックインタフェース４００は、少なくとも１つの現場に対するリストを表示する第４領域４４０、または、第４領域４４０から選択される現場と関連するオーディオ効果を微調整するための第５領域４５０のうちの少なくとも１つを含んでよい。

次に、段階８２３で、コンピュータシステム１１０は、グラフィックインタフェース３００、４００から、少なくとも１つの創作者の入力を検出してよい。プロセッサ５７０は、製作ツール５６５を利用して、グラフィックインタフェース３００、４００から、少なくとも１つの創作者の入力を検出してよい。一例として、プロセッサ５７０は、通信モジュール５２０により、外部装置から創作者の入力を受信してよい。他の例として、プロセッサ５７０は、入力モジュール５３０により、創作者の入力を感知してよい。

一実施形態において、プロセッサ５７０は、第１グラフィックインタフェース３００または第２グラフィックインタフェース４００のうちの少なくとも１つから、少なくとも１つの創作者の入力を検出してよい。プロセッサ５７０は、第１グラフィックインタフェース３００から、少なくとも１つの創作者の入力を検出してよい。創作者は、第１領域３１０により、いずれかの現場を生成するか選択し、該当の現場に位置するいずれかの客体を選択してよい。また、創作者は、第２領域３２０により、該当の現場に位置する該当の客体の位置を選択してよい。一方、創作者は、第３領域３３０により、該当の客体のオーディオ効果を微調整してよい。プロセッサ５７０は、第２グラフィックインタフェース４００から、少なくとも１つの創作者の入力を検出してよい。創作者は、第４領域４４０により、いずれかの現場を選択してよい。また、創作者は、第５領域４５０により、該当の現場と関連するオーディオ効果を微調整してよい。

次に、段階８２５で、コンピュータシステム１１０は、客体に対して現場の空間的特徴をそれぞれ設定してよい。プロセッサ５７０は、グラフィックインタフェース３００、４００を利用した少なくとも１つの創作者の入力に基づいて、客体の空間的特徴をそれぞれ設定してよい。ここで、プロセッサ５７０は、各客体に対して空間的特徴を設定してよく、少なくとも２つの客体に対して空間的特徴を１つのグループとして設定してよい。

一実施形態において、制御部５７０は、第１グラフィックインタフェース３００または第２グラフィックインタフェース４００のうちの少なくとも１つに基づいて、客体の空間的特徴をそれぞれ設定してよい。プロセッサ５７０は、第１グラフィックインタフェース３００の第１領域３１０から選択されたいずれかの現場に位置する客体に対し、第２領域３２０から選択された位置に基づいて、該当の客体の空間的特徴を設定してよい。これにより、コンピュータシステム１１０は、該当の客体の位置とオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。さらに、プロセッサ５７０は、第１グラフィックインタフェース３００の第１領域３１０から選択されたいずれかの現場に位置する客体に対し、第３領域３３０で調整されたオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。プロセッサ５７０は、第２グラフィックインタフェース４００の第４領域４４０から選択された現場に対し、第５領域４５０で調整されたオーディオ効果に基づいて、該当の現場の客体の空間的特徴を設定してよい。

次に、段階８２７で、コンピュータシステム１１０は、客体と関連して空間的特徴をそれぞれ記録してよい。プロセッサ５７０は、メモリ５６０に、客体と関連して空間的特徴をそれぞれ記録してよい。これにより、客体と関連して記録された空間的特徴は、段階６１０で客体が生成したオーディオファイルをレンダリングするために利用されるだけでなく、客体と関連する他のオーディオファイルをレンダリングするために活用することが可能となる。例えば、前記空間的特徴は、臨場感を表現するためのリバーブトラックなどのレンダリングに活用されてよい。

この後、コンピュータシステム１１０は、図６にリターンし、段階６３０に進んでよい。

再び図６を参照すると、段階６３０で、コンピュータシステム１１０は、客体の空間的特徴に基づいて、メタデータを生成してよい。プロセッサ５７０は、客体の空間的特徴を含むようにメタデータを生成してよい。また、コンピュータシステム１００は、メタデータを利用してよい。一実施形態によると、プロセッサ５７０は、オーディオファイルとメタデータに基づいて、リアルタイムで再生可能なオーディオ信号を生成してよい。すなわち、プロセッサ５７０は、メタデータに基づいてオーディオファイルをレンダリングし、これによってリアルタイムで再生可能なオーディオ信号が生成されてよい。例えば、オーディオ信号は、ステレオ形態、サラウンド形態、またはバイノーラル（ｂｉｎａｕｒａｌ）形態のうちの１つで生成されてよい。これにより、ライブサービス環境において、客体が生成するオーディオファイルをリアルタイムで変更したりモニタリングしたりすることが可能となる。他の実施形態によると、プロセッサ５７０は、客体のオーディオファイルとメタデータを送信してよい。このために、プロセッサ５７０は、客体のオーディオファイルとメタデータを記録してよい。これについては、図９を参照しながらより詳細に説明する。

図９は、図６のメタデータを生成する段階（段階６３０）の詳細な流れを示したフローチャートである。

図９を参照すると、段階９３１で、コンピュータシステム１１０は、空間的特徴に基づいて、メタデータを生成してよい。プロセッサ５７０は、客体の空間的特徴を含むようにメタデータを生成してよい。また、段階９３３で、コンピュータシステム１１０は、客体のオーディオファイルとメタデータを記録してよい。プロセッサ５７０は、メモリ５６０に、客体のオーディオファイルとメタデータをともに記録してよい。この後、段階９３５で、コンピュータシステム１１０は、客体のオーディオファイルとメタデータを送信してよい。プロセッサ５７０は、通信モジュール５２０により、外部サーバまたは電子装置１５０に、客体のオーディオファイルとメタデータをともに送信してよい。このとき、プロセッサ５７０は、オーディオファイルとメタデータを圧縮および暗号化して送信してよい。一実施形態によると、入力モジュール５３０によって創作者の命令が感知されれば、プロセッサ５７０は、外部サーバまたは電子装置１５０に、客体のオーディオファイルとメタデータをともに送信してよい。通信モジュール５２０によって外部サーバまたは電子装置１５０からの要請が受信されれば、プロセッサ５７０は、外部サーバまたは電子装置１５０に、客体のオーディオファイルとメタデータをともに送信してよい。

図１０は、多様な実施形態における、電子装置１５０の内部構成を示したブロック図である。

図１０を参照すると、多様な実施形態に係る電子装置１５０は、連結端子１０１０、通信モジュール１０２０、入力モジュール１０３０、表示モジュール１０４０、オーディオモジュール１０５０、メモリ１０６０、またはプロセッサ１０７０のうちの少なくとも１つを含んでよい。一実施形態によると、電子装置１５０の構成要素のうちの少なくともいずれか１つが省略されてもよいし、少なくとも１つの他の構成要素が追加されてもよい。一実施形態によると、電子装置１５０の構成要素のうちの少なくともいずれか２つが、１つの統合された回路で実現されてもよい。

連結端子１０１０は、電子装置１５０で外部装置と物理的に連結されてよい。例えば、外部装置は、他の電子装置を含んでよい。このために、連結端子１０１０は、少なくとも１つのコネクタを含んでよい。例えば、コネクタは、ＨＤＭＩコネクタ、ＵＳＢコネクタ、ＳＤカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか１つを含んでよい。

通信モジュール１０２０は、電子装置１５０で外部装置との通信を実行してよい。通信モジュール１０２０は、電子装置１５０と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、コンピュータシステム１１０を含んでよい。通信モジュール１０２０は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも１つを含んでよい。有線通信モジュールは、連結端子１０１０を介して外部装置と有線で連結され、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか１つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース、Ｗｉ－Ｆｉダイレクト、または赤外線通信のうちの少なくともいずれか１つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはＬＡＮやＷＡＮのようなコンピュータネットワークのうちの少なくともいずれか１つを含んでよい。

入力モジュール１０３０は、電子装置１５０の少なくとも１つの構成要素が使用する信号を入力してよい。入力モジュール１０３０は、利用者が電子装置１５０に信号を直接入力するように構成される入力装置、周辺環境を感知して信号を発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか１つを含んでよい。例えば、入力装置は、マイクロホン（ｍｉｃｒｏｐｈｏｎｅ）、マウス（ｍｏｕｓｅ）、またはキーボード（ｋｅｙｂｏａｒｄ）のうちの少なくともいずれか１つを含んでよい。一実施形態において、センサ装置は、ヘッドトラッキング（ｈｅａｄｔｒａｃｋｉｎｇ）センサ、ヘッドマウントディスプレイ（ｈｅａｄ－ｍｏｕｎｔｅｄｄｉｓｐｌａｙ、ＨＭＤ）コントローラ、タッチを感知するように設定されたタッチ回路（ｔｏｕｃｈｃｉｒｃｕｉｔｒｙ）、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか１つを含んでよい。

表示モジュール１０４０は、情報を視覚的に表示してよい。例えば、表示モジュール１０４０は、ディスプレイ、ヘッドマウントディスプレイ（ＨＭＤ）、ホログラム装置、またはプロジェクタのうちの少なくともいずれか１つを含んでよい。一例として、表示モジュール１０４０は、入力モジュール１０３０のタッチ回路またはセンサ回路のうちの少なくともいずれか１つと組み立てられてタッチスクリーンとして実現されてよい。

オーディオモジュール１０５０は、情報を聴覚的に再生してよい。例えば、オーディオモジュール１０５０は、スピーカ、レシーバ、イヤホン、またはヘッドホンのうちの少なくともいずれか１つを含んでよい。

メモリ１０６０は、電子装置１５０の少なくとも１つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ１０６０は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか１つを含んでよい。データは、少なくとも１つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ１０６０に少なくとも１つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか１つを含んでよい。例えば、アプリケーションは、コンピュータシステム１１０の製作ツール５６５と連動して動作するためのアプリケーションを含んでよい。

プロセッサ１０７０は、メモリ１０６０のプログラムを実行し、電子装置１５０の少なくとも１つの構成要素を制御してよい。これにより、プロセッサ１０７０は、データ処理または演算を実行してよい。このとき、プロセッサ１０７０は、メモリ１０６０に記録された命令を実行してよい。プロセッサ１０７０は、コンピュータシステム１１０から提供されるコンテンツを再生してよい。プロセッサ１０７０は、表示モジュール１０４０により、ビデオコンテンツを再生してよく、オーディオモジュール１０５０により、プレーンオーディオコンテンツまたはイマーシブオーディオコンテンツのうちの少なくとも１つを再生してよい。

プロセッサ１０７０は、通信モジュール１０２０により、コンピュータシステム１１０から、ある現場に位置する客体のオーディオファイルとメタデータを受信してよい。また、プロセッサ１０７０は、メタデータに基づいてオーディオファイルをレンダリングしてよい。これにより、プロセッサ１０７０は、メタデータの客体の空間的特徴に基づいてオーディオファイルをレンダリングしてよい。

図１１は、多様な実施形態における、電子装置１５０の動作の流れを示したフローチャートである。

図１１を参照すると、段階１１１０で、電子装置１５０は、オーディオファイルとメタデータを受信してよい。プロセッサ１０７０は、通信モジュール１０２０により、サーバ３３０から、ある現場に位置する客体に対するオーディオファイルとメタデータを受信してよい。このとき、プロセッサ１０７０は、第２通信プロトコル、例えば、ＨＴＴＰライブストリーミング（ＨＬＳ）を利用して、オーディオファイルとメタデータを受信してよい。

次に、段階１１２０で、電子装置１５０は、メタデータに基づいて客体のうちの少なくとも１つを選択してよい。このとき、プロセッサ１０７０は、ユーザインタフェース（ｕｓｅｒｉｎｔｅｒｆａｃｅ、ＩＵ）を利用した利用者の入力に基づいて、客体のうちの少なくとも１つを選択してよい。より具体的に説明すると、プロセッサ１０７０は、利用者のためにユーザインタフェースを出力してよい。一例として、プロセッサ１０７０は、通信モジュール１０２０により、外部装置でユーザインタフェースを出力してよい。他の例として、プロセッサ１０７０は、表示モジュール１０４０により、ユーザインタフェースを出力してよい。この後、プロセッサ１０７０は、ユーザインタフェースを利用した少なくとも１つの利用者の入力に基づいて、客体のうちの少なくとも１つを選択してよい。

次に、段階１１２０で、電子装置１５０は、メタデータに基づいてオーディオファイルをレンダリングしてよい。プロセッサ１０７０は、メタデータから選択された客体の空間的特徴に基づいてオーディオファイルをレンダリングしてよい。プロセッサ１０７０は、客体の空間的特徴を客体のオーディオファイルに適用し、オーディオモジュール１０５０によって最終的なオーディオ信号を再生してよい。これにより、電子装置１５０は、該当の現場に対するユーザカスタム型臨場感を実現することができる。したがって、利用者は、客体が配置される現場において、該当の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。

多様な実施形態によると、利用者のためにユーザカスタム型臨場感を実現するための材料であるオーディオコンテンツを製作するための製作ツール５６５が提案されてよい。このとき、コンピュータシステム１１０は、ある現場に位置する複数の客体のオーディオファイルをそれぞれ生成してよい。また、コンピュータシステム１１０は、製作ツール５６５を利用して、客体に対する現場の空間的特徴を含むメタデータを生成してよい。このとき、コンピュータシステム１１０は、創作者の設定に基づいて、客体に対して空間的特徴をそれぞれ生成してよい。このために、電子装置１５０は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型のオーディオコンテンツを再生することができる。すなわち、電子装置１５０は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして、立体音響を実現することができる。したがって、電子装置１５０は、オーディオと関連してユーザカスタム型臨場感を実現し、これにより、電子装置１５０の利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。

多様な実施形態に係るコンピュータシステム１１０による方法は、現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成する段階（段階６１０）、製作ツール５６５を利用して、客体に対して現場の空間的特徴をそれぞれ設定する段階（段階６２０）、および空間的特徴に基づいて、オーディオファイルのメタデータを生成する段階（段階６３０）を含んでよい。

多様な実施形態によると、空間的特徴をそれぞれ設定する段階（段階６２０）は、グラフィックインタフェース３００、４００を出力する段階（段階８２１階）、グラフィックインタフェース３００、４００を利用した少なくとも１つの入力に基づいて（段階８２３）、客体に対して空間的特徴をそれぞれ設定する段階（段階８２５）、および客体と関連して空間的特徴をそれぞれ記録する段階（段階８２７）を含んでよい。

多様な実施形態によると、メタデータは、客体それぞれの位置情報、客体のうちの少なくとも２つの位置の組み合わせを示すグループ情報、または現場の環境情報のうちの少なくとも１つを含んでよい。

多様な実施形態によると、客体それぞれは、楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景のうちの１つを含んでよい。

多様な実施形態によると、グラフィックインタフェース３００、４００は、現場に位置する客体を表示するための第１領域３１０、および第１領域３１０と同じ画面上に表示され、第１領域３１０から選択される客体の位置を設定するための第２領域３２０を含んでよい。

多様な実施形態によると、空間的特徴をそれぞれ設定する段階（段階８２５）は、位置に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、グラフィックインタフェース３００、４００は、第１領域３１０と同じ画面上に表示され、第１領域３１０から選択される客体のオーディオ効果を調整するための第３領域３３０をさらに含んでよい。

多様な実施形態によると、空間的特徴をそれぞれ設定する段階（段階８２５）は、位置とオーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、グラフィックインタフェース３００、４００は、少なくとも１つの現場を表示するための第４領域４４０、または第４領域４４０と同じ画面に表示され、第４領域４４０から選択される現場と関連するオーディオ効果を調整するための第５領域４５０のうちの少なくとも１つをさらに含んでよい。

多様な実施形態によると、空間的特徴をそれぞれ設定する段階（段階８２５）は、オーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、第４領域４４０は、第１領域３１０と同じ領域に表示されるか、異なる領域に表示されてよい。

多様な実施形態によると、コンピュータシステム１１０による方法は、メタデータに基づいてオーディオファイルをレンダリングする段階、オーディオファイルとメタデータをともに記録する段階（段階９３３）、または、オーディオファイルとメタデータをともに送信する段階（段階９３５）のうちの少なくとも１つをさらに含んでよい。

多様な実施形態によると、オーディオファイルとメタデータをともに送信する段階（段階９３５）は、オーディオファイルとメタデータをＰＣＭ（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）オーディオ信号で構成して、送信する段階を含んでよい。

多様な実施形態によると、メタデータは、ＰＣＭオーディオ信号のメタデータトラック（ｍｅｔａｄａｔａｔｒａｃｋ）に埋め込まれ、オーディオファイルとメタデータのエンコードに利用されるオーディオコーデックのフレームサイズに基づいてオーディオファイルと同期化され、ドリフト補正によるチャンネル間の補正が適用されないように生成されてメタデータトラックに記入され、１つのフレーム内に複数のセットで記入されてよい。

多様な実施形態に係るコンピュータシステム１１０は、メモリ５６０、およびメモリ５６０と連結し、メモリ５６０に記録された少なくとも１つの命令を実行するように構成されたプロセッサ５７０を含んでよい。

多様な実施形態によると、プロセッサ５７０は、現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成し、製作ツール５６５を利用して、客体に対して現場の空間的特徴をそれぞれ設定し、空間的特徴に基づいて、オーディオファイルのメタデータを生成するように構成されてよい。

多様な実施形態によると、プロセッサ５７０は、グラフィックインタフェース３００、４００を出力し、グラフィックインタフェース３００、４００を利用した少なくとも１つの入力に基づいて、客体に対して空間的特徴をそれぞれ設定し、客体と関連して空間的特徴をそれぞれ記録するように構成されてよい。

多様な実施形態によると、少なくとも１つのオーディオファイルのメタデータは、客体それぞれの位置情報、客体のうちの少なくとも２つの位置の組み合わせを示すグループ情報、または、現場の環境情報のうちの少なくとも１つを含んでよい。

多様な実施形態によると、プロセッサ５７０は、位置に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、プロセッサ５７０は、位置とオーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、プロセッサ５７０は、オーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。

多様な実施形態によると、プロセッサ５７０は、メタデータに基づいて、オーディオファイルをレンダリングしたり、オーディオファイルとメタデータをともに記録したり、オーディオファイルとメタデータをともに送信したりしてよい。

多様な実施形態によると、プロセッサ５７０は、オーディオファイルとメタデータをＰＣＭオーディオ信号で構成して、送信する段階を含んでよい。

多様な実施形態によると、メタデータは、ＰＣＭオーディオ信号のメタデータトラックに埋め込まれ、オーディオファイルとメタデータのエンコードに利用されるオーディオコデックスのフレームサイズに基づいてオーディオファイルと同期化され、ドリフト補正によるチャンネル間の補正が適用されないように生成されてメタデータトラックに記入され、１つのフレーム内に複数のセットで記入されてよい。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／または、ハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または、命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

本文書の多様な実施形態とこれに使用した用語は、本文書に記載された技術を特定の実施形態に対して限定しようとするものではなく、該当の実施例の多様な変更、均等物、および／または代替物を含むものと理解されなければならない。図面の説明に関し、類似の構成要素に対しては類似の参照符号を付与した。単数の表現は、文脈上で明らかに異なるように意味しない限り、複数の表現を含んでよい。本文書において、「ＡまたはＢ」、「Ａおよび／またはＢのうちの少なくとも１つ」、「Ａ、Ｂ、またはＣ」、または「Ａ、Ｂ、および／またはＣのうちの少なくとも１つ」などの表現は、ともに羅列された項目のすべての可能な組み合わせを含んでよい。「第１」、「第２」、「１番目」、または「２番目」などの表現は、該当の構成要素を順序または重要度に関係なく修飾してよく、ある構成要素を他の構成要素と区分するために使用されるものに過ぎず、該当の構成要素を限定するものではない。ある（例：第１）構成要素が他の（例：第２）構成要素に「（機能的にまたは通信的に）連結されて」いるとか「接続されて」いると言及されるときには、前記ある構成要素が前記他の構成要素に直接的に連結されてもよいし、他の構成要素（例：第３構成要素）を経て連結されてもよい。

本文書で使用された用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または１つまたはそれ以上の機能を実行する最小単位またはその一部となってよい。例えば、モジュールは、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）で構成されてよい。

多様な実施形態によると、上述した構成要素のそれぞれの構成要素（例：モジュールまたはプログラム）は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの１つ以上の構成要素または段階が省略されてもよいし、１つ以上の他の構成要素または段階が追加されてもよい。大体的にまたは追加的に、複数の構成要素（例：モジュールまたはプログラム）は、１つの構成要素として統合されてよい。この場合、統合された構成要素は、複数の構成要素それぞれの構成要素の１つ以上の機能を、統合前に複数の構成要素のうちの該当の構成要素によって実行されることと同一または類似に実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される段階は、順次的に、並列的に、反復的に、または発見的に実行されてもよいし、段階のうちの１つ以上が他の順序で実行されたり、省略されたり、または１つ以上の他の段階が追加されたりしてもよい。

１１０：コンピュータシステム
５１０：連結端子
５２０：通信モジュール
５３０：入力モジュール
５４０：表示モジュール
５５０：オーディオモジュール
５６０：メモリ
５６５：製作ツール
５７０：プロセッサ

Claims

コンピュータシステムによる方法であって、
現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれに生成する段階、
製作ツールを利用して、前記複数の客体それぞれに対して前記現場の空間的特徴をそれぞれに設定する段階、
前記空間的特徴に基づいて、それぞれの前記オーディオファイルのメタデータをそれぞれに生成する段階、および、
前記複数の客体それぞれの前記オーディオファイル、および、前記複数の客体それぞれの前記メタデータを電子装置に送信する段階、
を含み、
前記電子装置は、
前記複数の客体それぞれに対して生成される前記メタデータにおけるそれぞれの前記現場の空間的特徴を組み合わせたデータを利用して、それぞれの前記オーディオファイルを再生して、レンダリングすることにより、前記現場の臨場感を実現する、
方法。
前記空間的特徴をそれぞれ設定する段階は、
グラフィックインタフェースを出力する段階、
前記グラフィックインタフェースを利用した少なくとも１つの入力に基づいて、前記客体に対して前記空間的特徴をそれぞれ設定する段階、および
前記客体と関連して前記空間的特徴をそれぞれ記録する段階、
を含む、
請求項１に記載の方法。
前記メタデータは、
前記客体それぞれの位置情報、
前記客体のうちの少なくとも２つの位置の組み合わせを示すグループ情報、または、
前記現場の環境情報、
のうちの少なくとも１つを含む、
請求項１に記載の方法。
前記客体それぞれは、
楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
のうちの１つを含む、
請求項１に記載の方法。
前記グラフィックインタフェースは、
前記現場に位置する前記客体を表示するための第１領域、および
前記第１領域と同じ画面上に表示され、前記第１領域から選択される客体の位置を設定するための第２領域、
を含み、
前記空間的特徴をそれぞれ設定する段階は，
前記位置に基づいて、前記空間的特徴をそれぞれ設定する、
請求項２に記載の方法。
前記グラフィックインタフェースは、
前記第１領域と同じ画面上に表示され、前記第１領域から選択される客体のオーディオ効果を調整するための第３領域、
をさらに含み、
前記空間的特徴をそれぞれ設定する段階は、
前記位置と前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
請求項５に記載の方法。
前記グラフィックインタフェースは、
少なくとも１つの現場を表示するための第４領域、または
前記第４領域と同じ画面に表示され、前記第４領域から選択される現場と関連するオーディオ効果を調整するための第５領域、
のうちの少なくとも１つをさらに含み、
前記空間的特徴をそれぞれ設定する段階は、
前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
請求項５に記載の方法。
前記第４領域は、
前記第１領域と同じ領域に表示されるか、異なる領域に表示される、
請求項７に記載の方法。
前記方法は、
前記メタデータに基づいて前記オーディオファイルをレンダリングする段階、
前記オーディオファイルと前記メタデータをともに記録する段階、または
前記オーディオファイルと前記メタデータをともに送信する段階、
のうちの少なくとも１つをさらに含む、
請求項１に記載の方法。
前記オーディオファイルと前記メタデータをともに送信する段階は、
前記オーディオファイルと前記メタデータをＰＣＭ（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）オーディオ信号で構成して、送信する段階を含み、
前記メタデータは、
前記ＰＣＭオーディオ信号のメタデータトラック（ｍｅｔａｄａｔａｔｒａｃｋ）に埋め込まれ、
前記オーディオファイルと前記メタデータのエンコードに利用されるオーディオコーデックのフレームサイズに基づいて、前記オーディオファイルと同期化され、
ドリフト補正によるチャンネル間の補正が適用されないように生成されて、前記メタデータトラックに記入され、
１つのフレーム内に複数のセットで記入される、
請求項９に記載の方法。
請求項１～１０のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
請求項１～１０のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリ、および、
前記メモリと連結し、前記メモリに記録された少なくとも１つの命令を実行するように構成されたプロセッサ、を含み、
前記プロセッサは、
現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれに生成し、
製作ツールを利用して、前記複数の客体それぞれに対して前記現場の空間的特徴をそれぞれに設定し、
前記空間的特徴に基づいて、それぞれの前記オーディオファイルのメタデータをそれぞれに生成し、
前記複数の客体それぞれの前記オーディオファイル、および、前記複数の客体それぞれの前記メタデータを電子装置に送信する、
ように構成されており、
前記電子装置は、
前記複数の客体それぞれに対して生成される前記メタデータにおけるそれぞれの前記現場の空間的特徴を組み合わせたデータを利用して、それぞれの前記オーディオファイルを再生して、レンダリングすることにより、前記現場の臨場感を実現する、
ように構成される、
コンピュータシステム。
前記プロセッサは、
グラフィックインタフェースを出力し、
前記グラフィックインタフェースを利用した少なくとも１つの入力に基づいて、前記客体に対して前記空間的特徴をそれぞれ設定し、
前記客体と関連して前記空間的特徴をそれぞれ記録する、
ように構成される、
請求項１３に記載のコンピュータシステム。
前記メタデータは、
前記客体それぞれの位置情報、
前記客体のうちの少なくとも２つの位置の組み合わせを示すグループ情報、または、
前記現場の環境情報、
のうちの少なくとも１つを含む、
請求項１３に記載のコンピュータシステム。
前記客体それぞれは、
楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
のうちの１つを含む、
請求項１３に記載のコンピュータシステム。
前記グラフィックインタフェースは、
前記現場に位置する前記客体を表示するための第１領域、および、
前記第１領域と同じ画面上に表示され、前記第１領域から選択される客体の位置をそれぞれ設定するための第２領域、
を含み、
前記プロセッサは、
前記位置に基づいて、前記空間的特徴をそれぞれ設定する、
ように構成される、
請求項１４に記載のコンピュータシステム。
前記グラフィックインタフェースは、
前記第１領域と同じ画面上に表示され、前記第１領域から選択される客体のオーディオ効果を調整するための第３領域、
をさらに含み、
前記プロセッサは、
前記位置と前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
ように構成される、
請求項１７に記載のコンピュータシステム。
前記グラフィックインタフェースは、
少なくとも１つの現場を表示するための第４領域、または、
前記第４領域と同じ画面に表示され、前記第４領域から選択される現場と関連するオーディオ効果を調整するための第５領域、
のうちの少なくとも１つをさらに含み、
前記プロセッサは、
前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定するように構成される、
請求項１７に記載のコンピュータシステム。
前記第４領域は、
前記第１領域と同じ領域に表示されるか、異なる領域に表示される、
請求項１９に記載のコンピュータシステム。
前記プロセッサは、
前記メタデータに基づいて前記オーディオファイルをレンダリングし、
前記オーディオファイルと前記メタデータをともに記録し、
前記オーディオファイルと前記メタデータをともに送信する、
ように構成される、
請求項１３に記載のコンピュータシステム。
前記プロセッサは、
前記オーディオファイルと前記メタデータをＰＣＭ（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）オーディオ信号で構成して、送信し、
前記メタデータは、
前記ＰＣＭオーディオ信号のメタデータトラック（ｍｅｔａｄａｔａｔｒａｃｋ）に埋め込まれ、
前記オーディオファイルと前記メタデータのエンコードに利用されるオーディオコデックスのフレームサイズに基づいて、前記オーディオファイルと同期化され、
ドリフト補正によるチャンネル間の補正が適用されないように生成されて、前記メタデータトラックに記入され、
１つのフレーム内に複数のセットで記入される、
請求項２１に記載のコンピュータシステム。