JP2006333224A - Voice signal packet communication method, multipoint mixing method, voice signal packet receiving method, and system and apparatus using them - Google Patents
Voice signal packet communication method, multipoint mixing method, voice signal packet receiving method, and system and apparatus using them Download PDFInfo
- Publication number
- JP2006333224A JP2006333224A JP2005155892A JP2005155892A JP2006333224A JP 2006333224 A JP2006333224 A JP 2006333224A JP 2005155892 A JP2005155892 A JP 2005155892A JP 2005155892 A JP2005155892 A JP 2005155892A JP 2006333224 A JP2006333224 A JP 2006333224A
- Authority
- JP
- Japan
- Prior art keywords
- packet
- voice
- loss
- flag
- packet loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】多地点ミキシング部でパケットロスコンシールメント処理を行う方法では、多地点ミキシング部に過大な負荷がかかる可能性があった。
【解決手段】本発明においては、多地点ミキシング部までの上りにおけるパケットロスが発生したときに、多地点ミキシング部ではパケットロスコンシールメント処理は行わず、ミキシング後に送信する音声パケットに、「上りでパケットロスが発生した」旨を示すフラグを組み込んで受信側に送信する。受信側では、多地点ミキシング部からの下りにおけるパケットロスが発生した場合、および前記の「上りでパケットロスが発生した」旨を示すフラグを音声パケット内から検出した場合に、パケットロスコンシールメント処理を行う。
また、複数の送信元の中で、パケットロスが発生する直前に主話者であったパケットが紛失した場合にのみパケットロスフラグを組み込んで受信側に送信する。
【選択図】図6In a method of performing packet loss concealment processing in a multipoint mixing unit, an excessive load may be applied to the multipoint mixing unit.
In the present invention, when an upstream packet loss to a multipoint mixing unit occurs, the multipoint mixing unit does not perform packet loss concealment processing, A flag indicating that a packet loss has occurred is incorporated and transmitted to the receiving side. On the receiving side, packet loss concealment processing is performed when a packet loss occurs in the downstream from the multipoint mixing unit and when the flag indicating that “packet loss has occurred in the upstream” is detected from within the voice packet. I do.
Also, a packet loss flag is incorporated and transmitted to the receiving side only when a packet that was the main speaker is lost immediately before packet loss occurs among a plurality of transmission sources.
[Selection] Figure 6
Description
この発明は、ディジタル化された音声・音楽などの音響信号(以下、総称して「音声信号」という。)を、インターネットをはじめとするパケット通信網を介して送信する際に、パケット紛失対策をした通信方法、多地点ミキシング方法、受信方法、これらのシステムと装置に関する。 The present invention provides a countermeasure for packet loss when digitalized audio signals such as voice and music (hereinafter collectively referred to as “voice signals”) are transmitted via a packet communication network such as the Internet. The present invention relates to a communication method, a multipoint mixing method, a reception method, and a system and apparatus thereof.
音声信号をボイスオーバ(Voice over)IP(インターネットプロトコル)技術を利用して送信するサービスが普及しつつある。図1に示すように入力端子11よりの音声信号を音声信号送信部12で音声パケットに変換してIP網をはじめとするパケット通信網13によって音声信号受信部14へ送信し、音声信号受信部14により音声パケットを復号して再生音声を出力端子15へ出力する。これをリアルタイム通信する場合、通信網13の状態によっては通信網の途中においてパケットロス(紛失)が生じ、それによって再生音声が途切れるといった品質劣化が問題となっている。特に、インターネットなどのベストエフォートと呼ばれる通信サービスの場合には、パケットロスを許容しているため通信網の混雑時に特にこの問題が顕著である。
Services that transmit voice signals using Voice over IP (Internet Protocol) technology are becoming popular. As shown in FIG. 1, a voice signal from an input terminal 11 is converted into a voice packet by a
そこで、音声信号をパケット通信網で通信する場合には、パケットロスコンシールメントと呼ばれる手法を用いる。この手法は、パケットが通信路の途中で消失した場合や通信路の遅延によって制限時間内に受信側に届かなかった場合に、消失または届かなかったパケット(以下、「ロスパケット」又は「紛失パケット」という。)に対応する区間の音声信号を受信側で推定して補償する方法が用いられる。図2は、図1における音声信号送信部12の一般的な構成例である。入力音声は入力バッファ21に蓄えられ、フレームと呼ばれる一定の時間ごとに区切って音声パケット化部22に送られる。音声パケット化部22は、前記フレーム化された音声を音声符号化の手法を用いて音声符号に変換し、音声パケットを生成して、パケット送出部23に送る。パケット送出部23よりパケット通信網に音声パケットを送出する。なお、1フレームの時間長は一般には、10ミリ秒から20ミリ秒程度とすることが多い。また、音声符号化の手法には、ITU−T G.711方式など、任意の符号化方式を用いてよく、PCM(パルス符号変調)信号の形式でもよい。
Therefore, when voice signals are communicated via a packet communication network, a technique called packet loss concealment is used. This method is used when a packet is lost in the middle of a communication path or when it has not arrived at the receiving side within a limited time due to a delay in the communication path (hereinafter referred to as “lost packet” or “lost packet”). "). The method of estimating and compensating the speech signal in the section corresponding to") on the receiving side is used. FIG. 2 is a general configuration example of the audio
図3は、図1における音声信号受信部14の一般的な構成例である。パケット通信網からパケット受信部31で受信した音声パケットは、ゆらぎ吸収バッファとも呼ばれる受信バッファ32に蓄えられる。正しくパケットが受信されたフレームについては、受信バッファから音声パケットが取り出され、音声パケット復号部33で音声信号に復号され、パケットロスしたフレームについては、紛失信号生成部34でパケットロスコンシールメント処理を行って音声信号が生成され、生成された音声信号が出力される。パケットロスコンシールメントの処理に、ピッチ周期(音声の基本周波数に相当する時間軸上での長さ)の情報を利用する場合には、出力音声信号を出力音声バッファ35に蓄え、ピッチ抽出部36でピッチ分析し、得られたピッチ周期の値を紛失信号生成部34に供給する。紛失信号生成部34で生成された信号は切替スイッチ37を通じて出力端子15へ出力され、パケットロスがない場合は音声パケット復号部33よりの復号音声信号が切替スイッチ37を通じて出力端子15へ出力される。ここで、紛失信号生成部34、出力音声バッファ35およびピッチ抽出部36によって、パケットロスコンシールメントは構成される。なお、双方向で音声通信を行う通信端末は、各端末に送信部と受信部の両方を具備する。
FIG. 3 is a general configuration example of the audio signal receiving unit 14 in FIG. Voice packets received by the
パケットロスコンシールメントの代表的な方法としては、非特許文献1や非特許文献2に示す方法などがある。非特許文献1に示す方法は、よく知られている方法であり、音声のピッチ周期をパケットロスコンシールメントに利用している。
パケットロスコンシールメントは、パケットロスが発生した場合に、受信側の再生音声の聴感上の劣化を感じにくくする有効な方法である。たとえば、図1の形態で、音声信号受信部にその機能を実装したり、音声信号送信部であらかじめ冗長な情報をつけて送り、音声信号受信部でより再生音声の劣化の少ない処理を実装したりする。一般に、図1の形態でパケットロスコンシールメントを実装することは、処理量の観点で問題となることはない。
As a typical method of packet loss concealment, there are methods shown in Non-Patent Document 1 and Non-Patent Document 2. The method shown in Non-Patent Document 1 is a well-known method, and uses the pitch period of voice for packet loss concealment.
Packet loss concealment is an effective method for making it difficult to perceive deterioration in the audibility of the playback sound on the receiving side when packet loss occurs. For example, in the form of FIG. 1, the function is implemented in the audio signal receiving unit, or the audio signal transmitting unit adds redundant information in advance, and the audio signal receiving unit implements processing with less deterioration of the reproduced audio. Or In general, mounting the packet loss concealment in the form of FIG. 1 does not cause a problem in terms of processing amount.
次に、複数の音声通信装置間で多地点通信を行う場合を示す。一般的には、多地点通信の場合には、図4に示すように多地点ミキシング部100を用意し、各音声通信装置200A〜Dからの送信信号を多地点ミキシング部100で合成して各音声通信装置200A〜Dに送る。音声通信装置200A〜Cの音声信号送信部300A〜Cから送出された音声パケットを、音声通信装置200Dの音声信号受信部400Dが受取る場合の流れを、図5に示す。音声信号送信部300A、音声信号送信部300B、音声信号送信部300Cがそれぞれ音声パケットをIP通信網13を介して、多地点ミキシング部100(多地点ミキシングサーバとも呼ぶ。)に送る。多地点ミキシング部100は音声パケットA、音声パケットB、音声パケットCをそれぞれ復号し、ミキシング(復号音声の加算)を行った後、符号化しなおして音声信号受信部400DにIP通信網13を介して音声パケットMを送る。この場合に、音声信号送信部300A、音声信号送信部300B、あるいは音声信号送信部300Cから多地点ミキシング部100の間でのパケットロス(以下、「多地点ミキシング部までの上りにおけるパケットロス」という。)が発生する。また、多地点ミキシング部100から音声信号受信部400Dの間にもパケットロス(以下、「多地点ミキシング部からの下りにおけるパケットロス」という。)が発生する。従来は、多地点ミキシング部までの上りにおけるパケットロスへの対策として、多地点ミキシング部100にパケットロスコンシールメントの機能を実装し、多地点ミキシング部からの下りにおけるパケットロスへの対策として、音声信号受信部400にパケットロスコンシールメントの機能を実装していた。なお、図5は音声信号送信部300A〜Cの3地点の例であるが、4地点以上の多地点音声通信の場合もある。
多地点ミキシング部までの上りにおけるパケットロスが発生したときに、多地点ミキシング部(サーバ)でパケットロスコンシールメント処理を行う従来の方法においては、例えば、複数の地点からのパケットが同時にロスした場合に、多地点ミキシングサーバにかかるパケットロスコンシールメント処理の負荷が増大するという問題がある。すなわち、図1に示した1対1の通信の場合のパケットロスコンシールメント処理の負荷を1とすると、例えば多地点ミキシング部までの上りでN地点分のパケットが同時にロスしたとすると、サーバにかかる負荷はNとなる。多地点接続の地点数が増えるほど、また、1台のサーバで処理する多地点接続の組(多地点会議の数とも呼ぶ)が多いほど、多地点ミキシング部(サーバ)に過大な負荷がかかる可能性があった。 In the conventional method in which packet loss concealment processing is performed in the multipoint mixing unit (server) when packet loss in the upstream to the multipoint mixing unit occurs, for example, when packets from multiple points are lost simultaneously In addition, there is a problem that the load of packet loss concealment processing applied to the multipoint mixing server increases. That is, assuming that the load of packet loss concealment processing in the case of one-to-one communication shown in FIG. Such a load is N. As the number of multipoint connection points increases and the number of multipoint connection groups (also called the number of multipoint conferences) processed by one server increases, the load on the multipoint mixing unit (server) increases. There was a possibility.
本発明においては、多地点ミキシング部までの上りにおけるパケットロスが発生したときに、多地点ミキシング部(サーバ)ではパケットロスコンシールメント処理は行わず、ミキシング後に送信する音声パケットに、「上りでパケットロスが発生した」旨を示すフラグ(以下、「パケットロスフラグ」という。)を組み込んで受信側に送信する。受信側では、多地点ミキシング部からの下りにおけるパケットロスが発生した場合、および前記の「上りでパケットロスが発生した」旨を示すフラグを音声パケット内から検出した場合に、そのパケットは(実際には受信されていても)ロスしたものとみなしてパケットロスコンシールメント処理を行う。 In the present invention, when an upstream packet loss to the multi-point mixing unit occurs, the multi-point mixing unit (server) does not perform the packet loss concealment process, A flag indicating that “loss has occurred” (hereinafter referred to as “packet loss flag”) is incorporated and transmitted to the receiving side. On the receiving side, when a packet loss occurs in the downstream from the multipoint mixing unit, and when the flag indicating that “packet loss has occurred in the upstream” is detected from within the voice packet, the packet is Packet loss concealment processing is performed on the assumption that the packet is lost.
また、複数の送信元の中で、パケットロスが発生する直前に主話者であったパケットが紛失した場合にのみパケットロスフラグを組み込んで受信側に送信する。 Also, a packet loss flag is incorporated and transmitted to the receiving side only when a packet that was the main speaker is lost immediately before packet loss occurs among a plurality of transmission sources.
本発明によれば、多地点ミキシング部までの上りにおいてパケットロスが発生したときでも、多地点ミキシング部(サーバ)の負荷が高くなることなく、受信側で聴感上の音質劣化の少ない音声を再生することができる。また、主話者でない送信元のパケットが紛失した場合には、受信側でパケットロスコンシールメント処理を行わないので、通話品質に影響が少ない処理を削減できる。 According to the present invention, even when a packet loss occurs up to the multi-point mixing unit, the multi-point mixing unit (server) does not increase the load, and the reception side reproduces sound with less sound quality deterioration on the perception. can do. In addition, when a packet of a transmission source that is not the main speaker is lost, the packet loss concealment process is not performed on the receiving side, so that it is possible to reduce the process with little influence on the call quality.
本発明は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。
[第1実施形態]
図6に、本発明の多地点ミキシング部の構成例を示す。また、多地点ミキシング部の処理フローを図7に示す。多地点ミキシング部100は、音声パケットを受信するパケット受信部31、受信したパケットを一時的に蓄積する受信バッファ32、パケットロスの発生を検出するパケットロス検出部110、受信した音声パケットの中で主に話している話者のパケットがどれかを判定する主話者判定部120、パケットロスフラグを生成するパケットロスフラグ生成部140、音声パケットに含まれる音声符号を音声波形に復号する音声波形復号部130、音声信号を加算する加算部150、音声波形を符号化する音声波形符号化部160、音声符号とパケットロスフラグをパケットに組み込むパケット化部170、パケットを送信するパケット送出部23から構成されている。図6は図5と同様に、3地点から音声パケットを受けてミキシングを行い、ミキシング結果の音声パケットを1地点に送信する例であるが、送信元地点は4地点以上でもよく、送信先は2地点以上でも、送信元と同じ地点でもよい。また、一般的に、多地点音声通信会議では送信元にミキシング結果を戻す。
The present invention can be executed as a computer main body and a computer program, or can be realized by being mounted on a digital signal processor or a dedicated LSI.
[First Embodiment]
In FIG. 6, the structural example of the multipoint mixing part of this invention is shown. Moreover, the processing flow of a multipoint mixing part is shown in FIG. The
音声パケットA〜Cは、それぞれのパケット受信部31で受信され(S31)、受信バッファ32に蓄えられる(S32)。蓄えられた音声信号は、パケットの順番に従って音声波形復号部130A〜Cで、音声信号に復号される(S130)。加算部150では、復号された音声信号が加算され(S150)、音声波形符号化部160で再度符号化される。多地点ミキシング部までの上りにおけるパケットロスが発生したときには、各音声波形復号部は、ゼロの信号(無音)を出力することとする。これは、パケットロスの発生していない地点の音声のみを復号して加算することと等しい。
The voice packets A to C are received by the respective packet receivers 31 (S31) and stored in the reception buffer 32 (S32). The stored audio signals are decoded into audio signals by the audio
パケットロス検出部110は、各地点からの音声パケットの受信状態を監視し、パケットロスが発生したかを判断する(S111)。主話者判定部120は、音声パケットA〜Cに含まれる情報を用いて、その時刻での送信地点A〜Cのどの話者が主として発言しているかを時々刻々判断する(S121)。「主として発言している」とは、例えば地点Bの話者のみが発言中で、他の2地点の話者が発言していなければ、主として発言している地点はBであり、主たる音声パケットは音声パケットBである。同時に2名以上が発言している場合には、音声の大きさや発言の継続状態から、いずれが主たる発言者であるかを判断する。
The packet
なお、「音声パケットA〜Cに含まれる情報を用いて」とは、パケットに含まれる音声符号を分析して判断してもよい。もしくは、音声パケットA〜Cにあらかじめ送信側から主たる発言者を決定するための付加的な情報が含まれていれば、その付加的な情報を用いて判断してもよい。サーバ負荷軽減の観点でいえば、後者の方が望ましい。送信側であらかじめ主たる発言者を決定するための付加的な情報、例えば、音声区間か非音声区間かの識別子や、パワの情報をパケットに組み込む方法がある。 Note that “using information contained in voice packets A to C” may be determined by analyzing a voice code contained in the packet. Alternatively, if the voice packets A to C include additional information for determining the main speaker from the transmission side in advance, the determination may be made using the additional information. From the viewpoint of server load reduction, the latter is preferable. There is a method in which additional information for determining a main speaker in advance on the transmission side, for example, an identifier of a voice section or a non-voice section, or power information is incorporated into a packet.
パケットロスフラグ生成部140では、パケットロス検出部110で、音声パケットA〜Cのいずれか、または複数のパケットでロスが検出された場合(S112)、かつ、直前の時刻に、当該パケットロスが検出された地点が主たる発言者であった場合(S122)(例えば、直前の時刻において地点Bが主たる発言者であったとして、次の時刻に音声パケットBがロスであると判定された場合)、パケットロスフラグとして例えば1をセットし(S141)、それ以外では0をセットする(S142)。それ以外の例としては、主たる発言者が地点Aで、音声パケットCがロスであった場合や、全地点のパケットがすべてロスでない場合が該当する。なお、音声のパケット通信においては、音声を10ミリ秒から20ミリ秒程度のフレー一ムと呼ばれる区間に区切り、音声符号化した後パケットにして送信するのが一般的であるため、「時刻」とはフレーム単位の時刻順序を示す。また、時刻順序は一般にパケットのヘッダにタイムスタンプとして記録されている。
In the packet loss
パケット化部170は、音声波形符号化部160の出力である音声符号と、パケットロスフラグ生成部140の出力であるパケットロスフラグの情報を組合せて1つのパケットを生成し(S170)、パケット送出部23が音声パケットMを送信する(S23)。
図8に、本発明における音声信号受信部の構成例を示す。また、図9に音声信号受信部の処理フローを示す。音声信号受信部400は、音声パケットを受信するパケット受信部31、受信したパケットを一時的に蓄積する受信バッファ32、パケットロスの発生を検出するパケットロス検出部410、パケットロスが発生したことを示すパケットロスフラグを検出するパケットロスフラグ検出部420、パケットロスコンシールメント430、音声波形復号部440、出力音声を選択するスイッチ部460、スイッチを制御するOR部450から構成される。受信した音声パケットMは、パケット受信部31で受信され(S31)、受信バッファ部32に蓄積される(S32)。蓄積された音声パケットに含まれる音声符号は、パケットのタイムスタンプの順番に従って音声波形復号部440で音声波形に復号される(S440)。スイッチ部460は、通常時は音声波形復号部440側にセットされており(S461)、音声波形復号部440の出力音声が、音声信号受信部の出力として出力される。
The
FIG. 8 shows a configuration example of the audio signal receiving unit in the present invention. FIG. 9 shows a processing flow of the audio signal receiving unit. The audio
パケットロス検出部410は、音声パケットの受信状態を監視し(S411)、パケットロスが発生したか発生していないかを判断する(S412)。パケットロスフラグ検出部420は、音声パケットに組み込まれたパケットロスフラグを監視し(S421)、それがパケットロス状態を示しているかどうかを判断する(S422)。OR部450は、パケットロス検出部410によってパケットロスが検出されたか、パケットロスフラグ検出部420において当該パケットからパケットロス状態を示すパ
ケットロスフラグが検出されたかのいずれかの場合に、スイッチ部460をパケットロスコンシールメント側に切り替える(S462)。
The packet
パケットロスコンシールメント430は、図3に示した従来法と同様の方法でよい(S430)。つまり、紛失信号生成部34、出力音声バッファ35およびピッチ抽出部36から構成されればよい。なお、パケットロスコンシールメントの従来技術としては、出力音声をバッファに蓄えて利用したり、入力の音声パケットMに組み込まれた冗長な情報を抽出して利用したりする場合がある。
The
このように本発明における多地点ミキシング部や音声信号受信部の構成を用いることによって、多地点ミキシング部までの上りにおけるパケットロスが発生したときでも、多地点ミキシング部は、「上りでパケットロスが発生した」という情報を加えるだけである。パケットロスコンシールメントの処理は、上りでパケットロスが発生した場合も、下りでパケットロスが発生した場合も、音声信号受信部(受信側端末)で実施することになる。したがって、多地点ミキシング部の負荷が高くなることなく、上りでパケットロスが発生した場合でも、聴感上の音質劣化の少ない音声を再生することができる。 As described above, by using the configuration of the multipoint mixing unit and the audio signal receiving unit in the present invention, even when packet loss in the upstream to the multipoint mixing unit occurs, the multipoint mixing unit It just adds the information that it has occurred. The packet loss concealment process is performed by the audio signal receiving unit (receiving terminal) regardless of whether a packet loss occurs in the upstream or a packet loss occurs in the downstream. Therefore, even when a packet loss occurs in the uplink without increasing the load on the multipoint mixing unit, it is possible to reproduce sound with little deterioration in sound quality on hearing.
本発明においては、多地点ミキシング部で「主たる発話地点」と判定した地点以外の上りパケットがロスした場合には、パケットロスコンシールメント処理は行われない。これは、発言していない地点のパケットがロスしても、聴感上の音質には大きな影響を与えないからである。 In the present invention, the packet loss concealment process is not performed when an uplink packet other than the point determined as the “main utterance point” by the multipoint mixing unit is lost. This is because even if a packet at a point where speech is not made is lost, the sound quality on hearing is not greatly affected.
IP通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で信頼性の高い多地点音声通信(多地点音声通信会議)が実現できる。 Usage forms for performing voice communication on an IP communication network have become widespread, and by applying the present invention, low-cost and highly reliable multipoint voice communication (multipoint voice communication conference) can be realized.
Claims (10)
送信部で、
音声信号をフレームと呼ばれる一定時間ごとに区切ってフレーム音声信号を生成する過程と、
前記フレーム音声信号を音声符号に変換し、パケットに格納して送信する過程と、
多地点ミキシング部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出過程と、
音声符号を音声波形に復号する過程と、
復号された音声波形を加算する過程と、
加算された音声波形を符号化して加算音声符号を生成する過程と、
受信部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出過程と、
を有する音声信号パケット通信方法において、
前記多地点ミキシング部で、
前記紛失検出過程でパケットロスが発生したと判断された場合に、パケットロスを示すフラグ(以下、「パケットロスフラグ」という。)を生成するパケットロスフラグ生成過程と、
前記パケットロスフラグと前記加算音声符号をパケットに格納して送信するパケット化過程と、
前記受信部で、
前記パケットロスフラグが受信したパケットに含まれていないか判断するフラグ判断過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されていると判定された場合、かつ前記フラグ判定過程で、前記パケットロスフラグが当該パケットに含まれていないと判定された場合には、受信バッファに格納されている当該パケットから音声符号を取り出して音声波形に復号し、フレーム出力音声信号とする音声パケット復号過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音声信号を含むパケットが受信バッファに格納されていないと判定された場合、または前記フラグ判定過程で、前記パケットロスフラグが当該パケットに含まれていると判定された場合には、パケットロスコンシールメントを行う紛失処理過程と、
前記音声パケット復号過程または前記紛失処理過程から出力されたフレーム出力音声信号を連結して出力する過程とを有する
ことを特徴とする音声信号パケット通信方法。 When performing multipoint voice packet communication between two or more communication devices including at least a transmission unit and one or more communication devices including at least a reception unit,
In the transmitter,
A process of generating a frame audio signal by dividing the audio signal at regular intervals called frames,
Converting the frame audio signal into an audio code, storing it in a packet and transmitting it;
In the multi-point mixing section,
Storing received packets in the receive buffer;
The process of specifying the frame number to be extracted;
A loss detection process for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer;
Decoding speech code into speech waveform;
Adding the decoded speech waveform; and
Encoding the added speech waveform to generate an added speech code;
In the receiver,
Storing received packets in the receive buffer;
The process of specifying the frame number to be extracted;
A loss detection process for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer;
A voice signal packet communication method comprising:
In the multipoint mixing section,
A packet loss flag generation process for generating a flag indicating packet loss (hereinafter referred to as a “packet loss flag”) when it is determined that a packet loss has occurred in the loss detection process;
A packetizing process for storing the packet loss flag and the added voice code in a packet and transmitting the packet;
In the receiving unit,
A flag determination process for determining whether the packet loss flag is not included in the received packet;
When it is determined in the loss detection process that a packet including a voice code corresponding to the frame number to be extracted is stored in the reception buffer, and in the flag determination process, the packet loss flag is included in the packet. If it is determined that it is not, a voice packet decoding process for extracting a voice code from the packet stored in the reception buffer and decoding it into a voice waveform to be a frame output voice signal;
When it is determined in the loss detection process that a packet including a frame audio signal corresponding to the frame number to be extracted is not stored in the reception buffer, or in the flag determination process, the packet loss flag is included in the packet If it is determined that the packet has been lost, a loss process that performs packet loss concealment, and
A voice signal packet communication method comprising: connecting and outputting frame output voice signals output from the voice packet decoding step or the loss processing step.
前記多地点ミキシング部で、
取り出された複数の前記送信部からの音声符号から、主話者を判定する主話者判定過程と、
前記紛失検出過程でパケットロスが発生したと判断され、かつ前記主話者判定過程でパケットロス発生の直前のフレームで主話者であった送信部からのパケットと判断された場合にのみ、パケットロスフラグを生成する前記パケットロスフラグ生成過程とを有する
ことを特徴とする音声信号パケット通信方法。 The voice signal packet communication method according to claim 1,
In the multipoint mixing section,
A main speaker determination process for determining a main speaker from the extracted voice codes from the plurality of transmitters,
Only when it is determined that a packet loss has occurred in the loss detection process and in the main speaker determination process, it is determined that the packet is from the transmitter that was the main speaker in the frame immediately before the occurrence of the packet loss. A voice signal packet communication method comprising: the packet loss flag generation step of generating a loss flag.
多地点ミキシング部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出過程と、
音声符号を音声波形に復号する過程と、
復号された音声波形を加算する過程と、
加算された音声波形を符号化して加算音声符号を生成する過程とを有する
音声信号パケットの多地点ミキシング方法において、
前記多地点ミキシング部で、
前記紛失検出過程でパケットロスが発生したと判断された場合に、パケットロスフラグを生成するパケットロスフラグ生成過程と、
前記パケットロスフラグと前記加算音声符号をパケットに格納して送信するパケット化過程とを有する
ことを特徴とする多地点ミキシング方法。 When performing multipoint voice packet communication between two or more communication devices including at least a transmission unit and one or more communication devices including at least a reception unit,
In the multi-point mixing section,
Storing received packets in the receive buffer;
The process of specifying the frame number to be extracted;
A loss detection process for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer;
Decoding speech code into speech waveform;
Adding the decoded speech waveform; and
In a multipoint mixing method for voice signal packets, the method comprising: encoding a summed voice waveform to generate a summed voice code;
In the multipoint mixing section,
A packet loss flag generation process for generating a packet loss flag when it is determined that a packet loss has occurred in the loss detection process;
A multipoint mixing method, comprising: a packetization process in which the packet loss flag and the added voice code are stored in a packet and transmitted.
前記多地点ミキシング部で、
取り出された複数の前記送信部からの音声符号から、主話者を判定する主話者判定過程と、
前記紛失検出過程でパケットロスが発生したと判断され、かつ前記主話者判定過程でパケットロス発生の直前のフレームで主話者であった送信部からのパケットと判断された場合にのみ、パケットロスフラグを生成する前記パケットロスフラグ生成過程とを有する
ことを特徴とする多地点ミキシング方法。 A multipoint mixing method for voice signal packets according to claim 3,
In the multipoint mixing section,
A main speaker determination process for determining a main speaker from the extracted voice codes from the plurality of transmitters,
Only when it is determined that a packet loss has occurred in the loss detection process and in the main speaker determination process, it is determined that the packet is from the transmitter that was the main speaker in the frame immediately before the occurrence of the packet loss. And a packet loss flag generation process for generating a loss flag.
受信部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出過程と、
を有する音声信号パケット受信方法において、
前記受信部で、
パケットロスフラグが受信したパケットに含まれていないか判断するフラグ判断過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されていると判定された場合、かつ前記フラグ判定過程で、前記パケットロスフラグが当該パケットに含まれていないと判定された場合には、受信バッファに格納されている当該パケットから音声符号を取り出して音声波形に復号し、フレーム出力音声信号とする音声パケット復号過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音声信号を含むパケットが受信バッファに格納されていないと判定された場合、または前記フラグ判定過程で、前記パケットロスフラグが当該パケットに含まれていると判定された場合には、パケットロスコンシールメントを行う紛失処理過程と、
前記音声パケット復号過程または前記紛失処理過程から出力されたフレーム出力音声信号を連結して出力する過程とを有する
ことを特徴とする音声信号パケット受信方法。 When performing multipoint voice packet communication between two or more communication devices including at least a transmission unit and one or more communication devices including at least a reception unit,
In the receiver,
Storing received packets in the receive buffer;
The process of specifying the frame number to be extracted;
A loss detection process for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer;
In a voice signal packet receiving method having:
In the receiving unit,
A flag determination process for determining whether a packet loss flag is included in the received packet;
When it is determined in the loss detection process that a packet including a voice code corresponding to the frame number to be extracted is stored in the reception buffer, and in the flag determination process, the packet loss flag is included in the packet. If it is determined that it is not, a voice packet decoding process for extracting a voice code from the packet stored in the reception buffer and decoding it into a voice waveform to be a frame output voice signal;
When it is determined in the loss detection process that a packet including a frame audio signal corresponding to the frame number to be extracted is not stored in the reception buffer, or in the flag determination process, the packet loss flag is included in the packet If it is determined that the packet has been lost, a loss process that performs packet loss concealment, and
A voice signal packet receiving method comprising: connecting and outputting frame output voice signals output from the voice packet decoding step or the loss processing step.
送信部に、
音声信号をフレームと呼ばれる一定時間ごとに区切ってフレーム音声信号を生成する手段と、
前記フレーム音声信号を音声符号に変換し、パケットに格納して送信する手段とを備え、
多地点ミキシング部に、
受信したパケットを受信バッファに蓄える手段と、
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出手段と、
音声符号を音声波形に復号する手段と、
復号された音声波形を加算する手段と、
加算された音声波形を符号化して加算音声符号を生成する手段とを備え、
受信部に、
受信したパケットを受信バッファに蓄える手段と、
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出手段とを備える
音声信号パケット通信システムにおいて、
前記多地点ミキシング部に、
前記紛失検出手段でパケットロスが発生したと判断された場合に、パケットロスフラグを生成するパケットロスフラグ生成手段と、
前記パケットロスフラグと前記加算音声符号をパケットに格納して送信するパケット化手段とを備え、
前記受信部に、
前記パケットロスフラグが受信したパケットに含まれていないか判断するフラグ判断手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されていると判定された場合、かつ前記フラグ判定手段で、前記パケットロスフラグが当該パケットに含まれていないと判定された場合には、受信バッファに格納されている当該パケットから音声符号を取り出して音声波形に復号し、フレーム出力音声信号とする音声パケット復号手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音声信号を含むパケットが受信バッファに格納されていないと判定された場合、または前記フラグ判定手段で、前記パケットロスフラグが当該パケットに含まれていると判定された場合には、パケットロスコンシールメントを行う紛失処理手段と、
前記音声パケット復号手段または前記紛失処理手段から出力されたフレーム出力音声信号を連結して出力する手段とを備える
ことを特徴とする音声信号パケット通信システム。 When performing multipoint voice packet communication between two or more communication devices including at least a transmission unit and one or more communication devices including at least a reception unit,
In the transmitter,
Means for generating a frame audio signal by dividing the audio signal at regular intervals called frames;
Means for converting the frame audio signal into an audio code, storing it in a packet and transmitting it;
In the multi-point mixing section,
Means for storing received packets in a reception buffer;
Means for specifying the frame number to be extracted;
Lost detection means for determining whether or not a packet including a voice code corresponding to the frame number to be extracted is stored in the reception buffer;
Means for decoding a speech code into a speech waveform;
Means for adding the decoded speech waveform;
Means for encoding the added speech waveform to generate an added speech code;
In the receiver,
Means for storing received packets in a reception buffer;
Means for specifying the frame number to be extracted;
In the voice signal packet communication system, comprising: loss detection means for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer.
In the multipoint mixing section,
A packet loss flag generating means for generating a packet loss flag when it is determined by the loss detecting means that a packet loss has occurred;
Packetizing means for storing the packet loss flag and the added voice code in a packet and transmitting the packet;
In the receiver,
Flag determining means for determining whether the packet loss flag is not included in the received packet;
When it is determined by the loss detection means that a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer, and the packet loss flag is included in the packet by the flag determination means If it is determined that the packet is not, a voice packet decoding unit that extracts a voice code from the packet stored in the reception buffer, decodes the voice code into a voice waveform, and generates a frame output voice signal;
The packet loss flag is included in the packet when the loss detection unit determines that the packet including the frame audio signal corresponding to the frame number to be taken out is not stored in the reception buffer, or the flag determination unit includes If it is determined that the packet is lost, a loss processing means for performing packet loss concealment,
A voice signal packet communication system comprising: a frame output voice signal output from the voice packet decoding means or the loss processing means.
前記多地点ミキシング部に、
取り出された複数の前記送信部からの音声符号から、主話者を判定する主話者判定手段と、
前記紛失検出手段でパケットロスが発生したと判断され、かつ前記主話者判定手段でパケットロス発生の直前のフレームの主話者であった送信部からのパケットと判断された場合にのみ、パケットロスフラグを生成する前記パケットロスフラグ生成手段とを備える
ことを特徴とする音声信号パケット通信システム。 The voice signal packet communication system according to claim 6,
In the multipoint mixing section,
A main speaker determination means for determining a main speaker from the extracted voice codes from the plurality of transmitters;
Only when it is determined that a packet loss has occurred in the loss detection means and the main speaker determination means determines that the packet is from the transmitter that was the main speaker of the frame immediately before the occurrence of the packet loss, the packet The voice signal packet communication system, comprising: the packet loss flag generation means for generating a loss flag.
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出手段と、
音声符号を音声波形に復号する手段と、
復号された音声波形を加算する手段と、
加算された音声波形を符号化して加算音声符号を生成する手段とを備える
音声信号パケットの多地点ミキシング装置において、
前記紛失検出手段でパケットロスが発生したと判断された場合に、パケットロスフラグを生成するパケットロスフラグ生成手段と、
前記パケットロスフラグと前記加算音声符号をパケットに格納して送信するパケット化手段とを備える
ことを特徴とする多地点ミキシング装置。 Means for storing received packets in a reception buffer;
Means for specifying the frame number to be extracted;
Lost detection means for determining whether or not a packet including a voice code corresponding to the frame number to be extracted is stored in the reception buffer;
Means for decoding a speech code into a speech waveform;
Means for adding the decoded speech waveform;
A multipoint mixing apparatus for voice signal packets, comprising: means for encoding the added voice waveform to generate an added voice code;
A packet loss flag generating means for generating a packet loss flag when it is determined by the loss detecting means that a packet loss has occurred;
A multipoint mixing apparatus comprising: packetizing means for storing the packet loss flag and the added voice code in a packet and transmitting the packet.
取り出された複数の前記送信部からの音声符号から、主話者を判定する主話者判定手段と、
前記紛失検出手段でパケットロスが発生したと判断され、かつ前記主話者判定手段でパケットロス発生の直前のフレームの主話者であった送信部からのパケットと判断された場合にのみ、パケットロスフラグを生成する前記パケットロスフラグ生成手段とを備える
ことを特徴とする多地点ミキシング装置。 The multipoint mixing apparatus according to claim 8, wherein
A main speaker determination means for determining a main speaker from the extracted voice codes from the plurality of transmitters;
Only when it is determined that a packet loss has occurred in the loss detection means and the main speaker determination means determines that the packet is from the transmitter that was the main speaker of the frame immediately before the occurrence of the packet loss, the packet The multipoint mixing apparatus, comprising: the packet loss flag generation means for generating a loss flag.
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されているか、格納されていないかを判定する紛失検出手段とを備える
音声信号パケット受信装置において、
パケットロスフラグが受信したパケットに含まれていないか判断するフラグ判断手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応する音声符号を含むパケットが受信バッファに格納されていると判定された場合、かつ前記フラグ判定手段で、前記パケットロスフラグが当該パケットに含まれていないと判定された場合には、受信バッファに格納されている当該パケットから音声符号を取り出して音声波形に復号し、フレーム出力音声信号とする音声パケット復号手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音声信号を含むパケットが受信バッファに格納されていないと判定された場合、または前記フラグ判定手段で、前記パケットロスフラグが当該パケットに含まれていると判定された場合には、パケットロスコンシールメントを行う紛失処理手段と、
前記音声パケット復号手段または前記紛失処理手段から出力されたフレーム出力音声信号を連結して出力する手段とを備える
ことを特徴とする音声信号パケット受信装置。
Means for storing received packets in a reception buffer;
Means for specifying the frame number to be extracted;
In the voice signal packet receiving apparatus, comprising: loss detection means for determining whether or not a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer.
Flag determining means for determining whether or not a packet loss flag is included in the received packet;
When it is determined by the loss detection means that a packet including a voice code corresponding to the frame number to be taken out is stored in the reception buffer, and the packet loss flag is included in the packet by the flag determination means If it is determined that the packet is not, a voice packet decoding unit that extracts a voice code from the packet stored in the reception buffer, decodes the voice code into a voice waveform, and generates a frame output voice signal;
The packet loss flag is included in the packet when the loss detection unit determines that the packet including the frame audio signal corresponding to the frame number to be taken out is not stored in the reception buffer, or the flag determination unit includes If it is determined that the packet is lost, a loss processing means for performing packet loss concealment,
A voice signal packet receiving apparatus comprising: a means for concatenating and outputting frame output voice signals output from the voice packet decoding means or the loss processing means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005155892A JP4403103B2 (en) | 2005-05-27 | 2005-05-27 | Voice signal packet communication method, multipoint mixing method, and system and apparatus using them |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005155892A JP4403103B2 (en) | 2005-05-27 | 2005-05-27 | Voice signal packet communication method, multipoint mixing method, and system and apparatus using them |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006333224A true JP2006333224A (en) | 2006-12-07 |
JP4403103B2 JP4403103B2 (en) | 2010-01-20 |
Family
ID=37554413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005155892A Expired - Fee Related JP4403103B2 (en) | 2005-05-27 | 2005-05-27 | Voice signal packet communication method, multipoint mixing method, and system and apparatus using them |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4403103B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044924A (en) * | 2009-08-21 | 2011-03-03 | Victor Co Of Japan Ltd | Mixing device and method |
WO2020171546A1 (en) * | 2019-02-19 | 2020-08-27 | Samsung Electronics Co., Ltd. | Method for processing audio data and electronic device therefor |
-
2005
- 2005-05-27 JP JP2005155892A patent/JP4403103B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011044924A (en) * | 2009-08-21 | 2011-03-03 | Victor Co Of Japan Ltd | Mixing device and method |
WO2020171546A1 (en) * | 2019-02-19 | 2020-08-27 | Samsung Electronics Co., Ltd. | Method for processing audio data and electronic device therefor |
US11341981B2 (en) | 2019-02-19 | 2022-05-24 | Samsung Electronics, Co., Ltd | Method for processing audio data and electronic device therefor |
Also Published As
Publication number | Publication date |
---|---|
JP4403103B2 (en) | 2010-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4426454B2 (en) | Delay trade-off between communication links | |
JP5268952B2 (en) | Apparatus and method for transmitting a sequence of data packets and decoder and apparatus for decoding a sequence of data packets | |
EP2130203B3 (en) | Method of transmitting data in a communication system | |
CN101188525A (en) | A voice stream processing method and device | |
EP2055055A2 (en) | Jitter buffer adjustment | |
US9491299B2 (en) | Teleconferencing using monophonic audio mixed with positional metadata | |
US8787490B2 (en) | Transmitting data in a communication system | |
EP1959432A1 (en) | Transmission of a digital message interspersed throughout a compressed information signal | |
JP2004297798A (en) | System for testing sound quality of speech communication network | |
JP2003241799A (en) | Acoustic encoding method, decoding method, encoding device, decoding device, encoding program, decoding program | |
US7856096B2 (en) | Erasure of DTMF signal transmitted as speech data | |
CN110149452A (en) | A method of it reducing network packet loss rate and promotes call sound effect | |
JP4403103B2 (en) | Voice signal packet communication method, multipoint mixing method, and system and apparatus using them | |
JP6289178B2 (en) | Call conferencing system | |
KR100911771B1 (en) | Terminal equipment and method for concealing packet loss of voice communication | |
JP4758687B2 (en) | Voice packet transmission method, voice packet reception method, apparatus using the methods, program, and recording medium | |
JPH04357735A (en) | Voice packet communication equipment | |
JP4050961B2 (en) | Packet-type voice communication terminal | |
KR101904422B1 (en) | Method of Setting Configuration of Codec and Codec using the same | |
JP3734696B2 (en) | Silent compression speech coding / decoding device | |
US12022031B2 (en) | Multipoint control method, apparatus and program | |
US11973900B2 (en) | Multipoint control method, apparatus and program | |
US11949817B2 (en) | Multipoint control method, apparatus and program | |
JP2002252644A (en) | Apparatus and method for communicating voice packet | |
JP4333005B2 (en) | Speech encoding / decoding device, speech encoding device, and encoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090623 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091030 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121106 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121106 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131106 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |