FR2910758A1

FR2910758A1 - Media flow e.g. voice over Internet protocol audio flow, transmission quality estimating method for packet mode communication link, involves extracting degraded reference signal, and comparing defined reference signal to degraded signal

Info

Publication number: FR2910758A1
Application number: FR0655946A
Authority: FR
Inventors: Julien Faure
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-12-26
Filing date: 2006-12-26
Publication date: 2008-06-27
Also published as: WO2008081134A2; WO2008081134A3

Abstract

The method involves storing media flow packets at a measuring point (PM) and extracting length and code type of payload, during a communication. The signal is cut into N segments of length equal to a length (Ln) of the payload of the stored packets. The segments conforming to the code type of the payload of the stored packets are coded. Packets of degraded reference signal (Ref') are created for the payload of a packet with i sequence number. The degraded reference signal is extracted from the degraded packets. A defined reference signal (Ref) is compared to the degraded signal. Independent claims are also included for the following: (1) a computer program comprising a set of instructions to perform a method for estimating transmission quality of a media flow (2) a device for estimating transmission quality of a media flow, comprising a storing module.

Description

PROCEDE D'ESTIMATION DE LA QUALITE D'UNE COMMUNICATION EN MODE PAQUET LaMETHOD OF ESTIMATING THE QUALITY OF A PACKET MODE COMMUNICATION

présente invention concerne un procédé d'estimation de la qualité de transmission d'un flux média en un point d'une liaison de communication en mode paquet entre un terminal émetteur et un terminal récepteur. L'invention s'applique de manière générale au domaine des télécommunications, et plus particulièrement à la mesure de la qualité de transmission de flux média, notamment en téléphonie sur IP appelée aussi VoIP ( Voice over Internet Protocol ). On connaît actuellement deux grandes catégories de méthodes pour estimer la qualité de transmission de flux média sur une liaison de io communication en mode paquet entre un terminal émetteur et un terminal récepteur : les méthodes intrusives et les méthodes non intrusives. Les méthodes intrusives consistent à émettre un signal de référence à une extrémité de la liaison à proximité du terminal émetteur et à enregistrer le signal de référence dégradé reçu à une autre extrémité de la liaison, à 15 proximité du terminal récepteur. La comparaison entre le signal de référence et le signal de référence dégradé permet d'obtenir une estimation de la qualité de la transmission. Le plus souvent, le résultat de cette estimation se traduit par l'attribution d'une note dite MOS pour Mean Opinion Score . Il existe plusieurs algorithmes psycho-acoustiques qui permettent 20 d'obtenir une note de qualité perçue à partir d'un signal de référence et du signal de référence dégradé. L'algorithme le plus utilisé pour les communications audio est l'algorithme PESO normalisé à l'ITU-T P.862 ("Perceptual evaluation of speech quality (PESA) : An objective method for end-to-end speech quality assessment of narrow-band telephone networks 25 and speech codecs", février 2001). Cet algorithme, ainsi que d'autres comme ceux qui suivent les recommandations de l'ITU-T J.144R et de l'ITU-R BT.1683 2910758 2 dans le domaine vidéo, sont des algorithmes d'évaluation de la qualité dits avec référence . Parmi les réalisations de méthodes intrusives en VoIP, on peut citer la demande de brevet américain n 2004/162684 qui propose d'exploiter les 5 silences dans la conversation pour faire transiter des signaux de référence entre deux points. Plus particulièrement, la méthode décrite dans ce document comporte trois étapes : - Une détection d'activité vocale utilisée pour identifier les périodes de silence du coté du terminal appelant. io - Pendant les périodes de silence, le terminal appelant émet une partie du signal de référence sous forme de paquets de flux RTP ( Real-time Tranport Protocol ) marqués par un identifiant, comme par exemple un numéro de codec (codeur-décodeur) arbitraire quelconque, de manière à pouvoir distinguer du côté du terminal appelé les paquets de flux média proprement 15 dits des paquets de signal de référence. - Au niveau du terminal appelé, le flux RTP correspondant au signal de référence et repéré par ledit identifiant est décodé de manière à obtenir le signal de référence dégradé. Connaissant le signal de référence original, il est possible d'appliquer l'algorithme avec référence PESA pour mesurer la 20 dégradation de qualité vocale. Les méthodes non intrusives consistent à mesurer, en un point de la liaison, des données concernant les paquets de flux média transmis entre le terminal émetteur et le terminal récepteur et à évaluer une note de qualité à partir de ces données. En IP, les paquets sont dupliqués et enregistrés au 25 point de mesure par un miroir de port ( switch port mirroring ) et décodés par un dispositif appelé renifleur de paquets afin d'extraire de l'en-tête des paquets les données servant de base à l'évaluation de qualité. Les données mesurées en IP peuvent ne concerner que les paquets eux-mêmes, comme la gigue, ou fluctuation du temps d'arrivée des paquets, le 30 taux de pertes de paquets, le taux de paquets inversés, etc. Plusieurs types de modèles de qualité perçue peuvent alors être utilisés. Parmi ces modèles, on connaît par exemple : 2910758 3 - les modèles paramétriques comme le modèle E ou le modèle de Reynolds et al. décrit dans la demande de brevet américain n 2004/162684, basés sur le temps d'arrivée de chaque paquet IP à partir duquel sont construits des paramètres qui sont ensuite utilisés pour évaluer une note MOS de la qualité 5 vocale, - les modèles basés sur un apprentissage de paramètres IP mettant en oeuvre des réseaux de neurones. D'autres méthodes non intrusives de mesure en un point nécessitent de reconstituer le signal audio lui-même. Dans ce cas, il faut décoder le signal io contenu sous forme encodée dans la charge utile des paquets. Il existe deux familles de modèles permettant d'obtenir une note de qualité à partir du signal audio reconstitué : - les modèles psycho-acoustiques (ITU-T Recommendation P563, "Singleended method for objective speech quality assessment in narrow-band 15 telephony applications", mai 2004), -les modèles avec apprentissage des défauts du signal audio au moyen de réseaux de neurones. Cependant, les méthodes d'estimation de la qualité vocale qui viennent d'être exposées pour illustrer l'état de la technique actuellement connu ne sont 20 pas entièrement satisfaisantes et présentent les inconvénients suivants. Dans le cas des mesures non intrusives, les algorithmes mis en jeu sont beaucoup moins représentatifs de la sensation perçue par les utilisateurs du fait qu'il s'agit d'algorithmes sans référence contrairement à ceux utilisés dans les méthodes intrusives. Par contre, ces mesures sont faites sur des 25 communications réelles et ne surchargent pas le réseau par des signaux exclusivement dédiés à la mesure de qualité. Dans le cas des mesures intrusives, les signaux de mesure de qualité surchargent le réseau et doivent donc être limités en nombre. De plus, ces signaux ne correspondent pas à des appels réels. Par contre, les mesures 30 intrusives utilisent des algorithmes avec référence qui permettent une évaluation de la qualité au plus proche de la sensation perçue par les utilisateurs. The present invention relates to a method for estimating the transmission quality of a media stream at a point of a packet mode communication link between a transmitting terminal and a receiving terminal. The invention applies generally to the field of telecommunications, and more particularly to the measurement of the quality of media flow transmission, in particular in IP telephony also called VoIP (Voice over Internet Protocol). Two broad categories of methods are currently known for estimating the quality of media stream transmission over a packet mode communication link between a transmitting terminal and a receiving terminal: intrusive methods and non-intrusive methods. Intrusive methods include transmitting a reference signal at one end of the link near the transmitting terminal and recording the degraded reference signal received at another end of the link near the receiving terminal. The comparison between the reference signal and the degraded reference signal makes it possible to obtain an estimate of the quality of the transmission. Most often, the result of this estimate is the attribution of a so-called MOS score for Mean Opinion Score. There are several psychoacoustic algorithms that provide a perceived quality score from a reference signal and the degraded reference signal. The most widely used algorithm for audio communications is the standardized PESO algorithm at ITU-T P.862 ("Perceptual Evaluation of Speech Quality (PESA): An objective method for end-to-end speech quality assessment of narrow -band telephone networks 25 and speech codecs ", February 2001). This algorithm, as well as others such as those following the ITU-T J.144R and ITU-R BT.1683 2910758 2 recommendations in the video domain, are so-called quality evaluation algorithms. with reference. Among the embodiments of intrusive methods in VoIP, mention may be made of US Patent Application No. 2004/162684 which proposes to use the silences in the conversation to make reference signals pass between two points. More particularly, the method described in this document comprises three steps: a voice activity detection used to identify the silence periods on the side of the calling terminal. During periods of silence, the calling terminal transmits part of the reference signal in the form of RTP (Real-time Tranport Protocol) stream packets marked by an identifier, such as an arbitrary codec number (coder-decoder). whatever, so as to be able to distinguish from the called terminal side the actual media flow packets of the reference signal packets. - At the called terminal, the RTP stream corresponding to the reference signal and identified by said identifier is decoded so as to obtain the degraded reference signal. Knowing the original reference signal, it is possible to apply the PESA reference algorithm to measure voice quality degradation. Non-intrusive methods consist in measuring, at a point in the link, data concerning the packets of media streams transmitted between the transmitting terminal and the receiving terminal and evaluating a quality score based on these data. In IP, the packets are duplicated and recorded at the measurement point by a port mirror (mirroring port) and decoded by a device called a packet sniffer to extract from the packet header the data used as a basis. to quality evaluation. The measured IP data may relate only to the packets themselves, such as jitter, or fluctuation in packet arrival time, packet loss rate, inverted packet rate, and the like. Several types of perceived quality models can then be used. Among these models, there are, for example: 2910758 3 - parametric models such as the E model or the Reynolds et al model. described in US Patent Application No. 2004/162684, based on the arrival time of each IP packet from which parameters are constructed which are then used to evaluate a voice quality MOS score, - the models based on an IP parameter learning using neural networks. Other non-intrusive one-point measurement methods require reconstructing the audio signal itself. In this case, it is necessary to decode the signal contained in encoded form in the payload of the packets. There are two families of models that make it possible to obtain a quality score from the reconstructed audio signal: - psychoacoustic models (ITU-T Recommendation P563, "Single-purpose method for voice-testing and assessment in narrow-band 15 telephony applications" , May 2004), models with learning of audio signal defects by means of neural networks. However, the voice quality estimation methods just described to illustrate the presently known state of the art are not entirely satisfactory and have the following drawbacks. In the case of non-intrusive measurements, the algorithms involved are much less representative of the sensation perceived by users because they are algorithms without reference, unlike those used in intrusive methods. On the other hand, these measurements are made on real communications and do not overload the network by signals exclusively dedicated to the measurement of quality. In the case of intrusive measurements, the quality measurement signals overload the network and must therefore be limited in number. In addition, these signals do not correspond to real calls. On the other hand, intrusive measurements use reference algorithms which allow a quality assessment to be closer to the sensation perceived by the users.

2910758 4 La méthode décrite dans la demande de brevet américain n 2004/162684 précitée permet en partie de répondre à l'inconvénient majeur des méthodes intrusives puisque le signal de référence est transmis pendant les périodes de silence où la communication est inactive. Ces mesures ne 5 surchargent pas le réseau et sont faites lors de communications réelles. Néanmoins, les informations sur la façon dont le signal de référence est découpé au gré des périodes de silence ont besoin d'être transmises d'une extrémité à l'autre extrémité afin que le terminal récepteur puisse reconstituer le signal dégradé. Cette méthode nécessite l'utilisation de terminaux émetteurs io spéciaux qui permettent le découpage, l'envoi du signal de référence et le marquage de paquets nécessaires à la reconstitution du signal dégradé par le terminal récepteur. Aussi, un but de la présente invention est de proposer un procédé d'estimation de qualité qui permette d'appliquer les algorithmes habituellement 15 utilisés lors de mesures intrusives, c'est-à-dire avec référence, plus proches de la sensation des utilisateurs, à des mesures non intrusives, à savoir sur des communications réelles sans surcharge du réseau. Ce but est atteint, conformément à l'invention, grâce à un procédé d'estimation de la qualité de transmission d'un flux média en un point, dit point 20 de mesure, d'une liaison de communication en mode paquet entre un terminal émetteur et un terminal récepteur, cette estimation étant effectuée par comparaison entre un signal de référence et le signal de référence dégradé au point de mesure, ce procédé étant remarquable en ce qu'il comprend des étapes consistant à : 25 - définir un signal de référence, - lors d'une communication, enregistrer au point de mesure des paquets de flux média et en extraire au moins la longueur et le type de codage de la charge utile, - découper le signal de référence en N segments de longueur égale à la 30 longueur de la charge utile des paquets de flux média enregistrés, - coder les segments de signal de référence conformément au codage de la charge utile des paquets de flux média enregistrés, 2910758 5 - créer des paquets de signal de référence dégradé en prenant pour charge utile d'un paquet de numéro de séquence i dans une série de paquets de flux média enregistrée et portant des numéros de séquence de no à no+N-1, le segment 1+i-no du signal de référence codé, s - extraire le signal de référence dégradé des paquets de signal de référence dégradé, - effectuer l'estimation de qualité par comparaison entre le signal de référence et le signal de référence dégradé. Ainsi, on comprend que le procédé conforme à l'invention permet io d'obtenir un signal de référence dégradé associé à un signal de référence, et donc de pouvoir appliquer un algorithme d'estimation de qualité avec référence, à partir d'une mesure en un point de la liaison, sans surcharge du réseau et sur des communications réelles. L'invention combine donc les avantages respectifs des méthodes intrusives et non intrusives, sans en avoir 15 les inconvénients. L'estimation d'une note MOS peut alors être effectuée en appliquant un algorithme psycho-acoustique avec référence, comme l'algorithme PESO par exemple. De plus, la solution proposée par l'invention ne nécessite pas de modifier des terminaux existants ni d'utiliser des terminaux particuliers, ceux-ci 20 pouvant être quelconques : numériques ou visiophoniques. De même, les flux média dont on veut mesurer la qualité de transmission peuvent être de n'importe quelle nature, notamment données de conversation audio, lecture en transit ( streaming ) de voix ou de musique, etc., du moment que ces données transitent sous forme de paquets.The method described in the aforementioned US Patent Application No. 2004/162684 partially addresses the major disadvantage of intrusive methods since the reference signal is transmitted during periods of silence when the communication is inactive. These measurements do not overload the network and are done during actual communications. Nevertheless, the information on how the reference signal is cut during periods of silence needs to be transmitted from one end to the other end so that the receiving terminal can reconstruct the degraded signal. This method requires the use of special transmitter terminals which allow the division, sending of the reference signal and the marking of packets necessary for the reconstruction of the degraded signal by the receiving terminal. Also, an object of the present invention is to provide a quality estimation method that allows to apply the algorithms usually used in intrusive measurements, that is to say with reference, closer to the sensation of the users. , to non-intrusive measurements, namely on real communications without overloading the network. This object is achieved, in accordance with the invention, by means of a method for estimating the transmission quality of a media stream at a point, referred to as a measurement point, of a packet mode communication link between a terminal transmitter and a receiver terminal, this estimation being performed by comparing a reference signal and the degraded reference signal at the measurement point, this method being remarkable in that it comprises the steps of: defining a reference signal - during a communication, record at the measuring point media stream packets and extract at least the length and type of payload coding, - cut the reference signal into N segments of length equal to 30 payload length of recorded media stream packets, - encode reference signal segments according to the payload encoding of recorded media stream packets, 2910758 5 - create packets degraded reference signal utes by taking as payload a sequence number packet i in a series of recorded media flow packets and carrying sequence numbers from no to no + N-1, the segment 1 + i- no of the coded reference signal, s - extracting the degraded reference signal from the degraded reference signal packets, - performing the quality estimation by comparison between the reference signal and the degraded reference signal. Thus, it is understood that the method according to the invention makes it possible to obtain a degraded reference signal associated with a reference signal, and therefore to be able to apply a quality estimation algorithm with reference, from a measurement at a point of the link, without overloading the network and on real communications. The invention thus combines the respective advantages of the intrusive and non-intrusive methods, without the disadvantages. The estimation of a MOS note can then be performed by applying a psycho-acoustic algorithm with reference, such as the PESO algorithm for example. In addition, the solution proposed by the invention does not require modifying existing terminals or using particular terminals, which may be any: digital or videophone. Likewise, the media streams whose transmission quality is to be measured can be of any nature, including audio conversation data, voice or music streaming, etc., as long as these data are in transit. in the form of packets.

25 Bien entendu, si l'on veut estimer la qualité de transmission sur toute la longueur de la liaison, le point de mesure doit être pris au plus près du terminal récepteur. Selon un premier mode de réalisation, les paquets de signal de référence dégradé sont créés en remplaçant dans la série de paquets de flux 30 média enregistrée la charge utile d'un paquet de numéro de séquence i par le segment 1+i-no du signal de référence codé. Selon un deuxième mode de réalisation, les paquets de signal de référence dégradé sont créés en prenant pour charge utile d'un paquet de 2910758 6 numéro de séquence i dans une série de paquets de flux média reconstituée le segment 1+i-no du signal de référence codé. Dans ce cas, l'invention prévoit que ladite série de paquets de flux média reconstituée est reconstituée à partir de données d'horodatage et de numéros de séquence extraites de la série de 5 paquets de flux média enregistrée. Il est également prévu par l'invention que, lorsqu'au moins un transcodage du flux média étant réalisé en un point de la liaison de communication, dit point de transcodage, une première estimation de qualité est effectuée en un premier point de mesure en amont du point de io transcodage, et une deuxième estimation de qualité est effectuée en un deuxième point de mesure en aval du point de transcodage. Pour obtenir une estimation de qualité de bout en bout, le signal de référence pour la deuxième estimation est le signal de référence dégradé extrait de la première estimation.Of course, if one wishes to estimate the transmission quality over the entire length of the link, the measurement point must be taken as close as possible to the receiving terminal. According to a first embodiment, the degraded reference signal packets are created by replacing in the series of recorded media streams the payload of a sequence number packet i by the signal segment 1 + i-no. coded reference. According to a second embodiment, the degraded reference signal packets are created by taking as payload a sequence number packet i in a series of reconstituted media stream packets the signal segment 1 + i-no coded reference. In this case, the invention provides that said series of reconstituted media stream packets are reconstructed from timestamp data and sequence numbers extracted from the set of recorded media stream packets. It is also provided by the invention that, when at least one transcoding of the media stream is performed at a point of the communication link, said transcoding point, a first quality estimate is made at a first measurement point upstream. from the transcoding point, and a second quality estimate is made at a second measurement point downstream of the transcoding point. To obtain an end-to-end quality estimate, the reference signal for the second estimate is the degraded reference signal extracted from the first estimate.

15 L'invention concerne en outre un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'invention lorsque ce programme est exécuté par un ordinateur. L'invention concerne enfin un dispositif d'estimation de la qualité de transmission d'un flux média en un point, dit point de mesure, d'une liaison de 20 communication en mode paquet entre un terminal émetteur et un terminal récepteur, cette estimation étant effectuée par comparaison entre un signal de référence et le signal de référence dégradé au point de mesure, ce dispositif étant remarquable en ce qu'il comprend : - un module d'enregistrement, au point de mesure, d'au moins une série de 25 paquets de flux média, apte à extraire desdits paquets enregistrés au moins la longueur et le type de codage de la charge utile, - un module de formation de segments de signal de référence codé, comportant une unité de stockage d'un signal de référence, et une unité de découpage et de codage, selon ledit type de codage de N segments de signal 30 de référence de longueur égale à ladite longueur de charge utile, - un module de constitution d'un signal de référence dégradé, comportant une unité de création de paquets de signal de référence dégradé consistant à prendre pour charge utile d'un paquet de numéro de séquence i dans une 2910758 7 série de paquets de flux média enregistrée et portant des numéros de séquence de no à no+N-1, le segment 1+i-no du signal de référence codé, et une unité d'extraction du signal de référence dégradé à partir des paquets de signal de référence dégradé, 5 -un module d'estimation de qualité par comparaison entre le signal de référence et le signal de référence dégradé. Selon un premier mode de réalisation, l'unité de création de paquets de signal de référence dégradé comprend des moyens pour remplacer, dans ladite série de paquets de flux média, la charge utile d'un paquet de numéro io de séquence i par le segment 1+i-no du signal de référence codé. Selon un deuxième mode de réalisation, l'unité de création de paquets de signal de référence dégradé est apte à reconstituer une série de paquets de flux média, et à prendre pour charge utile d'un paquet de numéro de séquence i dans la série de paquets reconstituée, le segment 1+i-no du signal 15 de référence codé. Dans ce cas, l'invention prévoit que ledit module d'enregistrement est apte à extraire des données d'horodatage et de numéro de séquence, à partir de la série de paquets de flux média enregistrée, et à transmettre aux moyens de reconstruction lesdites données d'horodatage et de numéro de séquence extraites.The invention further relates to a computer program comprising program code instructions for performing the steps of the method according to the invention when this program is executed by a computer. The invention finally relates to a device for estimating the transmission quality of a media stream at a point, called a measurement point, of a packet mode communication link between a transmitting terminal and a receiving terminal. being performed by comparison between a reference signal and the reference signal degraded at the measurement point, this device being remarkable in that it comprises: a recording module, at the measuring point, of at least one series of 25 media stream packets, capable of extracting from said recorded packets at least the length and type of coding of the payload, - an encoded reference signal segment forming module, comprising a storage unit of a reference signal , and a chopping and coding unit, according to said type of coding of N reference signal segments of length equal to said payload length, - a module for constituting a reference signal d method, comprising a degraded reference signal packet generation unit for taking a payload of a sequence number packet i into a series of recorded media flow packets and carrying sequence numbers from no to no. + N-1, the 1 + i-no segment of the coded reference signal, and a degraded reference signal extraction unit from the degraded reference signal packets, -a quality estimation module by comparison between the reference signal and the degraded reference signal. According to a first embodiment, the degraded reference signal packet creation unit comprises means for replacing, in said series of media flow packets, the payload of a sequence numbered packet i by the segment 1 + i-no of the coded reference signal. According to a second embodiment, the degraded reference signal packet creation unit is able to reconstruct a series of media stream packets, and to take as payload a sequence number packet i in the series of packets reconstructed, the segment 1 + i-no of the coded reference signal. In this case, the invention provides that said recording module is able to extract time stamp and sequence number data, from the series of recorded media stream packets, and to transmit to the reconstruction means said data. timestamp and sequence number extracted.

20 La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée. La figure 1 est un schéma d'un premier mode de réalisation d'un dispositif d'estimation de qualité de transmission conforme à l'invention.The following description with reference to the accompanying drawings, given by way of non-limiting examples, will make it clear what the invention consists of and how it can be achieved. FIG. 1 is a diagram of a first embodiment of a transmission quality estimation device according to the invention.

25 La figure 2 est un schéma d'un deuxième mode de réalisation d'un dispositif d'estimation de qualité de transmission conforme à l'invention. La figure 3 est un schéma d'une variante de réalisation du dispositif de la figure 2. La figure 4 est un schéma d'un dispositif d'estimation de qualité de 30 transmission avec transcodage sur la liaison de communication. Sur la figure 1 est représenté un dispositif 10 d'estimation de la qualité de transmission d'un flux média sur une liaison de communication en mode 2910758 8 paquet entre un terminal émetteur 1 et un terminal récepteur 2. Ledit flux média est par exemple un flux audio en VoIP. La mesure de qualité de transmission est effectuée de manière non intrusive en un point PM de la liaison entre les deux terminaux. Bien entendu, 5 pour obtenir une estimation précise de la qualité perçue à la réception d'un flux audio émis par le terminal émetteur 1, le point PM de mesure doit être choisi à proximité du terminal récepteur 2. Le dispositif 10 de la figure 1 va maintenant être décrit en référence à un procédé d'estimation de qualité de transmission dont il permet la mise en io oeuvre. Comme cela a été mentionné plus haut, le procédé conforme à l'invention, bien que constituant une méthode non intrusive, met en oeuvre un algorithme avec référence, comme l'algorithme PESA par exemple. A cet effet, un signal Ref de référence de longueur déterminée est stocké dans une unité 15 210 de stockage d'un module 200 de formation de segments de signal de référence codé. Ce module 200 appartient à un sous-ensemble 11 d'analyse du dispositif 10 d'estimation de qualité. Lors d'une communication entre le terminal émetteur 1 et le terminal récepteur 2, au moins une série de paquets de flux média arrivant jusqu'au 20 terminal récepteur 2 est enregistrée au point PM de mesure par un module 100 d'enregistrement comprenant un commutateur (switch) 110 avec un miroir de port apte à dupliquer les paquets, et un renifleur 120 de paquets destiné à décoder l'en-tête des paquets dupliqués et à en extraire des données, telles que la longueur Ln de la charge utile ( payload ) des paquets, le type 25 CodeType de codec utilisé par le terminal récepteur 2 pour décoder la charge utile des paquets, le numéro SeqNb de séquence de chaque paquet et une donnée TS d'horodatage ( Timestamp ) représentative de l'instant d'émission d'un paquet. Les informations recueillies par le module 100 d'enregistrement sont 30 transmises au sous-ensemble 11 pour analyse en vue d'obtenir l'estimation de qualité recherchée. En particulier, les données Ln de longueur et Code Type de codec sont fournies au module 200 de manière à permettre à une unité 220 de découpage 2910758 9 et de codage de former des segments de signal de référence codé à partir du signal Ref de référence stocké dans l'unité 210 de stockage. On notera que, dans le cas d'un signal audio ou vidéo, les segments précités de signal sont appelés des trames. Plus précisément, le découpage du signal Ref de 5 référence est effectué en N segments, la longueur de chaque segment étant égale à la longueur Ln de la charge utile des paquets. Ainsi, si L est la longueur du signal de référence, le nombre de segments est donné par N=L/Ln. N exprime donc la longueur du signal de référence en nombre de paquets de flux média. Après découpage, les segments de signal de référence io sont codés conformément à la donnée CodeType. Dans la pratique, ces opérations de découpage et de codage peuvent être réalisées à l'avance pour des paquets et des codecs standards. L'unité 220 contient alors une bibliothèque de fichiers de signaux de référence prédécoupés et précodés. Dans le mode de réalisation de la figure 1, les paquets de flux média 15 enregistrés sont transmis par le module 100 d'enregistrement à un module 300 de constitution d'un signal Ref* de référence dégradé. Ce module 300 comprend une unité 310 de création de paquets de signal de référence dégradé, consistant à remplacer la charge utile d'un paquet de numéro de séquence i dans une série de paquets de flux média enregistrée et portant des 20 numéros de séquence de no à no+N-1, par le segment 1+i-no du signal de référence codé reçu de l'unité 220 de découpage et de codage. Par exemple, à un signal Ref de référence de N=11 segments numérotés de 1 à 11, est associée une série de paquets de flux média enregistrée dont les numéros de séquence SeqNb s'étendent de no à no+10, 25 soit : 123 124 126 127 128 130 129 131 132 133 avec no=123 Dans cette série de paquets, on voit que le paquet 125 est manquant et 30 que les paquets 129 et 130 ont été inversés. Les paquets de signal de référence dégradé sont obtenus dans ce cas en remplaçant la charge utile de ces paquets respectivement par les segments 2910758 i0 du signal codé portant les numéros 1 2 4 5 6 8 7 9 10 11, reproduisant ainsi l'absence du paquet 125 et l'inversion des paquets 129 et 130. Ensuite, une unité 320 procède à l'extraction du signal Ref* de référence dégradé en traitant les paquets de signal de référence dégradé issu 5 de l'unité 310 par un registre 321 de compensation de gigue et des moyens 322 de décodage conformément à la donnée Code Type. Le signal Ref* de référence dégradé et le signal Ref de référence fourni par l'unité 210 de stockage sont comparés par un module 400 d'estimation de la qualité de transmission au moyen d'un algorithme avec référence, par io exemple l'algorithme PESA. Il est à noter que l'unité 320 d'extraction peut simuler le terminal récepteur 2. Le registre 321 de compensation de gigue et les moyens 322 de décodage sont alors identiques à ceux du terminal 2. Mais il est également possible de simuler tout autre terminal en choisissant des registres de 15 compensation de gigue et des moyens de décodage quelconques. La figure 2 représente un deuxième mode de réalisation dans lequel le module 100 d'enregistrement extrait des paquets enregistrés et envoie au module 300, au lieu des paquets eux-mêmes, des données TS d'horodatage et les numéros SeqNb de séquence de paquets. Ces données sont suffisantes 20 pour permettre à l'unité 310 de création de paquets de reconstituer une série de paquets équivalente à la série de paquets enregistrée par le module 100. Les segments de signal de référence codé issus de l'unité 220 sont introduits selon la procédure expliquée plus haut en tant que charge utile dans cette série reconstituée.FIG. 2 is a diagram of a second embodiment of a transmission quality estimation device according to the invention. FIG. 3 is a diagram of an alternative embodiment of the device of FIG. 2. FIG. 4 is a diagram of a transmission quality estimation device with transcoding on the communication link. FIG. 1 shows a device 10 for estimating the transmission quality of a media stream on a packet-mode communication link between a transmitting terminal 1 and a receiving terminal 2. Said media stream is for example a audio streams in VoIP. The transmission quality measurement is performed non-intrusively at a point PM of the link between the two terminals. Of course, in order to obtain an accurate estimate of the quality perceived on receipt of an audio stream transmitted by the transmitting terminal 1, the measuring point PM must be chosen near the receiving terminal 2. The device 10 of FIG. will now be described with reference to a method for estimating transmission quality which it allows the implementation. As mentioned above, the method according to the invention, although constituting a non-intrusive method, implements an algorithm with reference, such as the PESA algorithm for example. For this purpose, a reference signal Ref of defined length is stored in a storage unit 210 of a module 200 for forming coded reference signal segments. This module 200 belongs to an analysis subassembly 11 of the quality estimation device 10. During a communication between the transmitting terminal 1 and the receiving terminal 2, at least one series of media stream packets arriving at the receiving terminal 2 is recorded at the measuring point PM by a recording module 100 comprising a switch (switch) 110 with a port mirror capable of duplicating the packets, and a sniffer 120 of packets for decoding the header of the duplicate packets and extracting data, such as the length Ln of the payload (payload ) packets, the CodType codec type used by the receiver terminal 2 to decode the payload of the packets, the sequence number SeqNb of each packet and a timestamp data TS representative of the instant of transmission of a package. The information collected by the recording module 100 is transmitted to the subset 11 for analysis in order to obtain the desired quality estimate. In particular, length data Ln and codec code type are provided to module 200 so as to enable a coding and coding unit 220 to form coded reference signal segments from the stored reference Ref signal. in the storage unit 210. Note that in the case of an audio or video signal, the aforementioned signal segments are called frames. More precisely, the division of the Ref reference signal is carried out in N segments, the length of each segment being equal to the length Ln of the payload of the packets. Thus, if L is the length of the reference signal, the number of segments is given by N = L / Ln. N therefore expresses the length of the reference signal in number of media stream packets. After clipping, the reference signal segments are encoded according to the CodeType data. In practice, these chopping and coding operations can be performed in advance for standard packets and codecs. The unit 220 then contains a library of pre-cut and precoded reference signal files. In the embodiment of FIG. 1, the recorded media stream packets are transmitted by the recording module 100 to a degraded reference Ref * signal module 300. This module 300 includes a degraded reference signal packet generation unit 310, which consists of replacing the payload of a sequence number packet i in a series of recorded media stream packets and carrying sequence numbers of no. at no + N-1, by the segment 1 + i-no of the coded reference signal received from the cutting and coding unit 220. For example, at a Ref reference signal of N = 11 segments numbered from 1 to 11, there is associated a series of recorded media stream packets whose SeqNb sequence numbers range from no to no + 10, ie: 123 In this series of packets, it will be seen that the packet 125 is missing and that the packets 129 and 130 have been inverted. The degraded reference signal packets are obtained in this case by replacing the payload of these packets respectively by the segments 2910758 i0 of the coded signal bearing the numbers 1 2 4 5 6 8 7 9 10 11, thus reproducing the absence of the packet. 125 and the inversion of the packets 129 and 130. Next, a unit 320 extracts the degraded reference signal Ref * by processing the degraded reference signal packets from the unit 310 by a compensation register 321. jitter and means 322 decoding according to the data Code Type. The degraded reference signal Ref * and the reference signal Ref supplied by the storage unit 210 are compared by a transmission quality estimation module 400 by means of an algorithm with reference, for example the algorithm PESA. It should be noted that the extraction unit 320 can simulate the receiver terminal 2. The jitter compensation register 321 and the decoding means 322 are then identical to those of the terminal 2. But it is also possible to simulate any other terminal by selecting jitter compensation registers and any decoding means. Figure 2 shows a second embodiment in which the recording module 100 extracts recorded packets and sends the module 300, instead of the packets themselves, timestamp TS data and packet sequence numbers SeqNb. This data is sufficient to allow the packet creation unit 310 to reconstruct a series of packets equivalent to the series of packets recorded by the module 100. The coded reference signal segments from the unit 220 are introduced according to the procedure explained above as a payload in this reconstructed series.

25 La suite du traitement est identique à celle qui a été décrite pour le mode de réalisation de la figure 1. La figure 3 est une variante de la figure 2 dans laquelle le sous-ensemble 11 d'analyse a été déporté sur un serveur S distant. En effet, dans cette configuration, il est en général préférable de transmettre au serveur S les 30 seules données d'horodatage TS et les numéros SeqNb plutôt que les paquets eux-mêmes, ceci afin d'éviter des surcharges du réseau. Cependant, si le trafic le permet, on peut tout à fait transmettre au serveur S les paquets entiers 2910758 Il de flux média, le procédé selon le mode de réalisation de la figure 1 étant alors utilisé. La figure 4 illustre la situation où un transcodage est réalisé sur la liaison en un point PT entre par exemple un codec G.729 et un codec G.711.The rest of the processing is identical to that described for the embodiment of FIG. 1. FIG. 3 is a variant of FIG. 2 in which the analysis subassembly 11 has been deported on a server S remote. In fact, in this configuration, it is generally preferable to transmit to the server S only the TS timestamp data and the SeqNb numbers rather than the packets themselves, in order to avoid overloading the network. However, if the traffic permits, it is quite possible to transmit to the server S the entire packets 2910758 II of media streams, the method according to the embodiment of FIG. 1 then being used. FIG. 4 illustrates the situation where a transcoding is performed on the link at a point PT between, for example, a G.729 codec and a G.711 codec.

5 Une première estimation de qualité peut être effectuée en un point PMI de mesure en amont du point PT par un serveur S pour la liaison entre le terminal émetteur 1 et le point PT. Une deuxième estimation peut ensuite être effectuée en un point PM2 à proximité du terminal récepteur 2 par le même serveur S pour l'ensemble de la liaison entre les deux terminaux, en utilisant pour signal io Ref2 de référence pour la deuxième estimation le signal Ref, * de référence dégradé, disponible sur le serveur S, ayant servi à la première estimation. Ce procédé s'étend à un nombre quelconque de transcodages sur la liaison. Il est aussi possible de calculer une note MOS pour différents tronçons d'une liaison et d'identifier de cette manière ceux qui sont responsables d'une 15 baisse de qualité. 20A first quality estimate can be made at a measuring point PMI upstream of the point PT by a server S for the connection between the transmitting terminal 1 and the point PT. A second estimate can then be made at a point PM2 near the receiving terminal 2 by the same server S for the entire link between the two terminals, using the ref signal as the reference signal Ref2 for the second estimate. * degraded reference, available on the S server, used for the first estimate. This method extends to any number of transcodings on the link. It is also possible to calculate an MOS score for different sections of a link and thereby identify those who are responsible for a drop in quality. 20

Claims

A method for estimating the transmission quality of a media stream at a point (PM), said measurement point, of a packet mode communication link between a transmitting terminal (1) and a receiving terminal (2) ), said estimation being carried out by comparison between a reference signal (Ret) and the reference signal (Ref *) degraded at said measurement point, characterized in that said method comprises the steps of: -defining a signal (Ret) reference, - during a communication, record at said measurement point (PM) of the media stream packets and extract at least the length (Ln) and type (code type) of the payload coding, - cut said reference signal (Ret) in N segments of length equal to the length (Ln) of the payload of the recorded media stream packets, - coding said reference signal segments according to the code (code type) of the payload of the packets recorded media streams, - create degraded reference signal packets by taking as a payload a sequence number packet i in a series of recorded media flow packets and carrying sequence numbers from no to no + N-1, the segment 1 + i -no of the coded reference signal, -extracting said degraded reference signal (Ref'`) from said degraded reference signal packets, - performing said estimation by comparison between the reference signal (Ret) and said signal (Ref *) of gradient reference.

The method of claim 1, wherein said degraded reference signal packets are created by replacing, in said series of recorded media stream packets, the payload of a sequence number packet i by the segment 1 + i -no of the coded reference signal.

The method of claim 1, wherein said degraded reference signal packets are created by taking as payload a sequence number packet i, in a series of reconstituted media stream packets, the segment 1+ i-no of the coded reference signal.

The method of claim 3, wherein said series of reconstituted media stream packets are reconstructed from time stamp (TS) and sequence (SeqNb) data, taken from the set of recorded media stream packets. .

The method according to any one of claims 1 to 4, wherein the extraction of the degraded reference signal (Ref'`) from the degraded reference signal packets is performed by jitter compensation of the packets of reference signal degraded and decoded according to the payload code (Code Type) of the recorded media stream packets.

6. Method according to any one of claims 1 to 5, wherein, at least one transcoding of the media stream being performed at a point (PT) of said link, said transcoding point, a first quality estimate is made in a first measurement point (PMI) upstream of said transcoding point (PT), and a second quality estimate is made at a second measurement point (PM2) downstream of said transcoding point.

The method of claim 6, wherein the reference signal (Ref2) for the second estimate is the degraded reference signal (Ref, '') extracted from the first estimate.

The method of any one of claims 1 to 7, wherein the quality estimate is performed using a psychoacoustic algorithm with reference.

The method of claim 8, wherein said algorithm is the PESA algorithm.

A computer program comprising program code instructions for performing the steps of the method according to any one of claims 1 to 9 when said program is executed by a computer. 30

11. Device for estimating the transmission quality of a media flow at a point (PM), called measurement point, of a packet mode communication link between a transmitting terminal (1) and a receiving terminal (2) ), said estimation being performed by comparison between a reference signal (Ret) 2910758 14 and the reference signal (Ref *) degraded at said measurement point, characterized in that said device (10) comprises: - a module (100) recording, at said measurement point (PM), at least one series of media stream packets, capable of extracting from said packets at least the length (Ln) and the type (code type) coding of the payload a module (200) for forming coded reference signal segments, comprising a reference signal storage unit (Ret) (210) and a decoding and coding unit (220) according to said type of coding (Code Type) of N reference signal segments of length equal to said length (Ln) 10 of c useful harge, - a module (300) for constituting a degraded reference signal (Ref *), comprising a degraded reference signal packet creation unit (310), consisting of taking as a payload a packet of sequence number i in a series of recorded media stream packets bearing sequence numbers from no to no + N-1, the segment 1 + i-no of the encoded reference signal, and a unit (320) of extracting said degraded reference signal (Ref'`) from said degraded reference signal packets; - a quality estimation module (400) by comparison between the reference signal (Ref) and said signal (Ref'`) gradient reference. 20

The apparatus of claim 11, wherein said degraded reference signal packet creation unit (310) comprises means for replacing, in said series of recorded media stream packets, the payload of a packet number packet. sequence i by the segment 1 + i-no of the coded reference signal. 25

The apparatus of claim 11, wherein said degraded reference signal packet creation unit (310) is adapted to reconstruct a series of media stream packets, and to take as payload a sequence number packet. i in the reconstituted series of packets, the segment 1 + i-no of the coded reference signal. 30

Apparatus according to claim 13, wherein said recording module (100) is adapted to extract sequence time stamp (TS) and number (SeqNb) data from said packets of the packet series 2910758. recorded media stream, and transmitting said extracted data to said creation unit (310).

Apparatus according to any one of claims 11 to 14, wherein said extraction unit (320) comprises a jitter compensation register (321) and decoding means (322) in accordance with the coding (Code Type). the payload of recorded media stream packets.