Convergence en loi

En théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. Certaines de ces notions ne sont pas spécifiques des probabilités, mais de l'analyse en général, comme la convergence presque sûre de variables aléatoires, ou encore la convergence $L p$ . La convergence en loi de suites de variables aléatoires est un concept appartenant plus spécifiquement à la théorie des probabilités, utilisé notamment en statistique et dans l'étude des processus stochastiques. La convergence en loi est souvent notée en ajoutant la lettre ${\mathcal {L}}$ (ou ${\mathcal {D}}$ pour distribution) au-dessus de la flèche de convergence :

X_{n}{\xrightarrow {\mathcal {L}}}X.

La convergence en loi est la forme la plus faible de convergence de variables aléatoires au sens où, en général, elle n'implique pas les autres formes de convergence de variables aléatoires, alors que ces autres formes de convergence impliquent la convergence en loi. Le théorème central limite, un des résultats les plus importants de la théorie des probabilités, concerne la convergence en loi d'une suite de variables aléatoires.

Définition

Soit X une variable aléatoire et soit $\left(X_{n}\right)_{n\geq 1}$ une suite de variables aléatoires, toutes à valeurs dans le même espace métrique (E, d).

Définition — On dit que la suite $\left(X_{n}\right)_{n\geq 1}$ converge en loi vers X si, pour toute fonction $\varphi$ continue bornée sur E, à valeurs dans $\mathbb {R} ,$

\lim _{n}\mathbb {E} \left[\varphi (X_{n})\right]\ =\ \mathbb {E} \left[\varphi (X)\right].

Notons, et cela distingue la convergence en loi des autres types de convergence de variables aléatoires, que les variables aléatoires $X$ et $X_{n}$ ne sont pas nécessairement définies sur les mêmes espaces probabilisés mais peuvent être définies sur des espaces probabilisés tous différents, disons $\left(\Omega _{n},{\mathcal {A}}_{n},\mathbb {P} _{n}\right)_{n\geq 1}$ et $\left(\Omega ,{\mathcal {A}},\mathbb {P} \right)$ . En effet la convergence en loi est en réalité la convergence d'une suite de mesures de probabilités, les lois de probabilités des variables aléatoires, $\left(\mathbb {P} _{X_{n}}\right)_{n\geq 1}$ , vers la loi de X, $\mathbb {P} _{X}$ . En effet, en vertu du théorème de transfert, la définition peut se réécrire : pour toute fonction $\varphi$ continue bornée sur E,

\lim _{n}\ \int _{E}\varphi \,d\mathbb {P} _{X_{n}}\ =\ \int _{E}\varphi \,d\mathbb {P} _{X},

ce qui impose uniquement que l'espace d'arrivée des variables aléatoires, E, soit le même. Cette reformulation fait aussi apparaître que chaque variable aléatoire peut être remplacée par une autre sans que la convergence en loi soit affectée, pourvu que les deux variables aléatoires intervenant dans l'échange aient même loi. Cette notion de convergence est équivalente à la convergence dans la topologie faible-*.

La convergence en loi est souvent notée en ajoutant la lettre ${\mathcal {L}}$ (ou ${\mathcal {D}}$ pour distribution) au-dessus de la flèche de convergence :

X_{n}{\xrightarrow {\mathcal {L}}}X,\quad \mathrm {ou~bien} \quad X_{n}{\xrightarrow {\mathcal {D}}}X.

Le théorème porte-manteau

Article détaillé : Théorème porte-manteau.

Théorème porte-manteau^[1] — Les cinq assertions suivantes sont équivalentes :

1. (X_n) converge en loi vers X ; 2. pour toute fonction $\varphi$ bornée et uniformément continue sur E,

\lim _{n}\ \mathbb {E} \left[\varphi (X_{n})\right]\ =\ \mathbb {E} \left[\varphi (X)\right]

;

3. pour tout fermé F de E,

\limsup _{n}\ \mathbb {P} \left(X_{n}\in F\right)\ \leq \ \mathbb {P} \left(X\in F\right)

;

4. pour tout ouvert O de E,

\liminf _{n}\mathbb {P} \left(X_{n}\in O\right)\ \geq \ \mathbb {P} \left(X\in O\right)

;

5. pour tout borélien A de E dont la frontière $\partial A$ vérifie $\mathbb {P} \left(X\in \partial A\right)=0$ ,

\lim _{n}\ \mathbb {P} \left(X_{n}\in A\right)\ =\ \mathbb {P} \left(X\in A\right)

.

La propriété 5 préfigure le théorème de l'application continue (en). Par ailleurs la propriété 5 possède un cas particulier d'usage fréquent, dans le cas où E est la droite réelle (voir la prochaine section).

Cas des variables aléatoires réelles

Convergence en loi et fonction de répartition

Considérons une suite X₁, X₂, ... , X_n, de variables aléatoires réelles, et une autre variable aléatoire réelle X. Soient F₁, F₂, ..., F_n la suite des fonctions de répartition associées aux variables aléatoires réelles X₁, X₂, ..., X_n et soit F la fonction de répartition de la variable aléatoire réelle X. Autrement dit, F_n est définie par F_n(x)=P(X_n ≤ x), et F par F(x)=P(X ≤ x). On a le théorème suivant :

Théorème — Il y a équivalence entre les trois propositions ci-dessous :

$(X_{n})_{n\geq 0}$ converge en loi vers $X$ ;
$\lim _{n}\ F_{n}(x)=F(x)$ , dès que la fonction de répartition F de X est continue en x, ou bien, de manière équivalente, dès que $\mathbb {P} (X=x)=0$ ;
il existe un espace probabilisé $\,\left({\widehat {\Omega }},{\widehat {\mathcal {A}}},{\widehat {\mathbb {P} }}\right)$ $\,\left({\widehat {\Omega }},{\widehat {\mathcal {A}}},{\widehat {\mathbb {P} }}\right)$ , et, définies sur cet espace, des variables aléatoires réelles $(X_{n}^{\prime })_{n\geq 0}$ $(X_{n}^{\prime })_{n\geq 0}$ et $X^{\prime }$ $X^{\prime }$ telles que, simultanément :
1. $X^{\prime }$ a même loi que $X$ ,
2. pour chaque $n$ , $X_{n}^{\prime }$ a même loi que $X_{n}$ ,
3. $(X_{n}^{\prime })_{n\geq 0}$ converge presque sûrement vers $X^{\prime }$ .

Une structure possible pour la démonstration est 3.⇒1.⇒2.⇒3.

3. implique 1.

C'est l'implication la plus simple. Pour $\,f$ continue bornée, il faut démontrer que

\lim _{n}\ \mathbb {E} [f(X_{n})]\ =\ \mathbb {E} [f(X)],

ou bien, de manière équivalente,

\lim _{n}\ \mathbb {E} [f(X_{n}^{\prime })]=\mathbb {E} [f(X^{\prime })].

Mais la continuité de $\,f$ assure que $\,f(X_{n}^{\prime })$ converge presque sûrement vers $\,f(X^{\prime })$ . De plus, $\,|f|$ étant borné, on a que

\left|f(X_{n}^{\prime })\right|\ \leq \Vert f\Vert _{\infty }

pour tout $\,n$ . Le théorème de convergence dominée de Lebesgue peut donc être appliqué ici, et donne la conclusion voulue.

1. implique 2.

Par définition d'une fonction de répartition, la propriété

\lim _{n}\ F_{n}(x)\ =\ F(x),

s'écrit sous la forme :

\lim _{n}\ \mathbb {P} \left(X_{n}\in A_{x}\right)\ =\ \mathbb {P} \left(X\in A_{x}\right),

pour peu qu'on choisisse

A_{x}\ =\ ]-\infty ,x].

Par ailleurs

\partial A_{x}\ =\ \{x\},

Donc,

\mathbb {P} \left(X\in \partial A_{x}\right)\ =\ \mathbb {P} \left(X=x\right)\ =\ \ F(x)-F(x_{-}),

qui est nul si et seulement si F est continue à gauche en x, i.e. si et seulement si F est continue en x (en effet, une fonction de répartition est partout continue à droite). Le point (5) du Théorème porte-manteau permet alors de conclure.

2. implique 3. (esquisse)

Notons $\,(G_{n})_{n\geq 0},\ G$ , les réciproques généralisées de $\,(F_{n})_{n\geq 0},\ F$ . Pour le triplet $\,({\widehat {\Omega }},{\widehat {\mathcal {A}}},{\widehat {\mathbb {P} }})$ , choisissons $\,{\widehat {\Omega }}=(0,1)$ , et prenons pour $\,({\widehat {\mathcal {A}}},{\widehat {\mathbb {P} }})$ la tribu des boréliens et la mesure de Lebesgue correspondantes (i.e. restreintes à $\,(0,1)$ ). Le choix de $\,X_{n}^{\prime }=G_{n},\ X^{\prime }=G$ satisfait à 3.1. et à 3.2. en vertu du théorème de la réciproque. De plus, en conséquence de 2., $\,(G_{n})_{n\geq 0}$ converge presque sûrement vers $\,G$ (mais cela mériterait d'être développé, voir pour cela le théorème de représentation de Skorokhod).

Le point 2 sert souvent, dans le cas des variables aléatoires réelles, de définition de la convergence en loi. L'implication 1.⇒3. reste vraie lorsque les variables aléatoires réelles sont remplacées par des variables aléatoires à valeurs dans un espace de Lusin $\,(S,d)$ , i.e. un espace métrisable assez général ( $\,S=\mathbb {R} ^{d}$ et $\,S={\mathcal {C}}([0,1],\mathbb {R} )$ en sont des exemples). L'implication 1.⇒3. porte alors le nom de théorème de représentation de Skorokhod.

Puisque F(a) = P(X ≤ a), le point 2 signifie que, pour n suffisamment grand, la probabilité que X appartienne à un certain intervalle est très proche de la probabilité que X_n soit dans cet intervalle.

Proposition — Si $(X_{n})_{n\geq 0}$ converge en loi vers $\,X$ , et si, pour tout x réel, $\mathbb {P} (X=x)=0,$ alors la suite F_n converge vers F uniformément sur R.

Cette conséquence du théorème de Dini est très utile, par exemple pour démontrer le théorème central limite pour les quantiles, ou pour démontrer le théorème central limite pour les processus de renouvellement.

Convergence en loi et fonctions caractéristiques

Théorème de continuité de Paul Lévy — Soit $\varphi _{n}(t)$ la fonction caractéristique de $X_{n}$ et $\varphi (t)$ celle de $X$ . Alors

\left\{\forall t\in \mathbb {R} :\varphi _{n}(t)\to \varphi (t)\right\}\quad \Leftrightarrow \quad \left\{X_{n}{\xrightarrow {\mathcal {L}}}X\right\}

Autrement dit, (X_n) converge en loi vers X si et seulement si la fonction caractéristique de la variable aléatoire réelle X_n converge simplement vers la fonction caractéristique de la variable aléatoire réelle X.

Convergence en loi et moments

Les moments (quand ils existent) peuvent s'obtenir à partir des dérivées en 0 de la fonction caractéristique. Mais comme la convergence simple des fonctions caractéristiques n'implique pas la convergence des dérivées en 0, en règle générale la convergence en loi n'implique pas la convergence des moments.

Par exemple soit $(X_{n})$ la suite des variables aléatoires tels que $P(X_{n}=0)=1-{\frac {1}{n}}$ et $P(X_{n}=n)={\frac {1}{n}}$ . Alors $(X_{n})$ ont pour espérance $E(X_{n})=1$ et pour variances $V(X_{n})=n-1$ . La suite $X_{n}$ converge en loi vers la constante $X=0$ , la suite des espérances converge vers $1$ , qui n'est pas l'espérance de la limite $E(X)=0$ , et la suite des variances ne converge même pas, alors que la variance de la limite est $V(X)=0$ .

En revanche, si les variables $X_{n}$ sont uniformément bornées ( $|X_{n}|\leq M$ ) et convergent en loi vers $X$ , alors $X$ est bornée ( $|X|\leq M$ ) et tous les moments $E(X_{n}^{r})$ convergent vers $E(X^{r})$ .

Démonstration

Il suffit de remarquer que pour $h$ fonction continue à support compact qui coïncide avec $x^{r}$ sur $[-M,M]$ et pour toute variable aléatoire $Y$ bornée par $M$ ( $|Y|\leq M$ ) nous avons $E(h(Y))=E(Y^{r})$ . Ainsi $E(X_{n}^{r})=E(h(X_{n}))\rightarrow E(h(X))=E(X^{r})$ .

Exemples

Théorème central limite :

La moyenne d'une suite de variables aléatoires centrées, indépendantes et de même loi, une fois renormalisée par $\sqrt n$ converge en loi vers la loi normale

{\sqrt {n}}{\bar {X}}_{n}{\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,\sigma ^{2}).

Convergence de la loi de Student :

La loi de Student de paramètre $k$ converge, lorsque $k$ tend vers $+\infty$ , vers la loi de Gauss :

\mathrm {t} (k){\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,1).

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Loi dégénérée :

La suite^[2] ${\mathcal {N}}\left(0,{\frac {1}{n}}\right)$ converge en loi vers une variable aléatoire X₀ dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée $\delta _{0}$ ) :

\mathbb {P} (X_{0}\leq x)=\delta _{0}\left(]-\infty ,x]\right)={\begin{cases}0&{\text{ si }}x<0,\\1&{\text{ si }}x\geq 0.\end{cases}}

Exemples importants

Les exemples de convergence en loi sont foison, le plus célèbre étant le Théorème central limite, cité plus haut, dû à Pierre-Simon de Laplace, pour lequel l'espace métrique (E, d) considéré est tout simplement la droite réelle munie de sa distance usuelle. Donnons deux exemples importants où l'espace métrique considéré, l'espace de Banach $\,({\mathcal {C}}([0,1]),\,||.||_{\infty }),\$ est moins élémentaire.

Théorème de Donsker pour les marches aléatoires

Soient $\,(U_{n},n\geq 1)$ une suite iid de variables aléatoires centrées, de carré intégrable et de variance $\,\sigma ^{2}$ . On interpole la marche aléatoire $\sum _{k=1}^{n}U_{k}$ de manière affine par morceaux en considérant le processus $\,(X_{n}(t),t\geq 0)$ défini, pour t ∈ [0,1], par

X_{n}(t)={\frac {1}{\sigma {\sqrt {n}}}}\left(\sum _{k=1}^{[nt]}U_{k}+(nt-[nt])U_{[nt]+1}\right),

où $[x]$ désigne la partie entière de $x$ . Considérons l'espace $\,{\mathcal {C}}([0,1])$ des fonctions à valeurs réelles et continues sur [0,1]. On munit $\,{\mathcal {C}}([0,1])$ de la tribu borélienne $\,{\mathcal {B}}$ et de la norme infinie $\,||.||_{\infty }$ . Ainsi, $\,X_{n}$ est une variable aléatoire à valeurs dans $\,({\mathcal {C}}([0,1]),{\mathcal {B}})$ .

Théorème (Donsker, 1951) — La suite $\,(X_{n},n\geq 1)$ converge en loi vers un mouvement brownien standard $\,B=(B_{t},t\geq 0)$ quand n tend vers l'infini.

Ici B est vu comme un élément aléatoire de $\,({\mathcal {C}}([0,1]),{\mathcal {B}})$ . Les diverses normalisations, indice $[nt]$ comme indice terminal de la sommation, et facteur ${\frac {1}{\sigma {\sqrt {n}}}}\$ devant la somme, correspondent à un « zoom arrière » par rapport à la trajectoire de la marche aléatoire : on « s'éloigne » de la représentation graphique de la marche aléatoire, en rétrécissant sa représentation graphique par un facteur ${\frac {1}{n}}\$ le long de l'axe horizontal et par un facteur ${\frac {1}{\sigma {\sqrt {n}}}}\$ le long de l'axe vertical, coefficients de réduction assurant, d'après le théorème central-limite, que le résultat de la réduction sera un graphe non-trivial : un coefficient de réduction vertical plus fort donnerait une trajectoire écrasée sur l'axe des abscisses, et un coefficient plus faible ferait apparaitre de fréquentes oscillations « d'amplitude infinie ». Le théorème de Donsker peut être vu comme une justification théorique de l'utilisation du mouvement brownien pour décrire la trajectoire de certaines particules, avec ses applications à l'étude du comportement thermodynamique des gaz (théorie cinétique des gaz), et du phénomène de diffusion, ou encore comme une justification théorique de l'utilisation du mouvement brownien en mathématiques financières : le mouvement brownien se comporte comme une marche aléatoire à sauts très fréquents, ces sauts étant de petite amplitude.

Théorème de Donsker pour les processus empiriques

Soit $\,(X_{i},i\geq 1)$ une suite iid de variables aléatoires de loi uniforme sur [0,1]. On note F la fonction de répartition commune des variables $\,X_{i}$ . ( $\,F(t)=\mathbb {P} [X_{i}\leq t]$ ) On définit la fonction de répartition empirique F_n de l'échantillon X₁,X₂,..., X_n par

F_{n}(t)={\frac {1}{n}}\sum _{i=1}^{n}1\!\!\!1_{X_{i}\leq t}\,,\,t\in [0,1]

ainsi que le processus empirique associé W_n par

W_{n}(t)={\sqrt {n}}(F_{n}(t)-F(t))={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}(1\!\!\!1_{X_{i}\leq t}-F(t))\,,\,t\in [0,1].

Considérons l'espace $\,D([0,1])$ des fonctions càdlàg (continues à droite et avec limites à gauche) sur [0,1] muni de la topologie de Skorokhod.

Théorème (Donsker, 1952)(conjecture de Doob, 1949) — La suite de processus $\,(W_{n},n\geq 1)$ converge en loi dans l'espace $\,D([0,1])$ vers un pont brownien $\,W=(W(t),t\in [0,1])$ quand n tend vers l'infini.

Ce théorème précise le théorème fondamental de la statistique, le Théorème de Glivenko-Cantelli, en donnant la vitesse de convergence, $\,{\mathcal {O}}\left(1/{\sqrt {n}}\right),\$ du processus empirique vers la fonction de répartition. Il justifie l'emploi de la distribution de Kolmogorov-Smirnov dans le test du même nom.

À voir

Notes

↑ (en) Patrick Billingsley, Convergence of Probability Measures, Wiley, août 1999, 2^e éd., 296 p. (ISBN 978-0-471-19745-4), p. 16
↑ Pour plus de détails sur cet exemple : voir Davidson et McKinnon (1993, chap. 4)

Références

(en) Russell Davidson et James McKinnon, Estimation and Inference in Econometrics, New York, Oxford University Press, 1993 (ISBN 0-19-506011-3), p. 874
(en) Geoffrey Grimmett et D.R. Stirzaker, Probability and random processes, Oxford New York, Clarendon Press Oxford University Press, 1992, 2^e éd. (ISBN 0-19-853665-8), p. 271-285
(en) Adrianus Willem van der Vaart, Asymptotic Statistics, Cambridge, Cambridge University Press, 1998 (ISBN 0-521-49603-9), p. 443

Article connexe

Topologie vague (en)

Portail des probabilités et de la statistique

[1] (en) Patrick Billingsley, Convergence of Probability Measures, Wiley, août 1999, 2^e éd., 296 p. (ISBN 978-0-471-19745-4), p. 16

[2] Pour plus de détails sur cet exemple : voir Davidson et McKinnon (1993, chap. 4)

[1]

[2]