Chapitre4 : Notions de probabilités
Introduction
La théorie des probabilités propose un modèle mathématique permettant d’appréhender
le monde, ses causes et ses effets. C’est une théorie très efficace, ce qui en explique la présence
dans tous les domaines de la connaissance, de la science et de l’ingénierie. L’objet du présent
chapitres est d’en rappeler les définitions et résultats fondamentaux dans une perspective
d’application à la statistique.
1- Expériences aléatoires et modèles probabilistes
Certaines expériences, même si elles ne produisent pas le même résultat à chaque
réalisation, semblent exhiber des caractères de régularité lorsqu’elles sont réitérées un grand
nombre de fois dans des conditions identiques. De telles expériences sont dites aléatoires. Par
exemple, un tirage à pile ou face, un jet de dé à 6 faces, le nombre de connexions à un serveur
dans un intervalle de temps donné, la mesure de la tension aux bornes d’un composant
électronique, sont autant d’expériences aléatoires. En effet, pour chacune de ces expériences,
le résultat peut différer d’une réalisation à l’autre. Mais pour chacune d’entre elles, nous
pouvons mettre en évidence un caractère de régularité à partir d’un grand nombre de
réalisations. Par exemple, si nous effectuons N mesures de la tension aux bornes d’un
composant électronique et que nous comptons le nombre de fois n où cette tension reste
inférieure ou égale à x, nous pouvons calculer la fréquence n/N de l’événement « La tension est
inférieure ou égale à x sur N mesures ». Lorsque N augmente et que les conditions
expérimentales restent identiques, la fréquence d’occurrence semble tendre vers une valeur bien
déterminée.
Puisqu’une expérience aléatoire peut produire des résultats différents à chaque
réalisation, nous commençons par donner une définition et un nom à l’ensemble de tous les
résultats possibles de cette expérience.
2.1 Axiomatique de Kolmogorov
Définition 1 (Univers)
L’ensemble Ω de tous les résultats possibles d’une expérience spécifiée par un protocole
expérimental donné est appelé univers. On dira aussi que Ω est l’espace des états ou espace
des possibles de l’expérience aléatoire.
Cette définition suppose évidemment l’univers Ω non vide car, sinon, elle n’a aucun
intérêt. Insistons aussi sur le fait que le qualificatif de « possible » souligne que Ω ne contient
que les résultats que l’on peut constater lors de l’expérience. Ainsi, lorsque nous lançons un dé
à 6 faces, cet ensemble des possibles est Ω = {1,2,3,4,5,6} et n’est pas {1,2,3,4,5,6,7} parce que
7 n’est pas une valeur que l’on peut obtenir en lançant le dé. L’espace des états n’est pas non
plus N, R, etc. Dans le même ordre d’idée, notons aussi que dans le cas où le dé à 6 faces serait,
sans que nous le sachions, lesté de telle manière que certaines valeurs ne puissent jamais sortir,
il n’y a pas lieu de changer d’univers puisque nous ignorons a priori que ce dé est pipé. En
d’autres termes, l’espace des états est l’ensemble des résultats possibles compte tenu de
l’expérience : nous lançons un dé à 6 faces et chaque face est a priori possible.
1
Définition 2 (Espace probabilisable)
Un espace probabilisable (ou mesurable) est un couple (Ω,𝑇 ) où Ω est un ensemble et
T une tribu de Ω, c’est-à-dire un ensemble de parties de Ω vérifiant les propriétés suivantes :
1. Ω ∈ Τ
2. Si A ∈ Τ, alors𝐴̅ ∈ Τ où 𝐴̅ est le complémentaire de A dans Τ
3. Si (𝐴𝑛 )𝑛∈𝑁 ∗ est une suite d’éléments de Τ, alors ⋃∞
𝑛=1 ∈ 𝑇
Les éléments de T sont appelés événements. En particulier, pour tout ω ∈ Ω, le singleton
{ω} est appelé événement élémentaire.
Exemple 1
L’ensemble des parties de Ω est une tribu de Ω. C’est même la plus grande tribu que
l’on peut construire sur Ω. Considérons l’expérience aléatoire qui consiste à tirer au hasard
un objet sur une ligne de conditionnement sur laquelle circulent trois types d’objets différents
: a, b, c. L’univers associé à cette expérience est Ω = {a,b,c} et l’ensemble des parties de Ω est
T = {∅,{a},{b},{c},{a,b},{a,c},{b,c},Ω} qui est une tribu de Ω.
Exemple 2
Si A ⊆ Ω, alors {∅, Ω, 𝐴, 𝐴̅} est une tribu de Ω.
Définition 3 (Espace probabilisé)
Un espace probabilisé est un triplet (Ω, 𝑇 , 𝑃) où (Ω, 𝑇 ) est un espace probabilisable et
P une mesure de probabilité sur T , c’est-à-dire une application de T dans [0,1] telle que :
1. 𝑃 (Ω) = 1 [Condition de normalisation]
2. Soit (𝐴𝑛 )𝑛∈𝑁∗ est une suite d’événements disjoints 2 à 2 :
∞ ∞
𝑃 (⋃ 𝐴𝑛 ) = ∑ 𝑃(𝐴𝑛 )
𝑛 𝑛
[σ-additivité].
Exemple 3 (Univers dénombrable)
Soit 𝛺 = {𝜔𝑖 : 𝑖 ∈ 𝐼 } où 𝐼 ⊆ 𝑁 ∗ et les 𝜔𝑖 𝑠𝑜𝑛𝑡 𝑑𝑖𝑠𝑡𝑖𝑛𝑐𝑡𝑠 2 à 2 : 𝜔𝑖 ≠ 𝜔𝑗 pour 𝑖 ≠ 𝑗
dans I. On dit que Ω est dénombrable. Dans ce cas, la tribu T sera l’ensemble des parties de
Ω. On assignera ensuite à tout 𝜔𝑖 ∈ 𝛺 une valeur 𝑝𝑖 ∈ [0,1] avec ∑𝑖∈𝐼 𝑝𝑖 = 1. Pour tout 𝐴 ⊆
𝛺 on posera alors 𝑃(𝐴) = ∑𝑖∈𝐾(𝐴) 𝑝𝑖 où 𝐾 (𝐴) ⊆ 𝐼 est l’ensemble des indices des éléments 𝜔𝑖
de A
Exemple 4 (Probabilité uniforme ou équiprobabilité)
Si 𝛺 = {𝜔1 , 𝜔2 , … . , 𝜔𝑛 } est fini, les 𝜔𝑖 étant distincts 2 à 2, la probabilité uniforme sur
Ω est définie en posant 𝑝𝑖 = 1⁄𝑛.
2.2 Probabilité conditionnelle
Dans la pratique, il est très souvent utile de savoir calculer la probabilité d’un événement A,
conditionnellement à ou sachant l’événement B. Par exemple, dans un jeu de dé à 6 faces, quelle
est la probabilité que le résultat soit 6 sachant que ce résultat est pair ? Dans cette question, on
cherche donc à calculer la probabilité de l’événement A = {6} conditionnellement à l’événement
2
B = {2,4,6}. Comme il y a équiprobabilité des tirages et qu’il n’y a qu’une seule chance sur 3
de tirer 6 parmi {2,4,6}, l’intuition nous dit que la probabilité conditionnelle de A sachant B est
1/3. La définition générale qui permet de retrouver ce résultat est l’axiome de Bayes suivant.
Définition 4 (Probabilité conditionnelle)
Soit un espace probabilisé (Ω, 𝑇 , 𝑃) et un événement A tel que 𝑃 (𝐴) ≠ 0. Pour tout
𝐵 ∈ 𝑇 , on définit la probabilité conditionnelle de B sachant A par :
𝑃(𝐴⋂𝐵)
𝑃 (𝐵 ⁄𝐴 ) =
𝑃 (𝐴 )
Axiome de bayes
Proposition 1
Avec les notations précédentes, l’application qui associe à tout 𝐵 ∈ 𝑇 la valeur
𝑃 (𝐵|𝐴) est une probabilité.
Proposition 2 (Formule de Bayes)
Supposons que Ω = ⋃∞ 𝑛 𝐴𝑛 où les 𝐴𝑛 sont disjoints 2 à 2. La formule de Bayes permet
de calculer les probabilités a posteriori 𝑃 (𝐴𝑛 |𝐵) et et 𝑃 (𝐵|𝐴𝑛 ) :
𝑃 (𝐴𝑛 )𝑃(𝐵⁄𝐴𝑛 )
𝑃 (𝐴𝑛 |𝐵) = ∞
∑𝑘=1 𝑃(𝐴𝑘 )𝑃(𝐵⁄𝐴𝑘 )
On notera que le résultat de la proposition précédente se démontre facilement après avoir
remarqué que 𝑃(𝐵) = ∑∞ 𝑘=1 𝑃 (𝐴𝑘 )𝑃(𝐵 ⁄𝐴𝑘 ) (formule des probabilités totales).
Exemple 5
35% des abonnés aux réseaux MTN sont clients chez l’opérateur Camtel. Parmi les
clients de cet opérateur, 25% ont un forfait 4G alors que pour les autres opérateurs ce chiffre
est de seulement 15%. Quelle est la probabilité qu’un abonné quelconque ait un forfait 4G ?
Cette probabilité se détermine en appliquant la formule des probabilités totales. Soit
𝐵 = {𝑙’𝑎𝑏𝑜𝑛𝑛é 𝑎 𝑢𝑛 𝑓𝑜𝑟𝑓𝑎𝑖𝑡 4𝐺} et 𝐴 = {𝑙’𝑎𝑏𝑜𝑛𝑛é 𝑒𝑠𝑡 𝑐𝑙𝑖𝑒𝑛𝑡 𝑐ℎ𝑒𝑧 𝐶𝑎𝑚𝑡𝑒𝑙} , alors
𝑃 (𝐵) = 𝑃 (𝐵|𝐴) 𝑃 (𝐴) + 𝑃 (𝐵|𝐴̅) 𝑃 ( 𝐴̅ ) = 0,25 × 0,35 + 0.15 × 0.65 = 0.185.
2.3 Indépendance
Définition 5 (Evénements indépendants)
Soit un espace probabilisé (Ω, 𝑇 , 𝑃). On dit que deux événements A et B — c’est-à-dire,
2 éléments de T — sont indépendants si 𝑃 (𝐴 ∩ 𝐵) = 𝑃 (𝐴) 𝑃 (𝐵).
Proposition 3 (Indépendance et probabilité conditionnelle)
Avec les notations de la définition précédente, supposons que 𝑃 (𝐵) ≠ 0. Les
événements A et B sont indépendants si et seulement si 𝑃 (𝐴|𝐵) = 𝑃 (𝐴).
Autrement dit, deux événements sont indépendants (et en omettant le cas particulier où
l’un est de probabilité nulle), si la réalisation de l’un n’influe pas sur la probabilité de réalisation
de l’autre.
3
2- Variables aléatoires
3.1 Définitions
Le concept de variable aléatoire formalise la notion de « grandeur » associée au résultat
d’une expérience aléatoire. Cette notion qui associe une grandeur à chaque élément de l’univers
Ω d’une expérience aléatoire correspond à la notion d’application.
Définition 6 (Variable aléatoire)
Une variable aléatoire réelle définie sur un espace probabilisable (Ω, 𝑇) est une
application :
𝑋: Ω → 𝑅
𝜔 ↦ 𝑋 (𝜔 )
telle que l’image réciproque 𝑋 −1 (I) soit un élément de T pour tout intervalle I de B (R).
On dit que cette application est mesurable. L’ensemble X(Ω) des valeurs prises par la variable
aléatoire X est appelé domaine de variation de X.
Exemple 6
Considérons une expérience où un objet manufacturé est tiré de façon aléatoire sur une
chaîne de production. Une variable aléatoire peut être l’application qui à chaque objet va lui
associer sa taille, son poids ou tout autre grandeur le définissant. C’est donc ici une application
de Ω=« l’ensemble des objets possibles de la chaîne de production » vers R.
Dans la suite, nous rencontrerons essentiellement :
- des variables aléatoires discrètes : X(Ω) est une partie finie ou dénombrable de R,
- des variables aléatoires absolument continues : X(Ω) est tout R ou un intervalle
d’intérieur non vide de R et X admet une densité.
Définition 7 (Loi de probabilité)
La notion de variable aléatoire permet de transposer la structure abstraite du modèle
probabiliste sur l’espace d’arrivée R en définissant la loi de probabilité de X, notée
PX, qui est la probabilité image de P par X :
∀𝐵 ∈ 𝐁(𝑅), 𝑃𝑋 (𝐵) = 𝑃(𝑋 −1 (𝐵)) = 𝑃(𝑋 ∈ 𝐵)
La loi d’une variable aléatoire réelle est entièrement caractérisée par la fonction de
répartition de cette variable.
Définition 8 (Fonction de répartition)
La fonction de répartition 𝐹𝑋 d’une variable aléatoire réelle X est définie par :
∀𝑥 ∈ 𝑅, 𝐹𝑋 (𝑥) = 𝑃(𝑋 −1 (]−∞, 𝑥 ])) = 𝑃(𝑋 ≤ 𝑥 )
La fonction de répartition vérifie les propriétés suivantes :
- Elle existe toujours.
- 𝐹𝑋 est croissante
4
- 𝐹𝑋 es continue à droite
- lim 𝐹𝑋 (𝑥 ) = 1 𝑒𝑡 lim 𝐹𝑋 (𝑥 ) = 0
𝑥→+∞ 𝑥→−∞
Proposition 4
La fonction de répartition FX d’une variable aléatoire réelle X possède les propriétés
suivantes pour tout a,b ∈ R tels que a < b :
𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝐹𝑋 (𝑎) − 𝐹𝑋 (𝑏)
𝑃 (𝑎) = 𝐹𝑋 (𝑎) − 𝐹𝑋 (𝑎− )
𝑃(𝑎 < 𝑋) = 1 − 𝐹𝑋 (𝑎)
𝑃 (𝑋 < 𝑎) = 𝐹𝑋 (𝑎− )
où 𝐹𝑋 (𝑎− )est la limite à gauche de la fonction de répartition au point a.
Notez que pour une variable aléatoire discrète X, la fonction de répartition est peu
utilisée car on connaît tout de X dès que l’on connaît les P (X = xi) où X(Ω) = {xi : i ∈ I} avec I
⊆ N∗ .
Définition 9 (Densité de probabilité)
Une variable aléatoire réelle X de fonction de répartition F X admet une densité s’il
existe une fonction 𝑓𝑋 ∶ 𝑅 ⟼ [0, + ∞[ telle que :
∫ 𝑓𝑋 (𝑡) 𝑑𝑡 = 1
𝑅
𝑥
[Condition de normalisation] et 𝐹𝑋 (𝑥) = ∫−∞ 𝑓𝑋 (𝑡)𝑑𝑡
Si une variable aléatoire X admet une densité 𝑓𝑋 , on dit que la fonction de répartition 𝐹𝑋
est absolument continue de densité 𝑓𝑋 . Par abus de langage, nous dirons aussi que X est
absolument continue.
Figure 1 – (a) Fonction de répartition d’un jeu de dé équilibré. (b) Fonction de répartition
d’une variable aléatoire réelle.
5
Proposition 5
Si une variable aléatoire réelle X est absolument continue, alors la fonction de
répartition FX de X est continue et une densité fX de X est obtenue par :
𝑓𝑋 (𝑥 ) = 𝐹𝑋′ (𝑥 ), presque partout (p.p)
En pratique, (p.p) signifiera : partout sauf, peut-être, sur un sous-ensemble
dénombrable de R.
Proposition 6
Soit une variable aléatoire X dont la fonction de répartition F X est continue. Si
l’ensemble ℰ ⊆ 𝑅 des réels où FX n’est pas dérivable est vide ou fini, X est absolument
continue et une densité f de X est 𝑓(𝑥) = 𝐹𝑋′ (𝑥) pour tout x ∈ R \ E et en choisissant
arbitrairement la valeur f(x) dans [0,∞[ pour tout x de E, si celui-ci est non vide.
Proposition 7
Soient a et b deux réels quelconques tels que 𝑎 ≤ 𝑏, toute variable aléatoire réelle X
absolument continue de densité fX et de fonction de répartition FX vérifie :
1. 𝑃 (𝑋 = 𝑎) = 0
𝑎
2. 𝑃 (𝑋 ≤ 𝑎) = 𝑃(𝑋 < 𝑎) = ∫−∞ 𝑓𝑋 (𝑥 ) 𝑑𝑥
∞
3. 𝑃 (𝑎 ≤ 𝑋) = 𝑃(𝑋 < 𝑎) = ∫𝑎 𝑓𝑋 (𝑥 ) 𝑑𝑥
4. 𝑃 (𝑎 < 𝑋 ≤ 𝑏) = 𝑃 (𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃 (𝑎 ≤ 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏)
𝑏
= ∫ 𝑓 (𝑥 )𝑑𝑥 = 𝐹𝑋 (𝑏) − 𝐹𝑋 (𝑎)
𝑎
Exemple 7
Pour dimensionner un réseau de téléphonie, on modélise la durée (en minutes) d’une
1
conversation comme une variable aléatoire X de densité de probabilité 𝑓𝑋 (𝑥 ) = 2 𝑒 −𝑥 ⁄2 si x est
positif et fX(x) = 0 sinon. Quelle est la probabilité qu’une conversation dure entre une et deux
minutes ?
1 2
Il suffit de calculer 𝑃(1 ≤ 𝑋 ≤ 2) = ∫1 𝑒 −𝑥 ⁄2 𝑑𝑥 = 𝑒 −1⁄2 − 𝑒 −1 ≈ 0,24
2
Exemple 8 (Transformation affine)
Soit une variable aléatoire réelle X de densité fX. Etant donnés deux réels 𝑎 ≠ 0 et b,
considérons la variable aléatoire Y = aX + b de X.
i. Si 𝑎 > 0, pour tout 𝑦 ∈ 𝑅
𝑦−𝑏 𝑦−𝑏
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃 (𝑋 ≤ ) = 𝐹𝑋 ( )
𝑎 𝑎
La proposition 6 implique que Y est absolument continue de densité
1 𝑦−𝑏
𝐹𝑌 (𝑦) = 𝑓𝑋 ( )
𝑎 𝑎
ii. Si 𝑎 < 0, pour tout y ∈ R,
6
𝑦−𝑏 𝑦−𝑏
𝐹𝑌 (𝑦) = 𝑃 (𝑌 ≤ 𝑦) = 𝑃 (𝑋 ≥ ) = 1 − 𝐹𝑋 ( )
𝑎 𝑎
La proposition 6 implique que, dans ce cas, Y est absolument continue de densité
1 𝑦−𝑏
𝑓𝑌 (𝑦) = − 𝑓𝑋 ( )
𝑎 𝑎
Nous concluons que Y est absolument continue de densité :
1 𝑦−𝑏
𝑓𝑌 (𝑦) = 𝑓𝑋 ( )
|𝑎| 𝑎
Exemple 9
Soit une variable aléatoire X absolument continue de densité fX. On suppose que FX est
dérivable sur tout R. Soit la variable aléatoire Y = X 2 et FY , la fonction de répartition de Y .
Pour y < 0, FY (y) = 0 puisque Y ne prend que des valeurs positives ou nulles. Pour 𝑦 ≥ 0,
nous avons :
𝐹𝑋 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑋 2 ≤ 𝑦) = 𝑃(−√𝑦 ≤ 𝑋 ≤ √𝑦) = 𝐹𝑋 (√𝑦) − 𝐹𝑋 (−√𝑦)
Où 𝐹𝑋 est la fonction de répartition de X. En résumé, nous avons :
𝐹𝑌 (𝑦) = { 𝐹𝑋 (√𝑥) − 𝐹𝑋 (−√𝑥) 𝑠𝑖 𝑦 ≥ 0
0 𝑠𝑖𝑛𝑜𝑛
La fonction de répartition de Y est dérivable sur R\ {0}. La proposition 6 nous permet de
déduire que la variable aléatoire Y est absolument continue de densité :
1
(𝑓𝑋 (√𝑦) + 𝑓𝑋 (−√𝑦)) 𝑠𝑖 𝑦 ≥ 0
𝑓𝑌 (𝑦) = {2√𝑦
0 𝑠𝑖𝑛𝑜𝑛
Exemple 10
Soient une variable aléatoire X de densité fX et la variable aléatoire Y = |X|. Nous supposons
que la fonction de répartition FX est dérivable sur tout R. Pour y < 0, FY (y) = 0, puisque Y ne
prend que des valeurs positives ou nulles. Pour y > 0, nous avons :
𝐹𝑌 (𝑦) = 𝑃 (|𝑋| ≤ 𝑦) = 𝑃 (−𝑦 ≤ 𝑋 ≤ 𝑌) = 𝐹𝑋 (𝑦) − 𝐹𝑋 (−𝑦)
Où 𝐹𝑋 est la fonction de répartition de X. finalement Nous avons :
𝐹 (𝑦) − 𝐹𝑋 (−𝑦) 𝑠𝑖 𝑦 ≥ 0
𝐹𝑌 (𝑦) = { 𝑋
0 𝑠𝑖𝑛𝑜𝑛
La fonction de répartition de X est dérivable sur R. Il s’ensuit que :
𝐹𝑌′ (𝑦) = 𝑓𝑋 (𝑦) + 𝑓𝑋 (−𝑦)
Pour tout 𝑦 ≥ 0. Comme FX (y) = 0 pour y < 0, la fonction de répartition FY est dérivable
pour tout y < 0. Il s’ensuit que FY est dérivable sur tout R. Par application de la proposition 6,
Y est absolument continue et une densité de cette variable aléatoire est :
𝑓𝑋 (𝑦) + 𝑓𝑋 (−𝑦) 𝑠𝑖 𝑦 ≥ 0
𝑓𝑌 (𝑦) = {
0 𝑠𝑖𝑛𝑜𝑛