[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
221 vues7 pages

PDF Probit PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 7

URCA 2008-2009

Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr

Economtrie 2 : donnes qualitatives, probit et logit e e

Un mod`le pour donnes qualitatives e e

Cette section est fortement inspire du cours de Christophe Hurlin. e On est confront ` des donnes qualitatives en micro-conomie et en marketing, lorsque lon tudie des choix ea e e e (dachat, de consommation, de comportement, de licenciement) ou des risques de dfaillance (prt). On peut e e prendre un exemple : pour une population dtudiants en L3, on sintresse ` lvnement sinscrire dans un e e a e e master.

I.1

Le mod`le dichotomique e

Par mod`le dichotomique, on entend un mod`le statistique dans lequel la variable explique ne peut prendre e e e que deux modalits (variable dichotomique). Il sagit alors gnralement dexpliquer la survenue ou non dun e e e v`nement, ou dun choix. Dans notre exemple, ltudiant sinscrit ou non en master. e e e On consid`re un chantillon de n individus dindices i = 1, .., n. Pour chaque individu, on observe si un certain e e v`nement sest ralis et lon pose : e e e e Yi = 1 0 si lv`nement sest ralis (ltudiant sinscrit) e e e e e si lv`nement ne sest pas ralis (pas dinscription) e e e e

On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les mod`les dichotomique. En e eet, celui-ci permet de dnir la probabilit de survenue de lv`nement comme lesprance de la variable Y , e e e e e puisque : E[Yi ] = Pr(Yi = 1) 1 + Pr(Yi = 0) 0 = Pr(Yi = 1). Lesprance de Yi donne donc la probabilit que ltudiant sinscrive en master. e e e Lobjectif des mod`les dichotomiques consiste alors ` expliquer la survenue de lvnement considr en fonce a e e ee tion de K caractristiques observes (Xi1 , . . . , XiK ) pour un individu i de lchantillon, par exemple lage de e e e ltudiant, son statut marital, sil a des enfants, le niveau de vie des parents... e

I.2

Un mod`le linaire ? e e

De mani`re gnrale, comme pour le mod`le linaire, on crit pour les variables explicatives Xi = (1, Xi1 , . . . , XiK ) e e e e e e et pour les param`tres = (0 , 1 , . . . , K ) , de sorte que 0 + 1 Xi1 + + K XiK = X. e Lusage direct dun mod`le linaire est vou ` lchec : crire Yi = Xi + impose ` Xi + de ne prendre e e e a e e a que les valeurs 0 et 1. Dans notre exemple, a reviendrait ` vouloir exprimer linscription en master comme une c a fonction linaire de lage et des autres variables explicatives. e Graphiquement, les valeurs de Y ne sont pas distribues autour dune droite, mais sur deux droites parall`les, e e Y = 0 et Y = 1.

Figure 1 Rgression linaire pour donnes qualitatives, avec K = 1. e e e En fait, par rapport au cadre dusage du mod`le linaire, on observe beaucoup moins dinformation. Ceci va e e appara grce ` lintroduction dune variable latente Y : tre a a Yi = cest-`-dire a Yi = 1 Xi +i 0 . l Pour utiliser les outils du mod`le linaire, il faudrait observer Y , ce qui nest pas le cas. Il faut donc se rsoudre e e e ae ` tre moins ambitieux et ` faire des hypoth`ses bien plus importantes. a e 1 0 Yi 0 Yi 0. o` Yi = Xi + i , u

I.3

Identication
N (0, 1).

Dans le cas gaussien, on va tre amen ` faire lhypoth`se tr`s forte que les rsidus sont rduits : e ea e e e e

En eet, si lon ne spcie pas la variance de , on a un probl`me didentication : les mod`les e e e Yi = 1 0.2+3Xi1 +i 0 avec N (0, 1) l Yi = 1 0.4+6Xi1 +i 0 avec N (0, 4) l donnent exactement les mmes observations. En supposant seulement que les rsidus sont gaussiens, on est donc e e impossible destimer les param`tres 0 et 1 . e On peut aussi choisir de spcier que les rsidus suivent la loi logistique, comme on va le voir au paragraphe e e suivant, limportant tant que la loi doit tre totalement spcie. e e e e

Figure 2 La densit de la loi logistique. e 2

I.4

Les mod`les probit et logit e

On cherche ` expliquer les valeurs de Y grce ` X, cest-`-dire ` estimer la probabilit que Yi = 1 sachant Xi a a a a a e (ou que Yi = 0, ce qui revient au mme). On remarque alors que : e Pr(Yi = 1|Xi ) = Pr(Xi + i 0|Xi ) = Pr(Xi i |Xi ) = F (Xi ). La seule dirence entre les mod`les probit et logit est la spcication de F . Dans ces deux cas, la loi des rsidus e e e e est symtrique, on peut donc remplacer F par F . e Probit Le mod`le probit correspond ` la spcication gaussienne introduite ` la section prcdente. F est e a e a e e donc la fonction de rpartition dun gaussienne centre rduite, usuellement note : e e e e
Xi

F (Xi ) = (Xi ) =

et /2 dt, 2

la densit correspondante, usuellement note , est : e e e(Xi ) f (Xi ) = (Xi ) = 2


2

/2

Logit Le mod`le Logit correspond ` la loi logistique, introduite spcialement pour ce type de mod`le, de e a e e fonction de rpartition : e 1 eXi = , F (Xi ) = (Xi ) = Xi 1+e 1 + eXi la densit correspondante, usuellement note , est : e e f (Xi ) = (Xi ) = eXi = (Xi )(1 (Xi )). (1 + eXi )2

Il ny a pratiquement pas de dirence entre ces deux lois, lintroduction de la loi logistique tant simplement e e motive par sa simplicit dans ce cadre. e e

I.5

Interprtation e

Une fois le mod`le estim, on obtient des valeurs pour les param`tres () quil faut interprter. Laspect essentiel e e e e est leet marginal de la j-`me variable Xij , sur la probabilit de lvnement Y = 1 pour lindividu i. Cette e e e e eet scrit pour une variable Xij continue (pour une variable explicative qualitative, il faut considrer un taux e e daccroissement) : F (Xi ) = f (Xi )j . Xij On a vu prcdemment que les probl`mes didentication laisse peu de crdit ` la valeur quantitative de j , e e e e a cest donc surtout son signe que lon va commenter. On peut donc tirer de ce mod`le le signe de leet de Xij . e Si j > 0, Xij a un eet positif sur lvnement considr. e e e e Si j < 0, Xij a un eet ngatif sur lvnement considr. e e e e e

II
II.1

Analyse statistique
Estimation par Maximum de Vraisemblance
N

On utilise la mthode du maximum de vraisemblance pour estimer nos param`tres. La vraisemblance scrit : e e e L() =
i=n

F (Xi )Yi (1 F (Xi ))1Yi .

et donc la log-vraisemblance vaut :


N N

log L() =
i=1

Yi log F (Xi ) +
i=1

(1 Yi ) log (1 F (Xi )) log (1 F (Xi )) .


i:Yi =0

=
i:Yi =1

log F (Xi ) +

Pour chaque mod`le, on remplace F par sa valeur et lon estime en rsolvant la condition au premier ordre e e (la nullit du gradient de la log-vraisemblance). Lintrt technique du mod`le logit appara ici. En pratique, e ee e t cest bien sr SAS qui soccupe de cette tape. u e Sous certaines conditions, lestimateur du maximum de vraisemblance est convergent et suit asymptotiquement une loi normale centre sur la vraie valeur des param`tres et de matrice de variance covariance gale ` linverse e e e a de la matrice dinformation de Fisher I() (loppose de lesprance de la Hessienne de la log-vraisemblance). e e Cest la connaissance de cette loi asymptotique qui permet destimer les variances asymptotiques des estimateurs j .

II.2

Tests

On peut obtenir des statistiques pivotales, cest-`-dire des statistiques dont on conna la loi asymptotique, qui a t permettent de tester des contraintes sur les coecients, en particulier leur nullit. On obtient ` chaque fois une e a statistique asymptotiquement 2 , on compare donc les valeurs obtenues aux quantiles du 2 . Rapport de vraisemblance Dans le cadre de lestimation par maximum de vraisemblance, le test le plus naturel consiste ` construire un rapport de vraisemblance. Pour tester une contrainte de rang p r sur de a dimension p, on utilise le rsultat suivant : e LR = 2 log L() log L(c ) 2 , r
N L

o` c est lestimateur du maximum de vraisemblance sous la contrainte. u Score On peut aussi utiliser la nullit du score (aussi appel test du multiplicateur de Lagrange), en mesurant e e la norme || ||2 du score valu en c : e e log L() I(c )1
= c

log L()

N = c

2 . r

test de Wald Le test de Wald, proche du test de score, sert spciquement ` tester la nullit dun ou plusieurs e a e coecients, en particuliers de tous sauf la constante : 2 j Ijj ()
K

2 et 1
n

2 k

I () k=1 kk

2 . K
n

II.3

Taux dexplication

On peut prendre du recul sur la modlisation et se demander simplement si notre mod`le estim est capable e e e dexpliquer les observations. On se demande alors quelle valeur le mod`le prdirait pour Y , sachant X. On e e calcule alors F (Xi ) et on prdit Yi = 1 si la probabilit prdite pour loccurrence de lvnement est suprieure e e e e e e i = 0 sinon : a ` 1/2, Y Yi = 1 F (Xi )>1/2 . l On peut alors calculer le taux de prdictions justes (Yi = Yi ). e

III

La procdure LOGISTIC e

Les mots en majuscule sont des commandes SAS. Les mots en minuscule sont des noms donns par lutilisateur. e On suppose disposer dun table donnes dans la librairie WORK (qui est la librairie par dfaut). e e donnes contient les variables Y, X1, X2, sexe et poids. On suppose avoir ordonn la table par sexe. e e On veut estimer le mod`le expliquant Y par X1 et X2, pour chaque valeur de sexe sparment et avec les e e e pondrations poids. e Pr(Y = 1|X1, X2) = F (0 + 1 X1 + 2 X2).

III.1

Entre e

PROC LOGISTIC DATA=donnes1 ; e BY sexe 2 ; MODEL Y = X1 X2 / LINK= LOGIT3 ALPHA= 0.054 ; OUTPUT OUT=sortie PROB=prdictions5 XBETA=modliss6 ; e e e test1 : TEST INTERCEPT7 + .5*X2 = 0 ; test2 : TEST X1=X2 ; WEIGHT poids ; RUN ;
1 2

3 4 5 6 7

Nom de la table a utiliser. BY sexe : lance la proc sur les sous populations dnies par les valeurs de la variable sexe. Il faut avoir e ordonner la table avant, avec : PROC SORT DATA=donnes ; BY sexe ; run ; e LINK= LOGIT (par dfaut) ou PROBIT : linverse de F (1 ou 1 ). e ALPHA= 0.05 (par dfaut) ou 0.1 ou 0.01 : cest le niveau de conance des IC. e Pour sauver dans une table sortie les donnes et les rsultats, par exemple les valeurs de Yi . e e Sous SAS, le vecteur des param`tres est not , do` le nom. Calcule et sauve les valeurs de X . e e u INTERCEPT est la constante.

III.2

Sortie

On veut expliquer le ronement par lage, le sexe et la consommation rguli`re dalcool. On tape donc : e e Proc LOGISTIC DATA=donnees ; MODEL rone=age sexe alcool/ LINK=PROBIT ; RUN ; On obtient :
Le Syst`me SAS e 10:54 Wednesday, January 17, 2007 The LOGISTIC Procedure Informations sur le mod`le e Data Set Response Variable Number of Response Levels Model Optimization Technique WORK.DONNEES RONFLE 2 binary probit Fishers scoring 100 100 31

RONFLE

Number of Observations Read Number of Observations Used

Valeur ordonne e 1 2

Profil de rponse e Frquence e RONFLE totale 0 65 1 35

Probability modeled is RONFLE=0. tat de convergence du mod`le E e Convergence criterion (GCONV=1E-8) satisfied. Statistiques dajustement du mod`le e Coordonne a lorigine e ` uniquement 131.489 134.094 129.489

Crit`re e AIC SC -2 Log L

Coordonne a lorigine e ` et covariables 122.209 132.629 114.209

Test de lhypoth`se nulle globale : BETA=0 e Test Khi 2 DF Pr > Khi 2 Likelihood Ratio 15.2806 3 0.0016 Score 13.7844 3 0.0032 Wald 13.6723 3 0.0034 Analyse des estimations de la vraisemblance maximum Erreur Khi 2 Param`tre e DF Estimation std de Wald Pr > Khi 2 Intercept 1 2.7487 0.8057 11.6373 0.0006 AGE 1 -0.0385 0.0132 8.4432 0.0037 SEXE 1 0.1824 0.3740 0.2377 0.6258 ALCOOL 1 -0.1118 0.0468 5.7027 0.0169 Association des probabilits prdites e e Percent Concordant 72.2 Percent Discordant 27.7 Percent Tied 0.1 Pairs 2275 et des rponses observes e e Somers D 0.445 Gamma 0.446 Tau-a 0.205 c 0.723

SAS commence par donner quelques informations descriptives sur les donnes et le mod`le. On explique cie e dessous les principaux rsultats. e

Statistiques dajustement du mod`le e


Permet de comparer plusieurs mod`les pour les mmes donnes. Le meilleur mod`le est celui pour lequel e e e e les crit`res sont les plus petits. e La premi`re colonne donne les valeurs obtenues avec 0 uniquement, la seconde avec le mod`le complet. e e On esp`re donc que les valeurs diminuent. e AIC Akaike Information Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de e variables explicatives. SC Schwarz Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de variables e explicatives et le nombre de donnes. e 2 log L 2 log du maximum de la vraisemblance.

Test de lhypoth`se nulle globale : = 0 e


Propose 3 tests pour la nullit de tous les coecients. La premi`re colonne la valeur de la statistique de e e test (asymptotiquement 2 ), la deuxi`me colonne rappelle p et la troisi`me donne la p-value, cest-`-dire e e a p le quantile du 2 correspondant (on accepte la nullit si la p-value est grande). e Likelihood Ratio Le test bas sur le rapport de vraisemblance. e Score Le test bas sur le score. e Wald Le test de Wald.

Analyse des estimations de la vraisemblance maximum


Donne les valeurs estimes pour les j et des indications de leur signicativit. La premi`re ligne donne e e e 0 . Les autres lignes donnent les coecients de variables explicatives. la constante DF Rappelle la dimension du param`tre. e Estimation Donne j . Erreur std Donne lestimation de lcart-type : e I()jj .

Khi 2 de Wald Donne la valeur du test de Wald pour la nullit du coecient j . e Pr > Khi 2 Donne la p-value de ce test.

Association des probabilits prdites et des rponses observes e e e e


Donne des statistiques sur la justesse des prdictions Yi . Une paire est forme par deux individus ayant e e une rponse dirente : Yi1 = Yi2 . Il y a concordance si les Yi sont dans le mme ordre que les Yi . Si les e e e ordres sont dirents, la paire est discordante. e Percent Concordant Le pourcentage de paires concordantes. Percent Discordant Le pourcentage de paires discordantes. Percent Tied Le pourcentage de paires indtermines. e e Pairs Le nombre de paires. Somers D D de Somers : indice de la justesse des prdictions. Les 3 indices suivants jouent le mme rle. cest e e o indices sont compris entre 0 et 1, et lon veut une mesure proche de 1. Gamma de Goodman-Kruskal. 6

Tau-a a de Kendall. c c de Hanley and McNeil 1982.

IV

TP SAS

En tapant harari et reims dans google, vous devriez trouver ma page web vous concernant. Sinon, ladresse est http://www.crest.fr/ckfinder/userfiles/files/Pageperso/hharari/harari_fichiers/reims.htm On va sattaquer au jeu de donne tl-achat. Lobjectif est dexpliquer si la vente est nulle ou non. e ee 1. Mise en jambe (a) Importez les donnes et faites en une copie de sauvegarde. e (b) Faire une analyse descriptive de la table. 2. Analyse statistique globale (a) Chercher le meilleur mod`le possible pour expliquer le sil y a eu vente ou non. Vous pouvez amliorer e e le mod`le en choisissant au mieux les variables explicatives et la loi des rsidus (gaussienne ou e e logistique). (b) Conjecturer un lien entre les coecients de ce mod`le et tester cette conjecture. e 3. Analyse statistique direncie e e (a) Reprendre ltude sparment pour les jours de semaine et pour le week-end. e e e (b) Trouve-t-on une dirence avec lanalyse globale ? e

Vous aimerez peut-être aussi