TP1 Arbre de Decision Et Foret Aleatoire 2024-2025
TP1 Arbre de Decision Et Foret Aleatoire 2024-2025
TP1 Arbre de Decision Et Foret Aleatoire 2024-2025
Indications générales :
1. Le TP doit impérativement se faire en groupes de 2 à 4 personnes (selon
la liste des groupes déjà fixée).
2. Le travail doit être démarré durant la séance de TP, à terminer chez soi
pour être remis sur Campus avant le 22/10/2024 à 23h55.
3. Un compte rendu obligatoire en format PDF doit être soumis par chaque
groupe avant le 22/10/2024 à 23h55.
4. Aucun dépôt en retard n’est autorisé, et les envois par email ne seront pas
acceptés.
5. Dans le compte rendu vous présentez le code utilisé pour résoudre chaque
partie (dans le cas où le code n’est pas donné) ainsi que les résultats
obtenus et l’interprétation détaillée des résultats le cas échéant.
6. L’évaluation est principalement sur votre capacité d’analyser, de critiquer
et d’interpréter les résultats. Ainsi, il est essentiel d’expliquer clairement
vos conclusions.
7. Les codes sont donnés en R-Studio. Mais si vous êtes plus à l’aise avec un
autre langage, n’hésitez pas à l’utiliser.
1
Les nombres qui apparaissent dans chaque cercle (= nœud) sont les nombres
d’individus appartenant à chacun des groupes. Déterminer le meilleur
d’entre ces deux splits si on utilise pour mesure de l’impureté l’entropie.
2. On considère un problème de classification en 2 groupes. Considérer l’arbre
ci dessous où, dans chaque cercle ( = nœud), l’expression xxx/yyy indique
que, dans ce nœud, il y a xxx individus bien classés sur un total de yyy
individus dans le nœud (bien classé selon la règle habituelle du cours).
2
que les splits qui aboutissent à deux nœuds descendants) :
(a) Cas Xj continue (on pourrait croire qu’il y a une infinité de splits
possibles mais en fait, comme il y a Nt individus dans le nœud t, il y aura
un nombre fini de splits ayant un impact sur les nœuds descendants de t).
(b) Cas Xj discrète avec des valeurs possibles dans l’ensemble {a1 , ..., aL }.
3
iii. Etc. (Je vous invite à calculer autant de métriques de perfor-
mance que possible tout en justifiant les résultats obtenus à
chaque fois.)
(b) Veuillez inclure dans le compte rendu la courbe ROC et l’AUC de
votre modèle optimal, ainsi que le code sous R correspondant.
(c) Donnez une conclusion/interprétation globale par rapport aux résul-
tats obtenus. N’hésitez pas à faire preuve de créativité et à aller au-
delà des questions demandées. Toute idée d’analyse à valeur ajoutée
sera fortement appréciée. ?
Il ne lui en coûtera que 19/11 = 1.73 euros pour joindre un bon client, soit une
jolie économie par rapport à un envoi au hasard.
Par ailleurs, si on veut toucher 100% des bons clients, alors il faut joindre les
40 individus dont le score est ≥ 0.1428, soit environ la moitié de l’échantillon.
Ceci représente une substantielle économie par rapport à un envoi au hasard
4
qui, pour atteindre le même objectif, nécessite alors l’envoi de l’offre à tous les
individus de E.
Notre vendeur est relativement satisfait, mais en bon petit capitaliste, les
choses ne sauraient s’arrêter là pour lui et ces résultats l’amènent à tenir la
réflexion suivante : “ Il reste quand même 6 bons clients dans la nature. Com-
bien ça me coûterait pour tenter de tous les joindre, où du moins 3 sur ces 6
clients potentiels ? Pour répondre intelligemment à ce type de question, il faut
introduire la notion de “courbe LIFT”.
Supposons que le groupe qui nous intéresse soit le groupe G2 (le groupe
des bons clients). Soit p (2 | t) le score d’un individu choisi au hasard dans la
population quand on le passe dans le classifieur, que l’on suppose un arbre (t
est la feuille sur laquelle il a atterri).
Ainsi pour un seuil donné s ∈ [0, 1],
P [individu 7−→ G2 ] = P [p (2 | t) ≥ s] ,
estimé par :
#F P + #V P
RP P (rate of positive predictions) = .
n
De plus, on rappelle que la sensibilité du classifieur est estimée par :
5
8. On rappelle que pour rejoindre 11 bons clients, il en a coûté 19 euros (avec
un LIFT à 23%), soit 1.73 euros par personne. Sachant qu’en se basant sur
le graphique de la partie (7), un LIFT de 30 % est de 2,75, combien coûte-
t-il en plus pour rejoindre trois personnes de plus au total ? Interpréter le
résultat ?
9. Maintenant nous supposons que le vendeur envisage faire son offre par
internet (pas de budget limité). Il est intéressé par joindre 80% de sa
clientèle sans agacer inutilement trop de “mauvais client” :
(a) Dans ce contexte, combien de pourcentage de ses clients devrait-il
contacter au hasard pour espérer toucher 80 % des bons clients ?
(b) En vous basant sur une lecture de la courbe LIFT de la partie (3),
fournissez une solution plus astucieuse avec une réduction substan-
tielle du pourcentage.