Prédiction Spatio-Temporel Criminelle
Prédiction Spatio-Temporel Criminelle
6 Agrégation d’experts 19
6.1 Changement d’échelle : outils et performances . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.2 Performances de quatre modèles pour les différents clusters . . . . . . . . . . . . . . . . . 20
6.3 Étude de l’erreur de validation croisée pour le modèle linéaire . . . . . . . . . . . . . . . . 21
6.4 Agrégation séquentielle ou somme des prévisions . . . . . . . . . . . . . . . . . . . . . . . 22
6.5 Agrégation d’experts à l’échelle globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7 Conclusion 24
7.1 Réponse à la problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7.2 Enseignements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1
1 Introduction
Certains départements de police aux États-Unis utilisent des outils de prévision comme aide à la
décision. Pourtant, nous ne sommes pas dans le film de science fiction “Minority Report” où la police
est capable d’anticiper un crime et de le stopper avant qu’il soit commis. L’objectif des outils développés
pour la prévision de crime est de donner à la puissance publique un moyen d’évaluer d’une part les lieux
à risques et d’autre part de prédire le volume de crime commis à ces différents endroits. Précisons que la
traduction française du mot crime devrait être infraction. En effet, en droit français le crime est l’infraction
la plus grave parmi la contravention, le délit et le crime. Cependant dans le reste du rapport, nous nous
autorisons cette traduction abusive du terme anglais. La modélisation de la criminalité a longtemps
résisté aux statisticiens comme le note John.V.Pepper dans son article de 2007 [8]. Aujourd’hui plusieurs
facteurs permettent d’espérer une amélioration de la qualité des prévisions. D’une part, l’accessibilité
en continu des données permet d’utiliser des méthodes d’apprentissage par renforcement. D’autre part
l’open source de certains jeux de données sur la criminalité permet à une communauté plus large de se
saisir du problème comme le montre la popularité de ces jeux de données sur la plateforme Kaggle.
Il faut toutefois bien avoir conscience que la criminalité est un phénomène complexe faisant interagir
des facteurs sociaux, économiques et politiques. Derrière le mot criminalité, nous regroupons un certains
nombre de crimes divers et variés allant d’une infraction routière à un homicide. Nous touchons là un
phénomène sensible comme le montre un des derniers numéro du journal signifiance sur l’utilisation des
données dans les tribunaux [11]. Ce qui nous amène à nous demander pourquoi prédire le nombre de
crimes. Ainsi, Wilpen Gorr et al. dans leur article de 2003 [5] montrent que la prédiction du nombre
de crimes peut être faite à plusieurs échéances pour servir différents objectifs : à court terme (pour des
redéploiements tactiques), à moyen terme (pour une ré-allocation des ressources) ou à long terme (pour
orienter la politique sécuritaire de la ville).
D’un point de vue plus technique, nous verrons que la criminalité n’est pas seulement un problème
temporel mais aussi un problème qui dépend de la spatialité dans la ville. Ainsi, nous cherchons, comme
l’ont fait Wang et al. en 2016 [12] et Alex Reinhart et Joel Greenhouse en 2018 [9] à exploiter dans notre
modélisation les caractéristiques spatio-temporelles de la criminalité. Il existerait une forme de persistance
au cours du temps des crimes dans certains lieux ([2], [9]). Dans la perspective de prédire la criminalité
dans une ville, il n’est pas seulement nécessaire d’obtenir de bonnes prédictions mais il est aussi nécessaire
de comprendre les déterminants de la criminalité dans un lieu donné à l’aide d’une analyse multivariée.
Enfin, il est avéré dans la littérature que la criminalité est un phénomène saisonnier comme le montre
cette étude mainte fois cité de Gerhard J. Falk de 1952 [3] et l’article plus récent de Wilpen Gorr et
al. [5]. Selon certains auteurs cela peut s’expliquer par le climat comme le montrent Simha F.Landau et
Daniel Fridman en 1993 [7]. Nous allons maintenant présenter le jeu de données.
80000 200000
60000 150000
40000 100000
20000 50000
0 0
0 am
1 am
2 am
3 am
4 am
5 am
6 am
7 am
8 am
9 am
10 am
11 am
0 pm
1 pm
2 pm
3 pm
4 pm
5 pm
6 pm
7 pm
8 pm
9 pm
10 pm
11 pm
Sun
Mon
Tue
Wed
Thu
Fri
Sat
300000
140000
250000
120000
100000 200000
80000
150000
60000
100000
40000
50000
20000
0 0
jan
feb
mar
apr
may
jun
jul
aug
sep
oct
nov
dec
2013
2014
2015
2016
2017
2018
2
Le premier constat en analysant le nombre de crime agrégé par jour est la criminalité n’a pas une
saisonnalité hebdomadaire très prononcée . Par contre nous constatons une saisonnalité annuelle forte.
En effet, le pic haut a lieu durant l’été tandis que le creux de la criminalité est en hiver. Nous remarquons
une tendance à la décroissance au cours des années du nombre d’infractions. Tendance beaucoup plus
prononcée pour le trafic de drogue que pour les vols. Enfin, nous constatons comme Marcus Felson et
Erika Poulsen en 2003 [4] que la criminalité a une saisonnalité journalière spécifique : le pic bas est à 5
heures du matin et le pic haut est vers 5 heures de l’après-midi. Nous confirmons ce résultat sur notre
jeu de données grâce au graphique de la figure 1. Cette saisonnalité n’est pas la même si nous prenons
en compte la spécificité des crimes : trafic de drogue ou vols. Ces remarques nous permettrons ensuite
lors de la modélisation de chercher à capturer ces phénomènes de tendance et de saisonnalité à l’aide de
variables temporelles.
Deuxièmement, nous avons à disposition des indicateurs spatiaux comme la localisation de chaque
crime en coordonnées GPS ainsi que le nom de la rue et du quartier dans lequel il a eu lieu. Ces données
nous permettent de représenter la répartition des crimes en 2017 sur la carte de Chicago (figure 2).
level
5
Troisièmement, nous avons à disposition des variables concernant le crime lui même. On a d’abord
une information concernant le type de crime. On peut distinguer quatre grandes catégories que sont les
vols, les cas de violence sur personne, les dégradations matérielles et le trafic de drogue.
9.7%
19.9%
13.4% Types de crimes Types de crimes
Dégradations matérielles Dégradations matérielles
45.5% 44.2%
Trafic de drogue Trafic de drogue
Violences sur personne Violences sur personne
Vols Vols
32.0%
31.5%
3.9%
On sait également s’il s’agit d’un crime domestique et si le coupable a été arrêté. On remarque que
le taux d’arrêt est très élevé pour le trafic de drogue, alors que beaucoup de vols sont signalés sans que
le coupable soit arrêté. On comprend ce phénomène, une victime de vol ira naturellement porter plainte
tandis que le trafic de drogue ne sera pas forcément dénoncé par des témoins, et les infractions répertoriées
ne concernent que les trafiquants ou les consommateurs arrêtés. On remarque également sur la figure 4
que les violences sur personnes se produisent principalement dans l’entourage proche de la victime.
3
Domestique
5e+05
Pas domestique
4e+05
3e+05
2e+05
1e+05
0e+00
Degradations Trafic_drogue Vol
4
Violence sur personnes Trafic de drogue Vols
C’est donc naturellement que les indicateurs socio-économiques issus du recensement sont disponibles
par community area. Nous avons accès à différents indicateurs, relevés en 2012, à savoir le taux de
chômage, la proportion de la population sous le seuil de pauvreté, le revenu moyen par habitant, le taux
de personnes non diplômées de l’enseignement secondaire, le taux de logements insalubres, le pourcentage
de la population âgée de moins de 18 ans ou de plus de 64 ans ainsi qu’un indice de précarité. A l’aide
d’une analyse en composante principale, nous avons obtenu une synthèse de ces informations.
Le premier axe principal explique 66.3% de la variance observée. Il est négativement corrélé avec le
revenu moyen et positivement corrélé avec toutes les autres variables. On interprète facilement cet axe
principal comme un indicateur de la richesse de chaque community area.
5
Individuals − PCA
30 Variables − PCA
3
63 1.0
58
14
PERCENT.OF.HOUSING.CROWDED
2 19
62 23 PERCENT.AGED.25..WITHOUT.HIGH.SCHOOL.DIPLOMA
20 31 61
0.5
1 21 59
57
1 65 cos2 Cont.Var
16
Dim2 (18.7%) 2
Dim2 (18.7%)
4 17 18 52 1.5
77 22 0.75 PER.CAPITA.INCOME HARDSHIP.INDEX 1.0
32 15 60
33 24 3 66 0.0
6 64 0.50 0.5
76 56 70
0 5 9 28 34 0.25 0.0
8 7
13 55 25 PERCENT.HOUSEHOLDS.BELOW.POVERTY
PERCENT.AGED.UNDER.18.OR.OVER.64
41 10 11 46
29 −0.5
12 74 51 47 27 26
39 −0.5 PERCENT.AGED.16..UNEMPLOYED
72 35 49 53
−1
75
48 43 42 69
40
73
38 68
45 44 71
50 67
−1.0
−2
54
36 −1.0 −0.5 0.0 0.5 1.0
37 Dim1 (66.3%)
−5.0 −2.5 0.0 2.5
Dim1 (66.3%)
0.25
0.20
0.15
0.10
0.05
−4 −2 0 2 4
On remarque que le niveau de vie et le taux de criminalité présentent une forte corrélation. Cependant,
une community area se présente comme une donnée aberrante, c’est le quartier Loop, en rouge sur le
graphique. L’explication, avancée notamment dans Wang et al. [12], est que, contrairement aux autres
community areas, que l’on pourrait qualifier de résidentielles, l’activité à Loop n’est pas le fait seul des
habitants de la zone, mais de l’ensemble des personnes qui y affluent chaque jour pour travailler ou profiter
des commerces.
6
2.1.3 Un indicateur concernant la vie nocturne
En plus des indicateurs socio-économiques caractérisant le niveau de vie des habitants, il nous faut
quantifier l’activité de chaque community area. Pour cela, on va utiliser un jeu de données disponible
librement sur le site data.cityofchicago.org et recensant les licences délivrées pour l’ouverture de bars du
1er janvier 2006 à aujourd’hui. A partir de ces informations, nous créons une variable correspondant au
nombre de licences délivrées par community area.
800
600
400
200
0
Cette information nous permet de quantifier l’activité de chaque community area, ce que les données
socio-économiques ne permettaient pas. On remarque que dans les community areas numérotées 8 (Near
North Side) et 32 (Loop), en rouge sur la graphique, on délivre bien plus de licences qu’ailleurs, ce fait
s’explique par le fait que cette zone correspond à la partie la plus active de la ville.
Nous appelons bars la variable centrée réduite associée. L’intérêt de centrer et de réduire est de rendre
cette variable comparable aux axes principaux de l’analyse en composantes principales.
10.0%
7.5%
ind
Frequence relative du nombre de vol
9
47
55
74
5.0%
12
28
24
25
32
8
2.5%
0.0%
Figure 10 – Comparaison de l’évolution du nombre de vols dans le temps entre différents quartiers de
Chicago
7
2.3 Une métrique entre community areas
Pour conclure cette partie, nous présentons une métrique entre community areas que les observations
précédentes nous suggèrent. Cette métrique ne correspond pas à une notion de proximité spatiale mais se
base sur les critères socio-économiques et l’indicateur concernant la vie nocturne. Nous pensons qu’elle
est pertinente du point de vue du problème considéré, au vu des observations précédentes.
Chaque community area est représentée par un point dans R2 , son abscisse correspond à sa valeur
pour le premier axe principal de l’ACP, c’est à dire à un indicateur du niveau de vie de ses habitants, et
son ordonné à la variable bars, c’est à dire à un indicateur de sa vie festive. On obtient la représentation
suivante :
5
4
3
Variable bars
2
1
0
−4 −2 0 2 4
On apprécie ici le gain d’information obtenu avec l’introduction de la variable bars. En effet c’est elle
qui nous permet de distinguer nettement les community areas 8 et 32 (en rouge) des autres, et nous avons
également remarqué que la répartition des crimes était bien différente dans ces quartiers qu’ailleurs. Ces
observations nous rendent confiants dans le fait que la métrique ainsi construite entre community areas
peut être exploitable pour résoudre le problème d’estimation du nombre de crimes.
8
types de variables nom des variables
Y 77 séries spatio-temporelles nbr de crimes par cmty area
X 2 séries temporelles (mensuelles) taux de chômage, CPI index
6 séries temporelles (journalier) qté de précipitat°, qté de neige, Tmax, Tmin, tdc, jdl
2 variables dummy début janvier, fin juillet/début août
29 variables spatio-temporelle (journalières) vitesse moyenne par région
prix à la consommation est le prix moyen payé par les citadins pour un panier de biens type au cours du
temps. Ces deux variables ont pour objectif de capturer la santé économique de la région de Chicago.
Enfin, une dernière idée qui est inspirée de l’article de Wang et al. de 2016 [12] est d’ajouter des
variables spatio-temporelles telles que les courses de taxis pour expliquer la criminalité à un certain
endroit. Nous aurions pu y avoir accès grâce au portail en ligne de la ville de Chicago cependant la
gestion d’une telle base de données aurait demandé des compétences que nous n’avons pas. En ce sens,
nous avons pu récupérer un indicateur spatio-temporel qui est la vitesse moyenne des véhicules dans 31
régions de la ville de Chicago. Ces données nous donnent accès en temps réel (toutes les 5 minutes) à la
vie de la ville. En effet, si la vitesse moyenne est bien en dessous de la vitesse autorisée alors cela signifie
qu’il y a une congestion. Inversement, si le trafic est fluide alors nous nous attendons à ce que la vitesse
moyenne soit proche de la vitesse autorisée qui est 50km/h en ville. En bref, nous avons à disposition les
variables suivantes :
La base de données que nous utilisons est au pas de temps journalier. Mais nous avons construit une
fonction qui nous permet de conserver la base de données originale et d’agréger les données selon un pas
de temps et un type de crime voulus. Ceci nous permet de ne pas altérer la base de données initiale et de
permettre à d’autres d’explorer certaines interactions non couvertes par le présent rapport. Ainsi, nous
nous intéressons à la criminalité par jour de 2015 à 2018. Nous souhaitons maintenant explorer davantage
les relations qui existent entre ces différentes variables explicatives et la criminalité à Chicago.
Y 2015−09−24 / 2018−05−03
1000 1000
900 900
800 800
700 700
600 600
500 500
400 400
sept. 24 2015 avr. 01 2016 oct. 01 2016 avr. 01 2017 oct. 01 2017 avr. 01 2018
D’une part nous constatons que la criminalité est un phénomène rare, en effet, la ville de Chicago
compte plus de 2.7 millions d’habitants, et il y a en moyenne seulement 722.32 infractions commises par
jour. D’autre part, le phénomène est variable de l’ordre de 81.16 vols par jour. Sur la figure 13, on observe
clairement que la période entre Janvier et Mars semble difficile à prévoir quelque soit l’année. Enfin, le
nombre de crime est en règle général un processus relativement bruité dans le sens où il y a beaucoup
de pics non réguliers. Pour minimiser l’impact de certaines irrégularités notamment en Août et début
Janvier, nous avons introduit deux variables 0-1 pour ces périodes où il y a un nombre important de
crimes. Nous ne pouvons expliquer ces valeurs aberrantes mais nous pensons judicieux de les prendre en
compte dans un modèle séparé.
9
Nous analysons séparément les vitesses moyennes pour les 31 régions de la ville. Nous utilisons comme
précédemment une ACP afin de mieux visualiser les corrélations entre variables. Ici, nous constatons qu’il
y a deux groupes dans les variables de vitesses qui apparaissent. Une des conclusions de cette analyse est
que les variables de vitesses sont fortement corrélées entre elles.
1.0
R25
R29 R22
R28 R16
R27
R9
R17
0.5
R2
R1
Dim 2 (16.93%)
R4 R24R7
R21 R20
0.0
R26R5 R14
R19 R15
R18
R12
R23
R8 R10 R11
R3
−0.5
−1.0 R6 R13
Dim 1 (58.00%)
En analysant plus précisément l’influence de la pluie sur la criminalité, on remarque que le nombre
moyen de crimes par jour est significativement plus faible lorsqu’il pleut que lorsqu’il ne pleut pas comme
l’indique la p-valeur très faible obtenue par un test de Student de différence de moyenne de l’ordre de
7 × 10−8 . Puis, nous présentons plus en détail sur la relation entre le nombre de crime, la température
maximale et la quantité de neige.
Lien linéaire entre T°C max et le nombre de crimes Lien entre la quantité de neige et le nombre de crimes
7
30
6
20
5
Quantité de neige
4
T°C max
10
3
0
2
−10
1
0
400 500 600 700 800 900 1000 1100 400 500 600 700 800
Nous constatons que plus il fait chaud plus le nombre de crimes est importants. Pouvons nous parler
d’un effet chaleur sur la criminalité ? Nous pensons plus à un effet indirect influençant les comportements
et donc le nombre d’occasion de commettre un crime. La neige quant à elle, serait corrélée négativement
avec le nombre d’infractions. Toutes ces remarques nous guiderons ensuite dans la partie modélisation.
Les résultats obtenus ci-dessus en terme de corrélation le sont pour la totalité des crimes commis à
Chicago. Il est important de constater que mise à part la température aucune des variables ajoutées n’est
fortement corrélée avec la criminalité. Les variables de température sont fortement corrélées entre elles et
les variables de tendance économique le sont avec la variable de tendance. Dans la suite, il nous faudra
choisir parmi ces variables pour éviter de trop fortes corrélations au sein des variables explicatives. Les
variables TMAX et TMIN étant fortement corrélées, nous choisissons de ne conserver que la variable
TMAX. Un point important est que mise à part les corrélations évoquées ci-dessus les co-variables ne
sont pas corrélées entre elles. Nous nous intéressons dans la suite à voir si pour certaines échelles spatiales
données ces relations entres variables explicatives et variable à expliquer changent. En s’intéressant aux
corrélations entre variables, nous faisons déjà un pas vers la compréhension du processus de la criminalité.
10
unemployement_rate
data_final[, 119]
data_final[, 118]
SNOW
PRCP
TMAX
TMIN
CPI
fjda
tdc
jdl
pj
1
data_final[, 119]
0.8
data_final[, 118]
jdl 0.6
tdc 0.4
CPI
0.2
unemployement_rate
0
PRCP
−0.2
SNOW
TMAX −0.4
TMIN −0.6
pj
−0.8
fjda
−1
11
4.3 Le modèle univarié : Holt-Winters
Une des méthodes utilisée régulièrement afin de prédire le nombre de crimes à court-moyen terme a
trait aux modèles uni-variés. Un bon exemple est encore une fois l’article de Wilpen Gorr et al. de 2003
[5]. Il faut bien voir qu’il y a une diversité de modèles uni-variés. Étant donné que ces méthodes ne seront
pas le cœur de notre modélisation, nous avons choisi la méthode de lissage exponentiel (Holt-Winters)
ajustée automatiquement à l’aide des données et de la fonction tbast du package forecast. Comme
indiqué précédemment la criminalité est un phénomène périodique. On s’attend en ce sens à obtenir de
meilleurs résultats à l’aide de la modélisation de cette période.
R 2 = 0.49
800
1000
750
900
Données d'entrainement
700
Nombre de crimes
800
650
700
600
600
550
500
Valeurs observées
400
Prevision
500 rmse = 69.49
Ce graphique peut nous donner l’impression que la méthode uni-variée n’est pas mauvaise car elle
capture parfois le signal sur les données d’entrainements. D’autant que son erreur d’entrainement au carré
est de 58.34 comparativement à celle du modèle naı̈f qui est de 81.56. Par contre pour la prévision à 31
jours ses performances sont très mauvaises, elles sont même pires que la méthode naı̈ve.
Nous pouvons faire une analyse des résidus obtenus par notre modèle. Les différents graphiques de la
figure 17 indiquent bien que nous obtenons après ajustement du modèle une erreur qui se rapproche d’un
bruit blanc.
0.8
0.05
200
0.6
crime.HW$errors
Partial ACF
100
ACF
0.4
0.00
0
0.2
−100
−0.05
−200
0.0
1.0 1.5 2.0 2.5 3.0 3.5 0.00 0.02 0.04 0.06 0.08 0.00 0.02 0.04 0.06 0.08
Cette prévision est la meilleure que nous ayons obtenue avec la méthode de lissage exponentiel. Nous
avons tenté une modélisation à l’aide de ARIMA et SARIMA mais sans grands succès. Ce qui nous
amène à considérer par la suite des modèles plus complexes au sens où ils prennent en compte des
variables exogènes à la quantité de crimes commis. Une des conclusions de cette partie est que le crime
n’est pas un phénomène stationnaire ou du moins pas sans traitement statistique de la tendance et de
la saisonnalité. L’objectif affiché pour la suite est de faire mieux que les performances des deux modèles
précédent : uni-varié et naı̈f.
12
linéaires entre variable à expliquer et co-variables, ce que nous observons, par exemple entre la température
et le nombre de crimes.
Nous constatons que certaines variables sont pertinentes pour modéliser la criminalité comme la
température, les variables de précipitations ou le jour dans l’année. En effet, les coefficients associés aux
variables jdl, SNOW, PRCP et TMAX sont significatifs au sens du test de Student au risque 0.1 %. Les
coefficients pour SNOW et PRCP sont négatifs tandis que celui associé à la température est positif. Ceci
signifie que si la quantité de neige augmente alors le nombre de crimes diminue et inversement pour la
température. Nous ne pouvons encore une fois faire la conjecture appuyée sur certains articles que le coût
de commettre un crime est plus élevé lorsque le temps n’est pas clément.
Nous nous sommes demandés si nous ne pouvions pas introduire une variable retard en supposant
que la police veuille prédire le nombre de crimes par jour sur trente jours mais avec une connaissance du
nombre de crimes du jour précédent. Il s’avère que nous obtenons une modélisation aux performances
de prédiction bien meilleure. Cependant, ce n’est pas l’outil que nous voulons construire. En effet, celui
que nous proposons est orienté vers la prévision à moyen terme de la criminalité, non à très court terme.
Pour finir de valider notre modèle linéaire, nous faisons une analyse des résidus pour la régression linéaire
obtenue ci-dessus.
100
2
Residuals
0
0
−2
−200
−4
Observed values
Frequency
800
150
600
0 50
400
2
R ad j = 0.59
Nous constatons que les résidus sont répartis uniformément en fonction des valeurs estimées. De plus,
nous obtenons un modèle qui arrive à capter une quantité non négligeable de la variance.
13
1100
Observés
Prédits
1000
900
Nombre de crimes
800
700
600
500
400
2016 2017 2018
Date
la partie agrégation d’experts bien qu’ils ne soient pas parmi les meilleurs prédicteurs. Nous utilisons le
package RandomForest.
Observés
Prédits TMAX
1000
jdl
VM
900
tdc
Nombre de crimes
800
PRCP
700
SNOW
pj
600
CPI
500
unemployement_rate
fjda
400
Date IncNodePurity
Par rapport au modèle gam, la forêt aléatoire permet de capter plus de variabilité sur les données
d’entrainements. C’est un modèle intéressant pour la suite. D’autant que nous pouvons avoir accès à la
mesure de l’importance qui permet de classer grâce à l’erreur outofbags les variables par leur influence
dans la construction de l’arbre. Ainsi, nous avons la confirmation que la vitesse moyenne peut avoir un
intérêt.
14
950
Observés
Prédits sans ARIMA
Prédits avec ARIMA
900
850
Nombre de crimes
800
750
700
650
600
avr. 04 avr. 09 avr. 14 avr. 19 avr. 24 avr. 29 mai 04
Date
Nous pouvons donner une analyse succincte des résultats obtenus en terme de variables sélectionnées
pour la méthode LASSO. Nous constatons que le nombre de variables sélectionnées est 13. Il y a finalement
un faible nombre de variables sélectionnées. Si nous nous intéressons de près à ces dernières ce sont
principalement des variables croisées liées à la température ou à la quantité de neige tombée (nous
sommes au nord des États-Unis). Ce nombre est proche de celui sélectionné par la méthode forward pour
le modèle linéaire. Ces variables sélectionnées sont comme attendu liées d’une manière ou d’une autre
aux variables PRCP, TMAX, SNOW ou le jour dans l’année.
4.8 Le boosting
Enfin, la dernière méthode prometteuse est le boosting. Nous allons l’implémenter à l’aide de deux
package, gbm et xgboost. Le boosting en théorie apprend sur des distributions différentes des données
d’entrainements au cours de l’apprentissage. La méthode employée peut se rapprocher de l’apprentissage
par renforcement d’une certaine manière. Nous présentons les résultats de ces méthodes dans le tableau
bilan ci-dessous.
Table 1 – Tableau récapitulatif des erreurs au carré de cross-validation pour les différentes méthodes
Le mois d’avril est un mois facile à prévoir car plus proche de la moyenne des autres années, en effet le
modèle naı̈f fait a une meilleur erreur sur ce mois que pour l’erreur de validation croisée. Ceci explique la
meilleure performance de toutes les méthodes en prévision par rapport à leur performance pour l’erreur
de validation croisée. La conclusion de ce tableau est qu’il n’y a pas vraiment de méthodes statistiques
pour traiter ce jeu de données qui ressortent du lot. Nous allons confirmer cela à l’aide du graphique
suivant comparant les prévisions des différentes méthodes sur la partie test.
Quelque soit la méthode nous n’arrivons pas à prédire les principaux pics. Chaque méthode arrive
cependant à prédire des choses différentes. En un sens, nous pouvons les voir comme complémentaires.
15
950
Naif
HW
lm
gam
lasso
900
rf
boost
850
Nombre de crimes
800
750
700
650
600
0 5 10 15 20 25 30
Date
Figure 22 – Comparaison des prévisions pour la criminalité globale sur le jeu de données test
Les méthodes de prévision considérées sont toutes meilleures que la méthode uni-variée et que la méthode
naı̈ve sur la partie considérée. Nous sommes confiants quant à la performance globale de nos modèles.
Nous remarquons tout de même que le modèle linéaire est un bon modèle candidat pour la suite aussi
bien en terme d’erreur de validation croisée que d’erreur train/test. De plus, nous faisons au mieux 4.78%
d’erreur sur un mois facile mais pour la prévision de crimes cela semble satisfaisant.
16
Algorithm 1 Agrégation spatiale de modèles
Require: Un modèle prédictif
for i = 1, . . . , 77 do
Construire un modèle prédictif pour la community area i
end for
Sommer les prédictions locales pour construire une prédiction globale
for j = 76, . . . , 1 do
Concaténer les deux groupes dont les centres sont les plus proches au sens de la métrique sur les
community area
Construire un modèle prédictif pour le groupe ainsi formé
Sommer les prédictions dans chaque groupe pour obtenir une prédiction globale
end for 46.5
46.0
45.5
RMSE
45.0
44.5
44.0
0 20 40 60 80
Nombre de groupes
En suivant la courbe de gauche à droite, on observe des phénomènes intéressants. Pour un faible
nombre de groupe (de 1 à 8), le RMSE est le plus mauvais obtenu, oscillant entre 45 et 46.77. Ce constat
nous conforte dans l’idée qu’il est judicieux de créer des modèles à différentes échelles afin de prendre en
compte dans la prévision les particularités des différentes community areas. Pour un nombre de groupe
égal à 9 ou 10, la prévision est proche de la meilleure obtenue. On obtient un RMSE de 43.76 pour 9
groupes, de 43.74 pour 10 groupes lorsque le meilleur score obtenu est 43.71. Ensuite, si l’on considère
entre 11 et 37 groupes, la prévision perd en qualité. Le RMSE moyen sur cet intervalle est de 44.41. Puis,
entre 38 et 41 groupes, on obtient le meilleur score de prévision, le RMSE étant minimal pour 40 groupes.
Le RMSE moyen sur cet intervalle est de 43.73. Enfin, pour 42 modèles ou plus, le RMSE remonte et
est compris entre 44 et 45. On observe également que c’est dans ce régime que la qualité prévision paraı̂t
la moins instable par rapport au nombre de groupes. Le RMSE moyen sur cet intervalle est de 44.53.
L’interprétation que l’on peut en tirer est qu’il n’est pas judicieux d’adopter le point de vue extrême
consistant à construire un modèle par community area, mais qu’il est préférable d’en regrouper certaines,
semblables du point de vue de l’objectif de prévision.
Cette analyse nous apprend donc que pour obtenir une bonne prévision du nombre de crimes en
sommant des prévisions locales, il faut faire un compromis entre la situation où l’on ne considère pas
assez de groupes et celle où l’on en considère trop. Cet équilibre peut s’interpréter comme un compromis
sous-apprentissage/sur-apprentissage. Ici, il semble exister deux régimes optimaux, le premier autour de
10 groupes et le second autour de 40.
Nous avons donc confirmé la pertinence de notre algorithme multi-échelles pour prédire le nombre
de crimes à Chicago ainsi que la métrique utilisée pour former les groupes de community areas. Nous
cherchons maintenant à analyser qualitativement les modèles linéaires obtenus. Pour cela nous nous
intéressons aux modèles obtenus pour un découpage en 9 groupes, car parmi les niveaux d’agrégation
menant aux meilleurs scores de prévision c’est celui qui comporte le moins de groupes. Ce choix est
motivé par un soucis de simplicité. En effet, plus on considère de groupes, plus il y a de modèles à décrire
nous ne voulons dans ce rapport donner que quelques exemples. Si la ville de Chicago voulait utiliser nos
17
résultats, elle pourrait reprendre cette étude pour des niveaux d’agrégation et des groupes qui lui serait
d’un intérêt particulier.
5
4
3
Variable bars
2
1
0
−4 −2 0 2 4
coefficient p-valeur
(Intercept) 57.7 < 2 × 10−16
jdl 1.17 1.01 × 10−2
tdc 11.00 5.71 × 10−9
CPI -3.96 4.81 × 10−2
unemployement rate 1.85 3.3 × 10−2
PRCP -1.14 8.60 × 10−3
TMAX 3.56 1.77 × 10−14
Table 2 – Coefficients et p-valeurs du test de Student pour les 7 variables les plus influentes (Loop et
Near North Side)
L’intercepte correspond au nombre moyen de crimes commis par jour dans ce groupe de community
areas. Hors intercepte, les variables les plus influentes (au sens de la p-valeur du test de Student) sont
tdc, TMAX et PRCP.
La variable la plus influente est la température maximale dans la journée (TMAX), et elle est positi-
vement corrélée à la variable de sortie. Au contraire, la variable précipitation (PRCP) est négativement
corrélée au nombre de crimes. Cette observation nous permet de retrouver au niveau local une remarque
déjà faite lors de l’analyse au niveau global, à savoir que plus la météo est clémente, plus il y a de crimes.
Voilà une information qui pourrait s’avérer précieuse pour la ville de Chicago si elle cherche à optimiser
la présence de ses forces de l’ordre au cours de l’année.
18
L’autre variable influente est la tendance (tdc). C’est une variable introduite pour la prévision de série
temporelle qui indique le nombre de jours écoulé depuis la date à laquelle débute la série des données
utilisées pour ajuster le modèle. Ici cette variable est positivement corrélée au nombre de crimes. Ce
résultat est négatif pour la ville de Chicago car il signifie que la criminalité est en hausse pour ce groupe
de community areas. Si des politiques pour lutter contre le crime sont mises en place dans cette zone, il
serait peut être bon d’en faire la critique et sinon il serait peut être judicieux d’en proposer.
coefficient p-valeur
(Intercept) 150.84 < 2 × 10−16
jdl -1.64 1.08 × 10−2
tdc -12.06 1.97 × 10−5
CPI 8.84 2.05 × 10−3
PRCP -2.26 2.20 × 10−4
SNOW -2.30 2.21 × 10−4
TMAX 12.71 < 2 × 10−16
Table 3 – Coefficients et p-valeurs du test de Student pour les 7 variables les plus influentes (quartiers
pauvres)
Encore une fois, outre l’intercepte, les variables d’influence mises en lumière par le modèle sont les va-
riables liées à la météo (précipitation, température maximale et quantité de neige). On note une corrélation
positive pour la température maximale et négative pour les variables précipitation et neige. Dans cette
zone également il y a plus de crime par beau temps.
Ici la tendance est également très prononcée, mais cette fois-ci corrélée négativement avec le nombre
de crimes observés. Ce constat paraı̂t de prime abord positif quand aux politiques de lutte contre le crime
existantes et la ville de Chicago semble avoir tout intérêt à poursuivre dans cette voie. Il faut cependant
émettre des réserves sur ces chiffres. En effet, comme nous l’avons déjà remarqué, le nombre de crimes
présent dans le jeu de données concerne uniquement les crimes qui ont été signalés. Cette baisse observée
peut s’expliquer soit par une baisse réelle de la criminalité, soit par une moins bonne efficacité des effectifs
de police. Cependant, les données à notre disposition ne nous permettent pas de trancher.
6 Agrégation d’experts
Un des objectifs de cette partie est de compléter les analyses faites au-dessus. Notre projet a no-
tamment pour but de proposer une méthode de modélisation capable de prédire de façon précise pour
chaque community area le nombre d’infractions commises. Dans la partie précédente nous nous sommes
19
concentrés sur l’interprétation des résultats obtenus avec le modèle linéaire. Dans cette partie, nous al-
lons présenter une méthode pour convertir des prédictions faites à une échelle vers une autre échelle à
l’aide des données passées. Ensuite la méthode d’agrégation spatiale peut être améliorée en considérant
une agrégation séquentielle d’experts plutôt qu’une simple somme. Enfin, nous montrons l’intérêt des
différentes modélisations suivant la granularité pour augmenter la robustesse de notre méthode de prédiction.
Nous constatons que quelque soit l’échelle choisie la différence définie ci-dessus est positive. Cela est
vrai pour une granularité à 9 groupes dont la différence est positive de l’ordre de 5. Ce qui est aussi vérifié
pour le cas où on prend chaque community area individuellement.
−4 −2 0 2 4
En étudiant plus précisément ces différences on constate que la différence d’erreur est la plus im-
portante à Loop et Near North Side. Pourtant ces quartiers ne concentrent pas la majeure partie de la
criminalité qui est localisée dans les quartiers pauvres. Cependant, réussir à capter les variations de ces
deux community areas est un facteur déterminant pour améliorer nos prévisions. Ce qui peut s’expliquer
par les raisons déjà évoquées.
20
80
lm
lm forward
gam
lasso
70
RMSE
60
50
40
0 20 40 60 80
Nombre de groupes
On constate que l’erreur de prévision diminue pour trois des quatre méthodes lorsque l’on désagrège
un peu et a tendance à remonter lorsque nous désagrégeons trop les groupes pour obtenir des modèles
de petites tailles. Ceci peut s’expliquer par un compromis sur-apprentissage contre sous-apprentissage,
c’est-à-dire que les modèles locaux sont meilleurs qu’un modèle global lorsque l’on isole des quartiers
qui ont des spécificités particulière (population, activité économique) mais lorsque nous désagrégeons
davantage il y a des quartiers qui deviennent difficiles à prévoir car isolés. C’est une des explications déjà
avancée dans la partie précédente. Pour argumenter davantage en ce sens, nous allons faire deux choses :
regarder si l’erreur de validation croisée suit la même trajectoire pour le modèle linéaire et étudier plus
précisément où l’erreur est commise lorsque l’on désagrégé les modèles.
59
58
0 20 40 60 80
Nombre de groupes
En s’intéressant à l’erreur de validation croisée pour le modèle linéaire. On constate d’une part que
le problème de prédiction au mois d’avril est plus simple car l’erreur est plus faible. D’autre part, on
constate que le minimum est aussi vers 40-45 groupes. Cependant si on applique une règle du coude sur
l’erreur de validation croisée, on aurait tendance à choisir 20 groupes. En ce sens, nous ne retrouvons
pas exactement les mêmes résultats que pour l’erreur train/test mais nous avons globalement les mêmes
conclusions, c’est-à-dire que nous faisons mieux en ayant des modèles locaux. En appliquant le rasoir
d’Ockham, nous choisissons un modèle parcimonieux à 20 groupes par exemple.
Nous faisons maintenant l’étude plus précise de ce qu’il se passe du passage de 4 à 20 groupes en
terme d’erreur. Quels sont les quartiers qui influencent le plus la différence d’erreur ? Une des raisons qui
explique les meilleurs performances de modèles locaux pour à la fois prédire le global et le local est la
capacité des modèles plus petits à sur et sous prédire par rapport à la cible. Leur somme a davantage
de chance d’être proche de la cible car la diversité est plus grande. En effet, si on compare la différence
moyenne entre prédiction et test pour 4 modèles et 20 modèles, on constate que la différence est moins
21
négative pour 20 que pour 4.
Somme
Agrégation
54
52
50
RMSE
48
46
44
42
0 20 40 60 80
Nombre de groupes
Figure 28 – Comparaison entre deux méthodes différentes d’agrégation : une reposant sur la somme
des prédictions individuelles, l’autre sur la mise à l’échelle puis une combinaison convexe séquentielle des
prévisions
On constate que le fait d’agréger de façon intelligente les prédictions tout en les renormalisants (aux
erreurs d’estimation près) permet d’obtenir un modèle désagrégé avec environ 4 groupes qui est très
performant. Ainsi, nous allons regarder plus précisément ce qu’il se passe pour l’échelle à 9 groupes et à
4 groupes.
Proportion de chaque expert dans la prédiction finale Proportion de chaque expert dans la prédiction finale
750 750
Légende
X1
Nombre de crimes
Nombre de crimes
X2 Légende
X3 X1
500 500
X4 X2
X5 X3
X6 X4
X7
X8
250 250
0 0
avr. 02 avr. 09 avr. 16 avr. 23 avr. 30 avr. 02 avr. 09 avr. 16 avr. 23 avr. 30
Date Date
Résultats issues du package opera Résultats issues du package opera
Figure 29 – Agrégation d’experts pour différentes échelles pour les prévisions obtenues avec le modèle
linéaire
Nous constatons que pour l’échelle spatiale avec 4 groupes, 2 experts ressortent comme principaux lors
de l’agrégation. Nous faisons mieux que l’agrégation uniforme potentielle. La température nous permet
de prendre en compte l’information temporelle proche dans le passé et ainsi avoir un horizon de prévision
de 30 jours comparable à ce que l’on peut obtenir en agrégeant séquentiellement. Pour l’agrégation de 9
experts nous conservons tous les experts. Ces derniers ont tendance à prédire plus de crime sur la période
considéré comparativement aux 2 experts pour 4 groupes.
22
6.5 Agrégation d’experts à l’échelle globale
Enfin, maintenant que nous avons un ensemble d’experts potentiels pour des niveaux de granularité
différents, nous utilisons à nouveau une méthode d’agrégation convexe pour améliorer nos performances
de prédictions en agrégeant des méthodes dont on veut capter les différents avantages. Nous avons 4
méthodes avec des prédictions à des échelles différentes. Nous choisissons 5 experts par méthode auxquels
nous ajoutons les différentes méthodes entrainées au préalable pour prédire le crime globalement. Nous
constatons que nous ne faisons pas mieux que le meilleur expert sur la partie à prévoir considérée. Cepen-
dant, nous pouvons espérer que l’agrégation convexe de l’ensemble des méthodes permettent d’obtenir
une plus grande robustesse de la prévision. Les experts mis en avant sont comme attendu les modèles
additif généralisé et linéaire à des échelles favorables.
23
7 Conclusion
7.1 Réponse à la problématique
Notre objectif était double : prédire efficacement le nombre de crimes par jour et comprendre quels
facteurs exogènes jouent sur la criminalité. L’évolution de la qualité de notre prédiction est résumée dans
la tableau suivant :
Méthode RMSE
Modélisation naı̈ve (partie 4.3) 66.53
Modèle linéaire à l’échelle globale (partie 4.4) 46.54
Agrégation de modèles linéaires locaux en sommant les prédictions (partie 5) 43.71
Agrégation d’experts à partir de modèles locaux remis à l’échelle globale (partie 6) 42.23
Nous voulons mettre en avant le gain obtenu en utilisant l’algorithme d’agrégation de modèles locaux
(parties 5 et 6). Cet algorithme réalise une synthèse de l’analyse qualitative de la partie 2 et des méthodes
générales d’estimation présentées en partie 4, utilisées avec les variables que nous avons ajoutées au jeu
de données (partie 3).
Cette construction nous aura permis de mieux comprendre les facteurs influents la criminalité à
Chicago. Comme de nombreux auteurs, nous avons remarqué une influence forte de la météo. De plus
nous avons mis en avant la nécessité de traiter dans des modèles séparés certaines zones de la ville et
nous avons proposé une métrique entre community areas permettant de définir ces zones.
Au final, nous avons donc proposé un outil performant de la prédiction journalière des crimes ainsi
que de nombreuses analyses permettant de mieux comprendre le phénomène.
Nous avons du faire face à quelques difficultés. Premièrement, nous insistons sur le fait que nous
n’avons à disposition que les crimes déclarés, et qu’il est possible qu’il soit commis à Chicago de nombreux
crimes non présents dans notre base de donnée. Deuxièmement, la police de Chicago bénéficie sûrement
d’informations complémentaires qui pourraient être pertinentes pour prédire le crime, mais qui sont
confidentielles (un fichier recensant les gangs actifs par exemple). Nous avons fait face à ses obstacles en
nous efforçant de rester honnêtes quant à la portée des conclusions que l’on pouvait tirer de notre travail.
7.2 Enseignements
Ce projet aura été l’occasion pour nous de nous confronter à un jeu de données réel et de saisir l’intérêt
de chercher à comprendre le phénomène sous-jacent dans sa globalité. Pour ce faire, nous avons étudié
la littérature concernant la prévision du crime et d’une certaine manière, reproduit les expériences qui y
sont présentées.
Le jeu de données final que nous avons utilisé est en réalité une concaténation de nombreux jeux
de données disponibles en ligne. Sa construction nous aura permis de faire face à certaines difficultés
techniques, comme la mise en commun de données temporelles disponibles à différentes échelles.
Pour une meilleur reproductibilité de notre travail, nous avons choisi d’une part de développer un
package et d’autre part d’écrire l’entièreté de notre projet dans un fichier sweave.
Enfin, ce travail nous aura permis de “mettre les mains dans le cambouis” et d’évoluer dans notre
compréhension des problématiques posées par l’étude d’un jeu de données concret. A ce titre, nous
remercions Yannig Goude pour son aide précieuse.
24
Références
[1] Chicago : Midwest Information Office : U.S. Bureau of Labor Statistics.
[2] Joel M. Caplan, Leslie W. Kennedy, and Eric L. Piza. Joint Utility of Event-Dependent and Environ-
mental Crime Analysis Techniques for Violent Crime Forecasting :. Crime & Delinquency, November
2012.
[3] Gerhard J. Falk. The Influence of the Seasons on the Crime Rate. The Journal of Criminal Law,
Criminology, and Police Science, 43(2) :199, July 1952.
[4] Marcus Felson and Erika Poulsen. Simple indicators of crime by time of day. International Journal
of Forecasting, 19(4) :595–601, 2003.
[5] Wilpen Gorr, Andreas Olligschlaeger, and Yvonne Thompson. Short-term forecasting of crime.
International Journal of Forecasting, 19(4) :579–594, 2003.
[6] Joel Gunter. Chicago goes high-tech in search of answers to gun crime surge. June 2017.
[7] Simha F. Landau and Daniel Fridman. The Seasonality of Violent Crime : The Case of Robbery
and Homicide in Israel. Journal of Research in Crime and Delinquency, 30(2) :163–191, May 1993.
[8] John Pepper. Forecasting Crime : A City Level Analysis. University of Virginia, Department of
Economics, 2007.
[9] Alex Reinhart and Joel Greenhouse. Self-exciting point processes with spatial covariates : modelling
the dynamics of crime. Journal of the Royal Statistical Society : Series C (Applied Statistics),
67(5) :1305–1329, 2018.
[10] National Weather Service Corporate Image Web Team. National Weather Service Climate.
[11] Nick Thieme. Statistics in court. Significance, 15(5) :14–17, 2018.
[12] Hongjian Wang, Daniel Kifer, Corina Graif, and Zhenhui Li. Crime Rate Inference with Big Data.
In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining, KDD ’16, pages 635–644, New York, NY, USA, 2016. ACM.
25