0% ont trouvé ce document utile (0 vote)

80 vues9 pages

1-Simple - Linear - Regression - Jupyter Notebook

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

80 vues9 pages

1-Simple - Linear - Regression - Jupyter Notebook

Transféré par

achbelsdn

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 9

26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Sommaire
Introduction
Description des données
construction du modèle

Introduction
Une problématique du Machine Learning est de permettre à la machine de comprendre la relation entre
différentes variables. Cette compréhension lui permettra de faire des prédictions.

Un problème de régression peut se représenter comme un processus d’entrée/sortie:

̂
𝑌 = 𝑓 (𝑋)
X est la variable explicative et Y qui est une information continue, est la variable à expliquer.

Sujet: la consommation de poulet

Quelle est la relation entre la population et le nombre de poulet d’élevage?

Description des données

Entrée [7]:

from pathlib import Path

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from matplotlib import pyplot as plt
import seaborn as sns
from summer.metrics.errors import erreur_pour_plusieurs_parametres
from mpl_toolkits import mplot3d

%matplotlib inline
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:

%reload_ext autoreload

Entrée [8]:

FIGSIZE = (10,8)
VERBOSE = True

PREDICTOR_COL = "Population"
TARGET_COL = "taille du bétail"

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 1/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

0 - chargez et faites une rapide analyse descriptive

Entrée [9]:

path_script = Path.cwd()
path_data = Path(path_script, "data")
csv_kwargs = dict(sep=";", encoding = "ISO-8859-1")

Entrée [10]:

chicken = pd.read_csv(
Path(path_data, "chicken.csv"),
**csv_kwargs,
)

Entrée [11]:

if VERBOSE:
display(chicken.head())

Code Pays Population taille du bétail Unit

0 BEN Bénin 11175204 20470 1000 Head

1 BFA Burkina Faso 19193284 42530 1000 Head

2 BDI Burundi 10827024 2300 1000 Head

3 CMR Cameroun 24566045 51100 1000 Head

4 TCD Tchad 15016773 6169 1000 Head

Nous avons quatre variables dans la base de données. Une ligne de la base donne la population et la taille du
bétail d’un certain nombre de pays.

Entrée [12]:

if VERBOSE:
sample_country = "Bénin"
display(chicken.query("Pays == @sample_country"))

Code Pays Population taille du bétail Unit

0 BEN Bénin 11175204 20470 1000 Head

Entrée [13]:

expected_shape = (27, 5)
np.testing.assert_allclose(chicken.shape, expected_shape)

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 2/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [14]:

if VERBOSE:
display(chicken.describe(include="all"))

Code Pays Population taille du bétail Unit

count 27 27 2.700000e+01 27.000000 27

unique 27 27 NaN NaN 1

top BEN Bénin NaN NaN 1000 Head

freq 1 1 NaN NaN 27

mean NaN NaN 1.567757e+07 33047.444444 NaN

std NaN NaN 1.215223e+07 41645.916336 NaN

min NaN NaN 1.828146e+06 433.000000 NaN

25% NaN NaN 4.906465e+06 3972.000000 NaN

50% NaN NaN 1.206754e+07 20470.000000 NaN

75% NaN NaN 2.450176e+07 43765.000000 NaN

max NaN NaN 4.116246e+07 199186.000000 NaN

1 - Identification des valeurs extrêmes

Entrée [15]:

df_chicken_sorted = chicken.sort_values(by=TARGET_COL, ascending=False)

highests = df_chicken_sorted.head(2)

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 3/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [16]:

if VERBOSE:
fig, ax = plt.subplots(figsize=FIGSIZE)
sns.boxplot(y=TARGET_COL, x="Unit", data=chicken, ax=ax)
plt.show()

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 4/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [17]:

expected_code_countries = {18: 'MAR', 25: 'TUN'}

assert highests["Code"].to_dict() == expected_code_countries

2 - visualisation de la relation entre les variables

Entrée [18]:

outliers_labels = {}
for outlier in highests.to_dict(orient="records"):
outlier_label = dict(
x=outlier[PREDICTOR_COL]+100,
y=outlier[TARGET_COL]+10,
s=outlier["Pays"]
)
outliers_labels[outlier["Code"]] = outlier_label

Entrée [19]:

if VERBOSE:
fig, ax = plt.subplots(figsize=FIGSIZE)
sns.scatterplot(data=chicken, x=PREDICTOR_COL, y=TARGET_COL, ax=ax)
for country_code in outliers_labels:
plt.text(**outliers_labels[country_code])

plt.show()

Construction du modèle
localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 5/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [20]:

df = chicken.drop(highests.index)
X, y = df[[PREDICTOR_COL]], df[TARGET_COL]

Entrée [21]:

assert "MAR" not in df["Code"] and "TUN" not in df["Code"]

Le modèle suppose une relation linéaire entre:

La variable explicative 𝑋𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 : la population

La variable à expliquer 𝑌𝑏é𝑡𝑎𝑖𝑙 : la taille du bétail
𝑌𝑏é𝑡𝑎𝑖𝑙 = 𝛽1 × 𝑋𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 + 𝛽0 (+𝜖) ⏞
𝑖𝑛𝑐𝑒𝑟𝑡𝑖𝑡𝑢𝑑𝑒𝑠
𝜖
Il y a un terme d'erreur qui sert à tenir compte de tous les paramètres qu'on ne maîtrise pas comme le niveau
de sécheresse au cours de l'année dans tel ou tel pays, le développement ponctuel d'une maladie aviaire …
Si la relation était sans incertitudes, on aurait besoin que de deux points (le Bénin et le Togo, par exemple) et
on aurait:
Δ𝑌 𝑌 𝐵é𝑛𝑖𝑛 − 𝑌𝑏é𝑡𝑎𝑖𝑙
𝑇𝑜𝑔𝑜
𝛽1 = Δ𝑋 = 𝑋 𝐵é𝑛𝑖𝑛 − 𝑋 𝑇𝑜𝑔𝑜 𝑒𝑡 𝛽0 = 𝑌𝑏é𝑡𝑎𝑖𝑙
𝑏é𝑡𝑎𝑖𝑙 𝐵é𝑛𝑖𝑛 − 𝛽1 × 𝑋𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝐵é𝑛𝑖𝑛
𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
L'incertitude rend impossible une simple estimation des coefficients par ces formules. L'objectif est donc de
trouver les paramètres 𝛽0 𝛽1
et qui réduisent l'erreur au carré entre la droite et les points observés:
𝑚𝑜𝑑è𝑙𝑒
⏞
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛
∑𝑖 ( 𝑌𝑖 − (𝛽1×𝑋𝑖 +𝛽0 ) )2 = 𝑒𝑟𝑟𝑒𝑢𝑟 𝑎𝑢 𝑐𝑎𝑟𝑟é

2 - Description de l'erreur (approfondissement)

Entrée [22]:

DIM_X = 200
DIM_Y = 200

coeff = np.linspace(0,0.002,DIM_X)
intercept = np.linspace(2000,10700,DIM_Y)

coeff_matrix, intercept_matrix = np.meshgrid(coeff, intercept)

Entrée [23]:

erreur_quadratique = erreur_pour_plusieurs_parametres(
coefficient_matrix = coeff_matrix, intercept_matrix = intercept_matrix, df = df, predic
)

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 6/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [24]:

plt.figure(figsize=FIGSIZE)

ax = plt.axes(projection='3d')
ax.plot_surface(coeff_matrix, intercept_matrix, erreur_quadratique, rstride=1, cstride=1,
cmap='viridis', edgecolor='none')
ax.set_title("surface de l'erreur");

3 - Calibrage et prédiction du modèle

Entrée [25]:

regressor = LinearRegression()
# Calibrage du modèle: détermination des coefficient
regressor.fit(X, y)

Out[25]:

LinearRegression()

Entrée [26]:

Y_model = regressor.predict(X)

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 7/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

Entrée [27]:

expected_Y_model = [
19039.50424144, 29456.62073701, 18587.14761474, 36436.9298933 ,
24030.48360293, 11160.48285208, 36269.88352178, 7203.26661398,
7396.94015841, 42355.35466942, 20198.82887378, 6895.77505979,
7237.81113218, 10629.79205785, 13070.3403772 , 37741.97317476,
28572.00615962, 10084.57617003, 41741.52785203, 7642.11152571,
32586.64588714, 23474.87408821, 57545.54294173, 14522.52623467,
57999.05456022
]
np.testing.assert_allclose(Y_model, expected_Y_model)

Entrée [28]:

# Visualisation
if VERBOSE:
fig, ax = plt.subplots(1,1, figsize=FIGSIZE)
ax.plot(df[PREDICTOR_COL], df[TARGET_COL], "o")
ax.plot(df[[PREDICTOR_COL]], Y_model)
plt.show()

4 - Qu'aurait-on eu si nous avions gardé les valeurs aberrantes?

Qu'est-ce qu'on retient?

1. La Régression linéaire est un modèle où l'espérance de variable à expliquer est une fonction affine des
paramètres
2. La moyenne est très sensible au valeur extrême. Il faut donc les identifier et les traiter
localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 8/9
26/07/2022 09:46 1-simple_linear_regression - Jupyter Notebook

3. Le calibrage du modèle est une réduction (optimisation) de l'erreur quadratique

Pour aller plus loin

1. Quels sont les hypothèses de la regression linéaire?

2. Comment les tester?
3. Que ferait-on si l'on avait plusieurs variables axplicatives?

End of script

localhost:8888/notebooks/Desktop/EEIA/1-simple_linear_regression.ipynb 9/9

Vous aimerez peut-être aussi

Chapitre2 ML
Pas encore d'évaluation
Chapitre2 ML
63 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
Lecture2-1 Regression Linéaire Simple
Pas encore d'évaluation
Lecture2-1 Regression Linéaire Simple
42 pages
TD Machine Regression Python
Pas encore d'évaluation
TD Machine Regression Python
3 pages
Chapitre 2. Regression Linéaire V1
100% (1)
Chapitre 2. Regression Linéaire V1
15 pages
tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
Machine Learning Cours Complet
Pas encore d'évaluation
Machine Learning Cours Complet
2 pages
2019 ML TD3
Pas encore d'évaluation
2019 ML TD3
3 pages
Chap 2
Pas encore d'évaluation
Chap 2
5 pages
Apprentissage Profond Ou Deep Learning (PDFDrive) - 1
Pas encore d'évaluation
Apprentissage Profond Ou Deep Learning (PDFDrive) - 1
49 pages
TP N°1 Numpy
Pas encore d'évaluation
TP N°1 Numpy
2 pages
Préparation et Analyse de Données pour Régression Linéaire
Pas encore d'évaluation
Préparation et Analyse de Données pour Régression Linéaire
32 pages
Apprentissage: Régression Logistique
Pas encore d'évaluation
Apprentissage: Régression Logistique
3 pages
Cours ML
Pas encore d'évaluation
Cours ML
127 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
Modèles ML: Diagnostic et Prévision
Pas encore d'évaluation
Modèles ML: Diagnostic et Prévision
2 pages
Pratique Analyse de Données Avec R Chap 3
Pas encore d'évaluation
Pratique Analyse de Données Avec R Chap 3
5 pages
Introduction à l'Apprentissage Machine
Pas encore d'évaluation
Introduction à l'Apprentissage Machine
53 pages
LOG770 Chap1 Exercices
Pas encore d'évaluation
LOG770 Chap1 Exercices
2 pages
LED3SI - Module - M354 - Chap1-Chap2
Pas encore d'évaluation
LED3SI - Module - M354 - Chap1-Chap2
39 pages
Cours 81
100% (1)
Cours 81
28 pages
Corrigé Examen Fouille de Données Avancée
Pas encore d'évaluation
Corrigé Examen Fouille de Données Avancée
2 pages
Arbre de Decision
Pas encore d'évaluation
Arbre de Decision
44 pages
0725 Machine Learning Statistiques Et Programmation
Pas encore d'évaluation
0725 Machine Learning Statistiques Et Programmation
6 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
Serie 1
Pas encore d'évaluation
Serie 1
5 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
52 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Corrige 02 Sujets Des Concours D'accès Au Doctorat en Systèmes Intelligents Et Apprentissage Automatique Ghardaïa 2022
Pas encore d'évaluation
Corrige 02 Sujets Des Concours D'accès Au Doctorat en Systèmes Intelligents Et Apprentissage Automatique Ghardaïa 2022
17 pages
Devoir Référencement en Apprentissage Machine
Pas encore d'évaluation
Devoir Référencement en Apprentissage Machine
3 pages
Optimisation et Évaluation des Modèles
100% (1)
Optimisation et Évaluation des Modèles
47 pages
Comprendre l'algorithme k-ppv
Pas encore d'évaluation
Comprendre l'algorithme k-ppv
26 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Cours BDRENSI
100% (1)
Cours BDRENSI
214 pages
03 Classification
Pas encore d'évaluation
03 Classification
79 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
TP Neural Network
Pas encore d'évaluation
TP Neural Network
5 pages
TP Regression
Pas encore d'évaluation
TP Regression
5 pages
1 Apprentissage Supervise
Pas encore d'évaluation
1 Apprentissage Supervise
13 pages
Introduction Lapprentissage Par Renforcement Ensps
Pas encore d'évaluation
Introduction Lapprentissage Par Renforcement Ensps
24 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
Chapit 1 ML L3 IRS
Pas encore d'évaluation
Chapit 1 ML L3 IRS
38 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
TP3 - SVM-23-24
Pas encore d'évaluation
TP3 - SVM-23-24
3 pages
Cours Apprentissage Automatique-1 ch1
Pas encore d'évaluation
Cours Apprentissage Automatique-1 ch1
68 pages
Régression Linéaire en Python
Pas encore d'évaluation
Régression Linéaire en Python
2 pages
TD Rég Simpl Multiple
Pas encore d'évaluation
TD Rég Simpl Multiple
4 pages
Modèles d'apprentissage automatique
Pas encore d'évaluation
Modèles d'apprentissage automatique
10 pages
Régression Linéaire: Algorithme et Optimisation
Pas encore d'évaluation
Régression Linéaire: Algorithme et Optimisation
34 pages
Control ML
Pas encore d'évaluation
Control ML
4 pages
Algorithmeknn 121213175830 Phpapp02
0% (1)
Algorithmeknn 121213175830 Phpapp02
14 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Introduction Au Deep Learning (Notes de Cours)
Pas encore d'évaluation
Introduction Au Deep Learning (Notes de Cours)
51 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
ML Seance 3
Pas encore d'évaluation
ML Seance 3
103 pages
Régression Linéaire et Incertitudes
Pas encore d'évaluation
Régression Linéaire et Incertitudes
4 pages
1-Simple Linear Regression
Pas encore d'évaluation
1-Simple Linear Regression
6 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
Econometrie TD 5 Sujet Regression
Pas encore d'évaluation
Econometrie TD 5 Sujet Regression
6 pages
ENSBBA Mémoire Romiald PDF
Pas encore d'évaluation
ENSBBA Mémoire Romiald PDF
39 pages
CV - Ahmat - Mbodou - Mahamat - Firts - Lady - 2018
Pas encore d'évaluation
CV - Ahmat - Mbodou - Mahamat - Firts - Lady - 2018
6 pages
Porphyre - Vie de Plotin
Pas encore d'évaluation
Porphyre - Vie de Plotin
58 pages
Soja: Énergie et Protéines pour Éleveurs
Pas encore d'évaluation
Soja: Énergie et Protéines pour Éleveurs
4 pages
CHIM H 2001 CP Exercices 2024
Pas encore d'évaluation
CHIM H 2001 CP Exercices 2024
83 pages
Notice de Montage Porte de Garage Basculante Debordante Primo Acier Blanc 200 X 237cm 1
Pas encore d'évaluation
Notice de Montage Porte de Garage Basculante Debordante Primo Acier Blanc 200 X 237cm 1
38 pages
Modélisation des Déformations de Géomembranes
Pas encore d'évaluation
Modélisation des Déformations de Géomembranes
14 pages
Devoir Maths 3ème Trimestre 1 2024-2025
Pas encore d'évaluation
Devoir Maths 3ème Trimestre 1 2024-2025
2 pages
Desbloque DVD Samsung
Pas encore d'évaluation
Desbloque DVD Samsung
8 pages
TD2 2024
Pas encore d'évaluation
TD2 2024
6 pages
Programme S8 Ingénieur ENIM
Pas encore d'évaluation
Programme S8 Ingénieur ENIM
33 pages
Dossier Technique Dossier Technique Pilote C, Ce. N Série de À
Pas encore d'évaluation
Dossier Technique Dossier Technique Pilote C, Ce. N Série de À
124 pages
1 25 Titrations
Pas encore d'évaluation
1 25 Titrations
7 pages
Manutention Manuelle PDF
100% (1)
Manutention Manuelle PDF
20 pages
Cours Analyse Vectorielle Et Numérique
Pas encore d'évaluation
Cours Analyse Vectorielle Et Numérique
159 pages
Rapport Sondage Village de Madinguile
Pas encore d'évaluation
Rapport Sondage Village de Madinguile
13 pages
Programme Streetlift 5j PPLPP Final
Pas encore d'évaluation
Programme Streetlift 5j PPLPP Final
39 pages
Sakura 2015
Pas encore d'évaluation
Sakura 2015
170 pages
Document 12
Pas encore d'évaluation
Document 12
2 pages
DS4 PC
Pas encore d'évaluation
DS4 PC
9 pages
Innio BR t6 A4 FR 2022 Screen
Pas encore d'évaluation
Innio BR t6 A4 FR 2022 Screen
2 pages
La Bronchopneumopathie Pneumopathie Chronique Obstructive (BPCO)
Pas encore d'évaluation
La Bronchopneumopathie Pneumopathie Chronique Obstructive (BPCO)
158 pages
Ranirison PH MAST 16
Pas encore d'évaluation
Ranirison PH MAST 16
83 pages
Modèles d'Orbitales Moléculaires en Chimie Minérale
Pas encore d'évaluation
Modèles d'Orbitales Moléculaires en Chimie Minérale
20 pages
Guide eFlexFuel 04 2021
Pas encore d'évaluation
Guide eFlexFuel 04 2021
15 pages
Formulaire Ass 2025
Pas encore d'évaluation
Formulaire Ass 2025
2 pages
Banques de Données Biologiques: By: Chourouk Sakraoui
Pas encore d'évaluation
Banques de Données Biologiques: By: Chourouk Sakraoui
3 pages
Fiche Technique Du HPE SimpliVity 380-PSN1009954527BEFR
Pas encore d'évaluation
Fiche Technique Du HPE SimpliVity 380-PSN1009954527BEFR
5 pages
Introduction au Génie des Procédés
Pas encore d'évaluation
Introduction au Génie des Procédés
17 pages
Cours Mecanique Auto 2020 2021
96% (25)
Cours Mecanique Auto 2020 2021
48 pages