0% ont trouvé ce document utile (0 vote)

483 vues27 pages

Introduction Data - Science

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

483 vues27 pages

Introduction Data - Science

Transféré par

Ra Nim

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 27

Année Universitaire 2021-2022

Data Science

Zouaoui Slim
zou_slim@yahoo.fr
Introduction
Définition

Le Data science est un nouveau champ situé au croisement de

la statistique et des technologies de l’information (bases de
données, intelligence artificielle, apprentissage etc.) dont le
but est de découvrir des structures dans de vastes ensembles
de données. La métaphore du Data Science signifie qu’il y a
des trésors ou pépites cachés sous des montagnes de données
que l’on peut découvrir avec des outils spécialisés.
Introduction
Définition

C’est l’ensemble des algorithmes, méthodes et technologies

inspirés de plusieurs autres disciplines, pouvant servir à
remplacer ou à aider l’expert humain ou le décideur dans un
domaine spécifique dans le cadre de prise de décision, et ce
en fouillant dans des bases de données décisionnelles des
corrélations, des associations, des comportements homogènes,
des formules de lien entre indicateurs, des spécification par
rapport à une thématique bien déterminée, etc.
L’organisation du flux d’informations de Data Science
Domaines d’application
Détection d'usage frauduleux de cartes bancaires.

Gestion du risque lié à l'attribution de prêts par le

scoring.

Découverte de relations cachées entre les indicateurs

financiers.

Détection de règles de comportement boursier par

l'analyses des données du marché.

Utilisation du score de risque pour proposer le

montant de crédit le plus adapté à chaque client.

Aide à la décision de paiement.

Identification des clients susceptibles de partir à la

concurrence.
Domaines d’application
Détection d’associations des comportements
d’achats.

Découverte des caractéristiques de clients.

Identification des clients susceptibles de partir à la

concurrence..

Classifications des clients .

Aide à la décision de paiement.

Domaines d’application
Détection d’associations des demandes de
remboursements

Identification de clients potentiels de nouvelles

polices d'assurances.

Détection d'association de comportements

pour la découverte de clients à risque.

Détection de comportement frauduleux.

Prendre un client à un concurrent.

Faire monter en gamme un client que l’on

détient déjà.
Domaines d’application
Diagnostique assisté par ordinateur (CAD) par
l'apprentissage de systèmes experts

Explication ou prédiction de la réponse d'un patient

à un traitement

Mettre en évidence des facteurs de risque ou de

rémission dans certaines maladies.

Choisir le traitement le plus approprié pronostic des

infarctus et des cancers (décès, survie)

Prédire le temps de rétablissement après une

opération, en fonction des données concernant le
patient (âge, poids, taille, fumeur, métier, antécédents
médicaux, etc.) et le praticien (nb d’opérations
pratiquées, nb d’années d’expérience, etc.)
Méthodologie de travail
1- KDD / ECD :
• Knowledge Discovery in Databases / Extraction de Connaissances à partir de Données
• Un processus pour la fouille de données qui a bien répondu aux besoins d’entreprises, et qui
est devenu rapidement très populaire.
• Des motifs valides, utiles et exploitables à partir des grandes quantités de données

2- SEMMA :
• Sample, Explore, Modify, Model, Assess
• L’Institut SAS définit le data mining comme le processus utilisé pour révéler des
informations précieuses et des relations complexes qui existent dans de grandes quantités de
données (BIG DATA, OPEN DATA).
• SAS divise la fouille de données en cinq étapes représentées par l’acronyme SEMMA

3- CRISP-DM :
• CRoss-Industry Standard Process for Data Mining
• Une méthode mise à l'épreuve sur le terrain permettant d'orienter les travaux de Data mining .
• Processus de data mining qui décrit une approche communément utilisée par les experts pour
résoudre les problèmes qui se posent à eux.
Méthodologie de travail
Méthodologie de travail
Méthodologie de travail
I. Connaissance du métier

 Connaitre les spécificités du métier

 Déterminer les objectifs d'affaires
 Résoudre un problème spécifique
 Evaluer la situation actuelle
 Convertir en un problème de data Science

Exemle :

Quels types de clients sont intéressés par chacun de nos produits?

Quels sont les profils typiques de nos clients?

 Élaborer un plan de projet

II. Connaissance des données

 Collecte de données initiales

 Sélection des données d’étude (Interne et Externe)

 Identifier les données pertinentes pour la description du problème

 Vérification de la qualité des données

 Description et audit des données

 Exploration des données

III. Préparation des données

 Prétraitement et le nettoyage des données

 Remplissez les valeurs manquantes
 Identifier les données extrêmes
 Identifier, supprimer ou remplacer les valeurs aberrantes

 Manipulation des données

 Résoudre la redondance causée par l'intégration des données
 Corriger les données incohérentes

 Transformer les données

 Convertir des mesures différentes de données dans un échelle
 Standardiser les données
 Recoder les données
IV. Analyse et Modélisation
des données

Choisir la/les méthodes adéquates pour

une analyse statistique d’un projet Data Science

 une variable à la fois : statistique à une dimension,

(analyse unidimensionnelle)

 deux variables à la fois : statistique à deux dimensions,

(analyse bidimensionnelle)

 plus de deux variables à la fois : statistique multidimensionnelle

(analyse multidimensionnelle - Data Mining) .
V. Evaluation et déploiement

 Evaluation et tests des résultats

 Evaluation de l’utilité et la fiabilité des résultats

 Est-ce que les résultats d’analyses répond aux objectifs métier?

 Tous les objectifs importants doivent être atteints

 Quelles sont les perspectives suite à la réalisation de ce projet Data

Science
Méthodologie de travail : exemple
Deux familles de techniques
Deux familles de techniques
Types d’applications

Vous aimerez peut-être aussi

Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
Pas encore d'évaluation
Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
115 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Chapitre 1 Datamining
Pas encore d'évaluation
Chapitre 1 Datamining
25 pages
Data Mining I - Exploration Statistique (Philppe Besse)
Pas encore d'évaluation
Data Mining I - Exploration Statistique (Philppe Besse)
142 pages
Analyse Des Donnees
Pas encore d'évaluation
Analyse Des Donnees
143 pages
Data Mining
Pas encore d'évaluation
Data Mining
44 pages
Conseils Pratiques en Data Science Pour Les Ingénieurs Des Données
Pas encore d'évaluation
Conseils Pratiques en Data Science Pour Les Ingénieurs Des Données
18 pages
Cours Big Data Avancee Chp1 Introduction
Pas encore d'évaluation
Cours Big Data Avancee Chp1 Introduction
28 pages
Rapport DataMining
Pas encore d'évaluation
Rapport DataMining
31 pages
Rapport Data Science
Pas encore d'évaluation
Rapport Data Science
5 pages
Introduction à la Statistique
Pas encore d'évaluation
Introduction à la Statistique
44 pages
Azizi Cour FD
Pas encore d'évaluation
Azizi Cour FD
48 pages
Datamining: Clé de l'Intelligence Économique
100% (1)
Datamining: Clé de l'Intelligence Économique
13 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
Memoire Byemba Kayembe Josué
Pas encore d'évaluation
Memoire Byemba Kayembe Josué
86 pages
Big Data
100% (1)
Big Data
88 pages
Apprentissage Statistique, Modélisation, Prévision, Data Mining
Pas encore d'évaluation
Apprentissage Statistique, Modélisation, Prévision, Data Mining
156 pages
Regles D'Associations
0% (1)
Regles D'Associations
28 pages
Prétraitement des Données Avancé
100% (1)
Prétraitement des Données Avancé
153 pages
Cours Logiciel R
Pas encore d'évaluation
Cours Logiciel R
42 pages
Cours Data Mining
Pas encore d'évaluation
Cours Data Mining
60 pages
Data Mining
0% (1)
Data Mining
24 pages
164 Data Scientist FR FR Standard
100% (1)
164 Data Scientist FR FR Standard
23 pages
Method Crisp D.W
Pas encore d'évaluation
Method Crisp D.W
14 pages
Cours R
Pas encore d'évaluation
Cours R
10 pages
Tuffery - Master Rennes 2011-2012 - Data Mining - Presentation
Pas encore d'évaluation
Tuffery - Master Rennes 2011-2012 - Data Mining - Presentation
171 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
Introduction à R et Tests Statistiques
Pas encore d'évaluation
Introduction à R et Tests Statistiques
10 pages
Le Logiciel R Comme Outil D'initiation
Pas encore d'évaluation
Le Logiciel R Comme Outil D'initiation
14 pages
Apprentissage Statistique PDF
Pas encore d'évaluation
Apprentissage Statistique PDF
159 pages
Data Science Pour L'entreprise
100% (1)
Data Science Pour L'entreprise
29 pages
Étudiants en Ingénierie et Data Mining
Pas encore d'évaluation
Étudiants en Ingénierie et Data Mining
25 pages
Systèmes DInformation Décisionnels
Pas encore d'évaluation
Systèmes DInformation Décisionnels
225 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
Introduction au Data Mining EPF
Pas encore d'évaluation
Introduction au Data Mining EPF
19 pages
1 Apprentissage Supervise
Pas encore d'évaluation
1 Apprentissage Supervise
13 pages
Algorithmes de Machine Learning
100% (1)
Algorithmes de Machine Learning
52 pages
4-Préparation Données
100% (1)
4-Préparation Données
55 pages
Analyse en Composante Principale
Pas encore d'évaluation
Analyse en Composante Principale
54 pages
ACP, SPSS Interpretaion
Pas encore d'évaluation
ACP, SPSS Interpretaion
10 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
11 pages
Rapport de Projet DATAMINING
Pas encore d'évaluation
Rapport de Projet DATAMINING
16 pages
Classif Cours
100% (1)
Classif Cours
82 pages
Data Science: Prétraitement et Outils
Pas encore d'évaluation
Data Science: Prétraitement et Outils
103 pages
DATA VISUALISATION de L'extraction Des Données À Leur Représentation Graphique
Pas encore d'évaluation
DATA VISUALISATION de L'extraction Des Données À Leur Représentation Graphique
367 pages
WM.B - Filtrage Collaboratif - Recommandation
Pas encore d'évaluation
WM.B - Filtrage Collaboratif - Recommandation
32 pages
Data Visualisation
Pas encore d'évaluation
Data Visualisation
20 pages
Préparez-vous pour le Tech Challenge
Pas encore d'évaluation
Préparez-vous pour le Tech Challenge
2 pages
1MVT Analyse de Donnes Avec R Par Franois Husson Sbastien L Jrme Pags 2753548692
0% (2)
1MVT Analyse de Donnes Avec R Par Franois Husson Sbastien L Jrme Pags 2753548692
4 pages
Pratique Methodes Factorielles
Pas encore d'évaluation
Pratique Methodes Factorielles
402 pages
Analyse R (Complet)
Pas encore d'évaluation
Analyse R (Complet)
1 397 pages
Projet IA MameCheikhSylla - IbraKoundoul
Pas encore d'évaluation
Projet IA MameCheikhSylla - IbraKoundoul
19 pages
Atelier Visualisation de Données CERGY PDF
100% (1)
Atelier Visualisation de Données CERGY PDF
139 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Exploration des Données et KDD
100% (1)
Exploration des Données et KDD
46 pages
Exploration des Données: Guide Essentiel
Pas encore d'évaluation
Exploration des Données: Guide Essentiel
46 pages
Chapitre2 AFC
Pas encore d'évaluation
Chapitre2 AFC
16 pages
Chapitre3 Classification
Pas encore d'évaluation
Chapitre3 Classification
33 pages
TD N°1 - Architectures Logicielles 2021 2022222222
Pas encore d'évaluation
TD N°1 - Architectures Logicielles 2021 2022222222
3 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
51 pages
TD 1
Pas encore d'évaluation
TD 1
2 pages
Chapitre2 Les Trigger
Pas encore d'évaluation
Chapitre2 Les Trigger
87 pages
TP Docker: Installation et Utilisation
Pas encore d'évaluation
TP Docker: Installation et Utilisation
14 pages
Stage Initation Cnte
Pas encore d'évaluation
Stage Initation Cnte
37 pages
Devenir Ingénieur à l'École Polytechnique
Pas encore d'évaluation
Devenir Ingénieur à l'École Polytechnique
2 pages
Exercices-Ordonnancement (Partie 1)
Pas encore d'évaluation
Exercices-Ordonnancement (Partie 1)
2 pages
Bimbenet - Nature Et Humanité
100% (3)
Bimbenet - Nature Et Humanité
340 pages
Club D'informatique Et D'outils Numã©riques-21pdf
Pas encore d'évaluation
Club D'informatique Et D'outils Numã©riques-21pdf
74 pages
La Science Régionale en Perspective
Pas encore d'évaluation
La Science Régionale en Perspective
8 pages
Guide Al Moufid SVT BIOF 1AC
Pas encore d'évaluation
Guide Al Moufid SVT BIOF 1AC
87 pages
Ado Transition Crise Ou Chgment
Pas encore d'évaluation
Ado Transition Crise Ou Chgment
15 pages
Support Cours Socio Meryem Kamal-Converti
Pas encore d'évaluation
Support Cours Socio Meryem Kamal-Converti
35 pages
Peut-On Fixer Une Typologie Des Méthodes Qualitatives? (Royer, 2007)
Pas encore d'évaluation
Peut-On Fixer Une Typologie Des Méthodes Qualitatives? (Royer, 2007)
17 pages
Projet 02: Etablissement: Ben Djedid Layachi
100% (1)
Projet 02: Etablissement: Ben Djedid Layachi
32 pages
Comte - Cours de Philosophie Positive Leçons 47 À 51
100% (1)
Comte - Cours de Philosophie Positive Leçons 47 À 51
751 pages
Méthodologies de Recherche et Problématisation
Pas encore d'évaluation
Méthodologies de Recherche et Problématisation
43 pages
Écriture Féminine Camerounaise Moderne
100% (1)
Écriture Féminine Camerounaise Moderne
29 pages
Licence Conomie - Gestion 49017
Pas encore d'évaluation
Licence Conomie - Gestion 49017
15 pages
Emploi Du Temps L3 Management S6 (2023-2024)
Pas encore d'évaluation
Emploi Du Temps L3 Management S6 (2023-2024)
1 page
Memoire Daniel
Pas encore d'évaluation
Memoire Daniel
9 pages
Criminologie : Concepts et Débats
Pas encore d'évaluation
Criminologie : Concepts et Débats
15 pages
Maquette Congres
Pas encore d'évaluation
Maquette Congres
1 page
L'Art de Plaider : Maîtrise et Éloquence
100% (1)
L'Art de Plaider : Maîtrise et Éloquence
9 pages
Manuel de Psychologie Du Travail Et Des Organisations: January 2012
Pas encore d'évaluation
Manuel de Psychologie Du Travail Et Des Organisations: January 2012
4 pages
نقاط سنة ثانية ماستر مالية وتجارة دولية 23012023
Pas encore d'évaluation
نقاط سنة ثانية ماستر مالية وتجارة دولية 23012023
7 pages
Bruno Latour-Intro-Changer de Société-Refaire de La Sociologie
Pas encore d'évaluation
Bruno Latour-Intro-Changer de Société-Refaire de La Sociologie
17 pages
Compétences Argumentatives Lycéens via Débats Numériques
Pas encore d'évaluation
Compétences Argumentatives Lycéens via Débats Numériques
382 pages
Emplois Du Temps Des CM - Economie-Gestion - Premier Semestre 2024-2025
Pas encore d'évaluation
Emplois Du Temps Des CM - Economie-Gestion - Premier Semestre 2024-2025
4 pages
Ce Qui Attend Cécile de Ménibus
Pas encore d'évaluation
Ce Qui Attend Cécile de Ménibus
2 pages
La Responsabilité Pénale Du Médecin 4
Pas encore d'évaluation
La Responsabilité Pénale Du Médecin 4
107 pages
Précarité Alimentaire Étudiante
Pas encore d'évaluation
Précarité Alimentaire Étudiante
124 pages
11 Et 12emes Degres REAA PDF
100% (4)
11 Et 12emes Degres REAA PDF
6 pages
HPE
Pas encore d'évaluation
HPE
27 pages
Neutralité Axiologique et Engagement
Pas encore d'évaluation
Neutralité Axiologique et Engagement
6 pages
Brochure SVT
100% (1)
Brochure SVT
12 pages
Le Sens Du Végétarisme
Pas encore d'évaluation
Le Sens Du Végétarisme
19 pages