Année Universitaire 2021-2022
Data Science
Zouaoui Slim
zou_slim@yahoo.fr
Introduction
Définition
Le Data science est un nouveau champ situé au croisement de
la statistique et des technologies de l’information (bases de
données, intelligence artificielle, apprentissage etc.) dont le
but est de découvrir des structures dans de vastes ensembles
de données. La métaphore du Data Science signifie qu’il y a
des trésors ou pépites cachés sous des montagnes de données
que l’on peut découvrir avec des outils spécialisés.
Introduction
Définition
C’est l’ensemble des algorithmes, méthodes et technologies
inspirés de plusieurs autres disciplines, pouvant servir à
remplacer ou à aider l’expert humain ou le décideur dans un
domaine spécifique dans le cadre de prise de décision, et ce
en fouillant dans des bases de données décisionnelles des
corrélations, des associations, des comportements homogènes,
des formules de lien entre indicateurs, des spécification par
rapport à une thématique bien déterminée, etc.
L’organisation du flux d’informations de Data Science
Domaines d’application
Détection d'usage frauduleux de cartes bancaires.
Gestion du risque lié à l'attribution de prêts par le
scoring.
Découverte de relations cachées entre les indicateurs
financiers.
Détection de règles de comportement boursier par
l'analyses des données du marché.
Utilisation du score de risque pour proposer le
montant de crédit le plus adapté à chaque client.
Aide à la décision de paiement.
Identification des clients susceptibles de partir à la
concurrence.
Domaines d’application
Détection d’associations des comportements
d’achats.
Découverte des caractéristiques de clients.
Identification des clients susceptibles de partir à la
concurrence..
Classifications des clients .
Aide à la décision de paiement.
Domaines d’application
Détection d’associations des demandes de
remboursements
Identification de clients potentiels de nouvelles
polices d'assurances.
Détection d'association de comportements
pour la découverte de clients à risque.
Détection de comportement frauduleux.
Prendre un client à un concurrent.
Faire monter en gamme un client que l’on
détient déjà.
Domaines d’application
Diagnostique assisté par ordinateur (CAD) par
l'apprentissage de systèmes experts
Explication ou prédiction de la réponse d'un patient
à un traitement
Mettre en évidence des facteurs de risque ou de
rémission dans certaines maladies.
Choisir le traitement le plus approprié pronostic des
infarctus et des cancers (décès, survie)
Prédire le temps de rétablissement après une
opération, en fonction des données concernant le
patient (âge, poids, taille, fumeur, métier, antécédents
médicaux, etc.) et le praticien (nb d’opérations
pratiquées, nb d’années d’expérience, etc.)
Méthodologie de travail
1- KDD / ECD :
• Knowledge Discovery in Databases / Extraction de Connaissances à partir de Données
• Un processus pour la fouille de données qui a bien répondu aux besoins d’entreprises, et qui
est devenu rapidement très populaire.
• Des motifs valides, utiles et exploitables à partir des grandes quantités de données
2- SEMMA :
• Sample, Explore, Modify, Model, Assess
• L’Institut SAS définit le data mining comme le processus utilisé pour révéler des
informations précieuses et des relations complexes qui existent dans de grandes quantités de
données (BIG DATA, OPEN DATA).
• SAS divise la fouille de données en cinq étapes représentées par l’acronyme SEMMA
3- CRISP-DM :
• CRoss-Industry Standard Process for Data Mining
• Une méthode mise à l'épreuve sur le terrain permettant d'orienter les travaux de Data mining .
• Processus de data mining qui décrit une approche communément utilisée par les experts pour
résoudre les problèmes qui se posent à eux.
Méthodologie de travail
Méthodologie de travail
Méthodologie de travail
I. Connaissance du métier
Connaitre les spécificités du métier
Déterminer les objectifs d'affaires
Résoudre un problème spécifique
Evaluer la situation actuelle
Convertir en un problème de data Science
Exemle :
Quels types de clients sont intéressés par chacun de nos produits?
Quels sont les profils typiques de nos clients?
Élaborer un plan de projet
II. Connaissance des données
Collecte de données initiales
Sélection des données d’étude (Interne et Externe)
Identifier les données pertinentes pour la description du problème
Vérification de la qualité des données
Description et audit des données
Exploration des données
III. Préparation des données
Prétraitement et le nettoyage des données
Remplissez les valeurs manquantes
Identifier les données extrêmes
Identifier, supprimer ou remplacer les valeurs aberrantes
Manipulation des données
Résoudre la redondance causée par l'intégration des données
Corriger les données incohérentes
Transformer les données
Convertir des mesures différentes de données dans un échelle
Standardiser les données
Recoder les données
IV. Analyse et Modélisation
des données
Choisir la/les méthodes adéquates pour
une analyse statistique d’un projet Data Science
une variable à la fois : statistique à une dimension,
(analyse unidimensionnelle)
deux variables à la fois : statistique à deux dimensions,
(analyse bidimensionnelle)
plus de deux variables à la fois : statistique multidimensionnelle
(analyse multidimensionnelle - Data Mining) .
V. Evaluation et déploiement
Evaluation et tests des résultats
Evaluation de l’utilité et la fiabilité des résultats
Est-ce que les résultats d’analyses répond aux objectifs métier?
Tous les objectifs importants doivent être atteints
Quelles sont les perspectives suite à la réalisation de ce projet Data
Science
Méthodologie de travail : exemple
Deux familles de techniques
Deux familles de techniques
Types d’applications