[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
483 vues27 pages

Introduction Data - Science

Transféré par

Ra Nim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
483 vues27 pages

Introduction Data - Science

Transféré par

Ra Nim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 27

Année Universitaire 2021-2022

Data Science

Zouaoui Slim
zou_slim@yahoo.fr
Introduction
Définition

Le Data science est un nouveau champ situé au croisement de


la statistique et des technologies de l’information (bases de
données, intelligence artificielle, apprentissage etc.) dont le
but est de découvrir des structures dans de vastes ensembles
de données. La métaphore du Data Science signifie qu’il y a
des trésors ou pépites cachés sous des montagnes de données
que l’on peut découvrir avec des outils spécialisés.
Introduction
Définition

C’est l’ensemble des algorithmes, méthodes et technologies


inspirés de plusieurs autres disciplines, pouvant servir à
remplacer ou à aider l’expert humain ou le décideur dans un
domaine spécifique dans le cadre de prise de décision, et ce
en fouillant dans des bases de données décisionnelles des
corrélations, des associations, des comportements homogènes,
des formules de lien entre indicateurs, des spécification par
rapport à une thématique bien déterminée, etc.
L’organisation du flux d’informations de Data Science
Domaines d’application
Détection d'usage frauduleux de cartes bancaires.

Gestion du risque lié à l'attribution de prêts par le


scoring.

Découverte de relations cachées entre les indicateurs


financiers.

Détection de règles de comportement boursier par


l'analyses des données du marché.

Utilisation du score de risque pour proposer le


montant de crédit le plus adapté à chaque client.

Aide à la décision de paiement.

Identification des clients susceptibles de partir à la


concurrence.
Domaines d’application
Détection d’associations des comportements
d’achats.

Découverte des caractéristiques de clients.

Identification des clients susceptibles de partir à la


concurrence..

Classifications des clients .

Aide à la décision de paiement.


Domaines d’application
Détection d’associations des demandes de
remboursements

Identification de clients potentiels de nouvelles


polices d'assurances.

Détection d'association de comportements


pour la découverte de clients à risque.

Détection de comportement frauduleux.

Prendre un client à un concurrent.

Faire monter en gamme un client que l’on


détient déjà.
Domaines d’application
Diagnostique assisté par ordinateur (CAD) par
l'apprentissage de systèmes experts

Explication ou prédiction de la réponse d'un patient


à un traitement

Mettre en évidence des facteurs de risque ou de


rémission dans certaines maladies.

Choisir le traitement le plus approprié pronostic des


infarctus et des cancers (décès, survie)

Prédire le temps de rétablissement après une


opération, en fonction des données concernant le
patient (âge, poids, taille, fumeur, métier, antécédents
médicaux, etc.) et le praticien (nb d’opérations
pratiquées, nb d’années d’expérience, etc.)
Méthodologie de travail
1- KDD / ECD :
• Knowledge Discovery in Databases / Extraction de Connaissances à partir de Données
• Un processus pour la fouille de données qui a bien répondu aux besoins d’entreprises, et qui
est devenu rapidement très populaire.
• Des motifs valides, utiles et exploitables à partir des grandes quantités de données

2- SEMMA :
• Sample, Explore, Modify, Model, Assess
• L’Institut SAS définit le data mining comme le processus utilisé pour révéler des
informations précieuses et des relations complexes qui existent dans de grandes quantités de
données (BIG DATA, OPEN DATA).
• SAS divise la fouille de données en cinq étapes représentées par l’acronyme SEMMA

3- CRISP-DM :
• CRoss-Industry Standard Process for Data Mining
• Une méthode mise à l'épreuve sur le terrain permettant d'orienter les travaux de Data mining .
• Processus de data mining qui décrit une approche communément utilisée par les experts pour
résoudre les problèmes qui se posent à eux.
Méthodologie de travail
Méthodologie de travail
Méthodologie de travail
I. Connaissance du métier

 Connaitre les spécificités du métier


 Déterminer les objectifs d'affaires
 Résoudre un problème spécifique
 Evaluer la situation actuelle
 Convertir en un problème de data Science

Exemle :

Quels types de clients sont intéressés par chacun de nos produits?

Quels sont les profils typiques de nos clients?

 Élaborer un plan de projet


II. Connaissance des données

 Collecte de données initiales

 Sélection des données d’étude (Interne et Externe)

 Identifier les données pertinentes pour la description du problème

 Vérification de la qualité des données

 Description et audit des données

 Exploration des données


III. Préparation des données

 Prétraitement et le nettoyage des données


 Remplissez les valeurs manquantes
 Identifier les données extrêmes
 Identifier, supprimer ou remplacer les valeurs aberrantes

 Manipulation des données


 Résoudre la redondance causée par l'intégration des données
 Corriger les données incohérentes

 Transformer les données


 Convertir des mesures différentes de données dans un échelle
 Standardiser les données
 Recoder les données
IV. Analyse et Modélisation
des données

Choisir la/les méthodes adéquates pour


une analyse statistique d’un projet Data Science

 une variable à la fois : statistique à une dimension,


(analyse unidimensionnelle)

 deux variables à la fois : statistique à deux dimensions,


(analyse bidimensionnelle)

 plus de deux variables à la fois : statistique multidimensionnelle


(analyse multidimensionnelle - Data Mining) .
V. Evaluation et déploiement

 Evaluation et tests des résultats

 Evaluation de l’utilité et la fiabilité des résultats

 Est-ce que les résultats d’analyses répond aux objectifs métier?

 Tous les objectifs importants doivent être atteints

 Quelles sont les perspectives suite à la réalisation de ce projet Data

Science
Méthodologie de travail : exemple
Deux familles de techniques
Deux familles de techniques
Types d’applications

Vous aimerez peut-être aussi