Skip to content

Darckens/SAE-S2.03

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

Régression sur données réelles : analyse de tumeurs mammaires

Présentation du projet

Ce projet a été mené dans le cadre de la SAÉ 2.03 du BUT Science des Données. Il s’inscrit dans la continuité des travaux de la ressource R2.05, en mobilisant cette fois des données réelles du domaine médical pour approfondir les compétences en régression et en analyse exploratoire.

Dans la peau d’un chargé d’étude statistique, nous avons été amenés à analyser un jeu de données cliniques sur des tumeurs mammaires afin d’évaluer le potentiel prédictif de certaines variables quantitatives. L’objectif était d’identifier les variables les plus discriminantes pour prédire si une tumeur est bénigne ou maligne, en mobilisant des outils statistiques et visuels.

Outils et notions mobilisées

  • Langages : Python
  • Librairies utilisées : pandas, numpy, matplotlib, plotly, seaborn, scikit-learn et scipy.
  • Notions statistiques :
    • Analyse descriptive : histogrammes, courbes de densité, nuages de points
    • Corrélation entre variables
    • Régression linéaire simple (moindres carrés)
    • Méthode de classification quantitative (selon des seuils ou modèles ajustés)
    • Préparation et sélection de variables explicatives

Ces apprentissages s’inscrivent dans la compétence centrale de la SAÉ : analyser statistiquement des données réelles, en mesurant les liaisons entre variables quantitatives et en évaluant leur utilité dans une démarche décisionnelle.

Sujet du projet

L’étude porte sur un jeu de données cliniques relatif à des diagnostics de tumeurs du sein (tumeur bénigne ou maligne). Chaque observation est associée à dix variables quantitatives extraites d’images médicales (rayon, périmètre, compacité, etc.).

Les objectifs concrets :

  • Représenter et interpréter la répartition des tumeurs (malignes/bénignes)
  • Identifier les variables les plus discriminantes pour prédire le diagnostic
  • Étudier les corrélations entre variables pertinentes
  • Mettre en œuvre des modèles de régression pour évaluer les liens
  • Proposer une méthode simple de classification fondée sur ces variables

L’analyse s’est appuyée sur les seules valeurs moyennes (sauf bonus) des variables observées.

Membres du projet

Projet réalisé dans le cadre de la SAÉ 2.03 – BUT Science des Données 2e semestre, par :

Licence

Ce projet est proposé à des fins pédagogiques uniquement. Reproduction interdite sans autorisation.

About

Analyse statistique de données médicales sur des tumeurs mammaires : exploration, corrélation et régression linéaire.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors