Ce projet a été mené dans le cadre de la SAÉ 2.03 du BUT Science des Données. Il s’inscrit dans la continuité des travaux de la ressource R2.05, en mobilisant cette fois des données réelles du domaine médical pour approfondir les compétences en régression et en analyse exploratoire.
Dans la peau d’un chargé d’étude statistique, nous avons été amenés à analyser un jeu de données cliniques sur des tumeurs mammaires afin d’évaluer le potentiel prédictif de certaines variables quantitatives. L’objectif était d’identifier les variables les plus discriminantes pour prédire si une tumeur est bénigne ou maligne, en mobilisant des outils statistiques et visuels.
- Langages : Python
- Librairies utilisées :
pandas,numpy,matplotlib,plotly,seaborn,scikit-learnetscipy. - Notions statistiques :
- Analyse descriptive : histogrammes, courbes de densité, nuages de points
- Corrélation entre variables
- Régression linéaire simple (moindres carrés)
- Méthode de classification quantitative (selon des seuils ou modèles ajustés)
- Préparation et sélection de variables explicatives
Ces apprentissages s’inscrivent dans la compétence centrale de la SAÉ : analyser statistiquement des données réelles, en mesurant les liaisons entre variables quantitatives et en évaluant leur utilité dans une démarche décisionnelle.
L’étude porte sur un jeu de données cliniques relatif à des diagnostics de tumeurs du sein (tumeur bénigne ou maligne). Chaque observation est associée à dix variables quantitatives extraites d’images médicales (rayon, périmètre, compacité, etc.).
Les objectifs concrets :
- Représenter et interpréter la répartition des tumeurs (malignes/bénignes)
- Identifier les variables les plus discriminantes pour prédire le diagnostic
- Étudier les corrélations entre variables pertinentes
- Mettre en œuvre des modèles de régression pour évaluer les liens
- Proposer une méthode simple de classification fondée sur ces variables
L’analyse s’est appuyée sur les seules valeurs moyennes (sauf bonus) des variables observées.
Projet réalisé dans le cadre de la SAÉ 2.03 – BUT Science des Données 2e semestre, par :
Ce projet est proposé à des fins pédagogiques uniquement. Reproduction interdite sans autorisation.