La méthodologie CRISP-DM

Méthodologie
Développée par IBM dans les années 60, la méthodologie CRIPS-DM était conçue initialement pour des projets de Data Mining. Modèle maintenant majoritairement utilisé dans les équipes de data science pour gérer les projets d’exploration et d’analyse des données, la méthodologie CRISP-DM peut être une excellente alternative à des méthodologies plus classiques qui ne sont souvent pas adaptées à la Data Science.

Qu’est ce que la méthodologie CRISP-DM?

CRISP-DM ou Cross-Industry Standard Process for Data Mining, est un modèle de processus qui permet d’orienter les travaux d’exploration de données en data science. 

Cette méthodologie itérative, utilisée par nos data scientist, permet de travailler en cycles : du business understanding pour comprendre le besoin client jusqu’à l’évaluation où l’équipe présente les résultats aux clients et le déploiement. Cette méthode permet de donner un cadre structuré pour guider les data scientist tout au long du cycle de vie d’un projet.

Comment ça fonctionne ?

La méthodologie CRISP-DM se compose de 6 étapes clés : 

Etape 1 : La compréhension du besoin client ou business understanding

Dans cette phase initiale, l’équipe de data science travaille en collaboration avec les parties prenantes afin de comprendre les objectifs commerciaux, les exigences, les contraintes du projet ainsi que les bénéfices attendus.

Les ressources nécessaires pour réaliser le projet, tels que le budget, les compétences techniques et l'accès aux données, sont évalués. Les problèmes à résoudre sont identifiés et les critères permettant de mesurer le succès du projet sont définis.

Cette étape est essentielle pour garantir la bonne atteinte des objectifs du projet.

Etape 2 : La compréhension des données ou data understanding

Cette phase consiste à collecter, explorer et évaluer toutes les données disponibles pour le projet. L'équipe de data science analyse ces dernières pour comprendre leur structure, leur qualité, leurs éventuels problèmes, leur pertinence et leur disponibilité. 

Cela permet d’identifier les valeurs manquantes, ou les erreurs qui pourraient affecter les analyses suivantes. Elle se concerte ensuite avec les experts métiers pour identifier des pistes de résolution des problèmes constatés et ainsi aider à interpréter les données.

Etape 3 : La préparation des données

Une fois que les données ont été évaluées, il faut à présent sélectionner les variables et les échantillons pertinents pour l’analyse, en fonction des objectifs qui ont été fixés.

Les données sont ensuite nettoyées et, si nécessaire, transformées. Cela peut inclure la gestion des valeurs manquantes, l'échantillonnage des données et la création de variables dérivées. Si plusieurs sources de données sont utilisées, elles sont intégrées pour créer un ensemble de données cohérent.

Cette étape monopolise plus de la moitié du temps sur l’ensemble du projet.

Etape 4 : La modélisation ou modeling

Dans cette phase, à partir de techniques d'analyse des données, l’équipe de data science construit des modèles prédictifs ou des modèles descriptifs, en fonction des objectifs du projet. Plusieurs itérations ont lieu entre les étapes de préparation et de modélisation pour affiner l’utilisation de certains algorithmes particuliers. 

L’étape du modeling génère souvent plusieurs modèles de Data Mining qui répondent tous à la même problématique.

Etape 5 : L’évaluation

Une fois que les modèles ont été construits, ils sont évalués pour déterminer leur qualité et leur précision. Cette étape du cycle permet de s’assurer que le modèle permet d’atteindre les objectifs du projet. 

Les performances des modèles sont mesurées à l'aide de métriques appropriées et comparées aux critères de succès définis dans la première phase du cycle. Si les résultats ne répondent pas aux attentes ou s'il y a des problèmes identifiés, les étapes précédentes peuvent être révisées et répétées pour améliorer les performances du modèle

Etape 6 : Le déploiement

Enfin, les résultats du projet sont présentés aux parties prenantes et sont intégrés si nécessaire dans les systèmes existants pour aider la prise de décision. Cette phase implique souvent la création de rapports, de visualisations ou d'autres formes de communication pour rendre les résultats compréhensibles et utilisables par ceux qui ne seraient pas spécialistes des données. 

A cette étape, le modèle est performant et répond correctement à la problématique.

Schéma des grandes étapes de la méthodologie CRISP-DM

Une approche agile 

Il est important de noter que la méthodologie CRISP-DM est itérative, ce qui signifie que les différentes phases peuvent être révisées et répétées en fonction des résultats et des besoins du projet.

A chaque étape d’une itération, l’équipe rédige un document qui récapitule ce qui a été fait ou ce qui a été trouvé. Ce document est mis à jour à chaque itération pour fournir ensuite un livrable complet au client.

Chez le1817, nous utilisons cette approche flexible et adaptable pour résoudre les problèmes complexes liés aux données et répondre au mieux aux besoins de nos clients.