Le rôle de l’intelligence artificielle dans l’analyse et la modélisation de données

Data
L’analyse et la modélisation de données joue un rôle essentiel dans la prise de décision et l’optimisation des processus dans l’industrie. Dans cet article, vous découvrirez comment l’intelligence artificielle est utilisée dans l’analyse et la modélisation de données, là où d’autres méthodes peuvent avoir leurs limites.

L’analyse et la modélisation de données selon leurs types

Préparation des données 

En amont de la modélisation, peu importe le type de données, celles-ci doivent en premier lieu être récoltées puis transformées, nettoyées et analysée. Ces étapes préliminaires sont essentielles pour permettre un traitement et une modélisation efficaces.  La modélisation va mettre à profit les données analysées et ainsi les exploiter selon l’objectif et la demande du client.  

La modélisation de données tabulaires

Les données tabulaires peuvent servir dans la partie modélisation d'un projet de data science. Elles vont être données en entrée au modèle pour qu'il puisse s'entrainer sur ces dernières et fournir une prédiction en sortie. Il restera ensuite à évaluer ces prédictions pour vérifier l'erreur de notre modèle et valider si ces performances respectent bien celles qui étaient définies préalablement avec le client.

Le choix du modèle, que ce soit un modèle statistique, du machine learning ou du deep learning, va dépendre des données disponibles et analysées, de l’utilité et du besoin d’explicabilité. Un travail par des modèles statistiques peut être privilégié au deep learning, même si légèrement moins performant, car plus explicable.  

L’intelligence artificielle est un outil idéal pour faire des prédictions et prévisions, de la maintenance prédictive (anticiper les défaillances), de la détection de churn (départ de clients) et du forecasting (prédictions de vente). Elle peut mettre en relation des valeurs explicatives, telles que la météo, l’évolution de prix, la saisonnalité, rendant les résultats plus précis qu’un modèle statistique.  

La modélisation de données imagées, de flux vidéo et audios

La modélisation de données imagées peut être sollicitée pour plusieurs raisons notamment pour faire de la détection, mais aussi pour améliorer la sécurité en faisant de l’alerting ou pour optimiser les processus en contrôlant la qualité. En industrie, la détection est de plus en plus sollicitée pour contrôler la chaîne de production.

Deux méthodes sont employées pour modéliser des données non structurées : le traitement d’image ou le deep learning. Le traitement d’image est efficace avec peu de données mais les conditions de leur récolte doivent être très stables. Cette méthode laisse très peu de place à l’interprétation. Le deep learning, quant à lui, a des capacités d’adaptation plus importante mais nécessite une grande quantité et variété de données.  

La modélisation de données textuelles

Peu de méthodes conviennent à la modélisation de données textuelles sans recourir au deep learning. En effet, les solutions d’OCR (par exemple Adobe Acrobat) peuvent détecter et segmenter des zones de textes, reconnaître des caractères voire corriger certaines erreurs mais les textes analysés doivent être formatés et ils ne peuvent pas être interprétés. Ce type d’outils correspond davantage à un travail d’analyse plutôt que de modélisation.

L’intelligence artificielle générative, basée sur les large language models (LLM), utilise une grande quantité de données pour comprendre le contexte d’un texte et générer un contenu proche. Cependant, elle a besoin d’être correctement aiguillée pour produire un contenu pertinent. Ce genre de modélisation peut être utilisé pour résumer, traduire ou classifier des textes, analyser les sentiments dans un texte, ou encore générer des chatbots.

Les bénéfices et limites de l’IA dans l’analyse et la modélisation de données

Les bénéfices

L’intelligence artificielle permet de gérer des tâches répétitives et complexes, traitant de grands volumes de données. Ses résultats et analyses sont précis et laissent peu de place à l’erreur.

Elle est indispensable dans l’analyse et la modélisation de données non structurées telles que les textes, les images, vidéo et audio par exemple. Une fois entraînés, les modèles représentent une économie de temps et des ressources considérable.  

Les opportunités

L’analyse et la modélisation de données sont en constante évolution, portées par l’émergence d’outils et de technologies innovants. L’intégration de l’intelligence artificielle a considérablement élargi les opportunités dans ces domaines. Des solutions telles que ChatGPT ont rendu cette technologie plus accessible.  

Parallèlement, le cloud offre des capacités de stockage importantes et une puissance de calcul virtuellement illimitée. Il facilite ainsi le déploiement des modèles à moindre coût.  

L’intelligence artificielle évolue devenant plus performante cependant elle présente tout de même des limites.

Les limites

Bien qu’utilisée à de nombreuses occasions dans l’analyse et la modélisation de données, l’intelligence artificielle présente plusieurs contraintes. Tout d’abord, particulièrement pour le deep learning, son caractère de boîte noire rend l’explicabilité difficile, là où d’autre modèles sont plus transparents. Ceux-ci peuvent être corrigés et modifiés facilement et être expliqués simplement aux clients afin de prendre des décisions.

Notamment pour les données tabulaires, l’intelligence artificielle n’a pas la capacité d’identifier les données aberrantes ou manquantes ainsi que de cerner les réels besoins du client puisque ce sont les échanges métiers qui garantissent leur bonne compréhension.  

Pour pouvoir apprendre et évoluer, elle doit posséder un nombre considérable de données variées, contenant des valeurs explicatives. Fournir ces données peut être difficile et chronophage. Il est également essentiel de réentraîner périodiquement les modèles afin de garantir leur performance dans un environnement en constante évolution.

Enfin, elle peut entrainer différents biais lors de l’analyse en fonction des données sélectionnées, présentant des résultats peu représentatifs de la réalité ou qui renforcent des préjugées. Les data scientists ont aussi pour mission de mettre en relief ses biais et les corriger.

Zoom sur un cas pratique

Conveyor inspector

Les blocs de pierres extraites de la carrière passent dans un broyeur qui les réduit à une taille donnée. Une fois concassés, ils sont acheminés vers le hall de pré homogénéisation de la cimenterie. Des incidents avec le concasseur pourraient entraîner l'arrivée de pierres surdimensionnées dans le hall de pré-homogénéisation de la cimenterie, risquant de causer des dommages au tapis du convoyeur.  

Afin de remédier à cette problématique, une analyse d’image puis une modélisation ont été entreprises pour mettre en place un système d’alerte. Initialement, notre ingénieur a adopté une approche basée sur le traitement d’image qui s’est avérée plus efficace que l’intelligence artificielle en raison du manque de données.

Cependant, à la suite d’une veille approfondie, un modèle d’intelligence artificielle préalablement entrainé pour un cas similaire a été découvert. En l’adoptant et en l’appliquant à notre dataset, il s’est avéré que le modèle surpassait significativement le traitement d’image, identifiant les blocs de pierres de manière plus rapide et précise afin d’alerter les équipes métiers en cas d’anomalie.  

Cette expérience démontre clairement que, grâce à l’évolution des techniques et une veille approfondie, les data scientists peuvent affiner leurs approches, les rendant toujours plus performantes. Alterner entre le traitement de données classique et les modèles d’intelligence artificielle, en fonction de la data et des outils mis à disposition, permet de palier aux défauts ou à la sous performance de l’un ou de l’autre.  

Démonstration du Conveyor Inspector