
Avec la prolifération des outils et des modèles d’intelligence artificielle (IA) disponibles aujourd’hui, il peut être difficile de choisir la bonne approche pour répondre à ses besoins spécifiques. Les modèles d’IA générative, par exemple, sont souvent vantés pour leur polyvalence et leur capacité à créer du contenu à partir de divers types de données. Cependant, il est facile de les utiliser de manière inappropriée, ce qui peut entraîner des performances inférieures par rapport à des modèles spécialement conçus pour des tâches spécifiques.
Pour tirer le meilleur parti des modèles d’IA, il est crucial de commencer par une définition claire de la tâche à accomplir. Les tâches en IA sont généralement classifiées selon leur action et le type de données qu’elles traitent. Cet article vise à clarifier ces différentes tâches, illustrer leurs applications spécifiques dans le domaine minier, et orienter les professionnels dans le choix des outils et des modèles les plus adaptés à leurs besoins.
Les principales tâches abordées dans cet article sont :
- Classification : Attribution de catégories ou d’étiquettes.
- Régression : Estimation de valeurs continues et numériques.
- Détection d’objets : Identification et localisation d’objets dans des images.
- Segmentation : Division d’une image en segments ou zones distincts.
- Détection d’anomalies : Identification de comportements ou de données atypiques.
- Génération de contenu : Création de texte, d’images ou d’autres types de contenu.
L’apprentissage par renforcement, une méthode d’apprentissage qui s’applique davantage à des tâches comme la prise de décisions séquentielles et l’optimisation d’actions dans le temps, sera également abordée.
Pour chaque tâche, cet article fournit des exemples concrets d’applications en fonction des types de données utilisées, tels que :
- Images
- Texte
- Données tabulaires ou temporelles
- Multimodal, une combinaison de plusieurs types
Nous vous proposons également des algorithmes et modèles pertinents pour chaque tâche, ainsi que des suggestions d’outils pour réentraîner ces modèles sur des données spécialisées.
Classification
Une tâche de type classification permet d’attribuer une catégorie ou des étiquettes à la donnée.
Une tâche de classification peut être:
- Binaire, seulement deux catégories possibles comme présent ou non-présent.
- Multi–classes, plus de deux catégories possibles mais une seule étiquette par image, texte, série, etc.
- Multi-labels ou multi-étiquettes, plus de deux catégories possibles, avec la possibilité d’attribuer plusieurs étiquettes indépendantes et non exclusives à une même donnée.
IMAGES
Pour le cas d’entrées de données de type image, il pourrait s’agir de classifier le type de l’équipement photographié (multi-classes), faire du contrôle qualité de composants de machinerie (binaire : accepté ou non), étiqueter différents minéraux présents dans une même image (multi-labels), etc.
Exemples de modèles à considérer : ResNet (Residual Networks), ViT (Vision Transformer)
MULTIMODAL
Certains modèles multimodaux ont été développés afin de classifier une image accompagnée d’un texte. En formulant bien ce texte ou en ajoutant des exemples concrets, ces modèles peuvent parfois classifier une image sans réentraînement spécifique. Il s’agit alors d’apprentissage zéro-shot (sans exemple préalable) ou few-shot (avec peu d’exemples).
Bien entendu, dans un cadre très technique et spécifique, un réentraînement peut être nécessaire.
Exemple de modèle à considérer: CLIP (Contrastive Language-Image Pre-Training)
TABULAIRE
Pour l’exemple, prenons l’inspection d’équipements critiques comme les broyeurs ou les structures de soutènement. Un modèle d’IA de classification peut être entraîné sur des données tabulaires provenant de différents capteurs ultrason pour identifier automatiquement les défauts structurels à partir de mesures d’épaisseur et de densité.
Exemples de modèles à réentraîner : XGBoost (Extreme Gradient Boosting)
Régression
La régression permet de prédire ou d’estimer une valeur continue et numérique.
TABULAIRE TEMPOREL
Par exemple, la prédiction des coûts de maintenance des équipements pourrait s’appuyer sur des données historiques, telles que les heures d’utilisation, les températures et la vibration des équipements dans le temps.
Exemples de modèles à réentraîner : XGBoost (Extreme Gradient Boosting)
Détection d’anomalies
Identifier des comportements ou des données qui s’écartent de la norme qui peuvent être causés par des erreurs ou des événements inhabituels. La détection d’anomalies est plus fréquemment utilisée sur des données temporelles (signaux de capteurs IoT).
TABULAIRE TEMPOREL
Un exemple pourrait être la détection d’anomalies dans les données de température, consommation électrique et vibration d’équipements pour prédire des pannes.
Exemples d’algorithmes/modèles à considérer : Isolation Forest (voir exemple Scikit-Learn)

Détection d’objets
Identifier et localiser des objets spécifiques dans une image, généralement à l’aide de boîtes. Cette tâche est plus spécifique aux images.
IMAGES
Par exemple, un modèle de détection d’objets peut-être utilisé pour détecter la présence de personnes dans une zone dangereuse et déclencher un arrêt automatique de machinerie pour éviter des accidents.
Exemples de modèles à réentraîner: YOLO (You Only Look Once)
Segmentation
La segmentation consiste à diviser une image en régions ou segments distincts pour identifier des objets ou des parties d’objets. Cette tâche est également plus spécifique aux images.
IMAGES
La segmentation d’images satellites pourrait permettre de délimiter différentes zones comme la couverture forestière, les plans d’eau, les routes, et en analyser leur taille, leur distribution et leur évolution au fil du temps.
Exemples de modèles à considérer : Segment Anything Model (SAM par Facebook)
Génération de contenu
La génération de contenu est la spécialité des grands modèles de langages LLM. Dans la génération de contenu, on peut retrouver des sous-tâches plus précises comme :
- Résumer l’information, répondre à des questions,
- Traduire,
- Générer une image, des vidéos à partir de texte,
- Générer du code,
- Etc.
Il est donc facile de penser que l’IA générative peut aussi répondre aux tâches de classification, régression, détection d’objets et d’anomalies, mais ce n’est pas tout à fait le cas.
Par exemple, les LLMs peuvent être utilisés pour des tâches de classification de texte en configurant un contexte détaillé, mais des modèles spécifiques comme BERT sont souvent plus efficaces. Pour des tâches de classification d’images ou de données tabulaires, des modèles spécialisés sont aussi plus appropriés.
Pour la donnée tabulaire, les LLMs peuvent être utilisés pour générer des requêtes pour l’agréger et interroger la donnée par la suite.
En général, les LLMs ne sont pas conçus pour des tâches comme la classification, la régression, ou la détection d’objets directement. Ces tâches nécessitent souvent des modèles et des architectures spécialisés qui sont mieux adaptés aux types de données et aux objectifs spécifiques.
Pour les modèles génératifs multimodaux ou la génération d’images, un LLM est habituellement inclus dans une architecture plus complexe permettant de traitement et/ou la génération d’images.
IMAGES
Un modèle génératif permettrait de créer une illustration réaliste (photo) d’un concept à partir d’une description. Pour la génération de schémas fonctionnels, il est préférable de le générer sous un format textuel/code.
Modèles disponibles: DALL-E (par OpenAI), Gemini (par Google), Stable Diffusion (par Stability)

TEXTE
Un LLM pourrait assister un expert dans l’écriture de rapports de maintenance.
Modèles disponibles : GPT (par OpenAI), LLama (“open-source” par Meta), Claude (par Anthropic), Titan (par Amazon), Gemini (par Google)
MULTIMODAL
Un modèle mult-modal pourrait générer des résumés de rapports de maintenance composés à partir de données textuel et d’images d’inspection
Modèles disponibles : Claude (par Anthropic), Gemini (par Google)
Apprentissage par renforcement
L’apprentissage par renforcement est une branche de l’IA où un agent apprend à prendre des décisions séquentielles pour maximiser une récompense. Contrairement à l’apprentissage supervisé où les modèles sont entraînés avec des données annotées, le RL utilise des essais et des erreurs pour apprendre les meilleures stratégies de décision. L’agent reçoit des récompenses ou des pénalités en fonction de ses actions, ce qui guide son apprentissage et ses choix futurs.
Ce type d’apprentissage est davantage utilisé dans des applications où il est nécessaire d’explorer diverses options avant de trouver la stratégie optimale. Par exemple, ce type d’IA pourrait servir à ajuster des recettes et améliorer la qualité des extrants en fonction du type de minerais et des dizaines d’autres paramètres.
Outils à considérer: TensorFlow Agents (librairie pour l’implémentation et le design d’algorithmes)
En conclusion, il existe une multitude de modèles et d’outils adaptés à diverses tâches, que ce soit pour la classification, la régression, la détection d’anomalies, la segmentation, la détection d’objets, la génération de contenu et la prise de décisions séquentielles.
Les plateformes comme Hugging Face offrent une large sélection de modèles pré-entraînés, qui peuvent être utilisés tels quels ou réentraînés sur vos propres données.
Pour maximiser les résultats, il est essentiel de bien comprendre vos besoins et de sélectionner l’approche la plus adaptée à vos objectifs. Évidemment, nous pouvons vous guider dans le processus d’identification et dans l’implémentation des solutions les plus efficaces pour vos projets.