Résumé – TLDR
- Les techniques de reconstruction 3D émergent comme des outils puissants pour l’inspection industrielle.
- Ces techniques créent des répliques numériques détaillées d’objets, permettant un examen sous tous les angles.
- Les avantages incluent des modèles haute résolution pour la détection précoce des défauts, des inspections automatisées, un examen à distance et une réduction des coûts. Elles fournissent des enregistrements permanents, permettent une analyse avancée par IA et améliorent l’assurance qualité dans diverses industries.
- Ces technologies impliquent de nombreux termes techniques qui peuvent devenir difficiles à suivre. Cet article vise à clarifier les plus courants.
- Intrants pour la reconstruction 3D :
- Images : Photographies prises de divers points de vue.
- Vidéos : Captures d’écran vidéo utilisées comme des images, bien que de qualité inférieure.
- Nuages de points [Point Clouds] : Collections de points 3D provenant de LiDAR ou de scanners à lumière structurée.
- Données de profondeur [Depth Data] : Informations sur la distance entre le capteur et la surface de l’objet.
- Sorties de la reconstruction 3D :
- Nuage de points clairsemé [Sparse Point Cloud] : Capture initiale de la structure essentielle.
- Nuage de points dense [Dense Point Cloud]: Représentation détaillée avec une haute densité de points.
- Maillage [Mesh] : Structure en forme de toile pour un stockage et un rendu efficace.
- Rendu neuronal [Neural Rendering]: Images et vidéos de haute qualité sous n’importe quel angle via des réseaux neuronaux.
- Processus de reconstruction 3D :
- Techniques de détection active :
- Scanning à lumière structurée : Projette des motifs de lumière et analyse les distorsions.
- Caméras Time-of-Flight (ToF) : Utilisent de la lumière pulsée pour mesurer la profondeur.
- Scanning LiDAR : Utilise des lasers pour mesurer les distances et générer des nuages de points.
- Reconstruction 3D basée sur l’image :
- Photogrammétrie : Extrait des informations 3D à partir d’images 2D.
- Structure from Motion (SfM) : Analyse les caractéristiques des images pour la structure 3D.
- Multi-view Stereo (MVS) : Génère des nuages de points denses à partir d’ensembles d’images.
- Rendu basé sur l’image :
- Neural Radiance Fields (NeRFs) : Utilise l’apprentissage profond pour des rendus photoréalistes.
- Gaussian Splatting : Rend les données de nuages de points 3D en douceur.
- Combinaison des techniques :
- Souvent, le meilleur résultat proviendra de la combinaison de différentes techniques pour en tirer le meilleur parti.
Pour ceux qui ont le temps de lire, le voici.
L’inspection industrielle traditionnelle repose sur l’expertise humaine et des outils spécialisés. Cependant, les techniques de reconstruction 3D émergent comme des outils puissants pour les inspecteurs. Ces techniques créent des répliques numériques détaillées des objets, permettant un examen minutieux sous n’importe quel angle.
Ces technologies présentent de nombreux avantages, notamment la création de modèles haute résolution qui capturent des détails minutieux, garantissant une détection précoce des défauts. Les inspections automatisées économisent du temps et de la main-d’œuvre, permettant une surveillance plus fréquente. Les inspecteurs peuvent examiner les modèles à distance, améliorant ainsi la sécurité et facilitant l’implication d’experts de partout dans le monde. Cela réduit les coûts de main-d’œuvre et prévient des réparations coûteuses.
De plus, les modèles 3D offrent des enregistrements permanents pour suivre les changements, planifier la maintenance et se conformer aux réglementations. Ils permettent également une analyse avancée avec l’IA, fournissant des informations approfondies sur les problèmes potentiels. De la fabrication à la construction, en passant par le secteur de l’énergie, la reconstruction 3D améliore l’assurance qualité et la surveillance structurelle, rendant les inspections plus précises, efficaces et rentables.
Cependant, dans un contexte de technologies émergentes, d’IA et de termes techniques, il peut être difficile de comprendre ce qui est quoi. Cet article vise à clarifier les termes courants dans le domaine de la reconstruction 3D et à donner une idée générale de leurs utilisations.
- Les intrants
La première chose à considérer dans la reconstruction 3D sont les intrants. Ceux-ci peuvent être :
- Images: Photographies prises de divers points de vue autour de l’objet d’intérêt. La photogrammétrie, une technique largement utilisée, repose sur des images superposées pour reconstruire la structure 3D.
- Vidéos : Une vidéo qui se déplace à travers différents points de vue de l’objet d’intérêt. Cela peut ensuite être séparé en différentes captures d’écran et traité comme des images. Cela a l’avantage d’être plus rapide à prendre sur le terrain, mais les captures d’écran de vidéos sont généralement de moins bonne qualité que les photos manuelles.
- Nuages de points [Point Clouds] : Collections de points 3D représentant la surface d’un objet. Ceux-ci peuvent être obtenus à partir de scanners LiDAR, qui utilisent des lasers pour mesurer la distance, ou de scanners à lumière structurée qui projettent des motifs sur l’objet.
- Données de profondeur [Depth Data] : Informations sur la distance entre le capteur et chaque point de la surface de l’objet. Ces données peuvent être capturées par des caméras spécialisées ou combinées avec des informations d’image.
Le choix des données d’entrée dépend de l’application spécifique et du niveau de détail souhaité. Par exemple, une inspection d’objet simple peut utiliser des images de plusieurs angles, tandis que des composants très complexes peuvent nécessiter la précision des scans LiDAR.
Ensuite, le processus de reconstruction 3D prend ces intrants et les transforme en une représentation numérique de l’objet. Cela peut être :
- Nuage de points clairsemé [Sparse Point Cloud] : Dans certains flux de travail, le processus de reconstruction peut initialement générer un nuage de points clairsemé (Sparse Point Cloud) pour capturer la structure 3D essentielle. Cela peut être une étape intermédiaire précieuse pour des tâches telles que l’étalonnage des caméras ou l’estimation approximative des dimensions avant de passer à un nuage de points plus dense pour une analyse détaillée.
- Nuage de points dense [Dense Point Cloud] : Un grand nombre de points densément regroupés (Dense Point Cloud), créant une représentation plus détaillée et précise de la surface de l’objet.
- Maillage [Mesh] : Une collection de sommets (points) reliés par des arêtes et des faces pour former une surface. Imaginez une structure en forme de toile qui définit la forme globale de l’objet. Les maillages sont efficaces pour le stockage et le rendu, ce qui les rend adaptés à la visualisation et à l’analyse, mais ils ont une qualité inférieure aux nuages de points denses (Dense Point Cloud).
- Nouvelles vidéos et images via un réseau neuronal : Bien que ne créant pas un modèle 3D traditionnel, certaines techniques peuvent produire des rendus de haute qualité de photos et vidéos d’un objet sous n’importe quel angle. Cela est généralement réalisé via des techniques de rendu neuronal qui seront expliquées ci-dessous.
Les différents processus de réalisation de reconstruction 3D.
Les intrants et les extrants étant écartés, nous devons parler des différents processus qui peuvent réaliser la reconstruction 3D.
- Techniques de détection active [Active Sensing Techniques] : Techniques impliquant la projection active de lumière ou d’autres signaux sur la scène et l’analyse de la réponse pour reconstruire la structure 3D. Les technologies les plus courantes dans cette catégorie sont :
- Scanning à lumière structurée [Structured Light Scanning] :
- Cette technique projette un motif de lumière connu (souvent des rayures ou des grilles) sur la surface de l’objet. Des caméras spécialisées capturent le motif déformé, et un logiciel analyse les distorsions pour calculer la structure 3D. Le scanning à lumière structurée (Structured Light Scanning) offre une grande précision et des détails pour capturer des formes complexes, ce qui le rend particulièrement adapté aux composants industriels complexes.
- Applications courantes : Fabrication électronique, fabrication automobile, applications médicales, etc.
- Bibliothèques/logiciels/outils courants : Plusieurs options logicielles répondent aux flux de travail de scanning à lumière structurée, souvent fournies avec du matériel de scanning dédié de fabricants spécifiques. Cependant, certains outils à usage général peuvent être utilisés pour le traitement et l’analyse des données capturées : Artec Studio, GOM Inspect, Radiant Studio, etc.
- Caméras/capteurs Time-of-Flight (ToF) :
- Les caméras ToF utilisent une source de lumière pulsée, généralement infrarouge, pour mesurer le temps que met la lumière à atteindre un objet et à revenir. En analysant ces données de temps de vol pour chaque pixel du capteur, une carte de profondeur de la scène est générée. Les caméras ToF offrent des capacités de détection de profondeur en temps réel, les rendant adaptées à des applications comme la reconnaissance gestuelle et la robotique.
- Applications courantes : Reconnaissance gestuelle, robotique, scanning et cartographie 3D, sécurité et surveillance, réalité virtuelle et augmentée, véhicules autonomes, etc.
- Bibliothèques/logiciels/outils courants : De nombreux fabricants de caméras ToF fournissent leurs propres kits de développement logiciel (SDK) et outils pour le développement et l’intégration avec des modèles de caméras spécifiques. Cependant, certains outils à usage général peuvent être utilisés pour le traitement et l’analyse des données capturées : OpenCV, Open3D, PCL, RealSense, etc.
- Scanning LiDAR
- Le LiDAR (Light Detection and Ranging) est l’exemple le plus courant de capteurs ToF. Il utilise des lasers pulsés pour mesurer la distance jusqu’à la surface d’un objet à partir d’un emplacement fixe. En faisant tourner le scanner ou en le déplaçant autour de l’objet, un nuage de points extrêmement précis et détaillé est généré. Le LiDAR excelle à capturer une géométrie complexe et fonctionne bien même dans des conditions de faible luminosité, ce qui en fait un outil puissant pour les tâches d’inspection industrielle.
- Applications courantes : Inspection industrielle, véhicules autonomes, gestion des infrastructures, topographie et arpentage, etc.
- Bibliothèques/logiciels/outils courants : Bien que le traitement des données LiDAR implique souvent des logiciels spécialisés fournis par les fabricants de scanners, certains outils à usage général peuvent être utilisés pour l’analyse et la visualisation : CloudCompare, MeshLab, Geomagic Control X, PolyWorks, etc.
- D’autres technologies incluent la projection de franges numériques (DFP), le radar et plus encore.
- Reconstruction 3D basée sur l’image : Les techniques de cette catégorie reposent uniquement sur l’analyse des informations capturées dans les images elles-mêmes, comme l’identification des caractéristiques correspondantes ou l’estimation des positions des caméras.
- Photogrammétrie
- La photogrammétrie est une famille de techniques utilisées pour extraire des informations géométriques à partir d’images ou de photographies 2D. En analysant les caractéristiques et en faisant correspondre les points correspondants entre plusieurs images, la photogrammétrie reconstruit la structure 3D et la géométrie de surface de la scène.
- Applications courantes : Modélisation architecturale, préservation du patrimoine culturel, jeux vidéo, effets spéciaux de films, cartographie et arpentage par drones, conception et fabrication de produits.
- Bibliothèques/logiciels/outils courants : Meshroom, Autodesk ReCap, Bentley ContextCapture, Metashape, etc.
- Structure from Motion (SfM)
- SfM est un élément fondamental de la photogrammétrie. Cette étape analyse les caractéristiques correspondantes dans plusieurs images pour déterminer les positions des caméras et les emplacements des points 3D dans la scène. Elle joue un rôle crucial dans l’établissement des relations spatiales entre les images capturées, ce qui est essentiel pour reconstruire avec précision la structure 3D de la scène dans les étapes ultérieures du processus de photogrammétrie.
- Applications courantes : Fondation pour la plupart des flux de travail de photogrammétrie, navigation par robot (odométrie visuelle), véhicules autonomes.
- Bibliothèques/logiciels/outils : OpenCV (computer vision library), COLMAP (Structure from Motion and Multi-View Stereo), etc
- Multi-view Stereo (MVS)
- Le MVS est également une étape possible dans un pipeline de photogrammétrie. Il utilise un ensemble d’images superposées capturées sous différents angles et déjà localisées spatialement pour estimer les informations de profondeur (distance à la caméra) pour chaque pixel d’une image. Ces données de profondeur sont ensuite utilisées pour générer une représentation dense et détaillée du nuage de points 3D de la scène ou de l’objet.
- Applications courantes : Création de modèles 3D détaillés à partir d’images de drones, perception des véhicules autonomes, modélisation 3D pour la VR/AR, effets visuels
- Bibliothèques/logiciels/outils courants : OpenMVS (logiciel MVS open-source), ALOV (Automatic Lowe-patch Optimization for Visual Stereo), COLMAP (Structure from Motion et Multi-View Stereo), etc.
- D’autres technologies incluent Shape from Shading (SfS), Silhouette-based Reconstruction et plus encore.
- Rendu basé sur l’image : Techniques de pointe qui, contrairement aux méthodes traditionnelles de reconstruction 3D basées sur l’image qui se concentrent sur la construction d’un modèle 3D complet, privilégient la génération de vues réalistes et nouvelles d’une scène ou d’un objet à partir d’un ensemble d’images capturées.
- Neural Radiance Fields (NeRFs)
- Les NeRFs sont une technique de pointe dans le domaine de la représentation des scènes 3D. Ils utilisent l’apprentissage profond (réseaux neuronaux) pour capturer l’apparence et la géométrie d’une scène à partir d’un ensemble d’images capturées. Contrairement aux méthodes traditionnelles de reconstruction 3D qui génèrent des modèles 3D explicites (maillages ou nuages de points), les NeRFs représentent la scène implicitement à l’aide d’un réseau neuronal. Cela permet des rendus hautement photoréalistes de la scène sous n’importe quel angle, y compris des angles non présents dans l’ensemble d’images original.
- Applications courantes : Reconstruction de scènes 3D, synthèse de vues pour la VR/AR
- Bibliothèques/logiciels/outils courants : Instant NeRFs (iNGP), Nerfstudio, Luma AI, etc.
- Gaussian Splatting
- Technique utilisée pour le rendu et la visualisation des données de nuages de points 3D. Chaque point du nuage de points est représenté comme une distribution gaussienne (ou splat), qui est ensuite projetée sur un plan d’image 2D. Cette approche est utilisée pour créer des représentations lisses et continues de scènes 3D à partir de données de points discrets.
- Applications courantes : Visualisation des données LiDAR, reconstruction de surfaces, rendu de scènes 3D, et véhicules autonomes
- Code source de l’article de recherche original, Polycam, Nerfstudio, Jaxsplat, Scaniverse, etc.
- Comme il s’agit d’une technologie émergente, les processus disponibles et étudiés dans ce domaine sont en constante évolution.
Combinaison des techniques
Dans la plupart des cas, la solution idéale pour toute utilisation inclura plusieurs technologies utilisées en combinaison. Exemples de pipelines possibles :
- À partir d’une vidéo de drone d’un bâtiment et essayer d’obtenir un modèle 3D de maillage via la photogrammétrie :
- Logiciel de manipulation vidéo pour ajuster la vidéo et échantillonner les images de la vidéo
- Le logiciel de Structure from Motion prend ces images et calcule la position des caméras dans l’espace 3D et génère un nuage de points clairsemé du résultat
- Le logiciel de Multi-view Stereo prend ces caméras calibrées et le nuage de points clairsemé et le densifie. Il prend ensuite ce nuage de points dense et le convertit en un maillage, puis peut prendre les images calibrées originales pour texturer le maillage
- À partir d’un scan LiDAR d’une pièce et essayer de visualiser la pièce sous tous les angles sur l’ordinateur :
- Le logiciel LiDAR analyse les données du scanner et fournit un nuage de points
- Le logiciel Gaussian Splatting prend ces données et les rend dans un environnement 3D qui peut être exploré en détail
Pour des cas d’utilisation spécifiques de ces technologies, consultez notre article sur le sujet ici !