Chapitre 2 : Vision par ordinateur
L'étude de la façon dont les ordinateurs peuvent tirer des connaissances de haut niveau d'images ou de vidéos numériques est au centre du domaine scientifique multidisciplinaire de la vision par ordinateur. D'un point de vue technologique, il étudie et tente d'automatiser des activités qui sont dans les capacités du système visuel humain.
Les tâches associées à la vision par ordinateur comprennent des techniques d'obtention, de traitement, d'analyse et de compréhension d'images numériques, ainsi que l'extraction de données de grande dimension de l'environnement physique afin de créer des informations numériques ou symboliques, telles que des jugements.
La vision par ordinateur est un sous-domaine de l'informatique qui étudie les fondements théoriques des systèmes artificiels conçus pour dériver des informations à partir d'images. Les données visuelles peuvent être présentées dans une variété de formats, y compris des séquences vidéo, des images obtenues à partir de plusieurs caméras, des données multidimensionnelles obtenues à partir d'un scanner 3D ou d'un équipement de balayage médical, etc. L'objectif du domaine technique connu sous le nom de vision par ordinateur est de mettre en ouvre les idées et les modèles qu'il a développés dans le processus de construction de systèmes de vision par ordinateur.
Les domaines de la reconstruction de scène, de la détection d'objets, de la détection d'événements, du suivi vidéo, de la reconnaissance d'objets, de l'estimation de poses 3D, de l'apprentissage, de l'indexation, de l'estimation de mouvement, de l'asservissement visuel, de la modélisation de scènes 3D et de la restauration d'images sont tous des sous-domaines de la vision par ordinateur. D'autres sous-domaines de la vision par ordinateur incluent la modélisation de scènes 3D.
La vision par ordinateur est une étude multidisciplinaire qui examine comment les ordinateurs peuvent être programmés pour extraire des connaissances de haut niveau à partir d'images ou de films numériques. Ce domaine se concentre sur la façon dont les ordinateurs peuvent être formés pour comprendre ce qui leur est montré. Du point de vue de l'ingénierie, l'objectif est de trouver des moyens d'automatiser les opérations qui peuvent déjà être effectuées par le système visuel humain. La vision par ordinateur est un domaine d'étude dans le domaine des technologies de l'information qui se concentre sur l'application des théories et des modèles existants au processus de construction de systèmes de vision par ordinateur.
À la fin des années 1960, les collèges à la pointe de l'intelligence artificielle ont été les premiers à expérimenter la vision par ordinateur. Son but était de fonctionner d'une manière similaire à celle du système visuel humain, dans le but ultime d'imprégner les robots d'un comportement intelligent. Dans les années 1990, plusieurs des zones d'étude qui avaient été étudiées auparavant sont devenues plus actives que les autres. L'étude des reconstructions projectives tridimensionnelles a permis de mieux comprendre comment calibrer une caméra. Il est devenu clair, avec l'introduction de techniques d'optimisation pour l'étalonnage de l'appareil photo, qu'un nombre important de concepts avaient déjà été étudiés par la discipline de la théorie de l'ajustement des faisceaux de la photogrammétrie. Cela a été mis en lumière à la suite de ce développement. Cela a abouti au développement de techniques permettant de faire des reconstitutions tridimensionnelles clairsemées de scènes à l'aide de plusieurs photographies. La question de la correspondance stéréo dense et le développement d'autres approches stéréo multi-vues ont vu un certain degré de progrès. Parallèlement, de nombreuses variantes de la découpe graphique ont été utilisées afin de résoudre le problème de segmentation de l'image. Cette décennie est particulièrement importante car c'est la première fois que des méthodes d'apprentissage statistique sont utilisées dans la pratique pour reconnaître les visages sur les photographies (voir Eigenface). Les domaines de l'infographie et de la vision par ordinateur sont devenus plus étroitement liés ces dernières années, ce qui a conduit à une forte augmentation de la collaboration entre les deux. Il s'agissait des premières formes de rendu en champ lumineux, d'assemblage d'images panoramiques, de morphing d'images, d'interpolation de vues et de rendu basé sur l'image. Le domaine de la vision par ordinateur a connu un nouveau souffle grâce au développement d'algorithmes basés sur l'apprentissage profond. La précision des algorithmes d'apprentissage profond sur de nombreux ensembles de données de référence en vision par ordinateur pour des tâches allant de la classification au flux optique a dépassé celle des approches précédentes. Ces tâches comprennent la segmentation des images et le flux optique.
La vision par ordinateur à semi-conducteurs est étroitement liée à un certain nombre d'autres disciplines, y compris la physique. La grande majorité des systèmes de vision par ordinateur sont basés sur des capteurs d'image, qui sont des appareils capables de détecter les rayonnements électromagnétiques. Ce rayonnement se manifeste généralement sous forme de lumière visible ou infrarouge. La physique quantique a été utilisée dans le développement des capteurs. La discipline scientifique de la physique fournit une explication de la méthode par laquelle la lumière interagit avec les surfaces. Le comportement de l'optique, qui est un composant fondamental de la majorité des systèmes d'imagerie, peut s'expliquer par la physique. Afin d'offrir une connaissance complète du processus par lequel une image est formée, des capteurs d'image sophistiqués ont besoin de l'utilisation de la mécanique quantique. La vision par ordinateur peut également être utilisée pour résoudre divers problèmes de mesure qui se posent en physique, tels que ceux impliquant le mouvement des fluides.
La discipline scientifique de la neurobiologie, plus particulièrement l'étude du système visuel biologique. Les yeux, les neurones et les régions du cerveau qui sont dédiés au traitement des entrées visuelles chez les humains et divers animaux ont fait l'objet d'un nombre substantiel de recherches au cours du siècle dernier. En conséquence, une description simple mais complexe de la façon dont les systèmes de vision « réels » fonctionnent afin d'accomplir diverses tâches liées à la vision a émergé. À la suite de ces découvertes, un sous-domaine de la vision par ordinateur a émergé dans lequel les systèmes artificiels sont censés imiter le traitement et le comportement des systèmes biologiques, avec divers degrés de ressemblance biologique. Un grand nombre d'approches basées sur l'apprentissage qui ont été créées dans le cadre de la vision par ordinateur ont leurs racines en biologie. Parmi ces méthodes basées sur l'apprentissage, citons l'analyse et la catégorisation d'images et de caractéristiques basées sur les réseaux neuronaux et l'apprentissage profond.
Certaines branches de la recherche sur la vision par ordinateur sont très similaires à l'étude de la vision biologique. De nombreuses branches de la recherche sur l'IA sont également très similaires à l'étude de la conscience humaine et à l'application des connaissances précédemment acquises pour interpréter, intégrer et utiliser les informations visuelles. L'étude et la modélisation des mécanismes physiologiques qui sous-tendent la perception visuelle chez l'homme et d'autres animaux relèvent de la discipline académique de la vision biologique. D'autre part, la vision par ordinateur est l'étude et la description des processus qui sont mis en ouvre dans les logiciels et le matériel qui sont sous-jacents aux systèmes de vision artificielle. La collaboration interdisciplinaire entre les sciences de la vision biologique et de la vision par ordinateur s'est avérée bénéfique pour ces deux domaines.
Le traitement du signal est un autre domaine d'étude lié à la vision par ordinateur. En vision par ordinateur, le traitement de signaux à deux variables ou de signaux à plusieurs variables peut être naturellement étendu à partir du traitement de signaux à une variable, souvent des signaux temporels. Cela permet une plus grande flexibilité dans l'analyse du signal. Cependant, en raison des caractéristiques uniques des images, le domaine de la vision par ordinateur a créé une grande variété de techniques qui ne peuvent être assimilées au traitement de signaux qui n'incluent qu'une seule variable. Ceci, combiné au fait que le signal lui-même est multidimensionnel, crée un secteur du traitement du signal qui relève de la vision par ordinateur.
La navigation robotique peut inclure soit la planification autonome d'un parcours dans une zone, soit la prise de décision délibérée des systèmes robotiques lorsqu'ils se déplacent dans cet environnement. Afin de naviguer avec succès à travers divers écosystèmes, une compréhension complète de ceux-ci est essentielle. Un système de vision par ordinateur peut offrir des informations sur l'environnement en fonctionnant comme un capteur de vision et en fournissant des informations de haut niveau sur l'environnement et le robot. Ces informations pourraient être fournies par un système de vision par ordinateur.
De nombreux sujets d'étude liés à la vision par ordinateur peuvent également être examinés du point de vue des mathématiques pures, en plus des perspectives qui ont déjà été décrites sur la vision par ordinateur. Les statistiques, l'optimisation et la géométrie...