Capitolo 1 : Visione artificiale
Lo studio di come i computer possano derivare conoscenze di alto livello da immagini o video digitali è al centro dell'area scientifica multidisciplinare della visione artificiale. Da un punto di vista tecnologico, indaga e tenta di automatizzare le attività che rientrano nelle capacità del sistema visivo umano.
Le attività associate alla visione artificiale includono tecniche per ottenere, elaborare, analizzare e comprendere immagini digitali, nonché l'estrazione di dati ad alta dimensione dall'ambiente fisico al fine di creare informazioni numeriche o simboliche, come i giudizi.
La visione artificiale è un sottocampo dell'informatica che indaga le basi teoriche dei sistemi artificiali progettati per ricavare informazioni dalle immagini. I dati visivi possono essere presentati in una varietà di formati, tra cui sequenze video, immagini ottenute da diverse telecamere, dati multidimensionali ottenuti da uno scanner 3D o da un'apparecchiatura di scansione medica e così via. L'obiettivo del campo tecnico noto come visione artificiale è quello di implementare le idee e i modelli che ha sviluppato nel processo di costruzione di sistemi di visione artificiale.
I campi della ricostruzione della scena, del rilevamento di oggetti, del rilevamento di eventi, del tracciamento video, del riconoscimento di oggetti, della stima della posa 3D, dell'apprendimento, dell'indicizzazione, della stima del movimento, del servoing visivo, della modellazione di scene 3D e del ripristino delle immagini sono tutti sottodomini della visione artificiale. Altri sottodomini della visione artificiale includono la modellazione di scene 3D.
La visione artificiale è uno studio multidisciplinare che esamina come i computer possono essere programmati per estrarre conoscenze di alto livello da immagini o filmati digitali. Quest'area si concentra su come insegnare ai computer a comprendere ciò che viene loro mostrato. Dal punto di vista dell'ingegneria, l'obiettivo è quello di trovare il modo di automatizzare le operazioni che possono già essere eseguite dal sistema visivo umano. La visione artificiale è un campo di studio nel campo della tecnologia dell'informazione che si concentra sull'applicazione di teorie e modelli esistenti al processo di costruzione di sistemi di visione artificiale.
Alla fine degli anni '60, i college all'avanguardia dell'intelligenza artificiale sono stati i primi a sperimentare la visione artificiale. Il suo scopo era quello di funzionare in modo simile a quello del sistema visivo umano, con l'obiettivo finale di infondere nei robot un comportamento intelligente. Negli anni '90, molte delle aree di studio che erano state studiate in precedenza sono diventate più attive delle altre. Lo studio delle ricostruzioni tridimensionali proiettive ha portato ad una comprensione più approfondita di come calibrare una macchina fotografica. È diventato chiaro, con l'introduzione di tecniche di ottimizzazione per la calibrazione della fotocamera, che un numero significativo di concetti era stato precedentemente studiato dalla disciplina della teoria dell'aggiustamento dei fasci della fotogrammetria. Questo è venuto alla luce come risultato di questo sviluppo. Ciò ha portato allo sviluppo di tecniche per eseguire ricostruzioni tridimensionali sparse di scene utilizzando diverse fotografie. Sia il problema della densa corrispondenza stereo che lo sviluppo di ulteriori approcci stereo multi-view hanno visto un certo grado di movimento in avanti. Contemporaneamente, sono state utilizzate molte varianti del taglio del grafico per affrontare il problema della segmentazione dell'immagine. Questo decennio è stato particolarmente significativo in quanto è stata la prima volta in cui i metodi di apprendimento statistico sono stati utilizzati nella pratica per il compito di riconoscere i volti nelle fotografie (vedi Eigenface). Le aree della computer grafica e della visione artificiale sono diventate più intrecciate negli ultimi anni, il che ha portato a un grande aumento della quantità di collaborazione che ha avuto luogo tra i due. Questo presentava le prime forme di rendering del campo luminoso, cucitura di immagini panoramiche, morphing di immagini, interpolazione delle viste e rendering basato su immagini. L'area della computer vision ha ricevuto una nuova prospettiva di vita grazie allo sviluppo di algoritmi basati sul deep learning. L'accuratezza degli algoritmi di deep learning su numerosi set di dati di visione artificiale di riferimento per attività che vanno dalla classificazione al flusso ottico ha superato quella degli approcci precedenti. Queste attività includono la segmentazione delle immagini e il flusso ottico.
La visione artificiale a stato solido è fortemente connessa a una serie di altre discipline, tra cui la fisica. La stragrande maggioranza dei sistemi di visione artificiale si basa su sensori di immagine, che sono dispositivi in grado di rilevare le radiazioni elettromagnetiche. Questa radiazione si manifesta comunemente come luce visibile o infrarossa. La fisica quantistica è stata utilizzata nello sviluppo dei sensori. La disciplina scientifica della fisica fornisce una spiegazione del metodo attraverso il quale la luce interagisce con le superfici. Il comportamento dell'ottica, che è una componente fondamentale della maggior parte dei sistemi di imaging, può essere spiegato dalla fisica. Per offrire una conoscenza completa del processo attraverso il quale si forma un'immagine, sofisticati sensori di immagine necessitano dell'uso della meccanica quantistica. La visione artificiale può anche essere utilizzata per risolvere una varietà di problemi di misurazione che sorgono in fisica, come quelli che coinvolgono il movimento dei fluidi.
La disciplina scientifica della neurobiologia, in particolare l'indagine del sistema visivo biologico. Gli occhi, i neuroni e le regioni del cervello dedicate all'elaborazione degli input visivi sia negli esseri umani che nei diversi animali sono stati oggetto di una notevole quantità di ricerche nel corso dell'ultimo secolo. Di conseguenza, è emersa una descrizione semplice ma complessa del modo in cui funzionano i sistemi di visione "reali" per completare vari compiti relativi alla visione. Come conseguenza di questi risultati, è emerso un sottocampo della visione artificiale in cui i sistemi artificiali hanno lo scopo di imitare l'elaborazione e il comportamento dei sistemi biologici, con vari gradi di somiglianza biologica. Molti degli approcci basati sull'apprendimento che sono stati creati nell'ambito della visione artificiale hanno le loro radici nella biologia. Alcuni esempi di questi metodi basati sull'apprendimento includono l'analisi e la categorizzazione di immagini e funzionalità basate su reti neurali e deep learning.
Alcune branche della ricerca sulla visione artificiale sono molto simili allo studio della visione biologica. Molte branche della ricerca sull'IA sono anche molto simili allo studio della coscienza umana e all'applicazione di conoscenze precedentemente acquisite per interpretare, integrare e utilizzare l'input visivo. Lo studio e la modellizzazione dei meccanismi fisiologici che sono alla base della percezione visiva nell'uomo e in altri animali è di competenza della disciplina accademica della visione biologica. D'altra parte, la visione artificiale è lo studio e la descrizione dei processi che vengono implementati nel software e nell'hardware che sono alla base dei sistemi di visione artificiale. La collaborazione interdisciplinare tra le scienze della visione biologica e della visione artificiale si è dimostrata vantaggiosa per entrambe queste aree.
L'elaborazione dei segnali è un'altra area di studio collegata alla visione artificiale. Nella visione artificiale, l'elaborazione di segnali a due variabili o segnali multivariabili può essere naturalmente estesa dall'elaborazione di segnali a una variabile, spesso segnali temporali. Ciò consente un maggiore grado di flessibilità nell'analisi dei segnali. Tuttavia, a causa delle caratteristiche uniche delle immagini, il campo della visione artificiale ha creato un'ampia varietà di tecniche che non possono essere analoghe all'elaborazione di segnali che includono solo una singola variabile. Questo, in combinazione con il fatto che il segnale stesso è multidimensionale, crea un settore all'interno dell'elaborazione del segnale che rientra nell'ambito della visione artificiale.
La navigazione robotica può includere la pianificazione autonoma di un percorso in un'area o il processo decisionale deliberato dei sistemi robotici mentre si muovono in quell'ambiente. Per navigare con successo attraverso i vari ecosistemi, è essenziale una comprensione completa di essi. Un sistema di visione artificiale potrebbe offrire informazioni sull'ambiente circostante operando come un sensore di visione e fornendo informazioni di alto livello sull'ambiente e sul robot. Queste informazioni potrebbero essere fornite da un sistema di visione artificiale.
Molti degli argomenti di studio che sono collegati alla visione artificiale possono anche essere esaminati dal punto di vista della matematica pura, oltre alle prospettive che sono già state descritte sulla visione artificiale. La statistica, l'ottimizzazione e la geometria sono solo alcune delle basi su cui si basano molti degli approcci utilizzati nella visione artificiale. In conclusione, una parte considerevole del campo è focalizzata sul lato implementativo della visione artificiale. Questo aspetto del campo indaga come i metodi preesistenti possano essere attualizzati in diverse configurazioni software e hardware, nonché come questi metodi possano essere modificati per aumentare la velocità di elaborazione mantenendo un livello sufficiente di prestazioni. Oltre a queste applicazioni, la...