Capitolo 1 : Localizzazione e mappatura simultanee
Il calcolo della posizione di un agente in un ambiente sconosciuto durante la creazione o l'aggiornamento di una mappa di tale ambiente è noto come problema di localizzazione e mappatura simultanea (SLAM). Nonostante la sua apparente natura di uovo o gallina, questo problema è stato risolto da una serie di algoritmi in grado di completare i loro compiti in un lasso di tempo gestibile in impostazioni specifiche. Il filtro particellare, il filtro di Kalman esteso, l'intersezione di covarianza e la localizzazione e mappatura simultanea basata su grafi (GraphSLAM) sono tutte tecniche di soluzione approssimata molto apprezzate. La navigazione robotica, la mappatura robotica e l'odometria per la realtà virtuale o aumentata fanno uso di algoritmi SLAM, che si basano su idee provenienti dalla geometria computazionale e dalla visione artificiale.
L'obiettivo degli algoritmi SLAM non è la perfezione ma piuttosto la conformità operativa, in modo che siano sempre ottimizzati per le risorse a disposizione. I metodi descritti in letteratura sono utilizzati in un'ampia varietà di applicazioni del mondo reale, tra cui veicoli autonomi, droni, sottomarini, sonde spaziali, robot domestici e persino il corpo umano stesso.
Data una serie di controlli e osservazioni dei sensori su passi temporali discreti , il problema SLAM consiste nel calcolare una stima dello stato dell'agente e una mappa dell'ambiente .
La probabilità è alla base di ogni misura di valore, quindi, l'obiettivo è il calcolo.
La regola di Bayes fornisce un quadro per l'aggiornamento dei posteriori di posizione in modo sequenziale, data una mappa e una funzione di transizione ,
Allo stesso modo, la mappa può essere successivamente aggiornata da
Una soluzione ottimale locale per inferire congiuntamente le due variabili può essere trovata, come per molti problemi di inferenza, alternando gli aggiornamenti delle due convinzioni sotto forma di un algoritmo di massimizzazione delle aspettative.
I filtri di Kalman e i filtri particellari sono due esempi di metodi statistici utilizzati per fornire approssimazioni alle equazioni sopra menzionate. Forniscono una stima approssimativa della distribuzione posteriore della posa del robot e dei parametri della mappa. Al fine di ridurre la complessità algoritmica per applicazioni su larga scala, è possibile evitare di fare affidamento su ipotesi di indipendenza statistica utilizzando metodi che approssimano in modo conservativo il modello di cui sopra utilizzando l'intersezione di covarianza. Forniscono un set che si avvicina alla mappa e un set che contiene la posa corrente del robot. Un altro approccio comune per la SLAM con le immagini è la regolazione del bundle, o più in generale la stima massima a posteriori (MAP), che stima congiuntamente le pose e le posizioni dei punti di riferimento, migliorando la fedeltà della mappa. MAP viene utilizzato in sistemi SLAM commerciali come ARCore di Google, che è il successore di Tango (la precedente piattaforma di calcolo di realtà aumentata dell'azienda). Invece di tentare di stimare l'intera probabilità a posteriori, gli stimatori MAP calcolano la spiegazione più probabile delle pose del robot e della mappa dati i dati del sensore.
Le diverse esigenze e ipotesi sui tipi di mappe, sensori e modelli sono spesso ciò che motiva i ricercatori a sviluppare nuovi algoritmi SLAM. Molti sistemi SLAM possono essere suddivisi in permutazioni su questi temi.
Invece di concentrarsi sulla creazione di una mappa geometricamente accurata, le mappe topologiche catturano la connettività (cioè la topologia) dell'ambiente. La coerenza globale negli algoritmi SLAM metrici è stata applicata con l'aiuto di tecniche SLAM topologiche.
Al contrario, per rappresentare uno spazio topologico, le mappe a griglia utilizzano griglie di celle discretizzate quadrate o esagonali, le celle occupate, e traggono conclusioni su di esse.
Tipicamente, per facilitare il calcolo, si presume che le celle siano statisticamente indipendenti.
Con questo in mente, sono impostati su 1 se le celle della nuova mappa sono coerenti con l'osservazione nella posizione e 0 se incoerenti.
Il problema della mappatura è stato notevolmente ridotto in complessità nelle moderne auto a guida autonoma grazie all'uso estensivo di dati cartografici altamente dettagliati raccolti in anticipo. Le posizioni dei singoli tratti della linea bianca e dei cordoli sulla strada possono essere contrassegnate con annotazioni sulla mappa. Maps può anche incorporare immagini georeferenziate come Google Street View. In sostanza, questi sistemi riducono il problema SLAM a un'attività di sola localizzazione, forse consentendo di aggiungere oggetti in movimento come automobili e persone alla mappa in tempo reale.
I punti di forza e di debolezza dei vari tipi di sensori sono stati uno dei principali fattori motivanti per lo sviluppo di nuovi algoritmi per SLAM. Per superare la distorsione metrica e il rumore di misurazione, l'indipendenza statistica è essenziale. Sono le ipotesi fatte dagli algoritmi SLAM che variano a seconda del tipo di sensore utilizzato. Le nuvole di punti generate da scansioni laser o caratteristiche visive possono essere allineate in modo semplice e inequivocabile in ogni fase tramite la registrazione dell'immagine, eliminando la necessità di inferenza SLAM in questi casi. Tuttavia, i sensori tattili sono estremamente scarsi perché forniscono solo informazioni sui punti nelle immediate vicinanze dell'agente; di conseguenza, la SLAM puramente tattile richiede modelli precedenti robusti per compensare questa limitazione. La stragrande maggioranza delle attività SLAM sono intermedie tra queste due modalità.
Esistono due categorie principali di modelli di sensori: modelli di dati grezzi e modelli basati su punti di riferimento.
Un punto di riferimento è una caratteristica fisica distinguibile a livello globale la cui posizione può essere determinata utilizzando un sensore, come AP wireless o trasmettitori radio direzionali.
Il metodo dei dati grezzi non presume l'esistenza di punti di riferimento riconoscibili, ma modella direttamente in funzione della posizione.
Telemetri laser singoli e doppi, lidar ad alta definizione e flash, sonar bidimensionali e tridimensionali e fotocamere bidimensionali e tridimensionali sono tutti esempi di sensori ottici.
I sensori GPS differenziali ad alta precisione hanno quasi eliminato la necessità di SLAM in alcune applicazioni all'aperto. Questi potrebbero essere interpretati come sensori di posizione con forti probabilità che superano completamente l'inferenza da una prospettiva di localizzazione e mappatura simultanee. Tuttavia, alcune applicazioni robotiche sono particolarmente preoccupate per il declino occasionale o il completo guasto dei sensori GPS, come durante i periodi di conflitto militare.
Il termine rappresenta la cinematica del modello, che in genere contiene dettagli sulle istruzioni fornite a un robot.
Il modello include, sono incluse anche la cinematica del robot, stime delle prestazioni di rilevamento in presenza di rumore intrinseco e ambientale.
Gli input dei diversi sensori sono pesati in modo equo dal modello dinamico, dai modelli di incertezza e convergono su una chiara rappresentazione digitale dello spazio, dove la posizione e la direzione del robot sono rappresentate da una nuvola di probabilità.
La rappresentazione finale di un tale modello è chiamata mappa, la mappa può essere una rappresentazione letterale del modello o un nome generico per esso.
La cinematica dei robot bidimensionali è tipicamente implementata con un rumore del motore extra basato su una combinazione di comandi di rotazione e "avanzamento ". Sebbene venga utilizzata frequentemente un'approssimazione gaussiana, la distribuzione formata dal rumore indipendente in direzioni angolari e lineari non è gaussiana. In alternativa, i dati dell'odometria dalle ruote del robot possono essere letti dopo ogni comando e trattati come informazioni del sensore piuttosto che come cinematica.
Il problema comune della SLAM è stato esteso al dominio acustico, dove la posizione 3D delle sorgenti sonore viene utilizzata per rappresentare gli ambienti. Lo SLAM acustico, d'altra parte, ha problemi con il riverbero, l'inattività e il rumore perché queste caratteristiche sono derivate acusticamente.
Come struttura per fondere le caratteristiche di riferimento ottenute sia dalla modalità uditiva che da quella visiva all'interno di un ambiente, la SLAM audiovisiva è stata inizialmente sviluppata per l'interazione uomo-robot. Pertanto, gli algoritmi SLAM per robot e macchine centrati sull'uomo devono tenere conto delle caratteristiche percepite sia nella modalità visiva che in quella acustica, che caratterizzano l'interazione umana. Una rappresentazione più accurata del mondo può essere costruita con l'aiuto di un framework audiovisivo, che utilizza funzionalità visive come la posa umana e funzionalità audio come il linguaggio umano per stimare e mappare le posizioni dei punti di riferimento umani. Le telecamere monoculari e gli array di microfoni microelettronici sono esempi di apparecchiature leggere e a bassa potenza che possono essere utili nelle applicazioni di robotica mobile (si pensi ai droni e ai robot di servizio). Combinando l'intero campo visivo e le rappresentazioni delle caratteristiche senza ostacoli dei sensori audio con il campo visivo limitato e le occlusioni delle caratteristiche e le degradazioni ottiche dei sensori visivi leggeri, la localizzazione e mappatura simultanea audiovisiva (SLAM) può rendere questi sensori più efficaci insieme. Fondendo le convinzioni dei punti di...