CapÃtulo 1 : Localización y mapeo simultáneos
Calcular la ubicación de un agente en un entorno desconocido al mismo tiempo que se crea o actualiza un mapa de ese entorno se conoce como el problema de la localización y el mapeo simultáneos (SLAM). A pesar de su aparente naturaleza del huevo o la gallina, este problema ha sido resuelto por una serie de algoritmos que pueden completar sus tareas en una cantidad de tiempo manejable en entornos específicos. El filtro de partículas, el filtro de Kalman extendido, la intersección de covarianzas y la localización y mapeo simultáneos basados en gráficos (GraphSLAM) son técnicas de solución aproximada muy populares. La navegación robótica, el mapeo robótico y la odometría para la realidad virtual o aumentada hacen uso de algoritmos SLAM, que se basan en ideas de la geometría computacional y la visión por computadora.
El objetivo de los algoritmos SLAM no es la perfección, sino el cumplimiento operativo, por lo que siempre están optimizados para los recursos disponibles. Los métodos descritos en la literatura se utilizan en una amplia variedad de aplicaciones del mundo real, incluidos vehículos autónomos, drones, submarinos, sondas espaciales, robots domésticos e incluso el propio cuerpo humano.
Dada una serie de controles y observaciones de sensores en pasos de tiempo discretos , el problema de SLAM es calcular una estimación del estado del agente y un mapa del entorno .
La probabilidad subyace en cada medida de valor, entonces, el objetivo es el cálculo.
La regla de Bayes proporciona un marco para actualizar la ubicación posterior de forma secuencial, dado un mapa y una función de transición ,
Del mismo modo, el mapa puede actualizarse sucesivamente mediante
Una solución óptima local para inferir conjuntamente las dos variables se puede encontrar, como con muchos problemas de inferencia, alternando actualizaciones de las dos creencias en forma de un algoritmo de maximización de expectativas.
Los filtros de Kalman y los filtros de partículas son dos ejemplos de métodos estadísticos utilizados para proporcionar aproximaciones a las ecuaciones antes mencionadas. Proporcionan una estimación aproximada de la distribución posterior de la pose del robot y los parámetros del mapa. Con el fin de reducir la complejidad algorítmica para aplicaciones a gran escala, es posible evitar la dependencia de supuestos de independencia estadística mediante el uso de métodos que se aproximan de manera conservadora al modelo anterior utilizando la intersección de covarianzas. Suministran un conjunto que se aproxima al mapa y un conjunto que contiene la pose actual del robot. Otro enfoque común para SLAM con imágenes es el ajuste de paquetes, o más generalmente la estimación máxima a posteriori (MAP), que estima conjuntamente las poses y las posiciones de los puntos de referencia, mejorando la fidelidad del mapa. MAP se utiliza en sistemas comerciales SLAM como ARCore de Google, que es el sucesor de Tango (la anterior plataforma de computación de realidad aumentada de la compañía). En lugar de intentar estimar la probabilidad posterior completa, los estimadores MAP calculan la explicación más probable de las poses del robot y el mapa dados los datos del sensor.
Las diferentes necesidades y suposiciones sobre los tipos de mapas, sensores y modelos son a menudo lo que motiva a los investigadores a desarrollar nuevos algoritmos SLAM. Muchos sistemas SLAM se pueden dividir en permutaciones sobre estos temas.
En lugar de centrarse en la creación de un mapa geométricamente preciso, los mapas topológicos capturan la conectividad (es decir, la topología) del entorno. La consistencia global en los algoritmos SLAM métricos se ha reforzado con la ayuda de técnicas topológicas SLAM.
Por el contrario, para representar un espacio topológico, los mapas de cuadrícula hacen uso de cuadrículas de celdas discretizadas cuadradas o hexagonales, las celdas ocupadas, y sacan conclusiones sobre ellas.
Normalmente, para facilitar el cálculo, se supone que las células son estadísticamente independientes.
Teniendo esto en cuenta, se establecen en 1 si las celdas del nuevo mapa son coherentes con la observación en la ubicación y en 0 si son incoherentes.
El problema de la cartografía se ha reducido en gran medida en complejidad en los coches autónomos modernos gracias al uso extensivo de datos cartográficos muy detallados recopilados de antemano. Las ubicaciones de los tramos individuales de línea blanca y bordillos en la carretera se pueden marcar con anotaciones en el mapa. Los mapas también pueden incorporar imágenes geoetiquetadas como Google Street View. En esencia, estos sistemas reducen el problema de SLAM a una tarea solo de localización, lo que quizás permita agregar objetos en movimiento como automóviles y personas al mapa en tiempo real.
Las fortalezas y debilidades de varios tipos de sensores han sido un motivador importante para el desarrollo de nuevos algoritmos para SLAM. Para superar el sesgo métrico y el ruido de medición, la independencia estadística es esencial. Son las suposiciones hechas por los algoritmos SLAM las que varían según el tipo de sensor que se utilice. Las nubes de puntos generadas a partir de escaneos láser o características visuales se pueden alinear de manera fácil e inequívoca en cada paso a través del registro de imágenes, lo que elimina la necesidad de inferencia SLAM en estos casos. Sin embargo, los sensores táctiles son extremadamente escasos porque solo proporcionan información sobre los puntos más cercanos al agente; como resultado, el SLAM puramente táctil requiere modelos previos robustos para compensar esta limitación. La gran mayoría de las tareas SLAM son intermedias entre estas dos modalidades.
Hay dos categorías principales de modelos de sensores: modelos de datos sin procesar y modelos basados en puntos de referencia.
Un punto de referencia es una característica física distinguible globalmente cuya ubicación se puede determinar mediante un sensor, como puntos de acceso inalámbricos o transmisores de radio direccionales.
El método de datos sin procesar no supone que existan puntos de referencia reconocibles y, en su lugar, modela directamente en función de la ubicación.
Los telémetros de láser simple y doble, el lidar de alta definición y flash, el sonar bidimensional y tridimensional y las cámaras bidimensionales y tridimensionales son ejemplos de sensores ópticos.
Los sensores GPS diferenciales de alta precisión casi han eliminado la necesidad de SLAM en algunas aplicaciones al aire libre. Estos podrían interpretarse como sensores de ubicación con grandes probabilidades que superan por completo la inferencia desde una perspectiva simultánea de localización y mapeo. Sin embargo, algunas aplicaciones robóticas están especialmente preocupadas por el deterioro ocasional o la falla completa de los sensores GPS, como en tiempos de conflicto militar.
El término representa la cinemática del modelo, que normalmente contiene detalles sobre las instrucciones dadas a un robot.
El modelo incluye, también se incluye la cinemática del robot, estimaciones del rendimiento de detección bajo ruido inherente y ambiental.
Las entradas de los diferentes sensores son ponderadas de manera justa por el modelo dinámico, los modelos de incertidumbre y convergen en una clara representación digital del espacio, donde la posición y la dirección del robot están representadas por una nube de probabilidades.
La representación definitiva de un modelo de este tipo se denomina mapa, el mapa puede ser una representación literal del modelo o un nombre genérico para él.
La cinemática de los robots bidimensionales generalmente se implementa con ruido de motor adicional basado en una combinación de comandos de rotación y "avance". Aunque se utiliza con frecuencia una aproximación gaussiana, la distribución formada por el ruido independiente en direcciones angulares y lineales no es gaussiana. Alternativamente, los datos de odometría de las ruedas del robot se pueden leer después de cada comando y tratarse como información del sensor en lugar de cinemática.
El problema común de SLAM se ha extendido al dominio acústico, donde la ubicación 3D de las fuentes de sonido se utiliza para representar entornos. Acoustic SLAM, por otro lado, tiene problemas con la reverberación, la inactividad y el ruido porque estas características se derivan acústicamente.
Como marco para fusionar características emblemáticas obtenidas de las modalidades auditiva y visual dentro de un entorno, Audio-Visual SLAM se desarrolló inicialmente para la interacción humano-robot. Por lo tanto, los algoritmos SLAM para robots y máquinas centrados en el ser humano deben tener en cuenta las características percibidas tanto en la modalidad visual como en la acústica, que caracterizan la interacción humana. Se puede construir una representación más precisa del mundo con la ayuda de un marco audiovisual, que utiliza características visuales como la pose humana y características de audio como el habla humana para estimar y mapear las ubicaciones de los puntos de referencia humanos. Las cámaras monoculares y los conjuntos de micrófonos microelectrónicos son ejemplos de equipos ligeros y de baja potencia que pueden ser útiles en aplicaciones de robótica móvil (piense en drones y robots de servicio). Al combinar el campo de visión completo y las representaciones de características sin obstrucciones de los sensores de audio con el campo de visión limitado y las oclusiones de características y las degradaciones ópticas de los sensores visuales...