CapÃtulo 1 : Localização e mapeamento simultâneos
Calcular a localização de um agente em um ambiente desconhecido e, ao mesmo tempo, criar ou atualizar um mapa desse ambiente é conhecido como o problema de localização e mapeamento simultâneos (SLAM). Apesar de sua aparente natureza de ovo ou galinha, esse problema foi resolvido por uma série de algoritmos que podem concluir suas tarefas em uma quantidade gerenciável de tempo em configurações específicas. O filtro de partículas, o filtro de Kalman estendido, a interseção de covariância e a localização e mapeamento simultâneos baseados em gráficos (GraphSLAM) são técnicas de solução aproximada bem apreciadas. Navegação robótica, mapeamento robótico e odometria para realidade virtual ou aumentada fazem uso de algoritmos SLAM, que são baseados em ideias de geometria computacional e visão computacional.
O objetivo dos algoritmos SLAM não é a perfeição, mas sim a conformidade operacional, por isso são sempre otimizados para os recursos disponíveis. Os métodos descritos na literatura são usados em uma ampla variedade de aplicações do mundo real, incluindo veículos autônomos, drones, submarinos, sondas espaciais, robôs domésticos e até mesmo o próprio corpo humano.
Dada uma série de controles e observações do sensor ao longo de etapas de tempo discretas , o problema do SLAM é calcular uma estimativa do estado do agente e um mapa do ambiente .
A probabilidade está subjacente a todas as medidas de valor, então, o objetivo é a computação.
A regra de Bayes fornece uma estrutura para atualizar a localização posterior de forma sequencial, dado um mapa e uma função de transição ,
Na mesma linha, o mapa pode ser sucessivamente atualizado por
Uma solução ótima local para inferir conjuntamente as duas variáveis pode ser encontrada, como acontece com muitos problemas de inferência, alternando atualizações das duas crenças na forma de um algoritmo de maximização de expectativa.
Filtros de Kalman e filtros de partículas são dois exemplos de métodos estatísticos usados para fornecer aproximações às equações acima mencionadas. Eles fornecem uma estimativa aproximada da distribuição posterior dos parâmetros de pose e mapa do robô. A fim de reduzir a complexidade algorítmica para aplicações em larga escala, é possível evitar a dependência de pressupostos de independência estatística usando métodos que se aproximam conservadoramente do modelo acima usando interseção de covariância. Eles fornecem um conjunto que se aproxima do mapa e um conjunto que contém a pose atual do robô. Outra abordagem comum para SLAM com imagens é o ajuste de pacote, ou mais geralmente estimativa máxima a posteriori (MAP), que estima conjuntamente poses e posições de pontos de referência, melhorando a fidelidade do mapa. MAP é usado em sistemas SLAM comerciais como o ARCore do Google, que é o sucessor do Tango (a plataforma de computação de realidade aumentada anterior da empresa). Em vez de tentar estimar a probabilidade posterior completa, os estimadores MAP calculam a explicação mais provável das poses do robô e o mapa dado os dados do sensor.
Diferentes necessidades e suposições sobre os tipos de mapas, sensores e modelos são muitas vezes o que motivam os pesquisadores a desenvolver novos algoritmos SLAM. Muitos sistemas SLAM podem ser divididos em permutações sobre esses temas.
Em vez de se concentrar na criação de um mapa geometricamente preciso, os mapas topológicos capturam a conectividade (ou seja, topologia) do ambiente. A consistência global em algoritmos SLAM métricos foi imposta com a ajuda de técnicas de SLAM topológicas.
Em contraste, para retratar um espaço topológico, os mapas de grade fazem uso de grades de células quadradas ou hexagonais discretizadas, as células ocupadas, e tiram conclusões sobre elas.
Normalmente, a fim de facilitar a computação, assume-se que as células são estatisticamente independentes.
Com isso em mente, são definidos como 1 se as células do novo mapa forem consistentes com a observação no local e 0 se inconsistentes.
O problema de mapeamento foi muito reduzido em complexidade em carros autônomos modernos graças ao uso extensivo de dados de mapas altamente detalhados coletados antecipadamente. Os locais de trechos individuais de linha branca e meios-fios na estrada podem ser marcados com anotações no mapa. O Google Maps também pode incorporar imagens georreferenciadas, como o Google Street View. Em essência, esses sistemas reduzem o problema SLAM a uma tarefa apenas de localização, talvez permitindo que objetos em movimento, como carros e pessoas, sejam adicionados ao mapa em tempo real.
Os pontos fortes e fracos de vários tipos de sensores têm sido um grande motivador para o desenvolvimento de novos algoritmos para SLAM. Para superar o viés métrico e o ruído de medição, a independência estatística é essencial. São as suposições feitas pelos algoritmos SLAM que variam dependendo do tipo de sensor que está sendo usado. Nuvens de pontos geradas a partir de varreduras a laser ou recursos visuais podem ser alinhadas de forma fácil e inequívoca em cada etapa por meio do registro de imagens, eliminando a necessidade de inferência SLAM nesses casos. No entanto, os sensores táteis são extremamente esparsos porque apenas fornecem informações sobre pontos próximos do agente; como resultado, o SLAM puramente tátil requer modelos anteriores robustos para compensar essa limitação. A grande maioria das tarefas SLAM são intermediárias entre essas duas modalidades.
Existem duas categorias principais de modelos de sensores: modelos de dados brutos e modelos baseados em pontos de referência.
Um marco é uma característica física globalmente distinguível cuja localização pode ser determinada usando um sensor, como APs sem fio ou transmissores de rádio direcionais.
O método de dados brutos não presume a existência de pontos de referência reconhecíveis e, em vez disso, modela diretamente em função do local.
Telémetros laser simples e duplo, lidar flash e de alta definição, sonar bidimensional e tridimensional e câmeras bidimensionais e tridimensionais são exemplos de sensores óticos.
Os sensores GPS diferenciais de alta precisão quase eliminaram a necessidade de SLAM em algumas aplicações externas. Estes podem ser interpretados como sensores de localização com probabilidades nítidas que sobrecarregam completamente a inferência de uma perspetiva simultânea de localização e mapeamento. No entanto, algumas aplicações robóticas estão especialmente preocupadas com o declínio ocasional ou falha completa dos sensores GPS, como durante tempos de conflito militar.
O termo representa a cinemática do modelo, que normalmente contém detalhes sobre as instruções dadas a um robô.
O modelo inclui, a cinemática do robô também está incluída, estimativas de desempenho de deteção sob ruído inerente e ambiente.
As entradas de diferentes sensores são ponderadas de forma justa pelo modelo dinâmico, modelos de incerteza e convergem para uma clara representação digital do espaço, onde a posição e direção do robô são representadas por uma nuvem de probabilidades.
A representação final de tal modelo é chamado de mapa, O mapa pode ser uma representação literal do modelo ou um nome genérico para ele.
A cinemática dos robôs bidimensionais é normalmente implementada com ruído motor extra baseado numa combinação de comandos de rotação e "avançar". Embora uma aproximação gaussiana seja frequentemente usada, a distribuição formada por ruído independente em direções angulares e lineares não é gaussiana. Alternativamente, os dados de odometria das rodas do robô podem ser lidos após cada comando e tratados como informações do sensor em vez de cinemática.
O problema comum do SLAM foi estendido para o domínio acústico, onde a localização 3D de fontes de som é usada para representar ambientes. O SLAM acústico, por outro lado, tem problemas com reverberação, inatividade e ruído, porque essas características são derivadas acusticamente.
Como uma estrutura para fundir características marcantes obtidas a partir das modalidades auditiva e visual dentro de um ambiente, o SLAM Audio-Visual foi inicialmente desenvolvido para a interação humano-robô. Portanto, os algoritmos SLAM para robôs e máquinas centrados no ser humano precisam levar em conta características percebidas nas modalidades visual e acústica, que caracterizam a interação humana. Uma representação mais precisa do mundo pode ser construída com a ajuda de uma estrutura audiovisual, que usa recursos visuais, como pose humana, e recursos de áudio, como fala humana, para estimar e mapear a localização de marcos humanos. Câmeras monoculares e conjuntos de microfones microeletrônicos são exemplos de equipamentos leves e de baixa potência que podem ser úteis em aplicações de robótica móvel (pense em drones e robôs de serviço). Ao combinar o campo de visão completo e representações de recursos desobstruídos de sensores de áudio com o campo de visão limitado e oclusões de recursos e degradações óticas de sensores visuais leves, a localização e mapeamento simultâneos audiovisuais (SLAM) podem tornar esses sensores mais eficazes juntos. Ao fundir crenças marcantes da modalidade visual, a sensibilidade dos sensores de áudio pode ser adequadamente compensada para reverberação, inatividade da fonte sonora e ruído. O desenvolvimento da robótica e de máquinas com plena interação com a fala e o movimento humanos pode beneficiar de uma...