CapÃtulo 5 : Reconhecimento de gestos
O campo da ciência da computação e da tecnologia da linguagem conhecido como reconhecimento de gestos tem como objetivo principal a interpretação dos gestos humanos através do uso de algoritmos matemáticos. É possível interpretar o reconhecimento de gestos como um meio pelo qual os computadores podem começar a entender a linguagem do corpo humano, construindo assim uma ponte mais robusta entre máquinas e humanos do que interfaces de usuário de texto primitivas ou mesmo GUIs (interfaces gráficas do usuário), que ainda limitam a maior parte da entrada para o teclado e mouse e interagem naturalmente sem quaisquer dispositivos mecânicos. O reconhecimento de gestos pode ser visto como uma forma de os computadores começarem a compreender a linguagem corporal humana.
Funcionalidades para reconhecer gestos com as mãos:
Mais preciso
Alta estabilidade
Reduz o tempo necessário para desbloquear um dispositivo.
A seguir estão os principais domínios de aplicativo que usam o reconhecimento de gestos no cenário atual:
Sector automóvel
Sector da electrónica de consumo
Sector do trânsito
Sector do jogo
Para desbloquear smartphones
Defesa
Domótica
Tradução de linguagem gestual realizada mecanicamente
Reconhecimento de gestos e computação com caneta: a computação com caneta diminui o impacto que o hardware tem em um sistema e também expande a gama de objetos do mundo real que podem ser usados para controle além dos objetos digitais convencionais, como teclados e mouses. O reconhecimento de gestos é outra aplicação da computação com caneta. Implementações deste tipo poderiam tornar possível a criação de uma nova classe de hardware que não precisa de monitores. Este conceito poderá eventualmente resultar no desenvolvimento de um ecrã holográfico. É possível usar a expressão "reconhecimento de gestos" para se referir a símbolos manuscritos não inseridos por texto, como tinta digital em um tablet gráfico, gestos multitoque e reconhecimento de gestos do mouse. Este uso do termo está se tornando cada vez mais comum. Este método de interação com um computador envolve o desenho de vários símbolos usando um dispositivo apontador chamado cursor. (Para mais informações, consulte Computação em canetas)
Existem duas categorias distintas de gestos que são usados em interfaces de computador: Levamos em consideração manipulações diretas, como escalar e girar, que também podem ser pensadas como gestos online. Em contrapartida, os gestos offline são processados após a conclusão da interação; Por exemplo, desenhar um círculo para ativar um menu de contexto é um exemplo de um gesto offline.
Os gestos offline são definidos como aqueles que são manipulados depois que o usuário interage com o item com o qual está interagindo. Um exemplo disso seria o movimento usado para abrir um menu.
Gestos online: gestos de manipulação direta. Eles são usados no processo de dimensionamento ou rotação de um item físico.
O termo "interface de usuário sem toque" refere-se a uma categoria em desenvolvimento de tecnologia que está associada ao controle por gestos. O termo "interface de usuário sem toque" (TUI) refere-se ao ato de emitir comandos para um computador por movimentos e gestos realizados pelo corpo do usuário, em vez de tocar em um teclado, mouse ou tela de exibição. Como resultado do fato de que eles permitem que os usuários interajam com gadgets sem realmente tocá-los, interfaces sem toque, além de controles por gestos, estão ganhando uma enorme quantidade de popularidade.
Este tipo de interface é usado por uma variedade de diferentes tipos de hardware, incluindo telefones celulares, computadores, consoles de videogame, televisores e equipamentos de música.
Um tipo de interface touchless aproveita a conexão bluetooth de um smartphone para ativar o sistema de gerenciamento de visitantes de uma empresa. Este tipo de interface está a tornar-se mais popular. Durante a pandemia de COVID-19, isso elimina a necessidade de interagir fisicamente com quaisquer interfaces.
Várias tecnologias diferentes podem ser usadas para realizar a tarefa de rastrear os movimentos de uma pessoa e identificar os possíveis gestos que ela está tentando executar. As interfaces de usuário cinéticas, muitas vezes conhecidas como KUIs, são uma categoria emergente de interfaces de usuário que permitem que os usuários interajam com dispositivos de computador movendo seus corpos ou as coisas ao seu redor. Interfaces de usuário tangíveis e videogames sensíveis ao movimento, como os vistos no Wii e no Kinect da Microsoft, bem como outros tipos de projetos interativos são alguns exemplos de KUIs.
Tem havido uma quantidade significativa de pesquisas realizadas sobre reconhecimento de gestos baseado em imagem e vídeo; No entanto, as ferramentas e ambientes que são usados por diferentes implementações desta tecnologia não são idênticos.
Luvas com fios. Usando sensores de rastreamento magnéticos ou inerciais, estes podem oferecer entrada para o computador sobre a posição das mãos, bem como a rotação das mãos. Além disso, algumas luvas podem detetar o grau em que os dedos do usuário se dobraram com um alto grau de precisão (entre 5 e 10 graus), e algumas podem até oferecer ao usuário feedback háptico, que é uma simulação da sensação de toque. A DataGlove foi o primeiro dispositivo de rastreamento manual do tipo luva a ser disponibilizado para venda comercial. Ele era capaz de detetar a posição da mão, movimento e flexão dos dedos, e era usado como uma luva. Isso faz uso de fios feitos de fibra ótica que descem pela parte de trás da mão. Pulsos de luz são produzidos e, à medida que os dedos são dobrados, a luz escapa através de fissuras minúsculas; Esta perda de luz é detetada e obtém-se uma estimativa da posição da mão.
câmeras com uma sensação de profundidade. Um é capaz de produzir um mapa de profundidade do que está sendo visto através da câmera em um curto alcance ao usar câmeras especializadas, como luz estruturada ou câmeras de tempo de voo. Pode-se então utilizar esses dados para aproximar uma representação 3d do que está sendo visto. Devido às suas capacidades de curto alcance, têm o potencial de ser úteis para a deteção de movimentos das mãos.
Câmaras estéreo. A saída de duas câmaras, cujas relações entre si já estão estabelecidas, pode ser usado para aproximar uma representação tridimensional da cena. Pode-se fazer uso de uma referência posicional, como uma faixa léxica ou emissores infravermelhos, a fim de determinar as relações entre as câmeras. Em conjunto com a medição direta de movimento (6D-Vision), é possível detetar gestos de forma imediata.
Controladores baseados em gestos. Como esses controladores são projetados para parecer uma extensão do corpo do usuário, eles possibilitam que parte do movimento do usuário seja facilmente gravado pelo software quando o usuário executa gestos. O uso do rastreamento de mãos esqueléticas, que está atualmente sendo desenvolvido para uso em aplicações como realidade virtual e realidade aumentada, é um exemplo da próxima técnica de captura de movimento baseada em gestos. Os usuários são capazes de interagir com seu entorno sem a necessidade de controles, como mostram as empresas de rastreamento uSens e Gestigon, que são exemplos dessa tecnologia em ação.
Deteção de Wi-Fi, mas tem aplicações em outras áreas também.
Câmera única. Em situações em que os recursos disponíveis ou arredores não seriam ideais para outros tipos de identificação baseada em imagem, o reconhecimento de gestos pode ser realizado usando uma câmera bidimensional regular. Antigamente acreditava-se que uma câmera estéreo ou uma câmera sensível à profundidade seria mais eficaz do que uma única câmera, no entanto, agora existem várias empresas que estão contestando essa suposição. dispositivo para a deteção de movimentos da mão que é executado em software e emprega uma câmera 2D regular para que ele possa identificar movimentos complexos da mão.
A estratégia para entender um gesto pode ser feita de várias maneiras diferentes, dependendo do tipo de dados que foram fornecidos como entrada. Por outro lado, a maioria dos métodos depende de ponteiros-chave que são representados usando um sistema de coordenadas tridimensional. É possível identificar o gesto com um elevado nível de precisão, baseando-o no movimento relativo destes componentes. O nível de precisão alcançado pelo algoritmo depende da qualidade da entrada. É necessário categorizar os movimentos do corpo de acordo com suas características comuns e os significados potenciais que cada movimento pode transmitir antes de tentar analisá-los. No caso da linguagem gestual, por exemplo, cada gesto representa uma palavra ou frase.
De acordo com algumas pesquisas publicadas, existem dois métodos distintos para fazer reconhecimento de gestos: um método baseado em modelo 3D e um baseado na aparência. A abordagem primária utiliza informações 3D de características essenciais das partes do corpo, a fim de adquirir várias características críticas, como a localização da palma da mão ou os ângulos articulares. Esses parâmetros incluem: Por outro lado, os sistemas baseados na aparência dependem da interpretação direta de imagens ou vídeos.
A técnica de modelo 3D pode fazer uso de modelos esqueleto, modelos volumétricos, ou até mesmo uma mistura dos dois tipos de modelos. O negócio de animação por computador e a pesquisa de visão computacional têm feito uso extensivo...