Kapitel 3 : Gestenerkennung
Das Gebiet der Informatik und Sprachtechnologie, das als Gestenerkennung bekannt ist, hat als primäres Ziel die Interpretation menschlicher Gesten durch den Einsatz mathematischer Algorithmen. Es ist möglich, die Gestenerkennung als ein Mittel zu interpretieren, mit dem Computer beginnen können, die menschliche Körpersprache zu verstehen und damit eine robustere Brücke zwischen Maschinen und Menschen zu schlagen als primitive Textbenutzeroberflächen oder sogar GUIs (grafische Benutzeroberflächen), die immer noch den Großteil der Eingaben auf Tastatur und Maus beschränken und auf natürliche Weise ohne mechanische Geräte interagieren. Die Gestenerkennung kann als eine Möglichkeit für Computer angesehen werden, die menschliche Körpersprache zu verstehen.
Funktionen zur Erkennung von Handgesten:
Genauer
Hohe Stabilität
Reduziert den Zeitaufwand, der zum Entsperren eines Geräts benötigt wird.
Im Folgenden sind die primären Anwendungsdomänen aufgeführt, die die Gestenerkennung im vorliegenden Szenario verwenden:
Automobilindustrie
Bereich der Unterhaltungselektronik
Transit-Sektor
Gaming-Sektor
So entsperren Sie Smartphones
Verteidigung
Hausautomation
Maschinelle Übersetzung der Gebärdensprache
Gestenerkennung und Pen-Computing: Pen Computing verringert die Auswirkungen der Hardware auf ein System und erweitert auch die Palette realer Objekte, die zur Steuerung über herkömmliche digitale Objekte wie Tastaturen und Mäuse hinaus verwendet werden können. Die Gestenerkennung ist eine weitere Anwendung von Pen Computing. Implementierungen dieser Art könnten es ermöglichen, eine neue Klasse von Hardware zu schaffen, die keine Monitore benötigt. Dieses Konzept könnte schließlich zur Entwicklung eines holografischen Displays führen. Es ist möglich, den Ausdruck "Gestenerkennung" zu verwenden, um sich auf handschriftliche Symbole zu beziehen, die keine Texteingabe enthalten, z. B. Freihandeingabe auf einem Grafiktablett, Multi-Touch-Gesten und Mausgestenerkennung. Diese Verwendung des Begriffs wird immer häufiger. Bei dieser Methode der Interaktion mit einem Computer werden verschiedene Symbole mit einem Zeigegerät, dem Cursor, gezeichnet. (Weitere Informationen finden Sie unter Rechnen auf Stiften)
Es gibt zwei verschiedene Kategorien von Gesten, die in Computerschnittstellen verwendet werden: Wir berücksichtigen direkte Manipulationen wie Skalieren und Drehen, die auch als Online-Gesten betrachtet werden können. Im Gegensatz dazu werden Offline-Gesten verarbeitet, nachdem die Interaktion abgeschlossen ist. Das Zeichnen eines Kreises zum Aktivieren eines Kontextmenüs ist beispielsweise ein Beispiel für eine Offline-Geste.
Offlinegesten sind definiert als Gesten, die ausgeführt werden, nachdem der Benutzer mit dem Element interagiert hat, mit dem er interagiert. Ein Beispiel dafür wäre die Bewegung, mit der ein Menü geöffnet wird.
Online-Gesten: Direkte Manipulationsgesten. Sie werden beim Skalieren oder Rotieren eines physischen Artikels verwendet.
Der Begriff "berührungslose Benutzeroberfläche" bezieht sich auf eine sich entwickelnde Kategorie von Technologien, die mit der Gestensteuerung verbunden sind. Der Begriff "berührungslose Benutzeroberfläche" (TUI) bezieht sich auf die Ausgabe von Befehlen an einen Computer durch Bewegungen und Gesten, die vom Körper des Benutzers ausgeführt werden, und nicht durch Berühren einer Tastatur, Maus oder eines Bildschirms. Aufgrund der Tatsache, dass sie es Benutzern ermöglichen, mit Gadgets zu interagieren, ohne sie tatsächlich zu berühren, gewinnen berührungslose Schnittstellen neben der Gestensteuerung immer mehr an Popularität.
Diese Art von Schnittstelle wird von einer Vielzahl verschiedener Arten von Hardware verwendet, darunter Mobiltelefone, Computer, Videospielkonsolen, Fernseher und Musikgeräte.
Eine Art berührungsloser Schnittstelle nutzt die Bluetooth-Verbindung eines Smartphones, um das Besuchermanagementsystem eines Unternehmens zu aktivieren. Diese Art von Schnittstelle wird immer beliebter. Während der COVID-19-Pandemie entfällt dadurch die Notwendigkeit, physisch mit irgendwelchen Schnittstellen zu interagieren.
Mehrere verschiedene Technologien können verwendet werden, um die Aufgabe zu erfüllen, die Bewegungen einer Person zu verfolgen und die möglichen Gesten zu identifizieren, die sie auszuführen versucht. Kinetische Benutzeroberflächen, oft auch als KUIs bezeichnet, sind eine aufstrebende Kategorie von Benutzeroberflächen, die es Benutzern ermöglichen, mit Computergeräten zu interagieren, indem sie ihren Körper oder die Dinge um sie herum bewegen. Greifbare Benutzeroberflächen und bewegungsbewusste Videospiele, wie sie auf der Wii und Microsofts Kinect zu sehen sind, sowie andere Arten von interaktiven Projekten sind einige Beispiele für KUIs.
Es wurde eine beträchtliche Menge an Forschung über bild- und videobasierte Gestenerkennung durchgeführt. Die Tools und Umgebungen, die von verschiedenen Implementierungen dieser Technologie verwendet werden, sind jedoch nicht identisch.
Handschuhe mit Bügeln. Durch die Verwendung von magnetischen oder Inertial-Tracking-Sensoren können diese dem Computer Eingaben über die Position der Hände sowie die Drehung der Hände liefern. Darüber hinaus können einige Handschuhe mit hoher Präzision (zwischen 5 und 10 Grad) erkennen, wie stark sich die Finger des Benutzers gebeugt haben, und einige können dem Benutzer sogar ein haptisches Feedback bieten, das eine Simulation des Berührungsgefühls darstellt. Der DataGlove war das erste handschuhartige Hand-Tracking-Gerät, das für den kommerziellen Verkauf zur Verfügung gestellt wurde. Er war in der Lage, Handhaltung, Bewegung und Fingerbeugung zu erkennen, und er wurde wie ein Handschuh getragen. Dabei kommen Drähte aus Glasfasern zum Einsatz, die über den Handrücken verlaufen. Es werden Lichtimpulse erzeugt, und wenn die Finger gebeugt werden, entweicht das Licht durch winzige Risse; Dieser Lichtverlust wird erkannt und eine Schätzung der Handposition erhalten.
Kameras mit Tiefgang. Man ist in der Lage, eine Tiefenkarte dessen zu erstellen, was über die Kamera auf kurze Distanz gesehen wird, wenn man spezielle Kameras wie strukturiertes Licht oder Time-of-Flight-Kameras verwendet. Man kann diese Daten dann nutzen, um eine 3D-Darstellung des Gesehenen zu erstellen. Aufgrund ihrer geringen Reichweite haben sie das Potenzial, für die Erkennung von Handbewegungen nützlich zu sein.
Stereo-Kameras. Die Ausgabe von zwei Kameras, deren Beziehungen zueinander bereits hergestellt sind, kann verwendet werden, um eine dreidimensionale Darstellung der Szene zu approximieren. Man kann eine Positionsreferenz verwenden, wie z.B. einen Lexian-Streifen oder Infrarot-Emitter, um die Beziehungen zwischen den Kameras zu bestimmen. In Verbindung mit der direkten Bewegungsmessung (6D-Vision) ist es möglich, Gesten sofort zu erkennen.
Controller, die auf Gesten basieren. Da diese Controller so konzipiert sind, dass sie sich wie eine Erweiterung des Körpers des Benutzers anfühlen, ermöglichen sie es, dass ein Teil der Bewegung des Benutzers einfach von der Software aufgezeichnet werden kann, wenn der Benutzer Gesten ausführt. Der Einsatz von skelettalem Hand-Tracking, das derzeit für den Einsatz in Anwendungen wie Virtual Reality und Augmented Reality entwickelt wird, ist ein Beispiel für die kommende gestenbasierte Motion-Capture-Technik. Die Nutzer sind in der Lage, ohne Steuerung mit ihrer Umgebung interagieren zu müssen, wie die Tracking-Unternehmen uSens und Gestigon zeigen, die Beispiele für diese Technologie in Aktion sind.
Wi-Fi-Sensorik, aber es hat auch Anwendungen in anderen Bereichen.
Einzelne Kamera. In Situationen, in denen die verfügbaren Ressourcen oder die Umgebung für andere Arten der bildbasierten Identifizierung nicht optimal wären, kann die Gestenerkennung mit einer normalen zweidimensionalen Kamera durchgeführt werden. Früher glaubte man, dass eine Stereokamera oder eine tiefenbewusste Kamera effektiver wäre als eine einzelne Kamera, aber jetzt gibt es mehrere Unternehmen, die diese Annahme anfechten. Gerät zur Erkennung von Handbewegungen, das auf einer Software läuft und eine reguläre 2D-Kamera verwendet, um komplexe Handbewegungen zu erkennen.
Die Strategie zum Verstehen einer Geste kann auf verschiedene Weise erfolgen, abhängig von der Art der Daten, die als Eingabe bereitgestellt wurden. Auf der anderen Seite hängt die Mehrzahl der Methoden von Schlüsselzeigern ab, die durch ein dreidimensionales Koordinatensystem dargestellt werden. Es ist möglich, die Geste mit einem hohen Maß an Präzision zu identifizieren, indem sie auf der Relativbewegung dieser Komponenten basiert. Der Genauigkeitsgrad, den der Algorithmus erreicht, hängt von der Qualität der Eingabe ab. Es ist notwendig, die Bewegungen des Körpers nach ihren gemeinsamen Merkmalen und den möglichen Bedeutungen, die jede Bewegung vermitteln kann, zu kategorisieren, bevor man versucht, sie zu analysieren. In der Gebärdensprache zum Beispiel steht jede Geste für ein Wort oder einen Satz.
Einigen veröffentlichten Forschungsergebnissen zufolge gibt es zwei verschiedene Methoden für die Gestenerkennung: eine auf 3D-Modellen basierende Methode und eine auf Erscheinungsbild basierende. Der primäre Ansatz nutzt 3D-Informationen über wesentliche Merkmale der Körperteile, um verschiedene kritische Eigenschaften zu erfassen, wie z. B. die Lage der Handfläche oder die Gelenkwinkel. Zu diesen Parametern gehören: Auf der anderen Seite sind appearance-based Systeme auf die direkte Interpretation von Bildern oder Videos...