CapÃtulo 1 : Visión artificial
El estudio de cómo las computadoras pueden obtener conocimiento de alto nivel a partir de imágenes o videos digitales es el enfoque del área científica multidisciplinaria de la visión por computadora. Desde el punto de vista tecnológico, investiga e intenta automatizar actividades que están dentro de las capacidades del sistema visual humano.
Las tareas asociadas con la visión por computadora incluyen técnicas para obtener, procesar, analizar y comprender imágenes digitales, así como la extracción de datos de alta dimensión del entorno físico para crear información numérica o simbólica, como juicios.
La visión por computadora es un subcampo de la informática que investiga los fundamentos teóricos de los sistemas artificiales diseñados para derivar información de imágenes. Los datos visuales se pueden presentar en una variedad de formatos, incluidas secuencias de video, imágenes obtenidas de varias cámaras, datos multidimensionales obtenidos de un escáner 3D o equipo de escaneo médico, etc. El objetivo del campo técnico conocido como visión por computadora es implementar las ideas y modelos que ha desarrollado en el proceso de construcción de sistemas de visión por computadora.
Los campos de la reconstrucción de escenas, la detección de objetos, la detección de eventos, el seguimiento de vídeo, el reconocimiento de objetos, la estimación de poses en 3D, el aprendizaje, la indexación, la estimación de movimiento, el servoing visual, el modelado de escenas en 3D y la restauración de imágenes son subdominios de la visión artificial. Otros subdominios de la visión artificial incluyen el modelado de escenas en 3D.
La visión artificial es un estudio multidisciplinario que examina cómo se pueden programar las computadoras para extraer conocimiento de alto nivel de imágenes o películas digitales. Esta área se centra en cómo se puede enseñar a las computadoras a comprender lo que se les muestra. Desde el punto de vista de la ingeniería, el objetivo es encontrar formas de automatizar operaciones que ya pueden ser realizadas por el sistema visual humano. La visión por computadora es un campo de estudio en el campo de la tecnología de la información que se centra en la aplicación de teorías y modelos existentes al proceso de construcción de sistemas de visión por computadora.
A finales de la década de 1960, las universidades que estaban a la vanguardia de la inteligencia artificial fueron las primeras en experimentar con la visión por computadora. Su propósito era funcionar de una manera similar a la del sistema visual humano, con el objetivo final de imbuir a los robots con un comportamiento inteligente. En la década de 1990, varias de las áreas de estudio que se habían estudiado anteriormente se volvieron más activas que las demás. El estudio de las reconstrucciones tridimensionales proyectivas condujo a una comprensión más profunda de cómo calibrar una cámara. Con la introducción de técnicas de optimización para la calibración de la cámara, se hizo evidente que un número significativo de los conceptos habían sido investigados previamente por la disciplina de la teoría del ajuste de haces de la fotogrametría. Esto salió a la luz como resultado de este desarrollo. Esto dio lugar al desarrollo de técnicas para realizar reconstrucciones tridimensionales dispersas de escenas utilizando varias fotografías. Tanto el problema de la correspondencia estéreo densa como el desarrollo de nuevos enfoques estéreo multivista vieron cierto grado de avance. Al mismo tiempo, se utilizaron muchas variantes de corte de gráfico para abordar el problema de la segmentación de imágenes. Esta década fue especialmente significativa, ya que fue la primera vez que se utilizaron en la práctica métodos de aprendizaje estadístico para la tarea de reconocer rostros en fotografías (ver Eigenface). Las áreas de gráficos por computadora y visión por computadora se han entrelazado más en los últimos años, lo que ha llevado a un gran aumento en la cantidad de colaboración que ha tenido lugar entre los dos. Esto presentaba las primeras formas de renderizado de campo de luz, unión de imágenes panorámicas, transformación de imágenes, interpolación de vistas y renderizado basado en imágenes. El área de la visión artificial ha cobrado una nueva vida gracias al desarrollo de algoritmos basados en el aprendizaje profundo. La precisión de los algoritmos de aprendizaje profundo en numerosos conjuntos de datos de visión artificial de referencia para tareas que van desde la clasificación hasta el flujo óptico ha superado la de los enfoques anteriores. Estas tareas incluyen la segmentación de imágenes y el flujo óptico.
La visión artificial de estado sólido está fuertemente conectada con una serie de otras disciplinas, incluida la física. La gran mayoría de los sistemas de visión artificial se basan en sensores de imagen, que son dispositivos que son capaces de detectar la radiación electromagnética. Esta radiación se manifiesta comúnmente como luz visible o infrarroja. En el desarrollo de los sensores se utilizó la física cuántica. La disciplina científica de la física proporciona una explicación para el método a través del cual la luz interactúa con las superficies. El comportamiento de la óptica, que es un componente fundamental de la mayoría de los sistemas de imagen, puede ser explicado por la física. Con el fin de ofrecer un conocimiento completo del proceso por el cual se forma una imagen, los sensores de imagen sofisticados necesitan el uso de la mecánica cuántica. La visión por computadora también se puede utilizar para resolver una variedad de problemas de medición que surgen en física, como los que involucran el movimiento de fluidos.
La disciplina científica de la neurobiología, más especialmente la investigación del sistema visual biológico. Los ojos, las neuronas y las regiones del cerebro que se dedican al procesamiento de entradas visuales tanto en humanos como en diversos animales han sido objeto de una cantidad sustancial de investigación en el transcurso del último siglo. Como consecuencia de esto, ha surgido una descripción simple pero intrincada de la forma en que funcionan los sistemas de visión "reales" para completar varias tareas relacionadas con la visión. Como consecuencia de estos hallazgos, ha surgido un subcampo de la visión por computadora en el que los sistemas artificiales están destinados a imitar el procesamiento y el comportamiento de los sistemas biológicos, con diversos grados de semejanza biológica. Muchos de los enfoques basados en el aprendizaje que se han creado dentro de la visión por computadora tienen sus raíces en la biología. Algunos ejemplos de estos métodos basados en el aprendizaje son el análisis y la categorización de imágenes y características basados en redes neuronales y aprendizaje profundo.
Algunas ramas de la investigación de la visión por computadora son muy similares al estudio de la visión biológica. Muchas ramas de la investigación de la IA también son muy similares al estudio de la conciencia humana y a la aplicación de los conocimientos adquiridos previamente para interpretar, integrar y utilizar la información visual. El estudio y modelado de los mecanismos fisiológicos que subyacen a la percepción visual en humanos y otros animales es el ámbito de la disciplina académica de la visión biológica. Por otro lado, la visión artificial es el estudio y la descripción de los procesos que se implementan en el software y el hardware que subyacen a los sistemas de visión artificial. La colaboración interdisciplinaria entre las ciencias de la visión biológica y la visión por ordenador ha demostrado ser beneficiosa para ambas áreas.
El procesamiento de señales es otra área de estudio que está relacionada con la visión por computadora. En visión artificial, el procesamiento de señales de dos variables o señales multivariables puede extenderse naturalmente a partir del procesamiento de señales de una variable, a menudo señales temporales. Esto permite un mayor grado de flexibilidad en el análisis de señales. Sin embargo, debido a las características únicas de las imágenes, el campo de la visión por computadora ha creado una amplia variedad de técnicas que no se pueden análogas al procesamiento de señales que solo incluyen una sola variable. Esto, junto con el hecho de que la señal en sí misma es multidimensional, crea un sector dentro del procesamiento de señales que se engloba bajo el paraguas de la visión artificial.
La navegación robótica puede incluir la planificación autónoma de un curso a través de un área o la toma de decisiones deliberada de los sistemas robóticos a medida que se mueven a través de ese entorno. Para navegar con éxito a través de varios ecosistemas, es esencial una comprensión integral de ellos. Un sistema de visión artificial puede ofrecer información sobre el entorno funcionando como un sensor de visión y entregando información de alto nivel sobre el entorno y el robot. Esta información podría ser suministrada por un sistema de visión artificial.
Muchos de los temas de estudio que están relacionados con la visión por computador también pueden ser examinados desde la perspectiva de las matemáticas puras, además de las perspectivas que ya se han descrito sobre la visión por computadora. La estadística, la optimización y la geometría son solo algunos de los cimientos sobre los que se construyen muchos de los enfoques utilizados en la visión artificial. En conclusión, una parte considerable del campo se centra en el lado de la implementación de la visión artificial. Este aspecto del campo investiga cómo los métodos...