Capítulo 1 : Procesamiento digital de imágenes
En pocas palabras, el procesamiento digital de imágenes es la manipulación algorítmica de imágenes digitales en una computadora digital. El procesamiento digital de imágenes, un subcampo del procesamiento digital de señales, ofrece muchas ventajas con respecto a su predecesor analógico. Permite el uso de más algoritmos en los datos de entrada y ayuda a evitar que se acumulen problemas como el ruido y la distorsión. El procesamiento digital de imágenes puede describirse como sistemas multidimensionales debido al hecho de que las imágenes se especifican en dos (o más) dimensiones. El avance de la tecnología informática, el crecimiento de las matemáticas (en particular el desarrollo y la mejora de la teoría de las matemáticas discretas) y la creciente demanda de procesamiento digital de imágenes en una variedad de campos, incluidos el medio ambiente, la agricultura, el ejército, la industria y la medicina, son las principales influencias en su creación y crecimiento.
El procesamiento digital de imágenes, o procesamiento digital de imágenes, como se conocía anteriormente, fue pionero en la década de 1960 por una serie de instituciones de investigación, incluidos los Laboratorios Bell, el Laboratorio de Propulsión a Chorro, el MIT, la Universidad de Maryland y otros para su uso en campos como imágenes satelitales, conversión de estándares de fotografía por cable, imágenes médicas, videoteléfonos, reconocimiento de caracteres y mejora de fotografías.
Sin embargo, dada la tecnología disponible en ese momento, el costo de procesamiento era bastante alto. Sin embargo, en la década de 1970, el procesamiento digital de imágenes explotó a medida que las computadoras de bajo costo y los equipos especializados se volvieron ampliamente accesibles. Como resultado, desafíos como la conversión de estándares de televisión podrían abordarse en tiempo real utilizando el procesamiento de imágenes. Las computadoras de propósito general comenzaron a reemplazar el hardware especializado para todas las tareas, excepto las más costosas desde el punto de vista computacional, a medida que aumentaban sus velocidades de procesamiento. Con la llegada de potentes ordenadores y procesadores de señales en la década de 2000, el procesamiento digital de imágenes sustituyó rápidamente a las técnicas analógicas como el estándar de oro en la industria.
La tecnología de semiconductores de óxido metálico (MOS) es la base de los sensores de imagen actuales, La transformada discreta de coseno (DCT) fue una innovación clave en la tecnología de compresión de imágenes digitales que fue presentada inicialmente por Nasir Ahmed en 1972.
En la década de 1970, el uso generalizado de la tecnología MOS alteró radicalmente el campo del procesamiento electrónico de señales.
El dispositivo de tomografía computarizada de rayos X (a menudo conocido como TC) para el diagnóstico de la cabeza fue creado en 1972 por el ingeniero (tomografía computarizada) de la empresa británica EMI Housfield. La técnica del núcleo de la TC se basa en una proyección de una sección transversal de una cabeza humana, que luego se procesa digitalmente para recrear la imagen de la sección transversal. Las imágenes tomográficas de diferentes secciones del cuerpo humano se produjeron claramente cuando EMI creó un dispositivo de tomografía computarizada de cuerpo entero en 1975. Este método de diagnóstico fue galardonado con el Premio Nobel en 1979.
Como resultado del empleo de algoritmos más complicados, el procesamiento digital de imágenes puede proporcionar tanto un mejor rendimiento en trabajos básicos como la introducción de técnicas que serían difíciles de hacer con equipos analógicos.
El procesamiento digital de imágenes, en particular, es una aplicación útil y una tecnología que se basa en:
Clasificación
Extracción de características
Análisis de señales a varias escalas
Reconocimiento de patrones
Proyección
Ejemplos de métodos utilizados por el procesamiento digital de imágenes:
Difusión anisotrópica
Modelos ocultos de Markov
Edición de imágenes
Restauración de imagen
Análisis independiente de componentes
Filtrado lineal
Redes neuronales
Ecuaciones diferenciales parciales
Pixelación
Coincidencia de entidades de puntos
Análisis de componentes principales
Mapas que se organizan solos
Wavelets
Para suavizar o enfocar las fotos digitales, basta con aplicar un filtro adecuado. Es posible filtrar los datos por:
convolución en el dominio espacial utilizando un conjunto de kernels (filtros) bien elaborados.
enmascaramiento de dominio de frecuencia (Fourier) para ocultar ciertas frecuencias
Los dos enfoques se ven a continuación:
Antes de ser traducidas al espacio de Fourier, las imágenes suelen estar rellenadas; Las imágenes filtradas de paso alto a continuación muestran los efectos de varios métodos de relleno:
En comparación con el relleno de bordes repetido, el relleno de cero hace que el filtro de paso alto muestre un conjunto adicional de bordes.
Filtrado de paso alto en el dominio espacial: una demostración de MATLAB.
img=tablero de ajedrez(20); % generar tablero de ajedrez
% ************************** DOMINIO ESPACIAL ***************************
klaplace=[0 -1 0; -1 5 -1; 0 -1 0]; % Kernel de filtro laplaciano
X=conv2(img,klaplace); % de convolución de la prueba img con
% 3x3 Semilla laplaciana
figura()
imshow(X,[]) % mostrar laplaciano filtrado
title('Detección de bordes laplacianos')
A continuación se muestran ejemplos de cómo se pueden utilizar las transformaciones afines para realizar manipulaciones fundamentales de la imagen, como el escalado, la rotación, la traslación, la reflexión y el corte:
La matriz afín se aplica a una imagen transformándola primero en una matriz donde cada entrada representa la intensidad de un solo píxel. Una vez que se conocen la fila y la columna de un píxel en la matriz de la imagen, la posición de un píxel se puede representar como un vector que muestra las coordenadas de ese píxel en la imagen, [x, y]. Esto permite multiplicar la coordenada por una matriz de transformación afín, que a su vez produce el valor de píxel de la imagen de salida en la ubicación deseada.
Sin embargo, se requieren coordenadas homogéneas 3D para las transformaciones que incluyen transformaciones de traslación. El nuevo sistema de coordenadas tiene el siguiente aspecto: [x, y, 1], con la tercera dimensión asignada a una constante distinta de cero (normalmente 1). Esto permite cambios de traslación multiplicando el vector de coordenadas por una matriz de 3 por 3. Entonces, debido a que 1 es una constante, la tercera dimensión permite la traducción.
Dado que la multiplicación de matrices es asociativa, si se realizan muchas transformaciones afines en secuencia, se pueden colapsar en una sola transformación afín multiplicando sus respectivas matrices. Cuando se aplica a un vector de puntos, la matriz resultante tiene el mismo efecto que aplicar las transformaciones individuales [x, y, 1] en orden. Esto significa que una lista de matrices de transformación afín puede simplificarse a una sola.
Las coordenadas bidimensionales, por ejemplo, solo se pueden rotar en relación con el punto cero (0, 0). Cualquier punto, sin embargo, puede ser llevado al origen (0, 0) en coordenadas 3D homogéneas, rotado y luego devuelto a su posición original (lo opuesto a la primera traslación). Al combinar estas tres transformaciones afines en una sola matriz, podemos rotar la imagen alrededor de cualquier punto dado.
La eliminación de ruido de las fotografías es una tarea muy adecuada para la morfología matemática. La morfología matemática depende en gran medida de los elementos estructurales.
Los componentes estructurales se analizan en las siguientes instancias. A continuación y en forma de tabla, vemos la función de eliminación de ruido, la imagen como I y el elemento estructural como B.
p ej.
¿Cuál es el significado del término "dilatación"?, B)(i,j) = .
Permitir dilatación (I,B) = D. (I,B)
D(I', B)(1,1) =
Aclarar el significado del término "erosión", B)(i,j) = .
Supongamos que la erosión (I,B) = E. (I,B)
E(I', B)(1,1) =
Después de la dilatación Después de la erosión
Al abrirse, primero se produce la erosión, seguida de la dilatación, y al cerrarse, primero aparece la dilatación, seguida de la erosión. En la práctica, la convolución se puede utilizar para implementar tanto el D(I,B) como el E(I,B).
La eliminación de ruido es una técnica utilizada para eliminar el ruido de las imágenes, la imagen se ha escalado en grises.
Una máscara con método de eliminación de ruido es una matriz lógica con .
Las técnicas de eliminación de ruido utilizan un enfoque de mitad de la altura central, ancho parcial, luego se detenga en el número de fila donde termina la imagen, número de columna.
Es un bloque de imagen cuyo borde es [el punto debajo del centro: el punto sobre el centro]; este es un vecino, [El punto a la izquierda del centro: el punto a la derecha del centro].
Convolución Reemplace el núcleo con un pequeño grupo de vecinos y un elemento estructural.
Considera la técnica de cierre.
Primero la dilatación
Matlab se utiliza para leer la imagen y en escala de grises.
Averigüe qué tan grande es una imagen. Tomaremos los...