Capitolo 1 : Elaborazione digitale delle immagini
Per dirla semplicemente, l'elaborazione digitale delle immagini è la manipolazione algoritmica di immagini digitali su un computer digitale. L'elaborazione digitale delle immagini, un sottocampo dell'elaborazione del segnale digitale, offre molti vantaggi rispetto al suo predecessore analogico. Consente l'uso di più algoritmi sui dati di input e aiuta a prevenire l'accumulo di problemi come rumore e distorsione. L'elaborazione digitale delle immagini può essere descritta come sistemi multidimensionali a causa del fatto che le immagini sono specificate su due (o più) dimensioni. Il progresso della tecnologia informatica, la crescita della matematica (in particolare lo sviluppo e il miglioramento della teoria della matematica discreta) e la crescente domanda di elaborazione digitale delle immagini in una varietà di campi, tra cui l'ambiente, l'agricoltura, l'esercito, l'industria e la medicina, sono le influenze principali sulla sua creazione e crescita.
L'elaborazione digitale delle immagini, o elaborazione digitale delle immagini come era precedentemente nota, è stata sperimentata negli anni '60 da un certo numero di istituti di ricerca tra cui i Bell Laboratories, il Jet Propulsion Laboratory, il MIT, l'Università del Maryland e altri per l'uso in campi come l'imaging satellitare, la conversione degli standard wire-photo, l'imaging medico, il videotelefono, il riconoscimento dei caratteri e il miglioramento della fotografia.
Tuttavia, data la tecnologia disponibile all'epoca, il costo di elaborazione era piuttosto elevato. Negli anni '70, tuttavia, l'elaborazione digitale delle immagini esplose quando i computer a basso costo e le apparecchiature specializzate divennero ampiamente accessibili. Di conseguenza, sfide come la conversione degli standard televisivi potrebbero essere affrontate in tempo reale utilizzando l'elaborazione delle immagini. I computer generici iniziarono a sostituire l'hardware specializzato per tutte le attività, tranne quelle più costose dal punto di vista computazionale, man mano che aumentavano le loro velocità di elaborazione. Con l'avvento di potenti computer e processori di segnale negli anni 2000, l'elaborazione digitale delle immagini ha rapidamente sostituito le tecniche analogiche come gold standard nel settore.
La tecnologia dei semiconduttori a ossido di metallo (MOS) è alla base degli attuali sensori di immagine, la trasformata discreta del coseno (DCT) è stata un'innovazione chiave nella tecnologia di compressione delle immagini digitali che è stata inizialmente presentata da Nasir Ahmed nel 1972.
Negli anni '70, l'uso diffuso della tecnologia MOS ha modificato radicalmente il campo dell'elaborazione elettronica dei segnali.
Il gadget per la tomografia computerizzata a raggi X (spesso noto come TC) per la diagnostica della testa è stato creato nel 1972 dall'ingegnere dell'azienda britannica EMI Housfield (tomografia computerizzata). La tecnica del nucleo CT si basa su una proiezione di una sezione trasversale di una testa umana, che viene poi elaborata digitalmente per ricreare l'immagine della sezione trasversale. Le immagini tomografiche di diverse sezioni del corpo umano sono state prodotte chiaramente quando EMI ha creato un dispositivo CT per tutto il corpo nel 1975. Questo metodo di diagnosi è stato insignito del Premio Nobel nel 1979.
Come risultato dell'impiego di algoritmi più complicati, l'elaborazione digitale delle immagini può fornire sia migliori prestazioni nei lavori di base sia l'introduzione di tecniche che sarebbero difficili da fare con le apparecchiature analogiche.
L'elaborazione digitale delle immagini, in particolare, è sia un'applicazione utile che una tecnologia che si basa su:
Classificazione
Estrazione delle caratteristiche
Analisi dei segnali su più scale
Riconoscimento
Proiezione
Esempi di metodi utilizzati dall'elaborazione digitale delle immagini:
Diffusione anisotropa
Modelli di Markov nascosti
Modifica delle immagini
Ripristino dell'immagine
Analisi indipendente dei componenti
Filtraggio lineare
Reti neurali
Equazioni differenziali alle derivate parziali
Pixelizzazione
Corrispondenza delle caratteristiche del punto
Analisi delle componenti principali
Mappe che si organizzano da sole
Wavelet
Per ammorbidire o rendere più nitide le foto digitali, basta applicare un filtro adatto. È possibile filtrare i dati per:
convoluzione nel dominio spaziale utilizzando un insieme di kernel ben realizzati (filtri).
mascheramento del dominio della frequenza (Fourier) per nascondere determinate frequenze
I due approcci sono illustrati di seguito:
Prima di essere tradotte nello spazio di Fourier, le immagini vengono spesso imbottite; Le immagini filtrate passa-alto riportate di seguito mostrano gli effetti di vari metodi di spaziatura interna:
Rispetto alla spaziatura interna dei bordi ripetuta, la spaziatura zero fa sì che il filtro passa-alto visualizzi un set aggiuntivo di bordi.
Filtraggio passa-alto nel dominio spaziale: una dimostrazione di MATLAB.
img=scacchiera(20); % genera scacchiera
% ************************** DOMINIO SPAZIALE ***************************
klaplace=[0 -1 0; -1 5 -1; 0 -1 0]; % kernel del filtro laplaciano
X=conv2(img,klaplace); % test convolve img con
% 3x3 Kernel Laplaciano
figura()
imshow(X,[]) % show Laplacian filtrato
title('Rilevamento del bordo laplaciano')
Di seguito sono riportati esempi di come le trasformazioni affini possono essere utilizzate per eseguire manipolazioni fondamentali dell'immagine, tra cui ridimensionamento, rotazione, traslazione, riflessione e inclinazione:
La matrice affine viene applicata a un'immagine trasformandola prima in una matrice in cui ogni voce rappresenta l'intensità di un singolo pixel. Una volta che la riga e la colonna di un pixel nella matrice dell'immagine sono note, la posizione di un pixel può essere rappresentata come un vettore che mostra le coordinate di quel pixel nell'immagine, [x, y]. Ciò consente di moltiplicare la coordinata per una matrice di trasformazione affine, che a sua volta produce il valore in pixel dell'immagine di output nella posizione desiderata.
Tuttavia, le coordinate omogenee 3D sono necessarie per le trasformazioni che includono trasformazioni di traslazione. Il nuovo sistema di coordinate è simile al seguente: [x, y, 1], con la terza dimensione assegnata a una costante diversa da zero (tipicamente 1). Ciò consente spostamenti di traslazione moltiplicando il vettore di coordinate per una matrice 3 per 3. Quindi, poiché 1 è una costante, la terza dimensione permette la traduzione.
Poiché la moltiplicazione di matrici è associativa, se molte trasformazioni affini vengono eseguite in sequenza, possono essere compresse in una singola trasformazione affine moltiplicando le rispettive matrici. Quando viene applicata a un vettore punto, la matrice risultante ha lo stesso effetto dell'applicazione delle singole trasformazioni [x, y, 1] in ordine. Ciò significa che un elenco di matrici di trasformazione affini può essere semplificato in una sola.
Le coordinate bidimensionali, ad esempio, possono essere ruotate solo rispetto al punto zero (0, 0). Qualsiasi punto, tuttavia, può essere portato all'origine (0, 0) in coordinate omogenee 3D, ruotato e quindi riportato nella sua posizione originale (l'opposto della prima traslazione). Combinando queste tre trasformazioni affini in un'unica matrice, possiamo ruotare l'immagine attorno a un dato punto.
La riduzione del rumore delle fotografie è un compito che ben si adatta alla morfologia matematica. La morfologia matematica si basa molto sugli elementi strutturali.
I componenti strutturali sono discussi nei casi seguenti. Di seguito e in forma di tabella, vediamo la funzione di riduzione del rumore, l'immagine come I e l'elemento strutturale come B.
ad es.
Qual è il significato del termine "dilatazione"?, B)(i,j) = .
Consenti dilatazione(I,B) = D. (I,B)
D(I', B)(1,1) =
Chiarire il significato del termine "erosione", B)(i,j) = .
Supponiamo che l'erosione (I,B) = E. (I,B)
E(I', B)(1,1) =
Dopo la dilatazione Dopo l'erosione
Durante l'apertura, si verifica prima l'erosione, seguita dalla dilatazione, e quando si chiude, viene prima la dilatazione, seguita dall'erosione. In pratica, la convoluzione può essere utilizzata per implementare sia la D(I,B) che la E(I,B).
Il denoising è una tecnica utilizzata per rimuovere il rumore dalle immagini, l'immagine è stata in scala di grigi.
Una maschera con metodo di denoising è una matrice logica con .
Le tecniche di denoising utilizzano un approccio a metà altezza, larghezza parziale, quindi fermarsi al numero di riga dove finisce l'immagine, numero di colonna.
È un blocco di immagini il cui bordo è [il punto sotto il centro: il punto sopra il centro]; questo è un vicino, [Il punto centrale sinistro: il punto centrale destro.].
Convoluzione Sostituire il nucleo con un piccolo gruppo di vicini e un elemento strutturale.
Considera la tecnica di chiusura.
Prima la dilatazione
Matlab viene utilizzato per leggere l'immagine e scalarla in grigio.
Scopri quanto è grande un quadro. Prenderemo i numeri di riga e colonna dal risultato restituito come limiti.
Le funzioni di dilatazione ed erosione determinano i componenti strutturali. La tecnica di erosione di un pixel è determinata dal minimo dei suoi vicini, mentre il metodo di dilatazione di un...