Kapitel 1 : Digitale Bildverarbeitung
Vereinfacht ausgedrückt ist digitale Bildverarbeitung die algorithmische Manipulation von digitalen Bildern auf einem digitalen Computer. Die digitale Bildverarbeitung, ein Teilgebiet der digitalen Signalverarbeitung, bietet viele Vorteile gegenüber dem analogen Vorgänger. Es ermöglicht die Verwendung von mehr Algorithmen für die Eingabedaten und hilft, Probleme wie Rauschen und Verzerrungen zu verhindern. Die digitale Bildverarbeitung kann als mehrdimensionale Systeme bezeichnet werden, da Bilder über zwei (oder mehr) Dimensionen spezifiziert werden. Der Fortschritt der Computertechnologie, das Wachstum der Mathematik (insbesondere die Entwicklung und Verbesserung der Theorie der diskreten Mathematik) und die steigende Nachfrage nach digitaler Bildverarbeitung in einer Vielzahl von Bereichen, darunter Umwelt, Landwirtschaft, Militär, Industrie und Medizin, sind die Haupteinflüsse auf ihre Entstehung und ihr Wachstum.
Die digitale Bildverarbeitung oder digitale Bildverarbeitung, wie sie früher genannt wurde, wurde in den 1960er Jahren von einer Reihe von Forschungseinrichtungen entwickelt, darunter die Bell Laboratories, das Jet Propulsion Laboratory, das MIT, die University of Maryland und andere für den Einsatz in Bereichen wie Satellitenbildgebung, Umwandlung von Draht-Foto-Standards, medizinische Bildgebung, Bildtelefon, Zeichenerkennung und Fotoverbesserung.
Angesichts der damals verfügbaren Technologie waren die Bearbeitungskosten jedoch ziemlich hoch. In den 1970er Jahren explodierte die digitale Bildverarbeitung jedoch, als kostengünstige Computer und Spezialgeräte allgemein zugänglich wurden. So können Herausforderungen wie die Konvertierung von Fernsehstandards mithilfe von Bildverarbeitung in Echtzeit bewältigt werden. Allzweckcomputer begannen, mit zunehmender Verarbeitungsgeschwindigkeit spezialisierte Hardware für alle außer den rechenintensivsten Aufgaben zu ersetzen. Mit dem Aufkommen leistungsstarker Computer und Signalprozessoren in den 2000er Jahren löste die digitale Bildverarbeitung schnell analoge Techniken als Goldstandard in der Branche ab.
Die Metalloxid-Halbleiter-Technologie (MOS) ist die Grundlage aktueller Bildsensoren. Die diskrete Cosinustransformation (DCT) war eine Schlüsselinnovation in der digitalen Bildkompressionstechnologie, die erstmals 1972 von Nasir Ahmed vorgestellt wurde.
In den 1970er Jahren veränderte der weit verbreitete Einsatz der MOS-Technologie den Bereich der elektronischen Signalverarbeitung radikal.
Die Röntgen-Computertomographie (oft auch CT genannt) für die Kopfdiagnostik wurde 1972 von dem Ingenieur des britischen Unternehmens EMI Housfield (Computertomographie) entwickelt. Die CT-Nukleus-Technik beruht auf der Projektion eines Querschnitts eines menschlichen Kopfes, der dann digital bearbeitet wird, um das Schnittbild zu rekonstruieren. Tomographische Bilder von verschiedenen Abschnitten des menschlichen Körpers wurden deutlich gemacht, als EMI 1975 ein Ganzkörper-CT-Gerät entwickelte. Diese Diagnosemethode wurde 1979 mit dem Nobelpreis ausgezeichnet.
Infolge des Einsatzes komplizierterer Algorithmen kann die digitale Bildverarbeitung sowohl eine verbesserte Leistung bei grundlegenden Aufgaben als auch die Einführung von Techniken bieten, die mit analogen Geräten nur schwer durchzuführen wären.
Insbesondere die digitale Bildverarbeitung ist sowohl eine nützliche Anwendung als auch eine Technologie, die sich auf Folgendes stützt:
Klassifikation
Extraktion von Merkmalen
Signalanalyse auf mehreren Skalen
Mustererkennung
Projektion
Beispiele für Methoden, die in der digitalen Bildverarbeitung zum Einsatz kommen:
Anisotrope Diffusion
Versteckte Markov-Modelle
Bildbearbeitung
Wiederherstellung von Bildern
Eigenständige Bauteilanalyse
Lineare Filterung
Neuronale Netze
Partielle Differentialgleichungen
Verpixelung
Punkt-Feature-Abgleich
Analyse der Hauptkomponenten
Karten, die sich selbst organisieren
Wavelets
Um digitale Fotos weicher oder schärfer zu machen, wenden Sie einfach einen geeigneten Filter an. Es ist möglich, Daten nach folgenden Kriterien zu filtern:
Faltung im räumlichen Bereich unter Verwendung eines Satzes gut gestalteter Kernel (Filter).
Frequenzmaskierung (Fourier-Bereich) zum Verbergen bestimmter Frequenzen
Die beiden Ansätze sind im Folgenden dargestellt:
Bevor sie in den Fourier-Raum übersetzt werden, werden Bilder oft gepolstert; Die folgenden Highpass-gefilterten Bilder zeigen die Auswirkungen verschiedener Padding-Methoden:
Im Vergleich zu wiederholtem Kantenabstand bewirkt Nullabstand, dass der Hochpassfilter einen zusätzlichen Satz von Kanten anzeigt.
Hochpassfilterung im räumlichen Bereich: eine MATLAB-Demonstration.
img=Schachbrett(20); % Schachbrett generieren
% ************************** RÄUMLICHEN BEREICH ***************************
klaplace=[0 -1 0; -1 5 -1; 0 -1 0]; % Laplace-Filterkern
X=conv2(img,klaplace); % Faltungstest img mit
% 3x3 Laplace-Kern
figure()
imshow(X,[]) % zeigt Laplace-gefiltert
title('Laplace-Kantenerkennung')
Im Folgenden finden Sie Beispiele dafür, wie affine Transformationen verwendet werden können, um grundlegende Bildmanipulationen wie Skalieren, Drehen, Verschieben, Reflektieren und Scheren durchzuführen:
Die affine Matrix wird auf ein Bild angewendet, indem es zuerst in eine Matrix umgewandelt wird, in der jeder Eintrag die Intensität eines einzelnen Pixels darstellt. Sobald die Zeile und Spalte eines Pixels in der Bildmatrix bekannt sind, kann die Position eines Pixels als Vektor dargestellt werden, der die Koordinaten dieses Pixels im Bild [x, y] zeigt. Dadurch ist es möglich, die Koordinate mit einer affinen Transformationsmatrix zu multiplizieren, was wiederum den Pixelwert des Ausgabebildes an der gewünschten Stelle ergibt.
Für Transformationen, die Translationstransformationen enthalten, sind jedoch homogene 3D-Koordinaten erforderlich. Das neue Koordinatensystem sieht folgendermaßen aus: [x, y, 1], wobei die dritte Dimension einer Konstante ungleich Null (in der Regel 1) zugewiesen ist. Dies ermöglicht translationale Verschiebungen durch Multiplikation des Koordinatenvektors mit einer 3 x 3-Matrix. Da 1 also eine Konstante ist, erlaubt die dritte Dimension die Translation.
Da die Matrixmultiplikation assoziativ ist, können viele affine Transformationen, die nacheinander durchgeführt werden, durch Multiplikation ihrer jeweiligen Matrizen zu einer einzigen affinen Transformation zusammengefasst werden. Wenn die resultierende Matrix auf einen Punktvektor angewendet wird, hat sie den gleichen Effekt wie das Anwenden der einzelnen Transformationen [x, y, 1] in der angegebenen Reihenfolge. Das bedeutet, dass eine Liste affiner Transformationsmatrizen auf eine einzige vereinfacht werden kann.
Zweidimensionale Koordinaten dürfen z.B. nur relativ zum Nullpunkt (0, 0) gedreht werden. Jeder Punkt kann jedoch in homogenen 3D-Koordinaten an den Ursprung (0, 0) gebracht, gedreht und dann wieder an seine ursprüngliche Position gebracht werden (das Gegenteil der ersten Translation). Indem wir diese drei affinen Transformationen in einer einzigen Matrix kombinieren, können wir das Bild um einen beliebigen Punkt drehen.
Das Entrauschen von Fotografien ist eine Aufgabe, die sich gut für die mathematische Morphologie eignet. Die mathematische Morphologie stützt sich stark auf Strukturelemente.
Strukturkomponenten werden in den folgenden Fällen behandelt. Unten und in Tabellenform sehen wir die Entrauschungsfunktion, das Bild als I und das Strukturelement als B.
zum Beispiel.
Was bedeutet der Begriff "Dilatation"?, B)(i,j) = .
Dilatation zulassen(I,B) = D. (I,B)
D(I', B)(1,1) =
Klären Sie die Bedeutung des Begriffs "Erosion", B)(i,j) = .
Nehmen Sie Erosion an(I,B) = E. (I,B)
E(I', B)(1,1) =
Nach der Dilatation Nach der Erosion
Beim Öffnen tritt zuerst die Erosion auf, gefolgt von der Dilatation, und beim Schließen kommt zuerst die Dilatation, gefolgt von der Erosion. In der Praxis kann Convolution verwendet werden, um sowohl das D(I,B) als auch das E(I,B) zu implementieren.
Rauschunterdrückung ist eine Technik, die verwendet wird, um Rauschen aus Bildern zu entfernen. Das Bild wurde in Graustufen dargestellt.
Eine Maske mit der Rauschunterdrückungsmethode ist eine logische Matrix mit .
Rauschunterdrückungstechniken verwenden einen Ansatz mit mittlerer halber Höhe, partielle Breite, und stoppen dann bei der Zeilennummer, an der das Bild endet, der Spaltennummer.
Es handelt sich um einen Bildblock, dessen Rand [der Punkt unterhalb der Mitte: der Punkt über der Mitte]; Dies ist ein Nachbar, [Der Punkt links vom Mittelpunkt: der Punkt rechts vom Mittelpunkt.].
Faltung Ersetzen Sie den Kern durch eine kleine Gruppe von Nachbarn und ein Strukturelement.
Betrachten Sie die Schließtechnik.
Dilatation zuerst
Matlab wird verwendet, um das Bild zu lesen und in Graustufen zu stufen.
Finden Sie heraus, wie groß das Ganze ist. Wir nehmen die Zeilen- und Spaltennummern aus dem zurückgegebenen Ergebnis als Grenzen.
Die Dilatations- und Erosionsfunktionen bestimmen die Strukturbauteile. Die Erosionstechnik eines Pixels wird durch das Minimum seiner Nachbarn bestimmt, während die Dilatationsmethode eines Pixels durch das Maximum seiner Nachbarn bestimmt wird.
Entscheiden Sie, wann geöffnet, verkleinert und geschlossen werden soll.
Erstellen Sie eine...