Kapitel 3: Bildsegmentierung
Die Bildsegmentierung, auch bekannt als Bildbereichs- oder Objektsegmentierung, ist eine Technik, die in der maschinellen Bildverarbeitung und Bildverarbeitung verwendet wird, um ein digitales Bild in kleinere, leichter handhabbare Teile (Pixelsätze) zu unterteilen. Der Zweck der Segmentierung besteht darin, die Darstellung eines Bildes in eine verständlichere und informativere Darstellung umzuwandeln. Das Segmentieren eines Bildes ist eine gängige Technik, um Features wie Linien, Kurven und andere Begrenzungen in einem Bild zu finden. Genauer gesagt handelt es sich bei der Bildsegmentierung um den Prozess, bei dem jedes Pixel in einem Bild so beschriftet wird, dass Pixel mit derselben Bezeichnung gemeinsame Eigenschaften aufweisen.
Durch die Segmentierung eines Bildes entsteht eine Sammlung von Teilbildern oder Konturen, die zusammen das Originalbild bilden (siehe Kantenerkennung). Alle Pixel in einem bestimmten Bereich weisen eine Ähnlichkeit in mindestens einer berechneten Eigenschaft auf, z. B. Farbton, Sättigung oder Textur. Unterschiedliche Farbgebung zwischen benachbarten Regionen für die gleichen Features.
Die Bildsegmentierung hat viele praktische Anwendungen, darunter die folgenden:
Bildabruf auf Basis von Inhalten
Maschinelles Sehen
Diagnostische bildgebende Verfahren wie Computertomographie (CT) und Magnetresonanztomographie (MRT) mit Volumendarstellung.
Diagnose von Krebs und anderen Pathologien
Messung des Gewebevolumens
Studium der Anatomie und Diagnose
OP-Planung
Virtuelle OP-Simulation
Nicht funktionsfähige Leitsysteme
Strahlentherapie
Objekt-Erkennung
Fußgänger-Erkennung
Gesichtserkennung
Bremslicht-Erkennung
Erkennen von Dingen in Weltraumbildern (Straßen, Wälder, Feldfrüchte usw.)
Aufgaben der Anerkennung
Gesichtserkennung
Fingerabdruck-Erkennung
Iris-Erkennung
Verkehrsleitsysteme
Videoüberwachung
Aktionserkennung und Co-Segmentierung in Videos
Es wurden zahlreiche universelle Algorithmen und Methoden zur Bildsegmentierung entwickelt. Diese Methoden erfordern in der Regel domänenspezifisches Wissen, um effektiv auf Segmentierungsprobleme innerhalb einer bestimmten Domäne angewendet zu werden.
Es gibt zwei Arten von Segmentierungsmethoden.
Konventionelle Techniken in der Computer Vision
KI-basierte Techniken
Die semantische Segmentierung ist eine Methode, die jedem einzelnen Pixel eines Objekts eine Klasse zuweist. Die Segmentierung einer Figur in ihre Bestandteile, wie z. B. ihre Personen und ihren Hintergrund, würde zu zwei unterschiedlichen Objekten führen.
Bei der Instanzsegmentierung handelt es sich um eine Methode, bei der jedes Pixel der richtigen Objektinstanz zugewiesen wird. Er findet jedes einzelne Objekt im Bild. Die Segmentierung wird z. B. verwendet, wenn jeder einzelne Teil einer Abbildung als separate Einheit behandelt wird.
Semantische und Instanzsegmentierung werden in der panoptischen Segmentierung zusammengeführt. Ähnlich wie bei der semantischen Segmentierung bestimmt die panoptische Segmentierung die Klassenzugehörigkeit des Pixels. Die panoptische Segmentierung kann im Gegensatz zur semantischen Segmentierung Mitglieder derselben Klasse unterscheiden.
Thresholding ist die einfachste Methode der Bildsegmentierung. Der Clip-Level (oder Schwellenwert) ist die Grundlage dieser Technik zum Konvertieren eines Graustufenbildes in ein Binärbild.
Die Auswahl des geeigneten Schwellenwerts ist für diesen Ansatz von entscheidender Bedeutung (oder von Werten, wenn mehrere Ebenen ausgewählt sind). Die Maximum-Entropie-Methode, die balancierte Histogramm-Schwellenwertmethode, die Otsu-Methode (maximale Varianz) und die k-Means-Clustering-Methode sind in der Wirtschaft weit verbreitet.
In jüngster Zeit sind Schwellwertverfahren für Computertomographie-Bilder (CT) aufgetaucht. Die Grundidee ist, dass die Schwellenwerte aus den Röntgenbildern abgeleitet werden und nicht aus dem (rekonstruierten) Bild, wie bei der Methode von Otsu.
Um ein Bild in K-Gruppen zu unterteilen, verwendet der K-Means-Algorithmus iterative Techniken. Das Standardverfahren ist
Wählen Sie K-Knoten für einen Cluster nach dem Zufallsprinzip oder mit einem heuristischen Verfahren wie K-means++ aus.
Pixel sollten Clustern basierend auf der kürzesten Entfernung zu den Clustermittelpunkten zugewiesen werden.
Berechnen Sie die Cluster-Mittelpunkte neu, indem Sie den Mittelwert der Clusterpixel bilden.
Um Konvergenz zu erreichen, sollten die Schritte 2 und 3 wiederholt werden (d.h. keine Pixel wechseln die Cluster)
Der Abstand zwischen einem einzelnen Pixel und dem Mittelpunkt eines Clusters wird als quadratischer oder absoluter Abstand ausgedrückt. Farbe, Helligkeit, Textur und Position einzelner Pixel oder eine Kombination davon spielen oft eine Rolle bei der Unterscheidung. Der Wert von K kann empirisch, willkürlich oder heuristisch gewählt werden. Es gibt eine Konvergenzgarantie für diesen Algorithmus, aber er liefert möglicherweise nicht die beste Antwort. Die Wirksamkeit der Lösung wird durch die eingangs angegebene Anzahl der Cluster und den Parameter K bestimmt.
Der Mean-Shift-Algorithmus ist eine Methode zur Gruppierung von Bildern in Teilmengen, deren Anzahl nicht im Voraus bestimmt werden kann. Die Tatsache, dass dies keine Vorkenntnisse über einen solchen Parameter erfordert, macht es zu einer überlegenen allgemeinen Lösung für ein breiteres Spektrum von Problemen.
Um eine Segmentierung durchzuführen, verwendet die bewegungsbasierte Methode die Bewegungsinformationen des Bildes.
Das Konzept ist einfach: Vergleichen und kontrastieren Sie einfach zwei Bilder. Wenn das Ziel der Studie in Bewegung ist, wird der Unterschied in diesem Ziel selbst liegen.
Kenney et al. [2] schlugen eine interaktive Segmentierung als Verbesserung dieser Idee vor. Um das für die bewegungsbasierte Segmentierung erforderliche Bewegungssignal zu erzeugen, wird ein Roboter eingesetzt, der Objekte anstupst.
Dov Katz [3, 4] und Oliver Brock [3, 4] schlugen den interaktiven Wahrnehmungsrahmen vor, auf dem die interaktive Segmentierung basiert.
Eine weitere Option ist die bewegungsbasierte Rigid-Motion-Segmentierungstechnik.
Nach den Grundsätzen komprimierungsbasierter Ansätze ist der beste Weg, Daten in überschaubare Blöcke aufzuteilen, wobei die kleinste Codierungslänge die optimale Lösung ist. Bei der Segmentierung wird nach Mustern in einem Bild gesucht, und diese Muster können ausgenutzt werden, um komprimierte Versionen des Originals zu erstellen. Die Technik charakterisiert jeden Abschnitt durch seine Grenztextur und Kontur. Um die Kodierungslänge jedes dieser Teile zu bestimmen, verwenden wir Wahrscheinlichkeitsverteilungsfunktionen als Modelle:
Die glatte Kontur von Regionen in natürlichen Bildern wird durch die Grenzkodierung ausgenutzt. Die Huffman-Codierung verwendet dies vor der Kodierung des Differenzkettencodes der Konturen eines Bildes. Je kürzer die Codierungslänge, desto glatter die Grenze.
Die verlustbehaftete Komprimierung wird verwendet, um Texturen analog zum MDL-Prinzip zu kodieren. Die Länge der Daten für das Modell ist jedoch annähernd gleich der Anzahl der Stichproben multipliziert mit der Entropie des Modells. Eine multivariate Normalverteilung wird verwendet, um die Textur in jedem Bereich zu modellieren, und die Entropie dieser Verteilung kann in geschlossener Form ausgedrückt werden. Die geschätzte Entropie hat obere Schranken, die mit der wahren Entropie der Daten übereinstimmen, was eine faszinierende Eigenschaft dieses Modells ist. Dies ist auf die Tatsache zurückzuführen, dass die Entropie einer Normalverteilung die höchste aller Verteilungen für einen gegebenen Mittelwert und eine gegebene Kovarianz ist. Aus diesem Grund kann das Minimierungsziel des Algorithmus die tatsächliche Codierungslänge nicht überschreiten.
Die Anzahl der Bits, die benötigt werden, um ein Bild basierend auf einer bestimmten Segmentierung zu kodieren, wird nach diesem Schema berechnet. Ziel ist es daher, unter allen möglichen Bildsegmentierungen diejenige zu identifizieren, die die kürzeste Codierungslänge ergibt. Ein unkomplizierter agglomerativer Clustering-Ansatz reicht hier aus. Die Grobheit der Segmentierung wird durch verlustbehaftete Komprimierungsverzerrung festgelegt, und die beste Einstellung kann sich von Bild zu Bild ändern. Dieser Parameter kann grob geschätzt werden, indem der Texturkontrast eines Bildes als Richtwert dient. Eine höhere Empfindlichkeit und damit eine geringere Quantisierung ist erforderlich, wenn z. B. die Texturen in einem Bild ähnlich sind, wie bei Tarnbildern.
Im Vergleich zu anderen Bildsegmentierungstechniken zeichnen sich Histogramm-basierte Verfahren dadurch aus, dass sie in der Regel nur einen einzigen Durchgang durch die Pixel benötigen. Die Methode besteht darin, ein Histogramm aus den Pixeln des Bildes zu erstellen und dann die Spitzen und Täler des Histogramms zu verwenden, um die Cluster zu lokalisieren. Die Skalierung kann auf dem Farbton oder der Helligkeit basieren.
Die rekursive Anwendung der Histogramm-Suchmethode auf Bildcluster, um sie in kleinere Cluster zu unterteilen, ist eine Verfeinerung dieser Technik. Bis keine neuen Cluster mehr gebildet werden können, wird dieser Vorgang mit immer kleineren Clustern wiederholt.
Es kann schwierig sein, wirklich signifikante Höhen und Tiefen in einem Bild zu erkennen, wenn Sie die Histogramm-Suchtechnik verwenden.
Es ist einfach, Histogramm-basierte Methoden so zu erweitern, dass sie auf mehreren...