Kapitel 1 : Reduzierung der Dimensionalität
Der Prozess der Umwandlung von Daten aus einem hochdimensionalen Raum in einen niedrigdimensionalen Raum wird als Dimensionalitätsreduktion oder Dimensionsreduktion bezeichnet. Das Ziel dieser Transformation besteht darin, sicherzustellen, dass die niedrigdimensionale Darstellung der Daten einige wichtige Aspekte der ursprünglichen Daten beibehält, idealerweise diejenigen, die der Messung ihrer intrinsischen Dimension nahe kommen. Es gibt eine Reihe von Gründen, warum die Arbeit in hochdimensionalen Umgebungen ungünstig sein kann. Rohdaten sind aufgrund des Fluchs der Dimensionalität häufig knapp, und die Analyse der Daten ist in der Regel rechenintensiv. Signalverarbeitung, Spracherkennung, Neuroinformatik und Bioinformatik sind Beispiele für Bereiche, in denen häufig Dimensionalitätsreduktion eingesetzt wird. Dies sind Felder, die mit einer großen Anzahl von Beobachtungen und/oder einer großen Anzahl von Variablen zu tun haben.
Methoden werden häufig meist als lineare oder nichtlineare Ansätze klassifiziert. Merkmalsauswahl und Merkmalsextraktion sind zwei weitere Kategorien, die zur Klassifizierung von Ansätzen verwendet werden können. Durch den Einsatz von Dimensionalitätsreduktion, Rauschreduktion, Datenvisualisierung, Clusteranalyse oder sogar als Zwischenschritt zur Unterstützung anderer Untersuchungen kann die Dimensionalitätsreduktion genutzt werden.
Ziel des Prozesses der Merkmalsauswahl ist es, eine Teilmenge der Eingabevariablen (Features oder Attribute) zu identifizieren, die für die aktuell ausgeführte Aufgabe geeignet ist. Der Filteransatz, auch bekannt als Informationsgewinn, die Wrapper-Strategie, auch bekannt als accuracy-guided search, und die eingebettete Strategie sind die drei Taktiken. Die eingebettete Strategie umfasst das Hinzufügen oder Entfernen von Features während des Prozesses der Erstellung des Modells auf der Grundlage der Vorhersagefehler.
In dem reduzierten Raum ist es möglich, Datenanalysen wie Regression oder Klassifizierung mit größerer Präzision durchzuführen als im entsprechenden Raum im ursprünglichen Raum.
Die Daten werden durch den Prozess der Merkmalsprojektion, der auch als Merkmalsextraktion bezeichnet wird, von einem Raum mit einer hohen Anzahl von Dimensionen in einen Raum mit weniger Dimensionen transformiert. Es gibt eine Vielzahl von nichtlinearen Ansätzen zur Dimensionalitätsreduktion, zusätzlich zu der Möglichkeit, dass die Datentransformation linear ist, wie bei der Hauptkomponentenanalyse (PCA). Durch multilineares Subraumlernen kann die Tensorrepräsentation zum Zwecke der Dimensionalitätsreduktion im Umgang mit mehrdimensionalem Wissen genutzt werden.
Bei der Hauptkomponentenanalyse, der primären linearen Technik zur Dimensionalitätsreduktion, wird eine lineare Abbildung der Daten auf einen niedrigdimensionalen Raum durchgeführt, so dass die Varianz der Daten in der niedrigdimensionalen Darstellung maximiert wird. Dies geschieht, um die Anzahl der Dimensionen zu reduzieren. In der Praxis wird die Kovarianzmatrix der Daten erstellt und die Eigenvektoren auf dieser Matrix berechnet. Darüber hinaus wird manchmal auch die Korrelationsmatrix der Daten konstruiert. Es ist nun möglich, einen signifikanten Teil der Varianz der Ausgangsdaten nachzubilden, indem die Hauptkomponenten verwendet werden, d. h. die Eigenvektoren, die den größten Eigenwerten entsprechen. Darüber hinaus können die ersten Eigenvektoren häufig im Hinblick auf das großräumige physikalische Verhalten des Systems interpretiert werden. Dies liegt daran, dass sie häufig den größten Teil der Energie des Systems beisteuern, insbesondere in niedrigdimensionalen Systemen. Trotzdem ist es notwendig, dies von Fall zu Fall nachzuweisen, da nicht alle Systeme diese Eigenschaften aufweisen. Der ursprüngliche Raum, der eine Dimension hatte, die der Anzahl der Punkte entsprach, wurde auf den Raum reduziert, der von einigen Eigenvektoren überspannt wird. Diese Verringerung hat zum Verlust einiger Daten geführt, aber es ist zu hoffen, dass die größte Varianz erhalten geblieben ist. Ein Zitat ist erforderlich.
Eine nicht-negative Matrix kann mit der NMF-Technik (Non-Negative Matrix Decomposition) in das Produkt zweier nicht-negativer Matrizen zerlegt werden. Diese Technik hat großes Potenzial in Bereichen wie der Astronomie gezeigt, die sich nur mit nicht-negativen Daten befassen. Seit der multiplikativen Aktualisierungsregel von Lee und Seung, die kontinuierlich weiterentwickelt wurde: die Einbeziehung von Unsicherheiten, die Berücksichtigung fehlender Daten und die parallele Berechnung, die sequentielle Konstruktion, die zur Stabilität und Linearität von NMF führt, sowie andere Aktualisierungen einschließlich des Umgangs mit fehlenden Daten in der digitalen Bildverarbeitung, hat NMF im Laufe der Jahre stark an Popularität gewonnen.
Die sequentielle NMF ist in der Lage, den Fluss bei der direkten Abbildung von zirkumstellaren Strukturen in der Astronomie beizubehalten, da sie eine der Methoden zur Identifizierung von Exoplaneten ist, insbesondere für die direkte Abbildung von zirkumstellaren Scheiben. Dies liegt daran, dass die sequentielle NMF bei der Erstellung auf einer stabilen Komponentenbasis konstruiert wird und ein lineares Modellierungsverfahren verwendet. Im Gegensatz zur Hauptkomponentenanalyse (PCA) eliminiert die Nicht-Hauptfaktorenanalyse (NMF) den Mittelwert der Matrizen nicht, was zu physikalischen Flüssen führt, die nicht negativ sind. Infolgedessen ist NMF in der Lage, mehr Informationen zu bewahren als PCA, wie Ren et al. bewiesen haben.
Durch die Verwendung der Kernel-Technik kann die Hauptkomponentenanalyse auf eine Weise verwendet werden, die weder linear noch linear ist. Die daraufhin entwickelte Methode ist in der Lage, nichtlineare Mappings zu generieren, die in der Lage sind, die Varianz in den gesammelten Daten zu maximieren. Die Methode, die daraufhin entwickelt wurde, ist als Kernel-PCA bekannt.
Isomap, Local Linear Embedding (LLE), Hessian LLE, Laplace-Eigenkarten und Ansätze, die auf Tangentenraumanalyse basieren, sind einige Beispiele für mannigfaltige Lerntechniken, die auch zu den bekanntesten nichtlinearen Techniken zählen. Um eine niedrigdimensionale Datendarstellung zu generieren, verwenden diese Strategien eine Kostenfunktion, die die lokalen Merkmale der Daten beibehält. Darüber hinaus können diese Techniken so interpretiert werden, dass ein graphenbasierter Kernel für die Kernel Principal Component Analysis erstellt wird.
In jüngerer Zeit wurden Vorschläge für Methoden gemacht, die nicht einen festen Kernel etablieren, sondern versuchen, den Kernel mit dem Verfahren der semidefinitiven Programmierung zu lernen. Die MVU-Methode (Maximum Variance Unfolding) wird in der Regel als prominentestes Beispiel für eine solche Methode genannt. Das Hauptziel des Maximum Value Undertaking (MVU)-Algorithmus besteht darin, alle paarweisen Abstände zwischen den nächsten Nachbarn (im inneren Produktraum) präzise beizubehalten und gleichzeitig die Abstände zwischen Punkten zu maximieren, die keine nächsten Nachbarn sind.
Eine alternative Methode zum Beibehalten von Nachbarschaften besteht darin, eine Kostenfunktion zu minimieren, die die Differenzen zwischen den Entfernungen in den Eingabe- und Ausgabebereichen misst. Dies ist ein alternativer Ansatz zur Erhaltung der Nachbarschaft. Wichtige Beispiele für solche Techniken sind die klassische mehrdimensionale Skalierung, die mit der Hauptkomponentenanalyse (PCA) identisch ist; ISOMAP, die geodätische Entfernungen im Datenraum nutzt; Diffusionskarten, die sich Diffusionsabstände im Datenraum zunutze machen; t-verteilte stochastische Nachbareinbettung (t-SNE), die die Divergenz zwischen Verteilungen über Punktpaare minimiert; und krummlinige Komponentenanalyse.
Die Verwendung von Autoencodern, bei denen es sich um eine bestimmte Art von neuronalen Feedforward-Netzen handelt, die eine versteckte Engpassschicht enthalten, ist eine alternative Methode zur Reduzierung der Dimensionen eines nichtlinearen Systems. Das Training von Deep-Encodern erfolgt häufig durch ein gieriges schichtweises Vortraining (z. B. durch Verwendung eines Stacks begrenzter Boltzmann-Maschinen), auf das dann eine Feinabstimmungsstufe folgt, die auf Backpropagation basiert.
Die lineare Diskriminanzanalyse (LDA) ist eine Verallgemeinerung der linearen Diskriminanzanalyse nach Fisher, einer Technik, die in den Bereichen Statistik, Mustererkennung und maschinelles Lernen eingesetzt wird. Das Ziel von LDA ist es, eine lineare Kombination von Merkmalen zu identifizieren, die zwei oder mehr Kategorien von Objekten oder Ereignissen unterscheidet oder unterscheidet.
Durch die Verwendung des Kernel-Funktionsoperators befasst sich GDA mit der nichtlinearen Diskriminanzanalyse. Aufgrund der Tatsache, dass der GDA-Ansatz eine Abbildung der Eingabevektoren in den hochdimensionalen Merkmalsraum bietet, ist die zugrundeliegende Theorie vergleichbar mit der von Support-Vector Machines (SVM). Analog zu LDA besteht das Ziel von GDA darin, eine Projektion für die Merkmale in einen Raum mit weniger Dimensionen zu platzieren, indem das Verhältnis von Streuung zwischen Klassen zu Streuung innerhalb der Klasse optimiert wird.
Das Erlernen von nichtlinearen Dimensionsreduktionsfunktionen und Codierungen sowie einer inversen Funktion von der Codierung zur ursprünglichen Darstellung kann durch den Einsatz von Autoencodern erreicht werden.
Die t-distributed Stochastic Neighbor Embedding (t-SNE)-Methode ist eine nichtlineare Methode zur Dimensionalitätsreduktion, die für die Visualisierung hochdimensionaler Datensätze hilfreich ist. Aufgrund der Tatsache, dass es Dichten oder Entfernungen nicht immer...