Capitolo 1 : Riduzione della dimensionalità non lineare
La riduzione della dimensionalità non lineare, nota anche come apprendimento delle varietà, è una delle varie tecniche correlate che mirano a proiettare dati ad alta dimensione, potenzialmente esistenti attraverso varietà non lineari che non possono essere adeguatamente catturate dai metodi di decomposizione lineare, su varietà latenti a bassa dimensione, con l'obiettivo di visualizzare i dati nello spazio a bassa dimensione o di apprendere la mappatura (dallo spazio ad alta dimensione all'incorporamento a bassa dimensione o viceversa) sé stesso. È possibile comprendere gli approcci che vengono qui presentati come generalizzazioni dei metodi di decomposizione lineare utilizzati per la riduzione della dimensionalità. Alcuni esempi di questi metodi includono l'analisi delle componenti principali e i metodi di scomposizione ai valori singolari.
A causa della notevole quantità di tempo e spazio necessari per l'elaborazione, i dati ad alta dimensione potrebbero essere difficili da gestire per i robot. È difficile per gli esseri umani interpretare o comprendere dati distribuiti su più di tre dimensioni, che è un altro problema che offre. Allo scopo di rendere gli algoritmi più efficaci e consentire agli analisti di visualizzare tendenze e modelli, ridurre la dimensionalità di una raccolta di dati mantenendo gli aspetti di base dell'insieme per lo più invariati può essere vantaggioso.
Quando ci si riferisce alle rappresentazioni di dati che hanno meno dimensioni, viene spesso utilizzato il termine "variabili intrinseche". Da questa descrizione si può dedurre che questi sono i valori che hanno contribuito alla produzione dei dati. A titolo illustrativo, prendi in considerazione un set di dati che include immagini della lettera "A" che sono state ruotate e ridimensionate di quantità diverse. Ogni immagine è composta da 3232 pixel. Per rappresentare ogni singola immagine è possibile utilizzare un vettore composto da 1024 valori di pixel. Un campione su una varietà bidimensionale in uno spazio con 1024 dimensioni (uno spazio di Hamming) è rappresentato rispettivamente da ogni riga. A causa del fatto che due variabili, vale a dire la rotazione e la scala, sono state alterate per generare i dati, la dimensionalità intrinseca è due. A causa del fatto che l'aspetto della lettera "A" è coerente in tutte le istanze, le informazioni relative alla sua forma e al suo aspetto non sono incluse nelle variabili intrinseche. Durante il processo di riduzione della dimensionalità non lineare, l'informazione correlata verrà scartata (la lettera 'A') e verranno recuperate solo le informazioni variabili (rotazione e scala). La figura a destra mostra diverse immagini di esempio da questo set di dati (per risparmiare spazio, non tutte le immagini di input sono incluse), nonché un grafico dei punti bidimensionali prodotti a seguito dell'impiego di una tecnica di apprendimento profondo non lineare (NLDR) (in questo caso particolare, Manifold Sculpting) per comprimere i dati in sole due dimensioni.
Quando lo stesso set di dati viene ridotto in due dimensioni utilizzando l'analisi delle componenti principali, che è un algoritmo per la riduzione della dimensionalità lineare, i valori prodotti non sono così ben organizzati come lo sarebbero se fosse impiegato l'algoritmo di analisi delle componenti principali. Ciò indica che i vettori ad alta dimensionalità che campionano questa varietà fluttuano in modo non lineare. Ognuno di questi vettori rappresenta una lettera 'A'.
Per questo motivo, dovrebbe essere ovvio che l'NLDR ha una serie di applicazioni nell'ambito della visione artificiale. A titolo illustrativo, prendete in considerazione un robot che naviga in un'area chiusa e statica per mezzo di una fotografia. È possibile pensare alle immagini che sono state catturate da quella fotocamera come campioni su una varietà nello spazio ad alta dimensione. Le variabili intrinseche di quella varietà saranno utilizzate per descrivere la posizione e l'orientamento del robot.
Nei sistemi dinamici, le varietà invarianti sono di importanza diffusa allo scopo di ridurre l'ordine della struttura del modello. È importante notare che nel caso in cui ci sia una varietà invariante attrattiva nello spazio delle fasi, le traiettorie vicine convergeranno su di essa e rimarranno su di essa indefinitamente. Ciò rende la varietà un potenziale candidato per la riduzione della dimensionalità del sistema dinamico. La teoria delle sottovarietà spettrali (SSM) fornisce i requisiti per la presenza di oggetti unici che attraggono invarianti in un'ampia varietà di sistemi dinamici. Questo nonostante il fatto che l'esistenza di tali varietà non sia garantita in generale. La ricerca attualmente in corso nel campo dell'NLDR mira a sviluppare tecniche di modellazione svelando le varietà di osservazione che sono connesse con i sistemi dinamici.
Per comodità, di seguito è riportato un elenco di alcuni dei più noti approcci di riduzione della dimensionalità non lineare.
Uno dei primi e più utilizzati approcci per il recupero dei dati non lineari è la mappatura di Sammon.
Sia la mappa auto-organizzante (SOM), nota anche come mappa di Kohonen, sia la sua controparte probabilistica, la mappatura topografica generativa (GTM), fanno uso di una rappresentazione di punti nello spazio incorporato al fine di costruire un modello a variabili latenti che si basa su una mappatura non lineare dallo spazio incorporato allo spazio ad alta dimensione. Il lavoro che viene fatto sulle reti di densità, che si basa anch'esso sullo stesso modello probabilistico, è legato a queste metodologie.
Uno degli algoritmi più utilizzati per la riduzione dimensionale è chiamato analisi dei componenti principali del kernel (PCA). La PCA inizia con il calcolo della matrice di covarianza dei dati.
un.
×
un.
Uno stile di visualizzazione che è m volte n.
La matrice
X
\displaystyle \mathbf la lettera X} }
I dati vengono poi proiettati sui primi k autovettori della matrice appena creata. D'altra parte, KPCA inizia calcolando la matrice di covarianza dei dati dopo che sono stati trasformati in uno spazio con una dimensione superiore.
Allo stesso modo dell'analisi delle componenti principali (PCA), proietta quindi i dati modificati sui primi k autovettori di quella matrice. Attraverso l'utilizzo del trucco del kernel, una parte significativa del calcolo viene eliminata, consentendo di eseguire l'intero processo senza la necessità di un'elaborazione effettiva.
un.
()
x
()
L'espressione matematica \displaystyle \Phi (\mathbf {x})}
.. Indubbiamente
un.
\displaystyle la lettera Phi}
scelto in modo tale da avere un kernel che è già noto per corrispondere ad esso. Sfortunatamente, non è facile identificare un kernel appropriato per un problema specifico e, di conseguenza, KPCA non produce risultati soddisfacenti per determinate situazioni in cui vengono utilizzati kernel tipici. Per quanto riguarda il collettore a rulli svizzeri, ad esempio, è noto che si comporta male quando sono presenti questi chicchi. Tuttavia, generando una matrice kernel dipendente dai dati, si potrebbero vedere altri approcci che funzionano bene in contesti come casi speciali di analisi dei componenti principali del kernel (PCA). Ad esempio, le automappe laplaciane e la LLE sono due esempi di tali metodi.
Grazie al fatto che KPCA possiede un modello interno, è possibile utilizzarlo per mappare punti sul suo incorporamento che non erano accessibili durante la fase di addestramento.
Le curve principali e le varietà forniscono il quadro geometrico naturale per la riduzione della dimensionalità non lineare. Estendono anche l'interpretazione geometrica dell'analisi delle componenti principali (PCA) creando esplicitamente una varietà incorporata e codificando utilizzando la proiezione geometrica ordinaria sulla varietà. Questo metodo è stato inizialmente suggerito da Trevor Hastie nella sua tesi del 1984, che ha presentato formalmente nel 1989 dopo la sua introduzione iniziale. Questo concetto è stato ulteriormente studiato da un gran numero di autori.
La "semplicità" del molteplice può essere definita in vari modi, a seconda della complessità della situazione in corso; Tuttavia, viene tipicamente valutato in base alla dimensionalità e/o levigatezza intrinseca della varietà. È pratica comune definire la varietà primaria come una soluzione a un problema di ottimizzazione. Non solo la funzione obiettivo incorpora una qualità di approssimazione dei dati, ma incorpora anche alcuni termini di penalità per la flessione della varietà. L'analisi lineare delle componenti principali (PCA) e la somma dei momenti di Kohonen (SOM) sono i metodi utilizzati per costruire le approssimazioni iniziali più comuni.
Al fine di ottenere la riduzione della dimensionalità, le automappe laplaciane fanno uso di tecniche spettrali. Si presume che i dati si trovino in una varietà a bassa dimensionalità all'interno di uno spazio ad alta dimensione, che è la premessa fondamentale su cui si basa questa tecnica. Con questa metodologia non è possibile incorporare punti fuori campione; tuttavia, esistono metodi basati sulla regolarizzazione dello spazio Hilbert del kernel riproducibile che possono essere utilizzati per aggiungere questa capacità. Questi tipi di metodi sono applicabili anche ad altri approcci di riduzione della dimensionalità non lineare attualmente disponibili.
I metodi convenzionali, come l'analisi delle componenti principali, non tengono conto della geometria intrinseca dei dati. Le informazioni di vicinato del set di dati...