Capitolo 1 : Riduzione della dimensionalità
Il processo di trasformazione dei dati da uno spazio ad alta dimensione in uno spazio a bassa dimensione è indicato come riduzione della dimensionalità o riduzione delle dimensioni. L'obiettivo di questa trasformazione è garantire che la rappresentazione a bassa dimensionalità dei dati mantenga alcuni aspetti significativi dei dati originali, idealmente quelli che sono vicini alla misurazione della loro dimensione intrinseca. Ci sono una serie di motivi per cui lavorare in ambienti ad alta dimensione potrebbe essere sfavorevole. I dati grezzi sono spesso scarsi a causa della maledizione della dimensionalità e l'analisi dei dati è in genere complessa dal punto di vista computazionale. L'elaborazione dei segnali, il riconoscimento vocale, la neuroinformatica e la bioinformatica sono esempi di domini che utilizzano frequentemente la riduzione della dimensionalità. Si tratta di campi che hanno a che fare con un numero enorme di osservazioni e/o un gran numero di variabili.
I metodi sono spesso classificati come approcci lineari o non lineari per la maggior parte. La selezione e l'estrazione delle funzionalità sono due categorie aggiuntive che possono essere utilizzate per classificare gli approcci. Attraverso l'uso della riduzione della dimensionalità, della riduzione del rumore, della visualizzazione dei dati, dell'analisi dei cluster o anche come passaggio intermedio per assistere altre indagini, è possibile utilizzare la riduzione della dimensionalità.
L'obiettivo del processo di selezione delle caratteristiche è identificare un sottoinsieme delle variabili di input (caratteristiche o attributi) appropriato per l'attività attualmente in corso. Le tre tattiche sono l'approccio del filtro, noto anche come guadagno di informazioni, la strategia wrapper, nota anche come ricerca guidata dall'accuratezza, e la strategia incorporata. La strategia incorporata prevede l'aggiunta o la rimozione di funzionalità durante il processo di creazione del modello in base agli errori di previsione.
Nello spazio ridotto, è possibile eseguire analisi dei dati come la regressione o la classificazione con maggiore precisione rispetto allo spazio corrispondente nello spazio originale.
I dati vengono trasformati da uno spazio con un numero elevato di dimensioni in uno spazio con dimensioni inferiori mediante il processo di proiezione delle funzionalità, noto anche come estrazione delle funzionalità. Sono disponibili una varietà di approcci di riduzione della dimensionalità non lineare, oltre alla possibilità che la trasformazione dei dati sia lineare, come nell'analisi delle componenti principali (PCA). Attraverso l'apprendimento multilineare del sottospazio, la rappresentazione tensoriale può essere utilizzata ai fini della riduzione della dimensionalità quando si ha a che fare con la conoscenza multidimensionale.
L'analisi delle componenti principali, la principale tecnica lineare per la riduzione della dimensionalità, comporta l'esecuzione di una mappatura lineare dei dati in uno spazio dimensionale inferiore in modo tale che la varianza dei dati nella rappresentazione a bassa dimensionalità sia massimizzata. Questo viene fatto per ridurre il numero di dimensioni. In pratica, viene costruita la matrice di covarianza dei dati e vengono calcolati gli autovettori su questa matrice. Inoltre, a volte viene costruita anche la matrice di correlazione dei dati. È ora possibile ricreare una parte significativa della varianza dei dati iniziali utilizzando i componenti principali, che sono gli autovettori che corrispondono agli autovalori più grandi. Inoltre, i primi autovettori possono essere spesso interpretati in termini di comportamento fisico su larga scala del sistema. Ciò è dovuto al fatto che spesso contribuiscono alla maggior parte dell'energia del sistema, in particolare nei sistemi a bassa dimensionalità. Nonostante ciò, è necessario dimostrarlo caso per caso perché non tutti i sistemi presentano queste caratteristiche. Lo spazio originario, che aveva una dimensione pari al numero di punti, è stato ridotto allo spazio che è attraversato da pochi autovettori. Questa riduzione ha comportato la perdita di alcuni dati, ma si spera che la varianza più significativa sia stata preservata. È richiesta una citazione.
Una matrice non negativa può essere scomposta nel prodotto di due matrici non negative utilizzando la tecnica di decomposizione della matrice non negativa (NMF). Questa tecnica ha mostrato un grande potenziale in domini come l'astronomia, che si occupano solo di dati non negativi. Dalla regola di aggiornamento moltiplicativo di Lee e Seung, che è stata continuamente sviluppata: l'inclusione delle incertezze, la considerazione dei dati mancanti e il calcolo parallelo, la costruzione sequenziale, che porta alla stabilità e alla linearità dell'NMF, così come altri aggiornamenti tra cui la gestione dei dati mancanti nell'elaborazione delle immagini digitali, l'NMF ha guadagnato molta popolarità nel corso degli anni.
L'NMF sequenziale è in grado di mantenere il flusso nell'imaging diretto di strutture circumstellari in astronomia, come uno dei metodi per identificare gli esopianeti, in particolare per l'imaging diretto di dischi circumstellari. Questo perché l'NMF sequenziale viene costruito utilizzando una base di componenti stabile durante la creazione e utilizza una procedura di modellazione lineare. A differenza dell'analisi delle componenti principali (PCA), l'analisi fattoriale non principale (NMF) non elimina la media delle matrici, il che si traduce in flussi fisici che non sono negativi. Di conseguenza, l'NMF è in grado di conservare più informazioni rispetto alla PCA, come hanno dimostrato Ren et al.
Utilizzando la tecnica del kernel, l'analisi dei componenti principali può essere utilizzata in modo né lineare né lineare. Il metodo che è stato sviluppato di conseguenza è in grado di generare mappature non lineari in grado di massimizzare la varianza nei dati raccolti. Il metodo che è stato sviluppato di conseguenza è noto come kernel PCA.
L'isomap, l'incorporamento localmente lineare (LLE), l'Hessian LLE, gli automap laplaciani e gli approcci basati sull'analisi dello spazio tangente sono alcuni esempi di tecniche di apprendimento multiforme che sono anche considerate tra le più importanti tecniche non lineari. Al fine di generare una rappresentazione dei dati a bassa dimensionalità, queste strategie utilizzano una funzione di costo che preserva le caratteristiche locali dei dati. Inoltre, queste tecniche possono essere interpretate come la costruzione di un kernel basato su grafici per l'analisi dei componenti principali del kernel.
In tempi più recenti, sono stati suggeriti metodi che, piuttosto che stabilire un kernel fisso, tentano di apprendere il kernel utilizzando la procedura della programmazione semidefinita. La metodologia di sviluppo della varianza massima (MVU) è tipicamente citata come l'esempio più importante di tale metodo. L'obiettivo principale dell'algoritmo MVU (Maximum Value Undertaking) è quello di mantenere con precisione tutte le distanze a coppie tra i vicini più prossimi (nello spazio del prodotto interno), massimizzando contemporaneamente le distanze tra i punti che non sono vicini più prossimi.
Un metodo alternativo per preservare i quartieri consiste nel ridurre al minimo una funzione di costo che misura le differenze tra le distanze nelle aree di input e output. Questo è un approccio alternativo alla conservazione del quartiere. Esempi importanti di tali tecniche includono la classica scala multidimensionale, che è la stessa dell'analisi delle componenti principali (PCA); isomap, che utilizza le distanze geodetiche nello spazio dei dati; mappe di diffusione, che sfruttano le distanze di diffusione nello spazio dei dati; t-distributed stochastic neighbor embedding (t-SNE), che minimizza la divergenza tra le distribuzioni su coppie di punti; e analisi delle componenti curvilinee.
L'uso di autoencoder, che sono un tipo specifico di rete neurale feedforward che contiene uno strato nascosto a collo di bottiglia, è un metodo alternativo per ridurre le dimensioni di un sistema non lineare. L'addestramento degli encoder profondi viene spesso effettuato impiegando un avido pre-addestramento a strati (ad esempio, utilizzando una pila di macchine Boltzmann limitate), che è poi seguito da una fase di messa a punto basata sulla retropropagazione.
L'analisi discriminante lineare (LDA) è una generalizzazione del discriminante lineare di Fisher, che è una tecnica utilizzata nei campi della statistica, del riconoscimento di modelli e dell'apprendimento automatico. L'obiettivo dell'LDA è quello di identificare una combinazione lineare di caratteristiche che distingua o differenzi tra due o più categorie di oggetti o eventi.
Attraverso l'utilizzo dell'operatore di funzione kernel, GDA si occupa dell'analisi discriminante non lineare. Come risultato del fatto che l'approccio GDA offre una mappatura dei vettori di input nello spazio delle caratteristiche ad alta dimensionalità, la teoria sottostante è paragonabile a quella delle macchine a vettori di supporto (SVM). In modo analogo a quello dell'LDA, l'obiettivo della GDA è quello di localizzare una proiezione per le caratteristiche in uno spazio con dimensioni inferiori ottimizzando il rapporto tra la dispersione tra le classi e la dispersione all'interno della classe.
L'apprendimento delle funzioni e delle codifiche di riduzione delle dimensioni non lineari, nonché di una funzione inversa dalla codifica alla rappresentazione originale, può essere realizzato attraverso l'utilizzo di autoencoder.
La metodologia t-SNE (T-distributed Stochastic Neighbor Embedding) è un metodo di riduzione della...