Chapitre 1 : Réduction non linéaire de la dimensionnalité
La réduction de la dimensionnalité non linéaire, également connue sous le nom d'apprentissage de variétés, est l'une des diverses techniques connexes qui visent à projeter des données de grande dimension, potentiellement existantes sur des variétés non linéaires qui ne peuvent pas être capturées de manière adéquate par des méthodes de décomposition linéaire, sur des variétés latentes de plus petite dimension, dans le but soit de visualiser les données dans l'espace de faible dimension, soit d'apprendre la cartographie (soit de l'espace de grande dimension à l'incorporation de faible dimension, soit vice versa) lui-même. Il est possible de comprendre les approches qui sont présentées ici comme des généralisations des méthodes de décomposition linéaire utilisées pour la réduction de la dimensionnalité. Parmi ces méthodes, citons l'analyse en composantes principales et les méthodes de décomposition en valeurs singulières.
En raison de la quantité importante de temps et d'espace nécessaire au traitement, les données de grande dimension peuvent être difficiles à traiter pour les robots. Il est difficile pour les humains d'interpréter ou de comprendre des données distribuées sur plus de trois dimensions, ce qui est un autre problème qu'elles posent. Dans le but de rendre les algorithmes plus efficaces et de permettre aux analystes de visualiser les tendances et les modèles, il peut être bénéfique de réduire la dimensionnalité d'une collection de données tout en maintenant les aspects de base de l'ensemble pratiquement inchangés.
Lorsqu'il s'agit de représentations de données qui ont moins de dimensions, le terme « variables intrinsèques » est fréquemment utilisé. On peut déduire de cette description que ce sont les valeurs qui ont contribué à la production des données. À titre d'illustration, prenez en considération un ensemble de données qui comprend des images de la lettre « A » qui ont été pivotées et mises à l'échelle de différentes quantités. Chaque image est composée de 3232 pixels. Un vecteur composé de valeurs de 1024 pixels peut être utilisé pour représenter chaque image individuelle. Un échantillon sur une variété bidimensionnelle dans un espace de 1024 dimensions (un espace de Hamming) est représenté par chaque ligne respectivement. En raison du fait que deux variables, à savoir la rotation et l'échelle, ont été modifiées afin de générer les données, la dimensionnalité intrinsèque est de deux. En raison du fait que l'apparence de la lettre « A » est cohérente dans toutes les instances, les informations concernant sa forme et son apparence ne sont pas incluses dans les variables intrinsèques. Au cours du processus de réduction de la dimensionnalité non linéaire, les informations corrélées seront éliminées (la lettre « A »), et seules les informations variables (rotation et échelle) seront récupérées. La figure de droite affiche plusieurs exemples d'images de cet ensemble de données (afin d'économiser de l'espace, toutes les images d'entrée ne sont pas incluses), ainsi qu'un tracé des points bidimensionnels produits à la suite de l'utilisation d'une technique d'apprentissage profond non linéaire (NLDR) (dans ce cas particulier, Manifold Sculpting) pour compresser les données en seulement deux dimensions.
Lorsque le même ensemble de données est réduit en deux dimensions à l'aide de l'analyse en composantes principales, qui est un algorithme de réduction linéaire de la dimensionnalité, les valeurs produites ne sont pas aussi bien organisées qu'elles le seraient si l'algorithme d'analyse en composantes principales était utilisé. Cela indique que les vecteurs de grande dimension qui échantillonnent cette variété fluctuent de manière non linéaire. Chacun de ces vecteurs représente la lettre « A ».
Pour cette raison, il devrait être évident que NLDR a un certain nombre d'applications dans le domaine de la vision par ordinateur. À titre d'illustration, prenons en considération un robot qui navigue dans une zone fermée et statique au moyen d'une photographie. Il est possible de considérer les images capturées par cette caméra comme des échantillons sur une variété dans un espace de grande dimension. Les variables intrinsèques de ce collecteur seront utilisées pour décrire l'emplacement et l'orientation du robot.
Dans les systèmes dynamiques, les variétés invariantes sont d'une grande importance dans le but de réduire l'ordre de la structure du modèle. Il est important de noter que dans le cas où il existe une variété invariante attrayante dans l'espace des phases, les trajectoires voisines convergeront vers elle et y resteront indéfiniment. Cela fait de la variété un candidat potentiel pour la réduction de la dimensionnalité du système dynamique. La théorie des sous-variétés spectrales (SSM) fournit des exigences pour la présence d'objets invariants uniques et attirant dans une grande variété de systèmes dynamiques. Et ce, malgré le fait que l'existence de telles variétés n'est pas garantie en général. Les recherches actuellement menées dans le domaine de la NLDR visent à développer des techniques de modélisation en démêlant les variétés d'observation qui sont liées aux systèmes dynamiques.
Pour votre commodité, vous trouverez ci-dessous une liste de certaines des approches de réduction de dimensionnalité non linéaire les plus connues.
L'une des premières approches et des plus largement utilisées pour la récupération de données non linéaires est le mappage de Sammon.
La carte auto-organisée (SOM), également connue sous le nom de carte de Kohonen, et son homologue probabiliste, la cartographie topographique générative (GTM), utilisent une représentation ponctuelle dans l'espace intégré afin de construire un modèle de variable latente fondé sur une correspondance non linéaire de l'espace intégré à l'espace de grande dimension. Le travail qui est fait sur les réseaux de densité, qui est également basé sur le même modèle probabiliste, est lié à ces méthodologies.
L'un des algorithmes les plus utilisés pour la réduction dimensionnelle est appelé analyse en composantes principales du noyau (ACP). L'ACP commence par le calcul de la matrice de covariance des données.
un.
×
un.
Un style d'affichage qui est m fois n.
La matrice
X
\displaystyle \mathbf la lettre X} }
Les données sont ensuite projetées sur les k premiers vecteurs propres de la matrice qui vient d'être créée. D'autre part, KPCA commence par calculer la matrice de covariance des données après qu'elles ont été transformées en un espace de dimension supérieure.
De la même manière que l'analyse en composantes principales (ACP), elle projette ensuite les données modifiées sur les k premiers vecteurs propres de cette matrice. Grâce à l'utilisation de l'astuce du noyau, une partie importante du calcul est éliminée, ce qui permet d'effectuer l'ensemble du processus sans avoir besoin de traitement réel.
un.
()
x
()
L'expression mathématique \displaystyle \Phi (\mathbf {x})}
.. Sans aucun doute
un.
\displaystyle la lettre Phi}
choisi de telle manière qu'il possède un noyau dont on sait déjà qu'il lui correspond. Malheureusement, il n'est pas facile d'identifier un noyau approprié pour un problème spécifique et, par conséquent, la KPCA ne donne pas de résultats satisfaisants dans certaines situations où des noyaux typiques sont utilisés. En ce qui concerne le collecteur de rouleaux suisses, par exemple, il est bien connu qu'il fonctionne mal lorsque ces amandes sont présentes. Cependant, en générant une matrice de noyau dépendante des données, on peut voir d'autres approches qui fonctionnent bien dans de tels contextes comme des cas particuliers d'analyse en composantes principales du noyau (ACP). Par exemple, Laplacian Eigenmaps et LLE sont deux exemples de telles méthodes.
Étant donné que la KPCA dispose d'un modèle interne, il est possible de l'utiliser pour mapper sur son intégration des points qui n'étaient pas accessibles pendant la phase de formation.
Les courbes principales et les variétés fournissent le cadre géométrique naturel pour la réduction de dimensionnalité non linéaire. Ils étendent également l'interprétation géométrique de l'analyse en composantes principales (ACP) en créant explicitement une variété intégrée et en codant à l'aide d'une projection géométrique ordinaire sur la variété. Cette méthode a été initialement suggérée par Trevor Hastie dans sa thèse de 1984, qu'il a officiellement présentée en 1989 après son introduction initiale. Ce concept a été approfondi par un grand nombre d'auteurs.
La « simplicité » de la variété peut être définie de diverses manières, en fonction de la complexité de la situation en question ; Néanmoins, il est généralement évalué en fonction de la dimensionnalité et/ou de la douceur intrinsèques de la variété. Il est courant de définir la variété primaire comme une solution à un problème d'optimisation. Non seulement la fonction objectif intègre une approximation de la qualité des données, mais elle incorpore également certains termes de pénalité pour la courbure de la variété. L'analyse linéaire en composantes principales (ACP) et la somme des moments de Kohonen (SOM) sont les méthodes utilisées pour construire les approximations initiales les plus courantes.
Afin d'obtenir une réduction de dimensionnalité, les cartes propres laplaciennes...