CapÃtulo 1 : Reducción de dimensionalidad no lineal
La reducción de dimensionalidad no lineal, también conocida como aprendizaje de variedades, es cualquiera de las diversas técnicas relacionadas que tienen como objetivo proyectar datos de alta dimensión, potencialmente existentes a través de variedades no lineales que no pueden ser capturadas adecuadamente por métodos de descomposición lineal, en variedades latentes de menor dimensión, con el objetivo de visualizar los datos en el espacio de baja dimensión, o aprender el mapeo (ya sea del espacio de alta dimensión a la incrustación de baja dimensión o viceversa) se. Es posible comprender los enfoques que se presentan aquí como generalizaciones de los métodos de descomposición lineal que se utilizan para la reducción de la dimensionalidad. Algunos ejemplos de estos métodos incluyen el análisis de componentes principales y los métodos de descomposición de valores singulares.
Como resultado de la gran cantidad de tiempo y espacio que se requiere para el procesamiento, los datos de alta dimensión pueden ser difíciles de manejar para los robots. Es difícil para los humanos interpretar o comprender datos que se distribuyen en más de tres dimensiones, que es otro problema que ofrece. Con el fin de hacer que los algoritmos sean más eficaces y permitir a los analistas visualizar tendencias y patrones, puede ser beneficioso reducir la dimensionalidad de una colección de datos mientras se mantienen los aspectos básicos del conjunto prácticamente sin cambios.
Cuando se hace referencia a las representaciones de datos que tienen menos dimensiones, se utiliza con frecuencia el término "variables intrínsecas". De esta descripción se puede inferir que estos son los valores que contribuyeron a la producción de los datos. A modo de ilustración, tenga en cuenta un conjunto de datos que incluye imágenes de la letra 'A' que se han girado y escalado en diferentes cantidades. Cada imagen consta de 3232 píxeles. Se puede utilizar un vector que consta de 1024 valores de píxeles para representar cada imagen individual. Una muestra en una variedad bidimensional en un espacio con 1024 dimensiones (un espacio de Hamming) se representa por cada fila respectivamente. Debido al hecho de que dos variables, a saber, rotación y escala, se alteraron para generar los datos, la dimensionalidad intrínseca es dos. Debido al hecho de que la apariencia de la letra 'A' es consistente en todas las instancias, la información sobre su forma y apariencia no se incluye en las variables intrínsecas. Durante el proceso de reducción de la dimensionalidad no lineal, se descartará la información que esté correlacionada (la letra 'A'), y solo se recuperará la información que sea variable (rotación y escala). La figura de la derecha muestra varias imágenes de ejemplo de este conjunto de datos (para ahorrar espacio, no se incluyen todas las imágenes de entrada), así como un gráfico de los puntos bidimensionales que se producen como resultado del empleo de una técnica de aprendizaje profundo no lineal (NLDR) (en este caso particular, Manifold Sculpting) para comprimir los datos a solo dos dimensiones.
Cuando el mismo conjunto de datos se reduce a dos dimensiones mediante el análisis de componentes principales, que es un algoritmo para la reducción de la dimensionalidad lineal, los valores que se producen no están tan bien organizados como lo estarían si se empleara el algoritmo de análisis de componentes principales. Esto indica que los vectores de alta dimensión que muestrean esta variedad fluctúan de manera no lineal. Cada uno de estos vectores representa una letra 'A'.
Debido a esto, debería ser obvio que NLDR tiene una serie de aplicaciones dentro del ámbito de la visión por computadora. A modo de ilustración, consideremos un robot que navega en un área cerrada y estática por medio de una fotografía. Es posible pensar en las imágenes que fueron capturadas por esa cámara como muestras en una variedad en un espacio de alta dimensión. Las variables intrínsecas de ese colector se utilizarán para describir la ubicación y orientación del robot.
En los sistemas dinámicos, las variedades invariantes son de gran importancia con el propósito de reducir el orden de la estructura del modelo. Es importante tener en cuenta que en el caso de que haya una variedad invariante atractiva en el espacio de fases, las trayectorias vecinas convergerán en ella y permanecerán en ella indefinidamente. Esto hace que la variedad sea un candidato potencial para la reducción de la dimensionalidad del sistema dinámico. La teoría de subvariedades espectrales (SSM) proporciona requisitos para la presencia de objetos invariantes de atracción únicos en una amplia variedad de sistemas dinámicos. Esto a pesar de que la existencia de tales variedades no está garantizada en general. La investigación que se está llevando a cabo actualmente en el campo de la NLDR tiene como objetivo desarrollar técnicas de modelado mediante el desentrañamiento de las variedades de observación que están conectadas con los sistemas dinámicos.
Para su comodidad, la siguiente es una lista de algunos de los enfoques de reducción de dimensionalidad no lineal más conocidos.
Uno de los primeros y más utilizados enfoques para la recuperación de datos no lineales es el mapeo de Sammon.
Tanto el mapa auto-organizado (SOM), que también se conoce como el mapa de Kohonen, como su contraparte probabilística, el mapeo topográfico generativo (GTM), hacen uso de una representación puntual en el espacio embebido para construir un modelo de variable latente que se basa en un mapeo no lineal desde el espacio incrustado hasta el espacio de alta dimensión. El trabajo que se realiza sobre redes de densidad, que también se basa en el mismo modelo probabilístico, está relacionado con estas metodologías.
Uno de los algoritmos más utilizados para la reducción dimensional se denomina análisis de componentes principales del kernel (PCA). El ACP comienza con el cálculo de la matriz de covarianza de los datos.
un.
×
un.
Un estilo de visualización que es m por n.
La Matrix
X
\displaystyle \mathbf la letra X} }
A continuación, los datos se proyectan en los primeros k vectores propios de la matriz que se acaba de crear. Por otro lado, KPCA comienza por calcular la matriz de covarianza de los datos después de que se han transformado en un espacio con una dimensión superior.
De la misma manera que el análisis de componentes principales (PCA), proyecta los datos modificados en los primeros k vectores propios de esa matriz. A través de la utilización del truco del kernel, se elimina una parte significativa del cálculo, lo que permite que todo el proceso se lleve a cabo sin la necesidad de un procesamiento real.
un.
()
x
()
La expresión matemática \displaystyle \Phi (\mathbf {x})}
.. Sin dudas
un.
\displaystyle la letra Phi}
elegido de tal manera que tenga un kernel que ya se sabe que coincide con él. Desafortunadamente, no es fácil identificar un kernel apropiado para un problema específico y, como resultado, KPCA no produce resultados satisfactorios para ciertas situaciones en las que se utilizan kernels típicos. Con respecto al colector de rodillos suizo, por ejemplo, es bien sabido que se comporta mal cuando estos granos están presentes. Sin embargo, al generar una matriz de kernel dependiente de datos, se podrían ver otros enfoques que funcionan bien en contextos como casos especiales de análisis de componentes principales (PCA) del kernel. Por ejemplo, los mapas propios laplacianos y LLE son dos ejemplos de estos métodos.
Como resultado del hecho de que KPCA posee un modelo interno, es posible usarlo para mapear puntos en su incrustación que no fueron accesibles durante la fase de capacitación.
Las curvas principales y las variedades proporcionan el marco geométrico natural para la reducción de la dimensionalidad no lineal. También amplían la interpretación geométrica del análisis de componentes principales (PCA) mediante la creación explícita de una variedad incrustada y la codificación mediante proyección geométrica ordinaria en la variedad. Este método fue sugerido inicialmente por Trevor Hastie en su tesis de 1984, que presentó formalmente en 1989 después de su introducción inicial. Este concepto ha sido investigado más a fondo por un gran número de autores.
La "simplicidad" de la variedad puede definirse de diversas maneras, dependiendo de las complejidades de la situación en cuestión; No obstante, normalmente se evalúa en función de la dimensionalidad y/o suavidad intrínseca del colector. Es una práctica común definir el colector primario como una solución a un problema de optimización. La función objetivo no solo incorpora una calidad de aproximación de datos, sino que también incorpora algunos términos de penalización para la flexión del colector. El análisis lineal de componentes principales (PCA) y la suma de momentos de Kohonen (SOM) son los métodos que se utilizan para construir las aproximaciones iniciales más comunes.
Con el fin de lograr la reducción de la dimensionalidad, los mapas propios laplacianos hacen uso de técnicas espectrales. Se supone que los datos se encuentran en una variedad de baja dimensión dentro de un espacio de alta dimensión, que es la premisa fundamental en la que se basa esta técnica. No es posible incrustar puntos fuera de la muestra con esta metodología; sin embargo, hay métodos que se basan en la regularización del espacio de Hilbert del kernel que se pueden usar para agregar esta capacidad. Este...