CapÃtulo 1 : Reducción de dimensionalidad
El proceso de transformación de datos de un espacio de alta dimensión a un espacio de baja dimensión se conoce como reducción de dimensionalidad o reducción de dimensión. El objetivo de esta transformación es garantizar que la representación de baja dimensión de los datos conserve algunos aspectos significativos de los datos originales, idealmente aquellos que se acercan a la medición de su dimensión intrínseca. Hay una serie de razones por las que trabajar en entornos de alta dimensión puede ser desfavorable. Los datos brutos suelen ser escasos como resultado de la maldición de la dimensionalidad, y el análisis de los datos suele ser complejo desde el punto de vista computacional. El procesamiento de señales, el reconocimiento de voz, la neuroinformática y la bioinformática son ejemplos de dominios que utilizan con frecuencia la reducción de dimensionalidad. Se trata de campos que se ocupan de un gran número de observaciones y/o de un gran número de variables.
Los métodos a menudo se clasifican como enfoques lineales o no lineales en su mayor parte. La selección y la extracción de características son dos categorías adicionales que se pueden usar para clasificar enfoques. Mediante el uso de la reducción de dimensionalidad, la reducción de ruido, la visualización de datos, el análisis de conglomerados, o incluso como un paso intermedio para ayudar a otras investigaciones, se puede utilizar la reducción de dimensionalidad.
El objetivo del proceso de selección de características es identificar un subconjunto de las variables de entrada (características o atributos) que sea adecuado para la tarea que se está realizando actualmente. El enfoque de filtro, también conocido como ganancia de información, la estrategia de envoltura, también conocida como búsqueda guiada por precisión, y la estrategia integrada son las tres tácticas. La estrategia integrada implica la adición o eliminación de características durante el proceso de creación del modelo en función de los errores de predicción.
En el espacio reducido, es posible realizar análisis de datos como la regresión o la clasificación con mayor precisión que en el espacio correspondiente en el espacio original.
Los datos se transforman de un espacio con un gran número de dimensiones a un espacio con menos dimensiones mediante el proceso de proyección de características, que también se conoce como extracción de características. Hay una variedad de enfoques de reducción de dimensionalidad no lineal disponibles, además de la posibilidad de que la transformación de datos sea lineal, como en el análisis de componentes principales (PCA). A través del aprendizaje multilineal del subespacio, la representación tensorial se puede utilizar con el propósito de reducir la dimensionalidad cuando se trata de conocimiento multidimensional.
El análisis de componentes principales, la técnica lineal primaria para la reducción de la dimensionalidad, implica realizar un mapeo lineal de los datos a un espacio de menor dimensión de tal manera que se maximice la varianza de los datos en la representación de baja dimensión. Esto se hace para reducir el número de dimensiones. En la práctica, se construye la matriz de covarianza de los datos y se calculan los vectores propios de esta matriz. Además, a veces también se construye la matriz de correlación de los datos. Ahora es posible recrear una parte significativa de la varianza de los datos iniciales haciendo uso de los componentes principales, que son los vectores propios que corresponden a los valores propios más grandes. Además, los primeros vectores propios pueden interpretarse con frecuencia en términos del comportamiento físico a gran escala del sistema. Esto se debe al hecho de que con frecuencia aportan la mayor parte de la energía del sistema, particularmente en sistemas de baja dimensión. A pesar de esto, es necesario demostrarlo caso por caso porque no todos los sistemas exhiben estas características. El espacio original, que tenía una dimensión igual al número de puntos, se ha reducido al espacio que se extiende por unos pocos vectores propios. Esta reducción ha dado lugar a la pérdida de algunos datos, pero se espera que se haya conservado la varianza más significativa. Se requiere una citación.
Una matriz no negativa se puede descomponer en el producto de dos matrices no negativas utilizando la técnica de descomposición de matriz no negativa (NMF). Esta técnica ha demostrado un gran potencial en dominios como la astronomía, que solo tratan con datos no negativos. Desde la regla de actualización multiplicativa de Lee y Seung, que se ha desarrollado continuamente: la inclusión de incertidumbres, la consideración de los datos faltantes y el cálculo paralelo, la construcción secuencial, que conduce a la estabilidad y linealidad de NMF, así como otras actualizaciones, incluido el manejo de datos faltantes en el procesamiento digital de imágenes, NMF ha ganado mucha popularidad a lo largo de los años.
El NMF secuencial es capaz de retener el flujo en la obtención de imágenes directas de estructuras circunestelares en astronomía, como uno de los métodos de identificación de exoplanetas, en particular para la obtención de imágenes directas de discos circunestelares. Esto se debe a que el NMF secuencial se construye utilizando una base de componentes estables durante la creación y utiliza un procedimiento de modelado lineal. A diferencia del análisis de componentes principales (PCA), el análisis de factores no principales (NMF) no elimina la media de las matrices, lo que da lugar a flujos físicos que no son negativos. Como resultado, el NMF es capaz de preservar más información que el PCA, como demostraron Ren et al.
Al utilizar la técnica del kernel, el análisis de componentes principales se puede utilizar de una manera que no es lineal ni lineal. El método que se desarrolló como resultado es capaz de generar mapeos no lineales que son capaces de maximizar la varianza en los datos recopilados. El método que se desarrolló como resultado se conoce como kernel PCA.
El isomapa, la incrustación localmente lineal (LLE), el LLE hessiano, los mapas propios laplacianos y los enfoques basados en el análisis del espacio tangente son algunos ejemplos de técnicas de aprendizaje múltiple que también se consideran entre las técnicas no lineales más destacadas. Con el fin de generar una representación de datos de baja dimensión, estas estrategias hacen uso de una función de costo que conserva las características locales de los datos. Además, estas técnicas se pueden interpretar como la construcción de un kernel basado en grafos para el análisis de componentes principales del kernel.
En tiempos más recientes, se han hecho sugerencias para métodos que, en lugar de establecer un núcleo fijo, intentan aprender el núcleo utilizando el procedimiento de programación semidefinida. La metodología de despliegue de varianza máxima (MVU) se cita típicamente como el ejemplo más destacado de dicho método. El objetivo principal del algoritmo de Compromiso de Valor Máximo (MVU) es mantener con precisión todas las distancias por pares entre los vecinos más cercanos (en el espacio interno del producto), al mismo tiempo que se maximizan las distancias entre los puntos que no son vecinos más cercanos.
Un método alternativo para preservar las vecindades es minimizar una función de costo que mide las diferencias entre las distancias en las áreas de entrada y salida. Este es un enfoque alternativo a la preservación del vecindario. Ejemplos importantes de este tipo de técnicas son el escalado multidimensional clásico, que es lo mismo que el análisis de componentes principales (PCA); isomap, que hace uso de las distancias geodésicas en el espacio de datos; mapas de difusión, que hacen uso de las distancias de difusión en el espacio de datos; incrustación de vecino estocástico distribuido en t (t-SNE), que minimiza la divergencia entre distribuciones en pares de puntos; y análisis de componentes curvilíneos.
El uso de autocodificadores, que son un tipo específico de red neuronal feedforward que contiene una capa oculta de cuello de botella, es un método alternativo para reducir las dimensiones de un sistema no lineal. El entrenamiento de los codificadores profundos a menudo se lleva a cabo mediante el empleo de un preentrenamiento codicioso por capas (por ejemplo, utilizando una pila de máquinas Boltzmann limitadas), que luego es seguido por una etapa de ajuste fino que se basa en la retropropagación.
El análisis discriminante lineal (LDA) es una generalización del discriminante lineal de Fisher, que es una técnica utilizada en los campos de la estadística, el reconocimiento de patrones y el aprendizaje automático. El objetivo de LDA es identificar una combinación lineal de características que distinga o diferencie entre dos o más categorías de objetos o eventos.
A través de la utilización del operador de función kernel, GDA se ocupa del análisis discriminante no lineal. Como resultado del hecho de que el enfoque GDA ofrece un mapeo de los vectores de entrada en un espacio de características de alta dimensión, la teoría subyacente es comparable a la de las máquinas de vectores de soporte (SVM). De una manera análoga a la de LDA, el objetivo de GDA es ubicar una proyección para las características en un espacio con menos dimensiones optimizando la relación entre la dispersión entre clases y la dispersión dentro de la clase.
El aprendizaje de las funciones de reducción de dimensión no lineal y las codificaciones, así como una función inversa de la codificación a la representación original, se puede lograr...