CapÃtulo 1 : Redução da dimensionalidade não linear
A redução da dimensionalidade não linear, também conhecida como aprendizagem múltipla, é qualquer uma das várias técnicas relacionadas que visam projetar dados de alta dimensão, potencialmente existentes em variedades não lineares que não podem ser adequadamente capturadas por métodos de decomposição linear, em variedades latentes de baixa dimensão, com o objetivo de visualizar os dados no espaço de baixa dimensão, ou aprender o mapeamento (seja do espaço de alta dimensão para a incorporação de baixa dimensão ou vice-versa) propriamente dito. É possível compreender as abordagens aqui apresentadas como generalizações de métodos de decomposição linear que são utilizados para a redução da dimensionalidade. Alguns exemplos desses métodos incluem análise de componentes principais e métodos de decomposição de valor singular.
Como resultado da quantidade substancial de tempo e espaço necessários para o processamento, os dados de alta dimensão podem ser difíceis de lidar para os robôs. É difícil para os seres humanos interpretar ou compreender dados que estão distribuídos em mais de três dimensões, que é outra questão que oferece. Com o objetivo de tornar os algoritmos mais eficazes e permitir que os analistas visualizem tendências e padrões, reduzir a dimensionalidade de uma coleta de dados, mantendo os aspetos básicos do conjunto praticamente inalterados, pode ser benéfico.
Quando se refere às representações de dados que têm menos dimensões, o termo "variáveis intrínsecas" é frequentemente usado. Pode-se inferir desta descrição que estes são os valores que contribuíram para a produção dos dados. Como ilustração, leve em consideração um conjunto de dados que inclui imagens da letra 'A' que foram giradas e dimensionadas por diferentes quantidades. Cada imagem consiste em 3232 pixels. Um vetor que consiste em valores de 1024 pixels pode ser usado para representar cada imagem individual. Uma amostra em uma variedade bidimensional em um espaço com 1024 dimensões (um espaço de Hamming) é representada por cada linha, respectivamente. Devido ao fato de que duas variáveis, ou seja, rotação e escala, foram alteradas para gerar os dados, a dimensionalidade intrínseca é duas. Devido ao fato de que a aparência da letra 'A' é consistente em todas as instâncias, as informações sobre sua forma e aparência não são incluídas nas variáveis intrínsecas. Durante o processo de redução da dimensionalidade não linear, as informações correlacionadas serão descartadas (a letra 'A'), e apenas as informações variáveis (rotação e escala) serão recuperadas. A figura à direita exibe várias imagens de exemplo deste conjunto de dados (para conservar espaço, nem todas as imagens de entrada estão incluídas), bem como um gráfico dos pontos bidimensionais que são produzidos como resultado do emprego de uma técnica de aprendizagem profunda não linear (NLDR) (neste caso particular, Manifold Sculpting) para comprimir os dados para apenas duas dimensões.
Quando o mesmo conjunto de dados é reduzido em duas dimensões usando a análise de componentes principais, que é um algoritmo para redução de dimensionalidade linear, os valores que são produzidos não são tão bem organizados como seriam se o algoritmo de análise de componentes principais fosse empregado. Isso indica que os vetores de alta dimensão que amostram essa variedade flutuam de maneira não linear. Cada um destes vetores representa uma letra 'A'.
Por causa disso, deve ser óbvio que o NLDR tem uma série de aplicações dentro do domínio da visão computacional. Como ilustração, leve em consideração um robô que navega em uma área fechada e estática por meio de uma fotografia. É possível pensar nas imagens que foram capturadas por essa câmera como amostras em um múltiplo no espaço de alta dimensão. As variáveis intrínsecas desse coletor serão usadas para descrever a localização e orientação do robô.
Em sistemas dinâmicos, as variedades invariantes são de grande importância com o objetivo de reduzir a ordem da estrutura do modelo. É importante notar que, no caso de haver uma variedade invariante atraente no espaço de fase, as trajetórias vizinhas convergirão para ele e permanecerão nele indefinidamente. Isso torna o múltiplo um candidato potencial para a redução da dimensionalidade do sistema dinâmico. A teoria das subvariedades espectrais (SSM) fornece requisitos para a presença de objetos invariantes únicos em uma ampla variedade de sistemas dinâmicos. Isto apesar de a existência de tais variedades não estar garantida em geral. A pesquisa que está sendo conduzida atualmente no campo da NLDR visa desenvolver técnicas de modelagem desvendando as variedades de observação que estão conectadas com sistemas dinâmicos.
Para sua conveniência, segue-se uma lista de algumas das abordagens de redução de dimensionalidade não linear mais conhecidas.
Uma das primeiras e mais amplamente utilizadas abordagens para recuperação de dados não lineares é o mapeamento de Sammon.
Tanto o mapa auto-organizador (SOM), que também é conhecido como o mapa de Kohonen, como a sua contraparte probabilística, o mapeamento topográfico generativo (GTM), fazem uso de uma representação pontual no espaço incorporado para construir um modelo de variável latente que se baseia num mapeamento não linear do espaço incorporado para o espaço de alta dimensão. O trabalho que é feito em redes de densidade, que também se baseia em torno do mesmo modelo probabilístico, está relacionado com estas metodologias.
Um dos algoritmos mais utilizados para redução dimensional é chamado de análise de componentes principais do kernel (PCA). A ACP começa com o cálculo da matriz de covariância dos dados.
um.
×
um.
Um estilo de exibição que é m vezes n.
a matriz
X
\displaystyle \mathbf a letra X} }
Os dados são então projetados nos primeiros k autovetores da matriz que acabou de ser criada. Por outro lado, a KPCA começa por calcular a matriz de covariância dos dados depois de estes terem sido transformados num espaço com uma dimensão superior.
Da mesma forma que a análise de componentes principais (PCA), ela então projeta os dados modificados nos primeiros k autovetores dessa matriz. Através da utilização do truque do kernel, uma parte significativa da computação é eliminada, permitindo que todo o processo seja realizado sem a necessidade de processamento real.
um.
()
x
()
A expressão matemática \displaystyle \Phi (\mathbf {x})}
.. Sem dúvida
um.
\displaystyle a letra Phi}
escolhido de tal forma que tenha um kernel que já é conhecido por corresponder a ele. Infelizmente, não é fácil identificar um kernel apropriado para um problema específico e, como resultado, o KPCA não produz resultados satisfatórios para certas situações quando kernels típicos são usados. Em relação ao coletor de rolo suíço, por exemplo, é sabido que ele tem um desempenho ruim quando esses grãos estão presentes. No entanto, ao gerar uma matriz de kernel dependente de dados, pode-se ver algumas outras abordagens que funcionam bem em contextos como casos especiais de análise de componentes principais (PCA) do kernel. Por exemplo, Laplacian Eigenmaps e LLE são dois exemplos de tais métodos.
Como resultado do fato de que a KPCA possui um modelo interno, é possível usá-lo para mapear pontos em sua incorporação que não estavam acessíveis durante a fase de treinamento.
As curvas principais e os coletores fornecem a estrutura geométrica natural para a redução da dimensionalidade não linear. Eles também estendem a interpretação geométrica da análise de componentes principais (PCA) criando explicitamente um manifold embutido e codificando usando projeção geométrica comum no manifold. Este método foi inicialmente sugerido por Trevor Hastie na sua tese de 1984, que apresentou formalmente em 1989 após a sua introdução inicial. Este conceito tem sido mais investigado por um grande número de autores.
A "simplicidade" da variedade pode ser definida de várias maneiras, dependendo das complexidades da situação em questão; no entanto, é tipicamente avaliada com base na dimensionalidade e/ou suavidade intrínseca da variedade. É prática comum definir a variedade primária como uma solução para um problema de otimização. Não só a função objetiva incorpora uma qualidade de aproximação de dados, mas também incorpora alguns termos de penalidade para a flexão do múltiplo. A análise linear de componentes principais (ACP) e a soma de momentos de Kohonen (SOM) são os métodos usados para construir as aproximações iniciais mais comuns.
Para realizar a redução da dimensionalidade, os automapas laplacianos fazem uso de técnicas espectrais. Supõe-se que os dados estejam localizados em uma variedade de baixa dimensão dentro de um espaço de alta dimensão, que é a premissa fundamental na qual esta técnica se baseia. Não é possível incorporar pontos fora da amostra com esta metodologia; no entanto, existem métodos baseados na regularização do espaço Reproduzindo kernel Hilbert que podem ser usados para adicionar essa capacidade. Esses tipos de métodos também são aplicáveis a outras abordagens de redução de dimensionalidade não linear que estão disponíveis atualmente.
Os métodos convencionais, como a análise de componentes principais, não têm em conta a geometria inerente aos dados. As informações de vizinhança do conjunto de dados são...