CapÃtulo 1 : Redução da dimensionalidade
O processo de transformação de dados de um espaço de alta dimensão em um espaço de baixa dimensão é referido como redução de dimensionalidade ou redução de dimensão. O objetivo desta transformação é garantir que a representação de baixa dimensão dos dados mantenha alguns aspetos significativos dos dados originais, idealmente aqueles que estão próximos da medição de sua dimensão intrínseca. Há uma série de razões pelas quais trabalhar em ambientes de alta dimensão pode ser desfavorável. Os dados brutos são frequentemente escassos como resultado da maldição da dimensionalidade, e a análise dos dados é tipicamente computacionalmente complexa. Processamento de sinais, reconhecimento de voz, neuroinformática e bioinformática são exemplos de domínios que utilizam frequentemente a redução da dimensionalidade. Estes são campos que lidam com um grande número de observações e/ou um grande número de variáveis.
Os métodos são frequentemente classificados como abordagens lineares ou não lineares na maior parte. Seleção e extração de recursos são duas categorias adicionais que podem ser usadas para classificar abordagens. Através do uso de redução de dimensionalidade, redução de ruído, visualização de dados, análise de cluster, ou mesmo como uma etapa intermediária para auxiliar outras investigações, a redução de dimensionalidade pode ser utilizada.
É o objetivo do processo de seleção de recursos identificar um subconjunto das variáveis de entrada (recursos ou atributos) que é apropriado para a tarefa que está sendo executada no momento. A abordagem de filtro, também conhecida como ganho de informação, a estratégia de wrapper, também conhecida como pesquisa guiada por precisão, e a estratégia incorporada são as três táticas. A estratégia incorporada envolve a adição ou remoção de recursos durante o processo de criação do modelo com base nos erros de previsão.
No espaço reduzido, é possível realizar análises de dados como regressão ou classificação com maior precisão do que no espaço correspondente no espaço original.
Os dados são transformados de um espaço com um alto número de dimensões em um espaço com menos dimensões pelo processo de projeção de feição, que também é conhecido como extração de feição. Há uma variedade de abordagens de redução de dimensionalidade não linear disponíveis, além da possibilidade de que a transformação de dados seja linear, como na análise de componentes principais (ACP). Através da aprendizagem multilinear do subespaço, a representação tensora pode ser utilizada com o propósito de redução da dimensionalidade quando se lida com conhecimento multidimensional.
A análise de componentes principais, a técnica linear primária para redução de dimensionalidade, envolve a realização de um mapeamento linear dos dados para um espaço de menor dimensão de tal forma que a variância dos dados na representação de baixa dimensão seja maximizada. Isto é feito a fim de reduzir o número de dimensões. Na prática, a matriz de covariância dos dados é construída, e os autovetores nessa matriz são calculados. Além disso, a matriz de correlação dos dados às vezes também é construída. Agora é possível recriar uma parte significativa da variância dos dados iniciais fazendo uso dos componentes principais, que são os autovetores que correspondem aos maiores autovalores. Além disso, os primeiros autovetores podem ser frequentemente interpretados em termos do comportamento físico em larga escala do sistema. Isto é devido ao fato de que eles frequentemente contribuem com a grande maioria da energia do sistema, particularmente em sistemas de baixa dimensão. Apesar disso, é necessário demonstrá-lo caso a caso, porque nem todos os sistemas apresentam essas características. O espaço original, que tinha uma dimensão igual ao número de pontos, foi reduzido ao espaço que é atravessado por alguns autovetores. Esta redução resultou na perda de alguns dados, mas espera-se que a variância mais significativa tenha sido preservada. é necessária uma citação.
Uma matriz não negativa pode ser decomposta no produto de duas matrizes não negativas usando a técnica de decomposição matricial não negativa (NMF). Esta técnica tem mostrado um grande potencial em domínios como a astronomia, que apenas lidam com dados não negativos. Desde a regra de atualização multiplicativa de Lee e Seung, que tem sido continuamente desenvolvida: a inclusão de incertezas, a consideração de dados ausentes e computação paralela, construção sequencial, que leva à estabilidade e linearidade do NMF, bem como outras atualizações, incluindo o tratamento de dados ausentes no processamento digital de imagens, o NMF ganhou muita popularidade ao longo dos anos.
NMF sequencial é capaz de reter o fluxo em imagens diretas de estruturas circumestelares em astronomia, como um dos métodos de identificação de exoplanetas, particularmente para a imagem direta de discos circumestelares. Isso ocorre porque o NMF sequencial é construído usando uma base de componente estável durante a criação e usa um procedimento de modelagem linear. Ao contrário da análise de componentes principais (ACP), a análise fatorial não principal (NMF) não elimina a média das matrizes, o que resulta em fluxos físicos que não são negativos. Como resultado, o NMF é capaz de preservar mais informações do que a ACP, como Ren et al.
Ao utilizar a técnica do kernel, a análise de componentes principais pode ser utilizada de uma maneira que não seja linear nem linear. O método que foi desenvolvido como resultado é capaz de gerar mapeamentos não lineares que são capazes de maximizar a variância nos dados coletados. O método que foi desenvolvido como resultado é conhecido como kernel PCA.
Isomap, incorporação localmente linear (LLE), LLE hessiana, automapas laplacianos e abordagens baseadas na análise do espaço tangente são alguns exemplos de técnicas de aprendizagem múltipla que também são consideradas entre as técnicas não lineares mais proeminentes. Para gerar uma representação de dados de baixa dimensão, essas estratégias fazem uso de uma função de custo que preserva as características locais dos dados. Além disso, essas técnicas podem ser interpretadas como a construção de um kernel baseado em gráficos para a Análise de Componentes Principais do Kernel.
Em tempos mais recentes, tem havido sugestões feitas para métodos que, em vez de estabelecer um kernel fixo, tentam aprender o kernel usando o procedimento de programação semidefinida. A metodologia de desdobramento de variância máxima (MVU) é normalmente citada como o exemplo mais proeminente de tal método. O principal objetivo do algoritmo Maximum Value Undertaking (MVU) é manter com precisão todas as distâncias pareadas entre vizinhos mais próximos (no espaço interno do produto), maximizando simultaneamente as distâncias entre pontos que não são vizinhos mais próximos.
Um método alternativo para preservar bairros é minimizar uma função de custo que mede as diferenças entre as distâncias nas áreas de entrada e saída. Esta é uma abordagem alternativa para a preservação do bairro. Exemplos importantes de tais técnicas incluem o escalonamento multidimensional clássico, que é o mesmo que a análise de componentes principais (ACP); isomap, que faz uso de distâncias geodésicas no espaço de dados; mapas de difusão, que utilizam distâncias de difusão no espaço de dados; t-distributed stochastic neighbor embedding (t-SNE), que minimiza a divergência entre distribuições em pares de pontos; e análise curvilínea de componentes.
O uso de autocodificadores, que são um tipo específico de rede neural feedforward que contém uma camada oculta de gargalo, é um método alternativo para reduzir as dimensões de um sistema não linear. O treinamento de codificadores profundos é muitas vezes realizado empregando um pré-treinamento ganancioso em camadas (por exemplo, utilizando uma pilha de máquinas Boltzmann limitadas), que é seguido por um estágio de ajuste fino que é baseado em retropropagação.
A análise discriminante linear (LDA) é uma generalização do discriminante linear de Fisher, que é uma técnica utilizada nos campos da estatística, reconhecimento de padrões e aprendizado de máquina. O objetivo do LDA é identificar uma combinação linear de características que distinga ou diferencie entre duas ou mais categorias de objetos ou eventos.
Através da utilização do operador da função kernel, a GDA preocupa-se com a análise discriminante não linear. Como resultado do fato de que a abordagem GDA oferece um mapeamento dos vetores de entrada no espaço de feição de alta dimensão, a teoria subjacente é comparável à das máquinas de vetores de suporte (SVM). De forma análoga à LDA, o objetivo do GDA é localizar uma projeção para as características em um espaço com menos dimensões, otimizando a proporção de dispersão entre classe e dispersão dentro da classe.
A aprendizagem de funções e codificações de redução de dimensão não linear, bem como uma função inversa desde a codificação até à representação original, pode ser realizada através da utilização de autocodificadores.
A metodologia T-distributed Stochastic Neighbor Embedding (t-SNE) é um método de redução de dimensionalidade não linear que é útil para a visualização de conjuntos de dados de alta dimensão. Como resultado do fato de que nem sempre mantém densidades ou distâncias de maneira satisfatória, sua utilização em processos de análise, como agrupamento ou...