CapÃtulo 1 : Aprendizagem profunda
Deep learning, também conhecido como deep structured learning, é um subconjunto de uma família maior de abordagens de aprendizado de máquina que são baseadas em redes neurais artificiais e aprendizagem de representação. A aprendizagem profunda também é conhecida como aprendizagem estruturada profunda. É possível aprender em um ambiente supervisionado, semisupervisionado ou não supervisionado.
Arquiteturas de aprendizagem profunda, como redes neurais profundas, redes de crenças profundas, aprendizagem por reforço profundo, redes neurais recorrentes e redes neurais convolucionais têm sido aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência climática, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis a e, em alguns casos, excedendo os produzidos por seres humanos.
O emprego de inúmeras camadas na rede é o que se entende pelo termo "profundo" quando se refere ao deep learning. Pesquisas anteriores mostraram que um perceptron linear não pode funcionar como um classificador universal; no entanto, uma rede com uma função de ativação não polinomial e uma camada oculta que tem uma largura ilimitada pode. A aprendizagem profunda é um desenvolvimento relativamente recente que se preocupa com um número infinito de camadas que são limitadas em tamanho. Isto permite uma aplicação prática e uma implementação eficiente, mantendo ao mesmo tempo a universalidade teórica em circunstâncias moderadas. A aprendizagem profunda permite que as camadas sejam heterogêneas e divirjam significativamente dos modelos conexionistas fisiologicamente informados. Isso é feito com o objetivo de melhorar a eficiência, a treinabilidade e a compreensibilidade, que é de onde vem a parte "estruturada" do termo.
Deep learning é uma classe de algoritmos de aprendizado de máquina que: 199-200 usa várias camadas para extrair progressivamente recursos de nível mais alto da entrada bruta.
Por exemplo, no campo do processamento de imagens, as arestas podem ser identificadas em níveis mais baixos, enquanto as camadas mais altas podem reconhecer coisas relevantes para o ser humano, como números, caracteres ou rostos, como são, por exemplo,.
Os modelos de aprendizagem profunda também podem incluir fórmulas proposicionais ou variáveis latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas. A grande maioria dos modelos contemporâneos de aprendizagem profunda são baseados em redes neurais artificiais, mais especificamente redes neurais convolucionais (CNNs). Após esse ponto, adicionar mais camadas à rede não melhora sua capacidade de aproximar funções. Como os modelos profundos (CAP > 2) são capazes de extrair recursos melhores do que os modelos superficiais, a adição de mais camadas auxilia no aprendizado eficiente dos recursos.
A estratégia gananciosa camada por camada pode ser usada para desenvolver arquiteturas de aprendizagem profunda.
Os métodos de aprendizagem profunda eliminam a necessidade de engenharia de recursos quando aplicados a tarefas de aprendizagem supervisionada. Eles fazem isso traduzindo os dados em representações intermediárias compactas, que são análogas aos componentes principais. Esses métodos também derivam estruturas em camadas que removem a redundância na representação.
Problemas de aprendizagem não supervisionados são uma boa opção para o uso de técnicas de aprendizagem profunda. Esta é uma vantagem significativa devido à maior disponibilidade de dados não rotulados em comparação com dados rotulados. As redes de crenças profundas são um exemplo de um tipo de estrutura profunda que é capaz de ser ensinada de forma não supervisionada.
Se a largura de uma rede neural profunda com ativação ReLU é estritamente maior do que a dimensão de entrada, então a rede pode se aproximar de qualquer função integrável de Lebesgue; Se a largura de uma rede neural profunda é menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal. As redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal.
A interpretação probabilística
De acordo com alguns relatos diferentes, Frank Rosenblatt foi quem primeiro inventou e investigou cada um dos componentes fundamentais que são usados nos sistemas de aprendizagem profunda de hoje. No livro de sua autoria intitulado "Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms", que foi lançado pelo Cornell Aeronautical Laboratory, Inc., Cornell University em 1962, ele forneceu uma explicação desse fenômeno.
Em 1967, Alexey Ivakhnenko e Lapa apresentaram o primeiro método de aprendizagem genérico e funcional para perceptrons supervisionados, profundos, feedforward e multicamadas. Este algoritmo foi desenvolvido por Alexey Ivakhnenko. através da utilização de ligações para a frente e para trás, a fim de facilitar a incorporação flexível do contexto nas escolhas e a resolução iterativa de questões locais.
Devido ao alto custo computacional das redes neurais artificiais (RNA) e à falta de compreensão de como o cérebro conecta suas redes biológicas, modelos mais simples que usam recursos artesanais específicos de tarefas, como filtros Gabor e máquinas vetoriais de suporte (SVMs) foram uma escolha popular nas décadas de 1990 e 2000.
As RNA têm sido investigadas há um grande número de anos usando aprendizagem superficial e profunda (por exemplo, redes recorrentes). Outros desafios foram a escassez de dados de treinamento relevantes e a escassez de recursos computacionais.
A maioria das pesquisas sobre reconhecimento de voz mudou das redes neurais para a modelagem generativa. Uma exceção notável ocorreu durante o final da década de 1990 na SRI International. Redes neurais profundas foram investigadas pelo SRI por seu potencial uso na deteção de voz e alto-falante. Esta investigação foi possível graças ao financiamento da NSA e da DARPA. Durante a avaliação de reconhecimento de oradores que teve lugar em 1998 no National Institute of Standards and Technology (NIST), a equipa que trabalhou no reconhecimento de oradores liderada por Larry Heck alegou um progresso substancial na utilização de redes neuronais profundas no processamento de áudio. A aprendizagem para redes de crenças profundas foi o tema discutido nas publicações.
A aprendizagem profunda é um componente essencial dos sistemas mais avançados em uma variedade de campos, incluindo visão computacional e reconhecimento de voz automatizado em particular (ASR). Os resultados têm aumentado gradualmente em uma variedade de tarefas de reconhecimento de voz de vocabulário amplo, bem como conjuntos de avaliação que são utilizados rotineiramente, como TIMIT (reconhecimento de fala automatizado) e MNIST (classificação de imagem). No entanto, eles se saem melhor em termos de visão computacional.
De acordo com Yann LeCun, os primeiros sinais da influência que o deep learning teria nos negócios começaram a surgir no início dos anos 2000. Naquela época, as CNNs já processavam cerca de 10% a 20% de todos os cheques assinados nos Estados Unidos. Por volta do ano de 2010, as empresas começaram a aplicar técnicas de aprendizagem profunda em projetos de reconhecimento de voz em grande escala.
As limitações dos modelos generativos profundos de fala, bem como a possibilidade de que as redes neurais profundas (DNN), dotadas de hardware mais capaz e conjuntos de dados em larga escala, pudessem tornar-se práticas, serviram de impulso para o NIPS Workshop on Deep Learning for Speech Recognition de 2009. Este workshop foi organizado pelo National Institute for Pattern Recognition (NIPS). Pensou-se que os desafios mais significativos associados às redes neurais poderiam ser contornados por DNNs pré-treinamento usando modelos generativos de redes de crenças profundas (DBN). No entanto, descobriu-se que a substituição do pré-treinamento por grandes quantidades de dados de treinamento para retropropagação direta ao usar DNNs com camadas de saída grandes e dependentes do contexto produziu taxas de erro significativamente menores do que o modelo de mistura Gaussian (GMM)/Modelo Markov Oculto (HMM) e também do que sistemas baseados em modelos generativos mais avançados. Isso foi feito usando DNNs com camadas de saída grandes e dependentes do contexto.
Em 2012, um grupo liderado por George E. Dahl ficou em primeiro lugar no "Merck Molecular Activity Challenge" ao prever com sucesso o alvo biomolecular de um único medicamento usando redes neurais profundas multitarefas. Seguindo um padrão observado no reconhecimento de voz em larga escala, a taxa de erro no teste ImageNet que usou deep learning viu uma nova redução em 2013 e 2014, respectivamente.
Depois disso, a classificação de imagens foi expandida para o objetivo mais difícil de produzir descrições (legendas) para imagens, muitas vezes usando uma mistura de CNNs e LSTMs. A classificação de imagens percorreu um longo caminho desde então.
Yoshua Bengio, Geoffrey Hinton e Yann LeCun foram homenageados com o Prêmio Turing em março de 2019, por suas contribuições para as conquistas conceituais e técnicas que tornaram as redes neurais profundas um componente essencial da computação.
Os sistemas de computação conhecidos como redes neurais artificiais (RNAs), também conhecidos como sistemas conexionistas, inspiram-se...