Chapitre 1 : Apprentissage profond
L'apprentissage profond, également connu sous le nom d'apprentissage structuré profond, est un sous-ensemble d'une famille plus large d'approches d'apprentissage automatique basées sur des réseaux neuronaux artificiels et l'apprentissage par représentation. L'apprentissage profond est également connu sous le nom d'apprentissage structuré profond. Il est possible d'apprendre dans un cadre supervisé, semi-supervisé ou non supervisé.
Les architectures d'apprentissage profond telles que les réseaux de neurones profonds, les réseaux de croyances profondes, l'apprentissage par renforcement profond, les réseaux de neurones récurrents et les réseaux de neurones convolutifs ont été appliquées à des domaines tels que la vision par ordinateur, la reconnaissance vocale, le traitement du langage naturel, la traduction automatique, la bioinformatique, la conception de médicaments, l'analyse d'images médicales, la science du climat, l'inspection des matériaux et les programmes de jeux de société, où elles ont produit des résultats comparables à et, dans certains cas, dépassant ceux produits par l'homme.
L'utilisation de nombreuses couches dans le réseau est ce que l'on entend par le terme « profond » lorsqu'on fait référence à l'apprentissage profond. Des recherches antérieures ont montré qu'un perceptron linéaire ne peut pas fonctionner comme un classificateur universel ; Cependant, un réseau avec une fonction d'activation non polynomiale et une couche cachée qui a une largeur illimitée peut. L'apprentissage profond est un développement relativement récent qui s'intéresse à un nombre infini de couches dont la taille est limitée. Cela permet une application pratique et une mise en ouvre efficace, tout en maintenant l'universalité théorique dans des circonstances modérées. L'apprentissage profond permet aux couches d'être hétérogènes et de diverger considérablement des modèles connexionnistes physiologiquement informés. Ceci est fait dans le but d'améliorer l'efficacité, la facilité de formation et la compréhensivité, d'où la partie « structurée » du terme.
L'apprentissage profond est une classe d'algorithmes d'apprentissage automatique qui : 199-200 utilise plusieurs couches pour extraire progressivement des caractéristiques de niveau supérieur à partir de l'entrée brute.
Par exemple, dans le domaine du traitement d'image, les bords peuvent être identifiés aux niveaux inférieurs, tandis que les couches supérieures peuvent reconnaître des éléments pertinents pour l'homme comme les chiffres, les caractères ou les visages, tels qu'ils sont, par exemple.
Les modèles d'apprentissage profond peuvent également inclure des formules propositionnelles ou des variables latentes organisées par couches dans des modèles génératifs profonds, tels que les nouds dans les réseaux de croyances profondes et les machines de Boltzmann profondes. La grande majorité des modèles contemporains d'apprentissage profond sont basés sur des réseaux de neurones artificiels, plus précisément des réseaux de neurones convolutifs (CNN). Après ce point, l'ajout de couches supplémentaires au réseau n'améliore pas sa capacité à approximer les fonctions. Étant donné que les modèles profonds (CAP > 2) sont capables d'extraire de meilleures caractéristiques que les modèles peu profonds, l'ajout de couches supplémentaires permet d'apprendre efficacement les caractéristiques.
La stratégie gourmande couche par couche peut être utilisée pour développer des architectures d'apprentissage profond.
Les méthodes d'apprentissage profond éliminent le besoin d'ingénierie des fonctionnalités lorsqu'elles sont appliquées à des tâches d'apprentissage supervisé. Pour ce faire, ils traduisent les données en représentations intermédiaires compactes, analogues aux composantes principales. Ces méthodes dérivent également des structures en couches qui suppriment la redondance dans la représentation.
Les problèmes d'apprentissage non supervisé conviennent bien à l'utilisation de techniques d'apprentissage profond. Il s'agit d'un avantage non négligeable en raison de la plus grande disponibilité des données non étiquetées par rapport aux données étiquetées. Les réseaux de croyances profondes sont un exemple d'une sorte de structure profonde qui peut être enseignée de manière non supervisée.
Si la largeur d'un réseau neuronal profond avec activation ReLU est strictement supérieure à la dimension d'entrée, alors le réseau peut se rapprocher de n'importe quelle fonction intégrable de Lebesgue ; Si la largeur d'un réseau neuronal profond est inférieure ou égale à la dimension d'entrée, alors un réseau neuronal profond n'est pas un approximateur universel. Les réseaux de neurones profonds sont généralement interprétés en termes de théorème d'approximation universel.
L'interprétation probabiliste
Selon quelques témoignages différents, Frank Rosenblatt est celui qui a été le premier à inventer et à étudier chacun des composants fondamentaux utilisés dans les systèmes d'apprentissage profond d'aujourd'hui. Dans le livre qu'il a écrit intitulé « Principles of Neurodynamics : Perceptrons and the Theory of Brain Mechanisms », publié par Cornell Aeronautical Laboratory, Inc., Cornell University en 1962, il a fourni une explication de ce phénomène.
En 1967, Alexey Ivakhnenko et Lapa ont présenté la première méthode d'apprentissage générique et fonctionnelle pour les perceptrons supervisés, profonds, précurseurs et multicouches. Cet algorithme a été développé par Alexey Ivakhnenko. en utilisant des liens à la fois en amont et en aval afin de faciliter l'intégration souple du contexte dans les choix et la résolution itérative des problèmes locaux.
En raison du coût de calcul élevé des réseaux de neurones artificiels (RNA) et d'un manque de compréhension de la façon dont le cerveau relie ses réseaux biologiques, les modèles plus simples qui utilisent des caractéristiques artisanales spécifiques à des tâches telles que les filtres de Gabor et les machines à vecteurs de support (SVM) étaient un choix populaire dans les années 1990 et 2000.
Les réseaux neuronaux artificiels sont étudiés depuis un grand nombre d'années en utilisant à la fois l'apprentissage superficiel et profond (par exemple, les réseaux récurrents). À cela s'ajoutaient le manque de données d'entraînement pertinentes et la rareté des ressources de calcul.
La majorité de la recherche sur la reconnaissance vocale s'est éloignée des réseaux neuronaux et s'est orientée vers la modélisation générative. Une exception notable s'est produite à la fin des années 1990 chez SRI International. Les réseaux de neurones profonds ont été étudiés par le SRI pour leur utilisation potentielle dans la détection de la voix et des locuteurs. Cette recherche a été rendue possible grâce au financement de la NSA et de la DARPA. Lors de l'évaluation de la reconnaissance des locuteurs qui a eu lieu en 1998 au National Institute of Standards and Technology (NIST), l'équipe travaillant sur la reconnaissance des locuteurs dirigée par Larry Heck a revendiqué des progrès substantiels dans l'utilisation des réseaux neuronaux profonds dans le traitement audio. L'apprentissage pour des réseaux de croyances profondes a été le sujet qui a été discuté dans les publications.
L'apprentissage profond est un composant essentiel des systèmes les plus avancés dans des domaines variés, notamment la vision par ordinateur et la reconnaissance vocale automatisée (ASR). Les résultats ont progressivement augmenté dans une variété de tâches de reconnaissance vocale à vocabulaire large, ainsi que dans des ensembles d'évaluation couramment utilisés, tels que TIMIT (reconnaissance vocale automatisée) et MNIST (classification d'images). Cependant, ils font mieux en termes de vision par ordinateur.
Selon Yann LeCun, les premiers signes de l'influence que le deep learning aurait sur les entreprises ont commencé à émerger au début des années 2000. À cette époque, les CNN traitaient déjà environ 10 à 20 % de tous les chèques signés aux États-Unis. Vers l'année 2010, les entreprises ont commencé à appliquer des techniques d'apprentissage profond à des projets de reconnaissance vocale à grande échelle.
Les limites des modèles génératifs profonds de la parole, ainsi que la possibilité que les réseaux neuronaux profonds (DNN), avec du matériel plus performant et des ensembles de données à grande échelle, puissent devenir pratiques, ont servi d'impulsion à l'atelier NIPS 2009 sur l'apprentissage profond pour la reconnaissance vocale. Cet atelier a été organisé par le National Institute for Pattern Recognition (NIPS). On pensait que les défis les plus importants associés aux réseaux neuronaux pourraient être contournés par le pré-entraînement des DNN à l'aide de modèles génératifs de réseaux de croyances profondes (DBN). Cependant, il a été découvert que le remplacement du pré-entraînement par de grandes quantités de données d'entraînement pour une rétropropagation simple lors de l'utilisation de DNN avec de grandes couches de sortie dépendantes du contexte produisait des taux d'erreur nettement inférieurs à ceux du modèle de mélange gaussien (GMM)/modèle de Markov caché (HMM) alors à la pointe de la technologie, ainsi qu'à ceux des systèmes basés sur des modèles génératifs plus avancés. Pour ce faire, nous avons utilisé des DNN avec de grandes couches de sortie dépendantes du contexte.
En 2012, un groupe dirigé par George E. Dahl a...