Chapitre 2 : Réseau de neurones (apprentissage automatique)
Un réseau neuronal, également connu sous le nom de réseau neuronal artificiel ou réseau neuronal, et connu sous ses abréviations ANN ou NN, est un modèle utilisé dans l'apprentissage automatique. Ce modèle s'inspire de la forme et de la fonction des réseaux de neurones biologiques observés dans le cerveau des animaux.
Les neurones artificiels qui composent un réseau neuronal artificiel (RNA) sont des unités ou des nouds connectés qui sont modélisés d'après les neurones qui se trouvent dans le cerveau. Les bords qui les relient sont une représentation des synapses qui se trouvent dans le cerveau. Après avoir reçu des signaux d'autres neurones qui lui sont connectés, chaque neurone artificiel traite ces signaux, puis les transmet à d'autres neurones qui lui sont connectés. Le « signal » est un nombre réel, et la fonction d'activation est une fonction non linéaire qui fonctionne sur le total des entrées de chaque neurone. Cette fonction est responsable du calcul de la sortie de chaque neurone. Au cours du processus d'apprentissage, un poids est utilisé pour déterminer la force du signal à chaque maillon. Ce poids est ajusté et ajusté si nécessaire.
Dans une situation typique, les neurones sont regroupés en couches. Il est possible pour différentes couches d'effectuer chacune une transformation unique sur leurs entrées respectives. Il est possible que les signaux passent par de nombreuses couches intermédiaires, également appelées couches cachées, lorsqu'ils se frayent un chemin de la première couche, qui est la couche d'entrée, à la dernière couche, qui est la couche de sortie. Lorsqu'un réseau comprend au moins deux couches cachées, on l'appelle souvent réseau neuronal profond pour décrire le réseau.
Il existe plusieurs applications pour les réseaux de neurones artificiels, notamment la modélisation prédictive, le contrôle adaptatif et la résolution de problèmes en intelligence artificielle. Il existe également de nombreuses autres applications. Ils ont la capacité d'acquérir des connaissances par l'expérience et peuvent tirer des conclusions d'un ensemble de faits qui semblent n'être pas liés les uns aux autres.
La plupart du temps, les réseaux neuronaux sont entraînés par le processus de limitation empirique des risques. Cette approche repose sur le concept d'optimisation des paramètres du réseau afin de minimiser la différence, également appelée risque empirique, entre la sortie anticipée et les valeurs cibles réelles dans un ensemble de données particulier. L'estimation des paramètres du réseau est souvent réalisée par l'utilisation d'approches basées sur le gradient telles que la rétropropagation. Les réseaux de neurones artificiels (ANN) apprennent à partir de données d'entraînement étiquetées pendant la phase d'entraînement en modifiant itérativement leurs paramètres afin de minimiser une fonction de perte qui a été définie. Grâce à cette stratégie, le réseau est en mesure de généraliser à des données qu'il n'a pas rencontrées auparavant.
Il y a plus de deux siècles, les premiers travaux en statistique ont jeté les bases des réseaux neuronaux profonds qui sont utilisés aujourd'hui. Le type le plus élémentaire de réseau neuronal à anticipation (FNN) est un réseau linéaire. Ce type de réseau est constitué d'une seule couche de nouds de sortie qui ont des fonctions d'activation linéaires. Les entrées sont envoyées directement aux sorties par le biais d'une série de poids. Des calculs sont effectués à chaque noud pour déterminer le total des produits des poids et des entrées. Dans le but de réduire au minimum les erreurs quadratiques moyennes qui se produisent entre ces sorties estimées et les valeurs cibles qui ont été fournies, un ajustement des pondérations a été créé. La méthode des moindres carrés et la régression linéaire sont des noms qui ont été utilisés pour désigner cette technique depuis plus de deux siècles. Legendre (1805) et Gauss (1795) l'ont utilisé comme méthode pour déterminer un ajustement linéaire approximatif décent à un ensemble de points afin de faire des prédictions concernant le mouvement des planètes.
Le fonctionnement des ordinateurs numériques, tels que l'architecture de von Neumann, a traditionnellement été accompli par l'exécution d'instructions explicites, la mémoire étant accessible par un certain nombre de processeurs discrets. Certains réseaux neuronaux, en revanche, ont été initialement développés à la suite d'une tentative de décrire le traitement de l'information qui se produit dans les systèmes biologiques en utilisant le cadre du connexionnisme. L'informatique connexionniste, contrairement à l'approche de von Neumann, ne divise pas la mémoire et le traitement en deux catégories distinctes.
En 1943, Warren McCulloch et Walter Pitts ont examiné la possibilité de concevoir un modèle informatique pour les réseaux neuronaux qui n'incluait pas l'apprentissage. Grâce à ce modèle, la recherche a pu être divisée en deux méthodologies distinctes. La première méthode s'est concentrée sur les processus biologiques, tandis que la seconde méthode était centrée sur l'utilisation de réseaux neuronaux dans le domaine de la science de l'intelligence artificielle.
D. est né à la fin des années 1940. L'apprentissage hebbien est une hypothèse d'apprentissage qui a été proposée par O. Hebb. Cette hypothèse a été fondée sur le mécanisme de la plasticité cérébrale et s'est développée en une théorie. De nombreux réseaux neuronaux précoces, tels que le perceptron de Rosenblatt et le réseau de Hopfield, l'utilisaient dans leurs opérations. En 1954, Farley et Clark ont effectué une simulation d'un réseau Hebbian à l'aide de dispositifs informatiques. Rochester, Holland, Habit et Duda (1956) sont ceux qui ont mis au point d'autres machines de calcul de réseaux neuronaux.
L'Office of Naval Research des États-Unis a financé le développement du perceptron, qui a été l'un des premiers réseaux neuronaux artificiels à être développé. Le perceptron a été décrit par le psychologue Frank Rosenblatt en 1958.
Un dispositif encore plus ancien semblable au perceptron a été développé par Farley et Clark, selon R. D. Joseph (1960). Il écrit que « Farley et Clark du MIT Lincoln Laboratory ont en fait précédé Rosenblatt dans le développement d'un dispositif semblable au perceptron ». Cependant, « ils ont laissé tomber le sujet ».
À la suite du perceptron, l'intérêt du public pour la recherche relative aux réseaux neuronaux artificiels a augmenté, ce qui a conduit à une augmentation significative du financement du gouvernement des États-Unis. « L'âge d'or de l'IA » a été alimenté par les affirmations optimistes faites par les informaticiens sur la capacité des perceptrons à reproduire l'intelligence humaine. Cette circonstance a contribué au développement de l'intelligence artificielle.
Il n'était pas possible pour les perceptrons initiaux d'avoir des unités cachées adaptatives. Néanmoins, Joseph (1960) s'est également penché sur les perceptrons multicouches qui comprenaient une couche cachée adaptable sur leur structure. Ces concepts ont été cités et utilisés par Rosenblatt (1962), qui a également attribué du crédit aux travaux effectués par H. D. Block et B. Le Chevalier, W. Cependant, les premiers efforts déployés n'ont pas abouti à un algorithme d'apprentissage capable de travailler pour des unités cachées, également connu sous le nom d'apprentissage profond.
Dans les années 1960 et 1970, des recherches fondamentales sur les réseaux de neurones artificiels (RNA) ont été menées. La technique de traitement des données du Groupe, qui a été développée en 1965 en Ukraine par Alexey Ivakhnenko et Lapa, a été le premier algorithme d'apprentissage profond qui a atteint son objectif. C'était un moyen d'entraîner des réseaux neuronaux arbitrairement profonds. Selon leur interprétation, il s'agissait d'un type de régression polynomiale ou d'une généralisation de l'analyse perceptronique de Rosenblatt. Cette méthode, qui est basée sur l'entraînement couche par couche par analyse de régression, a été rapportée dans une étude publiée en 1971. Le réseau profond qui a été développé à l'aide de cette méthode comprenait huit couches. Grâce à l'utilisation d'un ensemble de validation distinct, les unités cachées inutiles sont éliminées. En raison du fait que les fonctions d'activation des nouds sont calculées à l'aide de polynômes de Kolmogorov-Gabor, ce sont également les premiers réseaux profonds à contenir des unités multiplicatives, parfois appelées « portes ».
Le premier perceptron multicouche d'apprentissage profond qui a été appris à l'aide de la descente de gradient stochastique a été publié par Shun'ichi Amari en 1967. Au cours des expériences informatiques menées par Saito, un étudiant d'Amari, un perceptron multicouche (MLP) à cinq couches et deux couches pouvant être modifiées a appris des représentations internes pour identifier des classes de motifs non linéairement séparables. À la suite de nouvelles améliorations du matériel et des réglages d'hyperparamètres, la descente de gradient stochastique de bout en bout est devenue la technique d'entraînement la plus populaire à l'heure actuelle.
C'est en 1969 que Kunihiko Fukushima a présenté pour la première fois la fonction d'activation ReLU, qui signifie l'unité linéaire rectifiée. Il est déjà bien reconnu que le redresseur est la fonction d'activation la plus largement utilisée pour l'apprentissage...