Chapitre 2 : Apprentissage automatique
L'apprentissage automatique (ML) est un sous-domaine de l'informatique qui se concentre sur l'étude et le développement de techniques qui permettent aux ordinateurs d'« apprendre », ou plus précisément, des techniques qui utilisent des données afin d'améliorer les performances d'un ordinateur sur un certain ensemble de tâches.
L'apprentissage automatique, lorsqu'il est utilisé pour résoudre les défis commerciaux, est également connu sous le nom d'analyse prédictive.
Les algorithmes d'apprentissage sont basés sur l'hypothèse que les méthodes, les algorithmes et les jugements qui ont réussi dans le passé sont susceptibles de continuer à réussir à l'avenir également. Ces déductions peuvent parfois aller de soi, comme lorsque l'on dit que « parce que le soleil s'est levé tous les matins au cours des 10 000 derniers jours, il y a de fortes chances qu'il se lève à nouveau demain matin ». À d'autres occasions, ces explications peuvent être plus subtiles, telles que « X pour cent des familles ont des espèces géographiquement différentes avec des variations de couleur, ce qui signifie qu'il y a une probabilité de Y pour cent que des cygnes noirs inconnus existent. ».
Arthur Samuel, employé chez IBM et pionnier dans les domaines des jeux informatiques et de l'intelligence artificielle, est considéré comme celui qui a utilisé pour la première fois le terme « apprentissage automatique » en 1959.
La recherche de l'intelligence artificielle a conduit au développement du domaine de l'apprentissage automatique en tant que domaine de recherche (IA). Au cours des premières étapes du développement de l'IA en tant que domaine universitaire, un certain nombre d'universitaires ont exprimé leur intérêt à enseigner aux ordinateurs à apprendre à partir de données. Ils ont tenté de résoudre le problème en utilisant une variété de méthodes symboliques, en plus de ce qui était alors connu sous le nom de « réseaux neuronaux ». Ces « réseaux neuronaux » se composaient principalement de perceptrons et de divers autres modèles qui se sont révélés plus tard être des réinventions des modèles linéaires généralisés de la statistique.
Alors que l'apprentissage automatique et l'exploration de données utilisent souvent les mêmes méthodes et présentent un chevauchement important, l'objectif principal de l'apprentissage automatique est la prédiction, basée sur les propriétés connues apprises à partir des données d'entraînement, tandis que l'objectif principal de l'exploration de données est la découverte de propriétés (auparavant inconnues) dans les données (il s'agit de l'étape d'analyse de la découverte de connaissances dans les bases de données). L'exploration de données fait appel à de nombreuses techniques d'apprentissage automatique, mais ses objectifs sont distincts de ceux de l'apprentissage automatique. D'autre part, l'apprentissage automatique utilise des méthodes d'exploration de données sous forme d'« apprentissage non supervisé » ou comme étape de prétraitement afin d'augmenter la précision de l'apprenant. Ces deux groupes de recherche (qui ont souvent des conférences différentes et des publications distinctes, l'ECML PKDD étant un exemple significatif) sont souvent confondus l'un avec l'autre en raison des présomptions fondamentales qui fonctionnent tous les deux, qui sont les suivantes : Dans le domaine de l'apprentissage automatique, la performance est souvent mesurée en termes de capacité d'un individu à répéter des éléments précédemment appris, mais dans le domaine de la découverte de connaissances et de l'exploration de données (KDD), l'objectif principal est de déterrer des informations qui n'étaient pas connues auparavant. Une technique non informée (non supervisée) sera facilement surpassée par d'autres méthodes supervisées lorsqu'elle est évaluée à la lumière de l'information existante ; cependant, les méthodes supervisées ne peuvent pas être utilisées dans une tâche KDD typique, car il n'y a pas assez de données d'entraînement.
De nombreux problèmes d'apprentissage sont présentés comme la minimisation d'une fonction de perte sur un ensemble d'exemples d'entraînement, ce qui est un exemple de l'un des liens étroits qui existent entre l'apprentissage automatique et l'optimisation. La variance qui existe entre les prédictions du modèle en cours d'entraînement et les occurrences réelles du problème est représentée par la fonction de perte (par exemple, dans la classification, on souhaite attribuer une étiquette à des instances, et les modèles sont entraînés pour prédire correctement les étiquettes pré-attribuées d'un ensemble d'exemples).
L'objectif de la généralisation est ce qui différencie l'optimisation de l'apprentissage automatique ; Alors que les techniques d'optimisation peuvent réduire la perte sur un ensemble d'apprentissage, l'apprentissage automatique s'intéresse à la diminution de la perte sur des échantillons qui n'ont jamais été vus auparavant. Des recherches sont menées sur un certain nombre de sujets d'actualité en ce moment, dont la caractérisation de la généralisation de différents algorithmes d'apprentissage, en particulier les algorithmes d'apprentissage profond.
L'objectif principal des statistiques est de tirer des conclusions sur une population à partir d'informations recueillies à partir d'un échantillon, tandis que l'objectif de l'apprentissage automatique est d'identifier des modèles prédictifs généralisables. Bien que les deux domaines partagent une relation étroite en termes de méthodes qu'ils utilisent, ils sont fondamentalement différents. où le terme « modèle algorithmique » fait référence, plus ou moins, aux algorithmes d'apprentissage automatique tels que Random Forest.
Certains statisticiens ont adopté des techniques issues de l'apprentissage automatique, ce qui a conduit à la création d'une discipline hybride que ces statisticiens appellent apprentissage statistique.
Les techniques analytiques et informatiques dérivées de la physique profondément enracinée des systèmes désordonnés peuvent être étendues à des problèmes à grande échelle, tels que ceux impliquant l'apprentissage automatique. Par exemple, ces techniques peuvent être utilisées pour analyser l'espace de poids des réseaux de neurones profonds. De plus, ces techniques peuvent être appliquées à des problèmes à grande échelle.
Être capable de tirer des conclusions générales à partir d'exemples spécifiques est l'un des principaux objectifs d'un apprenant. La généralisation est la capacité d'une machine apprenante à fonctionner correctement sur de nouvelles instances ou tâches après avoir rencontré un ensemble de données d'apprentissage. Dans ce contexte, la généralisation fait référence à la capacité d'une machine apprenante à fonctionner avec précision. Les exemples d'entraînement sont tirés d'une distribution de probabilité généralement inconnue, que l'on pense représentative de l'espace des occurrences. L'apprenant est chargé d'élaborer un modèle général sur cet espace, qui lui permettra de faire des prédictions suffisamment précises dans de nouveaux cas.
La théorie de l'apprentissage computationnel est un domaine de l'informatique théorique qui analyse les performances des algorithmes d'apprentissage automatique à travers le modèle d'apprentissage probablement approximativement correct (PAC). Ce type d'étude est connu sous le nom d'analyse computationnelle des algorithmes d'apprentissage automatique. Dans la plupart des cas, la théorie de l'apprentissage ne fournit pas d'assurance sur les performances des algorithmes. Cela est dû au fait que les ensembles d'entraînement sont limités et que l'avenir est inconnaissable. À la place, des limites probabilistes sur la performance sont souvent utilisées. Une technique pour mesurer l'erreur de généralisation consiste à utiliser la décomposition biais-variance.
Il est important que la complexité de l'hypothèse soit comparable à la complexité de la fonction sous-jacente aux données afin d'obtenir les meilleures performances possibles dans le contexte de la généralisation. Dans le cas où l'hypothèse est plus simple que la fonction, cela indique que le modèle n'a pas suffisamment apparié les données. Lorsque la complexité du modèle est augmentée en réponse, il y a une réduction correspondante de la quantité d'erreurs d'apprentissage. Cependant, si l'hypothèse est très compliquée, le modèle peut être sujet au surajustement et les résultats de la généralisation seront moins précis.
Les théoriciens de l'apprentissage étudient une variété de sujets, notamment les contraintes de performance, la complexité temporelle de l'apprentissage et la faisabilité de l'apprentissage. Dans le domaine de la théorie de l'apprentissage informatique, la faisabilité d'un calcul est déterminée par le fait qu'il puisse ou non être réalisé en temps polynomial. Il existe deux types distincts de résultats en termes de complexité temporelle : la réussite de l'expérience démontre qu'une certaine classe de fonctions peut être apprise dans un laps de temps polynomial. Selon les résultats négatifs, certaines classes ne peuvent pas être apprises dans un laps de temps polynomial.
Les méthodes traditionnelles d'apprentissage automatique peuvent être classées en trois groupes, qui correspondent à différents paradigmes d'apprentissage. Ces catégories sont déterminées par le type de « signal » ou de « rétroaction » qui est rendu accessible au système d'apprentissage :
L'objectif de...