Chapitre 1 : Exploration de données
L'exploration de données consiste à utiliser des techniques d'apprentissage automatique, de statistiques et de systèmes de gestion de bases de données pour extraire et découvrir des modèles dans de grands ensembles de données. Lorsqu'il s'agit d'approches spécifiques, les expressions intelligence artificielle et apprentissage automatique sont souvent plus appropriées que l'analyse et l'analyse de données plus génériques (à grande échelle).
L'analyse de clusters, l'identification d'anomalies et l'analyse des dépendances sont autant d'exemples du véritable travail de l'exploration de données : l'exploration semi-automatisée ou entièrement automatisée d'ensembles de données massifs pour découvrir des informations cachées (exploration de règles d'association, exploration de motifs séquentiels). À cette fin, des indices géographiques et d'autres approches de base de données sont souvent utilisés. Les modèles résultants peuvent être utilisés comme raccourci pour les données d'origine dans une analyse plus approfondie ou dans des applications telles que l'apprentissage automatique et l'analyse prédictive. L'exploration de données peut aider à trouver des modèles dans les données et à les organiser en regroupements significatifs qu'un système d'aide à la décision peut utiliser pour faire de meilleures prédictions. Bien que la collecte et la préparation des données, l'interprétation des résultats et la communication des résultats soient toutes des éléments importants du processus KDD dans son ensemble, elles ne font pas spécifiquement partie de l'étape d'exploration des données.
Contrairement à l'exploration de données, l'analyse des données peut être effectuée sur n'importe quel ensemble de données (comme les résultats d'une campagne marketing) pour évaluer des hypothèses et des modèles. L'exploration de données, quant à elle, utilise l'apprentissage automatique et les modèles statistiques pour révéler des modèles cachés ou secrets dans un vaste ensemble de données.
L'espionnage des données, la pêche aux données et le dragage des données font tous référence à la même pratique d'utilisation de techniques d'exploration de données pour tirer des conclusions à partir d'échantillons d'un ensemble de données démographiques qui sont (ou peuvent être) trop minuscules pour être statistiquement significatives. De nouvelles hypothèses peuvent être générées à l'aide de ces techniques, puis testées sur des ensembles de données plus importants.
Dans les années 1960, les statisticiens et les économistes ont appelé l'habitude inappropriée d'évaluer les données sans hypothèse a été qualifiée de « pêche aux données » ou de « dragage de données ». L'économiste Michael Lovell a utilisé l'expression « exploration de données » de manière tout aussi critique dans un article de 1983 pour la Review of Economic Studies. Selon Lovell, ce comportement « se masque sous un certain nombre d'alias, allant de l'expérimentation » (une bonne étiquette) à la « pêche » ou à l'« espionnage » (mauvaises étiquettes) (négatif).
Vers 1990, la communauté des bases de données a commencé à utiliser l'expression « exploration de données », avec un ton généralement optimiste.
Au début des années 1980, une expression « exploration de bases de données » T a été utilisée, HNC, cependant, a déposé cette expression, une entreprise ayant des racines à San Diego, afin qu'ils puissent vous vendre leur logiciel d'exploration de données ; À l'heure actuelle, il n'y a pas de différence entre l'exploration de données et la découverte de connaissances en tant que termes de référence.
Pendant des siècles, les gens ont extrait manuellement des modèles à partir de données. Le théorème de Bayes (des années 1700) et l'analyse de régression (années 1900) sont deux exemples de techniques précoces pour découvrir des modèles dans les données (années 1800). dans de vastes bases de données. En tirant parti de la façon dont les données sont stockées et indexées dans les bases de données pour exécuter plus efficacement les algorithmes d'apprentissage et de découverte, il comble le fossé entre les statistiques appliquées et l'intelligence artificielle (qui fournissent généralement le contexte mathématique) et la gestion des bases de données. Cela permet d'appliquer de telles méthodes à des ensembles de données de plus en plus importants.
Les définitions courantes du processus KDD comprennent les étapes suivantes :
Sélection
Prétraitement
Transformation
Exploration de données
Interprétation/évaluation.
Cependant, il existe plusieurs itérations de ce concept, comme le processus standard intersectoriel pour l'exploration de données (CRISP-DM), qui décrit une procédure simplifiée en six étapes :
Compréhension de l'entreprise
Compréhension des données
Préparation des données
Modelage
Évaluation
Déploiement
ou une méthode simplifiée comme le « Prétraitement », l'« Exploration de données » et la « Validation des résultats ».
L'approche CRISP-DM s'est avérée être la technique d'exploration de données la plus populaire dans les sondages réalisés en 2002, 2004, 2007 et 2014.
Une collection de données cible doit être construite avant de pouvoir utiliser des méthodes d'exploration de données. L'ensemble de données cible doit être suffisamment grand pour inclure les modèles à exploiter, tout en étant suffisamment gérable pour être exploité dans un délai raisonnable. Les entrepôts de données et les data marts sont des endroits fréquents pour obtenir des informations utiles. L'exploration de données ne peut pas commencer sans prétraiter au préalable les ensembles de données multivariés. L'ensemble de cibles nettoyé est utilisé. Les observations remplies de bruit et les observations vides sont filtrées tout au long du processus de nettoyage des données.
Il existe six grandes catégories de travail d'exploration de données :
Détection d'anomalies (également appelée détection de changements/déviations/valeurs aberrantes) - détection d'enregistrements de données inhabituels qui peuvent être intéressants ou indiquer des problèmes de données nécessitant un examen supplémentaire.
Recherche de liens entre variables via l'utilisation de « l'apprentissage des règles d'association » (modélisation des dépendances). Les habitudes d'achat sont un type d'information qu'une épicerie peut recueillir. Le supermarché peut utiliser l'apprentissage des règles d'association pour voir quels articles sont généralement achetés ensemble et adapter sa publicité à ces combinaisons. L'analyse du panier d'achat est un autre nom pour cela.
Le terme « clustering » fait référence au processus d'identification des regroupements et des structures « similaires » dans les données, sans s'appuyer sur des structures préexistantes dans les données.
Lorsqu'elle est appliquée à des données fraîches, la classification est le processus de généralisation d'une structure précédemment établie. Un client de messagerie peut, par exemple, essayer de déterminer si un message est un spam ou non.
Dans le but de prédire les connexions entre différents ensembles de données, la régression recherche une fonction qui les représente le mieux.
La visualisation des données et la création de rapports sont des exemples de représentation succincte de la collecte de données par la synthèse des données.
L'utilisation abusive par inadvertance de l'exploration de données peut conduire à des résultats apparemment significatifs qui ne prédisent pas vraiment le comportement futur et ne peuvent pas être répétés sur un nouvel échantillon de données, rendant les résultats inutiles. Cela se produit parfois lorsque les chercheurs tentent d'examiner trop d'hypothèses sans utiliser de méthodes statistiques appropriées. La forme la plus simple de ce problème dans l'apprentissage automatique est connue sous le nom de surapprentissage, mais il peut se développer à tout moment du processus, de sorte qu'une séparation train/test peut ne pas suffire à l'éviter.
La découverte de connaissances à partir des données aboutit à la vérification de la présence des modèles découverts par les techniques d'exploration de données dans l'ensemble de l'ensemble de données. Les algorithmes peuvent parfois trouver des modèles illégitimes. Les algorithmes d'exploration de données découvrent souvent des modèles dans l'ensemble d'apprentissage qui sont absents de l'ensemble de test. Le surajustement décrit cette situation. Pour contourner ce problème, l'algorithme d'exploration de données est évalué à l'aide d'un ensemble de données de test non entraînées. L'ensemble de tests est utilisé pour appliquer les modèles appris et comparer les résultats réels avec les résultats attendus. Un système d'exploration de données qui vise à identifier les spams à partir d'e-mails réels, par exemple, aurait besoin d'être formé sur un ensemble de données composé de messages représentatifs. Après avoir été enseigné, le système utilisait le lot d'e-mails de test pour appliquer les modèles qu'il avait appris. Le nombre d'e-mails classés avec succès est donc un bon indicateur de l'efficacité des modèles. L'efficacité de l'algorithme peut être déterminée à l'aide de diverses techniques statistiques, y compris les courbes ROC.
Il est essentiel de réévaluer et de modifier les procédures de prétraitement et...