Capítulo 1 : Minería de datos
La minería de datos es la práctica de utilizar técnicas de aprendizaje automático, estadísticas y sistemas de gestión de bases de datos para extraer y descubrir patrones en grandes conjuntos de datos. Cuando se hace referencia a enfoques específicos, las frases inteligencia artificial y aprendizaje automático suelen ser más adecuadas que el análisis y análisis de datos más genéricos (a gran escala).
El análisis de clústeres, la identificación de anomalías y el análisis de dependencias son ejemplos del trabajo real de la minería de datos: la exploración semiautomatizada o totalmente automatizada de conjuntos de datos masivos para descubrir información oculta (minería de reglas de asociación, minería de patrones secuenciales). Con este fin, a menudo se utilizan índices geográficos y otros enfoques de bases de datos. Los patrones resultantes se pueden utilizar como una abreviatura para los datos originales en análisis posteriores o en aplicaciones como el aprendizaje automático y el análisis predictivo. La minería de datos puede ayudar a encontrar patrones en los datos y organizarlos en agrupaciones significativas que un sistema de apoyo a la toma de decisiones puede utilizar para hacer mejores predicciones. Si bien la recopilación de datos, la preparación de datos y la interpretación e informes de resultados son partes importantes del proceso de KDD en su conjunto, no forman parte de la etapa de minería de datos específicamente.
A diferencia de la minería de datos, el análisis de datos se puede realizar en conjuntos de datos de cualquier tamaño (como los resultados de una campaña de marketing) para evaluar hipótesis y modelos. La minería de datos, por otro lado, hace uso del aprendizaje automático y los modelos estadísticos para revelar patrones ocultos o secretos en un vasto conjunto de datos.
El espionaje de datos, la pesca de datos y el dragado de datos se refieren a la misma práctica de utilizar técnicas de minería de datos para sacar conclusiones de muestras de un conjunto de datos de población que son (o pueden ser) demasiado pequeñas para ser estadísticamente significativas. Se pueden generar nuevas hipótesis utilizando estas técnicas y luego probarlas en conjuntos de datos más grandes.
En la década de 1960, los estadísticos y economistas llamaron "pesca de datos" o "dragado de datos" al hábito inadecuado de evaluar datos sin una hipótesis a priori. El economista Michael Lovell utilizó la frase "minería de datos" de una manera igualmente crítica en un artículo de 1983 para la Review of Economic Studies. Según Lovell, este comportamiento "se enmascara bajo una serie de alias, que van desde experimentar" (una buena etiqueta) hasta "pescar" o "husmear" (malas etiquetas) (negativo).
Alrededor de 1990, la comunidad de bases de datos comenzó a usar la frase "minería de datos", con un tono generalmente optimista.
A principios de la década de 1980, se utilizó una frase "minería de bases de datos", T HNC, sin embargo, ha registrado esta expresión, un negocio con raíces en San Diego, para que puedan venderle su software de minería de datos; Actualmente, no hay diferencia entre la minería de datos y el descubrimiento de conocimiento como términos de referencia.
Durante siglos, las personas han estado extrayendo patrones manualmente de los datos. El teorema de Bayes (de 1700) y el análisis de regresión (1900) son dos ejemplos de técnicas tempranas para descubrir patrones en los datos (1800). en extensas bases de datos. Al aprovechar la forma en que los datos se almacenan e indexan en las bases de datos para ejecutar los algoritmos reales de aprendizaje y descubrimiento de manera más eficiente, cierra la brecha entre la estadística aplicada y la inteligencia artificial (que generalmente proporcionan los antecedentes matemáticos) y la gestión de bases de datos. Esto hace posible que estos métodos se apliquen a conjuntos de datos cada vez más grandes.
Las definiciones comunes del proceso KDD incluyen los siguientes pasos:
Selección
Preprocesamiento
Transformación
Minería de datos
Interpretación/evaluación.
Sin embargo, existen varias iteraciones de este concepto, como el proceso estándar intersectorial para la minería de datos (CRISP-DM), que describe un procedimiento simplificado de seis pasos:
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelado
Evaluación
Despliegue
o un método simplificado como "Preprocesamiento", "Minería de datos" y "Validación de resultados".
Se ha demostrado que el enfoque CRISP-DM es la técnica de minería de datos más popular en las encuestas realizadas en 2002, 2004, 2007 y 2014.
Se debe construir una colección de datos de destino antes de que se puedan utilizar los métodos de minería de datos. El conjunto de datos objetivo debe ser lo suficientemente grande como para incluir los patrones que se van a extraer, y al mismo tiempo ser lo suficientemente manejable como para ser extraído en un período de tiempo razonable. Los almacenes de datos y los data marts son lugares frecuentes para obtener información útil. La minería de datos no puede comenzar sin antes preprocesar los conjuntos de datos multivariantes. Se utiliza el conjunto de objetivos limpio. Las observaciones llenas de ruido y en blanco se filtran a lo largo del proceso de limpieza de datos.
Hay seis categorías principales de trabajo de minería de datos:
Detección de anomalías (también conocida como detección de cambios/desviaciones/valores atípicos): detección de registros de datos fuera de lo común que pueden ser de interés o indicar problemas de datos que necesitan un examen adicional.
Busca vínculos entre variables mediante el uso de "aprendizaje de reglas de asociación" (modelado de dependencias). Los patrones de compra son un tipo de información que una tienda de comestibles podría recopilar. El supermercado puede utilizar el aprendizaje de la regla de asociación para ver qué artículos se compran generalmente juntos y adaptar su publicidad a esas combinaciones. El análisis de la cesta de la compra es otro nombre para esto.
El término "agrupamiento" se refiere al proceso de identificar agrupaciones y estructuras en los datos que son "similares", sin depender de estructuras preexistentes en los datos.
Cuando se aplica a datos nuevos, la clasificación es el proceso de generalizar la estructura previamente establecida. Un cliente de correo electrónico puede, por ejemplo, intentar determinar si un mensaje es spam o no.
Con el fin de predecir las conexiones entre diferentes conjuntos de datos, la regresión busca la función que mejor los represente.
La visualización de datos y la creación de informes son ejemplos de la representación sucinta de la recopilación de datos en el resumen.
El mal uso inadvertido de la minería de datos puede conducir a hallazgos aparentemente significativos que no predicen realmente el comportamiento futuro y no se pueden repetir en una muestra nueva de datos, lo que hace que los resultados sean inútiles. A veces esto sucede cuando los investigadores intentan examinar demasiadas hipótesis sin utilizar métodos estadísticos apropiados. La forma más simple de este problema en el aprendizaje automático se conoce como sobreajuste, pero puede desarrollarse en cualquier momento del proceso, por lo que una división de entrenamiento/prueba puede no ser suficiente para evitarlo.
El descubrimiento de conocimientos a partir de los datos culmina con la comprobación de si los patrones descubiertos por las técnicas de minería de datos están realmente presentes en todo el conjunto de datos. Los algoritmos a veces pueden encontrar patrones ilegítimos. Los algoritmos de minería de datos a menudo descubren patrones en el conjunto de entrenamiento que están ausentes del conjunto de pruebas. El sobreajuste describe esta situación. Para evitar esto, el algoritmo de minería de datos se evalúa mediante un conjunto de datos de prueba no entrenado. El conjunto de prueba se utiliza para aplicar los patrones aprendidos y comparar los resultados reales con los esperados. Un sistema de minería de datos que tiene como objetivo identificar el spam de correos electrónicos reales, por ejemplo, necesitaría entrenamiento en un conjunto de datos que consta de mensajes representativos. Después de ser enseñado, el sistema usaría el lote de prueba de correos electrónicos para aplicar los patrones que había aprendido. Por lo tanto, la cantidad de correos electrónicos que se clasifican con éxito es un buen indicador de la eficacia de los patrones. La eficacia del algoritmo se puede determinar utilizando una variedad de técnicas estadísticas, incluidas las curvas ROC.
Es vital reevaluar y modificar los procedimientos de preprocesamiento y minería de datos si los patrones resultantes no satisfacen los criterios requeridos. La última etapa consiste en analizar los patrones adquiridos y transformarlos en conocimiento, si realmente se ajustan a los requisitos adecuados.
El SIG de Descubrimiento de Conocimiento y Minería de Datos de la Association for Computing Machinery (ACM) es la organización profesional más prestigiosa en el área (SIGKDD).
Conferencias en ciencias de la computación que se centran en la minería de datos:
Jornada de Gestión de la Información y el Conocimiento (CIKM)
Descubrimiento de conocimiento en bases de datos: principios y práctica, y la Conferencia Europea sobre Aprendizaje Automático
Conferencia de Descubrimiento de Conocimiento y Minería de Datos (KDD): Conferencia anual ACM...