CapÃtulo 1 : Aprendizaje automático
El aprendizaje automático (ML) es un subcampo de la informática que se centra en el estudio y el desarrollo de técnicas que permiten a las computadoras "aprender" o, más específicamente, técnicas que hacen uso de los datos para mejorar el rendimiento de una computadora en un determinado conjunto de tareas.
El aprendizaje automático, cuando se utiliza para la solución de desafíos empresariales, también se conoce como análisis predictivo.
Los algoritmos de aprendizaje se basan en la hipótesis de que los métodos, algoritmos y juicios que tuvieron éxito en el pasado probablemente también lo seguirán teniendo en el futuro. Estas deducciones a veces pueden ser evidentes, como cuando uno dice que "debido a que el sol ha salido todas las mañanas durante los últimos 10.000 días, hay una buena posibilidad de que vuelva a salir mañana por la mañana". En otras ocasiones, estas explicaciones pueden ser más sutiles, como "X por ciento de las familias tienen especies geográficamente diferentes con variaciones de color, lo que significa que hay un Y por ciento de probabilidad de que existan cisnes negros desconocidos".
Arthur Samuel, trabajador de IBM y pionero en los campos de los juegos de computadora y la inteligencia artificial, es reconocido como el primero en usar el término "aprendizaje automático" en 1959.
La búsqueda de la inteligencia artificial llevó al desarrollo del campo del aprendizaje automático como campo de investigación (IA). Durante las primeras etapas del desarrollo de la IA como campo académico, varios académicos expresaron su interés en enseñar a las computadoras a aprender de los datos. Intentaron resolver el problema utilizando una variedad de métodos simbólicos, además de lo que entonces se conocía como "redes neuronales". Estas "redes neuronales" consistían principalmente en perceptrones y otros modelos que más tarde se descubrió que eran reinvenciones de los modelos lineales generalizados de la estadística.
Si bien el aprendizaje automático y la minería de datos suelen usar los mismos métodos y tienen una cantidad significativa de superposición, el enfoque principal del aprendizaje automático es la predicción, basada en las propiedades conocidas aprendidas de los datos de entrenamiento, mientras que el enfoque principal de la minería de datos es el descubrimiento de propiedades (previamente desconocidas) en los datos (este es el paso de análisis del descubrimiento de conocimiento en bases de datos). La minería de datos hace uso de numerosas técnicas de aprendizaje automático, pero sus objetivos son distintos de los del aprendizaje automático. Por otro lado, el aprendizaje automático hace uso de métodos de minería de datos en forma de "aprendizaje no supervisado" o como paso de preprocesamiento para aumentar la precisión del alumno. Estos dos grupos de investigación (que con frecuencia tienen diferentes conferencias y publicaciones separadas, siendo ECML PKDD un ejemplo significativo) a menudo se confunden entre sí como resultado de las presunciones fundamentales bajo las que operan ambos, que son las siguientes: En el campo del aprendizaje automático, el rendimiento a menudo se mide en términos de la capacidad de un individuo para repetir el material previamente aprendido, pero en el campo del descubrimiento de conocimiento y la minería de datos (KDD), el objetivo principal es desenterrar información que no se conocía anteriormente. Una técnica no informada (no supervisada) será fácilmente superada por otros métodos supervisados cuando se evalúe con respecto a la información existente; sin embargo, los métodos supervisados no se pueden emplear en un trabajo típico de KDD, ya que no hay suficientes datos de entrenamiento.
Muchos problemas de aprendizaje se enmarcan como la minimización de alguna función de pérdida en un conjunto de ejemplos de entrenamiento, que es un ejemplo de uno de los estrechos vínculos que existen entre el aprendizaje automático y la optimización. La varianza que existe entre las predicciones del modelo que se está entrenando y las ocurrencias reales del problema se representa mediante la función de pérdida (por ejemplo, en la clasificación, se desea asignar una etiqueta a las instancias y los modelos se entrenan para predecir correctamente las etiquetas preasignadas de un conjunto de ejemplos).
El objetivo de la generalización es lo que diferencia la optimización del aprendizaje automático; Mientras que las técnicas de optimización pueden reducir la pérdida en un conjunto de entrenamiento, el aprendizaje automático se ocupa de disminuir la pérdida en muestras que no se han visto antes. Se están llevando a cabo investigaciones sobre una serie de temas candentes en este momento, uno de los cuales es caracterizar la generalización de diferentes algoritmos de aprendizaje, particularmente algoritmos de aprendizaje profundo.
El objetivo principal de la estadística es sacar conclusiones sobre una población en función de la información obtenida de una muestra, mientras que el objetivo del aprendizaje automático es identificar patrones predictivos generalizables. Aunque los dos campos comparten una estrecha relación en cuanto a los métodos que utilizan, son fundamentalmente diferentes. donde "modelo algorítmico" se refiere, más o menos, a los algoritmos de aprendizaje automático como Random Forest.
Algunos estadísticos han adoptado técnicas del tema del aprendizaje automático, lo que ha llevado a la creación de una disciplina híbrida que estos estadísticos denominan aprendizaje estadístico.
Las técnicas analíticas y computacionales que se derivan de la física profundamente arraigada de los sistemas desordenados pueden extenderse a problemas a gran escala, como los que involucran el aprendizaje automático. Por ejemplo, estas técnicas se pueden utilizar para analizar el espacio de peso de las redes neuronales profundas. Además, estas técnicas se pueden aplicar a problemas a gran escala.
Ser capaz de sacar conclusiones generales a partir de ejemplos específicos es uno de los objetivos principales de un alumno. La generalización es la capacidad de una máquina de aprendizaje para desempeñarse correctamente en nuevas instancias o tareas después de haber encontrado un conjunto de datos de aprendizaje. En este contexto, la generalización se refiere a la capacidad de una máquina que aprende para desempeñarse con precisión. Los ejemplos de entrenamiento se toman de alguna distribución de probabilidad generalmente desconocida, que se cree que es representativa del espacio de ocurrencias. El alumno tiene la tarea de desarrollar un modelo general sobre este espacio, que le permitirá hacer predicciones en nuevos casos que sean lo suficientemente precisas.
La teoría del aprendizaje computacional es un campo de la informática teórica que analiza el rendimiento de los algoritmos de aprendizaje automático a través de la lente del modelo de aprendizaje probablemente aproximadamente correcto (PAC). Este tipo de estudio se conoce como análisis computacional de algoritmos de aprendizaje automático. En la mayoría de los casos, la teoría del aprendizaje no proporciona garantías sobre el rendimiento de los algoritmos. Esto se debe al hecho de que los conjuntos de entrenamiento son limitados y el futuro es incognoscible. En su lugar, a menudo se utilizan límites probabilísticos en el rendimiento. Una técnica para medir el error de generalización es mediante el uso de la descomposición sesgo-varianza.
Es importante que la complejidad de la hipótesis sea comparable a la complejidad de la función que subyace a los datos para obtener el mayor rendimiento posible en el contexto de la generalización. En el caso de que la hipótesis sea más simple que la función, indica que el modelo no ha coincidido adecuadamente con los datos. Cuando se aumenta la complejidad del modelo en respuesta, hay una reducción correspondiente en la cantidad de error de entrenamiento. Sin embargo, si la hipótesis es muy complicada, el modelo puede ser propenso al sobreajuste y los resultados de la generalización serán menos precisos.
Los teóricos del aprendizaje investigan una variedad de temas, incluidas las limitaciones de rendimiento, la complejidad temporal del aprendizaje y la viabilidad del aprendizaje. En el campo de la teoría del aprendizaje computacional, la viabilidad de un cálculo está determinada por si se puede completar o no en tiempo polinómico. Hay dos tipos distintos de hallazgos en términos de su complejidad temporal: La finalización exitosa del experimento demuestra que una cierta clase de funciones se puede aprender en una cantidad polinómica de tiempo. De acuerdo con los resultados negativos, algunas clases no se pueden aprender en una cantidad de tiempo polinómica.
Los métodos tradicionales de aprendizaje automático se pueden clasificar en uno de tres grupos, que corresponden a diferentes paradigmas de aprendizaje. Estas categorías están determinadas por el tipo de "señal" o "retroalimentación" que se hace accesible al sistema de aprendizaje:
El propósito del aprendizaje supervisado es que la computadora aprenda una regla general que asigna entradas a salidas mostrándole ejemplos de entradas y las salidas previstas para esas entradas. Estos ejemplos son entregados a la computadora por un "profesor".
El aprendizaje no supervisado es un tipo de aprendizaje automático en el que el algoritmo de aprendizaje no recibe ninguna etiqueta y, en cambio, se deja que descubra la estructura por sí mismo dentro de los datos con los que se alimenta. El descubrimiento de patrones previamente ocultos en los datos puede ser un propósito del aprendizaje no...