CapÃtulo 1 : Aprendizaje profundo
El aprendizaje profundo, también conocido como aprendizaje estructurado profundo, es un subconjunto de una familia más grande de enfoques de aprendizaje automático que se basan en redes neuronales artificiales y aprendizaje de representación. El aprendizaje profundo también se conoce como aprendizaje estructurado profundo. Es posible aprender en un entorno supervisado, semisupervisado o no supervisado.
Las arquitecturas de aprendizaje profundo, como las redes neuronales profundas, las redes de creencias profundas, el aprendizaje por refuerzo profundo, las redes neuronales recurrentes y las redes neuronales convolucionales, se han aplicado a campos como la visión por computadora, el reconocimiento de voz, el procesamiento del lenguaje natural, la traducción automática, la bioinformática, el diseño de fármacos, el análisis de imágenes médicas, la ciencia del clima, la inspección de materiales y los programas de juegos de mesa, donde han producido resultados comparables a y, en algunos casos, superando a los producidos por el ser humano.
El empleo de numerosas capas en la red es lo que se entiende por el término "profundo" cuando se hace referencia al aprendizaje profundo. Investigaciones anteriores demostraron que un perceptrón lineal no puede funcionar como un clasificador universal; Sin embargo, una red con una función de activación no polinómica y una capa oculta que tiene un ancho ilimitado puede hacerlo. El aprendizaje profundo es un desarrollo relativamente reciente que se ocupa de un número infinito de capas que tienen un tamaño limitado. Esto permite una aplicación práctica y una implementación eficiente, al tiempo que se mantiene la universalidad teórica en circunstancias moderadas. El aprendizaje profundo permite que las capas sean heterogéneas y difieran significativamente de los modelos conexionistas fisiológicamente informados. Esto se hace con el propósito de mejorar la eficiencia, la capacidad de entrenamiento y la comprensibilidad, que es de donde proviene la parte "estructurada" del término.
El aprendizaje profundo es una clase de algoritmos de aprendizaje automático que: 199-200 utiliza varias capas para extraer progresivamente características de nivel superior de la entrada sin procesar.
Por ejemplo, en el campo del procesamiento de imágenes, los bordes pueden identificarse en los niveles inferiores, mientras que las capas superiores pueden reconocer cosas relevantes para el ser humano, como números, caracteres o caras, tal como son, por ejemplo.
Los modelos de aprendizaje profundo también pueden incluir fórmulas proposicionales o variables latentes organizadas por capas en modelos generativos profundos, como los nodos de las redes de creencias profundas y las máquinas de Boltzmann profundas. La gran mayoría de los modelos contemporáneos de aprendizaje profundo se basan en redes neuronales artificiales, más concretamente en redes neuronales convolucionales (CNN). A partir de ese punto, añadir más capas a la red no mejora su capacidad de aproximación de funciones. Dado que los modelos profundos (CAP > 2) pueden extraer mejores características que los modelos superficiales, la adición de más capas ayuda a aprender las características de manera eficiente.
La estrategia codiciosa capa por capa se puede utilizar para desarrollar arquitecturas de aprendizaje profundo.
Los métodos de aprendizaje profundo eliminan la necesidad de ingeniería de características cuando se aplican a tareas de aprendizaje supervisado. Lo hacen traduciendo los datos en representaciones intermedias compactas, que son análogas a los componentes principales. Estos métodos también derivan estructuras en capas que eliminan la redundancia en la representación.
Los problemas de aprendizaje no supervisado son una buena opción para el uso de técnicas de aprendizaje profundo. Esta es una ventaja significativa debido a la mayor disponibilidad de datos no etiquetados en comparación con los datos etiquetados. Las redes de creencias profundas son un ejemplo de un tipo de estructura profunda que es capaz de ser enseñada de una manera no supervisada.
Si el ancho de una red neuronal profunda con activación de ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue; Si el ancho de una red neuronal profunda es menor o igual que la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal. Las redes neuronales profundas generalmente se interpretan en términos del teorema de aproximación universal.
La interpretación probabilística
Según algunos relatos diferentes, Frank Rosenblatt fue el primero en inventar e investigar cada uno de los componentes fundamentales que se utilizan en los sistemas de aprendizaje profundo actuales. En el libro de su autoría titulado "Principios de Neurodinámica: Perceptrones y la Teoría de los Mecanismos Cerebrales", que fue publicado por el Laboratorio Aeronáutico de Cornell, Inc., Universidad de Cornell en 1962, proporcionó una explicación de este fenómeno.
En 1967, Alexey Ivakhnenko y Lapa presentaron el primer método de aprendizaje genérico y funcional para perceptrones multicapa supervisados, profundos y de avance. Este algoritmo fue desarrollado por Alexey Ivakhnenko. mediante el uso de vínculos tanto hacia adelante como hacia atrás a fin de facilitar la incorporación flexible del contexto en las opciones y la resolución iterativa de los problemas locales.
Debido al alto costo computacional de las redes neuronales artificiales (ANN) y la falta de comprensión de cómo el cerebro conecta sus redes biológicas, los modelos más simples que utilizan características artesanales específicas de la tarea, como los filtros Gabor y las máquinas de vectores de soporte (SVM), fueron una opción popular en las décadas de 1990 y 2000.
Las RNA se han investigado durante un gran número de años utilizando tanto el aprendizaje superficial como el profundo (por ejemplo, redes recurrentes). Los desafíos adicionales fueron la escasez de datos de entrenamiento relevantes y la escasez de recursos computacionales.
La mayoría de las investigaciones sobre el reconocimiento de voz se han alejado de las redes neuronales y se han acercado al modelado generativo. Una excepción notable ocurrió a finales de la década de 1990 en SRI International. Las redes neuronales profundas fueron investigadas por SRI para su uso potencial en la detección de voz y altavoz. Esta investigación fue posible gracias a la financiación de la NSA y DARPA. Durante la evaluación de reconocimiento de hablantes que tuvo lugar en 1998 en el Instituto Nacional de Estándares y Tecnología (NIST), el equipo que trabajaba en el reconocimiento de hablantes, encabezado por Larry Heck, afirmó que había avances sustanciales en el uso de redes neuronales profundas en el procesamiento de audio. El aprendizaje para redes de creencias profundas fue el tema que se discutió en las publicaciones.
El aprendizaje profundo es un componente esencial de los sistemas más avanzados en una variedad de campos, incluida la visión por computadora y el reconocimiento de voz automatizado (ASR) en particular. Los resultados han aumentado gradualmente en una variedad de tareas de reconocimiento de voz de vocabulario amplio, así como en conjuntos de evaluación que se utilizan de forma rutinaria, como TIMIT (reconocimiento de voz automatizado) y MNIST (clasificación de imágenes). Sin embargo, lo hacen mejor en términos de visión artificial.
Según Yann LeCun, los primeros signos de la influencia que el aprendizaje profundo tendría en los negocios comenzaron a surgir a principios de la década de 2000. En ese momento, las CNN ya estaban procesando aproximadamente entre el 10 y el 20 por ciento de todos los cheques que se firmaban en los Estados Unidos. Alrededor del año 2010, las empresas comenzaron a aplicar técnicas de aprendizaje profundo a proyectos de reconocimiento de voz a gran escala.
Las limitaciones de los modelos generativos profundos de voz, así como la posibilidad de que las redes neuronales profundas (DNN), con un hardware más capaz y conjuntos de datos a gran escala, pudieran llegar a ser prácticas, sirvieron de impulso para el Taller NIPS 2009 sobre Aprendizaje Profundo para el Reconocimiento de Voz. Este taller fue organizado por el Instituto Nacional para el Reconocimiento de Patrones (NIPS). Se pensó que los desafíos más significativos asociados con las redes neuronales podrían eludirse mediante el entrenamiento previo de DNN utilizando modelos generativos de redes de creencias profundas (DBN). Sin embargo, se descubrió que la sustitución del preentrenamiento por grandes cantidades de datos de entrenamiento para una retropropagación directa cuando se utilizaban DNN con grandes capas de salida dependientes del contexto producía tasas de error significativamente más bajas que el modelo de mezcla gaussiana (GMM)/modelo de Markov oculto (HMM) del estado del arte en ese momento y también que los sistemas basados en modelos generativos más avanzados. Esto se logró mediante el uso de DNN con grandes capas de salida dependientes del contexto.
En 2012, un grupo que lideraba George E. Dahl obtuvo el primer lugar en el "Merck Molecular Activity Challenge" al predecir con éxito el objetivo biomolecular de un solo medicamento utilizando redes neuronales profundas multitarea. Siguiendo un patrón observado en el reconocimiento de voz a gran escala, la tasa de error en la prueba de ImageNet que utilizó el aprendizaje profundo experimentó una nueva reducción en 2013 y 2014, respectivamente.
Después de eso, la clasificación de...