Capítulo 2 : Red neuronal (aprendizaje automático)
Una red neuronal, también conocida como red neuronal artificial o red neuronal, y conocida por sus abreviaturas ANN o NN, es un modelo que se utiliza en el aprendizaje automático. Este modelo se inspira en la forma y función de las redes neuronales biológicas observadas en los cerebros de los animales.
Las neuronas artificiales que componen una red neuronal artificial (RNA) son unidades o nodos conectados que se modelan a partir de las neuronas que se encuentran en el cerebro. Los bordes que los conectan son una representación de las sinapsis que se encuentran en el cerebro. Después de recibir señales de otras neuronas que están conectadas a ella, cada neurona artificial procesa esas señales y luego las transmite a otras neuronas que están conectadas a ella. La "señal" es un número real, y la función de activación es una función no lineal que opera sobre el total de las entradas a cada neurona. Esta función se encarga de calcular la salida de cada neurona. Durante el proceso de aprendizaje, se utiliza un peso para determinar la intensidad de la señal en cada enlace. Este peso se ajusta y ajusta según sea necesario.
En una situación típica, las neuronas se agrupan en capas. Es posible que varias capas realicen una transformación única en sus respectivas entradas. Es posible que las señales pasen a través de numerosas capas intermedias, también conocidas como capas ocultas, ya que se abren camino desde la primera capa, que es la capa de entrada, hasta la última capa, que es la capa de salida. Cuando una red incluye al menos dos capas ocultas, a menudo se la denomina red neuronal profunda para describir la red.
Existen varias aplicaciones para las redes neuronales artificiales, incluido el modelado predictivo, el control adaptativo y la resolución de problemas en inteligencia artificial. También hay muchas otras aplicaciones. Tienen la capacidad de adquirir conocimientos a través de la experiencia y pueden hacer inferencias a partir de una colección de hechos que parecen no estar relacionados entre sí.
La mayoría de las veces, las redes neuronales se entrenan a través del proceso de limitación empírica del riesgo. Este enfoque se basa en el concepto de optimizar los parámetros de la red para minimizar la diferencia, también conocida como riesgo empírico, entre la salida anticipada y los valores objetivo reales en un conjunto de datos en particular. La estimación de los parámetros de la red se realiza a menudo mediante la utilización de enfoques basados en gradientes, como la retropropagación. Las redes neuronales artificiales (ANN) aprenden de los datos de entrenamiento etiquetados durante la fase de entrenamiento cambiando iterativamente sus parámetros para minimizar una función de pérdida que se ha establecido. Con esta estrategia, la red es capaz de generalizar a datos que no ha encontrado anteriormente.
Hace más de dos siglos, los primeros trabajos en estadística sentaron las bases de las redes neuronales profundas que se utilizan hoy en día. El tipo más básico de red neuronal feedforward (FNN) es una red lineal. Este tipo de red se compone de una sola capa de nodos de salida que tienen funciones de activación lineal. Las entradas se envían directamente a las salidas a través de una serie de pesos. Los cálculos se realizan en cada nodo para determinar el total de los productos de los pesos y los insumos. Con el fin de minimizar los errores cuadráticos medios que se producen entre estos resultados estimados y los valores objetivo que se han proporcionado, se ha creado un ajuste de las ponderaciones. Tanto el método de mínimos cuadrados como el de la regresión lineal son nombres que se han utilizado para referirse a esta técnica desde hace más de dos siglos. Legendre (1805) y Gauss (1795) lo utilizaron como un método para determinar un ajuste lineal aproximado decente a un conjunto de puntos con el fin de hacer predicciones sobre el movimiento de los planetas.
El funcionamiento de las computadoras digitales, como la arquitectura von Neumann, se ha logrado tradicionalmente a través de la ejecución de instrucciones explícitas, con el acceso a la memoria mediante una serie de procesadores discretos. Ciertas redes neuronales, por otro lado, se desarrollaron inicialmente como resultado de un intento de describir el procesamiento de información que ocurre en los sistemas biológicos utilizando el marco del conexionismo. La computación conexionista, en contraste con el enfoque de von Neumann, no divide la memoria y el procesamiento en dos categorías distintas.
En 1943, Warren McCulloch y Walter Pitts examinaron la posibilidad de idear un modelo computacional para redes neuronales que no incluyera el aprendizaje. Como resultado de este modelo, la investigación pudo dividirse en dos metodologías distintas. El primer método se concentró en los procesos biológicos, mientras que el segundo método se centró en la utilización de redes neuronales en el campo de la ciencia de la inteligencia artificial.
D. nació a finales de la década de 1940. El aprendizaje hebbiano es una hipótesis de aprendizaje que fue propuesta por O. Hebb. Esta hipótesis se basó en el mecanismo de la plasticidad cerebral y se convirtió en una teoría. Numerosas redes neuronales tempranas, como el perceptrón de Rosenblatt y la red de Hopfield, lo utilizaron en sus operaciones. En 1954, Farley y Clark llevaron a cabo una simulación de una red hebbiana utilizando dispositivos informáticos. Rochester, Holland, Habit y Duda (1956) fueron los que idearon más máquinas computacionales de redes neuronales.
La Oficina de Investigación Naval de los Estados Unidos proporcionó fondos para el desarrollo del perceptrón, que fue una de las primeras redes neuronales artificiales que se desarrollaron. El perceptrón fue descrito por el psicólogo Frank Rosenblatt en el año 1958.
Un dispositivo similar al perceptrón fue desarrollado por Farley y Clark, según R. D. Joseph (1960). Escribe que "Farley y Clark, del Laboratorio Lincoln del MIT, en realidad precedieron a Rosenblatt en el desarrollo de un dispositivo similar al perceptrón". Sin embargo, "dejaron el tema".
Como resultado del perceptrón, el interés público en la investigación relacionada con las redes neuronales artificiales aumentó, lo que llevó a un aumento significativo en la financiación del gobierno de los Estados Unidos. "La edad de oro de la IA" fue impulsada por las afirmaciones optimistas hechas por los científicos de la computación sobre la capacidad de los perceptrones para replicar la inteligencia humana. Esta circunstancia ayudó al desarrollo de la inteligencia artificial.
No fue posible que los perceptrones iniciales tuvieran unidades ocultas adaptativas. Sin embargo, Joseph (1960) también abordó los perceptrones multicapa que incluían una capa oculta adaptable en su estructura. Estos conceptos fueron citados y utilizados por Rosenblatt (1962), quien también dio crédito al trabajo realizado por H. Both D. Block y B. El Caballero, W. Sin embargo, los primeros esfuerzos que se realizaron no dieron como resultado un algoritmo de aprendizaje que fuera capaz de trabajar para unidades ocultas, también conocido como aprendizaje profundo.
En las décadas de 1960 y 1970, se llevó a cabo investigación fundamental sobre las redes neuronales artificiales (ANN). La técnica Group de manejo de datos, que fue desarrollada en 1965 en Ucrania por Alexey Ivakhnenko y Lapa, fue el primer algoritmo para el aprendizaje profundo que tuvo éxito en su propósito. Era una forma de entrenar redes neuronales que eran arbitrariamente profundas. Según su interpretación, se trataba de un tipo de regresión polinómica o una generalización del análisis del perceptrón de Rosenblatt. Este método, que se basa en el entrenamiento capa por capa a través de análisis de regresión, fue reportado en un estudio que se publicó en 1971. La red profunda que se desarrolló utilizando este método incluía ocho capas. Mediante la utilización de un conjunto de validación distinto, se eliminan las unidades ocultas innecesarias. Debido al hecho de que las funciones de activación de los nodos se calculan utilizando polinomios de Kolmogorov-Gabor, estas fueron también las primeras redes profundas en contener unidades multiplicativas, a veces conocidas como "puertas".
El primer perceptrón multicapa de aprendizaje profundo que se aprendió utilizando el descenso de gradiente estocástico fue publicado por Shun'ichi Amari en el año 1967. Durante el curso de los experimentos informáticos que llevó a cabo Saito, un estudiante de Amari, un perceptrón multicapa (MLP) con cinco capas y dos capas que podían modificarse, aprendió representaciones internas para identificar clases de patrones no linealmente separables. Como resultado de nuevas mejoras en el hardware y los ajustes de hiperparámetros, el descenso de gradiente estocástico de extremo a extremo se ha convertido en la técnica de entrenamiento más popular en la actualidad.
Fue en 1969 cuando Kunihiko Fukushima presentó por primera vez la función de activación ReLU, que significa unidad lineal rectificada. Ya es bien sabido que el rectificador es la función de activación más utilizada para el aprendizaje profundo.
Sin embargo, la investigación se detuvo en los Estados Unidos hasta el trabajo de Minsky y Papert (1969), quienes observaron que los perceptrones básicos eran incapaces de procesar el circuito exclusivo. En el caso de las redes profundas propuestas por Ivakhnenko (1965) y Amari (1967), esta comprensión era completamente irrelevante.
Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y...