Capitolo 1 : Apprendimento profondo
Il deep learning, noto anche come deep structured learning, è un sottoinsieme di una famiglia più ampia di approcci di machine learning basati su reti neurali artificiali e apprendimento di rappresentazione. Il deep learning è noto anche come deep structured learning. È possibile imparare in un ambiente supervisionato, semi-supervisionato o non supervisionato.
Architetture di deep learning come le reti neurali profonde, le reti di credenze profonde, l'apprendimento per rinforzo profondo, le reti neurali ricorrenti e le reti neurali convoluzionali sono state applicate a campi come la visione artificiale, il riconoscimento vocale, l'elaborazione del linguaggio naturale, la traduzione automatica, la bioinformatica, la progettazione di farmaci, l'analisi delle immagini mediche, la scienza del clima, l'ispezione dei materiali e i programmi di giochi da tavolo, dove hanno prodotto risultati paragonabili a e, in alcuni casi, superiori a quelli prodotti dall'uomo.
L'impiego di numerosi livelli nella rete è ciò che si intende con il termine "profondo" quando ci si riferisce al deep learning. Ricerche precedenti hanno dimostrato che un percettrone lineare non può funzionare come classificatore universale; Tuttavia, una rete con una funzione di attivazione non polinomiale e un livello nascosto che ha una larghezza illimitata può. Il deep learning è uno sviluppo relativamente recente che si occupa di un numero infinito di livelli di dimensioni limitate. Ciò consente un'applicazione pratica e un'attuazione efficiente, pur mantenendo l'universalità teorica in circostanze moderate. Il deep learning consente ai livelli di essere eterogenei e di divergere in modo significativo dai modelli connessionisti fisiologicamente informati. Questo viene fatto allo scopo di migliorare l'efficienza, la formabilità e la comprensibilità, da cui deriva la parte "strutturata" del termine.
Il deep learning è una classe di algoritmi di machine learning che: 199-200 utilizza più livelli per estrarre progressivamente funzionalità di livello superiore dall'input grezzo.
Ad esempio, nel campo dell'elaborazione delle immagini, i bordi possono essere identificati ai livelli più bassi, mentre i livelli superiori possono riconoscere elementi rilevanti per l'uomo come numeri, caratteri o volti, come sono, ad esempio.
I modelli di deep learning possono anche includere formule proposizionali o variabili latenti organizzate a livello verticale in modelli generativi profondi, come i nodi nelle reti di credenze profonde e le macchine di Boltzmann profonde. La stragrande maggioranza dei modelli contemporanei di deep learning si basa su reti neurali artificiali, più specificamente reti neurali convoluzionali (CNN). Dopo quel punto, l'aggiunta di più livelli alla rete non migliora la sua capacità di approssimare le funzioni. Poiché i modelli profondi (CAP > 2) sono in grado di estrarre caratteristiche migliori rispetto ai modelli superficiali, l'aggiunta di più livelli aiuta ad apprendere in modo efficiente le funzionalità.
L'avida strategia strato per strato può essere utilizzata per sviluppare architetture di deep learning.
I metodi di deep learning eliminano la necessità di ingegnerizzare le funzionalità quando vengono applicati alle attività di apprendimento supervisionato. Lo fanno traducendo i dati in rappresentazioni intermedie compatte, che sono analoghe ai componenti principali. Questi metodi derivano anche strutture stratificate che rimuovono la ridondanza nella rappresentazione.
I problemi di apprendimento non supervisionato sono adatti all'uso di tecniche di deep learning. Questo è un vantaggio significativo a causa della maggiore disponibilità di dati non etichettati rispetto ai dati etichettati. Le reti di credenze profonde sono un esempio di un tipo di struttura profonda che può essere insegnata in modo non supervisionato.
Se la larghezza di una rete neurale profonda con attivazione ReLU è strettamente maggiore della dimensione di input, allora la rete può approssimare qualsiasi funzione integrabile di Lebesgue; Se la larghezza di una rete neurale profonda è inferiore o uguale alla dimensione di input, allora una rete neurale profonda non è un approssimatore universale. Le reti neurali profonde sono generalmente interpretate in termini di teorema dell'approssimazione universale.
L'interpretazione probabilistica
Secondo alcuni resoconti diversi, Frank Rosenblatt è stato colui che per primo ha inventato e studiato ciascuno dei componenti fondamentali utilizzati nei sistemi di deep learning di oggi. Nel libro di cui è autore intitolato "Principi di neurodinamica: percettroni e teoria dei meccanismi cerebrali", che è stato pubblicato dal Cornell Aeronautical Laboratory, Inc., Cornell University nel 1962, ha fornito una spiegazione di questo fenomeno.
Nel 1967, Alexey Ivakhnenko e Lapa presentarono il primo metodo di apprendimento generico e funzionante per percettroni supervisionati, profondi, feedforward e multistrato. Questo algoritmo è stato sviluppato da Alexey Ivakhnenko. mediante l'uso di collegamenti sia in avanti che all'indietro al fine di facilitare l'incorporazione flessibile del contesto nelle scelte e la risoluzione iterativa delle questioni locali.
A causa dell'elevato costo computazionale delle reti neurali artificiali (ANN) e della mancanza di comprensione di come il cervello collega le sue reti biologiche, negli anni '90 e 2000 sono stati modelli più semplici che utilizzano funzionalità artigianali specifiche per attività come i filtri Gabor e le macchine a vettori di supporto (SVM).
Le reti neurali artificiali sono state studiate per un gran numero di anni utilizzando sia l'apprendimento superficiale che quello profondo (ad esempio, le reti ricorrenti). Ulteriori sfide sono state la carenza di dati di addestramento rilevanti e la scarsità di risorse computazionali.
La maggior parte della ricerca sul riconoscimento vocale si è spostata dalle reti neurali alla modellazione generativa. Un'eccezione degna di nota si è verificata alla fine degli anni '90 presso SRI International. Le reti neurali profonde sono state studiate da SRI per il loro potenziale utilizzo nel rilevamento della voce e del parlante. Questa ricerca è stata resa possibile grazie ai finanziamenti della NSA e della DARPA. Durante la valutazione del riconoscimento del parlante che ha avuto luogo nel 1998 presso il National Institute of Standards and Technology (NIST), il team che lavorava al riconoscimento del parlante, guidato da Larry Heck, ha affermato progressi sostanziali nell'utilizzo delle reti neurali profonde nell'elaborazione audio. L'apprendimento per reti di credenze profonde è stato l'argomento discusso nelle pubblicazioni.
Il deep learning è una componente essenziale dei sistemi più all'avanguardia in una varietà di campi, tra cui la visione artificiale e il riconoscimento vocale automatizzato in particolare (ASR). I risultati sono gradualmente aumentati in una varietà di attività di riconoscimento vocale con vocabolario ampio, nonché in set di valutazione che vengono utilizzati di routine, come TIMIT (riconoscimento vocale automatizzato) e MNIST (classificazione delle immagini). Tuttavia, fanno meglio in termini di visione artificiale.
Secondo Yann LeCun, i primi segni dell'influenza che il deep learning avrebbe avuto sul business hanno iniziato a emergere nei primi anni 2000. A quel tempo, le CNN stavano già elaborando circa il 10-20% di tutti gli assegni firmati negli Stati Uniti. Intorno al 2010, le aziende hanno iniziato ad applicare le tecniche di deep learning a progetti di riconoscimento vocale su larga scala.
I limiti dei modelli generativi profondi del parlato, così come la possibilità che le reti neurali profonde (DNN), con hardware più capace e set di dati su larga scala, possano diventare pratiche, sono serviti da impulso per il NIPS Workshop del 2009 sull'apprendimento profondo per il riconoscimento vocale. Questo workshop è stato organizzato dal National Institute for Pattern Recognition (NIPS). Si pensava che le sfide più significative associate alle reti neurali potessero essere aggirate da DNN pre-addestramento utilizzando modelli generativi di reti di credenze profonde (DBN). Tuttavia, è stato scoperto che la sostituzione del pre-addestramento con grandi quantità di dati di addestramento per una semplice retropropagazione quando si utilizzano DNN con grandi livelli di output dipendenti dal contesto produceva tassi di errore significativamente inferiori rispetto all'allora all'avanguardia del modello di miscela gaussiana (GMM)/modello di Markov nascosto (HMM) e anche rispetto ai sistemi basati su modelli generativi più avanzati. Ciò è stato ottenuto utilizzando DNN con livelli di output di grandi dimensioni e dipendenti dal contesto.
Nel 2012, un gruppo guidato da George E. Dahl ha ottenuto il primo posto nella "Merck Molecular Activity Challenge" prevedendo con successo il bersaglio biomolecolare di un singolo farmaco utilizzando reti neurali profonde multi-task. Seguendo un modello osservato nel riconoscimento vocale su larga scala, il tasso di errore nel test ImageNet che ha utilizzato l'apprendimento profondo ha visto un'ulteriore riduzione rispettivamente nel 2013 e nel 2014.
Successivamente, la classificazione delle immagini è stata ampliata fino all'obiettivo più difficile di produrre descrizioni (didascalie) per le immagini, spesso utilizzando un mix di CNN e LSTM. La classificazione delle immagini ha fatto molta strada da allora.
Yoshua Bengio, Geoffrey Hinton e Yann LeCun sono stati insigniti del Turing Award nel marzo del 2019, per il loro contributo ai risultati concettuali e tecnici che hanno reso le reti neurali profonde...