Capitolo 1 : Linguistica computazionale
La linguistica computazionale è una disciplina interdisciplinare che si concentra sulla modellazione al computer del linguaggio naturale, nonché sullo studio di metodi computazionali rilevanti per varie sfide linguistiche. In generale, la linguistica computazionale attinge a un'ampia varietà di campi, tra cui, a titolo esemplificativo ma non esaustivo, linguistica, informatica, intelligenza artificiale, matematica, logica, filosofia, scienze cognitive, psicologia cognitiva, psicolinguistica, etnografia e neuroscienze.
In passato, la linguistica computazionale si è sviluppata come un sottocampo dell'intelligenza artificiale svolto da informatici che si erano specializzati nell'uso dei computer nella traduzione e nell'analisi dei linguaggi naturali. Durante gli anni '70 e '80, l'argomento è stato in grado di affermarsi grazie all'introduzione di serie di conferenze indipendenti e alla fondazione dell'Association for Computational Linguistics (ACL).
L'Association for Computational Linguistics (ACL) fornisce la seguente definizione per il campo della linguistica computazionale:
... l'uso di metodi scientifici e di analisi informatiche per lo studio del linguaggio. I ricercatori nel campo della linguistica computazionale sono interessati allo sviluppo di modelli informatici di molti diversi tipi di processi linguistici.
I termini "elaborazione del linguaggio naturale" (NLP) e "tecnologia del linguaggio (umano)" sono sempre più visti come sinonimi della parola "linguistica computazionale". Questo è il caso dell'anno 2020. Dall'inizio degli anni 2000, queste frasi si sono concentrate più sull'indagine di applicazioni reali che su concetti teorici. Sebbene riguardino esclusivamente il sottocampo della linguistica computazionale applicata, in pratica hanno ampiamente soppiantato il termine "linguistica computazionale" nella comunità NLP/ACL. Questo perché si riferiscono più esplicitamente al tema della linguistica computazionale applicata.
Lo studio della linguistica computazionale incorpora sia aspetti teorici che pratici. Il campo della linguistica computazionale teorica si concentra sui problemi che sorgono nei campi delle scienze cognitive e della linguistica teorica.
La creazione di teorie formali della grammatica (parsing) e della semantica è una parte importante della linguistica computazionale teorica. Queste teorie sono spesso radicate in logiche formali e tecniche simboliche (basate sulla conoscenza). I domini di ricerca che rientrano nell'ambito della linguistica computazionale teorica includono quanto segue:
La difficoltà computazionale del linguaggio naturale, che si basa principalmente sulla teoria degli automi e fa uso di una grammatica sensibile al contesto e di macchine di Turing linearmente limitate.
Determinare logiche appropriate per la codifica del significato linguistico, creare automaticamente tali logiche e ragionare con tali logiche sono tutti componenti della semantica computazionale.
L'apprendimento automatico, che si è tipicamente basato su approcci statistici e, dalla metà degli anni 2010, sulle reti neurali: Socher et al., è l'aspetto più importante della linguistica computazionale applicata (2012)
Esistono altre divisioni della computazionalità in campi principali in base a vari criteri, come il divario che esiste tra linguistica computazionale teorica e pratica. Queste divisioni computazionali includono:
indipendentemente dalla forma parlata o scritta della lingua che viene elaborata: i campi del riconoscimento vocale e della sintesi vocale indagano su come i computer possono comprendere la lingua parlata e costruirne le proprie versioni.
lavoro che viene svolto, come l'analisi del linguaggio (che implica il riconoscimento) o la generazione del linguaggio (che coinvolge la generazione): I sottocampi della linguistica computazionale che si occupano del disassemblaggio e del riassemblaggio del linguaggio sono chiamati rispettivamente analisi e generazione.
Tradizionalmente, l'uso dei computer per risolvere problemi di ricerca in aree della linguistica che rientrano nell'ambito di altri sottocampi è stato classificato come appartenente al campo della linguistica computazionale. Ciò comporta, tra l'altro, una serie di cose.
Linguistica dei corpora assistita da computer, che è stata utilizzata come metodo per ottenere scoperte complete nell'area dell'analisi del discorso sin dal suo inizio negli anni '70, Simulazione e indagine dello sviluppo del linguaggio utilizzando la linguistica storica e la glottocronologia.
Nonostante il fatto che la linguistica computazionale esistesse prima dell'invenzione dell'intelligenza artificiale, è spesso classificata come un sottocampo dello studio dell'intelligenza artificiale (AI). Il campo della linguistica computazionale può far risalire le sue radici ai tentativi fatti negli anni '50 negli Stati Uniti di utilizzare i computer per tradurre meccanicamente scritti da altre lingue, in particolare pubblicazioni scientifiche russe, in inglese. Questi sforzi hanno dato origine al campo. Alcune ricerche in materia di linguistica computazionale cercano di sviluppare sistemi di elaborazione vocale o del testo che siano operativi, mentre altre ricerche in questo campo intendono sviluppare un sistema che consenta l'interazione tra esseri umani e macchine. Gli agenti conversazionali sono una sorta di software progettato per facilitare la comunicazione tra esseri umani e macchine.
Allo stesso modo in cui la linguistica computazionale può essere svolta da specialisti di diverse professioni e attraverso un'ampia varietà di dipartimenti, i domini di ricerca possono anche affrontare una vasta gamma di temi. Le sezioni che seguono parleranno di parte della letteratura disponibile in tutto il campo. Questa letteratura è suddivisa in quattro principali aree di discorso, che sono le seguenti: linguistica dello sviluppo, linguistica strutturale, produzione linguistica e comprensione linguistica.
L'abilità linguistica di una persona è un talento cognitivo che cresce e si evolve nel corso della sua vita. Questo processo di sviluppo è stato studiato utilizzando una varietà di metodologie e uno di questi metodi è un approccio computazionale. La comprensione del linguaggio umano attraverso l'uso di un approccio informatico è resa più difficile dai limiti che emergono durante l'evoluzione del linguaggio umano. Ad esempio, durante tutto il processo di apprendimento di una lingua, ai neonati umani vengono presentati quasi esclusivamente fatti favorevoli. Di conseguenza, questo delinea parametri specifici per un metodo computazionale di simulazione del processo di sviluppo e acquisizione del linguaggio in un individuo.
Un approccio computazionale è stato utilizzato nel tentativo di spiegare il processo di sviluppo dell'acquisizione del linguaggio nei bambini, che ha portato alla creazione di grammatiche statistiche e modelli connessionisti. Entrambi questi risultati possono essere attribuiti alla robustezza della rete neurale artificiale di cui il progetto è stato responsabile dello sviluppo.
Al fine di mettere alla prova varie teorie linguistiche, la capacità dei bambini di acquisire il linguaggio è stata anche imitata utilizzando i robot. La capacità di apprendere in modo simile a quello dei bambini ha portato allo sviluppo di un modello basato su un modello di affordance. Questo modello includeva la creazione di mappature tra azioni, percezioni ed effetti, tutti collegati alle parole pronunciate. È importante sottolineare che questi robot sono stati in grado di acquisire mappature funzionali tra parole e significati senza la necessità di una struttura grammaticale. Questo ha semplificato enormemente il processo di apprendimento e ha fatto luce su materiale che approfondisce la nostra attuale conoscenza della genesi del linguaggio. È essenziale capire che questa conoscenza avrebbe potuto essere convalidata sperimentalmente solo attraverso l'uso di una strategia computazionale.
Utilizzando reti neurali e sistemi robotici di apprendimento, la nostra conoscenza dell'evoluzione linguistica di un essere umano nel corso della sua vita è in continuo miglioramento, il che ci sta permettendo di trarre alcune conclusioni interessanti, È anche essenziale tenere presente che le lingue, di per sé, si evolvono e progrediscono nel corso del tempo.
L'uso di metodi computazionali per cercare di spiegare questo fenomeno ha portato alla scoperta di alcuni fatti estremamente intriganti.
Utilizzando l'equazione di Price e la dinamica dell'urna di Pólya, i ricercatori hanno sviluppato un modello che non solo prevede il corso del futuro sviluppo linguistico, ma fa anche luce sul percorso che le lingue contemporanee hanno intrapreso durante il loro percorso evolutivo.
I risultati di questo lavoro di modellizzazione sono i seguenti: utilizzando il campo della linguistica computazionale, ciò che sarebbe stato impensabile in qualsiasi altra circostanza.
I progressi che sono stati fatti nel campo della linguistica computazionale hanno indiscutibilmente contribuito a una conoscenza molto più approfondita dello sviluppo del linguaggio che si è verificato non solo negli esseri umani ma anche in tutto il corso della storia evolutiva. Poiché è possibile modellare e alterare i sistemi a piacimento, la scienza dispone ora di una tecnica etica e in grado di testare teorie che altrimenti sarebbero difficili da indagare.
È essenziale avere una comprensione della struttura del linguaggio al fine di sviluppare modelli informatici più accurati del linguaggio. A questo scopo, la lingua inglese è stata oggetto di un'attenta ricerca con metodi computazionali, con l'obiettivo di acquisire una comprensione più...