Chapitre 1 : Linguistique informatique
Discipline interdisciplinaire, la linguistique computationnelle se concentre sur la modélisation informatique du langage naturel, ainsi que sur l'étude de méthodes de calcul pertinentes à divers défis linguistiques. En général, la linguistique informatique s'appuie sur une grande variété de domaines, y compris, mais sans s'y limiter, la linguistique, l'informatique, l'intelligence artificielle, les mathématiques, la logique, la philosophie, les sciences cognitives, la psychologie cognitive, la psycholinguistique, l'ethnographie et les neurosciences.
Dans le passé, la linguistique informatique s'est développée comme un sous-domaine de l'intelligence artificielle effectué par des informaticiens spécialisés dans l'utilisation des ordinateurs dans la traduction et l'analyse des langues naturelles. Au cours des années 1970 et 1980, le sujet a pu s'imposer davantage grâce à l'introduction de séries de conférences indépendantes ainsi qu'à la fondation de l'Association for Computational Linguistics (ACL).
L'Association for Computational Linguistics (ACL) fournit la définition suivante pour le domaine de la linguistique informatique :
... l'utilisation de méthodes scientifiques et d'analyses informatiques pour l'étude du langage. Les chercheurs dans le domaine de la linguistique informatique s'intéressent au développement de modèles informatiques de nombreux types de processus langagiers.
Les termes « traitement du langage naturel » (NLP) et « technologie du langage (humain) » sont de plus en plus considérés comme étant presque synonymes du mot « linguistique informatique ». C'est le cas en 2020. Depuis le début des années 2000, ces expressions mettent davantage l'accent sur l'investigation d'applications réelles que sur des concepts théoriques. Bien qu'ils ne concernent que le sous-domaine de la linguistique informatique appliquée, en pratique, ils ont largement supplanté le terme « linguistique informatique » dans la communauté NLP/ACL. En effet, ils se réfèrent plus explicitement au sujet de la linguistique informatique appliquée.
L'étude de la linguistique informatique intègre à la fois des aspects théoriques et pratiques. Le domaine de la linguistique computationnelle théorique se concentre sur les problèmes qui se posent dans les domaines des sciences cognitives et de la linguistique théorique.
La création de théories formelles de la grammaire (parsing) et de la sémantique est une partie importante de la linguistique computationnelle théorique. Ces théories sont souvent enracinées dans des logiques formelles et des techniques symboliques (basées sur la connaissance). Les domaines de recherche qui relèvent de la linguistique informatique théorique sont les suivants :
La difficulté de calcul du langage naturel, qui est basée principalement sur la théorie des automates et utilise une grammaire sensible au contexte et des machines de Turing linéairement limitées.
Déterminer les logiques appropriées pour l'encodage du sens linguistique, créer automatiquement de telles logiques et raisonner avec ces logiques sont tous des composants de la sémantique informatique.
L'apprentissage automatique, qui s'est généralement appuyé sur des approches statistiques et, à partir du milieu des années 2010, sur des réseaux de neurones : Socher et al., est l'aspect le plus important de la linguistique computationnelle appliquée (2012)
Il existe d'autres divisions de l'informatique en domaines principaux selon divers critères, tels que la division qui existe entre la linguistique informatique théorique et pratique. Ces divisions du calcul comprennent :
quelle que soit la forme parlée ou écrite de la langue traitée : Les domaines de la reconnaissance vocale et de la synthèse vocale étudient comment les ordinateurs peuvent comprendre le langage parlé et en construire leurs propres versions.
travail en cours d'exécution, tel que l'analyse du langage (qui implique la reconnaissance) ou la génération du langage (qui implique la génération) : Les sous-domaines de la linguistique informatique qui traitent du désassemblage et du réassemblage du langage sont appelés respectivement analyse et génération.
Traditionnellement, l'utilisation d'ordinateurs pour résoudre des problèmes de recherche dans des domaines de la linguistique qui relèvent d'autres sous-domaines a été classée comme relevant du domaine de la linguistique informatique. Cela implique un certain nombre de choses, entre autres.
La linguistique de corpus assistée par ordinateur, qui a été utilisée comme méthode pour réaliser des percées complètes dans le domaine de l'analyse du discours depuis sa création dans les années 1970, la simulation et l'enquête sur le développement du langage à l'aide de la linguistique historique et de la glottochronologie.
Malgré le fait que la linguistique informatique existait avant l'invention de l'intelligence artificielle, elle est souvent classée comme un sous-domaine de l'étude de l'intelligence artificielle (IA). Le domaine de la linguistique informatique peut retracer ses racines jusqu'aux tentatives faites dans les années 1950 aux États-Unis d'utiliser des ordinateurs pour traduire mécaniquement des écrits d'autres langues, notamment des publications scientifiques russes, en anglais. Ces efforts ont donné naissance à ce domaine. Certaines recherches en linguistique informatique tentent de développer des systèmes de traitement de la voix ou du texte opérationnels, tandis que d'autres recherches dans le domaine visent à développer un système permettant l'interaction entre les humains et les machines. Les agents conversationnels sont des types de logiciels conçus pour faciliter la communication entre les humains et les machines.
De la même manière que la linguistique computationnelle peut être exercée par des spécialistes de plusieurs professions et par l'intermédiaire d'une grande variété de départements, les domaines de recherche peuvent également aborder un éventail varié de thèmes. Les sections qui suivent traitent d'une partie de la littérature disponible dans l'ensemble du domaine. Cette littérature est divisée en quatre grands domaines de discours, qui sont les suivants : la linguistique développementale, la linguistique structurale, la production linguistique et la compréhension linguistique.
La capacité linguistique d'une personne est un talent cognitif qui grandit et évolue tout au long de sa vie. Ce processus de développement a été étudié à l'aide de diverses méthodologies, et l'une de ces méthodes est une approche informatique. La compréhension du langage humain par l'utilisation d'une approche informatique est rendue plus difficile par les limites qui surgissent tout au long de l'évolution du langage humain. Par exemple, tout au long du processus d'apprentissage d'une langue, les nourrissons humains sont presque exclusivement présentés avec des faits favorables. Par conséquent, il s'agit d'une description spécifique des paramètres d'une méthode computationnelle de simulation du processus de développement et d'acquisition du langage chez un individu.
Une approche computationnelle a été utilisée dans le but d'expliquer le processus de développement de l'acquisition du langage chez les enfants, ce qui a conduit à la création de grammaires statistiques ainsi que de modèles connexionnistes. Ces deux résultats peuvent être attribués à la robustesse du réseau de neurones artificiels que le projet était responsable de développer.
Dans le but de mettre à l'épreuve diverses théories linguistiques, la capacité des enfants à acquérir le langage a également été imitée à l'aide de robots. La capacité d'apprendre d'une manière similaire à celle des enfants a conduit à l'élaboration d'un modèle basé sur un modèle d'affordance. Ce modèle comprenait la création de mappages entre les actions, les perceptions et les effets, qui étaient tous liés à des mots parlés. Il est important de noter que ces robots ont été capables d'acquérir des correspondances fonctionnelles entre les mots et le sens sans avoir besoin de structure grammaticale. Cela a considérablement simplifié le processus d'apprentissage et a mis en lumière du matériel qui approfondit notre connaissance actuelle de la genèse du langage. Il est essentiel de comprendre que ces connaissances n'ont pu être validées expérimentalement que par l'utilisation d'une stratégie de calcul.
À l'aide de réseaux neuronaux et de systèmes robotiques apprenants, notre connaissance de l'évolution du langage d'un humain au cours de sa vie ne cesse de s'améliorer, ce qui nous permet de tirer des conclusions intéressantes, Il est également essentiel de garder à l'esprit que les langues, en elles-mêmes, évoluent et progressent au fil du temps.
L'utilisation de méthodes informatiques pour tenter d'expliquer ce phénomène a conduit à la découverte de faits extrêmement intriguants.
À l'aide de l'équation de Price et de la dynamique de l'urne de Pólya, les chercheurs ont développé un modèle qui non seulement prédit le cours du développement linguistique futur, mais met également en lumière le chemin que les langues contemporaines ont emprunté tout au long de leur parcours évolutif.
Les résultats de ce travail de modélisation sont les suivants : en utilisant le domaine de la linguistique informatique, ce qui aurait été impensable dans d'autres circonstances.
Les progrès réalisés dans le domaine de la linguistique informatique ont sans aucun doute contribué à une connaissance beaucoup plus approfondie du développement du...