CapÃtulo 1 : Lingüística computacional
La lingüística computacional, una disciplina interdisciplinaria, se centra en el modelado informático del lenguaje natural, así como en la investigación de métodos computacionales relevantes para diversos desafíos lingüísticos. En general, la lingüística computacional se basa en una amplia variedad de campos, que incluyen, entre otros, lingüística, informática, inteligencia artificial, matemáticas, lógica, filosofía, ciencia cognitiva, psicología cognitiva, psicolingüística, etnografía y neurociencia.
En el pasado, la lingüística computacional se desarrolló como un subcampo de la inteligencia artificial llevada a cabo por informáticos que se habían especializado en el uso de computadoras en la traducción y análisis de lenguajes naturales. Durante las décadas de 1970 y 1980, el tema pudo establecerse más gracias a la introducción de series de conferencias independientes, así como a la fundación de la Asociación de Lingüística Computacional (ACL).
La Asociación de Lingüística Computacional (ACL) proporciona la siguiente definición para el campo de la lingüística computacional:
... El uso de métodos científicos y análisis informáticos para el estudio del lenguaje. Los investigadores en el campo de la lingüística computacional están interesados en desarrollar modelos informáticos de muchos tipos diferentes de procesos lingüísticos.
Los términos "procesamiento del lenguaje natural" (NLP, por sus siglas en inglés) y "tecnología del lenguaje (humano)" se consideran cada vez más casi sinónimos de la palabra "lingüística computacional". Este es el caso del año 2020. Desde principios de la década de 2000, estas frases se han centrado más en la investigación de aplicaciones reales que en conceptos teóricos. Aunque solo pertenecen al subcampo de la lingüística computacional aplicada, en la práctica, han suplantado en gran medida el término "lingüística computacional" en la comunidad NLP/ACL. Esto se debe a que se refieren más explícitamente al tema de la lingüística computacional aplicada.
El estudio de la lingüística computacional incorpora aspectos teóricos y prácticos. El campo de la lingüística computacional teórica se centra en los problemas que surgen en los campos de la ciencia cognitiva y la lingüística teórica.
La creación de teorías formales de la gramática (análisis sintáctico) y la semántica es una parte importante de la lingüística computacional teórica. Estas teorías a menudo se basan en lógicas formales y técnicas simbólicas (basadas en el conocimiento). Los dominios de investigación que se encuentran dentro del ámbito de la lingüística computacional teórica incluyen los siguientes:
La dificultad computacional del lenguaje natural, que se basa principalmente en la teoría de autómatas y hace uso de la gramática sensible al contexto y las máquinas de Turing linealmente acotadas.
La determinación de lógicas apropiadas para la codificación del significado lingüístico, la creación automática de dichas lógicas y el razonamiento con esas lógicas son todos componentes de la semántica computacional.
El aprendizaje automático, que normalmente se ha basado en enfoques estadísticos y, desde mediados de la década de 2010, en redes neuronales: Socher et al., es el aspecto más importante de la lingüística computacional aplicada (2012)
Existen otras divisiones de la computacional en campos principales de acuerdo con diversos criterios, como la división que existe entre la lingüística computacional teórica y práctica. Estas divisiones de la computación incluyen:
Independientemente de la forma hablada o escrita del idioma que se está procesando: Los campos del reconocimiento de voz y la síntesis de voz investigan cómo las computadoras pueden comprender el lenguaje hablado y construir sus propias versiones del mismo.
trabajo que se está llevando a cabo, como analizar el lenguaje (que implica el reconocimiento) o generar el lenguaje (que implica la generación): Los subcampos de la lingüística computacional que se ocupan del desensamblaje y el reensamblaje del lenguaje se denominan análisis sintáctico y generación, respectivamente.
Tradicionalmente, el uso de computadoras para resolver problemas de investigación en áreas de la lingüística que caen bajo el ámbito de otros subcampos se ha categorizado como dentro del ámbito del campo de la lingüística computacional. Esto implica, entre otras, una serie de cosas.
Lingüística de corpus asistida por computadora, que se ha utilizado como un método para lograr avances integrales en el área del análisis del discurso desde su inicio en la década de 1970, Simulación e investigación del desarrollo del lenguaje utilizando la lingüística histórica y la glotocronología.
A pesar de que la lingüística computacional existía antes de la invención de la inteligencia artificial, a menudo se clasifica como un subcampo del estudio de la inteligencia artificial (IA). El campo de la lingüística computacional puede tener sus raíces en los intentos realizados en la década de 1950 en los Estados Unidos para utilizar computadoras para traducir mecánicamente escritos de otros idiomas, sobre todo publicaciones científicas rusas, al inglés. Estos esfuerzos dieron origen al campo. Algunas investigaciones en el tema de la lingüística computacional intentan desarrollar sistemas de procesamiento de voz o texto que sean operativos, mientras que otras investigaciones en el campo intentan desarrollar un sistema que permita la interacción entre humanos y máquinas. Los agentes conversacionales son un tipo de software diseñado para facilitar la comunicación entre humanos y máquinas.
De la misma manera que la lingüística computacional puede ser llevada a cabo por especialistas de una serie de profesiones y a través de una amplia variedad de departamentos, los dominios de investigación también pueden abordar una variada gama de temas. En las secciones que siguen se hablará de parte de la literatura que está disponible en todo el campo. Esta literatura se divide en cuatro áreas principales del discurso, que son las siguientes: lingüística del desarrollo, lingüística estructural, producción lingüística y comprensión lingüística.
La capacidad lingüística de una persona es un talento cognitivo que crece y evoluciona a lo largo de su vida. Este proceso de desarrollo se ha investigado utilizando una variedad de metodologías, y uno de esos métodos es un enfoque computacional. La comprensión del lenguaje humano mediante el uso de un enfoque informático se hace más difícil por los límites que surgen a lo largo de la evolución del lenguaje humano. Por ejemplo, a lo largo del proceso de aprendizaje de un idioma, a los bebés humanos se les presentan casi exclusivamente hechos favorables. En consecuencia, se describen parámetros específicos para un método computacional de simulación del proceso de desarrollo y adquisición del lenguaje en un individuo.
Se ha utilizado un enfoque computacional en un esfuerzo por explicar el proceso de desarrollo de la adquisición del lenguaje en los niños, lo que ha llevado a la creación de gramáticas estadísticas, así como modelos conexionistas. Ambos resultados pueden atribuirse a la robustez de la red neuronal artificial que el proyecto se encargó de desarrollar.
Con el fin de poner a prueba diversas teorías lingüísticas, también se ha imitado la capacidad de los niños para adquirir el lenguaje mediante robots. La capacidad de aprender de una manera similar a la de los niños llevó al desarrollo de un modelo que se basó en un modelo de affordance. Este modelo incluía la creación de mapeos entre acciones, percepciones y efectos, todos los cuales estaban conectados a las palabras habladas. Es importante destacar que estos robots pudieron adquirir mapeos funcionales de palabras a significados sin el requisito de una estructura gramatical. Esto simplificó enormemente el proceso de aprendizaje y arrojó luz sobre el material que amplía nuestro conocimiento actual de la génesis del lenguaje. Es esencial entender que este conocimiento solo podría haber sido validado experimentalmente mediante el uso de una estrategia computacional.
Utilizando redes neuronales y sistemas robóticos de aprendizaje, nuestro conocimiento de la evolución del lenguaje de un ser humano a lo largo de su vida está en continua mejora, lo que nos está permitiendo sacar algunas conclusiones interesantes, también es fundamental tener en cuenta que los idiomas, en sí mismos, evolucionan y progresan a lo largo del tiempo.
El uso de métodos computacionales para tratar de explicar este fenómeno ha llevado al descubrimiento de algunos hechos extremadamente intrigantes.
Utilizando la ecuación de Price y la dinámica de la urna de Pólya, los investigadores han desarrollado un modelo que no solo predice el curso del desarrollo lingüístico futuro, sino que también arroja luz sobre el camino que las lenguas contemporáneas han tomado a lo largo de su viaje evolutivo.
Los resultados de este trabajo de modelización son los siguientes: utilizando el campo de la lingüística computacional, lo que hubiera sido impensable en cualquier otra circunstancia.
Los avances que se han realizado en el campo de la lingüística computacional han contribuido incuestionablemente a un conocimiento mucho mejor del desarrollo del lenguaje que ocurrió no solo en los humanos, sino también a lo largo de todo el curso de la historia evolutiva. Debido a que es posible modelar y alterar sistemas a voluntad, la ciencia ahora tiene una técnica que es ética y capaz de probar...