CapÃtulo 1 : Linguística computacional
Uma disciplina interdisciplinar, a linguística computacional centra-se na modelação computacional da linguagem natural, bem como na investigação de métodos computacionais relevantes para vários desafios linguísticos. Em geral, a linguística computacional baseia-se em uma ampla variedade de campos, incluindo, mas não limitado a, linguística, ciência da computação, inteligência artificial, matemática, lógica, filosofia, ciência cognitiva, psicologia cognitiva, psicolinguística, etnografia e neurociência.
No passado, a linguística computacional desenvolveu-se como um subcampo da inteligência artificial realizada por cientistas da computação que se especializaram no uso de computadores na tradução e análise de línguas naturais. Durante as décadas de 1970 e 1980, o assunto foi capaz de se tornar mais estabelecido graças à introdução de séries de conferências independentes, bem como a fundação da Association for Computational Linguistics (ACL).
A Association for Computational Linguistics (ACL) fornece a seguinte definição para o campo da linguística computacional:
... o uso de métodos científicos e análise computacional para o estudo da linguagem. Pesquisadores no campo da linguística computacional estão interessados em desenvolver modelos computacionais de muitos tipos diferentes de processos de linguagem.
Os termos "processamento de linguagem natural" (PNL) e "tecnologia da linguagem (humana)" são cada vez mais vistos como sendo quase sinônimo da palavra "linguística computacional". É o caso no ano de 2020. Desde o início dos anos 2000, essas frases têm colocado mais foco na investigação de aplicações reais do que em conceitos teóricos. Embora pertençam apenas ao subcampo da linguística computacional aplicada, na prática, eles suplantaram em grande parte o termo "linguística computacional" na comunidade PNL/LCA. Isto porque se referem mais explicitamente ao tema da linguística computacional aplicada.
O estudo da linguística computacional incorpora aspetos teóricos e práticos. O campo da linguística computacional teórica concentra-se em problemas que surgem nos campos da ciência cognitiva e da linguística teórica.
A criação de teorias formais de gramática (análise) e semântica é uma parte importante da linguística computacional teórica. Estas teorias estão muitas vezes enraizadas em lógicas formais e técnicas simbólicas (baseadas no conhecimento). Os domínios de investigação que estão sob a alçada da linguística computacional teórica incluem o seguinte:
A dificuldade computacional da linguagem natural, que se baseia principalmente na teoria dos autômatos e faz uso de gramática sensível ao contexto e máquinas de Turing linearmente limitadas.
Determinar lógicas apropriadas para a codificação de significado linguístico, criar automaticamente tais lógicas e raciocinar com essas lógicas são todos componentes da semântica computacional.
O aprendizado de máquina, que normalmente se baseia em abordagens estatísticas e, a partir de meados da década de 2010, em redes neurais: Socher et al., é o aspeto mais importante da linguística computacional aplicada (2012)
Existem outras divisões da computação em campos principais de acordo com vários critérios, como a divisão que existe entre linguística computacional teórica e prática. Estas divisões computacionais incluem:
independentemente da forma falada ou escrita da língua que está sendo processada: Os campos de reconhecimento de voz e síntese de fala investigam como os computadores podem compreender a linguagem falada e construir suas próprias versões dela.
trabalho que está sendo realizado, como analisar a linguagem (que envolve reconhecimento) ou gerar linguagem (que envolve geração): Os subcampos da linguística computacional que lidam com a desmontagem e remontagem da linguagem são chamados de análise e geração, respectivamente.
Tradicionalmente, o uso de computadores para resolver questões de pesquisa em áreas da linguística que se enquadram na alçada de outros subcampos tem sido categorizado como estando dentro da alçada do campo da linguística computacional. Isto envolve uma série de coisas, entre outras.
Linguística de corpus assistida por computador, que tem sido utilizada como método para alcançar avanços abrangentes na área da análise do discurso desde a sua criação na década de 1970, Simulação e investigação do desenvolvimento da linguagem usando linguística histórica e glottocronologia.
Apesar do fato de que a linguística computacional existia antes da invenção da inteligência artificial, ela é frequentemente classificada como um subcampo do estudo da inteligência artificial (IA). O campo da linguística computacional pode traçar suas raízes até as tentativas feitas na década de 1950 nos Estados Unidos de utilizar computadores para traduzir mecanicamente escritos de outras línguas, mais notavelmente publicações científicas russas, para o inglês. Estes esforços deram origem ao terreno. Algumas pesquisas na área de linguística computacional tentam desenvolver sistemas de processamento de voz ou texto que sejam operacionais, enquanto outras pesquisas na área pretendem desenvolver um sistema que permita a interação entre humanos e máquinas. Os agentes de conversação são um tipo de software projetado para facilitar a comunicação entre humanos e máquinas.
Da mesma forma que a linguística computacional pode ser realizada por especialistas de várias profissões e através de uma ampla variedade de departamentos, os domínios de pesquisa também podem abordar uma gama variada de temas. As seções que se seguem falarão sobre parte da literatura que está disponível em todo o campo. Esta literatura está dividida em quatro áreas principais do discurso, que são as seguintes: linguística do desenvolvimento, linguística estrutural, produção linguística e compreensão linguística.
A capacidade linguística de uma pessoa é um talento cognitivo que cresce e evolui ao longo da sua vida. Este processo de desenvolvimento tem sido investigado usando uma variedade de metodologias, e um desses métodos é uma abordagem computacional. A compreensão da linguagem humana através do uso de uma abordagem computacional é dificultada pelos limites que surgem ao longo da evolução da linguagem humana. Por exemplo, durante todo o processo de aprendizagem de uma língua, os bebês humanos são quase exclusivamente apresentados a fatos favoráveis. Consequentemente, isto delineia parâmetros específicos para um método computacional de simulação do processo de desenvolvimento e aquisição da linguagem em um indivíduo.
Uma abordagem computacional tem sido usada em um esforço para explicar o processo de desenvolvimento da aquisição da linguagem em crianças, o que levou à criação de gramáticas estatísticas, bem como modelos conexionistas. Ambos os resultados podem ser atribuídos à robustez da rede neural artificial que o projeto foi responsável por desenvolver.
Com o objetivo de pôr à prova várias teorias linguísticas, a capacidade das crianças de adquirir a linguagem também foi imitada usando robôs. A capacidade de aprender de forma semelhante à das crianças levou ao desenvolvimento de um modelo baseado num modelo de acessibilidade. Este modelo incluiu a criação de mapeamentos entre ações, perceções e efeitos, todos ligados às palavras faladas. É importante ressaltar que esses robôs foram capazes de adquirir mapeamentos funcionais de palavra para significado sem a exigência de estrutura gramatical. Isso simplificou enormemente o processo de aprendizagem e lançou luz sobre o material que promove nosso conhecimento atual da gênese da linguagem. É essencial compreender que este conhecimento só poderia ter sido validado experimentalmente através da utilização de uma estratégia computacional.
Usando redes neurais e sistemas robóticos de aprendizagem, o nosso conhecimento da evolução da linguagem de um ser humano ao longo da sua vida está continuamente a melhorar, o que nos está a permitir tirar algumas conclusões interessantes, Também é essencial ter em mente que as línguas, por si só, evoluem e progridem ao longo do tempo.
O uso de métodos computacionais para tentar explicar este fenómeno levou à descoberta de alguns factos extremamente intrigantes.
Utilizando a equação de Price e a dinâmica da urna da Pólya, os investigadores desenvolveram um modelo que não só prevê o curso do desenvolvimento linguístico futuro, mas também lança luz sobre o caminho que as línguas contemporâneas percorreram ao longo do seu percurso evolutivo.
Os resultados deste trabalho de modelagem são os seguintes:, usando o campo da linguística computacional, o que teria sido impensável em qualquer outra circunstância.
Os avanços que foram feitos no campo da linguística computacional contribuíram inquestionavelmente para um conhecimento muito maior do desenvolvimento da linguagem que ocorreu não apenas nos seres humanos, mas também ao longo de toda a história evolutiva. Como é possível modelar e alterar sistemas à vontade, a ciência agora tem uma técnica que é ética e capaz de testar teorias que, de outra forma, seriam difíceis de investigar.
É essencial ter uma compreensão da estrutura da linguagem, a fim de desenvolver modelos computacionais de linguagem mais precisos. Para isso, a língua inglesa tem sido submetida a uma pesquisa minuciosa utilizando métodos computacionais, com o objetivo de obter uma compreensão mais profunda do funcionamento da língua inglesa em um nível estrutural. A...