TÉCNICAS EM SOFTWARES LIVRES PARA LINGUÍSTICA DE CORPUS (10 ETAPA)

Fernando Antonio Saraiva Maia; Juliana Lopes Gurgel; Leidiana Iza Adrande Freitas; Leonel Figueiredo de Alencar Araripe

TÉCNICAS EM SOFTWARES LIVRES PARA LINGUÍSTICA DE CORPUS (10 ETAPA)

Autores

Fernando Antonio Saraiva Maia
Juliana Lopes Gurgel
Leidiana Iza Adrande Freitas
Leonel Figueiredo de Alencar Araripe

Resumo

No presente projeto, codificamos a valência verbal dos 500 verbos mais frequentes do português do Brasil, segundo o paradigma da Gramática Léxico-Funcional (LFG, do inglês Lexical-Functional Grammar). A BrGram, a mais extensa gramática computacional do português brasileiro no formalismo LFG/XLE, iniciada por Alencar (2013), ainda carece de um léxico suficiente para a análise de textos reais. Nesse sentido, a codificação dessas valências verbais em moldes no formato LFG/XLE, através da criação do módulo BrVal 1.0, contribuirá para a ampliação da cobertura da gramática. O módulo foi construído a partir da extração dos 500 verbos mais frequentes do corpus NILC/São Carlos, os quais tiveram suas valências codificadas segundo os usos presentes em Borba et al. (1991). A análise manual de um conjunto de 100 sentenças gramaticais (teste positivo) e de um conjunto de 100 sentenças agramaticais (teste negativo) resultou em 87% de sentenças analisadas para o teste positivo, contradizendo nossa hipótese de que a acurácia do módulo BrVal 1.0 seria de pelo menos 95%. Por outro lado, 18% das sentenças do teste negativo foram analisadas, divergindo do valor proposto por Butt et al. (1999), que deve ser 0%, a fim de garantir que a gramática não hipergere. Assim, um estudo mais aprofundado se faz necessário para aumentar a acurácia da gramática. Agradecemos ao apoio da UFC, através das bolsas concedidas, para a realização deste projeto.

Downloads

Publicado

2019-01-01

Edição

v. 4 n. 2 (2019): XXXVIII Encontro de Iniciação Científica

Seção

XXXVIII Encontro de Iniciação Científica

Licença

Autores que publicam nesta revista concordam com os seguintes termos:

a. Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License que permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.

b. Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.

c. Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.

Como Citar

TÉCNICAS EM SOFTWARES LIVRES PARA LINGUÍSTICA DE CORPUS (10 ETAPA). (2019). Encontros Universitários Da UFC, 4(2), 2051. https://periodicos.ufc.br/eu/article/view/59810

Baixar Citação