Nheentiquetador: um etiquetador morfossintático para o sintagma nominal do nheengatu

Autores

  • Dominick Maia Alexandre
  • Juliana Lopes Gurgel
  • Leonel Figueiredo de Alencar Araripe

Resumo

Este trabalho tem o objetivo de apresentar os resultados da construção do primeiro etiquetador morfossintático para o sintagma nominal da Língua Geral Amazônica (LGA), ou nheengatu. Em face do decrescente número de falantes e da escassez de recursos de processamento de linguagem natural (PLN) para as línguas indígenas faladas na América Latina, a construção de um etiquetador morfossintático para o nheengatu representa um avanço importante em favor da pesquisa, descrição e preservação dessa língua. A abordagem empregada na construção do etiquetador foi baseada no conhecimento, por meio da implementação de regras, com base nas descrições gramaticais de Navarro (2011) e Cruz (2011). Em sua versão beta, o Nheentiquetador foi testado com relação a uma amostra de 10% das sentenças do corpus compilado, utilizando a métrica F-score. O resultado obtido com esta medida foi 0.83, ou seja, a acurácia da ferramenta na etiquetagem do conjunto de sentenças foi de 83%. Os produtos derivados desta pesquisa envolvem um corpus anotado do nheengatu, um conjunto de etiquetas morfossintáticas, um dicionário em Python e um etiquetador morfossintático. Todos os produtos estão sendo disponibilizados, paulatinamente e sob licença livre, à comunidade acadêmica pela internet.

Downloads

Publicado

2022-01-01