Cearenses criam tradutor da única língua viva descendente do tupi antigo


Foto: UFC/Reprodução

Um grupo de pesquisa da Universidade Federal do Ceará vem criando uma série de ferramentas computacionais para o processamento do “nheengatu” — a língua geral amazônica (LGA) — único idioma vivo descendente do tupi antigo. O equipamento permite a investigação da estrutura gramatical da língua, e amplia suas possibilidades de tradução.

A UFC informou que o nheegatu tem apenas 6 mil falantes no Brasil e 8 mil na Colômbia, por isso, o idioma se encontra em risco de extinção. Sob essa perspectiva, o grupo de pesquisa Computação e Linguagem Natural (COMPLIN) tenta preservar a memória e ampliar o conhecimento sobre esse tupi moderno.

Assim, foi elaborado o Nheentiquetador, um etiquetador morfossintático (programa que reconhece a categoria da palavra) do nheengatu. O grupo trabalha agora na criação de um analisador sintático automático (programa que entende a palavra no contexto da frase), que dará mais precisão às traduções automáticas do GrammYEP.

O grupo começou, há três anos, a aplicar os estudos da linguística computacional ao nheengatu focado sobretudo no português. De acordo com o líder do grupo, professor Leonel Figueiredo de Alencar Araripe, ainda não havia nada em termos de ferramentas e recursos para o processamento computacional da LGA, apesar de sua importância histórica, cultural e linguística.

A primeira ferramenta criada foi o GrammYEP, o tradutor automático pioneiro em uma língua indígena brasileira. Entretanto, para avançar na qualidade e no escopo dessas traduções, foi preciso criar uma nova ferramenta, com a função de organizar as classes gramaticais das palavras.

O GrammYEP foi concluído em 2020 e traduz textos simples com sentenças que expressam qualidades, estados e localizações de pessoas e objetos, levando em conta os padrões gramaticais e a semântica (isto é, o significado das palavras e frases) do tupi moderno.

A ferramenta traduz a LGA para o português e o inglês, e também traduz do nheengatu para as duas línguas. Agora, o projeto está sendo expandido para que a tradução seja permitida entre a língua indígena e outros 30 idiomas.
 
 
(G1/CE)

Postagens mais visitadas