DESENVOLVIMENTO DE UM MÓDULO COMPUTACIONAL PARA FINS LINGUÍSTICOS

Igor Leal Souza

Resumo


É perceptível o crescimento de pesquisadores dedicados à linguística de corpus1 com o objetivo de constituir amostras diacrônicas para o estudo da história do português brasileiro (PB), sobre a qual ainda há muito o que ser pesquisado. Criado na década de 1990, o Projeto para a História do Português Brasileiro (PHPB) conta com vários pesquisadores, em equipes regionais sediadas em universidades de treze estados brasileiros – Alagoas, Bahia, Ceará, Mato Grosso, Minas Gerais, Pará-Oeste, Paraíba, Paraná, Pernambuco, Rio Grande do Norte, Rio de Janeiro, Santa Catarina e São Paulo (https://sites.google.com/site/corporaphpb/).
O projeto Corpus Eletrônico de Documentos Históricos do Sertão (CE-DOHS) (www.uefs.br/cedohs), integrante do Núcleo de Estudos da Língua Portuguesa (NELP), tem o propósito de construir um banco de dados eletrônico e, além disso, desenvolver metodologias para formação de grandes bancos de dados eletrônicos para fins linguísticos, visando a otimização no acesso aos documentos históricos do sertão da Bahia através do uso da ferramenta computacional eDictor (PAIXÃO DE SOUSA; KEPLER, 2007) para a edição desses documentos em linguagem XML (eXtensible Markup Language), a qual permite que sejam feitas edições de acordo com as necessidades das ferramentas para análise linguística, ao passo que garante a recuperação da versão original da edição, caso seja necessário. Nesse banco de dados, já são disponibilizados documentos em que os pesquisadores identifiquem as intervenções realizadas pelo editor. Isso garante que as informações linguísticas relevantes sejam mantidas, viabilizando a recuperação dessas informações de acordo com a modalidade de edição escolhida para a visualização do texto.
A importância desde tipo de edição para a construção de banco de dados eletrônico de documentos históricos para fins de pesquisa já é atestada e aplicada por alguns estudiosos:
Os estudos históricos realizados com base em textos antigos dependem, antes de tudo, da garantia da fidelidade às formas originais dos textos – sendo este o pilar de sustentação que qualquer estudo linguístico, em qualquer quadro teórico, deve pressupor. Entretanto, no caso dos corpora eletrônicos, esse pressuposto fundamental precisa ser integrado com requerimentos impostos pela vertente computacional e linguística dos estudos – tais sejam: a necessidade de quantidade, agilidade e automação no trabalho estatístico de seleção de dados. (PAIXÃO DE SOUSA; KEPLER, 2006).
O banco de dados em questão já se encontra estruturado de forma a atender os requisitos necessários para a aplicação de tal sistema, uma vez que conforme Paixão de Souza, Kepler e Faria (2009):
1 De acordo com Sardinha (2004, p.3) a linguística de corpus ocupa-se da “Coleta e da exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística”.
A especificação da estrutura XML para codificação no E-Dictor vai de encontro a dois objetivos principais:(i) ser o mais neutra possível (em relação ao conteúdo textual codificado) e (ii) atender a necessidades linguísticas e filológicas , em outras palavras, é preciso que a preparação de conteúdo para análises linguísticas seja simples e eficiente, sem que se percam informações relevantes para estudos filológicos. (PAIXÃO DE SOUSA; KEPLER; FARIA, 2009).
Desta forma, a proposta desenvolvida é a continuação do desenvolvimento de um sistema, denominado E-Corp, com o intuito de facilitar buscas de dados para fins linguísticos com confiabilidade e agilidade nas pesquisas. A aplicação do sistema se deu no banco CE-DOHS, o qual atende às especificações para a utilização da linguagem XML para a construção de banco de dados. Ainda, foram analisados os resultados obtidos a fim de comparar com os métodos tradicionais de levantamento de dados (manuais) versus eletrônico (automático).
Evidencia-se, desta maneira, a importância deste tipo de sistema para auxiliar no levantamento de dados para estudos, principalmente linguísticos. Observa-se que há uma tendência para a criação de bancos de dados eletrônicos, o que faz necessário o desenvolvimento desse tipo de sistema para facilitar a navegação dos pesquisadores interessados. Como já pode ser constatada a utilização de sistema semelhante no banco de dados Post Scriptum2 (http://ps.clul.ul.pt/pt/index.php?action=home).


Texto completo:

PDF

Apontamentos

  • Não há apontamentos.