Table of Contents

Propostas Mestrado - 2009/2010

Automatização do cálculo de métricas ortográficas

(Projecto P-Pal)

O Projecto P-Pal pretende a construção de uma base de dados psico-linguística de palavras para uso em análises psíquicas mas também para uso no processamento da linguagem natural.

Esta base de dados associa a cada palavra um conjunto de métricas concretas e um cojunto de métricas abstractas. Enquanto que as segundas obrigam à análise de sujeitos para, de forma estatística, calcular essas medidas, as primeiras podem ser calculadas de forma automática.

Exemplos destas métricas concretas são o número de sílabas, o número de fonemas, o número de caracteres, o tipo de acentuação, etc.

Este projecto de mestrado terá como principal objectivo a criação de ferramentas para a automatização desta tarefa.

Extracção automática de recursos bilingues a partir da Web

(Projecto PER-FIDE)

O estudo da tradução, quer por tradutores quer por ferramentas de tradução automática, baseia-se na análise de documentos previamente traduzidos, tentando assim perceber como a tradução se realiza. Para que isto seja possível é necessária a existência de recursos bilingues.

Este projecto de mestrado centrar-se-á no estudo de técnicas de web-mining para a detecção de documentos bilingues/multilingues na Internet, como os descarregar, analisar/detectar as línguas envolvidas, calcular métricas de semelhança, processos de limpeza da notação em causa (HTML/PDF/…) e a sua segmentação.

Ferramentas de alinhamento ao segmento baseadas em pistas

(Projecto PER-FIDE)

Na sequência do projecto “Extracção automática de recursos bilingues a partir da Web”, os documentos bilingues obtidos precisam de ser processados para serem realmente úteis no estudo da tradução.

O primeiro passo neste processamento é o alinhamento dos documentos: associar a cada frase de uma das línguas a respectiva frase na língua de destino.

Este projecto de mestrado tem como principal objectivo o estudo dos métodos existentes de alinhamento à frase, a análise do seu comportamento em relação a diferentes pares de língua (Português, Espanhol, Russo, Francês, Italiano, Alemão e Inglês).

Extracção de relações semânticas sobre o Dicionário Aberto

(Projecto Dicionário-Aberto)

O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki.

Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras.

Exemplos de relações semânticas são:

  nêspera  =igual=  magnório
  gato <instância de< felino
  folha <faz parte de< livro

A extracção destas relações é realizada usando padrões, habitualmente designados por “Hearst's patterns”.

Este projecto de mestrado inclui:

Backend Perl para ANTLR

O Gerador de Parsers ANTLR tem sido reconhecido como uma ferramenta versátil para a criação de reconhecedores em várias linguagens, nomeadamente C, Python e Java.

A seguir ao cohecido Yacc/Lex é talvez o Gerador de Compiladores mais usado actualmente pela capacidade e qualidade do procesador gerado e mesmo pela qualidade do ambiente de desenvolvimento (o AnTLRWorks) que oferece.

Infelizmente o backend Perl não tem vindo a ser desenvolvido e está num estado demasiado verde para ser minimamente útil.

Este projecto de mestrado pretende a análise dos backends já existentes (nomeadamente o Python) de modo a compreender-se claramente o processo da sua construção e integração no frontend do AnTLR.