Differences

This shows you the differences between two versions of the page.

--- educacao:dissertacoes_mestrado [2008/09/19 15:51] – ambs
+++ educacao:dissertacoes_mestrado [2008/10/05 20:20] (current) – removed ambs
@@ Line 1: / Line 1: @@
-====== Projectos ======
-Estes projectos estão devidamente anotados com:
-  * **TM** para propostas de tese de mestrado,
-  * **PM** para projectos de mestrado (típica UCE15),
-  * **PL** para projectos de licenciatura (típico LI4),
-  * **LL** para projectos de fim de curso de licenciaturas de letras.
-===== Pacote RENA =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-O RENA é um reconhecedor de entidades mencionadas que usa como fonte de informação um conjunto diverso de recursos de onde se podem salientar thesaurus ou almanaques, tabelas de classificação, detectores de nomes próprios, etc.
-Pretende-se enriquecer o processo de detecção de entidades usando um motor de plug-ins, e também construir um pacote distributível do RENA, portável e fácil de instalar.
-===== Extracção de Informação Textual Estrutural =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Com um reconhecedor de entidades mencionadas, como o RENA, é possível detectar as entidades intervenientes num documento. O que se pretende é a extracção de conhecimento relativo a estas entidades: detectando factos sobre as entidades.
-===== Tradução Automática --- Apertium =====
-  * **Proponentes:** José João Almeida / Alberto Simões
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-O Apertium é um motor livre para tradução automática. Os recursos de tradução usados são codificados em XML, em formatos que não permitem que o seu produtor se dedique ao conteúdo linguístico e não a toda a parafenália de etiquetas. Neste sentido, pretende-se desenvolver uma (ou mais) linguagens de domínio específico (DSL) que permitam a produção eficiente de recursos de tradução para o Apertium. Neste sentido, será dado especial ênfase à construção de um tradutor PT:ES ou PT:EN.
-===== Tradução Automática --- Text::Translator =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-O Text::Translator é um módulo Perl que pretende servir de base ao estudo de diferentes abordagens na tradução automática. Não pretende ser um tradutor eficiente, mas uma ferramenta sobre a qual se possam prototipar sistemas de tradução. Neste sentido pretende suportar diferentes tipos de tradução, incluindo tradução baseada em exemplos, tradução baseada em estatística e tradução baseada em regras.
-Neste trabalho pretende-se o desenvolvimento de camadas de tradução no Text::Translator.
-===== Memórias de Tradução Distribuídas =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Os sistemas de Tradução Assistida por Computador usam memórias de tradução locais para reaproveitarem traduções já realizadas. No entanto, este modelo não é eficaz em comunidades grandes ou heterogéneas de tradutores. O que se pretende é implementar arquitecturas de suporte a memórias de tradução distribuídas, quer sejam distribuídas em vários servidores na Internet, ou distribuídas pelos vários postos de tradução.
-Para a implementação do test-case sugere-se a adaptação da ferramenta OmegaT.
-===== Ferramentas para Memórias de Tradução Grandes =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Tarefas: limpeza, triangulação, extracção de sub-domínios activos, avaliador
-===== Etiquetador Morfosintactico =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Um etiquetador morfosintáctico associa categorias (e propriedades) morfológicas a palavras de um texto tentanto sempre que possível remover a ambiguidade existente.
-Pretende-se desenvolver um etiquetador para a língua portuguesa, havendo várias hipóteses, desde a construção de um modelo para a ferramenta TnT, quer a construção de uma espécie de shallow parser por processamento em força bruta à Floresta Sintá(c)tica.
-Possível uso de Constrain Grammars v3.
-===== NooJ2jSpell =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-O NooJ é uma ferramenta bastante interessante para estudos linguísticos e tradução automática. Têm vindo a ser desenvolvidos dicionários para análise morfológica para o NooJ em várias línguas. Com este trabalho pretende-se a criação de ferramentas de intercâmbio de dicionários de análise morfológica entre o NooJ e o jSpell (analisador morfológico do projecto Natura).
-===== Etelvina =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Uma das aplicações mais antigas às quais se associa desde sempre a Inteligência Artificial são as Elizas: programas que tentam manter uma conversa com um ser humano. A ideia surgiu com o teste de Turing: o teste é considerado bem sucedido se um ser humano mantiver uma conversa com uma máquina sem nunca suspeitar de que na verdade não está a falar com um ser humano.
-A ideia deste projecto não é a implementação de uma Eliza habitual, mas sim de um motor de Elizas. Um backend que mediante um conjunto de acções (mensagens dirigidas a si, mensagens entre outros utilizadores, etc) reaja de acordo com a forma como foi programado (com um conjunto de regras e padrões).
-===== SVN CMS =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Os CMS (Content Management Systems) têm um problema crónico: funcionam sobre Web. Enquanto que a ideia de publicar documentos é, na verdade, publicá-los na Internet, nem sempre se deseja que a interface com os gestores do Website seja também esta, via Web.
-Nesse sentido pretende-se usar como backend o SVN (subversion) de forma a permitir publicar documentos remotamente ou localmente sem o uso de um browser.
-===== Ferramentas de Criação de Dicionários =====
-  * **Âmbito:** PL; PM; LL.
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Pretende-se construir ferramentas e uma línguam de suporte (Domain Specific Language) para a construção de dicionários de forma automática, usando como base recursos distintos, desde Corpora, Dicionários Probabilísticos de Tradução, n-gramas, listas de palavras, etc.
-===== Parguess =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Alguns dos recursos mais importantes em Processamento de Linguagem Natural são corpora: textos usados para analisar a linguagem. Para tradução automática e outras áreas de processamento de linguagem natural multilingues é importante a existência de corpora paralelos: textos juntamente com a sua tradução. Especialmente para pares de língua minoritárias, é difícil arranjar corpora paralelos em quantidades razoáveis para processamentos estatísticos.
-Com este projecto pretende-se implementar algoritmos de "adivinhação" sobre a Internet para a construção automática de corpora bilingue.
-===== UTF'ização de software de PLN =====
-  * **Proponentes:** Alberto Simões / José João Almeida
-  * **Local:** Departamento de Informática, Universidade do Minho
-  * **Área Científica:** I.2.7 Natural Language Processing
-Cada vez mais os velhos métodos de codificação de caracteres (encodings) têm vindo a desaparecer em favor do Unicode (UTF8 e UTF16). Muito software continua a conseguir lidar apenas com codificações de um byte. Este tipo de limitação é especialmente nefasta em aplicações que tendem a funcionar com línguas que não as ocientais habituais.
-No sentido de tentar resolver este problema pretende-se fazer reverse-engineering de código C e Perl de aplicações de PLN desenvolvidas no projecto Natura, e a sua recodificação com suporte para Unicode (UTF8 ou UTF16).