This is an old revision of the document!

Propostas Dissertação 2010/2011

Tema/Título:
Área Científica (segundo o sistema ACM-1998: www.acm.org/about/class/1998)
Proponente(s)
Descrição
Local

Análise, comparação e homogeneização de etiquetadores

Tema/Título: Análise, comparação e homogeneização de etiquetadores
Área Científica: I.2.7 Natural Language Processing / Text analysis
Proponentes: José João Almeida (+ Alberto Simões)
Local: DIUM / Projecto PER-FIDE
Descrição: Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador).

Extracção de Relacionamentos Semânticos em Texto

O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki.

Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras.

Exemplos de relações semânticas são:

nêspera  =igual=  magnório
gato <instância de< felino
folha <faz parte de< livro

A extracção destas relações é realizada usando padrões, habitualmente designados por “Hearst's patterns”.

Este projecto de mestrado inclui:

o estudo destes padrões;

a análise de trabalho similar (como o PAPEL);

a adaptação destas regras para o Dicionário-Aberto;

a extracção massiva de relações do Dicionário-Aberto;

a construção de uma ontologia com base nestas relações;

Orientação: Alberto Simões (ESEIG-IPP)

Co-Orientação: José João Almeida (DIUM)

mkBookReport - Analisador e corrector de documentos textuais

Tema/Título: mkBookReport - Analisador e corrector de documentos textuais
Área Científica: I.2.7 Natural Language Processing / Text analysis
Proponentes: José João Almeida
Local: DIUM / Projecto PER-FIDE
Descrição: A conversão de formatos como PDF, DOC ou RTF para texto leva à perda de informação, e a introdução de lixo no documento final. Propõe-se a criação de uma ferramenta capaz de analisar o estado de um texto após a sua conversão, e que seja capaz, mediante um conjunto de opções, de proceder à limpeza do documento (e etiquetação num formato standard XML).

Projecto Natura

Table of Contents

Propostas Dissertação 2010/2011

Análise, comparação e homogeneização de etiquetadores

Extracção de Relacionamentos Semânticos em Texto

mkBookReport - Analisador e corrector de documentos textuais

Workflow

freeling

Perfide (alinhamento, anotação,cwb)

cross=DAG+...