This is an old revision of the document!
−Table of Contents
Propostas Dissertação 2010/2011
- Tema/Título:
- Área Científica (segundo o sistema ACM-1998: www.acm.org/about/class/1998)
- Proponente(s)
- Descrição
- Local
Análise, comparação e homogeneização de etiquetadores
- Tema/Título: Análise, comparação e homogeneização de etiquetadores
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida (+ Alberto Simões)
- Local: DIUM / Projecto PER-FIDE
- Descrição: Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador).
Extracção de Relacionamentos Semânticos em Texto
O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki.
Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras.
Exemplos de relações semânticas são:
nêspera =igual= magnório gato <instância de< felino folha <faz parte de< livro
A extracção destas relações é realizada usando padrões, habitualmente designados por “Hearst's patterns”.
Este projecto de mestrado inclui:
o estudo destes padrões;
a análise de trabalho similar (como o PAPEL);
a adaptação destas regras para o Dicionário-Aberto;
a extracção massiva de relações do Dicionário-Aberto;
a construção de uma ontologia com base nestas relações;
Orientação: Alberto Simões (ESEIG-IPP)
Co-Orientação: José João Almeida (DIUM)
mkBookReport - Analisador e corrector de documentos textuais
- Tema/Título: mkBookReport - Analisador e corrector de documentos textuais
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida
- Local: DIUM / Projecto PER-FIDE
- Descrição: A conversão de formatos como PDF, DOC ou RTF para texto leva à perda de informação, e a introdução de lixo no documento final. Propõe-se a criação de uma ferramenta capaz de analisar o estado de um texto após a sua conversão, e que seja capaz, mediante um conjunto de opções, de proceder à limpeza do documento (e etiquetação num formato standard XML).