educacao:propostas_dissertacao_2010_2011
Table of Contents
Propostas Dissertação 2010/2011
Classificação ACM-1998: http://www.acm.org/about/class/1998
Análise, comparação e homogeneização de etiquetadores
- Tema/Título: Análise, comparação e homogeneização de etiquetadores
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida (+ Alberto Simões)
- Local: DIUM / Projecto PER-FIDE
- Descrição: Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador).
Extracção de Relacionamentos Semânticos sobre Dicionários
- Tema/Título: Extracção de Relacionamentos Semânticos sobre Dicionários
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida (+ Alberto Simões)
- Local: DIUM / Projecto P-Pal
- Descrição: O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki. Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras. Exemplos de relações semânticas são:
nêspera =igual= magnório
,gato <instância de< felino
oufolha <faz parte de< livro
. A extracção destas relações é realizada usando padrões, habitualmente designados por “Hearst's patterns”. Este projecto de mestrado inclui: o estudo destes padrões; a análise de trabalho similar (como o PAPEL); a adaptação destas regras para o Dicionário-Aberto; a extracção massiva de relações do Dicionário-Aberto; a construção de uma ontologia com base nestas relações;
mkBookReport - Analisador e corrector de documentos textuais
- Tema/Título: mkBookReport - Analisador e corrector de documentos textuais
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida
- Local: DIUM / Projecto PER-FIDE
- Descrição: A conversão de formatos como PDF, DOC ou RTF para texto leva à perda de informação, e a introdução de lixo no documento final. Propõe-se a criação de uma ferramenta capaz de analisar o estado de um texto após a sua conversão, e que seja capaz, mediante um conjunto de opções, de proceder à limpeza do documento (e etiquetação num formato standard XML).
Workflow: Gestão de Dependências
- Tema/Título: Workflow: Gestão de Dependências
- Área Científica: H.4.1 Office Automation / Workflow Management
- Proponentes: José João Almeida
- Local: DIUM / Projecto PER-FIDE
- Descrição: As célebres Makefile são ferramentas deveras úteis e versáteis. No entanto, há situações mais complicadas em que as makefile não são suficientes para gerir o conjunto de transformações que os documentos devem sofrer ao longo da sua vida. Este projecto pretende o estudo das abordagens actuais para controlo de workflow e a implementação de um sistema para o processamento de corpora paralelos do projecto Per-Fide, até à sua publicação on-line nos mais variados formatos (XML, dicionários, terminologia, etc).
FreeLing: Interface Perl
- Tema/Título: FreeLing: Interface Perl
- Área Científica: D.3.3 Language Constructs and Features / Modules, packages
- Proponentes: José João Almeida
- Local: DIUM / Projecto PER-FIDE
- Descrição: O FreeLing é uma biblioteca para o processamento da língua natural. Está desenvolvido em C++, e a sua interface Perl é um mapeamento directo da API C++ para Perl. Pretende-se o desenvolvimento de uma API robusta e versátil em Perl que facilite o uso do FreeLing a partir de scripts Perl.
Perfide (alinhamento, anotação, CWB)
Extracção de dicionários probabilisticos de Tradução sobre corpora etiquetado
- Tema/Título: Extracção de dicionários probabilisticos de Tradução sobre corpora etiquetado
- Área Científica: I.2.7 Natural Language Processing / Text analysis
- Proponentes: José João Almeida (+ Alberto Simões)
- Local: DIUM / Projecto PER-FIDE
- Descrição: O pacote de ferramentas NATools permite a extracção de dicionários probabilísticos de tradução a partir de corpora paralelos. Pretende-se expandir a ferramenta de modo a tirar partido de corpora etiquetado com POS, não só durante o processo de extracção dos dicionários probabilísticos, mas também durante a pesquisa de concordâncias. (C + Perl + Bash)
cross=DAG+...
educacao/propostas_dissertacao_2010_2011.txt · Last modified: 2010/09/29 10:53 by ambs