Propostas Dissertação 2011/2012

(a seleccionar algumas)

Correção Gramatical

Tema/Título: Correção Gramatical
Área Científica: …
Local: DIUM
Orientação: José João Almeida (Alberto? Pilar? Álvaro?)
Descrição: Desenvolvimento/inferência de regras para correção gramatical, para o CoGrOO ou o LanguageTool (registada)
- Ver também Maltparser

Tema/Título: Identificação de Língua
Área Científica: …
Local: DIUM
Orientação: Alberto? … José João Almeida (Alberto? Pilar? Álvaro?)
Descrição: Desenvolvimento de um módulo Perl para identificação de língua usando uma cascata de discriminadores. (registada)
- Olhar tb para textos multilingua.

Tema/Título: Makefile::Parallel::SSH
Área Científica: …
Local: DIUM
Orientação: José João Almeida (Alberto?)
Descrição: Desenvolver um mecanismo para solicitar execução remota via SSH de pequenas tarefas. Integração deste mecanismo no Makefile::Parallel, para paralelizar tarefas remotamente.
- Map Reduce via SSH
- Clouds + Amazons + etc

Tema/Título: Recauchutagem de Thesauri
Área Científica: …
Local: DIUM
Orientação: José João Almeida (Alberto? Álvaro?)
Descrição: Os dicionários ortográficos do Open Office incluem um thesaurus da língua portuguesa bastante incompleto, e antigo. Pretende-se desenvolver:
- Ferramentas capazes de manipular e apresentar o thesaurus no formato OOo;
- Enriquecer o thesaurus com fontes diversas (PAPEL, Dicionário Aberto, Wikipédia, …) - (registada)

Tema/Título: Métricas de Qualidade de Tradução
Área Científica: …
Local: DIUM
Orientação: José João Almeida (Alberto?)
Descrição: Definir um conjunto de métricas que sejam capazes de avaliar a qualidade de tradução entre dois segmentos (usando recursos externos, pistas, etc). Implementação das métricas numa ferramenta que seja capaz de associar a cada unidade de tradução de uma memória de tradução (TMX) um valor quantitativo de qualidade.

Tema/Título: Geração Automática de (Listas de Terminologia|Dicionários Terminológicos)
Alt: Extracção Automática de Terminologia
Área Científica: I.2.7 Natural Language Processing / Text analysis
Orientação: José João Almeida (Alberto? Álvaro?)
Local: DIUM
Descrição: Uma série de aplicações e técnicas de processamento de linguagem natural utilizam ou necessitam de uma lista de termos relevantes numa determinada área, ou de dicionários terminológicos (exemplos …). Nem sempre estas listas de termos estão disponíveis, principalmente sobre tópicos muitos específicos, e muitas vezes mesmo que existam sobre um determinado tópico podem não se adequar a situação em específico. Assim propõe-se a criação implementação de um algoritmo/técnica capaz de através de uma série de heurísticas e de opções calcular listas de termos (e/ou dicionários terminológicos) a partir de um mínimo de informação. Um possível workflow inclui tarefas com o crawling de informação em recursos já disponíveis (wikipedia, etc.) através de uma seed inicial, expandir este conjunto através do uso de dicionários, thesaurus, etc e for fim ainda formas de validação/medidas de qualidade das objectos criados, e utilização dos objectos finais (ou de um subset mais pequeno) para fazer bootstrap do processo novamente.

Tema/Título: Abc Analytics
Alt: Abc Music Analytics
Área Científica: …
Local: DIUM
Orientação: José João Almeida, José Nuno Oliveira (Nuno Carvalho – poderá ser?)
Descrição:
- Análise (parsing/semântica) de Abc com objectivo de validar invariantes e verificar coerência de Abc, validar não só o Abc gerado mas também o Abc que é editado através do Wiki.
- Análise de sincronismo com transcrições multi-voz, tentar detectar vozes que estejam a falhar ou a comprometer a integridade da peça.
- Modelos sobre Abc? Pergunta: será possível aplicar técnicas de modelação de linguagens ao Abc? Técnicas de análise estatística para criar modelos por obras/autores. Exemplo de áreas de aplicação: classificação automática de obras, verificar autoria de obras (da mesma maneira que analisam se é provável que determinado autor tenha escrito um dado texto através do tipo de linguagem usada), geração automática de música (treinar um programa para gerar uma obra que siga um determinado estilo, autor ou características); validação de transcrição de pautas.
- Alguns dos tópicos acima podem implicar trabalhar nos seguintes pontos:
  - Plugin EasyABC++
  - Pipeline Wiki ↔ Abc
registada…