Both sides previous revisionPrevious revisionNext revision | Previous revision |
educacao:propostas_dissertacao_2010_2011 [2010/09/28 21:07] – ambs | educacao:propostas_dissertacao_2010_2011 [2010/09/29 10:53] (current) – ambs |
---|
====== Propostas Dissertação 2010/2011 ====== | ====== Propostas Dissertação 2010/2011 ====== |
| |
* Tema/Título: | Classificação ACM-1998: http://www.acm.org/about/class/1998 |
* Área Científica (segundo o sistema ACM-1998: www.acm.org/about/class/1998) | |
* Proponente(s) | |
* Descrição | |
* Local | |
| |
===== Análise, comparação e homogeneização de etiquetadores ===== | ===== Análise, comparação e homogeneização de etiquetadores ===== |
* **Descrição:** Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador). | * **Descrição:** Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador). |
| |
| ===== Extracção de Relacionamentos Semânticos sobre Dicionários ===== |
| |
| * **Tema/Título:** Extracção de Relacionamentos Semânticos sobre Dicionários |
| * **Área Científica:** I.2.7 Natural Language Processing / Text analysis |
| * **Proponentes:** José João Almeida (+ Alberto Simões) |
| * **Local:** DIUM / Projecto P-Pal |
| * **Descrição:** O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki. Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras. Exemplos de relações semânticas são: ''nêspera =igual= magnório'', ''gato <instância de< felino'' ou ''folha <faz parte de< livro''. A extracção destas relações é realizada usando padrões, habitualmente designados por “Hearst's patterns”. Este projecto de mestrado inclui: o estudo destes padrões; a análise de trabalho similar (como o PAPEL); a adaptação destas regras para o Dicionário-Aberto; a extracção massiva de relações do Dicionário-Aberto; a construção de uma ontologia com base nestas relações; |
| |
===== mkbookreport ===== | ===== mkBookReport - Analisador e corrector de documentos textuais ===== |
| |
===== Workflow ===== | * **Tema/Título:** mkBookReport - Analisador e corrector de documentos textuais |
| * **Área Científica:** I.2.7 Natural Language Processing / Text analysis |
| * **Proponentes:** José João Almeida |
| * **Local:** DIUM / Projecto PER-FIDE |
| * **Descrição:** A conversão de formatos como PDF, DOC ou RTF para texto leva à perda de informação, e a introdução de lixo no documento final. Propõe-se a criação de uma ferramenta capaz de analisar o estado de um texto após a sua conversão, e que seja capaz, mediante um conjunto de opções, de proceder à limpeza do documento (e etiquetação num formato standard XML). |
| |
===== freeling ===== | |
| |
===== Perfide (alinhamento, anotação,cwb) ===== | |
| ===== Workflow: Gestão de Dependências ===== |
| |
| * **Tema/Título:** Workflow: Gestão de Dependências |
| * **Área Científica:** H.4.1 Office Automation / Workflow Management |
| * **Proponentes:** José João Almeida |
| * **Local:** DIUM / Projecto PER-FIDE |
| * **Descrição:** As célebres Makefile são ferramentas deveras úteis e versáteis. No entanto, há situações mais complicadas em que as makefile não são suficientes para gerir o conjunto de transformações que os documentos devem sofrer ao longo da sua vida. Este projecto pretende o estudo das abordagens actuais para controlo de workflow e a implementação de um sistema para o processamento de corpora paralelos do projecto Per-Fide, até à sua publicação on-line nos mais variados formatos (XML, dicionários, terminologia, etc). |
| |
| ===== FreeLing: Interface Perl ===== |
| |
| * **Tema/Título:** FreeLing: Interface Perl |
| * **Área Científica:** D.3.3 Language Constructs and Features / Modules, packages |
| * **Proponentes:** José João Almeida |
| * **Local:** DIUM / Projecto PER-FIDE |
| * **Descrição:** O FreeLing é uma biblioteca para o processamento da língua natural. Está desenvolvido em C++, e a sua interface Perl é um mapeamento directo da API C++ para Perl. Pretende-se o desenvolvimento de uma API robusta e versátil em Perl que facilite o uso do FreeLing a partir de scripts Perl. |
| |
| ===== Perfide (alinhamento, anotação, CWB) ===== |
| |
| ===== Extracção de dicionários probabilisticos de Tradução sobre corpora etiquetado ===== |
| |
| * **Tema/Título:** Extracção de dicionários probabilisticos de Tradução sobre corpora etiquetado |
| * **Área Científica:** I.2.7 Natural Language Processing / Text analysis |
| * **Proponentes:** José João Almeida (+ Alberto Simões) |
| * **Local:** DIUM / Projecto PER-FIDE |
| * **Descrição:** O pacote de ferramentas NATools permite a extracção de dicionários probabilísticos de tradução a partir de corpora paralelos. Pretende-se expandir a ferramenta de modo a tirar partido de corpora etiquetado com POS, não só durante o processo de extracção dos dicionários probabilísticos, mas também durante a pesquisa de concordâncias. (C + Perl + Bash) |
| |
===== cross=DAG+... ===== | ===== cross=DAG+... ===== |
| |
| |