====== Propostas Dissertação 2010/2011 ====== Classificação ACM-1998: http://www.acm.org/about/class/1998 ===== Análise, comparação e homogeneização de etiquetadores ===== * **Tema/Título:** Análise, comparação e homogeneização de etiquetadores * **Área Científica:** I.2.7 Natural Language Processing / Text analysis * **Proponentes:** José João Almeida (+ Alberto Simões) * **Local:** DIUM / Projecto PER-FIDE * **Descrição:** Existem disponíveis vários etiquetadores morfo-sintácticos para várias línguas. Infelizmente não existem todas as línguas disponíveis para cada motor, e existem models da mesma língua para motores diferentes. Ora, no projecto Per-Fide, será necessária a etiquetação de 7 línguas (PT, ES, RU, FR, IT, DE, EN). Assim, propõe-se uma análise cuidada aos vários etiquetadores disponíveis (TNT, FreeLing, TreeTagger, entre outros), comparação das línguas disponíveis e da qualidade de etiquetação, e da construção de uma interface homogénea para todas estas ferramentas (interface e instalador). ===== Extracção de Relacionamentos Semânticos sobre Dicionários ===== * **Tema/Título:** Extracção de Relacionamentos Semânticos sobre Dicionários * **Área Científica:** I.2.7 Natural Language Processing / Text analysis * **Proponentes:** José João Almeida (+ Alberto Simões) * **Local:** DIUM / Projecto P-Pal * **Descrição:** O Dicionário-Aberto é, neste momento, uma transcrição do Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo de 1913. Em breve a sua grafia será modernizada e será aberto à comunidade, sendo transformado num Wiki. Ainda antes dessa operação pretende-se extrair conhecimento deste dicionário: relações semânticas entre palavras. Exemplos de relações semânticas são: ''nêspera =igual= magnório'', ''gato