Estes projectos estão devidamente anotados com:
O RENA é um reconhecedor de entidades mencionadas que usa como fonte de informação um conjunto diverso de recursos de onde se podem salientar thesaurus ou almanaques, tabelas de classificação, detectores de nomes próprios, etc.
Pretende-se enriquecer o processo de detecção de entidades usando um motor de plug-ins, e também construir um pacote distributível do RENA, portável e fácil de instalar.
Como caso de estudo, pretende-se a anotação geográfica e temporal dos depoimentos do Museu da Pessoa.
Com um reconhecedor de entidades mencionadas, como o RENA, é possível detectar as entidades intervenientes num documento. O que se pretende é a extracção de conhecimento relativo a estas entidades: detectando entidades e factos (relações) sobre as entidades.
Um exemplo de implementação seria a definição de padrões para extracção de informação, processamento da Wikipedia e construção de ontologias utilizando a ferramenta Biblio::Thesaurus.
O Apertium é um motor livre para tradução automática. Os recursos de tradução usados são codificados em XML, em formatos que não permitem que o seu produtor se dedique ao conteúdo linguístico e não a toda a parafenália de etiquetas. Neste sentido, pretende-se desenvolver uma (ou mais) linguagens de domínio específico (DSL) que permitam a produção eficiente de recursos de tradução para o Apertium. Neste sentido, será dado especial ênfase à construção de um tradutor PT:ES ou PT:EN.
O Text::Translator é um módulo Perl que pretende servir de base ao estudo de diferentes abordagens na tradução automática. Não pretende ser um tradutor eficiente, mas uma ferramenta sobre a qual se possam prototipar sistemas de tradução. Neste sentido pretende suportar diferentes tipos de tradução, incluindo tradução baseada em exemplos, tradução baseada em estatística e tradução baseada em regras.
Neste trabalho pretende-se o desenvolvimento de camadas de tradução no Text::Translator.
Os sistemas de Tradução Assistida por Computador usam memórias de tradução locais para reaproveitarem traduções já realizadas. No entanto, este modelo não é eficaz em comunidades grandes ou heterogéneas de tradutores. O que se pretende é implementar arquitecturas de suporte a memórias de tradução distribuídas, quer sejam distribuídas em vários servidores na Internet, ou distribuídas pelos vários postos de tradução.
Para a implementação do test-case sugere-se a adaptação da ferramenta OmegaT.
Tarefas: limpeza, triangulação, extracção de sub-domínios activos, avaliador
Um etiquetador morfosintáctico associa categorias (e propriedades) morfológicas a palavras de um texto tentanto sempre que possível remover a ambiguidade existente.
Pretende-se desenvolver um etiquetador para a língua portuguesa, havendo várias hipóteses, desde a construção de um modelo para a ferramenta TnT, quer a construção de uma espécie de shallow parser por processamento em força bruta à Floresta Sintá©tica.
Possível uso de Constrain Grammars v3/Shallow Parsing.
O NooJ é uma ferramenta bastante interessante para estudos linguísticos e tradução automática. Têm vindo a ser desenvolvidos dicionários para análise morfológica para o NooJ em várias línguas. Com este trabalho pretende-se a criação de ferramentas de intercâmbio de dicionários de análise morfológica entre o NooJ e o jSpell (analisador morfológico do projecto Natura).
Uma das aplicações mais antigas às quais se associa desde sempre a Inteligência Artificial são as Elizas: programas que tentam manter uma conversa com um ser humano. A ideia surgiu com o teste de Turing: o teste é considerado bem sucedido se um ser humano mantiver uma conversa com uma máquina sem nunca suspeitar de que na verdade não está a falar com um ser humano.
A ideia deste projecto não é a implementação de uma Eliza habitual, mas sim de um motor de Elizas. Um backend que mediante um conjunto de acções (mensagens dirigidas a si, mensagens entre outros utilizadores, etc) reaja de acordo com a forma como foi programado (com um conjunto de regras e padrões).
A interface destas elizas podem ser integradas em MUDs (MOOsaico), IRC ou IM (gtalk/xmpp)
Os CMS (Content Management Systems) têm um problema crónico: funcionam sobre Web. Enquanto que a ideia de publicar documentos é, na verdade, publicá-los na Internet, nem sempre se deseja que a interface com os gestores do Website seja também esta, via Web.
Nesse sentido pretende-se usar como backend o SVN (subversion) de forma a permitir publicar documentos remotamente ou localmente sem o uso de um browser.
Pretende-se construir ferramentas e uma línguam de suporte (Domain Specific Language) para a construção de dicionários de forma automática, usando como base recursos distintos, desde Corpora, Dicionários Probabilísticos de Tradução, n-gramas, listas de palavras, etc.
Alguns dos recursos mais importantes em Processamento de Linguagem Natural são corpora: textos usados para analisar a linguagem. Para tradução automática e outras áreas de processamento de linguagem natural multilingues é importante a existência de corpora paralelos: textos juntamente com a sua tradução. Especialmente para pares de língua minoritárias, é difícil arranjar corpora paralelos em quantidades razoáveis para processamentos estatísticos.
Com este projecto pretende-se implementar algoritmos de “adivinhação” sobre a Internet para a construção automática de corpora bilingue.
Cada vez mais os velhos métodos de codificação de caracteres (encodings) têm vindo a desaparecer em favor do Unicode (UTF8 e UTF16). Muito software continua a conseguir lidar apenas com codificações de um byte. Este tipo de limitação é especialmente nefasta em aplicações que tendem a funcionar com línguas que não as ocientais habituais.
No sentido de tentar resolver este problema pretende-se fazer reverse-engineering de código C e Perl de aplicações de PLN desenvolvidas no projecto Natura, e a sua recodificação com suporte para Unicode (UTF8 ou UTF16).
O HaScore é uma representação (simples) em Haskell para partituras musicais de forma simbólica. O ABC+ é um processador de uma sintaxe específica para a representação de partituras musicais de forma gráfica. Pretende-se desenvolver um conversor (um isomorfismo) entre estes dois formatos.
Esta tarefa obriga não só à implementação/adaptação de parsers destas duas linguagens, bem como a definição de equivalências das respectivas linguagens.
Este projecto visa a construção do PerScore, um módulo Perl para a manipulação abstracta de partituras/música.