Projecto Natura

José João Dias de Almeida
Alberto Simôes
José Carlos Ramalho
Ulisses Pinto
Paulo Rocha
Ricardo Reis

O projecto Natura tem como principal objectivo criar/disponibilizar recursos de Processamento de Linguagem Natural com particular ênfase na língua Portuguesa .

Todos os contributos, colaborações, comentários e sugestões serão bem vindos e vitais para o funcionamento do projecto.


Subscribe Natura mailing list


name:
email:


Contents

Corpora linguísticos e afins

Corpus jornalístico Natura-PUBLICO

O seguinte corpus contem frases extraídas do jornal PUBLICO a quem muito agradecemos (e posteriormente adaptadas localmente) contendo os dois primeiros parágrafos de cada artigo de vários meses entre 1991 e 1994

Dado o volume total ser grande, disponibiliza-se pela rede apenas 1/4

Todos os texto estão acentuados segundo o standard ISO-latin1 e compactados com gzip.

Para obter os restantes componentes do corpus contactar os responsáveis do projecto.

Provérbios

Pede-se aos apreciadores de provérbios que contribuam com os seus provérbio preferidos. O objectivo é colecionar provérbios vivos e realmente usados.

Available: lista de cerca de 500 provérbios

Outros corpora

Projecto Clemente Vercial

Projecto do responsabilidade de José Machado.

Corrector ortográfico ISPELL

O ISPELL internacional Ispell 3.1.. é um corrector ortográfico para UNIX (ver o respectivo README para versões MSDOS e NeXT) muito popular e cujo código fonte existe disponível.


Dicionário português

A versão portuguesa do Ispell:

ISPELL com EMACS

Para usar com o EMACS precisei de acrescentar ISTO ao meu .emacs (gravar como texto!!!) (aceitam-se sugestões)


JSPELL: analisador morfológico genérico

A versão actual permite:

Encontra-se disponível:


NLlex: lex for natural language

NLlex is a natural language lexical analysis program generator that looks like UNIX lex extended with morphological analysis and other Natural Language (NL) elements.

NLlex generates a C program that is linked with a morphological analyzer (jspell) and with whatever we want, in order to produce a NL processor.

As a particular case, NLlex can generate modules to work:

NLlex can also deal and be tuned to the so frequently seen non textual elements (markup elements, LATEXlike things, dates, quotes, ...)

Available: technical report
NLlex - a tool to generate lexical analyzers for natural language


YaLG - extending DCGs for Natural Language Processing

YaLG = NLlex + DCG

YaLG enables the possibility of using DCG like grammars with external lexical analysis for natural language processing (NLP).

YaLG is based on a set of modules that:

Available: technical report
YaLG - extending DCGs for Natural Language Processing

tlpp - Tex like preprocessor

tlpp is a general propose preprocessor that looks like LaTeX (it has:

processed like in LaTeX) and it also has:

It can be used:

Ok, ok it is not very efficient...

Code (400 lines of perl) available (contact the author jj@di.uminho.pt)

This preprocessor reused many lines from latex2html

Available:

Dicionários electrónicos

Available:

Etiquetador para português (by Ricardo Reis)

Available:

Tabela de hifenização portuguesa para LaTeX

O Pedro Resende (rezende@dcc.unicamp.br) fez um optima tabela de hifenização para o Português à qual eu acrescentei algumas linhas por causa dos caracteres de 8 bits. Deve haver uma copia no CTAN mas como às vezes há dificuldade em encontrar esta tabele deixo aqui uma cópia pt8hyph.tex .

Para quem tenha linux já costuma vir a tabela do portugues -> usar o comando "texconfig" , seleccionar as tabelas de hifenização e descomentar a linha do portugues e activar a respectiva tabela (por omissão vem desactivada).

Outros projectos em fase de arranque

Processamento de termos compostos

Available:

Em obras (not yet available)

Analisador sintáctico do português

Em obras (not yet available)

Protótipos de ajuda à tradução



Jose Joao Dias de Almeida 2001-10-10