Projecto Natura

Jos� Jo�o Dias de Almeida
Alberto Sim�es
Jos� Carlos Ramalho
Ulisses Pinto
Paulo Rocha
Ricardo Reis

O projecto Natura tem como principal objectivo criar/disponibilizar recursos de Processamento de Linguagem Natural com particular �nfase na l�ngua Portuguesa .

Todos os contributos, colabora��es, coment�rios e sugest�es ser�o bem vindos e vitais para o funcionamento do projecto.


Subscribe Natura mailing list


name:
email:


Contents

Corpora lingu�sticos e afins

Corpus jornal�stico Natura-PUBLICO

O seguinte corpus contem frases extra�das do jornal PUBLICO a quem muito agradecemos (e posteriormente adaptadas localmente) contendo os dois primeiros par�grafos de cada artigo de v�rios meses entre 1991 e 1994

Dado o volume total ser grande, disponibiliza-se pela rede apenas 1/4

Todos os texto est�o acentuados segundo o standard ISO-latin1 e compactados com gzip.

Para obter os restantes componentes do corpus contactar os respons�veis do projecto.

Prov�rbios

Pede-se aos apreciadores de prov�rbios que contribuam com os seus prov�rbio preferidos. O objectivo � colecionar prov�rbios vivos e realmente usados.

Available: lista de cerca de 500 prov�rbios

Outros corpora

Projecto Clemente Vercial

Projecto do responsabilidade de Jos� Machado.

Corrector ortogr�fico ISPELL

O ISPELL internacional Ispell 3.1.. � um corrector ortogr�fico para UNIX (ver o respectivo README para vers�es MSDOS e NeXT) muito popular e cujo c�digo fonte existe dispon�vel.


Dicion�rio portugu�s

A vers�o portuguesa do Ispell:

ISPELL com EMACS

Para usar com o EMACS precisei de acrescentar ISTO ao meu .emacs (gravar como texto!!!) (aceitam-se sugest�es)


JSPELL: analisador morfol�gico gen�rico

A vers�o actual permite:

Encontra-se dispon�vel:


NLlex: lex for natural language

NLlex is a natural language lexical analysis program generator that looks like UNIX lex extended with morphological analysis and other Natural Language (NL) elements.

NLlex generates a C program that is linked with a morphological analyzer (jspell) and with whatever we want, in order to produce a NL processor.

As a particular case, NLlex can generate modules to work:

NLlex can also deal and be tuned to the so frequently seen non textual elements (markup elements, LATEXlike things, dates, quotes, ...)

Available: technical report
NLlex - a tool to generate lexical analyzers for natural language


YaLG - extending DCGs for Natural Language Processing

YaLG = NLlex + DCG

YaLG enables the possibility of using DCG like grammars with external lexical analysis for natural language processing (NLP).

YaLG is based on a set of modules that:

Available: technical report
YaLG - extending DCGs for Natural Language Processing

tlpp - Tex like preprocessor

tlpp is a general propose preprocessor that looks like LaTeX (it has:

processed like in LaTeX) and it also has:

It can be used:

Ok, ok it is not very efficient...

Code (400 lines of perl) available (contact the author jj@di.uminho.pt)

This preprocessor reused many lines from latex2html

Available:

Dicion�rios electr�nicos

Available:

Etiquetador para portugu�s (by Ricardo Reis)

Available:

Tabela de hifeniza��o portuguesa para LaTeX

O Pedro Resende (rezende@dcc.unicamp.br) fez um optima tabela de hifeniza��o para o Portugu�s � qual eu acrescentei algumas linhas por causa dos caracteres de 8 bits. Deve haver uma copia no CTAN mas como �s vezes h� dificuldade em encontrar esta tabele deixo aqui uma c�pia pt8hyph.tex .

Para quem tenha linux j� costuma vir a tabela do portugues -> usar o comando "texconfig" , seleccionar as tabelas de hifeniza��o e descomentar a linha do portugues e activar a respectiva tabela (por omiss�o vem desactivada).

Outros projectos em fase de arranque

Processamento de termos compostos

Available:

Em obras (not yet available)

Analisador sint�ctico do portugu�s

Em obras (not yet available)

Prot�tipos de ajuda � tradu��o



Jose Joao Dias de Almeida 2001-10-10