Projecto Natura

José João Dias de Almeida
Alberto Simôes
José Carlos Ramalho
Ulisses Pinto
Paulo Rocha
Ricardo Reis

O projecto Natura tem como principal objectivo criar/disponibilizar recursos de Processamento de Linguagem Natural com particular ênfase na língua Portuguesa .

Todos os contributos, colaborações, comentários e sugestões serão bem vindos e vitais para o funcionamento do projecto.

Subscribe Natura mailing list

Corpora linguísticos e afins

Corpus jornalístico Natura-PUBLICO

O seguinte corpus contem frases extraídas do jornal PUBLICO a quem muito agradecemos (e posteriormente adaptadas localmente) contendo os dois primeiros parágrafos de cada artigo de vários meses entre 1991 e 1994

Dado o volume total ser grande, disponibiliza-se pela rede apenas 1/4

primeiras 1000 linhas (23 kbytes)
primeiras 10000 linhas (230 Kbytes)
primeiras 156876 linhas (4 Mbyte)
n.o de ocorrências de cada palavra no texto anterior (170 kb)

Todos os texto estão acentuados segundo o standard ISO-latin1 e compactados com gzip.

Para obter os restantes componentes do corpus contactar os responsáveis do projecto.

Provérbios

Pede-se aos apreciadores de provérbios que contribuam com os seus provérbio preferidos. O objectivo é colecionar provérbios vivos e realmente usados.

Available: lista de cerca de 500 provérbios

Outros corpora

Lista de palavras para corrector ortográfico (ispell)
Lista de palavras e classificação gramatical (jspell)
Lista de frases idiomáticas do português

Projecto Clemente Vercial

Projecto do responsabilidade de José Machado.

Literatura portuguesa - para além duma curta biografia,disponibiliza extratos de textos de várias centenas de autores portugueses, incluindo várias obras integrais.

Corrector ortográfico ISPELL

O ISPELL internacional Ispell 3.1.. é um corrector ortográfico para UNIX (ver o respectivo README para versões MSDOS e NeXT) muito popular e cujo código fonte existe disponível.

Dicionário português

A versão portuguesa do Ispell:

dicionário português(tar gzip)
dicionário português(source RPM)
dicionário português(intel RPM)
dicionário português(tar gzip):
tem cerca de 40000 radicais
modos de funcionamento:
- Latex (-T tex)
- pré-acentuado (-T pre)
- latin1 (-T lat)
IMPORTANTE: Este dicionário tem sido usado por muita gente e contem ainda alguns erros (não é só este...); por favor enviar correcções/aditamentos para jj@di.uminho.pt
Para construir o dicionário:
- Instalar o dicionário a partir do RPM:
  - perfil de root (su)
  - rpm -i http://natura.di.uminho.pt/ jj/RPMS/i586/ispell.port-2.00-1.i586.rpm
- Instalar a partir do dicionario tar gzip:
  - gunzip ...
  - tar -xvf ...
  - (Ou "tar -xzf UMportugues.tgz" se existir o "tar" da GNU)
  - buildhash ... => produz portugues.hash
  - instalar "portugues.hash" na directoria dos dicionários (normalmente /usr/lib/ispell/...)
(para utilizadores de emacs) adaptar o ".emacs" (ver secção seguinte) se necessário.
(para uso fora de editores) testar com ispell -d portugues ...

ISPELL com EMACS

Para usar com o EMACS precisei de acrescentar ISTO ao meu .emacs (gravar como texto!!!) (aceitam-se sugestões)

JSPELL: analisador morfológico genérico

A versão actual permite:

interface ao C (via biblioteca jspell.a)
funcionamento como pipe UNIX
funcionamento como corrector ortográfico interactivo
interface a PERL
interface a PROLOG (ver também YaLG)

Encontra-se disponível:

o código C(ficheiro tar gzip)
Manual (ps gzip)
JSPELL - um módulo para análise léxica genérica de linguagem natural (ps gzip 11pg) uma breve descrição do JSPELL apresentado no encontro da Associação Portuguesa de Linguística, Évora - 1994.
Dicionário jspell português. Na sua versão actual contem:
- cerca de 45 000 radicais
- vária centenas de regras morfológicas
- tratamento de verbos irregulares
jspell RPM para linux incluindo jspell, interface a perl, e dicionario português.
jspell source RPM incluindo jspell, interface a perl, e dicionario português.

NLlex: lex for natural language

NLlex is a natural language lexical analysis program generator that looks like UNIX lex extended with morphological analysis and other Natural Language (NL) elements.

NLlex generates a C program that is linked with a morphological analyzer (jspell) and with whatever we want, in order to produce a NL processor.

As a particular case, NLlex can generate modules to work:

as a lexico-morphological analyzer (to be called from yacc, NLyacc, btyacc or any modules that needs it)
as a simple lexical processor tool

NLlex can also deal and be tuned to the so frequently seen non textual elements (markup elements, L^ATEXlike things, dates, quotes, ...)

Available: technical report
NLlex - a tool to generate lexical analyzers for natural language

YaLG - extending DCGs for Natural Language Processing

YaLG = NLlex + DCG

YaLG enables the possibility of using DCG like grammars with external lexical analysis for natural language processing (NLP).

YaLG is based on a set of modules that:

perform morphological analysis with external real size dictionaries and rules
give the possibility of scanning external files
give control over non-word elements of text
enable backtracking over multiple analysis

Available: technical report
YaLG - extending DCGs for Natural Language Processing

tlpp - Tex like preprocessor

tlpp is a general propose preprocessor that looks like LaTeX (it has:

newcommand (expanded by tlpp)
newenvironment (expanded by tlpp)
def (expanded by tlpp)
verbatim verb (preserved by tlpp, keeping verbatim keyword)

processed like in LaTeX) and it also has:

verbatim_ verb_ (preserved by tlpp, removing verbatim_ keyword)
perl (to evaluate argument under perl!!!)
possibility of mixing def-like macros with perl (!!!)

It can be used:

as a filter
as preprocessor to LaTeX
as preprocessor to other (textual) languages

Ok, ok it is not very efficient...

Code (400 lines of perl) available (contact the author jj@di.uminho.pt)

This preprocessor reused many lines from latex2html

Available:

Dicionários electrónicos

Available:

Especificação e tratamento de Dicionários(13pg,ps,gzip)
(apresentado no XI encontro da Associação Portuguesa de Linguística, 1995)
Neste artigo descreve-se um estudo experimental de especificação e tratamento de dicionários envolvendo:
- Especificação de uma estrutura lógica a usar no dicionário: Descrição formal de cada entrada
- Tratamento de engenharia reversa de um "texto" de dicionário no sentido de construção parcial da referida estrutura
- definição e implementação de um ambiente de consulta e construção de dicionários com:
  - consulta, edição, do dicionário construído
  - uso de analisador morfológico para tratamento de palavras desconhecidas ou derivadas
  - inferência (elementar) de partes da estrutura
  - possibilidade de extracção automática de frases exemplo a partir de córpora
  - possibilidade de programação de "travessias" do dicionário
- definição de uma linguagem (de programação) de definição de dicionários
artigo: Programação de dicionários
dicionário de calão e de expressões idiomáticas

Etiquetador para português (by Ricardo Reis)

Available:

Pode ser experimentado via www
Um relatório provisório
Corpora etiquetado de teste/aprendizagem
Descrição do conjunto de etiquetas usado

Tabela de hifenização portuguesa para LaTeX

O Pedro Resende (rezende@dcc.unicamp.br) fez um optima tabela de hifenização para o Português à qual eu acrescentei algumas linhas por causa dos caracteres de 8 bits. Deve haver uma copia no CTAN mas como às vezes há dificuldade em encontrar esta tabele deixo aqui uma cópia pt8hyph.tex .

Para quem tenha linux já costuma vir a tabela do portugues -> usar o comando "texconfig" , seleccionar as tabelas de hifenização e descomentar a linha do portugues e activar a respectiva tabela (por omissão vem desactivada).

Outros projectos em fase de arranque

Processamento de termos compostos

Available:

Tratamento automático de termos compostos(12pg. ps gzip)
(apresentado no XI encontro da Associação Portuguesa de Linguística, 1995)

Em obras (not yet available)

Analisador sintáctico do português

Em obras (not yet available)

Protótipos de ajuda à tradução

Jose Joao Dias de Almeida 2001-10-10