Projecto Natura
José João Dias de Almeida
Alberto Simôes
José Carlos Ramalho
Ulisses Pinto
Paulo Rocha
Ricardo Reis
O projecto Natura tem como principal objectivo criar/disponibilizar recursos
de Processamento de Linguagem Natural com particular ênfase na
língua Portuguesa .
Todos os contributos, colaborações,
comentários e sugestões
serão bem vindos e vitais
para o funcionamento do projecto.
Subscribe Natura mailing list
O seguinte corpus contem frases extraídas do jornal PUBLICO a quem muito
agradecemos (e posteriormente adaptadas localmente) contendo
os dois primeiros parágrafos de cada artigo de vários meses entre 1991 e 1994
Dado o volume total ser grande, disponibiliza-se pela rede apenas 1/4
Todos os texto estão acentuados segundo o standard ISO-latin1 e compactados
com gzip.
Para obter os restantes componentes do corpus contactar os responsáveis do
projecto.
Pede-se aos apreciadores de provérbios que contribuam com os seus provérbio
preferidos. O objectivo é colecionar provérbios vivos e realmente usados.
Available: lista de cerca de 500 provérbios
- Lista de palavras para corrector ortográfico (ispell)
- Lista de palavras e classificação gramatical (jspell)
- Lista de frases idiomáticas do português
Projecto do responsabilidade de José Machado.
- Literatura portuguesa
-
para além duma curta biografia,disponibiliza
extratos de textos de várias centenas de autores portugueses, incluindo
várias obras integrais.
O ISPELL internacional
Ispell 3.1..
é um corrector ortográfico para UNIX
(ver o respectivo README
para
versões MSDOS e NeXT) muito popular e cujo código fonte existe disponível.
Dicionário português
A versão portuguesa do Ispell:
- dicionário português(tar gzip)
- dicionário português(source RPM)
- dicionário português(intel RPM)
- dicionário português(tar gzip):
- tem cerca de 40000 radicais
- modos de funcionamento:
- Latex (-T tex)
- pré-acentuado (-T pre)
- latin1 (-T lat)
- IMPORTANTE: Este dicionário tem sido usado por muita gente e contem ainda
alguns erros (não é só este...); por favor enviar correcções/aditamentos
para jj@di.uminho.pt
- Para construir o dicionário:
- Instalar o dicionário a partir do RPM:
- perfil de root (su)
- rpm -i http://natura.di.uminho.pt/ jj/RPMS/i586/ispell.port-2.00-1.i586.rpm
- Instalar a partir do dicionario tar gzip:
- gunzip ...
- tar -xvf ...
- (Ou "tar -xzf UMportugues.tgz" se existir o "tar" da GNU)
- buildhash ... => produz portugues.hash
- instalar "portugues.hash" na directoria dos dicionários (normalmente
/usr/lib/ispell/...)
- (para utilizadores de emacs)
adaptar o ".emacs" (ver secção seguinte) se necessário.
- (para uso fora de editores) testar com ispell -d portugues ...
Para usar com o EMACS precisei de acrescentar ISTO
ao meu .emacs (gravar como texto!!!) (aceitam-se sugestões)
JSPELL: analisador morfológico genérico
A versão actual
permite:
- interface ao C (via biblioteca jspell.a)
- funcionamento como pipe UNIX
- funcionamento como corrector ortográfico interactivo
- interface a PERL
- interface a PROLOG (ver também YaLG)
Encontra-se disponível:
NLlex: lex for natural language
NLlex is a natural language lexical analysis program
generator that looks like UNIX lex extended with morphological
analysis and other Natural Language (NL) elements.
NLlex generates a C program that is linked with a morphological analyzer
(jspell) and with whatever we want, in order to produce a NL processor.
As a particular case, NLlex can generate modules to work:
- as a lexico-morphological analyzer (to be called from yacc, NLyacc, btyacc
or any modules that needs it)
- as a simple lexical processor tool
NLlex can also deal and be tuned to the so frequently seen non textual
elements (markup elements, LATEXlike things, dates, quotes, ...)
Available: technical report
NLlex - a tool to generate lexical analyzers for natural language
YaLG - extending DCGs for Natural Language Processing
YaLG = NLlex + DCG
YaLG enables the possibility of using DCG like grammars with external
lexical analysis for natural language processing (NLP).
YaLG is based on a set of modules that:
- perform morphological analysis with external real size dictionaries and
rules
- give the possibility of scanning external files
- give control over non-word elements of text
- enable backtracking over multiple analysis
Available: technical report
YaLG - extending DCGs for Natural Language Processing
tlpp is a general propose preprocessor that looks like LaTeX (it has:
- newcommand (expanded by tlpp)
- newenvironment (expanded by tlpp)
- def (expanded by tlpp)
- verbatim verb (preserved by tlpp, keeping verbatim keyword)
processed like in LaTeX) and it also has:
- verbatim_ verb_ (preserved by tlpp, removing verbatim_ keyword)
- perl (to evaluate argument under perl!!!)
- possibility of mixing def-like macros with perl (!!!)
It can be used:
- as a filter
- as preprocessor to LaTeX
- as preprocessor to other (textual) languages
Ok, ok it is not very efficient...
Code (400 lines of perl) available (contact the author jj@di.uminho.pt)
This preprocessor reused many lines from latex2html
Available:
Available:
- Especificação e tratamento de Dicionários(13pg,ps,gzip)
(apresentado no XI encontro da Associação Portuguesa de Linguística, 1995)
Neste artigo descreve-se um estudo experimental de especificação e
tratamento de dicionários envolvendo:
- Especificação de uma estrutura lógica a usar no dicionário:
Descrição formal de cada entrada
- Tratamento de engenharia reversa de um "texto" de dicionário no sentido
de construção parcial da referida estrutura
- definição e implementação de um ambiente de consulta e construção de
dicionários com:
- consulta, edição, do dicionário construído
- uso de analisador morfológico para tratamento de palavras
desconhecidas ou derivadas
- inferência (elementar) de partes da estrutura
- possibilidade de extracção automática de frases exemplo a partir de
córpora
- possibilidade de programação de "travessias" do dicionário
- definição de uma linguagem (de programação) de definição de dicionários
- artigo: Programação de dicionários
- dicionário de calão e de expressões idiomáticas
Available:
O Pedro Resende (rezende@dcc.unicamp.br) fez um optima tabela de hifenização
para o Português à qual eu acrescentei algumas linhas por causa dos caracteres
de 8 bits. Deve haver uma copia no CTAN mas como às vezes há dificuldade em
encontrar esta tabele deixo aqui uma cópia pt8hyph.tex .
Para quem tenha linux já costuma vir a tabela do portugues
-> usar o comando "texconfig" , seleccionar as tabelas de hifenização e
descomentar a linha do portugues e activar a respectiva tabela (por
omissão vem desactivada).
Available:
Em obras (not yet available)
Em obras (not yet available)
Jose Joao Dias de Almeida
2001-10-10