Projecto Natura
Jos� Jo�o Dias de Almeida
Alberto Sim�es
Jos� Carlos Ramalho
Ulisses Pinto
Paulo Rocha
Ricardo Reis
O projecto Natura tem como principal objectivo criar/disponibilizar recursos
de Processamento de Linguagem Natural com particular �nfase na
l�ngua Portuguesa .
Todos os contributos, colabora��es,
coment�rios e sugest�es
ser�o bem vindos e vitais
para o funcionamento do projecto.
Subscribe Natura mailing list
O seguinte corpus contem frases extra�das do jornal PUBLICO a quem muito
agradecemos (e posteriormente adaptadas localmente) contendo
os dois primeiros par�grafos de cada artigo de v�rios meses entre 1991 e 1994
Dado o volume total ser grande, disponibiliza-se pela rede apenas 1/4
Todos os texto est�o acentuados segundo o standard ISO-latin1 e compactados
com gzip.
Para obter os restantes componentes do corpus contactar os respons�veis do
projecto.
Pede-se aos apreciadores de prov�rbios que contribuam com os seus prov�rbio
preferidos. O objectivo � colecionar prov�rbios vivos e realmente usados.
Available: lista de cerca de 500 prov�rbios
- Lista de palavras para corrector ortogr�fico (ispell)
- Lista de palavras e classifica��o gramatical (jspell)
- Lista de frases idiom�ticas do portugu�s
Projecto do responsabilidade de Jos� Machado.
- Literatura portuguesa
-
para al�m duma curta biografia,disponibiliza
extratos de textos de v�rias centenas de autores portugueses, incluindo
v�rias obras integrais.
O ISPELL internacional
Ispell 3.1..
� um corrector ortogr�fico para UNIX
(ver o respectivo README
para
vers�es MSDOS e NeXT) muito popular e cujo c�digo fonte existe dispon�vel.
Dicion�rio portugu�s
A vers�o portuguesa do Ispell:
- dicion�rio portugu�s(tar gzip)
- dicion�rio portugu�s(source RPM)
- dicion�rio portugu�s(intel RPM)
- dicion�rio portugu�s(tar gzip):
- tem cerca de 40000 radicais
- modos de funcionamento:
- Latex (-T tex)
- pr�-acentuado (-T pre)
- latin1 (-T lat)
- IMPORTANTE: Este dicion�rio tem sido usado por muita gente e contem ainda
alguns erros (n�o � s� este...); por favor enviar correc��es/aditamentos
para jj@di.uminho.pt
- Para construir o dicion�rio:
- Instalar o dicion�rio a partir do RPM:
- perfil de root (su)
- rpm -i http://natura.di.uminho.pt/ jj/RPMS/i586/ispell.port-2.00-1.i586.rpm
- Instalar a partir do dicionario tar gzip:
- gunzip ...
- tar -xvf ...
- (Ou "tar -xzf UMportugues.tgz" se existir o "tar" da GNU)
- buildhash ... => produz portugues.hash
- instalar "portugues.hash" na directoria dos dicion�rios (normalmente
/usr/lib/ispell/...)
- (para utilizadores de emacs)
adaptar o ".emacs" (ver sec��o seguinte) se necess�rio.
- (para uso fora de editores) testar com ispell -d portugues ...
Para usar com o EMACS precisei de acrescentar ISTO
ao meu .emacs (gravar como texto!!!) (aceitam-se sugest�es)
JSPELL: analisador morfol�gico gen�rico
A vers�o actual
permite:
- interface ao C (via biblioteca jspell.a)
- funcionamento como pipe UNIX
- funcionamento como corrector ortogr�fico interactivo
- interface a PERL
- interface a PROLOG (ver tamb�m YaLG)
Encontra-se dispon�vel:
NLlex: lex for natural language
NLlex is a natural language lexical analysis program
generator that looks like UNIX lex extended with morphological
analysis and other Natural Language (NL) elements.
NLlex generates a C program that is linked with a morphological analyzer
(jspell) and with whatever we want, in order to produce a NL processor.
As a particular case, NLlex can generate modules to work:
- as a lexico-morphological analyzer (to be called from yacc, NLyacc, btyacc
or any modules that needs it)
- as a simple lexical processor tool
NLlex can also deal and be tuned to the so frequently seen non textual
elements (markup elements, LATEXlike things, dates, quotes, ...)
Available: technical report
NLlex - a tool to generate lexical analyzers for natural language
YaLG - extending DCGs for Natural Language Processing
YaLG = NLlex + DCG
YaLG enables the possibility of using DCG like grammars with external
lexical analysis for natural language processing (NLP).
YaLG is based on a set of modules that:
- perform morphological analysis with external real size dictionaries and
rules
- give the possibility of scanning external files
- give control over non-word elements of text
- enable backtracking over multiple analysis
Available: technical report
YaLG - extending DCGs for Natural Language Processing
tlpp is a general propose preprocessor that looks like LaTeX (it has:
- newcommand (expanded by tlpp)
- newenvironment (expanded by tlpp)
- def (expanded by tlpp)
- verbatim verb (preserved by tlpp, keeping verbatim keyword)
processed like in LaTeX) and it also has:
- verbatim_ verb_ (preserved by tlpp, removing verbatim_ keyword)
- perl (to evaluate argument under perl!!!)
- possibility of mixing def-like macros with perl (!!!)
It can be used:
- as a filter
- as preprocessor to LaTeX
- as preprocessor to other (textual) languages
Ok, ok it is not very efficient...
Code (400 lines of perl) available (contact the author jj@di.uminho.pt)
This preprocessor reused many lines from latex2html
Available:
Available:
- Especifica��o e tratamento de Dicion�rios(13pg,ps,gzip)
(apresentado no XI encontro da Associa��o Portuguesa de Lingu�stica, 1995)
Neste artigo descreve-se um estudo experimental de especifica��o e
tratamento de dicion�rios envolvendo:
- Especifica��o de uma estrutura l�gica a usar no dicion�rio:
Descri��o formal de cada entrada
- Tratamento de engenharia reversa de um "texto" de dicion�rio no sentido
de constru��o parcial da referida estrutura
- defini��o e implementa��o de um ambiente de consulta e constru��o de
dicion�rios com:
- consulta, edi��o, do dicion�rio constru�do
- uso de analisador morfol�gico para tratamento de palavras
desconhecidas ou derivadas
- infer�ncia (elementar) de partes da estrutura
- possibilidade de extrac��o autom�tica de frases exemplo a partir de
c�rpora
- possibilidade de programa��o de "travessias" do dicion�rio
- defini��o de uma linguagem (de programa��o) de defini��o de dicion�rios
- artigo: Programa��o de dicion�rios
- dicion�rio de cal�o e de express�es idiom�ticas
Available:
O Pedro Resende (rezende@dcc.unicamp.br) fez um optima tabela de hifeniza��o
para o Portugu�s � qual eu acrescentei algumas linhas por causa dos caracteres
de 8 bits. Deve haver uma copia no CTAN mas como �s vezes h� dificuldade em
encontrar esta tabele deixo aqui uma c�pia pt8hyph.tex .
Para quem tenha linux j� costuma vir a tabela do portugues
-> usar o comando "texconfig" , seleccionar as tabelas de hifeniza��o e
descomentar a linha do portugues e activar a respectiva tabela (por
omiss�o vem desactivada).
Available:
Em obras (not yet available)
Em obras (not yet available)
Jose Joao Dias de Almeida
2001-10-10