\documentclass[portuges,a4paper]{article}
\RequirePackage[b5paper,top=2.5cm,left=2cm,right=2cm,bottom=2.5cm]{geometry}
\usepackage{babel}
\usepackage[latin1]{inputenc}
%\usepackage[utf8]{inputenc}
%\usepackage{ucs}
\usepackage{fancyvrb}
\usepackage{t1enc}
\usepackage{aeguill}
\usepackage{graphicx}
\usepackage{url}
%\usepackage{natbib}
%\usepackage[authoryear]{natbib}
%\citestyle{nature}
\usepackage{fullname}


\begin{document}
\def\rena{{\sc Rena}}
\def\harem{{\sc Harem}}
\def\t2o{{$T_2$}}

\def\imgy#1{\includegraphics[height=0.95\textheight]{#1}}
\def\imgY#1#2{\includegraphics[height=#1\textheight]{#2}}
\def\imgx#1{\includegraphics[width=0.95\textwidth]{#1}}
\def\imgX#1#2{\includegraphics[width=#1\textwidth]{#2}}

\fvset{fontsize=\footnotesize, frame = single, numberblanklines = false}

\title{\rena{}  --
  Reconhecedor de Entidades}
\author{J.João Dias de Almeida}
\date{\today}
\maketitle


\tableofcontents

\begin{abstract}
Neste documento faz-se uma breve apresentação do sistema de reconhecimento
de entidades \rena, através da especificação de:
  . a sua filosofia geral,
  . a sua arquitectura,
  . tabelas de configuração,
  . algoritmos de base utilizados
  #
É também feita um brevíssima análise da sua participação no encontro de 
avaliação conjunto HAREM.
\end{abstract}

=Introdução

O \rena\cite{man:rena} é um protótipo de sistema de extracção/marcação de 
entidades mencionadas construído por Edgar Alves sob supervisão de J.J. Almeida no âmbito do projecto IKF.

== Breve descrição do projecto IKF 

O projecto IKF(Information + Knowledge + Fusion)\cite{IKF1,IKF2,IKF3},
foi um projecto Eureka (E!2235) envolvendo participantes universitários e
industriais de seis países, cuja
finalidade básica é o desenvolvimento de uma infrastrutura distribuída, baseada
em ontologias para manuseamento inteligente de conhecimento -- contemplando um
ambiente documental multifonte e distribuído.


O IKF framework baseia-se num modelo de representação de conhecimento
sofisticado (baseado em ontologias, facetas, fuzzy, informação incompleta,
temporal)\cite{IKF1}, e é constituído por um conjunto de módulos envolvendo
(entre outros):
  .1 Extractores básicos -- extracção de conhecimento a partir de documentos 
heterogéneos de modo a construir um sistema de assimilação documental:
      . organização de um conjunto ficheiros  modo a construir uma base 
             documental
      . extracção de informação (rica) a partir desse conjunto de documentos
      . classificação facetada, fuzzy e parcial de documentos e da informação
      . fusão da informação extraída dos vários documentos
  #
  .2 Knowledge Renovator\cite{IKF2} -- ligada à evolução (temporal ou não) da
informação e do conhecimento.
  .3 Enfermaria do Conhecimento -- ligado a sistemas legados, e a reparação de
inconsistências de razões variadas, 
  .4 Navegadores -- um conjunto de navegadores sobre a base de conhecimento e 
da base documental.
 #

A título de exemplo de aplicação considere-se o caso da assimilação 
documental de caixas de mail: ao extrair e fundir conhecimento, pretende-se
obter informação capaz de responder a perguntas como:
  . quem é a pessoa F? 
  . qual a lista dos meus amigos? quais os parceiros de X?
  . qual o conjunto de áreas de interesses de Z
  . que documentos são relevantes acerca de ...
  #


Tendo em vista estes objectivos, para além das tarefas principais (as tarefas
estruturais ligadas ao projecto), foi realizado um conjunto de pequenas
tarefas/experiências explorativas, envolvendo recursos muito limitados e 
frequentemente envolvendo alunos finalistas.

É neste contexto que surge o protótipo \rena{} que não fazendo directamente 
parte do projecto IKF, foi desenhado como um caso de estudo com a intenção 
de fazer extracção de conhecimento simples -- extracção de uma base de 
entidades: 
\[Rena: Ficheiro^* * BaseEnt \longrightarrow BaseDoc * BaseEnt * ...\]

=Descrição do \rena{}

Na sequência do enquadramento anteriormente descrito, 
o protótipo \rena{} tem como intenção uma extracção tão rica
quanto possível de informação, com vista a ser usada por sistemas
de processamento, fusão de conhecimento (e em particular no projecto IKF).

À medida que a ferramenta \rena{} foi sendo projectada, decidiu-se que era
importante que pudesse ser usado e pudesse abranger um conjunto 
menos restritivo de utilizações -- que pudesse ser usado em modelos semânticos
menos sofisticados (um Micro-IKF).

Dum modo resumido o \rena{} é um sistema para reconhecimento de
entidades constituído por:
  . Uma biblioteca Perl:
    .1 baseada num conjunto de ficheiros de \textbf{configuração} alteráveis,
    .2 com funcionalidade para \textbf{extrair a lista das Entidades} a 
         partir de conjuntos de texto,
    .3 ou em alternativa \textbf{marcar Entidades} num conjunto de texto
    #
  . Um conjunto de scripts para fazer processamento de entidades
  #


Como é natural, muita da capacidade de extracção depende de um conjunto de 
ficheiros e de regras -- elemento de configuração -- que descrevem 
conhecimento geral e regras de contexto usados na extracção.

Pretendeu-se desde início que esses elementos de configuração sejam
\emph{externos} ao \rena{} de modo a que o utilizador os possa adaptar
à sua visão do mundo e à sua intenção concreta de utilização.

Deste modo pretendeu-se que os elementos de configuração sejam legíveis,
expressivos e compactos.

Seguidamente será feita uma descrição destes elementos de configuração.

==Ficheiros de configuração

A configuração de base do \rena{} é constituída por um conjunto de recursos:
.1 Ontologia de tipos de entidades -- que estabelece relações  (hierárquicas)
    entre os tipos de entidades existentes;
.1 Tabela de contextos -- com regras para deduzir qual o tipo das entidades
    com base no contexto direito;
.1 Almanaque de cultura geral -- onde se registam termos/conceitos geográficos,
    culturais, patrimoniais, cultura geral;
.1 Sistema de tratamento de nomes -- onde se guardam alguns dos nomes/apelidos 
mais comuns e regras para determinar se um Nome-Próprio se refere a pessoas;
.1 Tabela de conversão/adaptação de nomes;
.1 Tabela de contextos atributivos (em fase de construção)
#

Vários destes recursos são definidos usando linguagens de domínio específico
(DSLs) construídas com a intenção de conseguir uma descrição eficaz dessa
informação.

Seguidamente vamos detalhar alguns destes recursos e  apresentar
exemplos de extractos.

=== Ontologia de classes

A ontologia de classes armazena os tipos de entidades e respectivas relações.

A existência deste recurso é crucial para se conseguir:
  .  fazer inferência parcial de tipos de entidades,
  .  facilitar a fusão de análises complementares,
  .  obter uma maior adaptabilidade da informação extraída.
  #

Sempre que possível pretende-se que esta ontologia tenha um grão fino de 
modo a poder registar toda a informação extraída, mas ao mesmo tempo 
que permita uma posterior abstracção/síntese.

Segue-se um extracto da ontologia de classes (visto como uma taxonomia para
mais fácil visualização):

\begin{Verbatim}
- pessoa:
   - advogado
   - arquitecto
   - atleta:
      - futebolista
      - nadador
   - escritor:
      - poeta
   - jornalista
   - militar:
      - general
      - almirante
      - brigadeiro
      - sargento
      - tenente
      - capitão
   - músico:
      - compositor
      - pianista
      - trompetista
   - político:
      - presidente da república
      - deputado
\end{Verbatim}

=== Tabela de contextos

A tabela de contextos permite que de um modo compacto se possa definir
uma associação entre uma \textbf{expressão de contexto} esquerdo e uma
classe.

\begin{Verbatim}
  cidade (de do da)     => cidade !lctx
  freguesia (de do da)  => freguesia
  distrito (de do da)   => distrito
  concelho (de do da)   => concelho/90
  estado (de do da)     => estado
  capital               => cidade !lctx

  (Rio Oceano Lago Mar Serra Cordilheira) => $_
  Cabo (do de da)       => cabo
  Golfo (do de da)      => golfo

  (Lugar Largo Lg. Praça Rua R. Avenida) (de da do das dos)?  => lugar
  (Travessa Beco Quinta Viela Rotunda) (de da do das dos)?    => lugar

#
# Monumentos 
#
 
  (Convento Mosteiro Igreja Ig. Palácio Museu Sé) (de da)? => monumento
\end{Verbatim}
Notas:
. as regras podem ter valores de confiança de modo a permitir distinguir entre
   indícios mais fortes e indícios mas fracos,
. a capitalização é usada para indicar se o termo de contexto esquerdo deverá
   ou não ser incluída na entidade
. os padrões das regras podem incluir variantes alternativas, elementos
opcionais, comentários, etc.
#


=== Almanaque de cultura geral

Conforme atrás se referiu, o Almanaque de cultura geral pretende
guardar alguma informação de cultura geral de índole diversa.

Presentemente este Almanaque tem por base informação criada no âmbito de
projecto \t2o{}\cite{elpub06-t2o,lrec06}, e a informação associada a cada entidade é 
por vezes rica (ainda que heterogénea): além duma classe de base, pretende-se
armazenar um conjunto de atributos e ligações tão rico quanto possível.

Simplificadamente o Almanaque corresponde a uma vista sobre a 
projecção de uma ontologia \t2o{} seleccionando-se os termos
referentes a:
 . geografia
 . personagens famosas
 . eventos
 . ...
 #

No seguinte exemplo mostra-se um extracto da informação existente no
Almanaque associada ao \textbf{Rio Douro}:

\begin{Verbatim}
Rio Douro =
 rio Douro
        IOF =>  rio
        AFLUENTES =>    rio Mau,
                rio Sousa,
                rio Varosa,
                rio Tâmega,
                rio Pinhão,
                ....
                rio Torto,
                rio Távora,
                rio Esla,
                rio Tua
        COMPRIMENTO =>  927
        FOZ =>  Porto
        IN =>   Portugal,
                Espanha
        NASCE =>        serra do Urbião
        PASSA_EM =>     barragem do Pocinho,
                barragem de Miranda,
                barragem de Crestuma,
                Miranda do Douro,
                barragem do Carrapatelo,
                Régua,
                barragem da Bemposta
\end{Verbatim}

Como se nota há uma intenção de dispor de um conjunto de dados de
base rico e estruturado que permita processamento posterior (interactivo
ou não).

=== Sistema de tratamento de nomes


A intenção ligada ao 
\textbf{Name-gazetteer}
é permitir dispor de dados para determinar se certos identificadores
constituem (ou não) prováveis nomes de pessoas (quando não houver 
fortes indícios noutro sentido).

\begin{Verbatim}
26.62287        Maria   nome
13.70273        Ana     nome
6.85846         José    nome
5.16030         Silva   apelido
4.90977         António nome
3.95357         Carla   nome
3.51606         Manuel  nome
3.50263         João    nome
...
0.02148         Dinis   misto
\end{Verbatim}

De um modo simplificado, guarda-se um tabela que indica a taxa de
ocorrência (por milhão de palavras) de determinada palavra, indicando
ainda se o seu uso é preferencialmente nome, apelido ou misto.

Esta lista tem por base uma lista de 150k nomes completos, de várias
proveniências.

=== Tabela de conversão/adaptação de nomes

Esta tabela pretende criar um grau de indirecção de modo a permitir
uma mais fácil alteração da estrutura da ontologia de classes.

A finalidade principal desta tabela é criar alguma independência entra
a ontologia de classes, o Almanaque e a tabela de contextos.

=== Tabela de contextos atributivos

Este recurso está ainda em fase implementação.

Considere-se o seguinte extracto exemplo:
\begin{Verbatim}
 a atleta portuguesa A :: atleta(A), nacionalidade(A,portuguesa)
 X , no norte de Y     :: geo(X), geo(Y), norte(X,Y)
 o francês Z           :: pessoa(Z), nacionalidade(Z,francês)
\end{Verbatim}

Notas:
. linha 1: quando for encontrada uma ocorrência como \textbf{...a atleta
portuguesa Rosa Mota ...} é feita a inferência de que Rosa Mota é uma
atleta (e portanto uma pessoa, etc), e que o atributo nacionalidade da
entidade em causa é preenchido com o valor \textbf{portuguesa}.
#

A intenção da tabela de contextos atributivos é, para além de 
eventualmente inferir classes, ajudar a inferir mais atributos, 
factos  e informações acerca das entidades -- informação mais rica.

==\rena: estrutura interna

Do ponto de vista algorítmico, o \rena{}:
  .1 começa por procurar entidades e construir uma sequência de textos simples
e entidades: \( (texto \times entidade)^* \)
  .2 seguidamente esse objecto é processado por uma série de filtros
 com assinatura:
\[ f: (texto \times entidade)^* \rightarrow (texto \times entidade)^* \]
  Estes filtros vão processar os pares texto-entidades, enriquecendo
informação, alterando fronteiras, unindo zonas, com base nos recursos de
configuração atrás referidos e utilizando ferramentas internas ou
externas (ex, analisador morfológico jspell \cite{jspell2002,Almeida94c}).
  .3 no final, de acordo com a saída pretendida, é criado:
     . um texto com as entidades anotadas
     . um resumo das entidades presentes
     . ...
     #
  #

Os filtros acima referidos podem ser desactivados e fazem tarefas como:
 . tratamento de entidades com elementos de uma única letra,
 . tratamento de aspas ligado às entidades
 . remoção de entidades entre aspas -- este  filtro só deverá ser usado se 
     se pretender ignorar este tipo de ocorrências.
 . tratamento de entidades com traços interiores (exemplo Benfica-Sporting)
 . tratamento de entidades em início de frase
 . enriquecimento por análise de regras de contexto
 . enriquecimento por análise de gazetteer de nomes
 . enriquecimento por análise de Almanaque
 . tratamento de acrónimos
 . reconhecimento e unificação de entidades iguais (ou abreviadas) e
   criação de atributos de ligação entre as várias ocorrências da mesma
     entidade;
 . geração do formato final pretendido:
   .  xml -- para escrever em formato \textit{XML}, uma versão
do texto original onde são anotadas todas as referências a entidades
encontradas.
   .  Unified\_yaml -- 
        Este filtro escreve uma representação, no formato 
        \textit{YAML}\cite{yamlspec,yamlcookbook}, de
todas as entidades com alguma referência no texto, bem como todas as
classificações atribuídas.
   #
#

=Participação no \harem{}

A participação no \harem{} foi muito importante e produtiva para nós
já que:
 . envolveu lidar com um problema para o qual o \rena{} não tinha sido pensado,
 . envolveu discutir e trocar impressões com os outros participantes e
    com a organização
 . levantou uma série de questões que nunca nos tinham ocorrido
 . obrigou a pensar um pouco mais nesta questão
 #

Há no entanto alguma diferença entre o tipo de avaliação que pretendíamos (mais
ligada a um uso de extracção de informação enciclopédica) e a avaliação HAREM.

Os resultados finais ficaram aquém do que seria possível por várias
razões:
 . o autor do \rena{} (Edgar Alves) não ter participado (por ter 
já deixado a universidade e estar ocupado com os seus afazeres 
profissionais)
 . haver decisões do \rena{} que não seguem as propostas \harem{} 
e das quais não quisemos prescindir,
 . Com o pouco tempo que foi possível dedicar, termos optado por
melhorar alguns módulos que não sendo os mais importantes para a 
avaliação \harem{}, são cruciais para o \rena.
#

Genericamente a marcação de entidades foi bem conseguida
apesar de termos optado por não marcar valores numéricos 
em geral por nos parecer menos interessante para o \rena{}.

Os maiores problemas resultaram de uma diferente filosofia no
que diz respeito às classes -- diferente filosofia semântica.
Enquanto que o HAREM pretende marcar a ocorrência específica em 
contexto específico, o \rena{} está menos preocupado com a ocorrência
concreta mas com a entidade referida; está mais preocupado com a 
extracção de informação rica de cariz enciclopédico.

Considere-se o seguinte exemplo concreto:
\begin{Verbatim}
...os diários "<OBRA TIPO="PRODUTO" MORF="M,S">Jornal Tribuna de Macau</OBRA>" 
<OBRA TIPO="PRODUTO" MORF="?,S">Macau Hoje</OBRA> e ...
\end{Verbatim}

De acordo com a nossa intenção de extracção de informação enciclopédica, afirmar 
que o \emph{Jornal Tribuna de
Macau} é um \textbf{Obra:Produto} seria completamente inaceitável: a
resposta útil para o \rena{} (independentemente de o termos conseguido
extrair) é \textbf{Jornal} ou \textbf{Jornal diário}

Do mesmo modo demos preferência a \textbf{monumentos} em relação aos
\textbf{Locais:Alargados} ou às \textbf{Obra:Arte}.

A participação semântica do \rena{} foi feito através de:
  .1 extrair a informação e usar apenas a classificação geral de acordo com a 
ontologia \rena{}
  .2 traduzir (de acordo com uma tabela de tradução escrita manualmente) cada
classificador \rena{} num par entidade:tipo do HAREM
#

Esta abordagem também introduziu erros adicionais (e alguma classes como monumento
acabaram por não encontrar um classificador natural na estrutura classificativa
HAREM).\\

Optamos por não fazer marcação morfológica por não nos parecer tão relevante para
a nossa ferramenta específica e para não dispersar (e congratulamo-nos
com a versatilidade do sistema HAREM de poder aceitar marcações parciais).

No apêndice \ref{futuro}, apresentamos mais alguns exemplos e situações em que
os modelos HAREM e \rena{} divergiram.


=Conclusões e trabalho futuro

Foi muito positivo a participação no \harem{} embora por questões temporais
não tenha sido possível tirar partido de uma série de iniciativas.

Seguiu-se uma abordagem que não visava maximizar o resultado final da
avaliação mas antes o tentar ajudar à evolução do \rena{} de acordo com 
os nossos objectivos imediatos (que por vezes não coincidiram com os do \harem{}).

Apesar das evoluções conseguidas e o estado actual do \rena{} é de
software protótipo.\\


Ao nível do trabalho futuro, há genericamente o objectivo de melhorar:
. melhorar as regras de inferência e unificação e resumo
. criar um processador estrutural
. melhorar name-gazetteer incluindo também dados estrangeiros
. documentar melhor o interface de biblioteca Perl, nomeadamente
   os processadores de ordem superior actuais
\begin{Verbatim}
  forent($texto){ .... }
\end{Verbatim}
#

\bibliographystyle{fullname}
\bibliography{jj,outros}
\appendix

\section{\label{futuro} Subsídio para a discussão sobre futuras edições }

A organização e planeamento do \harem{} foi a meu ver muito boa. No entanto
e tendo em conta futuras organizações vou enunciar algumas hipóteses 
que me pareciam ser vantajosas.

Em resumo as propostas para futuras versões são:
.1 uso de documentos seguindo (totalmente) a norma XML
.1 uso claro e extensível de metadados nas colecções
       \[coleccao = (MetaData \times Texto )^* \]
.1 migração de taxonomia a 2 níveis para uma ontologia de classes multi-nível
.1 uso de etiquetagem mais versátil.
#

==Uso de documentos seguindo XML

A migração para documentos XML, torna mais fácil tirar
partido de um conjunto de ferramentas no sentido de:
  . permitir verificar se os documentos (colecções e submissões) são
       bem-formados e se são válidos
  . ser claro e definido qual o sistema de encoding usado
  . poder obter mais facilmente uma variedade de vistas 
 (pritty-printers), resumos, e reordenações dos documentos, de modo a se adaptar 
 a diversas finalidades. (Usando CSS, XSL, etc)
  . ser trivial o cálculo de um conjunto de estatísticas e pesquisas (Usando XPath e afins)
 #

==Uso claro e expansível de metadados nas colecções

A existência de metadados nas colecções foi algo que a organização
teve em conta, Existe um elemento \texttt{DOC}, com metadados variante linguística e
género\footnote{Com os valores \emph{CorreioElectrónico, Entrevista, Expositivo, Jornalístico, Literário, Político,
Técnico, Web.}}.

\begin{Verbatim}
 <DOC>
   <DOCID>HAREM-871-07800</DOCID>
   <GENERO>Web</GENERO>
   <ORIGEM>PT</ORIGEM>
 ...
\end{Verbatim}

Por um lado parece-me que os valores do atributo género cobrem mais que uma faceta:
um documento \emph{político} (conteúdo temático) poderá ser também uma \emph{entrevista}, ou
estar disponível (suporte) em \emph{Web, CorreioElectrónico}. Ou seja, 
seria útil múltiplas ocorrências de géneros, ou separar esta informação 
em mais que um campos.

Por outro lado gostaria de ver um elemento Meta que agrupasse toda a metadata 
do documento de modo a permitir que possa haver mais fácil enriquecimento (por
parte do HAREM ou de outro qualquer uso futuro).

% A título de exemplo parece-me que faria sentido metadados referente a:
%   . tipo de documento (artigo \LaTeX, página html, email, ...)
%   . domínio temático
%   . data
%   . proveniência
%   #

== Questões ligados à estrutura classificativa usada

Cada entidade marcada está a ser classificada \emph{semanticamente}.

% ===Um pouco de história

Originalmente o MUC propôs um sistema classificativo a um nível e incluindo
3 ou 4 classes (Pessoa, Instituição, Entidade geográfica, ...).
Apesar de alguns problemas conhecidos,
esta proposta faz perfeitamente sentido, e permitiu a realização de
avaliações conjuntas.

O \harem{} propôs subir a fasquia para uma categorização
a 2 níveis -- taxonomia a 2 níveis. A meu ver essa decisão foi
necessária e acertada.\footnote{
Genericamente subir a fasquia é bom quando houver pelo menos um
atleta que a transponha...}. Havendo uma taxonomia a 2 níveis, há
naturalmente a hipótese de participações parciais:
 . nível 0 --> marcar apenas as entidades
 . nível 1 --> apresentar apenas as classificações do primeiro nível
 . nível 2 --> apresentar a classificação completa.
 . ou ainda escolher uma subárvore da taxonomia em causa.
 #

Por outro lado, foi  construída uma função
de conversão \[harem2muc : Charem \longrightarrow Cmuc\]  que mapeia
classificações \harem{} em classificações MUC. -- tornando possível a comparações
de resultados (medidas de acerto) entre as duas competições.
Esta função de mapeamento entre os dois sistemas para a maioria dos casos
é simples e natural, havendo no entanto zonas da estrutura \harem{} que são
difíceis de mapear em MUC (o que não surpreende nem impede a leitura dos valores
após conversão).

Dum modo semelhante parece-me que há zonas da taxonomia \harem{} que são
pouco naturais e claras -- vistas pelo prisma de representação de conhecimento.

Constatou-se naturalmente dificuldades em arranjar consenso entre os
participantes em relação ao referido sistema de classificação \harem{}, o que é
natural e habitual nestas actividades, e que me parece não ter constituído
obstáculo importante ao funcionamento.

Genericamente a marcação combinada tem o seguinte aspecto:
\begin{Verbatim}
  <Nivel1  tipo="Nivel2">Entidade encontrada</Nivel1>
\end{Verbatim}

Os problemas que aqui surgem são:
  .1 apesar de existir uma etiqueta de alternativa (\verb!<ALT>|</ALT>!),
não vejo claramente como descrever ao nível da marcação:
    . \textbf{ignorância total} (ex: \emph{o X é interessante} -- não sei nada acerca
de X),
    .  dúvida (ex: \emph{o Porto é imprevisível}: ou é uma cidade ou um clube de
futebol mas não as duas ao mesmo tempo -- só consegui concluir alguma informação parcial),
    .  classificação múltipla (\emph{na Biblioteca da Universidade de Coimbra encontramos o espírito barroco} -- acho válidas duas ou mais classificações Obra de
    arte, Local Biblioteca, ...)
   #
ou seja:
\begin{Verbatim}
  <nivel1 tipo="não faço ideia">e1</nivel1>
  <nivel1 tipo="das duas uma:A ou B mas tenho dúvidas qual">e1<nivel1>
  <nivel1 tipo="tanto A como B são tipos de">e1<nivel1>
\end{Verbatim}

  .1 haver situações (ao fazer a marcação a dois níveis) em que
    certas sub-árvores são facetas (quase independentes)
    levando a que faça sentido duas classificações, e que por vezes a solução
    oficial \emph{perca} certas facetas e aspectos cruciais à caracterização da
    entidade em causa.
 \begin{quotation}Considere-se o seguinte exemplo da colecção dourada
\begin{Verbatim}
 <LOCAL|OBRA TIPO="ALARGADO|ARTE">Biblioteca Pública</LOCAL|OBRA>
\end{Verbatim}
 A referida biblioteca é um lugar, um edifício ou semelhante mas
simultaneamente é património artístico, (é uma obra de arte).
De certo modo, ser ou não obra de arte é uma faceta que poderemos querer
aplicar a edifícios, livros, cidades e outra classes.
Portanto constitui uma informação que deveria poder coexistir com a informação da
classe a que se refere. Ou seja aquela biblioteca é simultaneamente um edifício 
e uma obra de arte.
  \end{quotation}

  .1 genericamente a existência de herança múltipla complica certas zonas
      da estrutura classificativas
  .1 por vezes o enquadramento das ferramentas concorrentes força estruturas
      classificativas diferentes das usadas  e ligeiramente \emph{antagónicas}.
     \begin{quotation}
     Considere-se o seguinte par de exemplos da colecção dourada:
\begin{Verbatim}
 Visite o <OBRA TIPO="PRODUTO">DataGrama Zero</OBRA> a Revista Eletronica
 ...

 A revista foi denominada <ABSTRACCAO TIPO="NOME">Medicina e Cultura</ABSTRACCAO>
 ...
\end{Verbatim}
Independentemente do contexto linguístico em que estas entidades possam estar a
ser usadas,
dum ponto de vista de representação de conhecimento pretende-se 
tirar partido de que esta duas revistas têm muito em
comum (classes idênticas ou aparentadas) e será inaceitável esquecer que são \emph{revistas}.
     \end{quotation}
  #


===A granularidade e capacidade distintiva

Considere-se a questão ligada com os conceitos Portugal, país, entidade geográfica, etc:

O seguinte conjunto de relações binárias pode ser usado para descrever (algumas
das) propriedades do conceito:

\begin{Verbatim}
   Portugal IOF  país
   país     ISA  entidade geográfica
   país     ISA  instituição administrativa
   país     ISA  povo
   ...
\end{Verbatim}

Numa situação como a do IKF/\rena{} não dispomos de informação suficiente para
resolver devidamente essa questão: optámos por baixar a fasquia: ter uma
classificação que falhe 40\% dos casos é pior do que dizer que é simplesmente
um país.

Na visão IKF/\rena{} a nossa intenção corresponde a ir decorando a árvore de
conhecimento com todos os atributos que conseguirmos obter (obviamente
trata-se de uma finalidade específica nossa), ou seja pretendemos juntar
em \emph{Portugal} os atributos ligados a país nas suas várias acepções e
usos (presidente da república, língua, rios, área, etc).

Esse tipo de junção processamento de atributos, heranças, etc, cria restrições
acerca do tipo de árvores classificativas a usar:
 a relação subclasse (nível1 -- nível2 da estrutura \harem{}) passa
a ter maiores responsabilidades...


== O que eu propunha...

\:
.  Etiquetagem mais prática:
  . uma única tag Entidade \verb!<ent ...>...</ent>!
  . um atributo \emph{tipo} \verb!<ent t="país">...</ent>!
  . com notação clara para alternativas \verb!<ent t="t1|t2"> ...!
  . com notação clara para multiclassificação \verb!<ent t="t1;t2"> ...!
  . para informação parcial = escolher um nó mais acima na árvore classificativa
       (caso estremo = topo = entidade)
  . um atributo de unificação para permitir ligar referências à mesma entidade
  #
. Ontologia multi-nível de classes, com herança múltipla,
. Identificadores de classe mais claros e únicos -- a questão da clareza é crucial 
para o contexto de extracção de informação onde o \rena{} se encaixa -- (dizer 
que \emph{Palácio de Vila Flor} é um \emph{LOCAL:ALARGADO} é inaceitável do
ponto de vista de extracção de informação enciclopédica).

#


\end{document}

\section{Casos para analisar com cuidado}

\begin{Verbatim}

Monumentos:
 
<LOCAL TIPO="ALARGADO" MORF="M,P">Jardins do Paço Episcopal</LOCAL>  ==> Jardim
<LOCAL TIPO="ALARGADO" MORF="M,S">Rua Eça de Queirós</LOCAL>   ==> Rua
<LOCAL TIPO="ALARGADO" MORF="M,S">Palácio da Vila Flor</LOCAL> ==> Palácio
<LOCAL|OBRA TIPO="ALARGADO|ARTE" MORF="F,S">Biblioteca Pública</LOCAL|OBRA>  ==> biblioteca

no edifício do antigo <LOCAL TIPO="ALARGADO" MORF="M,S">Mercado Ferreira Borges</LOCAL>. ==> Galeria? Mercado? pavilhão multiusos?
É no <LOCAL TIPO="ALARGADO" MORF="M,S">Hotel Eva</LOCAL> ==> hotel

Organizações/sub:
<ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S">Biblioteca Pública</ORGANIZACAO>
<ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S">Biblioteca Pública</ORGANIZACAO> e depois para a <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S">Universidade do Minho</ORGANIZACAO>


Doenças, ...:
<ABSTRACCAO TIPO="NOME" MORF="F,S">Síndrome de Fibromialgia</ABSTRACCAO>
<ABSTRACCAO TIPO="ESTADO" MORF="F,S">Fibromialgia</ABSTRACCAO>
<ABSTRACCAO TIPO="ESTADO" MORF="F,S">Artrite Reumatóide</ABSTRACCAO>
<ABSTRACCAO TIPO="ESTADO" MORF="F,S">Osteoartrite</ABSTRACCAO>

<ABSTRACCAO TIPO="DISCIPLINA" MORF="F,S">Filosofia</ABSTRACCAO>

<ABSTRACCAO TIPO="NOME" MORF="F,S">Síndrome Fibrosítica</ABSTRACCAO> com o código <ABSTRACCAO TIPO="NOME" MORF="?,?">M79.0</ABSTRACCAO>, tendo sido reconhecida em
1992 como uma doença reumática


...Talvez aliança, projecto, organização:
anunciaram a formacao de uma alianca denominada '<ABSTRACCAO TIPO="NOME" MORF="F,S">eBook Iniciative</ABSTRACCAO>'

...tv empresa
 da <ABSTRACCAO TIPO="MARCA" MORF="F,S">Microsoft</ABSTRACCAO>

...tv revista
Visite o <OBRA MORF="M,S" TIPO="PRODUTO">DataGrama Zero</OBRA> a Revista Eletronica 
A revista foi denominada <ABSTRACCAO TIPO="NOME" MORF="F,S">Medicina e Cultura</ABSTRACCAO>

...tv email
<LOCAL TIPO="VIRTUAL">cadastro@fastmarketing.org</LOCAL>

<LOCAL TIPO="VIRTUAL" MORF="F,S">Internet</LOCAL>
<COISA TIPO="CLASSE" MORF="M,S">IP</COISA>
 Como transformar seu computador num servidor de <COISA TIPO="CLASSE" MORF="?,S">SMTP</COISA>

...tv festa, festividade
<ACONTECIMENTO TIPO="EFEMERIDE" MORF="M,S">Santo Antônio</ACONTECIMENTO>

...tv editora
editado pela <ORGANIZACAO TIPO="EMPRESA" MORF="F,S">Planeta</ORGANIZACAO>)


...
<PESSOA MORF="M,S" TIPO="INDIVIDUAL">V.Exa.</PESSOA>
<PESSOA TIPO="INDIVIDUAL" MORF="M,S">Deus</PESSOA>
<PESSOA TIPO="INDIVIDUAL" MORF="M,S">Wesley</PESSOA>

<PESSOA TIPO="CARGO" MORF="M,S">Presidente</PESSOA>
residência da família <PESSOA TIPO="GRUPOIND" MORF="?,S">Barros Lima</PESSOA>
<PESSOA|ORGANIZACAO TIPO="GRUPOCARGO|SUB" MORF="M,S">Conselho de Administração</PESSOA|ORGANIZACAO>
<PESSOA TIPO="GRUPOCARGO" MORF="M,S">Governo</PESSOA>
gostaria de ouvir o <PESSOA TIPO="GRUPOCARGO" MORF="M,S">Concelho de Mafra</PESSOA> 
é com prazer que informo a <PESSOA|ORGANIZACAO TIPO="GRUPOCARGO|SUB" MORF="F,S">Assembleia</PESSOA|ORGANIZACAO>
<PESSOA TIPO="INDIVIDUAL" MORF="F,S">senhora  Presidente Nicole Fontaine</PESSOA>
<PESSOA TIPO="INDIVIDUAL" MORF="M,S">Senhor Deputado Trakatellis</PESSOA> ==>
<PESSOA TIPO="INDIVIDUAL" MORF="F,S">Sophia de Mello Breyner Andresen</PESSOA> ==> poetiza


...Porto de...
o logotipo terá a frase «<ABSTRACCAO TIPO="NOME" MORF="M,S">Porto de Setúbal</ABSTRACCAO>
<LOCAL TIPO="ALARGADO" MORF="M,S">Porto de Leixões</LOCAL>
a ser utilizado pelo porto de <LOCAL TIPO="ADMINISTRATIVO" MORF="?,S">Setúbal</LOCAL>

Obras:
 os diários "<OBRA TIPO="PRODUTO" MORF="M,S">Jornal Tribuna de Macau</OBRA>" ==> jornal, diário
 <OBRA TIPO="PRODUTO" MORF="?,S">Macau Hoje</OBRA> ==> jornal
 destacando-se os dois mais importantes que são o "<OBRA TIPO="PRODUTO" MORF="M,S">Ou Mun</OBRA>" e
o "<OBRA TIPO="PRODUTO" MORF="M,S">Va Kio</OBRA>" ==> jornal
 <LOCAL TIPO="VIRTUAL" MORF="F,S">Página da Lusa</LOCAL> ==> cite?, jornal electrónico?
<LOCAL TIPO="VIRTUAL" MORF="M,S">Projecto Vercial</LOCAL> ==> projecto?, cite?

peças editadas no disco compacto <OBRA TIPO="REPRODUZIDA" MORF="M,P">Sinais de Yuanju</OBRA>  ==> Disco? CD?
<OBRA TIPO="REPRODUZIDA" MORF="M,P">Contos Exemplares</OBRA> ==> livro


...Locais:
<LOCAL TIPO="ADMINISTRATIVO" MORF="F,S">Europa</LOCAL>
<ORGANIZACAO TIPO="ADMINISTRACAO" MORF="M,S">Portugal</ORGANIZACAO>
<LOCAL TIPO="ADMINISTRATIVO" MORF="M,S">Portugal</LOCAL>
<LOCAL TIPO="ADMINISTRATIVO" MORF="F,S">Havana</LOCAL> e na província vizinha de 
<LOCAL TIPO="ADMINISTRATIVO" MORF="?,S">Matanzas</LOCAL>


__mapa_rena__

ARTEFACTO : OBRA
ARTEFACTO TIPO="documento" : OBRA TIPO="PUBLICACAO"
ENT : VARIADO
EVENTO : ACONTECIMENTO
EVENTO TIPO="encontro" : ACONTECIMENTO TIPO="ORGANIZADO"
GEOGRAFICA : LOCAL
GEOGRAFICA TIPO="cidade" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="concelho" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="continente" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="distrito" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="estado" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="freguesia" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="ilha" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="localidade" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="lugar" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="mar" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="monumento" :
GEOGRAFICA TIPO="pais" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="provincia" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="regiao" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="rio" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="sede_de_distrito" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="serra" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="vila" : LOCAL TIPO="ADMINISTRATIVO"
ORGANIZACAO : ORGANIZACAO
ORGANIZACAO TIPO="camara_municipal" : ORGANIZACAO TIPO="ADMINISTRACAO"
ORGANIZACAO TIPO="empresa" : ORGANIZACAO TIPO="EMPRESA"
ORGANIZACAO TIPO="hospital" : ORGANIZACAO TIPO="ADMINISTRACAO"
ORGANIZACAO TIPO="instituicao" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="instituicao_politica" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="instituicao_academica" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="jornal" : ORGANIZACAO TIPO="EMPRESA"
ORGANIZACAO TIPO="partido_politico" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="pessoa_colectiva" : PESSOA TIPO="GRUPOMEMBRO"
ORGANIZACAO TIPO="teatro" : ORGANIZACAO TIPO="INSTITUICAO"
OUTRO TIPO="signo" : VARIADO
PESSOA : PESSOA
PESSOA TIPO="advogado" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="arquitecto" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="atleta" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="clerigo" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="compositor" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="jornalista" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="militar" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="musico" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="poeta" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="politico" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="santo" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="diabo" : PESSOA TIPO="INDIVIDUAL"
TEMPO TIPO="DATA" : TEMPO TIPO="DATA"
TEMPO TIPO="HORA" : TEMPO TIPO="HORA"
TEMPO TIPO="PERIODO" : TEMPO TIPO="PERIODO"

\end{Verbatim}
\end{document}