\documentclass[portuges,a4paper]{article}
\RequirePackage[b5paper,top=2.5cm,left=2cm,right=2cm,bottom=2.5cm]{geometry}
\usepackage{babel}
\usepackage[latin1]{inputenc}
%\usepackage[utf8]{inputenc}
%\usepackage{ucs}
\usepackage{fancyvrb}
\usepackage{t1enc}
\usepackage{aeguill}
\usepackage{graphicx}
\usepackage{url}
%\usepackage{natbib}
%\usepackage[authoryear]{natbib}
%\citestyle{nature}
\usepackage{fullname}
\begin{document}
\def\rena{{\sc Rena}}
\def\harem{{\sc Harem}}
\def\t2o{{$T_2$}}
\def\imgy#1{\includegraphics[height=0.95\textheight]{#1}}
\def\imgY#1#2{\includegraphics[height=#1\textheight]{#2}}
\def\imgx#1{\includegraphics[width=0.95\textwidth]{#1}}
\def\imgX#1#2{\includegraphics[width=#1\textwidth]{#2}}
\fvset{fontsize=\footnotesize, frame = single, numberblanklines = false}
\title{\rena{} --
Reconhecedor de Entidades}
\author{J.João Dias de Almeida}
\date{\today}
\maketitle
\tableofcontents
\begin{abstract}
Neste documento faz-se uma breve apresentação do sistema de reconhecimento
de entidades \rena, através da especificação de:
. a sua filosofia geral,
. a sua arquitectura,
. tabelas de configuração,
. algoritmos de base utilizados
#
É também feita um brevíssima análise da sua participação no encontro de
avaliação conjunto HAREM.
\end{abstract}
=Introdução
O \rena\cite{man:rena} é um protótipo de sistema de extracção/marcação de
entidades mencionadas construído por Edgar Alves sob supervisão de J.J. Almeida no âmbito do projecto IKF.
== Breve descrição do projecto IKF
O projecto IKF(Information + Knowledge + Fusion)\cite{IKF1,IKF2,IKF3},
foi um projecto Eureka (E!2235) envolvendo participantes universitários e
industriais de seis países, cuja
finalidade básica é o desenvolvimento de uma infrastrutura distribuída, baseada
em ontologias para manuseamento inteligente de conhecimento -- contemplando um
ambiente documental multifonte e distribuído.
O IKF framework baseia-se num modelo de representação de conhecimento
sofisticado (baseado em ontologias, facetas, fuzzy, informação incompleta,
temporal)\cite{IKF1}, e é constituído por um conjunto de módulos envolvendo
(entre outros):
.1 Extractores básicos -- extracção de conhecimento a partir de documentos
heterogéneos de modo a construir um sistema de assimilação documental:
. organização de um conjunto ficheiros modo a construir uma base
documental
. extracção de informação (rica) a partir desse conjunto de documentos
. classificação facetada, fuzzy e parcial de documentos e da informação
. fusão da informação extraída dos vários documentos
#
.2 Knowledge Renovator\cite{IKF2} -- ligada à evolução (temporal ou não) da
informação e do conhecimento.
.3 Enfermaria do Conhecimento -- ligado a sistemas legados, e a reparação de
inconsistências de razões variadas,
.4 Navegadores -- um conjunto de navegadores sobre a base de conhecimento e
da base documental.
#
A título de exemplo de aplicação considere-se o caso da assimilação
documental de caixas de mail: ao extrair e fundir conhecimento, pretende-se
obter informação capaz de responder a perguntas como:
. quem é a pessoa F?
. qual a lista dos meus amigos? quais os parceiros de X?
. qual o conjunto de áreas de interesses de Z
. que documentos são relevantes acerca de ...
#
Tendo em vista estes objectivos, para além das tarefas principais (as tarefas
estruturais ligadas ao projecto), foi realizado um conjunto de pequenas
tarefas/experiências explorativas, envolvendo recursos muito limitados e
frequentemente envolvendo alunos finalistas.
É neste contexto que surge o protótipo \rena{} que não fazendo directamente
parte do projecto IKF, foi desenhado como um caso de estudo com a intenção
de fazer extracção de conhecimento simples -- extracção de uma base de
entidades:
\[Rena: Ficheiro^* * BaseEnt \longrightarrow BaseDoc * BaseEnt * ...\]
=Descrição do \rena{}
Na sequência do enquadramento anteriormente descrito,
o protótipo \rena{} tem como intenção uma extracção tão rica
quanto possível de informação, com vista a ser usada por sistemas
de processamento, fusão de conhecimento (e em particular no projecto IKF).
À medida que a ferramenta \rena{} foi sendo projectada, decidiu-se que era
importante que pudesse ser usado e pudesse abranger um conjunto
menos restritivo de utilizações -- que pudesse ser usado em modelos semânticos
menos sofisticados (um Micro-IKF).
Dum modo resumido o \rena{} é um sistema para reconhecimento de
entidades constituído por:
. Uma biblioteca Perl:
.1 baseada num conjunto de ficheiros de \textbf{configuração} alteráveis,
.2 com funcionalidade para \textbf{extrair a lista das Entidades} a
partir de conjuntos de texto,
.3 ou em alternativa \textbf{marcar Entidades} num conjunto de texto
#
. Um conjunto de scripts para fazer processamento de entidades
#
Como é natural, muita da capacidade de extracção depende de um conjunto de
ficheiros e de regras -- elemento de configuração -- que descrevem
conhecimento geral e regras de contexto usados na extracção.
Pretendeu-se desde início que esses elementos de configuração sejam
\emph{externos} ao \rena{} de modo a que o utilizador os possa adaptar
à sua visão do mundo e à sua intenção concreta de utilização.
Deste modo pretendeu-se que os elementos de configuração sejam legíveis,
expressivos e compactos.
Seguidamente será feita uma descrição destes elementos de configuração.
==Ficheiros de configuração
A configuração de base do \rena{} é constituída por um conjunto de recursos:
.1 Ontologia de tipos de entidades -- que estabelece relações (hierárquicas)
entre os tipos de entidades existentes;
.1 Tabela de contextos -- com regras para deduzir qual o tipo das entidades
com base no contexto direito;
.1 Almanaque de cultura geral -- onde se registam termos/conceitos geográficos,
culturais, patrimoniais, cultura geral;
.1 Sistema de tratamento de nomes -- onde se guardam alguns dos nomes/apelidos
mais comuns e regras para determinar se um Nome-Próprio se refere a pessoas;
.1 Tabela de conversão/adaptação de nomes;
.1 Tabela de contextos atributivos (em fase de construção)
#
Vários destes recursos são definidos usando linguagens de domínio específico
(DSLs) construídas com a intenção de conseguir uma descrição eficaz dessa
informação.
Seguidamente vamos detalhar alguns destes recursos e apresentar
exemplos de extractos.
=== Ontologia de classes
A ontologia de classes armazena os tipos de entidades e respectivas relações.
A existência deste recurso é crucial para se conseguir:
. fazer inferência parcial de tipos de entidades,
. facilitar a fusão de análises complementares,
. obter uma maior adaptabilidade da informação extraída.
#
Sempre que possível pretende-se que esta ontologia tenha um grão fino de
modo a poder registar toda a informação extraída, mas ao mesmo tempo
que permita uma posterior abstracção/síntese.
Segue-se um extracto da ontologia de classes (visto como uma taxonomia para
mais fácil visualização):
\begin{Verbatim}
- pessoa:
- advogado
- arquitecto
- atleta:
- futebolista
- nadador
- escritor:
- poeta
- jornalista
- militar:
- general
- almirante
- brigadeiro
- sargento
- tenente
- capitão
- músico:
- compositor
- pianista
- trompetista
- político:
- presidente da república
- deputado
\end{Verbatim}
=== Tabela de contextos
A tabela de contextos permite que de um modo compacto se possa definir
uma associação entre uma \textbf{expressão de contexto} esquerdo e uma
classe.
\begin{Verbatim}
cidade (de do da) => cidade !lctx
freguesia (de do da) => freguesia
distrito (de do da) => distrito
concelho (de do da) => concelho/90
estado (de do da) => estado
capital => cidade !lctx
(Rio Oceano Lago Mar Serra Cordilheira) => $_
Cabo (do de da) => cabo
Golfo (do de da) => golfo
(Lugar Largo Lg. Praça Rua R. Avenida) (de da do das dos)? => lugar
(Travessa Beco Quinta Viela Rotunda) (de da do das dos)? => lugar
#
# Monumentos
#
(Convento Mosteiro Igreja Ig. Palácio Museu Sé) (de da)? => monumento
\end{Verbatim}
Notas:
. as regras podem ter valores de confiança de modo a permitir distinguir entre
indícios mais fortes e indícios mas fracos,
. a capitalização é usada para indicar se o termo de contexto esquerdo deverá
ou não ser incluída na entidade
. os padrões das regras podem incluir variantes alternativas, elementos
opcionais, comentários, etc.
#
=== Almanaque de cultura geral
Conforme atrás se referiu, o Almanaque de cultura geral pretende
guardar alguma informação de cultura geral de índole diversa.
Presentemente este Almanaque tem por base informação criada no âmbito de
projecto \t2o{}\cite{elpub06-t2o,lrec06}, e a informação associada a cada entidade é
por vezes rica (ainda que heterogénea): além duma classe de base, pretende-se
armazenar um conjunto de atributos e ligações tão rico quanto possível.
Simplificadamente o Almanaque corresponde a uma vista sobre a
projecção de uma ontologia \t2o{} seleccionando-se os termos
referentes a:
. geografia
. personagens famosas
. eventos
. ...
#
No seguinte exemplo mostra-se um extracto da informação existente no
Almanaque associada ao \textbf{Rio Douro}:
\begin{Verbatim}
Rio Douro =
rio Douro
IOF => rio
AFLUENTES => rio Mau,
rio Sousa,
rio Varosa,
rio Tâmega,
rio Pinhão,
....
rio Torto,
rio Távora,
rio Esla,
rio Tua
COMPRIMENTO => 927
FOZ => Porto
IN => Portugal,
Espanha
NASCE => serra do Urbião
PASSA_EM => barragem do Pocinho,
barragem de Miranda,
barragem de Crestuma,
Miranda do Douro,
barragem do Carrapatelo,
Régua,
barragem da Bemposta
\end{Verbatim}
Como se nota há uma intenção de dispor de um conjunto de dados de
base rico e estruturado que permita processamento posterior (interactivo
ou não).
=== Sistema de tratamento de nomes
A intenção ligada ao
\textbf{Name-gazetteer}
é permitir dispor de dados para determinar se certos identificadores
constituem (ou não) prováveis nomes de pessoas (quando não houver
fortes indícios noutro sentido).
\begin{Verbatim}
26.62287 Maria nome
13.70273 Ana nome
6.85846 José nome
5.16030 Silva apelido
4.90977 António nome
3.95357 Carla nome
3.51606 Manuel nome
3.50263 João nome
...
0.02148 Dinis misto
\end{Verbatim}
De um modo simplificado, guarda-se um tabela que indica a taxa de
ocorrência (por milhão de palavras) de determinada palavra, indicando
ainda se o seu uso é preferencialmente nome, apelido ou misto.
Esta lista tem por base uma lista de 150k nomes completos, de várias
proveniências.
=== Tabela de conversão/adaptação de nomes
Esta tabela pretende criar um grau de indirecção de modo a permitir
uma mais fácil alteração da estrutura da ontologia de classes.
A finalidade principal desta tabela é criar alguma independência entra
a ontologia de classes, o Almanaque e a tabela de contextos.
=== Tabela de contextos atributivos
Este recurso está ainda em fase implementação.
Considere-se o seguinte extracto exemplo:
\begin{Verbatim}
a atleta portuguesa A :: atleta(A), nacionalidade(A,portuguesa)
X , no norte de Y :: geo(X), geo(Y), norte(X,Y)
o francês Z :: pessoa(Z), nacionalidade(Z,francês)
\end{Verbatim}
Notas:
. linha 1: quando for encontrada uma ocorrência como \textbf{...a atleta
portuguesa Rosa Mota ...} é feita a inferência de que Rosa Mota é uma
atleta (e portanto uma pessoa, etc), e que o atributo nacionalidade da
entidade em causa é preenchido com o valor \textbf{portuguesa}.
#
A intenção da tabela de contextos atributivos é, para além de
eventualmente inferir classes, ajudar a inferir mais atributos,
factos e informações acerca das entidades -- informação mais rica.
==\rena: estrutura interna
Do ponto de vista algorítmico, o \rena{}:
.1 começa por procurar entidades e construir uma sequência de textos simples
e entidades: \( (texto \times entidade)^* \)
.2 seguidamente esse objecto é processado por uma série de filtros
com assinatura:
\[ f: (texto \times entidade)^* \rightarrow (texto \times entidade)^* \]
Estes filtros vão processar os pares texto-entidades, enriquecendo
informação, alterando fronteiras, unindo zonas, com base nos recursos de
configuração atrás referidos e utilizando ferramentas internas ou
externas (ex, analisador morfológico jspell \cite{jspell2002,Almeida94c}).
.3 no final, de acordo com a saída pretendida, é criado:
. um texto com as entidades anotadas
. um resumo das entidades presentes
. ...
#
#
Os filtros acima referidos podem ser desactivados e fazem tarefas como:
. tratamento de entidades com elementos de uma única letra,
. tratamento de aspas ligado às entidades
. remoção de entidades entre aspas -- este filtro só deverá ser usado se
se pretender ignorar este tipo de ocorrências.
. tratamento de entidades com traços interiores (exemplo Benfica-Sporting)
. tratamento de entidades em início de frase
. enriquecimento por análise de regras de contexto
. enriquecimento por análise de gazetteer de nomes
. enriquecimento por análise de Almanaque
. tratamento de acrónimos
. reconhecimento e unificação de entidades iguais (ou abreviadas) e
criação de atributos de ligação entre as várias ocorrências da mesma
entidade;
. geração do formato final pretendido:
. xml -- para escrever em formato \textit{XML}, uma versão
do texto original onde são anotadas todas as referências a entidades
encontradas.
. Unified\_yaml --
Este filtro escreve uma representação, no formato
\textit{YAML}\cite{yamlspec,yamlcookbook}, de
todas as entidades com alguma referência no texto, bem como todas as
classificações atribuídas.
#
#
=Participação no \harem{}
A participação no \harem{} foi muito importante e produtiva para nós
já que:
. envolveu lidar com um problema para o qual o \rena{} não tinha sido pensado,
. envolveu discutir e trocar impressões com os outros participantes e
com a organização
. levantou uma série de questões que nunca nos tinham ocorrido
. obrigou a pensar um pouco mais nesta questão
#
Há no entanto alguma diferença entre o tipo de avaliação que pretendíamos (mais
ligada a um uso de extracção de informação enciclopédica) e a avaliação HAREM.
Os resultados finais ficaram aquém do que seria possível por várias
razões:
. o autor do \rena{} (Edgar Alves) não ter participado (por ter
já deixado a universidade e estar ocupado com os seus afazeres
profissionais)
. haver decisões do \rena{} que não seguem as propostas \harem{}
e das quais não quisemos prescindir,
. Com o pouco tempo que foi possível dedicar, termos optado por
melhorar alguns módulos que não sendo os mais importantes para a
avaliação \harem{}, são cruciais para o \rena.
#
Genericamente a marcação de entidades foi bem conseguida
apesar de termos optado por não marcar valores numéricos
em geral por nos parecer menos interessante para o \rena{}.
Os maiores problemas resultaram de uma diferente filosofia no
que diz respeito às classes -- diferente filosofia semântica.
Enquanto que o HAREM pretende marcar a ocorrência específica em
contexto específico, o \rena{} está menos preocupado com a ocorrência
concreta mas com a entidade referida; está mais preocupado com a
extracção de informação rica de cariz enciclopédico.
Considere-se o seguinte exemplo concreto:
\begin{Verbatim}
...os diários "Jornal Tribuna de Macau"
Macau Hoje e ...
\end{Verbatim}
De acordo com a nossa intenção de extracção de informação enciclopédica, afirmar
que o \emph{Jornal Tribuna de
Macau} é um \textbf{Obra:Produto} seria completamente inaceitável: a
resposta útil para o \rena{} (independentemente de o termos conseguido
extrair) é \textbf{Jornal} ou \textbf{Jornal diário}
Do mesmo modo demos preferência a \textbf{monumentos} em relação aos
\textbf{Locais:Alargados} ou às \textbf{Obra:Arte}.
A participação semântica do \rena{} foi feito através de:
.1 extrair a informação e usar apenas a classificação geral de acordo com a
ontologia \rena{}
.2 traduzir (de acordo com uma tabela de tradução escrita manualmente) cada
classificador \rena{} num par entidade:tipo do HAREM
#
Esta abordagem também introduziu erros adicionais (e alguma classes como monumento
acabaram por não encontrar um classificador natural na estrutura classificativa
HAREM).\\
Optamos por não fazer marcação morfológica por não nos parecer tão relevante para
a nossa ferramenta específica e para não dispersar (e congratulamo-nos
com a versatilidade do sistema HAREM de poder aceitar marcações parciais).
No apêndice \ref{futuro}, apresentamos mais alguns exemplos e situações em que
os modelos HAREM e \rena{} divergiram.
=Conclusões e trabalho futuro
Foi muito positivo a participação no \harem{} embora por questões temporais
não tenha sido possível tirar partido de uma série de iniciativas.
Seguiu-se uma abordagem que não visava maximizar o resultado final da
avaliação mas antes o tentar ajudar à evolução do \rena{} de acordo com
os nossos objectivos imediatos (que por vezes não coincidiram com os do \harem{}).
Apesar das evoluções conseguidas e o estado actual do \rena{} é de
software protótipo.\\
Ao nível do trabalho futuro, há genericamente o objectivo de melhorar:
. melhorar as regras de inferência e unificação e resumo
. criar um processador estrutural
. melhorar name-gazetteer incluindo também dados estrangeiros
. documentar melhor o interface de biblioteca Perl, nomeadamente
os processadores de ordem superior actuais
\begin{Verbatim}
forent($texto){ .... }
\end{Verbatim}
#
\bibliographystyle{fullname}
\bibliography{jj,outros}
\appendix
\section{\label{futuro} Subsídio para a discussão sobre futuras edições }
A organização e planeamento do \harem{} foi a meu ver muito boa. No entanto
e tendo em conta futuras organizações vou enunciar algumas hipóteses
que me pareciam ser vantajosas.
Em resumo as propostas para futuras versões são:
.1 uso de documentos seguindo (totalmente) a norma XML
.1 uso claro e extensível de metadados nas colecções
\[coleccao = (MetaData \times Texto )^* \]
.1 migração de taxonomia a 2 níveis para uma ontologia de classes multi-nível
.1 uso de etiquetagem mais versátil.
#
==Uso de documentos seguindo XML
A migração para documentos XML, torna mais fácil tirar
partido de um conjunto de ferramentas no sentido de:
. permitir verificar se os documentos (colecções e submissões) são
bem-formados e se são válidos
. ser claro e definido qual o sistema de encoding usado
. poder obter mais facilmente uma variedade de vistas
(pritty-printers), resumos, e reordenações dos documentos, de modo a se adaptar
a diversas finalidades. (Usando CSS, XSL, etc)
. ser trivial o cálculo de um conjunto de estatísticas e pesquisas (Usando XPath e afins)
#
==Uso claro e expansível de metadados nas colecções
A existência de metadados nas colecções foi algo que a organização
teve em conta, Existe um elemento \texttt{DOC}, com metadados variante linguística e
género\footnote{Com os valores \emph{CorreioElectrónico, Entrevista, Expositivo, Jornalístico, Literário, Político,
Técnico, Web.}}.
\begin{Verbatim}
HAREM-871-07800
Web
PT
...
\end{Verbatim}
Por um lado parece-me que os valores do atributo género cobrem mais que uma faceta:
um documento \emph{político} (conteúdo temático) poderá ser também uma \emph{entrevista}, ou
estar disponível (suporte) em \emph{Web, CorreioElectrónico}. Ou seja,
seria útil múltiplas ocorrências de géneros, ou separar esta informação
em mais que um campos.
Por outro lado gostaria de ver um elemento Meta que agrupasse toda a metadata
do documento de modo a permitir que possa haver mais fácil enriquecimento (por
parte do HAREM ou de outro qualquer uso futuro).
% A título de exemplo parece-me que faria sentido metadados referente a:
% . tipo de documento (artigo \LaTeX, página html, email, ...)
% . domínio temático
% . data
% . proveniência
% #
== Questões ligados à estrutura classificativa usada
Cada entidade marcada está a ser classificada \emph{semanticamente}.
% ===Um pouco de história
Originalmente o MUC propôs um sistema classificativo a um nível e incluindo
3 ou 4 classes (Pessoa, Instituição, Entidade geográfica, ...).
Apesar de alguns problemas conhecidos,
esta proposta faz perfeitamente sentido, e permitiu a realização de
avaliações conjuntas.
O \harem{} propôs subir a fasquia para uma categorização
a 2 níveis -- taxonomia a 2 níveis. A meu ver essa decisão foi
necessária e acertada.\footnote{
Genericamente subir a fasquia é bom quando houver pelo menos um
atleta que a transponha...}. Havendo uma taxonomia a 2 níveis, há
naturalmente a hipótese de participações parciais:
. nível 0 --> marcar apenas as entidades
. nível 1 --> apresentar apenas as classificações do primeiro nível
. nível 2 --> apresentar a classificação completa.
. ou ainda escolher uma subárvore da taxonomia em causa.
#
Por outro lado, foi construída uma função
de conversão \[harem2muc : Charem \longrightarrow Cmuc\] que mapeia
classificações \harem{} em classificações MUC. -- tornando possível a comparações
de resultados (medidas de acerto) entre as duas competições.
Esta função de mapeamento entre os dois sistemas para a maioria dos casos
é simples e natural, havendo no entanto zonas da estrutura \harem{} que são
difíceis de mapear em MUC (o que não surpreende nem impede a leitura dos valores
após conversão).
Dum modo semelhante parece-me que há zonas da taxonomia \harem{} que são
pouco naturais e claras -- vistas pelo prisma de representação de conhecimento.
Constatou-se naturalmente dificuldades em arranjar consenso entre os
participantes em relação ao referido sistema de classificação \harem{}, o que é
natural e habitual nestas actividades, e que me parece não ter constituído
obstáculo importante ao funcionamento.
Genericamente a marcação combinada tem o seguinte aspecto:
\begin{Verbatim}
Entidade encontrada
\end{Verbatim}
Os problemas que aqui surgem são:
.1 apesar de existir uma etiqueta de alternativa (\verb!|!),
não vejo claramente como descrever ao nível da marcação:
. \textbf{ignorância total} (ex: \emph{o X é interessante} -- não sei nada acerca
de X),
. dúvida (ex: \emph{o Porto é imprevisível}: ou é uma cidade ou um clube de
futebol mas não as duas ao mesmo tempo -- só consegui concluir alguma informação parcial),
. classificação múltipla (\emph{na Biblioteca da Universidade de Coimbra encontramos o espírito barroco} -- acho válidas duas ou mais classificações Obra de
arte, Local Biblioteca, ...)
#
ou seja:
\begin{Verbatim}
e1
e1
e1
\end{Verbatim}
.1 haver situações (ao fazer a marcação a dois níveis) em que
certas sub-árvores são facetas (quase independentes)
levando a que faça sentido duas classificações, e que por vezes a solução
oficial \emph{perca} certas facetas e aspectos cruciais à caracterização da
entidade em causa.
\begin{quotation}Considere-se o seguinte exemplo da colecção dourada
\begin{Verbatim}
Biblioteca Pública
\end{Verbatim}
A referida biblioteca é um lugar, um edifício ou semelhante mas
simultaneamente é património artístico, (é uma obra de arte).
De certo modo, ser ou não obra de arte é uma faceta que poderemos querer
aplicar a edifícios, livros, cidades e outra classes.
Portanto constitui uma informação que deveria poder coexistir com a informação da
classe a que se refere. Ou seja aquela biblioteca é simultaneamente um edifício
e uma obra de arte.
\end{quotation}
.1 genericamente a existência de herança múltipla complica certas zonas
da estrutura classificativas
.1 por vezes o enquadramento das ferramentas concorrentes força estruturas
classificativas diferentes das usadas e ligeiramente \emph{antagónicas}.
\begin{quotation}
Considere-se o seguinte par de exemplos da colecção dourada:
\begin{Verbatim}
Visite o DataGrama Zero a Revista Eletronica
...
A revista foi denominada Medicina e Cultura
...
\end{Verbatim}
Independentemente do contexto linguístico em que estas entidades possam estar a
ser usadas,
dum ponto de vista de representação de conhecimento pretende-se
tirar partido de que esta duas revistas têm muito em
comum (classes idênticas ou aparentadas) e será inaceitável esquecer que são \emph{revistas}.
\end{quotation}
#
===A granularidade e capacidade distintiva
Considere-se a questão ligada com os conceitos Portugal, país, entidade geográfica, etc:
O seguinte conjunto de relações binárias pode ser usado para descrever (algumas
das) propriedades do conceito:
\begin{Verbatim}
Portugal IOF país
país ISA entidade geográfica
país ISA instituição administrativa
país ISA povo
...
\end{Verbatim}
Numa situação como a do IKF/\rena{} não dispomos de informação suficiente para
resolver devidamente essa questão: optámos por baixar a fasquia: ter uma
classificação que falhe 40\% dos casos é pior do que dizer que é simplesmente
um país.
Na visão IKF/\rena{} a nossa intenção corresponde a ir decorando a árvore de
conhecimento com todos os atributos que conseguirmos obter (obviamente
trata-se de uma finalidade específica nossa), ou seja pretendemos juntar
em \emph{Portugal} os atributos ligados a país nas suas várias acepções e
usos (presidente da república, língua, rios, área, etc).
Esse tipo de junção processamento de atributos, heranças, etc, cria restrições
acerca do tipo de árvores classificativas a usar:
a relação subclasse (nível1 -- nível2 da estrutura \harem{}) passa
a ter maiores responsabilidades...
== O que eu propunha...
\:
. Etiquetagem mais prática:
. uma única tag Entidade \verb!...!
. um atributo \emph{tipo} \verb!...!
. com notação clara para alternativas \verb! ...!
. com notação clara para multiclassificação \verb! ...!
. para informação parcial = escolher um nó mais acima na árvore classificativa
(caso estremo = topo = entidade)
. um atributo de unificação para permitir ligar referências à mesma entidade
#
. Ontologia multi-nível de classes, com herança múltipla,
. Identificadores de classe mais claros e únicos -- a questão da clareza é crucial
para o contexto de extracção de informação onde o \rena{} se encaixa -- (dizer
que \emph{Palácio de Vila Flor} é um \emph{LOCAL:ALARGADO} é inaceitável do
ponto de vista de extracção de informação enciclopédica).
#
\end{document}
\section{Casos para analisar com cuidado}
\begin{Verbatim}
Monumentos:
Jardins do Paço Episcopal ==> Jardim
Rua Eça de Queirós ==> Rua
Palácio da Vila Flor ==> Palácio
Biblioteca Pública ==> biblioteca
no edifício do antigo Mercado Ferreira Borges. ==> Galeria? Mercado? pavilhão multiusos?
É no Hotel Eva ==> hotel
Organizações/sub:
Biblioteca Pública
Biblioteca Pública e depois para a Universidade do Minho
Doenças, ...:
Síndrome de Fibromialgia
Fibromialgia
Artrite Reumatóide
Osteoartrite
Filosofia
Síndrome Fibrosítica com o código M79.0, tendo sido reconhecida em
1992 como uma doença reumática
...Talvez aliança, projecto, organização:
anunciaram a formacao de uma alianca denominada 'eBook Iniciative'
...tv empresa
da Microsoft
...tv revista
Visite o DataGrama Zero a Revista Eletronica
A revista foi denominada Medicina e Cultura
...tv email
cadastro@fastmarketing.org
Internet
IP
Como transformar seu computador num servidor de SMTP
...tv festa, festividade
Santo Antônio
...tv editora
editado pela Planeta)
...
V.Exa.
Deus
Wesley
Presidente
residência da família Barros Lima
Conselho de Administração
Governo
gostaria de ouvir o Concelho de Mafra
é com prazer que informo a Assembleia
senhora Presidente Nicole Fontaine
Senhor Deputado Trakatellis ==>
Sophia de Mello Breyner Andresen ==> poetiza
...Porto de...
o logotipo terá a frase «Porto de Setúbal
Porto de Leixões
a ser utilizado pelo porto de Setúbal
Obras:
os diários "Jornal Tribuna de Macau" ==> jornal, diário
Macau Hoje ==> jornal
destacando-se os dois mais importantes que são o "Ou Mun" e
o "Va Kio" ==> jornal
Página da Lusa ==> cite?, jornal electrónico?
Projecto Vercial ==> projecto?, cite?
peças editadas no disco compacto Sinais de Yuanju ==> Disco? CD?
Contos Exemplares ==> livro
...Locais:
Europa
Portugal
Portugal
Havana e na província vizinha de
Matanzas
__mapa_rena__
ARTEFACTO : OBRA
ARTEFACTO TIPO="documento" : OBRA TIPO="PUBLICACAO"
ENT : VARIADO
EVENTO : ACONTECIMENTO
EVENTO TIPO="encontro" : ACONTECIMENTO TIPO="ORGANIZADO"
GEOGRAFICA : LOCAL
GEOGRAFICA TIPO="cidade" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="concelho" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="continente" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="distrito" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="estado" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="freguesia" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="ilha" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="localidade" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="lugar" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="mar" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="monumento" :
GEOGRAFICA TIPO="pais" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="provincia" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="regiao" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="rio" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="sede_de_distrito" : LOCAL TIPO="ADMINISTRATIVO"
GEOGRAFICA TIPO="serra" : LOCAL TIPO="GEOGRAFICO"
GEOGRAFICA TIPO="vila" : LOCAL TIPO="ADMINISTRATIVO"
ORGANIZACAO : ORGANIZACAO
ORGANIZACAO TIPO="camara_municipal" : ORGANIZACAO TIPO="ADMINISTRACAO"
ORGANIZACAO TIPO="empresa" : ORGANIZACAO TIPO="EMPRESA"
ORGANIZACAO TIPO="hospital" : ORGANIZACAO TIPO="ADMINISTRACAO"
ORGANIZACAO TIPO="instituicao" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="instituicao_politica" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="instituicao_academica" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="jornal" : ORGANIZACAO TIPO="EMPRESA"
ORGANIZACAO TIPO="partido_politico" : ORGANIZACAO TIPO="INSTITUICAO"
ORGANIZACAO TIPO="pessoa_colectiva" : PESSOA TIPO="GRUPOMEMBRO"
ORGANIZACAO TIPO="teatro" : ORGANIZACAO TIPO="INSTITUICAO"
OUTRO TIPO="signo" : VARIADO
PESSOA : PESSOA
PESSOA TIPO="advogado" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="arquitecto" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="atleta" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="clerigo" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="compositor" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="jornalista" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="militar" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="musico" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="poeta" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="politico" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="santo" : PESSOA TIPO="INDIVIDUAL"
PESSOA TIPO="diabo" : PESSOA TIPO="INDIVIDUAL"
TEMPO TIPO="DATA" : TEMPO TIPO="DATA"
TEMPO TIPO="HORA" : TEMPO TIPO="HORA"
TEMPO TIPO="PERIODO" : TEMPO TIPO="PERIODO"
\end{Verbatim}
\end{document}