\documentclass[portuges,a4paper]{article} \RequirePackage[b5paper,top=2.5cm,left=2cm,right=2cm,bottom=2.5cm]{geometry} \usepackage{babel} \usepackage[latin1]{inputenc} %\usepackage[utf8]{inputenc} %\usepackage{ucs} \usepackage{fancyvrb} \usepackage{t1enc} \usepackage{aeguill} \usepackage{graphicx} \usepackage{url} %\usepackage{natbib} %\usepackage[authoryear]{natbib} %\citestyle{nature} \usepackage{fullname} \begin{document} \def\rena{{\sc Rena}} \def\harem{{\sc Harem}} \def\t2o{{$T_2$}} \def\imgy#1{\includegraphics[height=0.95\textheight]{#1}} \def\imgY#1#2{\includegraphics[height=#1\textheight]{#2}} \def\imgx#1{\includegraphics[width=0.95\textwidth]{#1}} \def\imgX#1#2{\includegraphics[width=#1\textwidth]{#2}} \fvset{fontsize=\footnotesize, frame = single, numberblanklines = false} \title{\rena{} -- Reconhecedor de Entidades} \author{J.João Dias de Almeida} \date{\today} \maketitle \tableofcontents \begin{abstract} Neste documento faz-se uma breve apresentação do sistema de reconhecimento de entidades \rena, através da especificação de: . a sua filosofia geral, . a sua arquitectura, . tabelas de configuração, . algoritmos de base utilizados # É também feita um brevíssima análise da sua participação no encontro de avaliação conjunto HAREM. \end{abstract} =Introdução O \rena\cite{man:rena} é um protótipo de sistema de extracção/marcação de entidades mencionadas construído por Edgar Alves sob supervisão de J.J. Almeida no âmbito do projecto IKF. == Breve descrição do projecto IKF O projecto IKF(Information + Knowledge + Fusion)\cite{IKF1,IKF2,IKF3}, foi um projecto Eureka (E!2235) envolvendo participantes universitários e industriais de seis países, cuja finalidade básica é o desenvolvimento de uma infrastrutura distribuída, baseada em ontologias para manuseamento inteligente de conhecimento -- contemplando um ambiente documental multifonte e distribuído. O IKF framework baseia-se num modelo de representação de conhecimento sofisticado (baseado em ontologias, facetas, fuzzy, informação incompleta, temporal)\cite{IKF1}, e é constituído por um conjunto de módulos envolvendo (entre outros): .1 Extractores básicos -- extracção de conhecimento a partir de documentos heterogéneos de modo a construir um sistema de assimilação documental: . organização de um conjunto ficheiros modo a construir uma base documental . extracção de informação (rica) a partir desse conjunto de documentos . classificação facetada, fuzzy e parcial de documentos e da informação . fusão da informação extraída dos vários documentos # .2 Knowledge Renovator\cite{IKF2} -- ligada à evolução (temporal ou não) da informação e do conhecimento. .3 Enfermaria do Conhecimento -- ligado a sistemas legados, e a reparação de inconsistências de razões variadas, .4 Navegadores -- um conjunto de navegadores sobre a base de conhecimento e da base documental. # A título de exemplo de aplicação considere-se o caso da assimilação documental de caixas de mail: ao extrair e fundir conhecimento, pretende-se obter informação capaz de responder a perguntas como: . quem é a pessoa F? . qual a lista dos meus amigos? quais os parceiros de X? . qual o conjunto de áreas de interesses de Z . que documentos são relevantes acerca de ... # Tendo em vista estes objectivos, para além das tarefas principais (as tarefas estruturais ligadas ao projecto), foi realizado um conjunto de pequenas tarefas/experiências explorativas, envolvendo recursos muito limitados e frequentemente envolvendo alunos finalistas. É neste contexto que surge o protótipo \rena{} que não fazendo directamente parte do projecto IKF, foi desenhado como um caso de estudo com a intenção de fazer extracção de conhecimento simples -- extracção de uma base de entidades: \[Rena: Ficheiro^* * BaseEnt \longrightarrow BaseDoc * BaseEnt * ...\] =Descrição do \rena{} Na sequência do enquadramento anteriormente descrito, o protótipo \rena{} tem como intenção uma extracção tão rica quanto possível de informação, com vista a ser usada por sistemas de processamento, fusão de conhecimento (e em particular no projecto IKF). À medida que a ferramenta \rena{} foi sendo projectada, decidiu-se que era importante que pudesse ser usado e pudesse abranger um conjunto menos restritivo de utilizações -- que pudesse ser usado em modelos semânticos menos sofisticados (um Micro-IKF). Dum modo resumido o \rena{} é um sistema para reconhecimento de entidades constituído por: . Uma biblioteca Perl: .1 baseada num conjunto de ficheiros de \textbf{configuração} alteráveis, .2 com funcionalidade para \textbf{extrair a lista das Entidades} a partir de conjuntos de texto, .3 ou em alternativa \textbf{marcar Entidades} num conjunto de texto # . Um conjunto de scripts para fazer processamento de entidades # Como é natural, muita da capacidade de extracção depende de um conjunto de ficheiros e de regras -- elemento de configuração -- que descrevem conhecimento geral e regras de contexto usados na extracção. Pretendeu-se desde início que esses elementos de configuração sejam \emph{externos} ao \rena{} de modo a que o utilizador os possa adaptar à sua visão do mundo e à sua intenção concreta de utilização. Deste modo pretendeu-se que os elementos de configuração sejam legíveis, expressivos e compactos. Seguidamente será feita uma descrição destes elementos de configuração. ==Ficheiros de configuração A configuração de base do \rena{} é constituída por um conjunto de recursos: .1 Ontologia de tipos de entidades -- que estabelece relações (hierárquicas) entre os tipos de entidades existentes; .1 Tabela de contextos -- com regras para deduzir qual o tipo das entidades com base no contexto direito; .1 Almanaque de cultura geral -- onde se registam termos/conceitos geográficos, culturais, patrimoniais, cultura geral; .1 Sistema de tratamento de nomes -- onde se guardam alguns dos nomes/apelidos mais comuns e regras para determinar se um Nome-Próprio se refere a pessoas; .1 Tabela de conversão/adaptação de nomes; .1 Tabela de contextos atributivos (em fase de construção) # Vários destes recursos são definidos usando linguagens de domínio específico (DSLs) construídas com a intenção de conseguir uma descrição eficaz dessa informação. Seguidamente vamos detalhar alguns destes recursos e apresentar exemplos de extractos. === Ontologia de classes A ontologia de classes armazena os tipos de entidades e respectivas relações. A existência deste recurso é crucial para se conseguir: . fazer inferência parcial de tipos de entidades, . facilitar a fusão de análises complementares, . obter uma maior adaptabilidade da informação extraída. # Sempre que possível pretende-se que esta ontologia tenha um grão fino de modo a poder registar toda a informação extraída, mas ao mesmo tempo que permita uma posterior abstracção/síntese. Segue-se um extracto da ontologia de classes (visto como uma taxonomia para mais fácil visualização): \begin{Verbatim} - pessoa: - advogado - arquitecto - atleta: - futebolista - nadador - escritor: - poeta - jornalista - militar: - general - almirante - brigadeiro - sargento - tenente - capitão - músico: - compositor - pianista - trompetista - político: - presidente da república - deputado \end{Verbatim} === Tabela de contextos A tabela de contextos permite que de um modo compacto se possa definir uma associação entre uma \textbf{expressão de contexto} esquerdo e uma classe. \begin{Verbatim} cidade (de do da) => cidade !lctx freguesia (de do da) => freguesia distrito (de do da) => distrito concelho (de do da) => concelho/90 estado (de do da) => estado capital => cidade !lctx (Rio Oceano Lago Mar Serra Cordilheira) => $_ Cabo (do de da) => cabo Golfo (do de da) => golfo (Lugar Largo Lg. Praça Rua R. Avenida) (de da do das dos)? => lugar (Travessa Beco Quinta Viela Rotunda) (de da do das dos)? => lugar # # Monumentos # (Convento Mosteiro Igreja Ig. Palácio Museu Sé) (de da)? => monumento \end{Verbatim} Notas: . as regras podem ter valores de confiança de modo a permitir distinguir entre indícios mais fortes e indícios mas fracos, . a capitalização é usada para indicar se o termo de contexto esquerdo deverá ou não ser incluída na entidade . os padrões das regras podem incluir variantes alternativas, elementos opcionais, comentários, etc. # === Almanaque de cultura geral Conforme atrás se referiu, o Almanaque de cultura geral pretende guardar alguma informação de cultura geral de índole diversa. Presentemente este Almanaque tem por base informação criada no âmbito de projecto \t2o{}\cite{elpub06-t2o,lrec06}, e a informação associada a cada entidade é por vezes rica (ainda que heterogénea): além duma classe de base, pretende-se armazenar um conjunto de atributos e ligações tão rico quanto possível. Simplificadamente o Almanaque corresponde a uma vista sobre a projecção de uma ontologia \t2o{} seleccionando-se os termos referentes a: . geografia . personagens famosas . eventos . ... # No seguinte exemplo mostra-se um extracto da informação existente no Almanaque associada ao \textbf{Rio Douro}: \begin{Verbatim} Rio Douro = rio Douro IOF => rio AFLUENTES => rio Mau, rio Sousa, rio Varosa, rio Tâmega, rio Pinhão, .... rio Torto, rio Távora, rio Esla, rio Tua COMPRIMENTO => 927 FOZ => Porto IN => Portugal, Espanha NASCE => serra do Urbião PASSA_EM => barragem do Pocinho, barragem de Miranda, barragem de Crestuma, Miranda do Douro, barragem do Carrapatelo, Régua, barragem da Bemposta \end{Verbatim} Como se nota há uma intenção de dispor de um conjunto de dados de base rico e estruturado que permita processamento posterior (interactivo ou não). === Sistema de tratamento de nomes A intenção ligada ao \textbf{Name-gazetteer} é permitir dispor de dados para determinar se certos identificadores constituem (ou não) prováveis nomes de pessoas (quando não houver fortes indícios noutro sentido). \begin{Verbatim} 26.62287 Maria nome 13.70273 Ana nome 6.85846 José nome 5.16030 Silva apelido 4.90977 António nome 3.95357 Carla nome 3.51606 Manuel nome 3.50263 João nome ... 0.02148 Dinis misto \end{Verbatim} De um modo simplificado, guarda-se um tabela que indica a taxa de ocorrência (por milhão de palavras) de determinada palavra, indicando ainda se o seu uso é preferencialmente nome, apelido ou misto. Esta lista tem por base uma lista de 150k nomes completos, de várias proveniências. === Tabela de conversão/adaptação de nomes Esta tabela pretende criar um grau de indirecção de modo a permitir uma mais fácil alteração da estrutura da ontologia de classes. A finalidade principal desta tabela é criar alguma independência entra a ontologia de classes, o Almanaque e a tabela de contextos. === Tabela de contextos atributivos Este recurso está ainda em fase implementação. Considere-se o seguinte extracto exemplo: \begin{Verbatim} a atleta portuguesa A :: atleta(A), nacionalidade(A,portuguesa) X , no norte de Y :: geo(X), geo(Y), norte(X,Y) o francês Z :: pessoa(Z), nacionalidade(Z,francês) \end{Verbatim} Notas: . linha 1: quando for encontrada uma ocorrência como \textbf{...a atleta portuguesa Rosa Mota ...} é feita a inferência de que Rosa Mota é uma atleta (e portanto uma pessoa, etc), e que o atributo nacionalidade da entidade em causa é preenchido com o valor \textbf{portuguesa}. # A intenção da tabela de contextos atributivos é, para além de eventualmente inferir classes, ajudar a inferir mais atributos, factos e informações acerca das entidades -- informação mais rica. ==\rena: estrutura interna Do ponto de vista algorítmico, o \rena{}: .1 começa por procurar entidades e construir uma sequência de textos simples e entidades: \( (texto \times entidade)^* \) .2 seguidamente esse objecto é processado por uma série de filtros com assinatura: \[ f: (texto \times entidade)^* \rightarrow (texto \times entidade)^* \] Estes filtros vão processar os pares texto-entidades, enriquecendo informação, alterando fronteiras, unindo zonas, com base nos recursos de configuração atrás referidos e utilizando ferramentas internas ou externas (ex, analisador morfológico jspell \cite{jspell2002,Almeida94c}). .3 no final, de acordo com a saída pretendida, é criado: . um texto com as entidades anotadas . um resumo das entidades presentes . ... # # Os filtros acima referidos podem ser desactivados e fazem tarefas como: . tratamento de entidades com elementos de uma única letra, . tratamento de aspas ligado às entidades . remoção de entidades entre aspas -- este filtro só deverá ser usado se se pretender ignorar este tipo de ocorrências. . tratamento de entidades com traços interiores (exemplo Benfica-Sporting) . tratamento de entidades em início de frase . enriquecimento por análise de regras de contexto . enriquecimento por análise de gazetteer de nomes . enriquecimento por análise de Almanaque . tratamento de acrónimos . reconhecimento e unificação de entidades iguais (ou abreviadas) e criação de atributos de ligação entre as várias ocorrências da mesma entidade; . geração do formato final pretendido: . xml -- para escrever em formato \textit{XML}, uma versão do texto original onde são anotadas todas as referências a entidades encontradas. . Unified\_yaml -- Este filtro escreve uma representação, no formato \textit{YAML}\cite{yamlspec,yamlcookbook}, de todas as entidades com alguma referência no texto, bem como todas as classificações atribuídas. # # =Participação no \harem{} A participação no \harem{} foi muito importante e produtiva para nós já que: . envolveu lidar com um problema para o qual o \rena{} não tinha sido pensado, . envolveu discutir e trocar impressões com os outros participantes e com a organização . levantou uma série de questões que nunca nos tinham ocorrido . obrigou a pensar um pouco mais nesta questão # Há no entanto alguma diferença entre o tipo de avaliação que pretendíamos (mais ligada a um uso de extracção de informação enciclopédica) e a avaliação HAREM. Os resultados finais ficaram aquém do que seria possível por várias razões: . o autor do \rena{} (Edgar Alves) não ter participado (por ter já deixado a universidade e estar ocupado com os seus afazeres profissionais) . haver decisões do \rena{} que não seguem as propostas \harem{} e das quais não quisemos prescindir, . Com o pouco tempo que foi possível dedicar, termos optado por melhorar alguns módulos que não sendo os mais importantes para a avaliação \harem{}, são cruciais para o \rena. # Genericamente a marcação de entidades foi bem conseguida apesar de termos optado por não marcar valores numéricos em geral por nos parecer menos interessante para o \rena{}. Os maiores problemas resultaram de uma diferente filosofia no que diz respeito às classes -- diferente filosofia semântica. Enquanto que o HAREM pretende marcar a ocorrência específica em contexto específico, o \rena{} está menos preocupado com a ocorrência concreta mas com a entidade referida; está mais preocupado com a extracção de informação rica de cariz enciclopédico. Considere-se o seguinte exemplo concreto: \begin{Verbatim} ...os diários "Jornal Tribuna de Macau" Macau Hoje e ... \end{Verbatim} De acordo com a nossa intenção de extracção de informação enciclopédica, afirmar que o \emph{Jornal Tribuna de Macau} é um \textbf{Obra:Produto} seria completamente inaceitável: a resposta útil para o \rena{} (independentemente de o termos conseguido extrair) é \textbf{Jornal} ou \textbf{Jornal diário} Do mesmo modo demos preferência a \textbf{monumentos} em relação aos \textbf{Locais:Alargados} ou às \textbf{Obra:Arte}. A participação semântica do \rena{} foi feito através de: .1 extrair a informação e usar apenas a classificação geral de acordo com a ontologia \rena{} .2 traduzir (de acordo com uma tabela de tradução escrita manualmente) cada classificador \rena{} num par entidade:tipo do HAREM # Esta abordagem também introduziu erros adicionais (e alguma classes como monumento acabaram por não encontrar um classificador natural na estrutura classificativa HAREM).\\ Optamos por não fazer marcação morfológica por não nos parecer tão relevante para a nossa ferramenta específica e para não dispersar (e congratulamo-nos com a versatilidade do sistema HAREM de poder aceitar marcações parciais). No apêndice \ref{futuro}, apresentamos mais alguns exemplos e situações em que os modelos HAREM e \rena{} divergiram. =Conclusões e trabalho futuro Foi muito positivo a participação no \harem{} embora por questões temporais não tenha sido possível tirar partido de uma série de iniciativas. Seguiu-se uma abordagem que não visava maximizar o resultado final da avaliação mas antes o tentar ajudar à evolução do \rena{} de acordo com os nossos objectivos imediatos (que por vezes não coincidiram com os do \harem{}). Apesar das evoluções conseguidas e o estado actual do \rena{} é de software protótipo.\\ Ao nível do trabalho futuro, há genericamente o objectivo de melhorar: . melhorar as regras de inferência e unificação e resumo . criar um processador estrutural . melhorar name-gazetteer incluindo também dados estrangeiros . documentar melhor o interface de biblioteca Perl, nomeadamente os processadores de ordem superior actuais \begin{Verbatim} forent($texto){ .... } \end{Verbatim} # \bibliographystyle{fullname} \bibliography{jj,outros} \appendix \section{\label{futuro} Subsídio para a discussão sobre futuras edições } A organização e planeamento do \harem{} foi a meu ver muito boa. No entanto e tendo em conta futuras organizações vou enunciar algumas hipóteses que me pareciam ser vantajosas. Em resumo as propostas para futuras versões são: .1 uso de documentos seguindo (totalmente) a norma XML .1 uso claro e extensível de metadados nas colecções \[coleccao = (MetaData \times Texto )^* \] .1 migração de taxonomia a 2 níveis para uma ontologia de classes multi-nível .1 uso de etiquetagem mais versátil. # ==Uso de documentos seguindo XML A migração para documentos XML, torna mais fácil tirar partido de um conjunto de ferramentas no sentido de: . permitir verificar se os documentos (colecções e submissões) são bem-formados e se são válidos . ser claro e definido qual o sistema de encoding usado . poder obter mais facilmente uma variedade de vistas (pritty-printers), resumos, e reordenações dos documentos, de modo a se adaptar a diversas finalidades. (Usando CSS, XSL, etc) . ser trivial o cálculo de um conjunto de estatísticas e pesquisas (Usando XPath e afins) # ==Uso claro e expansível de metadados nas colecções A existência de metadados nas colecções foi algo que a organização teve em conta, Existe um elemento \texttt{DOC}, com metadados variante linguística e género\footnote{Com os valores \emph{CorreioElectrónico, Entrevista, Expositivo, Jornalístico, Literário, Político, Técnico, Web.}}. \begin{Verbatim} HAREM-871-07800 Web PT ... \end{Verbatim} Por um lado parece-me que os valores do atributo género cobrem mais que uma faceta: um documento \emph{político} (conteúdo temático) poderá ser também uma \emph{entrevista}, ou estar disponível (suporte) em \emph{Web, CorreioElectrónico}. Ou seja, seria útil múltiplas ocorrências de géneros, ou separar esta informação em mais que um campos. Por outro lado gostaria de ver um elemento Meta que agrupasse toda a metadata do documento de modo a permitir que possa haver mais fácil enriquecimento (por parte do HAREM ou de outro qualquer uso futuro). % A título de exemplo parece-me que faria sentido metadados referente a: % . tipo de documento (artigo \LaTeX, página html, email, ...) % . domínio temático % . data % . proveniência % # == Questões ligados à estrutura classificativa usada Cada entidade marcada está a ser classificada \emph{semanticamente}. % ===Um pouco de história Originalmente o MUC propôs um sistema classificativo a um nível e incluindo 3 ou 4 classes (Pessoa, Instituição, Entidade geográfica, ...). Apesar de alguns problemas conhecidos, esta proposta faz perfeitamente sentido, e permitiu a realização de avaliações conjuntas. O \harem{} propôs subir a fasquia para uma categorização a 2 níveis -- taxonomia a 2 níveis. A meu ver essa decisão foi necessária e acertada.\footnote{ Genericamente subir a fasquia é bom quando houver pelo menos um atleta que a transponha...}. Havendo uma taxonomia a 2 níveis, há naturalmente a hipótese de participações parciais: . nível 0 --> marcar apenas as entidades . nível 1 --> apresentar apenas as classificações do primeiro nível . nível 2 --> apresentar a classificação completa. . ou ainda escolher uma subárvore da taxonomia em causa. # Por outro lado, foi construída uma função de conversão \[harem2muc : Charem \longrightarrow Cmuc\] que mapeia classificações \harem{} em classificações MUC. -- tornando possível a comparações de resultados (medidas de acerto) entre as duas competições. Esta função de mapeamento entre os dois sistemas para a maioria dos casos é simples e natural, havendo no entanto zonas da estrutura \harem{} que são difíceis de mapear em MUC (o que não surpreende nem impede a leitura dos valores após conversão). Dum modo semelhante parece-me que há zonas da taxonomia \harem{} que são pouco naturais e claras -- vistas pelo prisma de representação de conhecimento. Constatou-se naturalmente dificuldades em arranjar consenso entre os participantes em relação ao referido sistema de classificação \harem{}, o que é natural e habitual nestas actividades, e que me parece não ter constituído obstáculo importante ao funcionamento. Genericamente a marcação combinada tem o seguinte aspecto: \begin{Verbatim} Entidade encontrada \end{Verbatim} Os problemas que aqui surgem são: .1 apesar de existir uma etiqueta de alternativa (\verb!|!), não vejo claramente como descrever ao nível da marcação: . \textbf{ignorância total} (ex: \emph{o X é interessante} -- não sei nada acerca de X), . dúvida (ex: \emph{o Porto é imprevisível}: ou é uma cidade ou um clube de futebol mas não as duas ao mesmo tempo -- só consegui concluir alguma informação parcial), . classificação múltipla (\emph{na Biblioteca da Universidade de Coimbra encontramos o espírito barroco} -- acho válidas duas ou mais classificações Obra de arte, Local Biblioteca, ...) # ou seja: \begin{Verbatim} e1 e1 e1 \end{Verbatim} .1 haver situações (ao fazer a marcação a dois níveis) em que certas sub-árvores são facetas (quase independentes) levando a que faça sentido duas classificações, e que por vezes a solução oficial \emph{perca} certas facetas e aspectos cruciais à caracterização da entidade em causa. \begin{quotation}Considere-se o seguinte exemplo da colecção dourada \begin{Verbatim} Biblioteca Pública \end{Verbatim} A referida biblioteca é um lugar, um edifício ou semelhante mas simultaneamente é património artístico, (é uma obra de arte). De certo modo, ser ou não obra de arte é uma faceta que poderemos querer aplicar a edifícios, livros, cidades e outra classes. Portanto constitui uma informação que deveria poder coexistir com a informação da classe a que se refere. Ou seja aquela biblioteca é simultaneamente um edifício e uma obra de arte. \end{quotation} .1 genericamente a existência de herança múltipla complica certas zonas da estrutura classificativas .1 por vezes o enquadramento das ferramentas concorrentes força estruturas classificativas diferentes das usadas e ligeiramente \emph{antagónicas}. \begin{quotation} Considere-se o seguinte par de exemplos da colecção dourada: \begin{Verbatim} Visite o DataGrama Zero a Revista Eletronica ... A revista foi denominada Medicina e Cultura ... \end{Verbatim} Independentemente do contexto linguístico em que estas entidades possam estar a ser usadas, dum ponto de vista de representação de conhecimento pretende-se tirar partido de que esta duas revistas têm muito em comum (classes idênticas ou aparentadas) e será inaceitável esquecer que são \emph{revistas}. \end{quotation} # ===A granularidade e capacidade distintiva Considere-se a questão ligada com os conceitos Portugal, país, entidade geográfica, etc: O seguinte conjunto de relações binárias pode ser usado para descrever (algumas das) propriedades do conceito: \begin{Verbatim} Portugal IOF país país ISA entidade geográfica país ISA instituição administrativa país ISA povo ... \end{Verbatim} Numa situação como a do IKF/\rena{} não dispomos de informação suficiente para resolver devidamente essa questão: optámos por baixar a fasquia: ter uma classificação que falhe 40\% dos casos é pior do que dizer que é simplesmente um país. Na visão IKF/\rena{} a nossa intenção corresponde a ir decorando a árvore de conhecimento com todos os atributos que conseguirmos obter (obviamente trata-se de uma finalidade específica nossa), ou seja pretendemos juntar em \emph{Portugal} os atributos ligados a país nas suas várias acepções e usos (presidente da república, língua, rios, área, etc). Esse tipo de junção processamento de atributos, heranças, etc, cria restrições acerca do tipo de árvores classificativas a usar: a relação subclasse (nível1 -- nível2 da estrutura \harem{}) passa a ter maiores responsabilidades... == O que eu propunha... \: . Etiquetagem mais prática: . uma única tag Entidade \verb!...! . um atributo \emph{tipo} \verb!...! . com notação clara para alternativas \verb! ...! . com notação clara para multiclassificação \verb! ...! . para informação parcial = escolher um nó mais acima na árvore classificativa (caso estremo = topo = entidade) . um atributo de unificação para permitir ligar referências à mesma entidade # . Ontologia multi-nível de classes, com herança múltipla, . Identificadores de classe mais claros e únicos -- a questão da clareza é crucial para o contexto de extracção de informação onde o \rena{} se encaixa -- (dizer que \emph{Palácio de Vila Flor} é um \emph{LOCAL:ALARGADO} é inaceitável do ponto de vista de extracção de informação enciclopédica). # \end{document} \section{Casos para analisar com cuidado} \begin{Verbatim} Monumentos: Jardins do Paço Episcopal ==> Jardim Rua Eça de Queirós ==> Rua Palácio da Vila Flor ==> Palácio Biblioteca Pública ==> biblioteca no edifício do antigo Mercado Ferreira Borges. ==> Galeria? Mercado? pavilhão multiusos? É no Hotel Eva ==> hotel Organizações/sub: Biblioteca Pública Biblioteca Pública e depois para a Universidade do Minho Doenças, ...: Síndrome de Fibromialgia Fibromialgia Artrite Reumatóide Osteoartrite Filosofia Síndrome Fibrosítica com o código M79.0, tendo sido reconhecida em 1992 como uma doença reumática ...Talvez aliança, projecto, organização: anunciaram a formacao de uma alianca denominada 'eBook Iniciative' ...tv empresa da Microsoft ...tv revista Visite o DataGrama Zero a Revista Eletronica A revista foi denominada Medicina e Cultura ...tv email cadastro@fastmarketing.org Internet IP Como transformar seu computador num servidor de SMTP ...tv festa, festividade Santo Antônio ...tv editora editado pela Planeta) ... V.Exa. Deus Wesley Presidente residência da família Barros Lima Conselho de Administração Governo gostaria de ouvir o Concelho de Mafra é com prazer que informo a Assembleia senhora Presidente Nicole Fontaine Senhor Deputado Trakatellis ==> Sophia de Mello Breyner Andresen ==> poetiza ...Porto de... o logotipo terá a frase «Porto de Setúbal Porto de Leixões a ser utilizado pelo porto de Setúbal Obras: os diários "Jornal Tribuna de Macau" ==> jornal, diário Macau Hoje ==> jornal destacando-se os dois mais importantes que são o "Ou Mun" e o "Va Kio" ==> jornal Página da Lusa ==> cite?, jornal electrónico? Projecto Vercial ==> projecto?, cite? peças editadas no disco compacto Sinais de Yuanju ==> Disco? CD? Contos Exemplares ==> livro ...Locais: Europa Portugal Portugal Havana e na província vizinha de Matanzas __mapa_rena__ ARTEFACTO : OBRA ARTEFACTO TIPO="documento" : OBRA TIPO="PUBLICACAO" ENT : VARIADO EVENTO : ACONTECIMENTO EVENTO TIPO="encontro" : ACONTECIMENTO TIPO="ORGANIZADO" GEOGRAFICA : LOCAL GEOGRAFICA TIPO="cidade" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="concelho" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="continente" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="distrito" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="estado" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="freguesia" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="ilha" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="localidade" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="lugar" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="mar" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="monumento" : GEOGRAFICA TIPO="pais" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="provincia" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="regiao" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="rio" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="sede_de_distrito" : LOCAL TIPO="ADMINISTRATIVO" GEOGRAFICA TIPO="serra" : LOCAL TIPO="GEOGRAFICO" GEOGRAFICA TIPO="vila" : LOCAL TIPO="ADMINISTRATIVO" ORGANIZACAO : ORGANIZACAO ORGANIZACAO TIPO="camara_municipal" : ORGANIZACAO TIPO="ADMINISTRACAO" ORGANIZACAO TIPO="empresa" : ORGANIZACAO TIPO="EMPRESA" ORGANIZACAO TIPO="hospital" : ORGANIZACAO TIPO="ADMINISTRACAO" ORGANIZACAO TIPO="instituicao" : ORGANIZACAO TIPO="INSTITUICAO" ORGANIZACAO TIPO="instituicao_politica" : ORGANIZACAO TIPO="INSTITUICAO" ORGANIZACAO TIPO="instituicao_academica" : ORGANIZACAO TIPO="INSTITUICAO" ORGANIZACAO TIPO="jornal" : ORGANIZACAO TIPO="EMPRESA" ORGANIZACAO TIPO="partido_politico" : ORGANIZACAO TIPO="INSTITUICAO" ORGANIZACAO TIPO="pessoa_colectiva" : PESSOA TIPO="GRUPOMEMBRO" ORGANIZACAO TIPO="teatro" : ORGANIZACAO TIPO="INSTITUICAO" OUTRO TIPO="signo" : VARIADO PESSOA : PESSOA PESSOA TIPO="advogado" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="arquitecto" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="atleta" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="clerigo" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="compositor" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="jornalista" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="militar" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="musico" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="poeta" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="politico" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="santo" : PESSOA TIPO="INDIVIDUAL" PESSOA TIPO="diabo" : PESSOA TIPO="INDIVIDUAL" TEMPO TIPO="DATA" : TEMPO TIPO="DATA" TEMPO TIPO="HORA" : TEMPO TIPO="HORA" TEMPO TIPO="PERIODO" : TEMPO TIPO="PERIODO" \end{Verbatim} \end{document}