\documentclass[portuges,a4paper]{article} \RequirePackage[b5paper,top=2.5cm,left=2cm,right=2cm,bottom=2.5cm]{geometry} \usepackage{babel} %\usepackage[latin1]{inputenc} \usepackage[utf8]{inputenc} %\usepackage{ucs} \usepackage{fancyvrb} \usepackage{t1enc} \usepackage{aeguill} \usepackage{graphicx} \usepackage{url} \begin{document} \def\rena{{\sc Rena}} \def\harem{{\sc Harem}} \def\t2o{{$T_2$}} \def\imgy#1{\includegraphics[height=0.95\textheight]{#1}} \def\imgY#1#2{\includegraphics[height=#1\textheight]{#2}} \def\imgx#1{\includegraphics[width=0.95\textwidth]{#1}} \def\imgX#1#2{\includegraphics[width=#1\textwidth]{#2}} \fvset{fontsize=\footnotesize, frame = single, numberblanklines = false} \title{ \harem{}: subsídio para a discussão sobre futuras edições } \author{J.João Dias de Almeida} \date{\today} \maketitle \tableofcontents =Introdução A organização e planeamento do \harem{} foi a meu ver muito boa. No entanto e tendo em conta futuras organizações vou enunciar algumas coisas que me pareciam ser vantajosas. %Algumas dessas observações podem ser incorrectas e fruto de um desconhecimento %ou de uma análise incompleta da documentação -- desde já pedimos desculpa %e correcções.\\ Em resumo as propostas para futuras versões são: .1 uso de documentos seguindo (totalmente) a norma XML .1 uso claro e extensível de metadados nas colecções \[coleccao = (MetaData \times Texto )^* \] .1 migração de taxonomia 2 níveis para uma ontologia de classes multi-nível .1 uso de etiquetagem mais prática. # =Uso de documentos seguindo XML Se se conseguir migrar para documentos XML, torna-se mais fácil tirar partido de um conjunto de ferramentas: . permitir verificar se os documentos (colecções e submissões) são bem-formados e se são válidos . ser claro e definido qual o sistema de encoding usado . poder obter mais fácilmente uma variedade de vistas (pritty-printers), resumos, e reordenações dos documentos, de modo a se adaptar a diversas finalidades. (Usando CSS, XSL, etc) . ser trivial o cálculo de um conjunto de estatísticas e pesquisas (Usando XPath e afins) # =Uso claro e expansível de metadados nas colecções A existência de metadados nas colecções foi algo que a organização teve em conta, Existe um elemento \texttt{DOC}, com metadados variante linguística e género\footnote{Com os valores \emph{CorreioElectrónico, Entrevista, Expositivo, Jornalístico, Literário, Político, Técnico, Web.}}. \begin{Verbatim} HAREM-871-07800 Web PT ... \end{Verbatim} Por um lado parece-me que os valores do atributo género cobrem mais que uma faceta: um documento \emph{político} (conteúdo temático) poderá ser também uma \emph{entrevista}, ou estar disponível (suporte) em \emph{Web, CorreioElectrónico}. Ou seja, seria útil ou múltiplos géneros, ou dividir esta informação por múltiplos campos. Eu gostaria de ver um elemento Meta que agrupasse um conjunto informações tão ricas quanto se decidir acerca do documento. A título de exemplo parece-me que faria sentido metadados referente a: . tipo de documento (artigo \LaTeX, página html, email, ...) . domínio temático . data . proveniência # Esta informação poderia ainda ter como objectivo facilitar futuros usos, em contextos variados. = Estrutura classificativa usada Cada entidade marcada está a ser classificada "semanticamente". ==Um pouco de história Originalmente o MUC propôs um sistema classificativo a um nível e incluindo 3 ou 4 classes (Pessoa, Instituição, Entidade geográfica, ...). Apesar de alguns problemas conhecidos, esta proposta faz perfeitamente sentido, e permitiu a realização de avaliações conjuntas. O \harem{} propôs subir a fasquia para uma categorização a 2 níveis -- taxonomia a 2 níveis. A meu ver essa decisão foi necessária e acertada.\footnote{ Genericamente subir a fasquia é bom quando houver pelo menos um atleta que a transponha...}. Havendo uma taxonomia a 2 níveis, há naturalmente a hipótese de participações parciais: . nível 0 --> marcar apenas as entidades . nível 1 --> apresentar apenas as classificações do primeiro nível . nível 2 --> apresentar a classificação completa. . ou ainda escolher uma subárvore da taxonomia em causa. # A organização \harem{} construiu uma função de conversão \[harem2muc : Charem \longrightarrow Cmuc\] que mapeia classificações \harem{} em classificações MUC. -- tornando possível a comparações de resultados (medidas de acerto) entre as duas competições. Esta função de mapeamento entre os dois sistemas para a maioria dos casos é simples e natural, havendo no entanto zonas da estrutura \harem{} que são difíceis de mapear em MUC (o que não surpreende). Dum modo semelhante parece-me que há zonas da taxonomia \harem{} que são pouco naturais e claras -- vistas pelo prisma de representação de conhecimento. Constatou-se naturalmente dificuldades em arranjar consenso entre os participantes em relação ao referido sistema de classificação \harem{}, o que é natural e habitual nestas actividades, e que me parece não ter constituído obstáculo importante ao funcionamento. Genericamente a marcação combinada tem o seguinte aspecto: \begin{Verbatim} Entidade encontrada \end{Verbatim} Os problemas que aqui surgem são: .1 apesar de existir uma etiqueta de alternativa (\verb!|!), não vejo claramente como descrever \textbf{ignorância total} (ex: \emph{o X é interessante}), dúvida (só consegui concluir alguma informação parcial) e classificação múltipla (acho válidas duas ou mais classificações) ao nível da marcação; Exemplo, considerando somente o tipo... \begin{Verbatim} e1 e1 e1 \end{Verbatim} .1 haver situações (ao fazer a "formatação" a dois níveis) em que certas sub-árvores são facetas (quase independentes) levando a que faça sentido duas classificações, e que por vezes a solução oficial "perca" certas facetas e aspectos cruciais à caracterização da entidade em causa. \begin{quotation}Considere-se o seguinte exemplo da colecção dourada \begin{Verbatim} Biblioteca Pública \end{Verbatim} A referida biblioteca é um lugar, um edifício ou semelhante mas simultaneamente um património artístico, (é uma obra de arte). De certo modo, ser ou não obra de arte é uma faceta que poderemos querer aplicar a edifícios, livros, cidades e outra classes. Portanto constitui uma informação que queremos que coexista com a informação da classe a que se refere. Ou seja a biblioteca é simultaneamente um edifício e uma obra de arte. \end{quotation} .1 genericamente a existência de herança múltipla complica certas zonas da estrutura classificativas .1 por vezes o enquadramento das ferramentas concorrentes força estruturas classificativas diferentes das usadas e ligeiramente "antagónicas". \begin{quotation} Considere-se o seguinte par de exemplos da colecção dourada: \begin{Verbatim} Visite o DataGrama Zero a Revista Eletronica ... A revista foi denominada Medicina e Cultura ... \end{Verbatim} Independentemente do contexto linguístico em que estas entidades possam estar a ser usadas, dum ponto de vista de representação de conhecimento pretende-se tirar partido de que esta duas revistas têm muito em comum (classes idênticas ou aparentadas) e será inaceitável esquecer que são \emph{revistas}. \end{quotation} # ==A granularidade e capacidade distintiva Considere-se a questão ligada com os conceitos Portugal, país, entidade geográfica, etc: O seguinte conjunto de relações binárias pode ser usado para descrever (algumas das) propriedades do conceito: \begin{Verbatim} Portugal IOF país país ISA entidade geográfica país ISA instituição administrativa país ISA povo ... \end{Verbatim} Numa situação como a do IKF/\rena{} não dispomos de informação suficiente para resolver devidamente essa questão: optámos por baixar a fasquia: ter uma classificação que falhe 40\% dos casos é pior do que dizer que é simplesmente um país. Na visão IKF/\rena{} a nossa intenção corresponde a ir decorando a árvore de conhecimento com todos os atributos que conseguirmos obter (obviamente trata-se de uma finalidade específica nossa), ou seja pretendemos juntar em "Portugal" os atributos ligados a país nas suas várias acepções e usos (presidente da república, língua, rios, área, etc). Esse tipo de junção processamento de atributos, heranças, etc, cria restrições acerca do tipo de árvores classificativas a usar: a relação subclasse (nível1 -- nível2 da estrutura \harem{}) passa a ter maiores responsabilidades... = O que eu propunha... \: . Etiquetagem mais prática: . uma única tag Entidade \verb!...! . um atributo \emph{tipo} \verb!...! . com notação clara para alternativas \verb! ...! . com notação clara para multiclassificação \verb! ...! . para informação parcial = escolher um nó mais acima na árvore classificativa (caso estremo = topo = entidade) . um atributo de unificação para permitir ligar referências à mesma entidade # . Ontologia multi-nível de classes, com herança múltipla, . Identificadores de classe claros e únicos; # \end{document}