19.3587, Software: Final Second HAREM Resources available

LINGUIST Network linguist at LINGUISTLIST.ORG
Sun Nov 23 17:48:31 UTC 2008


LINGUIST List: Vol-19-3587. Sun Nov 23 2008. ISSN: 1068 - 4875.

Subject: 19.3587, Software: Final Second HAREM Resources available

Moderators: Anthony Aristar, Eastern Michigan U <aristar at linguistlist.org>
            Helen Aristar-Dry, Eastern Michigan U <hdry at linguistlist.org>
 
Reviews: Randall Eggert, U of Utah  
         <reviews at linguistlist.org> 

Homepage: http://linguistlist.org/

The LINGUIST List is funded by Eastern Michigan University, 
and donations from subscribers and publishers.

Editor for this issue: Susanne Vejdemo <susanne at linguistlist.org>
================================================================  

To post to LINGUIST, use our convenient web form at
http://linguistlist.org/LL/posttolinguist.html.

===========================Directory==============================  

1)
Date: 21-Nov-2008
From: Hugo Gonçalo Oliveira < hroliv at dei.uc.pt >
Subject: Final Second HAREM Resources available

 

	
-------------------------Message 1 ---------------------------------- 
Date: Sun, 23 Nov 2008 12:46:50
From: Hugo Gonçalo Oliveira [hroliv at dei.uc.pt]
Subject: Final Second HAREM Resources available

E-mail this message to a friend:
http://linguistlist.org/issues/emailmessage/verification.cfm?iss=19-3587.html&submissionid=197126&topicid=13&msgnumber=1
  


[Portuguese below]

Dear colleagues,

We are happy to announce that the resources created in the scope of the
Second HAREM (www.linguateca.pt/HAREM/), a joint evaluation contest for
named entity recognition in Portuguese, are now available at
http://www.linguateca.pt/HAREM/PacoteRecursosSegundoHAREM.zip, and include:

- The Second HAREM collection and its metadata (1,040 documents in
Portuguese, from Brazil and Portugal)

- The three golden collections created

Second HAREM GC: 129 documents from the HAREM collection whose 7,747 named
entities were manually annotated according to HAREM guidelines (10 categories)

TEMPO GC (a subset of Second HAREM GC): 30 documents with 1,490 NEs that,
in addition to the Second HAREM GC information, have also been manually
annotated according to the TEMPO guidelines for finer analysis and temporal
normalization

ReRelEM GC (a subset of TEMPO GC): 12 documents, whose 572 NEs, in addition
to the two types of annotation just mentioned, have also been manually
annotated with semantic relations between named entities, according to the
ReRelEM guidelines

- The evaluation programs developed

- The runs by the participating systems

All these resources are available at the HAREM website, and they can be
used in the SA(H)ARA web service  (http://www.linguateca.pt/HAREM -- click
in 'Avaliador'), which allows the remote evaluation of new runs.

Your feedback is welcome!

The Second HAREM organization

Diana Santos, Cláudia Freitas, Hugo Oliveira, Paula Carvalho and Cristina Mota

--------------------

[Caros colegas,

É com enorme satisfação que anunciamos a disponibilização da Lâmpada, o
pacote de recursos finais criados no âmbito do Segundo HAREM, a segunda
edição da avaliação conjunta em reconhecimento de entidades mencionadas em
português (http://www.linguateca.pt/HAREM).

A Lâmpada, acessível de
http://www.linguateca.pt/HAREM/PacoteRecursosSegundoHAREM.zip, compreende:

A -  a Colecção HAREM  e respectivos metadados, constituída por 1.040
documentos

B - as  três colecções douradas (subconjuntos da Colecção HAREM),
designadamente:

  1)   a colecção dourada do HAREM clássico, com 129 documentos e  7.747
EM, manualmente anotadas de acordo com as directivas do HAREM (numa grelha
de 10 categorias e respectivos tipos e subtipos)

  2)  a colecção dourada do TEMPO, um subconjunto da CD anterior, com 30
documentos e 1.490 EM, que, além dos atributos da CD do HAREM clássico, têm
ainda associada informação sobre normalização temporal e outros atributos
temporais mais finos, manualmente anotados de acordo com as directivas do TEMPO

  3) a colecção dourada do ReRelEM, um subconjunto da CD anterior, com 12
documentos e 572 EM, que, além dos atributos das CD anteriormente
referidas, têm anotadas as relações que as diferentes EM podem estabelecer
entre si, de acordo com as directivas do ReRelEM

C - os programas de avaliação desenvolvidos para o Segundo HAREM

D -  as corridas produzidas pelos sistemas participantes

Todos estes recursos estão naturalmente disponíveis no sítio do HAREM,
juntamente com o serviço SA(H)ARA (http://www.linguateca.pt/HAREM -
escolher 'Avaliador'), que permite a avaliação remota de novas participações.

Agradecemos, desde já, todo o retorno que nos possam dar!

A organização do Segundo HAREM] 
Linguistic Field(s): Computational Linguistics






-----------------------------------------------------------
LINGUIST List: Vol-19-3587	

	



More information about the LINGUIST mailing list