<html><body><a href="http://infoling.org" target="_blank"><img
src="http://infoling.org/img/infoling.png" alt="Logo image by Hay
Kranen / CC-BY" width="255" height="50" align="left" border="0" /></a>
<br /><br /><br />
<br /><font style="font-size:80%"><table border="0" bordercolor="#FFF"
width="190px"><tr><td>             </td><td> <a
style="text-decoration:none" href="http://www.facebook.com/infoling"
target="_blank"><img border="0" 
src="http://infoling.org/img/facebook-icon.png" alt="Infoling at
Facebook"  style="vertical-align:-30%;height:16px;width:16px" />
Facebook</a></td><td> <a style="text-decoration:none"
href="http://www.twitter.com/infoling" target="_blank"><img border="0"
src="http://infoling.org/img/t_small-b.png" alt="Infoling at Twitter"
style="vertical-align:-30%;height:16px;width:16px" />
Twitter</a></td></tr></table></font>
<br />Moderador/a: Carlos Subirats (U. Autónoma Barcelona), Mar Cruz
(U. Barcelona)
<br />Editoras: Paloma Garrido (U. Rey Juan Carlos), Laura Romero (UB)
<br />Programación, desarrollo: Marc Ortega (UAB)
<br />Directoras/es de reseñas: Alexandra Álvarez (U. Los Andes,
Venezuela), Yvette Bürki (U. Bern, Suiza), María Luisa Calero (U.
Córdoba, España), Luis Cortés (U. Almería)
<br />Asesoras/es: Isabel Verdaguer (UB), Gerd Wotjak (U. Leipzig,
Alemania)
<br />Colaboradoras/es: Julia Bernd (Cause Data Collective, EE.UU),
Antonio Ríos (UAB), Danica Salazar (UB)
<br />
<br />Con el patrocinio de:
<br /><table border="0" bordercolor="#FFFFFF"
width="200px"><tr><!--<td><a href="http://www.fundacioncomillas.es/"
target="_blank"><img
src="http://www.infoling.org/img/logo-comillas.png" alt="Fundación
Comillas" width="85" height="49" align="left" border="0"
/></a></td>--><td><a
href="http://www.arcomuralla.com/Arco/Shop/default.asp"
target="_blank"><img  style="border:0;margin-top:10px"
src="http://www.infoling.org/img/logoarco.jpg" alt="Arco Libros"
width="62" height="34" align="left" border="0"
/></a></td></tr></table><br /><hr /><font style="font-size:90%">
<br /><b>Infoling 2.20 (2013)</b><br />ISSN: 1576-3404 </font>
<br /><font style="font-size:90%">© Infoling 1996-2012. Reservados
todos los derechos</font>
<br />
<br /><hr /><b>Recursos lingüísticos: </b><br />PANACEA Labour
Spanish monolingual corpus<br /><b>URL:</b> <a
href="http://catalog.elra.info/product_info.php?products_id=1193&language=en"
target="_blank">http://catalog.elra.info/product_info.php?products_id=1193&language=en</a><br
/><b>Información de:</b> Infoling List
<infoling@infoling.org><br />Compartir: <a
href="http://api.addthis.com/oexchange/0.8/forward/facebook/offer?url=http://www.infoling.org/informacion/RecursoL93.html&pubid=ra-4def7f4a7565a706"
target="_blank" rel="nofollow"><img border="0"
src="http://infoling.org/img/facebook-icon.png" alt="Send to Facebook"
title="Send to Facebook"
style="vertical-align:-30%;height:16px;width:16px"
/></a>   <a
href="http://api.addthis.com/oexchange/0.8/forward/twitter/offer?url=http://www.infoling.org/informacion/RecursoL93.html&template=@infoling%20PANACEA%20Labour%20Spanish%20monolingual%20corpus%20{{url}}&pubid=ra-4def7f4a7565a706&shortener=bitly&bitly.login=infoling&bitly.apiKey=R_60e1d6b1cb688030e7759b835f63d0c0"
target="_blank" rel="nofollow"><img border="0"
src="http://infoling.org/img/t_small-b.png" alt="Tweet this"
title="Tweet this" style="vertical-align:-30%;height:16px;width:16px"
/></a><hr /><p><a
href="http://infoling.org/english/search/recursos/ID/93"
target="_blank">View with English headings</a></p><hr /><br
/><b>Descripción</b><br /><p> The PANACEA Labour Spanish
monolingual corpus was acquired in the framework of the PANACEA
project (Platform for Automatic, Normalized Annotation and
Cost-Effective Acquisition of Language Resources for Human Language
Technologies), under the European Commission's Seventh Framework
Programme.<br /><br />This corpus contains documents that were
acquired from the web, were automatically detected to be in the
Spanish language and were automatically classified as relevant to the
“Labour Legislation” domain. It was constructed in the summer of
2011 using the Focused Monolingual Crawler (FMC) developed in the
context of PANACEA.<br /><br />The corpus contains 53,922,118 tokens,
excluding tokens in a) short (smaller than 10 tokens) paragraphs, b)
paragraphs that were automatically classified as boilerplate and c)
paragraphs that were automatically detected in a language other than
Spanish. They are divided into a total of 13,188 documents that were
crawled from 1,015 web sites. The dataset consists of the original
crawled HTML files and the corresponding CesDoc XML files with basic
metadata.<br /><br />This corpus is free both for academic and
commercial use.<br /><br />Contact: <a
href="http://www.elra.info/Contact-us.html"
target="_blank">http://www.elra.info/Contact-us.html</a></p><br
/><b>Área temática:</b> Lingüística de corpus<br /><br
/><b>Información en la web de Infoling:</b><br /> <a
href="http://www.infoling.org/informacion/RecursoL93.html"
target="_blank">
http://www.infoling.org/informacion/RecursoL93.html</a></body></html>