[Corpora-List] Corpus of Spoken Italian release, on behalf of Federico Albano Leoni

Isabella Chiari isabella.chiari at uniroma1.it
Wed Feb 21 11:48:19 UTC 2007


[Apologize for multiple postings]

 

We are glad to announce the final release of CLIPS, corpus of spoken
Italian, freely available at  <http://www.clips.unina.it/>
www.clips.unina.it. The corpus (audio files, annotation and documentation)
are fully downloadable from the website via ftp, free for research purposes.


 

CLIPS consists of about 100 hours of speech, equally represented by female
and male voices. A section of the corpus is transcribed orthographically, a
smaller section has been phonetically labeled.  Recordings were made in 15
Italian cities, selected on the basis of linguistic and socio-economic
principles of representativeness: Bari, Bergamo, Bologna, Cagliari,
Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia,
Roma, Venezia.

 

For each of the 15 cities different text typologies have been included: a)
radio and television broadcasts (news, interviews, talk shows); dialogue
(240 dialogues collected using the map task procedure and the “spot the
difference” game. In this set: 30 dialogues are phonetically labeled, 90
orthographically transcribed); c) read speech from non professional speakers
(20 sentences each, covering medium-high frequency Italian words); d) speech
over the telephone (conversations between 300 speakers and a simulated hotel
desk service operator), e) read speech from 20 professional speakers (160
sentences, covering all phonotactic sequences and medium-high frequency
Italian words) recorded in an anechoic chamber.

Documentation, corpus collection and annotation follow the EAGLES
guidelines.

Sincerely,

Federico Albano Leoni (federico.albanoleoni at uniroma1.it)

Francesco Cutugno (cutugno at unina.it)

Renata Savy (rsavy at unisa.it )

-------------------------------------------------------------------

E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it
<http://www.clips.unina.it/> . Il corpus (audio, etichettatura e
documentazione) è pubblico, l’accesso e il download completo del materiale
per finalità scientifiche sono gratuiti.

 

CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci
maschili e voci femminili, in parte trascritto ortograficamente e
etichettato foneticamente. Le registrazioni sono state effettuate in 15
località italiane scelte in base a criteri di rappresentatività linguistica
e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze,
Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.

 

Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari,
interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo
le modalità del map task e del ‘gioco delle differenze’, dei quali 30
etichettati foneticamente, 90 trascritti ortograficamente, studenti
universitari); c) parlato letto da parlanti non professionisti (20 frasi
atte a garantire la copertura delle frequenze medio-alte del lessico
italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un
portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti
(160 frasi atte a garantire la copertura delle sequenza fonotattiche
dell’italiano e delle frequenze medio-altedel lessico italiano) registrato
in camera anecoica.

La documentazione, i protocolli di raccolta e di annotazione del materiale
tengono conto delle direttive del progetto EAGLES. 

Federico Albano Leoni (federico.albanoleoni at uniroma1.it)

Francesco Cutugno (cutugno at unina.it)

Renata Savy (rsavy at unisa.it )

 

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/corpora/attachments/20070221/f89a61c5/attachment.htm>


More information about the Corpora mailing list