23.3258, Confs: German, Applied Ling, Computational Ling, Text/Corpus Ling/Germany

Wed Aug 1 16:00:16 UTC 2012

LINGUIST List: Vol-23-3258. Wed Aug 01 2012. ISSN: 1069 - 4875.

Subject: 23.3258, Confs: German, Applied Ling, Computational Ling, Text/Corpus Ling/Germany

Moderators: Anthony Aristar, Eastern Michigan U <aristar at linguistlist.org>
            Helen Aristar-Dry, Eastern Michigan U <hdry at linguistlist.org>

Reviews: Veronika Drake, U of Wisconsin Madison
Monica Macaulay, U of Wisconsin Madison
Rajiv Rao, U of Wisconsin Madison
Joseph Salmons, U of Wisconsin Madison
Anja Wanner, U of Wisconsin Madison
       <reviews at linguistlist.org>

Homepage: http://linguistlist.org

Do you want to donate to LINGUIST without spending an extra penny? Bookmark
the Amazon link for your country below; then use it whenever you buy from
Amazon!

USA: http://www.amazon.com/?_encoding=UTF8&tag=linguistlist-20
Britain: http://www.amazon.co.uk/?_encoding=UTF8&tag=linguistlist-21
Germany: http://www.amazon.de/?_encoding=UTF8&tag=linguistlistd-21
Japan: http://www.amazon.co.jp/?_encoding=UTF8&tag=linguistlist-22
Canada: http://www.amazon.ca/?_encoding=UTF8&tag=linguistlistc-20
France: http://www.amazon.fr/?_encoding=UTF8&tag=linguistlistf-21

For more information on the LINGUIST Amazon store please visit our
FAQ at http://linguistlist.org/amazon-faq.cfm.

Editor for this issue: Xiyan Wang <xiyan at linguistlist.org>
================================================================  

Date: Wed, 01 Aug 2012 11:59:21
From: Roman Schneider [schneider at ids-mannheim.de]
Subject: Webkorpora in Computerlinguistik und Sprachforschung

E-mail this message to a friend:
http://linguistlist.org/issues/emailmessage/verification.cfm?iss=23-3258.html&submissionid=4550931&topicid=4&msgnumber=1

Webkorpora in Computerlinguistik und Sprachforschung 

Date: 27-Sep-2012 - 28-Sep-2012 
Location: Mannheim, Germany 
Contact: Roman Schneider 
Contact Email: schneider at ids-mannheim.de 
Meeting URL: http://hypermedia.ids-mannheim.de/webkorpora/ 

Linguistic Field(s): Applied Linguistics; Computational Linguistics; Text/Corpus Linguistics 

Subject Language(s): German (deu)

Meeting Description: 

Der Workshop thematisiert die Gewinnung, Aufbereitung und Analyse von Web-Korpora für computerlinguistische Anwendungen und für die sprachwissenschaftliche Forschung. Ein Schwerpunkt des Workshops sind dabei die speziellen Anforderungen, die sich gerade im Hinblick auf deutschsprachige Web-Korpora ergeben. Im Fokus steht weiterhin die Nutzung von Web-Korpora für empirisch gestützte Sprachforschungen, also beispielsweise als Basis für sprachstatistische Analysen, für Untersuchungen zur Sprachlichkeit in der internetbasierten Kommunikation oder für die korpusgestützte Lexikographie.

Weitere thematische Schwerpunkte sind:

- der hypermediale Charakter vieler Web-Dokumente (d.h. der angemessene Umgang mit nicht textbasierten Daten, mit Hyperlinks, mit interaktiven Komponenten etc.)

- automatisierte (z.B. statistisch basierte) Verfahren zur Klassifizierung von Web-Dokumenten (z.B. Register- bzw. Textsortenunterschiede)

- Vergleich der Einsatzszenarien kompilierter Web-Korpora mit 'einfachen' Lösungen (also z.B. dem 'Googeln' von Sprachphänomenen oder der Nutzung von Googles n-Gram-Datenbank oder Microsofts Web n-Gram-Service)

- Webnutzung und Nutzung von Auswahlkorpora in verschiedenen Forschungsphasen
    Anwendung linguistischer Werkzeuge (Tokenisierer, Lemmatisierer, POS-Tagger, semantischer Annotationswerkzeuge etc.) auf Web-Dokumente

- Anreicherung von Web-Dokumenten um Metadaten; Spezifika von Metadaten für Webkorpora (im Vergleich zu schriftsprachlichen Referenzkorpora)

Poster- und Demosession

Interessenten aus Wissenschaft und Praxis, die im Umfeld von (deutschsprachigen) Webkorpora tätig sind, sind herzlich eingeladen, auf diesem Workshop ihre aktuellen Arbeiten (z.B. Forschungsarbeiten, Erfahrungsberichte, Anwendung von Werkzeugen und Methoden) im Rahmen einer Poster-/Demosession vorzustellen. Wir möchten auch insbesondere Studenten und Doktoranden zu Vorschlägen ermutigen, denn dieses Forum wäre eine gute Gelegenheit, in einen (ersten) inhaltlichen Austausch mit einschlägigen Kollegen zu treten. Anmeldung bitte bis zum 01.09.2012. 

Programm Donnerstag, 27.09.2012

14:00
Begrüßung / Eröffnung
Roman Schneider (IDS Mannheim)

14:10
Webkorpora als qualitätsgesicherte Forschungsdaten [Abstract]
Marc Kupietz, Harald Lüngen (IDS Mannheim)

14:40
Establishing Gold Standards for Web Corpora [Abstract]
Felix Bildhauer, Roland Schäfer (FU Berlin)

15:10
Kaffeepause

15:30
Die Leipzig Corpora Collection: Datenbeschaffung, Textaufbereitung und
Qualitätssicherung für Korpora in 150 Sprachen
Uwe Quasthoff, Dirk Goldhahn, Thomas Eckart (Universität Leipzig)

16:00
Kontrastive Analyse der morphosyntaktisch annotierten Wikipedia-Korpora in
EuroGr at mm [Abstract]
Karl Hagen Augustin (IDS Mannheim)

16:30
Kaffeepause

16:50
Sie fangen dort an, wo wir aufhören: Möglichkeiten der Nutzung von
Webkorpora in Peer Production Communities
Claudia Müller-Birn (FU Berlin)

17:20
Diskussion: Deutsche Webkorpora: Stand der Kunst - Desiderate - Perspektiven
Moderation: Angelika Storrer (TU Dortmund), Roman Schneider (IDS Mannheim),
Alexander Mehler (Goethe-Universität Frankfurt am Main)

19:00
Gemeinsames Abendessen
Ort wird noch bekannt gegeben

Programm Freitag, 28.09.2012

09:00
Web-basierte Extraktion und Repräsentation linguistischer Netzwerke
Alexander Mehler, Vincent Esche (Goethe-Universität Frankfurt am Main)

09:30
Webkorpora für die automatische Akquisition lexikalisch-semantischen
Wissens [Abstract]
Sabine Schulte im Walde (Universität Stuttgart)

10:00
Aufbereitung eines Korpus zur Analyse der Zeitungsleserkommunikation in
Print- und Online-Medien. Annotationsebenen, -schemata und -prinzipien [Abstract]
Maja Bärenfänger (Justus-Liebig-Universität Gießen)

10:30
Kaffeepause

10:50
Gewinnung, Aufbereitung und Analyse von Korpora zu Genres
internetbasierter Kommunikation: Herausforderungen und Perspektiven
Michael Beißwenger (TU Dortmund), Stefan Evert, Torsten Zesch (TU Darmstadt)

11:20
Aufbau und Annotation eines Referenzkorpus zur deutschsprachigen
internetbasierten Kommunikation (DeRiK-Projekt)
Michael Beißwenger (TU Dortmund), Lothar Lemnitzer (BBAW Berlin)

11:50
Kollaborative Erstellung eines annotierten Korpus als Grundlage für die
Anwendung statistischer Ansätze der automatischen Sprachverarbeitung auf
internetbasierte Kommunikation [Abstract]
Alexander Geyken, Bryan Jurish, Kay-Michael Würzner (BBAW Berlin)

12:20
Kaffeepause

12:50
Abschlussdiskussion und Ausblick

13:30
Verabschiedung / Workshopende

----------------------------------------------------------
LINGUIST List: Vol-23-3258	
----------------------------------------------------------