S=?UTF-8?Q?=C3=A9minaire_23_janvier_2014_-_Math=C3=A9matiques_?=et Linguistique - Nanterre

Wed Jan 22 09:42:57 UTC 2014

Bonjour

Vous êtes tous cordialement invités au séminaire de Mathématiques et de Linguistique des laboratoires Modyco et Modal'X de l'Université Paris Ouest Nanterre qui tiendra sa seconde séance:

le jeudi 23 janvier 2014.
de 10h à 12h
en salle MODAL'X (Nanterre G E27).

La matinée verra une présentation de Mesrob Ohanessian pour la partie mathématiques et de Dylan Glynn pour la partie linguistique.

Les instructions pour se rendre au séminaire se trouvent à la page :
http://www.modyco.fr/modyco/seminaire-ling-math.html

Présentation de la matinée:
23 janvier 2014 :

Linguistique: Dylan Glynn – Université Paris 8 St DenisLogistic Regression – questions for empirical linguistics

Inherited from sociolinguistics, logistic regression has represented a mainstay quantitative technique in corpus-driven Cognitive and Functional Linguistics since the turn of the century. In recent years, the simple (and sometimes overly simple) use of fixed-effects multiple binary logistic regression has come to an end and the linguistics community is beginning to question certain assumptions and seeking to improve upon the status quo.
Instead of presenting results, this seminar is intended as a discussion forum, based on a series of questions. We will consider three relatively theoretical questions that have been discussed informally within the community for a few years. The questions concern: random effects; rare events; and the assumption of the categorical outcome. If time permits, we will move to three practical questions that currently face the community. These concern: diagnostics for ordinal logistic regression; the concordance statistic for predictive accuracy; and immediately possible advances in the field (exact regression, Bayesian probability, stochastic boosting, random forests, and non-parametric regression). 
The discussion will be in English or in French as appropriate.

Mathématiques: Mesrob Ohanessian (ERCIM postdoctoral fellow, Département de Mathématiques de l'Université Paris-Sud) – N-Grammes, Hapax et Probabilités Rares

Dans cet exposé, je vous donnerai un aperçu d'une des plus simples modélisations en linguistique informatique: les n-grammes. Ceux-ci sont une famille de dépendances Markoviennes, utilisée pour prédire la probabilité qu'un mot suive d'autres, ou bien pour donner un score à chaque phrase automatiquement reconnue de la parole ou traduite d'une autre langue. Je vous parlerai en particulier d'un problème courant dans cette modélisation: l'estimation des probabilités rares. L'abondance du phénomène des hapax legomenon, des mots dont on observe que quelques occurrences, peut poser des problèmes dans ce genre de traitement. Afin de compenser ces lacunes, les informaticiens et statisticiens ont crées des techniques dites d'"extrapolation" ou de "lissage", qui arrivent à estimer ce qu'on a rarement, voire ce qu'on n'a jamais, vu. On pourrait même utiliser ces méthodes pour donner une réponse à la question: en se basant sur ses œuvres, pourrions-nous dires combien de mots différents Molière connaissait? Je vous montrerai comment ces techniques sont particulièrement adaptées aux langues naturelles, en se basant sur le faite de la prépondérance des lois de puissance dans ce domaine.

Cordialement

Christophe Parisse
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20140122/c0485bdd/attachment.htm>