<html><body><a href="http://infoling.org" target="_blank"><img
src="http://infoling.org/img/infoling.png" alt="" width="255"
height="50" align="left" border="0" /></a>
<br /><br /><br />
<br /><font style="font-size:80%"><table border="0" bordercolor="#FFF"
width="520px"><tr><td width="130"><a style="text-decoration:none"
target="_blank" href="http://infoling.org/revista/" title="Ir a
Infoling Revista"><img style="vertical-align:-30%;width:130px"
alt="Infoling Revista"
src="http://delicious.uab.es/infoling2/img/infolingIR.png"></a></td><td
width="100"><a style="text-decoration:none"
href="http://www.facebook.com/infoling" target="_blank"><img
border="0" src="http://infoling.org/img/facebook-icon.png" alt=""
style="vertical-align:-30%;height:16px;width:16px" /> Infoling en
Facebook</a></td><td width="180"><a style="text-decoration:none"
href="http://www.twitter.com/infoling" target="_blank"><img border="0"
src="http://infoling.org/img/t_small-b.png" alt=""
style="vertical-align:-30%;height:16px;width:16px" /> Infoling en
Twitter</a></td></tr></table></font>
<br />Moderador/a: Carlos Subirats (U. Autónoma Barcelona), Mar Cruz
(U. Barcelona)
<br />Editoras: Paloma Garrido (U. Rey Juan Carlos), Laura Romero (UB)
<br />Programación, desarrollo: Marc Ortega (UAB)
<br />Directoras/es de reseñas: Alexandra Ãlvarez (U. Los Andes,
Venezuela), Yvette Bürki (U. Bern, Suiza), MarÃa Luisa Calero (U.
Córdoba, España), Luis Cortés (U. AlmerÃa)
<br />Asesoras/es: Maite Taboada (Simon Fraser U., Canadá), Isabel
Verdaguer (UB), Gerd Wotjak (U. Leipzig, Alemania)
<br />Asesor legal: Daniel Birba
<br />Colaboradoras/es: Julia Bernd (Int'l Computer Science Institute,
EE.UU), Miroslava Cruz (U. Autónoma del Estado de Morelos, México),
Matthias Raab (UB), Antonio RÃos (UAB)
<br />
<br />Con el patrocinio de:
<br /><table border="0" bordercolor="#FFFFFF"
width="200px"><tr><!--<td><a href="http://www.fundacioncomillas.es/"
target="_blank"><img
src="http://www.infoling.org/img/logo-comillas.png" alt="Fundación
Comillas" width="85" height="49" align="left" border="0"
/></a></td>--><td><a
href="http://www.arcomuralla.com/Arco/Shop/default.asp"
target="_blank"><img style="border:0;margin-top:10px"
src="http://www.infoling.org/img/logoarco.jpg" alt="Arco Libros"
width="62" height="34" align="left" border="0"
/></a></td></tr></table><br /><hr /><font style="font-size:90%">
<br /><b>Infoling 6.53 (2014)</b><br />ISSN: 1576-3404 </font>
<br /><font style="font-size:90%">© Infoling 1996-2012. Reservados
todos los derechos</font>
<br />
<br /><hr /><b>Tesis doctoral: </b><br />Balbachan, Fernando. 2014.
Técnicas de clustering para inducción de categorÃas sintácticas en
español. Universidad de Buenos Aires (Argentina), Facultad de
FilosofÃa y Letras.<br /><b>Tesis completa en el Archivo de
Infoling:</b> <a href='http://www.infoling.org/repository/ID/126'
target='_blank'>http://www.infoling.org/repository/ID/126</a><br
/><b>Información de:</b> Fernando Balbachan
<fernando_balbachan@yahoo.com.ar><br />Compartir: <a
href="http://api.addthis.com/oexchange/0.8/forward/facebook/offer?url=http://www.infoling.org/informacion/T126.html&pubid=ra-4def7f4a7565a706"
target="_blank" rel="nofollow"><img border="0"
src="http://infoling.org/img/facebook-icon.png" alt="Send to Facebook"
title="Send to Facebook"
style="vertical-align:-30%;height:16px;width:16px"
/></a> <a
href="http://api.addthis.com/oexchange/0.8/forward/twitter/offer?url=http://www.infoling.org/informacion/T126.html&template=@infoling%20Balbachan,%20F.%20Técnicas%20de%20clustering%20para%20inducción%20de%20categorÃas%20sintácticas%20en%20español%20{{url}}&pubid=ra-4def7f4a7565a706&shortener=bitly&bitly.login=infoling&bitly.apiKey=R_60e1d6b1cb688030e7759b835f63d0c0"
target="_blank" rel="nofollow"><img border="0"
src="http://infoling.org/img/t_small-b.png" alt="Tweet this"
title="Tweet this" style="vertical-align:-30%;height:16px;width:16px"
/></a><hr /><p><a
href="http://infoling.org/english/search/tesis/ID/126"
target="_blank">View with English headings</a></p><hr /><br
/><b>Director/a de tesis: </b>Zulema Solana <br /><b>Codirector/a:
</b>Carlos Reynoso <br /><br /><b>Descripción</b><br /><p>De:
Fernando Balbachan . 2014. <i>Técnicas de Clustering para Inducción
de CategorÃas Sintácticas en Español</i>. Tesis de doctorado,
Universidad de Buenos Aires, págs. 10-12:<br /> <br />"La siguiente
tesis de doctorado se propone como un aporte original al campo de la
lingüÃstica computacional, especÃficamente en la tarea de
inducción de gramáticas formales (grammar inference) a partir de
datos lingüÃsticos primarios no estructurados. EspecÃficamente, se
ofrecerá una modelización plausible al problema de la
categorización temprana de palabras durante el proceso de
adquisición del lenguaje para el idioma español. Si bien la
particularización del modelo sobre un lenguaje puntual resulta
fundamental cuando se trabaja en modelización formal estadÃstica,
de modo de recrear algorÃtmicamente las mismas condiciones de
posibilidad de inducción de fenómenos sintácticos en comparación
con aquellas de que disponen los adquirientes de un lenguaje natural,
se espera que el enfoque resulte aplicable a cualquier idioma en
virtud de las premisas generales de la hipótesis. En este sentido,
debido a la naturaleza transdisciplinaria del enfoque, la tesis releva
diversos trabajos con afiliaciones cientÃficas que oscilan entre la
psicolingüÃstica, la lingüÃstica formal y la lingüÃstica
computacional, en pos de compatibilizar la modelización postulada con
la plausibilidad empÃrica.<br /><br /> La hipótesis central de la
tesis es, en alguna medida, un argumento indirecto contra el
Argumento de la Probreza de los EstÃmulos (Argument from the Poverty
of the Stimulus APS) en cuanto a que los Datos LingüÃsticos
Primarios (Primary Linguistic Data PLD) presentarÃan cierta riqueza
factible de ser explotada mediante un mecanismo de aprendizaje general
(no especÃfico de dominio), tornando innecasaria la postulación de
una Gramática Universal (GU) como requisito para la adquisición del
lenguaje. A la luz de este argumento central, la categorización de
palabras se presenta como <br />un proceso crucial para la
adquisición de una sintaxis rudimentaria. En efecto, esta habilidad
temprana es el punto de partida para la construcción de una
gramática por parte de los adquirientes de un lenguaje. <br /><br
/>La tesis se organiza en nueve capÃtulos, comenzando por la
inserción del proyecto en un paradigma cientÃfico especÃfico de
investigación lingüÃstica: el paradigma estadÃstico de la
lingüÃstica computacional. <br /><br />El primer capÃtulo describe
entonces los principios epistemológicos de los paradigmas de
investigación en lingüÃstica computacional y los distintos enfoques
sobre el problema de la adquisición del lenguaje que derivan de la
adscripción a cada uno de ellos. En este capÃtulo inicial también
se presenta el debate en torno al Argumento de la Pobreza de los
EstÃmulos, que se configura como nudo gordiano de la discusión
sempiterna entre el innatismo y el empirismo. <br /><br />El
capÃtulo 2 presenta la hipótesis central y la metodologÃa de este
trabajo como un aporte a la comprobación empÃrica de la riqueza
estructural de los Datos LingüÃsticos Primarios para la adquisición
del lenguaje mediante mecanismos generales de aprendizaje no
supervisado. En particular, esta tesis se centra sobre la etapa
temprana de categorización de palabras como punto de partida para la
inducción de sintaxis. El capÃtulo también incluye una
diferenciación operativa entre las palabras funcionales y las
palabras de contenido. La distinción entre palabras funcionales y
palabras de contenido resulta de vital importancia para esta tesis, ya
que veremos que la evidencia empÃrica y la modelización estadÃstica
contemplan diferencias muy notables para cada una de estas clases de
palabras en el proceso ontogenético de adquisición del lenguaje.
<br /><br />El capÃtulo 3 pasa revista a los modelos formales con
motivación psicolingüÃstica que se propusieron para dar cuenta
especÃficamente de la categorización temprana de palabras (Mintz
2002, 2003; Christophe et al. 2008). En particular, notaremos cómo
estas propuestas adolecen de <br />contradicciones empÃricas o
teóricas para abarcar el fenómeno. <br /><br />El capÃtulo 4
explica en detalle la definición de las técnicas estadÃsticas de
clustering como mecanismo de aprendizaje general no supervisado. Se
pasa revista a los distintos algoritmos (clustering jerárquico y no
jerárquico), como asà también a diversas métricas especÃficas de
la evaluación de la robustez de los clusters. <br /><br />El
capÃtulo 5 se explaya sobre el estado de la cuestión en torno a las
técnicas de clustering para la tarea especÃfica de inducción de
categorÃas sintácticas, ya en el campo del paradigma estadÃstico de
la lingüÃstica computacional. Entre esos trabajos debemos destacar
en particular <br />los de Redington et al. (1998) y Clark (2002),
cuyos lineamientos generales estaremos siguiendo en el diseño de
nuestros propios experimentos. <br /><br />El capÃtulo 6 analiza en
detalle la tesis de doctorado de Wang (2012), un trabajo muy reciente
que reproduce, en gran medida, el enfoque transdisciplinario con el
que trabajaremos en nuestros experimentos: modelización formal
estadÃstica y adecuación explicativa ante la evidencia empÃrica
psicolingüÃstica. Wang (2012) trabaja especÃficamente con la
modelización de la tarea de categorización de palabras funcionales
en inglés y en alemán, con premisas de modelización que toman en
cuenta la evidencia ontogenética de la adquisición del lenguaje. La
tesis de doctorado de Wang (2012) es uno de los pocos trabajos en
ofrecer una explicación plausible de la categorización temprana de
palabras funcionales, no sólo de la de palabras de contenidos. <br
/><br />El capÃtulo 7 presenta nuestro propio experimento de
categorización de palabras de contenido en español, bajo la premisa
del pre-requisito de identificación de palabras funcionales sin
tipologÃa diferenciada. El experimento propone, además, algunas
modificaciones metodológicas a los trabajos clásicos en técnicas de
clustering. Se incluye una exhaustiva evaluación de los datos de
salida del experimento. <br /><br />El capÃtulo 8 describe otro
experimento de inducción de fenómenos sintácticos, conectado con el
anterior. Básicamente, se sostiene la plausibilidad algorÃtmica de
aprovechar la información de salida del experimento del capÃtulo 7
como punto de partida para la construcción de una sintaxis
rudimentaria, mediante la inducción de constituyentes sintácticos a
partir de la etiquetación morfosintáctica de palabras. <br /><br
/>El capÃtulo 9 retoma el debate en torno al Argumento de la Pobreza
de los EstÃmulos, pero, en esta ocasión, con énfasis en los
mecanismos cognitivos que plausiblemente actuarÃan durante el proceso
de adquisición del lenguaje. Se ofrece un exhaustivo relevamiento de
las posiciones tradicionales en torno al problema y una relectura de
las mismas a la luz de los resultados del experimento central de esta
tesis. Este capÃtulo final también apunta algunas conclusiones
generales y traza las lÃneas de investigación a futuro. <br /><br
/>En la parte final de la tesis se adjuntan varios anexos con datos de
salida de los dos experimentos propuestos en esta tesis y herramientas
de facilitación de la lectura: listado de siglas e Ãndice
alfabético de conceptos.</p><br /><b>Ãrea temática:</b>
Adquisición del español como lengua primera (L1), LingüÃstica
cognitiva, LingüÃstica computacional, PsicolingüÃstica<br /><br
/><b>Ãndice</b><br /><p>Agradecimientos <br />Organización de la
tesis <br />Resumen<br /> <br />CapÃtulo 1. El debate epistemológico
en torno a un problema recurrente <br />1.1 Paradigmas de
investigación en linguÃstica <br />1.2 El problema de la
adquisición del lenguaje <br />1.3 La pobreza de los estÃmulos y la
riqueza de lo innato <br />1.4 El Teorema de Gold revisitado <br /><br
/>CapÃtulo 2. La modelización de sintaxis como procesos en
cascada <br />2.1 Inducción de gramáticas y categorización de
palabras como punto de partida <br />2.2 Hipótesis: palabras
funcionales como facilitadoras de la categorización y de la
adquisición de sintaxis <br />2.3 Palabras funcionales vs. palabras
de contenido: una distinción operativa <br /><br />CapÃtulo 3.
Estado de la cuestión en categorización: modelos formales con
motivación psicolingüÃstica <br />3.1 La naturaleza de los indicios
facilitadores <br />3.2 Necesidad o no de facilitadores para la
categorización en un lenguaje artificial (Mintz 2002) <br />3.3 La
propuesta de los marcos frecuentes (Mintz 2003; Chemla et al.
2009) <br />3.4 Facilitación mediante frases fonológicas y tipos de
palabras funcionales: teorÃa de los “protoconstituyentesâ€
(Christophe et al. 2008) <br /><br />CapÃtulo 4. Técnicas de
clustering como mecanismo de aprendizaje general no supervisado <br
/>4.1 Representación de objetos en el espacio vectorial
multidimensional <br />4.2 Clustering jerárquico o aglomerativo <br
/>4.3 Clustering no jerárquico o partitivo <br />4.4 Consideraciones
acerca de la pertinencia de las técnicas de clustering para la
categorización de palabras <br /><br />CapÃtulo 5. Estado de la
cuestión en categorización: modelos formales basados en
clustering <br />5.1 Dos décadas de inducción no supervisada de
categorÃas de palabras mediante clustering <br />5.2 Brown et al.
(1992) <br />5.3 Schütze (1993) <br />5.4 Redington et al. (1998) <br
/>5.4.0 Experimento 0 (inicial): Parámetros por default <br />5.4.1
Experimento 1: Diferentes contextos y diferentes coeficientes de
corte <br />5.4.2 Experimento 2: Variación en el número de palabras
target <br />5.4.3 Experimento 3: Discrimanción de resultados del
experimento inicial 0 según POS-tag <br />5.4.4 Experimento 4:
Variación del tamaño del corpus <br />5.4.5 Experimento 5: Agregado
de información de lÃmite de oraciones en el corpus <br />5.4.6
Experimento 6: Cambio en el criterio de similitud entre clusters <br
/>5.4.7 Experimento 7: Remoción de las palabras funcionales del
corpus <br />5.4.8 Experimento 8: Cambios en la naturaleza del
corpus <br />5.4.9 Valoración general del trabajo de Redington et al.
(1998) <br />5.5 Martin et al. (1998) <br />5.6 Clark (2000, 2002,
2003) <br />5.7 Investigaciones actuales a partir de los trabajos
fundacionales <br /><br />CapÃtulo 6. Una propuesta conciliatoria
entre la psicolingüÃstica y la lingüÃstica computacional (Wang
2012) <br />6.1 Categorización temprana de palabras funcionales <br
/>6.2 Omisión sistemática de categorÃas funcionales en el
“discurso telegráfico†de los niños <br />6.3 Experimento 1 de
Wang (2012): clustering jerárquico sobre categorÃas funcionales <br
/>6.4 Experimento 2 de Wang (2012): marcos frecuentes para categorÃas
funcionales <br />6.5 Evaluación general de Wang (2012) <br /><br
/>CapÃtulo 7. Nuestro experimento: Inducción no supervisada de
categorÃas morfosintácticas mediante clustering a partir de palabras
funcionales sin tipologÃa diferenciada <br />7.1 Motivación de las
decisiones de diseño <br />7.2 Corpus de PLD <br />7.3 Primera etapa
del algoritmo: Identificación de cues <br />7.3.1 Intuición
distribucional acerca de las palabras funcionales vs. palabras de
contenido <br />7.3.2 Ley de Zipf <br />7.3.3 Perfil de Frecuencia
Decreciente (Dreceasing Frequency Profile DFP) <br />7.3.4 Punto de
corte entre palabras funcionales y palabras de contenido en el DFP <br
/>7.4 Segunda etapa del algoritmo: Reducción de dimensionalidad <br
/>7.5 Tercera etapa del algoritmo: Construcción del espacio
vectorial <br />7.6 Cuarta etapa del algoritmo: Clustering K-means
iterativo <br />7.7 Resultados <br />7.8 Corpus de referencia para
etiquetamiento automático de POS-tag <br />7.9 Métricas de
evaluación de un ciclo de clustering <br />7.9.1 ¿Métricas propias
de la distribución o propias de un modelo HMM a partir de la
distribución? <br />7.9.2 Mapeo 1-to-1: El problema del gold
standard <br />7.9.3 La medida justa: mapeo many-to-1 e
hiperclusters <br />7.9.4 Otras métricas: Variación de la
información <br />7.9.5 Otras métricas: Medida F de sustitución <br
/>7.10 Evaluación iterativa de todos los ciclos de clustering con la
métrica many-to-1 <br />7.11 Discusión de los resultados y
conclusiones <br />7.11.1 Consideraciones cuantitativas y
cualitativas <br />7.11.2 Comparación con el baseline <br />7.11.3
Comparación con los trabajos clásicos y con el estado del arte <br
/>7.11.4 Plausibilidad psicolingüÃstica de la modelización <br
/>7.12 Trabajo a futuro para el experimento de categorización <br
/><br />CapÃtulo 8. Continuación del experimento de categorización
hacia una sintaxis rudimentaria: inducción de constituyentes
sintácticos <br />8.1 El estado actual de la cuestión en inducción
de gramáticas formales (grammar inference) <br />8.2 Diseño de
corpus propio para inducción de constituyentes <br />8.3 Algoritmo de
inducción de constituyentes sintácticos en Clark (2002) <br />8.3.1
Descripción general <br />8.3.2 Acerca de la naturaleza de un
constituyente <br />8.4 Paso 1: perfil de frecuencias decrecientes de
secuencias candidatas a constituyentes <br />8.5 Paso 2: Clustering de
secuencias candidatas a constituyentes <br />8.6 Paso 3: Criterio de
filtrado por información mutua entre etiquetas adyacentes a las
secuencias candidatas a constituyentes <br />8.7 Modificaciones al
experimento original de inducción de constituyentes<br />8.8
Evaluación de los resultados de inducción de constituyentes <br
/>8.9 Discusión de los resultados del experimento de inducción de
constituyentes <br /><br />CapÃtulo 9. Conclusiones generales <br
/>9.1 Una nueva visita al APS: Mecanismos cognitivos de aprendizaje
por inducción <br />9.2 Una reflexión final <br /><br />Referencias
bibliográficas <br />Listado de abreviaturas y siglas <br />Ãndice
alfabético de conceptos <br /><br />Anexo I Clustering de secuencias
candidatas a constituyentes (capÃtulo 8) <br />Anexo II Muestra de
salida final del experimento con constituyentes: filtrado por MI
(capÃtulo 8) <br />Anexo III Muestra de constituyentes inducidos
sobre algunas oraciones de prueba (capÃtulo 8)</p><br /><b>Fecha de
lectura o defensa:</b> 31 de julio de 2014<br /><br /><b>Número de
págs.:</b> 182<br /><br /><b>Correo-e del autor/a:</b>
<fernando_balbachan@yahoo.com.ar><br /><br /><b>Información en
la web de Infoling:</b><br /> <a
href="http://www.infoling.org/informacion/T126.html" target="_blank">
http://www.infoling.org/informacion/T126.html</a></body></html>