<html><body><a href="http://infoling.org" target="_blank"><img

src="http://infoling.org/img/infoling.png" alt="" width="255"

height="50" align="left" border="0" /></a>

<br /><br /><br />

<br /><font style="font-size:80%"><table border="0" bordercolor="#FFF"

width="520px"><tr><td width="130"><a style="text-decoration:none"

target="_blank" href="http://infoling.org/revista/" title="Ir a

Infoling Revista"><img  style="vertical-align:-30%;width:130px"

alt="Infoling Revista"

src="http://delicious.uab.es/infoling2/img/infolingIR.png"></a></td><td

width="100"><a style="text-decoration:none"

href="http://www.facebook.com/infoling" target="_blank"><img

border="0"  src="http://infoling.org/img/facebook-icon.png" alt="" 

style="vertical-align:-30%;height:16px;width:16px" /> Infoling en

Facebook</a></td><td width="180"><a style="text-decoration:none"

href="http://www.twitter.com/infoling" target="_blank"><img border="0"

src="http://infoling.org/img/t_small-b.png" alt=""

style="vertical-align:-30%;height:16px;width:16px" /> Infoling en

Twitter</a></td></tr></table></font>

<br />Moderador/a: Carlos Subirats (U. Autónoma Barcelona), Mar Cruz

(U. Barcelona)

<br />Editoras: Paloma Garrido (U. Rey Juan Carlos), Laura Romero (UB)

<br />Programación, desarrollo: Marc Ortega (UAB)

<br />Directoras/es de reseñas: Alexandra Álvarez (U. Los Andes,

Venezuela), Yvette Bürki (U. Bern, Suiza), María Luisa Calero (U.

Córdoba, España), Luis Cortés (U. Almería)

<br />Asesoras/es: Maite Taboada (Simon Fraser U., Canadá), Isabel

Verdaguer (UB), Gerd Wotjak (U. Leipzig, Alemania)

<br />Asesor legal: Daniel Birba

<br />Colaboradoras/es: Julia Bernd (Int'l Computer Science Institute,

EE.UU), Miroslava Cruz (U. Autónoma del Estado de Morelos, México),

Mercedes García de Quesada (U. Granada), Matthias Raab (UB), Antonio

Ríos (UAB)

<br />

<br />Con el patrocinio de:

<br /><table border="0" bordercolor="#FFFFFF"

width="200px"><tr><!--<td><a href="http://www.fundacioncomillas.es/"

target="_blank"><img

src="http://www.infoling.org/img/logo-comillas.png" alt="Fundación

Comillas" width="85" height="49" align="left" border="0"

/></a></td>--><td><a

href="http://www.arcomuralla.com/Arco/Shop/default.asp"

target="_blank"><img  style="border:0;margin-top:10px"

src="http://www.infoling.org/img/logoarco.jpg" alt="Arco Libros"

width="62" height="34" align="left" border="0"

/></a></td></tr></table><br /><hr /><font style="font-size:90%">

<br /><b>Infoling 6.53 (2014)</b><br />ISSN: 1576-3404 </font>

<br /><font style="font-size:90%">© Infoling 1996-2014. Reservados

todos los derechos</font>

<br />

<br /><hr /><b>Tesis doctoral: </b><br />Balbachan, Fernando. 2014.

Técnicas de clustering para inducción de categorías sintácticas en

español. Universidad de Buenos Aires (Argentina), Facultad de

Filosofía y Letras.<br /><b>Tesis completa en el Archivo de

Infoling:</b> <a href='http://www.infoling.org/repository/ID/126'

target='_blank'>http://www.infoling.org/repository/ID/126</a><br

/><b>Información de:</b> Fernando Balbachan

<fernando_balbachan@yahoo.com.ar><br />Compartir: <a

href="http://api.addthis.com/oexchange/0.8/forward/facebook/offer?url=http://www.infoling.org/informacion/T126.html&pubid=ra-4def7f4a7565a706"

target="_blank" rel="nofollow"><img border="0"

src="http://infoling.org/img/facebook-icon.png" alt="Send to Facebook"

title="Send to Facebook"

style="vertical-align:-30%;height:16px;width:16px"

/></a>   <a

href="http://api.addthis.com/oexchange/0.8/forward/twitter/offer?url=http://www.infoling.org/informacion/T126.html&template=@infoling%20Balbachan,%20F.%20Técnicas%20de%20clustering%20para%20inducción%20de%20categorías%20sintácticas%20en%20español%20{{url}}&pubid=ra-4def7f4a7565a706&shortener=bitly&bitly.login=infoling&bitly.apiKey=R_60e1d6b1cb688030e7759b835f63d0c0"

target="_blank" rel="nofollow"><img border="0"

src="http://infoling.org/img/t_small-b.png" alt="Tweet this"

title="Tweet this" style="vertical-align:-30%;height:16px;width:16px"

/></a><hr /><p><a

href="http://infoling.org/english/search/tesis/ID/126"

target="_blank">View with English headings</a></p><hr /><br

/><b>Director/a de tesis: </b>Zulema Solana <br /><b>Codirector/a:

</b>Carlos Reynoso <br /><br /><b>Descripción</b><br /><p>De:

Fernando Balbachan . 2014. <i>Técnicas de Clustering para Inducción 

de Categorías Sintácticas en Español</i>. Tesis de doctorado,

Universidad de Buenos Aires, págs. 10-12:<br />  <br />"La siguiente

tesis de doctorado se propone como un aporte original al campo de la

lingüística computacional, específicamente en la tarea de

inducción de gramáticas formales (grammar inference) a partir de

datos lingüísticos primarios no estructurados. Específicamente, se

ofrecerá una modelización plausible al problema de la

categorización temprana de palabras durante el proceso de

adquisición del lenguaje para el idioma español. Si bien la

particularización del modelo sobre un lenguaje puntual resulta

fundamental cuando se trabaja en modelización  formal estadística,

de modo de recrear algorítmicamente las mismas condiciones de

posibilidad de inducción de fenómenos sintácticos en comparación

con aquellas de que disponen los adquirientes de un lenguaje natural,

se espera que el enfoque resulte aplicable a cualquier idioma en

virtud de las premisas generales de la hipótesis. En este sentido,

debido a la naturaleza transdisciplinaria del enfoque, la tesis releva

diversos trabajos con afiliaciones científicas que oscilan entre la

psicolingüística, la lingüística formal y la lingüística

computacional, en pos de compatibilizar la modelización postulada con

la plausibilidad empírica.<br /><br /> La hipótesis central de la

        tesis es, en alguna medida, un argumento indirecto contra el

Argumento de la Probreza de los Estímulos (Argument from the Poverty

of the Stimulus APS) en cuanto a que los Datos Lingüísticos

Primarios (Primary Linguistic Data PLD) presentarían cierta riqueza

factible de ser explotada mediante un mecanismo de aprendizaje general

(no específico de dominio), tornando innecasaria la postulación de

una Gramática Universal (GU) como requisito para la adquisición del

lenguaje. A la luz de este argumento central, la categorización de

palabras se presenta como un proceso crucial para la adquisición de

una sintaxis rudimentaria. En efecto, esta habilidad temprana es el

punto de partida para la construcción de una gramática por parte de

los adquirientes de un lenguaje.        <br /><br />La tesis se organiza en

nueve capítulos, comenzando por la inserción del proyecto en un

paradigma científico específico de investigación lingüística: el

paradigma estadístico de la lingüística computacional. <br /><br

/>El primer capítulo describe entonces los principios

epistemológicos de los paradigmas de investigación en lingüística

computacional y los distintos enfoques sobre el problema de la

adquisición del lenguaje que derivan de la adscripción a cada uno de

ellos. En este capítulo inicial también se presenta el debate en

torno al Argumento de la Pobreza de los Estímulos, que se configura

como nudo gordiano de la discusión sempiterna entre el innatismo y el

empirismo.      <br /><br />El capítulo 2 presenta la hipótesis central 

y la metodología de este trabajo como un aporte a la comprobación

empírica de la riqueza estructural de los Datos Lingüísticos

Primarios para la adquisición del lenguaje mediante mecanismos

generales de aprendizaje no supervisado. En particular, esta tesis se

centra sobre la etapa temprana de categorización de palabras como

punto de partida para la inducción de sintaxis. El capítulo también

incluye una diferenciación operativa entre las palabras funcionales y

las palabras de contenido. La distinción entre palabras funcionales y

palabras de contenido resulta de vital importancia para esta tesis, ya

que veremos que la evidencia empírica y la modelización estadística

contemplan diferencias muy notables     para cada una de estas clases de

palabras en el proceso ontogenético de adquisición del lenguaje.

        <br /><br />El capítulo 3 pasa revista a los modelos formales con

motivación psicolingüística que se propusieron para dar cuenta

específicamente de la categorización temprana de palabras (Mintz

2002, 2003; Christophe et al. 2008). En particular, notaremos cómo

estas propuestas adolecen de contradicciones empíricas o teóricas

para abarcar el fenómeno.      <br /><br />El capítulo 4 explica en

detalle la definición de las técnicas estadísticas de clustering

como mecanismo de aprendizaje general no supervisado. Se pasa revista

a los distintos algoritmos (clustering jerárquico y no jerárquico),

como así también a diversas métricas específicas de la evaluación

de la robustez de los clusters. <br /><br />El capítulo 5 se explaya

sobre el estado de la cuestión en torno a las técnicas de clustering

para la tarea específica de inducción de categorías sintácticas,

ya en el campo del paradigma estadístico de la lingüística

computacional. Entre esos trabajos debemos destacar en particular los

de Redington et al. (1998) y Clark (2002), cuyos lineamientos

generales estaremos siguiendo en el diseño de nuestros propios

experimentos. <br /><br />El capítulo 6 analiza en detalle la tesis

de doctorado de Wang (2012), un trabajo muy reciente que reproduce, en

gran medida, el enfoque transdisciplinario con el que trabajaremos en

nuestros experimentos: modelización formal estadística y adecuación

explicativa ante la evidencia empírica psicolingüística. Wang

(2012) trabaja específicamente con la modelización de la tarea de

categorización de palabras funcionales en inglés y en alemán, con

premisas de modelización que toman en cuenta la evidencia

ontogenética de la adquisición del lenguaje. La tesis de doctorado

de Wang (2012) es uno de los pocos trabajos en ofrecer una

explicación plausible de la categorización temprana de palabras

funcionales, no sólo de la de palabras de contenidos. <br /><br />El

capítulo 7 presenta nuestro propio experimento de categorización de

palabras de contenido en español, bajo la premisa del pre-requisito

de identificación de palabras funcionales sin tipología

diferenciada. El experimento propone, además, algunas modificaciones

metodológicas a los trabajos clásicos en técnicas de clustering. Se

incluye una exhaustiva evaluación de los datos de salida del

experimento. <br /><br />El capítulo 8 describe otro experimento de

inducción de fenómenos sintácticos, conectado con el anterior.

Básicamente, se sostiene la plausibilidad algorítmica de aprovechar

la información de salida del experimento del capítulo 7 como punto

de partida para la construcción de una sintaxis rudimentaria,

mediante la inducción de constituyentes sintácticos a partir de la

        etiquetación morfosintáctica de palabras.     <br /><br />El capítulo

9 retoma el debate en torno al Argumento de la Pobreza de los

Estímulos, pero, en esta ocasión, con énfasis en los mecanismos

cognitivos que plausiblemente actuarían durante el proceso de

adquisición del lenguaje. Se ofrece un exhaustivo relevamiento de las

posiciones      tradicionales en torno al problema y una relectura de las

mismas a la luz de los resultados del   experimento central de esta

tesis. Este capítulo final también apunta algunas conclusiones

        generales y traza las líneas de investigación a futuro.       <br /><br

/>En la parte final de la tesis se adjuntan varios anexos con datos de

salida de los dos experimentos propuestos en esta tesis y herramientas

de facilitación de la lectura: listado de siglas e índice

alfabético de conceptos."</p><br /><b>Área temática:</b>

Adquisición del español como lengua primera (L1), Lingüística

cognitiva, Lingüística computacional, Psicolingüística<br /><br

/><b>Índice</b><br /><p>Agradecimientos     <br />Organización de la

tesis   <br />Resumen<br /> <br />Capítulo 1. El debate epistemológico

en torno a un problema recurrente       <br />1.1 Paradigmas de

investigación en linguística  <br />1.2 El problema de la

adquisición del lenguaje       <br />1.3 La pobreza de los estímulos y la

riqueza de lo innato    <br />1.4 El Teorema de Gold revisitado   <br /><br

/>Capítulo 2. La modelización de sintaxis como procesos en

cascada <br />2.1 Inducción de gramáticas y categorización de

palabras como punto de partida  <br />2.2 Hipótesis: palabras

funcionales como facilitadoras de la categorización y de la

adquisición de sintaxis        <br />2.3 Palabras funcionales vs. palabras

de contenido: una distinción operativa <br /><br />Capítulo 3.

Estado de la cuestión en categorización: modelos formales con

motivación psicolingüística  <br />3.1 La naturaleza de los indicios

facilitadores   <br />3.2 Necesidad o no de facilitadores para la

categorización en un lenguaje artificial (Mintz 2002)  <br />3.3 La

propuesta de los marcos frecuentes (Mintz 2003; Chemla et al.

2009)   <br />3.4 Facilitación mediante frases fonológicas y tipos de

palabras funcionales: teoría de los “protoconstituyentes”

(Christophe et al. 2008)        <br /><br />Capítulo 4. Técnicas de

clustering como mecanismo de aprendizaje general no supervisado <br

/>4.1 Representación de objetos en el espacio vectorial

multidimensional        <br />4.2 Clustering jerárquico o aglomerativo   <br

/>4.3 Clustering no jerárquico o partitivo  <br />4.4 Consideraciones

acerca de la pertinencia de las técnicas de clustering para la

categorización de palabras     <br /><br />Capítulo 5. Estado de la

cuestión en categorización: modelos formales basados en

clustering      <br />5.1 Dos décadas de inducción no supervisada de

categorías de palabras mediante clustering     <br />5.2 Brown et al.

(1992)  <br />5.3 Schütze (1993) <br />5.4 Redington et al. (1998) <br

/>5.4.0 Experimento 0 (inicial): Parámetros por default     <br />5.4.1

Experimento 1: Diferentes contextos y diferentes coeficientes de

corte   <br />5.4.2 Experimento 2: Variación en el número de palabras

target  <br />5.4.3 Experimento 3: Discrimanción de resultados del

experimento inicial 0 según POS-tag    <br />5.4.4 Experimento 4:

Variación del tamaño del corpus       <br />5.4.5 Experimento 5: Agregado

de información de límite de oraciones en el corpus    <br />5.4.6

Experimento 6: Cambio en el criterio de similitud entre clusters        <br

/>5.4.7 Experimento 7: Remoción de las palabras funcionales del

corpus  <br />5.4.8 Experimento 8: Cambios en la naturaleza del

corpus  <br />5.4.9 Valoración general del trabajo de Redington et al.

(1998)  <br />5.5 Martin et al. (1998)    <br />5.6 Clark (2000, 2002,

2003)   <br />5.7 Investigaciones actuales a partir de los trabajos

fundacionales   <br /><br />Capítulo 6. Una propuesta conciliatoria

entre la psicolingüística y la lingüística computacional (Wang

2012)   <br />6.1 Categorización temprana de palabras funcionales        <br

/>6.2 Omisión sistemática de categorías funcionales en el

“discurso telegráfico” de los niños       <br />6.3 Experimento 1 de

Wang (2012): clustering jerárquico sobre categorías funcionales       <br

/>6.4 Experimento 2 de Wang (2012): marcos frecuentes para categorías

funcionales     <br />6.5 Evaluación general de Wang (2012)      <br /><br

/>Capítulo 7. Nuestro experimento: Inducción no supervisada de

categorías morfosintácticas mediante clustering a partir de palabras

funcionales sin tipología diferenciada <br />7.1 Motivación de las

decisiones de diseño   <br />7.2 Corpus de PLD   <br />7.3 Primera etapa

del algoritmo: Identificación de cues  <br />7.3.1 Intuición

distribucional acerca de las palabras funcionales vs. palabras de

contenido       <br />7.3.2 Ley de Zipf   <br />7.3.3 Perfil de Frecuencia

Decreciente (Dreceasing Frequency Profile DFP)  <br />7.3.4 Punto de

corte entre palabras funcionales y palabras de contenido en el DFP      <br

/>7.4 Segunda etapa del algoritmo: Reducción de dimensionalidad     <br

/>7.5 Tercera etapa del algoritmo: Construcción del espacio

vectorial       <br />7.6 Cuarta etapa del algoritmo: Clustering K-means

iterativo       <br />7.7 Resultados      <br />7.8 Corpus de referencia para

etiquetamiento automático de POS-tag   <br />7.9 Métricas de

evaluación de un ciclo de clustering   <br />7.9.1 ¿Métricas propias

de la distribución o propias de un modelo HMM a partir de la

distribución?  <br />7.9.2 Mapeo 1-to-1: El problema del gold

standard        <br />7.9.3 La medida justa: mapeo many-to-1 e

hiperclusters   <br />7.9.4 Otras métricas: Variación de la

información    <br />7.9.5 Otras métricas: Medida F de sustitución     <br

/>7.10 Evaluación iterativa de todos los ciclos de clustering con la

métrica many-to-1      <br />7.11 Discusión de los resultados y

conclusiones    <br />7.11.1 Consideraciones cuantitativas y

cualitativas    <br />7.11.2 Comparación con el baseline <br />7.11.3

Comparación con los trabajos clásicos y con el estado del arte        <br

/>7.11.4 Plausibilidad psicolingüística de la modelización        <br

/>7.12 Trabajo a futuro para el experimento de categorización       <br

/><br />Capítulo 8. Continuación del experimento de categorización

hacia una sintaxis rudimentaria: inducción de constituyentes

sintácticos    <br />8.1 El estado actual de la cuestión en inducción

de gramáticas formales (grammar inference)     <br />8.2 Diseño de

corpus propio para inducción de constituyentes <br />8.3 Algoritmo de

inducción de constituyentes sintácticos en Clark (2002)       <br />8.3.1

Descripción general    <br />8.3.2 Acerca de la naturaleza de un

constituyente   <br />8.4 Paso 1: perfil de frecuencias decrecientes de

secuencias candidatas a constituyentes  <br />8.5 Paso 2: Clustering de

secuencias candidatas a constituyentes  <br />8.6 Paso 3: Criterio de

filtrado por información mutua entre etiquetas adyacentes a las

secuencias candidatas a constituyentes  <br />8.7 Modificaciones al

experimento original de inducción de constituyentes<br />8.8

Evaluación de los resultados de inducción de constituyentes   <br

/>8.9 Discusión de los resultados del experimento de inducción de

constituyentes  <br /><br />Capítulo 9. Conclusiones  generales    <br

/>9.1 Una nueva visita al APS: Mecanismos cognitivos de aprendizaje

por inducción  <br />9.2 Una reflexión final    <br /><br />Referencias

bibliográficas <br />Listado de abreviaturas y siglas    <br />Índice

alfabético de conceptos        <br /><br />Anexo I Clustering de secuencias

candidatas a constituyentes (capítulo 8)       <br />Anexo II Muestra de

salida final del experimento con constituyentes: filtrado por MI

(capítulo 8)   <br />Anexo III Muestra de constituyentes inducidos

sobre algunas oraciones de prueba (capítulo 8)</p><br /><b>Fecha de

lectura o defensa:</b> 23 de julio de 2014<br /><br /><b>Número de

págs.:</b> 182<br /><br /><b>Correo-e del autor/a:</b>

<fernando_balbachan@yahoo.com.ar><br /><br /><b>Información en

la web de Infoling:</b><br /> <a

href="http://www.infoling.org/informacion/T126.html" target="_blank">

http://www.infoling.org/informacion/T126.html</a></body></html>