Evaluación y mejora de la escritura académica en estudiantes universitarios: análisis del corpus CATUC y sus implicaciones pedagógicas

Escribir un texto en un contexto académico implica que los escritores-estudiantes sean capaces de movilizar sus recursos cognitivos para buscar y gestionar una bibliografía sobre el tema, sintetizar, adquirir conocimientos, reformular ideas y generar nuevas ideas; tanto respetando la autoría como incorporando los conocimientos adquiridos al estado del arte de manera adecuada (Boillos, 2020; Prior & Bilbro, 2012; Lea & Street, 2006). En este contexto, adquirir las habilidades necesarias para gestionar diversas interacciones escritas es un desafío crítico. Esto se vuelve aún más importante si se considera que el rendimiento académico puede depender no solo del dominio del contenido sino también de la capacidad de los estudiantes para expresar sus ideas por escrito (Carlino, 2003). Este trabajo busca superar estas barreras mediante la creación del Corpus Académico de Textos Universitarios en Castellano (CATUC) (Boillos et al., 2024), enfocado en textos académicos en español sobre educación, y mediante la identificación de métricas lingüísticas que permitan evaluar y proporcionar retroalimentación más precisa a los estudiantes. Este corpus está compuesto por las actas de congreso escritas por 270 estudiantes en el marco de la asignatura Desarrollo de la Competencia Comunicativa de la Facultad de Educación de la Universidad del País Vasco (UPV/EHU), entre 2020 y 2024. Para el análisis, se emplearon dos herramientas clave: CTAP (Common Text Analysis Platform) (Chen and Meurers, 2016) y WEKA (Hall et al., 2009). CTAP permitió extraer métricas lingüísticas avanzadas, como riqueza léxica, densidad verbal y complejidad sintáctica, mientras que WEKA se utilizó para identificar las métricas más relevantes en la predicción de calificaciones, tanto nominales (A, B, C, D) como numéricas. El procedimiento incluyó validación cruzada en 10 iteraciones, comparando modelos que consideraban todos los atributos lingüísticos con otros que utilizaban únicamente los 10 más significativos. Los resultados revelaron que los modelos basados en los 10 atributos más significativos demostraron una eficacia superior. En el caso de las calificaciones nominales, el subcorpus correspondiente a las introducciones alcanzó el mejor desempeño, logrando un 56.88% de predicciones correctas. Por su parte, para las calificaciones numéricas, el coeficiente de correlación más alto (0.3792) se obtuvo utilizando el subcorpus de textos completos. Adicionalmente, en el proceso de identificación de los 10 atributos más relevantes, la herramienta WEKA evidenció una mayor solidez al trabajar con datos numéricos. El análisis de estos datos, caracterizados por su solidez, permitió derivar relevantes implicaciones pedagógicas. Se identificó, entre otras, una correlación inversa entre el uso de la primera persona plural y el nivel de objetividad, así como una asociación entre la densidad de verbos en infinitivo y la subjetividad. Asimismo, se observó que los adverbios terminados en -mente tienden a afectar la objetividad, mientras que otros tipos de adverbios contribuyen a una mayor cohesión textual. Además, se evidenció que una mayor complejidad sintáctica está estrechamente relacionada con un incremento en la riqueza léxica. Estas conclusiones resultan valiosas para que los docentes puedan identificar áreas específicas de mejora en la escritura académica de los estudiantes y utilicen ejemplos concretos en el aula para abordar estas dificultades de manera efectiva.
Egileak (ixakideak): 
Egileak: 
Unai Atutxa, Mikel Iruskieta, Mari Mar Boillos
Urtea: 
2025
Artikuluaren erreferentzia: 
-

Argitalpen mota:

Argitalpen mota fina (argitalpen_sailkapen_ohia):

Kongresuaren balorazioa: