LUTEST: LANGUAGE UNDERSTANDING TEST SETS

El éxito reciente en la aplicación del aprendizaje profundo en aplicaciones de Procesamiento del Lenguaje Natural ha tenido un gran impacto en el campo. La traducción automática, la respuesta a preguntas, la generación de texto y el análisis de sentimientos son las áreas en las que el avance ha sido más espectacular, pero a costa de requerir grandes cantidades de datos para cada tarea. Se ha demostrado que los métodos de aprendizaje profundo muestran una severa degradación del rendimiento cuando se entrenan con conjuntos de datos pequeños, incluyendo los sistemas de transformadores más recientes como el BERT que fue entrenado con un corpus de 3.300 millones de palabras. Se ha cuestionado si los métodos de aprendizaje profundo son capaces de `comprender' el lenguaje, si son capaces de generalizar, es decir, capturar las características comunes invariables y hacer caso omiso de la variación no significativa, de modo que dos oraciones con forma diferente, pero con el mismo significado, obtengan la misma respuesta del sistema. El objetivo de LUTEST es la creación de conjuntos de prueba, así como de una metodología de evaluación que proporcione evidencias sobre las capacidades de generalización lingüística de los métodos de aprendizaje profundo aplicados al procesamiento del lenguaje natural. Durante los últimos años, ha habido diferentes trabajos en la construcción de conjuntos de pruebas y métodos de evaluación con el fin de evaluar las capacidades de comprensión del lenguaje de los modelos neurales profundos y qué información seleccionan y codifican. Sin embargo, aún queda mucho trabajo por hacer, en particular desde una perspectiva lingüísticamente motivada. LUTEST se propone la evaluación de las capacidades de generalización del modelo de lenguaje profundo basándose en la hipótesis lingüística de que, si realmente generalizan, cualquier diferencia en las representaciones de dos significados iguales, pero de oraciones con diferente estructura, esta diferencia se mostrará igual en un número significativo de pares de oraciones que exhiben el mismo fenómeno, a pesar de cualquier variación léxica. No obstante, es muy difícil observar qué información abstracta inducen las redes neuronales profundas. La información se representa como matrices numéricas sin que haya una relación interpretable con el input. La interpretación del comportamiento de las redes neurales profundas requiere conjuntos de pruebas especiales y métodos de evaluación distintos al de la precisión con respecto a una tarea finalista, como el análisis de sentimientos, la respuesta a preguntas o la inferencia en lenguaje natural. Así, la disponibilidad de conjuntos de pruebas y métodos de evaluación que puedan ayudar a distinguir el comportamiento inteligente real de la detección de correlaciones estadísticas superficiales y espurias va a ser crucial, primero, para evaluar el progreso real en la comprensión automática del lenguaje; segundo, para obtener pruebas sobre la consistencia de sus resultados y ganar la confianza de la sociedad en estas tecnologías que pretenden ser aplicadas en áreas muy sensibles como la salud o el derecho y, en tercer lugar, para aprender sobre las capacidades de generalización de los métodos más novedosos y, por tanto, desarrollar métodos que aprendan a partir de conjuntos de datos pequeños, asegurando así su aplicabilidad a lenguas con menos recursos que el inglés, impidiendo así la extinción digital de la mayoría de ellas.
Kode ofiziala: 
PID2019-104512GB-I00
Ikertzaile nagusia: 
Nuria Bel
Erakundea: 
UPF
Hasiera data: 
2020/06/01
Bukaera data: 
2023/05/31
Ixakideak: 
Kontratua: 
No
Webgunea: 
http://
HiTZ