Dos trabajos de PLN y minería de textos presentados por PREBI-SEDICI en BIREDIAL-ISTEC 2025

La Dirección PREBI-SEDICI (Universidad Nacional de La Plata) participó en la Conferencia Internacional BIREDIAL-ISTEC 2025 con múltiples presentaciones y también con intervenciones en mesas de discusión.

Dentro de ese conjunto de presentaciones, dos trabajos presentaron aportes del equipo centrados específicamente en Procesamiento del Lenguaje Natural (PLN) y Minería de Textos, desarrollados en colaboración con equipos de la UNLP (PREBI-SEDICI y LIFIA), la Universidad Nacional de San Luis (LIDIC) y CAETI (Facultad de Tecnología Informática, Universidad Abierta Interamericana).

Ambos estudios pretenden desarrollar enfoques que faciliten la tarea de los catalogadores de repositorios institucionales y faciliten la tarea de curaduría de datos.

Los dos artículos pueden leerse como tareas de categorización de textos, pero con naturalezas distintas: mientras la detección de idioma es una clasificación multiclase single-label (una sola clase por instancia), la asignación de materias es una clasificación multilabel (un mismo ítem puede recibir varias etiquetas temáticas).

El primer trabajo, “Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectoriales multilingües: un estudio de caso en SEDICI”, propone un enfoque supervisado multilabel para predecir materias a partir de resúmenes y/o palabras clave en un corpus de 126.081 ítems del repositorio.

El equipo aplicó, en un primer lugar, un análisis de cobertura acumulada de etiquetas con la idea de determinar qué cantidad de etiquetas mínima permitía un mejor desempeño de los modelos apliciados: por ejemplo, las 37 materias más frecuentes concentran el 90% de los registros del dataset, lo que habilita estrategias de entrenamiento más eficientes y controlables.

Los resultados obtenidos apoyaron una idea práctica: TF-IDF (una técnica tradicional que data de la década del 70) combinado con clasificadores lineales sigue siendo una de las alternativas más robustas y, en varios casos, comparable (o incluso superior) a representaciones más costosas basadas en modelos de lenguaje actuales como SBERT o LaBSE.

En particular, los embeddings contextuales aportan ventajas, sobre todo para mejorar el reconocimiento de etiquetas minoritarias, pero con un costo de entrenamiento más alto que obliga a balancear rendimiento y eficiencia según el contexto de implementación.

En conclusión, el estudio reafirma la viabilidad del aprendizaje supervisado para automatizar tareas curatoriales complejas como la asignación temática, con una metodología replicable y adaptable a contextos similares.

El segundo trabajo, “Detección automática de idiomas en textos cortos de repositorios institucionales: ¿vale la pena realizar un ajuste fino sobre un modelo de lenguaje?”, explora estrategias para automatizar la curaduría del campo “idioma” en textos breves.

En la discusión, el punto de partida es claro: incluso enfoques zero-shot (es decir, en los que no se realiza un ajuste fino de un modelo), acompañados por un preprocesamiento cuidadoso, pueden alcanzar niveles altos de precisión (se mencionan resultados destacados para Langid y LangDetect), y Polyglot aparece como una opción atractiva cuando el foco está en tiempos de procesamiento.

Al mismo tiempo, los modelos ajustados (FastText, SBERT y XLM-RoBERTa) alcanzan valores de F1 cercanos al 100%, con un rol central de las técnicas de aumento de datos y balanceo de clases, especialmente para idiomas minoritarios.

El artículo también registra un aprendizaje clave para la práctica: FastText logra resultados comparables a modelos basados en BERT con un tiempo de ajuste fino mínimo, mientras que mBERT muestra dificultades persistentes en clases minoritarias (se menciona el caso del italiano), lo que marca líneas concretas de mejora.

Desde la perspectiva de calidad de datos, el trabajo permitió identificar errores habituales de catalogación manual (por ejemplo, etiquetas por defecto o resúmenes con más de un idioma concatenado) y proponer transformaciones trazables: se estima que alrededor de 3000 etiquetas de resúmenes podrían corregirse automáticamente.

“En textos cortos de repositorios, muchas veces no hace falta gastar recursos de cómputo y tiempo de procesamiento en modelos basados en transformers para lograr resultados operativos”, señaló Carlos Nusch, Chair de ISTEC, miembro del equipo de la Dirección PREBI-SEDICI (UNLP) y Vice Director de CESGI (CICPBA).

En ambos trabajos, remarcó el valor de estas líneas aplicadas: más allá de “ganar puntos” en métricas, el objetivo es mejorar procesos reales de curaduría a escala, con soluciones robustas, mantenibles y replicables.

Trabajos del equipo PREBI-SEDICI en BIREDIAL-ISTEC 2025 (listado completo): https://sedici.unlp.edu.ar/handle/10915/185464/discover?sort_by=dc.date.accessioned_dt&order=desc

Acceder a la presentación y el artículo de “Clasificación automática de materias…”: https://sedici.unlp.edu.ar/handle/10915/185805

Acceder a la presentación y el artículo de “Detección automática de idiomas…”: https://sedici.unlp.edu.ar/handle/10915/185804