PLN especializado: corpus, modelos y proyectos reales
Author: Marta Guerrero Nieto
Idea principal
Marta Torrego explica cómo trabajan en el Instituto de Ingeniería del Conocimiento para especializar modelos de lenguaje a tareas y dominios concretos. El mensaje central es que los modelos generalistas grandes no siempre son la respuesta, y que hay todo un mundo de modelos pequeños y especializados que son más baratos, más controlables y perfectamente válidos para muchos casos reales.
Conceptos clave
- Los LLMs generalistas están entrenados mayoritariamente en inglés y fallan en uso especializado, incluso en español
- Pirámide de especialización: modelo multilingüe base → fine-tuning por idioma → modelo de aplicación para tarea concreta
- Rigoberta: modelo NLU propio, especializado en español, para tareas de clasificación y extracción (sin generación)
- Rigochad: modelo generativo pequeño especializado en español
- Corpus anotado: conjunto de datos etiquetados manualmente para entrenar o evaluar un modelo
- Requiere mínimo dos anotadores para controlar sesgos
- El proceso genera un "gold standard" sin discrepancias
- Los corpus son el verdadero secreto de las empresas, no los algoritmos
- RLHF (Reinforcement Learning from Human Feedback): así se enseña al modelo a escribir "bien" y a no meterse en líos
- Evaluación con métricas (F-score, SAS...) es imprescindible para llevar un proyecto a producción — muchos POCs mueren aquí
Desarrollo/contexto
Una de las ideas que más me llamó la atención: construir el corpus es la parte más costosa y más diferencial de cualquier proyecto de PLN. No se parte de datos, se construyen. Eso implica sentarse con el cliente, entender cómo hace las cosas esa persona que lleva años haciéndolo, y traducir ese conocimiento implícito en etiquetas. Es artesanal.

Los proyectos que presentó ilustran bien el rango de aplicaciones: detección de cláusulas en contratos de la Comunidad de Madrid (resultados por encima del 85%), buscador semántico de sentencias de la AEPD con RAG, y detección de cláusulas abusivas en contratos de adhesión en colaboración con la OCU. Todos tienen en común que el problema estaba bien definido y contaban con datos anotados de calidad.
Términos técnicos
- NLU (Natural Language Understanding): modelos orientados a comprender texto, no a generarlo
- Fine-tuning: reentrenamiento de un modelo base sobre datos específicos para una tarea
- Gold standard: dataset anotado por múltiples personas, sin discrepancias, usado como referencia de evaluación
- RAG: sistema que combina recuperación de documentos con generación de respuestas
- Contrato de adhesión: contrato genérico de empresa que el usuario firma sin negociar (telefonía, luz, hipoteca...)
Conclusiones
Matar moscas a cañonazos con un GPT-4 cuando un modelo pequeño y bien entrenado resuelve el problema es un error tanto técnico como económico. La evaluación rigurosa con corpus anotados es lo que separa un prototipo de un sistema en producción. Y los corpus son el activo más valioso que tiene una empresa de IA, por encima de cualquier arquitectura.