PLN especializado: corpus, modelos y proyectos reales

Idea principal

Marta Torrego explica cómo trabajan en el Instituto de Ingeniería del Conocimiento para especializar modelos de lenguaje a tareas y dominios concretos. El mensaje central es que los modelos generalistas grandes no siempre son la respuesta, y que hay todo un mundo de modelos pequeños y especializados que son más baratos, más controlables y perfectamente válidos para muchos casos reales.

Conceptos clave

Los LLMs generalistas están entrenados mayoritariamente en inglés y fallan en uso especializado, incluso en español
Pirámide de especialización: modelo multilingüe base → fine-tuning por idioma → modelo de aplicación para tarea concreta
Rigoberta: modelo NLU propio, especializado en español, para tareas de clasificación y extracción (sin generación)
Rigochad: modelo generativo pequeño especializado en español
Corpus anotado: conjunto de datos etiquetados manualmente para entrenar o evaluar un modelo
- Requiere mínimo dos anotadores para controlar sesgos
- El proceso genera un "gold standard" sin discrepancias
Los corpus son el verdadero secreto de las empresas, no los algoritmos
RLHF (Reinforcement Learning from Human Feedback): así se enseña al modelo a escribir "bien" y a no meterse en líos
Evaluación con métricas (F-score, SAS...) es imprescindible para llevar un proyecto a producción — muchos POCs mueren aquí

Desarrollo/contexto

Una de las ideas que más me llamó la atención: construir el corpus es la parte más costosa y más diferencial de cualquier proyecto de PLN. No se parte de datos, se construyen. Eso implica sentarse con el cliente, entender cómo hace las cosas esa persona que lleva años haciéndolo, y traducir ese conocimiento implícito en etiquetas. Es artesanal.

Los proyectos que presentó ilustran bien el rango de aplicaciones: detección de cláusulas en contratos de la Comunidad de Madrid (resultados por encima del 85%), buscador semántico de sentencias de la AEPD con RAG, y detección de cláusulas abusivas en contratos de adhesión en colaboración con la OCU. Todos tienen en común que el problema estaba bien definido y contaban con datos anotados de calidad.

Términos técnicos

NLU (Natural Language Understanding): modelos orientados a comprender texto, no a generarlo
Fine-tuning: reentrenamiento de un modelo base sobre datos específicos para una tarea
Gold standard: dataset anotado por múltiples personas, sin discrepancias, usado como referencia de evaluación
RAG: sistema que combina recuperación de documentos con generación de respuestas
Contrato de adhesión: contrato genérico de empresa que el usuario firma sin negociar (telefonía, luz, hipoteca...)

Conclusiones

Matar moscas a cañonazos con un GPT-4 cuando un modelo pequeño y bien entrenado resuelve el problema es un error tanto técnico como económico. La evaluación rigurosa con corpus anotados es lo que separa un prototipo de un sistema en producción. Y los corpus son el activo más valioso que tiene una empresa de IA, por encima de cualquier arquitectura.

IIC/RigoChat-7b-v2 · Hugging Face