Los bots hoy en día: cómo són, qué daño hacen, y cómo detectar los indetectables
Author: Anton Albajes-Eizagirre, Jorge Herráez
Bots, scraping y detección: el juego del gato y el ratón en la web
Conferencia técnica, sin fecha concreta. Presentada por Antón y Jorge, contexto de ciberseguridad/tráfico web automatizado.
Idea principal
Una charla sobre cómo funcionan los bots que raspan webs (scrapers), cómo han ido evolucionando para evitar ser detectados y, sobre todo, cómo se detectan hoy en día. El rollo va de que es una carrera armamentística constante: los bots se sofistican, las defensas también, y nadie gana del todo.
Conceptos clave
- Los bots evolucionan en generaciones: de los más tontos (detección fácil por headers, fingerprinting de navegador) a los que usan modo stealth
- Modo stealth: técnica que hace que el bot se comporte como un navegador real a nivel de JavaScript y huella digital
- Para evadir análisis estadístico, los bots simulan heterogeneidad: unos dicen ser Chrome en Windows, otros Firefox en Mac, etc.
- Las detecciones clásicas (fingerprinting de navegador, user-agent) quedaron obsoletas con el modo stealth
- Capas de detección más avanzadas:
- Capa de red (TCP): el maximum segment size u otras métricas delatan el SO real
- Capa de cifrado (TLS/SSL): cada navegador y SO tiene sus cipher suites propias, difíciles de falsificar
- Datos biométricos: tiempos de clic, movimientos de ratón, scrolls... un humano no puede clicar en menos de ~50ms
- Simular todo esto requiere infraestructura enorme y cara, lo que filtra a los bots más básicos
- Los bots más avanzados ya generan señales biométricas sintéticas (no pregrabadas), por eso se necesita ML para detectarlos
- Estimación: ~40% del tráfico web es bot; en marketing digital, hasta el 85-90% del gasto en ads lo consumen bots
Desarrollo/contexto
Lo más interesante de la charla es el cambio de paradigma en detección. Durante años funcionó mirar el navegador: si algo no cuadraba en el fingerprint, era un bot. Con el modo stealth eso se fue al garete, porque los bots empezaron a presentar firmas de navegador perfectamente legítimas. El salto fue ir a capas más bajas, donde falsificar es mucho más costoso: la red y el cifrado dependen del kernel del SO y de sus librerías, no del navegador. Si dices ser un Mac pero tus parámetros TCP son de Linux, ahí te pillan.
Cuando incluso eso se puede sortear (o no compensa intentarlo), entran los datos biométricos. El comportamiento humano tiene patrones que los bots no replican de forma natural. Los CAPTCHAs de "I'm not a robot" van exactamente de esto. El problema es que los bots más sofisticados ya están generando señales sintéticas bastante convincentes, así que el único enfoque que escala es usar modelos de ML entrenados para encontrar patrones en datos de alta dimensionalidad que una regla heurística nunca podría capturar.
Términos técnicos
- Modo stealth: parche para Selenium/Playwright que elimina las huellas que delatan la automatización del navegador
- Fingerprinting: identificación de un dispositivo/navegador por sus características técnicas únicas
- Cipher suites: conjuntos de algoritmos de cifrado que negocia cada cliente TLS, distintos por SO y navegador
- Credential stuffing: usar listas de usuario/contraseña filtradas para probar accesos masivos
- Maximum Segment Size (MSS): parámetro TCP que varía según el SO, útil para detectar suplantación
Conclusiones
Me llevo que la detección de bots no es un problema resuelto ni resoluble del todo, y que la frontera está ahora mismo en biometría + ML. También que el coste de operar un bot sofisticado es el principal freno, no la detección en sí. Y que el problema va a empeorar con agentes de IA autónomos interactuando entre ellos, porque la web se diseñó para humanos y eso cada vez va a ser más difícil de garantizar.
Para investigar más
- Cómo funciona por dentro Puppeteer Extra Stealth Plugin
- TLS fingerprinting: JA3 y JA4 como técnicas de detección
- Investigación actual en detección de bots con series temporales biométricas
- Informe Citrix/Akamai sobre volumen de tráfico automatizado (el que mencionan como "informe Citrini")