Los bots hoy en día: cómo són, qué daño hacen, y cómo detectar los indetectables

Author: Anton Albajes-Eizagirre, Jorge Herráez

Bots, scraping y detección: el juego del gato y el ratón en la web

Conferencia técnica, sin fecha concreta. Presentada por Antón y Jorge, contexto de ciberseguridad/tráfico web automatizado.

Idea principal

Una charla sobre cómo funcionan los bots que raspan webs (scrapers), cómo han ido evolucionando para evitar ser detectados y, sobre todo, cómo se detectan hoy en día. El rollo va de que es una carrera armamentística constante: los bots se sofistican, las defensas también, y nadie gana del todo.

Conceptos clave

Los bots evolucionan en generaciones: de los más tontos (detección fácil por headers, fingerprinting de navegador) a los que usan modo stealth
Modo stealth: técnica que hace que el bot se comporte como un navegador real a nivel de JavaScript y huella digital
Para evadir análisis estadístico, los bots simulan heterogeneidad: unos dicen ser Chrome en Windows, otros Firefox en Mac, etc.
Las detecciones clásicas (fingerprinting de navegador, user-agent) quedaron obsoletas con el modo stealth
Capas de detección más avanzadas:
- Capa de red (TCP): el maximum segment size u otras métricas delatan el SO real
- Capa de cifrado (TLS/SSL): cada navegador y SO tiene sus cipher suites propias, difíciles de falsificar
- Datos biométricos: tiempos de clic, movimientos de ratón, scrolls... un humano no puede clicar en menos de ~50ms
Simular todo esto requiere infraestructura enorme y cara, lo que filtra a los bots más básicos
Los bots más avanzados ya generan señales biométricas sintéticas (no pregrabadas), por eso se necesita ML para detectarlos
Estimación: ~40% del tráfico web es bot; en marketing digital, hasta el 85-90% del gasto en ads lo consumen bots

Desarrollo/contexto

Lo más interesante de la charla es el cambio de paradigma en detección. Durante años funcionó mirar el navegador: si algo no cuadraba en el fingerprint, era un bot. Con el modo stealth eso se fue al garete, porque los bots empezaron a presentar firmas de navegador perfectamente legítimas. El salto fue ir a capas más bajas, donde falsificar es mucho más costoso: la red y el cifrado dependen del kernel del SO y de sus librerías, no del navegador. Si dices ser un Mac pero tus parámetros TCP son de Linux, ahí te pillan.

Cuando incluso eso se puede sortear (o no compensa intentarlo), entran los datos biométricos. El comportamiento humano tiene patrones que los bots no replican de forma natural. Los CAPTCHAs de "I'm not a robot" van exactamente de esto. El problema es que los bots más sofisticados ya están generando señales sintéticas bastante convincentes, así que el único enfoque que escala es usar modelos de ML entrenados para encontrar patrones en datos de alta dimensionalidad que una regla heurística nunca podría capturar.

Términos técnicos

Modo stealth: parche para Selenium/Playwright que elimina las huellas que delatan la automatización del navegador
Fingerprinting: identificación de un dispositivo/navegador por sus características técnicas únicas
Cipher suites: conjuntos de algoritmos de cifrado que negocia cada cliente TLS, distintos por SO y navegador
Credential stuffing: usar listas de usuario/contraseña filtradas para probar accesos masivos
Maximum Segment Size (MSS): parámetro TCP que varía según el SO, útil para detectar suplantación

Conclusiones

Me llevo que la detección de bots no es un problema resuelto ni resoluble del todo, y que la frontera está ahora mismo en biometría + ML. También que el coste de operar un bot sofisticado es el principal freno, no la detección en sí. Y que el problema va a empeorar con agentes de IA autónomos interactuando entre ellos, porque la web se diseñó para humanos y eso cada vez va a ser más difícil de garantizar.

Para investigar más

Cómo funciona por dentro Puppeteer Extra Stealth Plugin
TLS fingerprinting: JA3 y JA4 como técnicas de detección
Investigación actual en detección de bots con series temporales biométricas
Informe Citrix/Akamai sobre volumen de tráfico automatizado (el que mencionan como "informe Citrini")

Los bots hoy en día: cómo són, qué daño hacen, y cómo detectar los indetectables

Bots, scraping y detección: el juego del gato y el ratón en la web

Idea principal

Conceptos clave

Desarrollo/contexto

Términos técnicos

Conclusiones

Para investigar más

Top Hackers

OSINT Mini CTF

AIChatPanel

CPU 0.0%

Memory 0.0%