Information Technology

Senior Data Engineer (Data Scraping)

Madrid, Madrid
Tipo de trabajo: Contrato

Buscamos un perfil Senior Data Scraping & Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento.


CONTEXTO & RESPONSABILIDADES

La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.

Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.


PROYECTO & EQUIPO

El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.

El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.


EXPERIENCIA & CONOCIMIENTOS

Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.

Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.

Será necesario tener experiencia con:

  • Core Scraping & Crawling:
    • Playwright, Selenium, BeautifulSoup, Requests / aiohttp
    • Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
    • Estrategias anti-bot, rotación de proxies y browser fingerprinting
  • Procesamiento & Data Engineering:
    • Python (Pandas, Polars, PySpark)
    • Pipelines ETL/ELT, normalización y limpieza de datos masivos
    • Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)
  • Infraestructura en AWS (imprescindible):
    • S3, Lambda, ECS/ECR, Step Functions
    • CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
    • SQS/SNS (orquestación y comunicación)
    • AWS Glue o EMR (deseable)
  • Bases de datos:
    • PostgreSQL, MySQL, MongoDB o DynamoDB
    • Integración de datos y diseño de modelos de almacenamiento para alto volumen

Además se valorará positivamente contar con experiencia o conocimientos en:

  • Orquestación: Airflow, Prefect o Dagster
  • Infraestructura serverless y contenedores optimizados para crawling
  • Integración de datos con LLMs, RAG pipelines o agentes inteligentes
  • Visualización o análisis exploratorio de datos
  • Diseño de pipelines distribuidos de alta concurrencia


CONTRATACIÓN & UBICACIÓN

La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).

Envíe su solicitud

Su aplicación se ha enviado con éxito
  • Su aplicación tiene algún error