Este proyecto es un scraper en Java que navega automáticamente por las páginas de productos de varios supermercados, extrae información relevante y la almacena en una base de datos.
El objetivo es obtener de forma consistente precios y datos de productos, avanzando por cada página mediante la paginación del sitio.
- Obtención del HTML de cada página del supermercado.
- Extracción de: Nombre del producto, Precio, Url, Categoria y Supermercado al que corresponde.
- Detección automática del botón "Siguiente" en la paginación.
- Avance página por página hasta que la paginación se agota.
- Logs por cada página indicando la cantidad de productos encontrados.
- Java 17+
- Jsoup (parseo HTML)
- SLF4J / Logback (logging)
- Maven (gestion del proyecto)
- Selenium (WebDriver para paginas dinamicas)
- Instalar dependencias:
mvn clean install- Ejecutar el scraper:
mvn exec:java -Dexec.mainClass="Main"- El scraper comenzará en la URL configurada y recorrerá todas las páginas disponibles.
Nota Importante: Las URL que configures, deberan seguir el mismo formato que esta en los archivos de ejemplo en /resources.
- El scraping debe respetar los términos del sitio.
- Puede requerir modificar headers y delays para evitar bloqueos.
- La estructura HTML del sitio puede cambiar sin previo aviso.
- Terminar CarrefourScraper, JumboScraper, LaAnonimaScraper
- Scraping concurrente para acelarar tiempos
- Retries automaticos ante fallas de red
- Cache local para evitar repeticion de requests.