🚀 Proyecto Web Scraping

📜 Briefing: Proyecto de Web Scraping

🔍 Planteamiento

La empresa XYZ Corp está interesada en analizar el mercado laboral del sector tecnológico para identificar tendencias y oportunidades. Para ello, plantea un reto a las personas del equipo para que presenten un Scraper funcional sobre cualquier página / temática, validando qué información se puede extraer y hasta dónde se puede llegar en el proceso.

Además, se requiere almacenar esta información en una base de datos para su posterior análisis y visualización.

🎯 Objetivos del Proyecto

Acceder a sitios web y extraer datos.
Obtener información estructurada.
Normalizar y estructurar los datos extraídos para su posterior análisis.
Almacenar la información en una base de datos SQL o NoSQL.
Generar informes y visualizaciones de los datos recopilados.

📦 Condiciones de Entrega

Para la fecha de entrega, los equipos deberán presentar:

✅ Repositorio en GitHub con el código fuente documentado.
✅ Demo en vivo mostrando el proceso de extracción, almacenamiento y visualización de datos.
✅ Presentación técnica, explicando los objetivos, desarrollo y tecnologías utilizadas.
✅ Tablero Kanban con la gestión del proyecto (Trello, Jira, etc.).

⚙️ Tecnologías Recomendadas

Control de versiones: Git / GitHub
Entorno de ejecución: Docker
Lenguaje principal: Python
Librerías útiles: BeautifulSoup, Scrapy, Requests, Selenium
Bases de datos: MySQL, PostgreSQL, MongoDB, Firebase
Gestión del proyecto: Trello, Jira, Github

🏆 Niveles de Entrega

🟢 Nivel Esencial:

✅ Script que accede a un sitio web y extrae información.
✅ Limpieza y organización de datos.
✅ Documentación del código y un README en GitHub.

🟡 Nivel Medio:

✅ Almacenamiento de los datos en una base de datos estructurada.
✅ Implementación de logs para trazabilidad del scraper.
✅ Tests unitarios para validar el funcionamiento del código.

🟠 Nivel Avanzado:

✅ Uso de Programación Orientada a Objetos (OOP) para mejorar la estructura del código.
✅ Manejo robusto de errores para evitar bloqueos y baneos de IP.
✅ Automatización del scraper para actualizar periódicamente la base de datos con tareas Cron.

🔴 Nivel Experto:

✅ Dockerización completa del proyecto para facilitar despliegue y escalabilidad.
✅ Implementación de un frontend interactivo para visualizar datos en tiempo real.
✅ Despliegue en un servidor accesible públicamente.
✅ Integración con múltiples sitios web de empleo para mejorar la cantidad y calidad de datos recopilados.

🛠️ Actividad Sugerida

🎯 Objetivo:

Familiarizarse con las técnicas de web scraping y el manejo de bases de datos para almacenar y analizar datos de ofertas de empleo.

📌 Instrucciones:

1️⃣ Preparación

✅ Explorar herramientas de web scraping en Python.
✅ Configurar el entorno de desarrollo (Virtualenv, Docker, etc.).

2️⃣ Desarrollo del Scraper

✅ Crear un script que acceda a sitios de empleo y extraiga datos clave.
✅ Limpiar y estructurar la información obtenida.

3️⃣ Almacenamiento en Base de Datos

✅ Configurar una base de datos SQL/NoSQL para almacenar los datos extraídos.
✅ Implementar funciones para insertar y consultar información.

4️⃣ Documentación y Presentación

✅ Documentar el código y crear un README detallado.
✅ Preparar una presentación explicando el proceso y resultados obtenidos.

✅ Con este proyecto, XYZ Corp podrá obtener información sobre qué se puede hacer con estas tecnologías. 🚀

⭐️ Material de referencia / soluciones para el proyecto:

Intro a Docker: https://github.com/Factoria-F5-dev/docker
Clase de webscrepaer: https://github.com/Factoria-F5-dev/webscraper

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 Proyecto Web Scraping

📜 Briefing: Proyecto de Web Scraping

🔍 Planteamiento

🎯 Objetivos del Proyecto

📦 Condiciones de Entrega

⚙️ Tecnologías Recomendadas

🏆 Niveles de Entrega

🟢 Nivel Esencial:

🟡 Nivel Medio:

🟠 Nivel Avanzado:

🔴 Nivel Experto:

🛠️ Actividad Sugerida

🎯 Objetivo:

📌 Instrucciones:

1️⃣ Preparación

2️⃣ Desarrollo del Scraper

3️⃣ Almacenamiento en Base de Datos

4️⃣ Documentación y Presentación

⭐️ Material de referencia / soluciones para el proyecto:

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

🚀 Proyecto Web Scraping

📜 Briefing: Proyecto de Web Scraping

🔍 Planteamiento

🎯 Objetivos del Proyecto

📦 Condiciones de Entrega

⚙️ Tecnologías Recomendadas

🏆 Niveles de Entrega

🟢 Nivel Esencial:

🟡 Nivel Medio:

🟠 Nivel Avanzado:

🔴 Nivel Experto:

🛠️ Actividad Sugerida

🎯 Objetivo:

📌 Instrucciones:

1️⃣ Preparación

2️⃣ Desarrollo del Scraper

3️⃣ Almacenamiento en Base de Datos

4️⃣ Documentación y Presentación

⭐️ Material de referencia / soluciones para el proyecto:

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Packages