Este script Python realiza a extração de notícias governamentais de São Paulo a partir de um site específico, utilizando threads para melhorar a eficiência do processo.
- Python 3.x instalado
- Bibliotecas Python necessarias : instalada
pip install -r requirements.txt
- Clone ou baixe este repositório para sua máquina local.
- No terminal, navegue até o diretório do projeto
- Execute o script
python run.py:
python run.py- O script acessa um site específico para extrair notícias governamentais de São Paulo.
- Utiliza threads para processar várias páginas simultaneamente, aumentando a eficiência da extração de dados.
- Salva as notícias extraídas em um arquivo CSV na pasta
data/newscom o nome no formatoNEWS_SP_DD_MM_YYYY.csv, ondeDD_MM_YYYYrepresenta a data atual.
run.py: Script principal que executa a extração de notícias.app/services/browser/chrome.py: Módulo responsável pela inicialização e manipulação de uma instância do navegador Chrome.app/services/news/extract.py: Módulo que contém a classe Extractor responsável pela extração de notícias do site.app/services/news/load.py: Módulo para salvar os dados extraídos em um arquivo CSV.
Este script foi desenvolvido por @Pedro Willian