Skip to content

pedrowill-dev/btime-rpa

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

README - Extração de Notícias Governamentais de São Paulo

Este script Python realiza a extração de notícias governamentais de São Paulo a partir de um site específico, utilizando threads para melhorar a eficiência do processo.

Pré-requisitos

  • Python 3.x instalado
  • Bibliotecas Python necessarias : instalada pip install -r requirements.txt

Uso

  • Clone ou baixe este repositório para sua máquina local.
  • No terminal, navegue até o diretório do projeto
  • Execute o script python run.py:
python run.py

Funcionalidades

  • O script acessa um site específico para extrair notícias governamentais de São Paulo.
  • Utiliza threads para processar várias páginas simultaneamente, aumentando a eficiência da extração de dados.
  • Salva as notícias extraídas em um arquivo CSV na pasta data/news com o nome no formato NEWS_SP_DD_MM_YYYY.csv, onde DD_MM_YYYY representa a data atual.

Arquivos do Projeto

  • run.py: Script principal que executa a extração de notícias.
  • app/services/browser/chrome.py: Módulo responsável pela inicialização e manipulação de uma instância do navegador Chrome.
  • app/services/news/extract.py: Módulo que contém a classe Extractor responsável pela extração de notícias do site.
  • app/services/news/load.py: Módulo para salvar os dados extraídos em um arquivo CSV.

Autor

Este script foi desenvolvido por @Pedro Willian

About

Este projeto consiste em um script Python desenvolvido para extrair notícias governamentais do estado de São Paulo a partir de um site específico. O objetivo principal é automatizar o processo de coleta de notícias, tornando-o mais eficiente e prático.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages