Este projeto foi desenvolvido para demonstrar competências em Engenharia de Dados e automação. O sistema realiza o fluxo completo de um pipeline de dados (ETL):
- Extração: Captura de dados estruturados de arquivos PDF.
- Validação: Garantia da integridade dos dados capturados.
- Persistência: Armazenamento em JSON para consumo posterior.
- Análise: Geração de insights estratégicos com métricas de vendas.
- Python 3.10+: Linguagem base.
- Pydantic: Validação de dados e modelos.
- Pandas: Análise e processamento de dados.
- pdfplumber: Extração precisa de texto em PDFs.
- JSON: Banco de dados local.
O projeto segue uma estrutura modular para facilitar a manutenção:
Teste Técnico-QCA/
├── invoices/ # PDFs de entrada
├── ingest/ # Módulo de Processamento
│ ├── models.py # Modelos Pydantic
│ ├── pdf_reader.py # Lógica de leitura
│ └── repository.py # Gestão do JSON
├── analytics/ # Módulo de Inteligência
│ └── analytics.py # Análises com Pandas
├── database.json # Base de dados gerada
├── main.py # Ponto de entrada
└── requirements.txt # Dependências