Skip to content

K0V4K/Auditoria

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📄 Processador e Análise de Invoices (PDF)

Desafio Técnico: Extração, Validação e Análise de Dados com Python

Python Pandas Pydantic

🎯 Objetivos do Projeto

Este projeto foi desenvolvido para demonstrar competências em Engenharia de Dados e automação. O sistema realiza o fluxo completo de um pipeline de dados (ETL):

  • Extração: Captura de dados estruturados de arquivos PDF.
  • Validação: Garantia da integridade dos dados capturados.
  • Persistência: Armazenamento em JSON para consumo posterior.
  • Análise: Geração de insights estratégicos com métricas de vendas.

🛠️ Tecnologias Utilizadas

  • Python 3.10+: Linguagem base.
  • Pydantic: Validação de dados e modelos.
  • Pandas: Análise e processamento de dados.
  • pdfplumber: Extração precisa de texto em PDFs.
  • JSON: Banco de dados local.

🏗️ Arquitetura do Sistema

O projeto segue uma estrutura modular para facilitar a manutenção:

Teste Técnico-QCA/
├── invoices/              # PDFs de entrada
├── ingest/                # Módulo de Processamento
│   ├── models.py          # Modelos Pydantic
│   ├── pdf_reader.py      # Lógica de leitura
│   └── repository.py      # Gestão do JSON
├── analytics/             # Módulo de Inteligência
│   └── analytics.py       # Análises com Pandas
├── database.json          # Base de dados gerada
├── main.py                # Ponto de entrada
└── requirements.txt       # Dependências

About

Pipeline ETL completo em Python para extração de dados de Invoices (PDF), validação rigorosa com Pydantic e análise de métricas de vendas com Pandas. Transforma documentos não estruturados em insights estratégicos.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages