Fazer um projeto abordando a implementação de Change Data Capture (CDC) com Upsert para sincronização entre bancos de dados distintos. A ideia é clonar as tabelas de um banco de produção (exemplo: SQL Server) para um banco de destino recém-subido do zero (exemplo: PostgreSQL), onde serão feitas transformações e visualizações de dados com ferramentas 100% gratuitas.
Acredito que o que eu quero seria Fazer Um Mini-Lakehouse Local e Open Source / Gratuito com os itens a baixo
- Construção de um Lakehouse leve e 100% Gratuito (ou proximo a isso).
- Replicação em tempo real de um banco operacional para um analítico.
- Possibilidade de transformação dos dados antes de análises e dashboards.
fique a vontade para alterar / elaborar mais essa sujestão
CONTEXTO: Tentei fazer algo parecido, tive muitos problemas com tipagem e tambem que varias tabelas do banco de producao nao tem uma coluna de data de alteracao padronizada, fazendo com que depois que eu fizesse uma carga full, quando eu fosse fazer o upsert no dia seguinte eu nao teria como saber oque foi alterado desede meu ultimo run, tendo que comparar a tabela inteira com mais de 8 anos de registro do sql server com meu banco local postgres e nao apenas os registros alterados dos dias desde o meu ultimo run, os adicionados sim pois eu apenas comparava os handles mas nao conseguir pensar em nada para registros que ja estavam nos dois bancos com seus handles definidos mas foram alterados e nao possuiam uma data para eu ler somente as alteracoes depois da minha primeira carga ful
Fazer um projeto abordando a implementação de Change Data Capture (CDC) com Upsert para sincronização entre bancos de dados distintos. A ideia é clonar as tabelas de um banco de produção (exemplo: SQL Server) para um banco de destino recém-subido do zero (exemplo: PostgreSQL), onde serão feitas transformações e visualizações de dados com ferramentas 100% gratuitas.
Acredito que o que eu quero seria Fazer Um Mini-Lakehouse Local e Open Source / Gratuito com os itens a baixo
fique a vontade para alterar / elaborar mais essa sujestão
CONTEXTO: Tentei fazer algo parecido, tive muitos problemas com tipagem e tambem que varias tabelas do banco de producao nao tem uma coluna de data de alteracao padronizada, fazendo com que depois que eu fizesse uma carga full, quando eu fosse fazer o upsert no dia seguinte eu nao teria como saber oque foi alterado desede meu ultimo run, tendo que comparar a tabela inteira com mais de 8 anos de registro do sql server com meu banco local postgres e nao apenas os registros alterados dos dias desde o meu ultimo run, os adicionados sim pois eu apenas comparava os handles mas nao conseguir pensar em nada para registros que ja estavam nos dois bancos com seus handles definidos mas foram alterados e nao possuiam uma data para eu ler somente as alteracoes depois da minha primeira carga ful