Skip to content

Banco vetorizado RAG via fileVector Store #547

@dgs-one

Description

@dgs-one

Funcionalidade 2: Base de Conhecimento RAG (Vector Store)
Foco principal na conversão do acervo jornalístico em inteligência territorial pesquisável via Embeddings.

Descrição:
Este é o cérebro semântico do JEO, responsável por transformar milhares de publicações do WordPress em dados vetoriais locais e privados. Através da
arquitetura Retrieval-Augmented Generation (RAG) do Neuron AI, a ferramenta converte textos não-estruturados em mapas de coordenadas de significado,
permitindo que a IA compreenda o contexto histórico e geográfico do seu site de forma instantânea.

O foco desta funcionalidade é a independência, a segurança de dados e a escalabilidade. Implementamos um "Desacoplamento Absoluto", permitindo que o
administrador utilize provedores diferentes para a redação (ex: DeepSeek) e para a vetorização (ex: Gemini/OpenAI). Inclui um motor robusto de
processamento em lote em segundo plano (WP-Cron) protegido por travas de modelo ("Model Lock") e um mini-motor de busca interno (Semantic Retrieval Test)
para auditar e recuperar a memória territorial do seu acervo a qualquer momento.


  • [FEITO] Arquitetura RAG Local (FileVectorStore): Vetorização de posts gravada diretamente no disco do WordPress, garantindo segurança de dados sem
    depender de bancos vetoriais caros e externos (ex: Pinecone).
  • [FEITO] Desacoplamento de Embeddings (Híbrido): Sistema isolado que permite selecionar ativamente o motor de vetorização (ex:
    gemini:gemini-embedding-001, openai:text-embedding-3-small ou ollama), independentemente de qual LLM esteja sendo usado para o chat.
  • [FEITO] Indexação em Lote via Cron (Background Worker): Motor de processamento silencioso (jeo_rag_worker) que indexa os posts em lotes
    configuráveis (ex: a cada minuto), imune a gargalos do navegador.
  • [FEITO] Sistema de Logging Visual e Dinâmico: Tela de monitoramento nativa (Recent Background Logs) que retém as últimas 5 atividades, informando
    erros ou sucesso (quantidade de posts), separando invocações Manuais de invocações do Cron.
  • [FEITO] Segurança Estrutural e Model Lock: Trava automática do modelo no primeiro lote indexado. O JEO impede a troca acidental de IA no meio do
    caminho, garantindo que a base de dados não sofra com vetores de tamanhos incompatíveis, exigindo reset manual com dupla confirmação.
  • [FEITO] Mini-Motor de Busca Semântico (Retrieval Test): Interface de auditoria que permite pesquisar frases em linguagem natural diretamente no
    painel e visualizar os posts mais aderentes, retornando metadados, Score de Cosseno e os trechos de texto extraídos.
  • [FEITO] Backups Síncronos em ZIP: Geração segura e em tempo real de backups compactados da Vector Store via API REST, com auto-limpeza (retendo
    apenas os últimos 3 arquivos) e download direto.
  • [FEITO] Preparação para Escalabilidade via WP-CLI: Suporte a comandos de terminal (wp jeo ai vectorize --batch_size=50) para devorar milhares de
    posts de uma só vez, contornando limites de timeout da rede.
  • [FEITO] Prevenção de Deadlocks e 100% i18n (PT-BR): Modais HTML5 fluídos, bloqueios de interface que não impedem a correção de erros e tradução
    dinâmica (jeo_settings.i18n) completa para botões, alerts Javascript e carregamentos.

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

Status

Validation

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions