Kubernetes RAG Pipeline (MLOps)

A microservices-based Retrieval Augmented Generation (RAG) pipeline deployed on Kubernetes. This project demonstrates how to productionize AI models using Docker, Kubernetes, and Vector Databases.

🏗 Architecture

Ingestion Service: Python FastAPI + Sentence Transformers.
Vector Database: Qdrant (StatefulSet) for semantic search.
Orchestration: Kubernetes (Minikube).

🚀 Key Features

CPU-Optimized AI: Docker builds tuned for non-GPU inference.
Resilience: Implemented livenessProbes and resource limits.
Stateful Management: Persistent storage for vector data.

📦 How to Run

minikube start --memory=4096
kubectl apply -f k8s/
kubectl port-forward service/rag-embedding 7000:80

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
embedding-service		embedding-service
k8s		k8s
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Kubernetes RAG Pipeline (MLOps)

🏗 Architecture

🚀 Key Features

📦 How to Run

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Kubernetes RAG Pipeline (MLOps)

🏗 Architecture

🚀 Key Features

📦 How to Run

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages