«Архив памяти» — это интеллектуальная поисковая система и цифровая база данных, соз��анная для сохранения исторической памяти о жертвах политических репрессий. Проект использует технологии искусственного интеллекта (RAG — Retrieval-Augmented Generation) для анализа архивных уголовных дел, справок и приговоров.
Система работает полностью локально (без отправки конфиденциальных архивных данных в облачные API вроде OpenAI), обеспечивая максимальную безопасность и приватность данных.
- 🤖 AI-Архивариус (Smart RAG): Умный чат-бот, который отвечает на вопросы суровым, документальным языком, опираясь исключительно на загруженные архивные документы.
- 🔐 Privacy-First AI: Генерация ответов и векторизация текста происходят локально с использованием
Ollama(Llama 3 8B) и локальных эмбеддингов. - 📚 База данных репрессированных: Удобный интерфейс карточек (Person Cards) с биографиями, статьями обвинения и датами реабилитации.
- 🔤 Алфавитный указатель: Быстрый поиск людей по алфавиту и фильтрация по профессиям.
- ⚡ Высокопроизводительный процессинг: C++ бэкенд для быстрой нарезки (chunking) и очистки сырых текстовых документов от "мусора".
Система построена на микросервисной архитектуре с использованием Docker Compose:
- Frontend (Streamlit): Пользовательский веб-интерфейс для чата, просмотра карточек и загрузки файлов.
- Backend (FastAPI / Python): Основное API, маршрутизация, бизнес-логика, авторизация (JWT) и оркестрация RAG-пайплайна.
- Processing Node (C++ httplib): Микросервис для лексического анализа, очистки Markdown и умного сплиттинга текста.
- Database (PostgreSQL): Хранение профилей людей (PersonCard), исходных документов, чанков и истории чатов.
- AI Engine (Ollama): Локальный инференс LLM для ответов на естественном языке.
Для запуска проекта вам потребуется установленный Docker и Docker Compose.
git clone https://github.com/Ваш_Пользователь/hackathon.git
cd hackathon