Каждая директория содержит отлаженный docker-compose.yml манифест с проверенным образом, готовый к запуску через docker compose up -d в Linux:
Airflow/— Среда оркестрации. Настроено монтирование локальной директории с готовыми ETL-DAG пайплайнами (логика загрузки, валидация, алертинг на почту).Clickhouse/— Колоночная СУБД. Конфигурация кластера из 4 нод (2 шарда, 2 реплики) с координацией через встроенный Keeper.Greenplum/— Реляционная MPP-СУБД. Кластер из Master и Segment нод во внутренней сети Docker.Kafka/— Брокер сообщений. Отказоустойчивый буфер для приема входящих потоков данных по API.PySpark/— Среда распределенной пакетной обработки данных на PySpark (версии 3.0 и 3.5.7) с веб-интерфейсом JupyterLab для кодинга.hdfs-hive/— Связка распределенной файловой системы Hadoop HDFS (например для хранения медиа) и метастора Apache Hive для выполнения SQL-запросов над файлами.
- Данный репозиторий — личный полигон для проверки совместимости версий Big Data стека, обкатки масштабирования баз и кастомной ETL/ELT-логики.
- Невероятная лень и здравый смысл останавливают меня от дальнейшего наполнения этого файла..