Skip to content

Penelopen/Docker-composes

Repository files navigation

🐳 Конфигурации Docker Compose для Big Data

Каждая директория содержит отлаженный docker-compose.yml манифест с проверенным образом, готовый к запуску через docker compose up -d в Linux:

📂 Структура репозитория

  • Airflow/ — Среда оркестрации. Настроено монтирование локальной директории с готовыми ETL-DAG пайплайнами (логика загрузки, валидация, алертинг на почту).
  • Clickhouse/ — Колоночная СУБД. Конфигурация кластера из 4 нод (2 шарда, 2 реплики) с координацией через встроенный Keeper.
  • Greenplum/ — Реляционная MPP-СУБД. Кластер из Master и Segment нод во внутренней сети Docker.
  • Kafka/ — Брокер сообщений. Отказоустойчивый буфер для приема входящих потоков данных по API.
  • PySpark/ — Среда распределенной пакетной обработки данных на PySpark (версии 3.0 и 3.5.7) с веб-интерфейсом JupyterLab для кодинга.
  • hdfs-hive/ — Связка распределенной файловой системы Hadoop HDFS (например для хранения медиа) и метастора Apache Hive для выполнения SQL-запросов над файлами.

🧠 Важное замечание

  • Данный репозиторий — личный полигон для проверки совместимости версий Big Data стека, обкатки масштабирования баз и кастомной ETL/ELT-логики.
  • Невероятная лень и здравый смысл останавливают меня от дальнейшего наполнения этого файла..

About

My tuned docker compose files

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors