AI Agent를 Production-ready하게 만드는 마크다운 기반 Harness Engineering Framework
이 저장소는 LLM(대형 언어 모델) 기반 AI Agent를 신뢰할 수 있게 Production 환경에 배포하기 위한 Harness Engineering Framework입니다.
핵심 철학: "LLM에게 말을 잘하게 하는 것은 Prompt Engineering이고, AI Agent를 믿을 수 있게 만드는 것은 Harness Engineering이다."
# prompts/analysis/paper-critique.md 참조
# 필요한 프롬프트를 복사하여 Claude Code에서 사용# Research → Analysis → Influence 파이프라인
# workflows/research-to-influence-pipeline.md 참조python tools/eval_runner.py --input ./evaluation/benchmarks/sample.mdharness-engineering/
├── prompts/ # 프롬프트 레지스트리
│ ├── registry.md # 모든 프롬프트 인덱스
│ ├── analysis/ # 분석용 프롬프트
│ │ ├── paper-summarize.md
│ │ └── paper-critique.md
│ └── generation/ # 생성용 프롬프트
│ └── linkedin-post.md
├── evaluation/ # 평가 시스템
│ ├── metrics.md # 메트릭스 정의
│ └── results/ # 실험 결과
├── workflows/ # 에이전트 워크플로우
│ └── research-to-influence-pipeline.md
├── configs/ # 모델 설정
│ └── models.yaml
├── guardrails/ # 제약 조건
│ ├── safety.md
│ └── format.md
└── tools/ # 유틸리티 스크립트
└── eval_runner.py
| Layer | 설명 | 예시 |
|---|---|---|
| Layer 1 | Prompt/Instruction | 시스템 프롬프트, few-shot examples |
| Layer 2 | Workflow/Tooling/Guardrails | 에이전트 워크플로우, 출력 검증 |
| Layer 3 | Infrastructure/Monitoring | 로깅, 메트릭 수집, CI/CD |
[논문/트렌드] → [READ & ANALYZE] → [THINK & CRITIQUE] → [BUILD & EXPERIMENT] → [LinkedIn/프로젝트]
│ │ │ │ │
Input prompts/ evaluation/ tools/ Output
analysis metrics eval_runner
- GitHub: github.com/waylake
- LinkedIn: linkedin.com/in/waylake
기여를 환영합니다! Please read CONTRIBUTING.md for details.
This project is MIT licensed.