## 问题 当前 examples/ 下 7 个示例覆盖主要路由,但缺少反面对比、known-bad output 样本,不足以直观展示执行质量差异。 ## 需要做什么 - 从已知失败案例中提取有代表性的 bad output 加入 examples/ - 补充各路由的正反面示例对照 ## 参考 - ROADMAP.md P2 第二项 - 可从 evals/cases/ 中的已有案例提取
问题
当前 examples/ 下 7 个示例覆盖主要路由,但缺少反面对比、known-bad output 样本,不足以直观展示执行质量差异。
需要做什么
参考