Skip to content

Illuminated2020/DeepAgents-AutoGLM

Repository files navigation

🚀🧠 DeepAgents-AutoGLM

English | 中文

基于 deepagents 框架集成 AutoGLM 手机控制能力的开源智能助手,可在终端中运行,并支持 Android 和 iOS 设备自动化控制。

💡 项目亮点

相比原始 Open-AutoGLM 项目,本项目基于 deepagents 框架,通过中间件机制集成 AutoGLM,实现以下核心优势:

  • 🔗 能力组合:AutoGLM 与 Web 搜索、Shell、技能系统、记忆系统无缝协同,实现"搜索信息 → 分析决策 → 手机操作"全流程自动化
  • 🧠 智能分工:主 Agent 负责任务规划和复杂决策,子Agent phone_task 专注手机操作执行,职责边界清晰
  • 🎯 精细化操作:利用 Anthropic 提出的 Agent SKILL,可为特定应用(如小红书、QQ)定制精细化的操作流程,实现复杂场景的自动化任务
  • 🔌 模块化扩展:可插拔设计,AutoGLM 作为可选中间件,通过环境变量按需启用

典型场景示例

$ deepagents
> 搜索最新的 AI 新闻,总结成小红书风格的文案,然后在小红书上发布

# 执行流程:
# 1. web_search 搜索 AI 新闻
# 2. LLM 分析并生成小红书文案
# 3. 主Agent通过xiaohongshu-post skill 规划发布流程
# 4. 调用子Agent phone_task 执行手机操作(打开应用、输入、发布)
# 5. agent.md 记录发布历史

核心特性:

  • 内置工具集: 文件操作(读、写、编辑、搜索)、Shell 命令、网络搜索、子代理委托
  • 可定制技能: 通过渐进式披露技能系统添加特定领域能力
  • 持久化记忆: Agent 会记住您的偏好、编码风格和项目上下文
  • 项目感知: 自动检测项目根目录并加载项目特定配置
  • Android/iOS 自动化(可选): 集成 AutoGLM 实现智能手机控制(点击、滑动、输入等)
  • 视觉引导控制(可选): 使用视觉-语言模型理解和操作手机 GUI

deep agent

📺 实际演示

查看 DeepAgents-AutoGLM 在真实场景中的实际应用效果:

🚀 快速开始

基础安装

克隆本项目并安装依赖。

使用 pip 安装:

# 克隆仓库
git clone git@github.com:Illuminated2020/DeepAgents-AutoGLM.git
cd DeepAgents-AutoGLM

# 安装基础依赖
pip install -e .

或使用 uv(推荐):

# 克隆仓库
git clone git@github.com:Illuminated2020/DeepAgents-AutoGLM.git
cd DeepAgents-AutoGLM

# 创建虚拟环境并安装
uv venv
source .venv/bin/activate  # Linux/macOS
# 或 .venv\Scripts\activate  # Windows
uv pip install -e .

在终端中运行 Agent:

deepagents

像在聊天界面中一样自然输入。Agent 将使用其内置工具、技能和记忆来帮助您完成任务。

环境变量配置

在项目根目录创建 .env 文件来配置环境变量。您可以复制 .env.example 作为起点:

cp .env.example .env

然后根据需要编辑 .env 文件。以下是各环境变量的说明:

必需配置

环境变量 说明 示例值
OPENAI_API_KEY OpenAI API 密钥(或兼容的 API 密钥,支持 OpenAI、DeepSeek、通义千问等) sk-xxxx
OPENAI_MODEL 使用的模型名称 glm-4.7deepseek-v3.2gpt-5

可选配置

API 配置:

环境变量 说明 示例值
OPENAI_BASE_URL API 基础 URL(使用 OpenAI 官方服务时可不设置;使用其他兼容服务时必须设置) https://api.deepseek.com/v1
ANTHROPIC_API_KEY Anthropic API 密钥 (可使用Kimi Coding Plan、字节方舟Coding Plan等服务) sk-ant-xxxx
ANTHROPIC_BASE_URL Anthropic API 基础 URL https://api.anthropic.com
ANTHROPIC_MODEL Anthropic 模型名称 claude-4-5-sonnet

LangSmith 追踪(可选):

用于监控和调试 Agent 行为。在 https://smith.langchain.com/ 获取 API 密钥。

环境变量 说明 示例值
LANGSMITH_TRACING 是否启用 LangSmith 追踪 true / false
LANGSMITH_ENDPOINT LangSmith API 端点 https://api.smith.langchain.com
LANGSMITH_API_KEY LangSmith API 密钥 ls_xxxx
LANGSMITH_PROJECT LangSmith 项目名称 deepagents-project

Tavily 网络搜索(可选):

提供网络搜索能力。在 https://tavily.com/ 获取 API 密钥。

环境变量 说明 示例值
TAVILY_API_KEY Tavily API 密钥 tvly-xxxx

AutoGLM 配置(可选):

如果不需要使用 Android/iOS 自动化功能,设置 AUTOGLM_ENABLED=false 即可。详细配置请参考下方的 AutoGLM 安装 章节。

环境变量 说明 默认值
AUTOGLM_ENABLED 是否启用 AutoGLM 功能 false
AUTOGLM_PLATFORM 控制的平台:androidios android
AUTOGLM_LANG 系统提示词语言:zhen zh
AUTOGLM_MAX_STEPS 自主任务的最大步骤数 100
AUTOGLM_EXPOSE_LOW_LEVEL_TOOLS 是否向主 Agent 暴露底层工具 false
AUTOGLM_VERBOSE 是否启用详细日志 false

AutoGLM 视觉模型配置(当 AUTOGLM_ENABLED=true 时必需):

环境变量 说明 示例值
AUTOGLM_VISION_MODEL_URL 视觉模型 API 基础 URL 本地:http://localhost:8000/v1
智谱 AI:https://open.bigmodel.cn/api/paas/v4
AUTOGLM_VISION_MODEL_NAME 视觉模型名称 本地:autoglm-phone-9b
智谱 AI:autoglm-phone
AUTOGLM_VISION_API_KEY 视觉模型 API 密钥 本地:EMPTY
智谱 AI:API 密钥

AutoGLM Android 设备配置(当 AUTOGLM_PLATFORM=android 时可选):

环境变量 说明 示例值
AUTOGLM_DEVICE_ID ADB 设备 ID(留空则自动使用第一个连接的设备) USB:ABCD1234567890
WiFi:192.168.1.100:5555
模拟器:emulator-5554

AutoGLM iOS 设备配置(当 AUTOGLM_PLATFORM=ios 时):

环境变量 说明 示例值
AUTOGLM_WDA_URL WebDriverAgent URL http://localhost:8100
AUTOGLM_IOS_DEVICE_ID iOS 设备 UDID(留空则自动使用第一个连接的设备) 00008030-001234567890001E

AutoGLM 安装(可选 - Android/iOS 自动化)

如果需要使用 Android 或 iOS 设备自动化功能,请安装 AutoGLM 支持。

注意: AutoGLM 是可选功能,不安装也不影响 deepagents-cli 的其他功能使用。需要将AUTOGLM_ENABLED设置为false。

快速开始:

  1. 安装依赖

    pip install -e ".[autoglm]"
    # 或使用 uv
    uv pip install -e ".[autoglm]"
  2. Android 设备配置

    • 安装 ADB 工具:brew install android-platform-tools(macOS)
    • 启用 USB 调试:设置 → 开发者选项 → USB 调试
    • 安装 ADB Keyboard:用于文本输入
    • 配置视觉模型:本地部署或云端服务

    📚 详细步骤:Android 设备配置

  3. iOS 设备配置

    • 安装 Xcode 和配置开发者账号
    • 配置 WebDriverAgent:iOS 自动化核心组件
    • 启用 UI 自动化:设置 → 开发者 → UI 自动化
    • 配置视觉模型:本地部署或云端服务

    📱 详细步骤:iOS 设备配置

完整配置指南: 📚 AutoGLM 配置详解

Agent 配置

每个 Agent 都有自己的配置目录 ~/.deepagents/<agent_name>/,默认为 agent

# 列出所有配置的 Agent
deepagents list

# 创建新的 Agent
deepagents create <agent_name>

agent.md 文件

agent.md 文件提供持久化记忆,在每次会话开始时自动加载。全局和项目级别的 agent.md 文件会一起加载并注入到系统提示中。

全局 agent.md~/.deepagents/agent/agent.md

  • 您的个性、风格和通用编码偏好
  • 一般语气和沟通风格
  • 通用编码偏好(格式化、类型提示等)
  • 适用于所有场景的工具使用模式
  • 不随项目变化的工作流和方法论

项目 agent.md(项目根目录中的 .deepagents/agent.md

  • 项目特定的上下文和约定
  • 项目架构和设计模式
  • 此代码库特定的编码约定
  • 测试策略和部署流程
  • 团队指南和项目结构

工作原理(AgentMemoryMiddleware):

  • 在启动时加载两个文件,并作为 <user_memory><project_memory> 注入系统提示
  • 附加记忆管理指令,说明何时/如何更新记忆文件

项目记忆文件

除了 agent.md,您还可以在 .deepagents/ 中创建额外的记忆文件用于结构化项目知识。这些工作方式类似于 Anthropic 的记忆工具。Agent 会收到详细指令,说明何时读取和更新这些文件。

工作原理:

  1. [项目根]/.deepagents/ 中创建 Markdown 文件(例如 api-design.mdarchitecture.mddeployment.md
  2. Agent 在任务相关时检查这些文件(不会自动加载到每个提示中)
  3. Agent 在学习项目模式时使用 write_fileedit_file 创建/更新记忆文件

示例工作流:

# Agent 发现部署模式并保存
.deepagents/
├── agent.md           # 始终加载(个性 + 约定)
├── architecture.md    # 按需加载(系统设计)
├── deployment.md      # 按需加载(部署流程)
└── .env              # AutoGLM 和其他环境配置

Agent 何时读取记忆文件:

  • 在新会话开始时(检查存在哪些文件)
  • 在回答项目特定主题的问题之前
  • 当您引用过去的工作或模式时
  • 在执行与已保存知识领域匹配的任务时

技能(Skills)

技能是可重用的 Agent 能力,提供专业化的工作流和领域知识。examples/skills/ 目录中提供了示例技能:

  • web-research - 结构化网络研究工作流,包括规划、并行委托和综合
  • langgraph-docs - LangGraph 文档查找和指导
  • xiaohongshu-posting - 小红书自动发帖工作流,支持普通笔记和长文笔记发布

要在默认 Agent 中全局使用示例技能,只需将它们复制到 Agent 的全局或项目级技能目录:

# 创建技能目录
mkdir -p ~/.deepagents/agent/skills

# 复制单个技能
cp -r examples/skills/web-research ~/.deepagents/agent/skills/

# 或者一次性复制所有示例技能
cp -r examples/skills/* ~/.deepagents/agent/skills/

使用技能(例如 langgraph-docs 技能),只需输入与技能相关的请求,技能就会自动使用。

技能遵循 Anthropic 的渐进式披露模式 - Agent 知道技能存在,但仅在需要时读取完整指令。

路线图

✅ 已完成功能

  • ✅ AutoGLM 中间件集成(视觉引导手机控制)
  • ✅ 小红书自动发帖技能
  • ✅ 双层中断机制(Ctrl+C 优雅退出)
  • ✅ 长文本输入支持
  • ✅ 改进 AutoGLM 中的中断处理机制
  • ✅ iOS 设备支持
  • ✅ Android 敏感屏幕自动检测与人工接管(密码输入、支付确认等)
  • ✅ 同步官方DeepAgents-CLI更新

🚧 开发中 / 📋 计划中

  • 📋 更多手机操作技能(欢迎贡献!

贡献指南

欢迎贡献手机操作相关的技能(Skills)!

技能贡献方向

电商购物、社交媒体、生活服务、内容创作等方向的自动化技能。

如何贡献

推荐利用 skill-creator 技能来创建新技能:

# 1. 将 skill-creator 复制到你的技能目录
cp -r examples/skills/skill-creator ~/.deepagents/agent/skills/

# 2. 让 Agent 帮你创建技能
deepagents
> 帮我创建一个 [描述你的技能] 的技能
# Agent 会利用 skill-creator 引导你完成创建过程

或手动创建:

  1. 参考 examples/skills/xiaohongshu-posting/SKILL.md 了解技能格式
  2. 使用 deepagents skills create <skill-name> 创建技能框架
  3. 编写 SKILL.md(包含 YAML 元数据和使用说明)
  4. 提交 Pull Request 到 examples/skills/ 目录

更多与DeepAgents-CLI等相关信息请参阅 CLI 文档

致谢

本项目基于以下开源项目构建:

  • deepagents - 由 LangChain 提供的强大 Agent 框架
  • Open-AutoGLM - 由智谱 AI 提供的视觉引导手机自动化能力

感谢这些项目的贡献者们的辛勤工作和开源精神!

About

Integrate Open-AutoGLM's Android & iOS GUI automation into DeepAgents-CLI via LangChain Middleware, combining LLM orchestration with vision-guided GUI control.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors