English | 中文
基于 deepagents 框架集成 AutoGLM 手机控制能力的开源智能助手,可在终端中运行,并支持 Android 和 iOS 设备自动化控制。
相比原始 Open-AutoGLM 项目,本项目基于 deepagents 框架,通过中间件机制集成 AutoGLM,实现以下核心优势:
- 🔗 能力组合:AutoGLM 与 Web 搜索、Shell、技能系统、记忆系统无缝协同,实现"搜索信息 → 分析决策 → 手机操作"全流程自动化
- 🧠 智能分工:主 Agent 负责任务规划和复杂决策,子Agent
phone_task专注手机操作执行,职责边界清晰 - 🎯 精细化操作:利用 Anthropic 提出的 Agent SKILL,可为特定应用(如小红书、QQ)定制精细化的操作流程,实现复杂场景的自动化任务
- 🔌 模块化扩展:可插拔设计,AutoGLM 作为可选中间件,通过环境变量按需启用
典型场景示例:
$ deepagents
> 搜索最新的 AI 新闻,总结成小红书风格的文案,然后在小红书上发布
# 执行流程:
# 1. web_search 搜索 AI 新闻
# 2. LLM 分析并生成小红书文案
# 3. 主Agent通过xiaohongshu-post skill 规划发布流程
# 4. 调用子Agent phone_task 执行手机操作(打开应用、输入、发布)
# 5. agent.md 记录发布历史核心特性:
- 内置工具集: 文件操作(读、写、编辑、搜索)、Shell 命令、网络搜索、子代理委托
- 可定制技能: 通过渐进式披露技能系统添加特定领域能力
- 持久化记忆: Agent 会记住您的偏好、编码风格和项目上下文
- 项目感知: 自动检测项目根目录并加载项目特定配置
- Android/iOS 自动化(可选): 集成 AutoGLM 实现智能手机控制(点击、滑动、输入等)
- 视觉引导控制(可选): 使用视觉-语言模型理解和操作手机 GUI
查看 DeepAgents-AutoGLM 在真实场景中的实际应用效果:
- 🎨 小红书自动发布演示 - 展示如何使用 Agent 自动搜索内容、生成文案并发布到小红书
- 💬 QQ 未读消息自动回复演示 - 展示如何智能识别并自动回复 QQ 未读消息
克隆本项目并安装依赖。
使用 pip 安装:
# 克隆仓库
git clone git@github.com:Illuminated2020/DeepAgents-AutoGLM.git
cd DeepAgents-AutoGLM
# 安装基础依赖
pip install -e .或使用 uv(推荐):
# 克隆仓库
git clone git@github.com:Illuminated2020/DeepAgents-AutoGLM.git
cd DeepAgents-AutoGLM
# 创建虚拟环境并安装
uv venv
source .venv/bin/activate # Linux/macOS
# 或 .venv\Scripts\activate # Windows
uv pip install -e .在终端中运行 Agent:
deepagents像在聊天界面中一样自然输入。Agent 将使用其内置工具、技能和记忆来帮助您完成任务。
在项目根目录创建 .env 文件来配置环境变量。您可以复制 .env.example 作为起点:
cp .env.example .env然后根据需要编辑 .env 文件。以下是各环境变量的说明:
| 环境变量 | 说明 | 示例值 |
|---|---|---|
OPENAI_API_KEY |
OpenAI API 密钥(或兼容的 API 密钥,支持 OpenAI、DeepSeek、通义千问等) | sk-xxxx |
OPENAI_MODEL |
使用的模型名称 | glm-4.7、deepseek-v3.2、gpt-5 |
API 配置:
| 环境变量 | 说明 | 示例值 |
|---|---|---|
OPENAI_BASE_URL |
API 基础 URL(使用 OpenAI 官方服务时可不设置;使用其他兼容服务时必须设置) | https://api.deepseek.com/v1 |
ANTHROPIC_API_KEY |
Anthropic API 密钥 (可使用Kimi Coding Plan、字节方舟Coding Plan等服务) | sk-ant-xxxx |
ANTHROPIC_BASE_URL |
Anthropic API 基础 URL | https://api.anthropic.com |
ANTHROPIC_MODEL |
Anthropic 模型名称 | claude-4-5-sonnet |
LangSmith 追踪(可选):
用于监控和调试 Agent 行为。在 https://smith.langchain.com/ 获取 API 密钥。
| 环境变量 | 说明 | 示例值 |
|---|---|---|
LANGSMITH_TRACING |
是否启用 LangSmith 追踪 | true / false |
LANGSMITH_ENDPOINT |
LangSmith API 端点 | https://api.smith.langchain.com |
LANGSMITH_API_KEY |
LangSmith API 密钥 | ls_xxxx |
LANGSMITH_PROJECT |
LangSmith 项目名称 | deepagents-project |
Tavily 网络搜索(可选):
提供网络搜索能力。在 https://tavily.com/ 获取 API 密钥。
| 环境变量 | 说明 | 示例值 |
|---|---|---|
TAVILY_API_KEY |
Tavily API 密钥 | tvly-xxxx |
AutoGLM 配置(可选):
如果不需要使用 Android/iOS 自动化功能,设置 AUTOGLM_ENABLED=false 即可。详细配置请参考下方的 AutoGLM 安装 章节。
| 环境变量 | 说明 | 默认值 |
|---|---|---|
AUTOGLM_ENABLED |
是否启用 AutoGLM 功能 | false |
AUTOGLM_PLATFORM |
控制的平台:android 或 ios |
android |
AUTOGLM_LANG |
系统提示词语言:zh 或 en |
zh |
AUTOGLM_MAX_STEPS |
自主任务的最大步骤数 | 100 |
AUTOGLM_EXPOSE_LOW_LEVEL_TOOLS |
是否向主 Agent 暴露底层工具 | false |
AUTOGLM_VERBOSE |
是否启用详细日志 | false |
AutoGLM 视觉模型配置(当 AUTOGLM_ENABLED=true 时必需):
| 环境变量 | 说明 | 示例值 |
|---|---|---|
AUTOGLM_VISION_MODEL_URL |
视觉模型 API 基础 URL | 本地:http://localhost:8000/v1智谱 AI: https://open.bigmodel.cn/api/paas/v4 |
AUTOGLM_VISION_MODEL_NAME |
视觉模型名称 | 本地:autoglm-phone-9b智谱 AI: autoglm-phone |
AUTOGLM_VISION_API_KEY |
视觉模型 API 密钥 | 本地:EMPTY智谱 AI:API 密钥 |
AutoGLM Android 设备配置(当 AUTOGLM_PLATFORM=android 时可选):
| 环境变量 | 说明 | 示例值 |
|---|---|---|
AUTOGLM_DEVICE_ID |
ADB 设备 ID(留空则自动使用第一个连接的设备) | USB:ABCD1234567890WiFi: 192.168.1.100:5555模拟器: emulator-5554 |
AutoGLM iOS 设备配置(当 AUTOGLM_PLATFORM=ios 时):
| 环境变量 | 说明 | 示例值 |
|---|---|---|
AUTOGLM_WDA_URL |
WebDriverAgent URL | http://localhost:8100 |
AUTOGLM_IOS_DEVICE_ID |
iOS 设备 UDID(留空则自动使用第一个连接的设备) | 00008030-001234567890001E |
如果需要使用 Android 或 iOS 设备自动化功能,请安装 AutoGLM 支持。
注意: AutoGLM 是可选功能,不安装也不影响 deepagents-cli 的其他功能使用。需要将AUTOGLM_ENABLED设置为false。
快速开始:
-
安装依赖
pip install -e ".[autoglm]" # 或使用 uv uv pip install -e ".[autoglm]"
-
Android 设备配置
- 安装 ADB 工具:
brew install android-platform-tools(macOS) - 启用 USB 调试:设置 → 开发者选项 → USB 调试
- 安装 ADB Keyboard:用于文本输入
- 配置视觉模型:本地部署或云端服务
📚 详细步骤:Android 设备配置
- 安装 ADB 工具:
-
iOS 设备配置
- 安装 Xcode 和配置开发者账号
- 配置 WebDriverAgent:iOS 自动化核心组件
- 启用 UI 自动化:设置 → 开发者 → UI 自动化
- 配置视觉模型:本地部署或云端服务
📱 详细步骤:iOS 设备配置
完整配置指南: 📚 AutoGLM 配置详解
每个 Agent 都有自己的配置目录 ~/.deepagents/<agent_name>/,默认为 agent。
# 列出所有配置的 Agent
deepagents list
# 创建新的 Agent
deepagents create <agent_name>agent.md 文件提供持久化记忆,在每次会话开始时自动加载。全局和项目级别的 agent.md 文件会一起加载并注入到系统提示中。
全局 agent.md(~/.deepagents/agent/agent.md)
- 您的个性、风格和通用编码偏好
- 一般语气和沟通风格
- 通用编码偏好(格式化、类型提示等)
- 适用于所有场景的工具使用模式
- 不随项目变化的工作流和方法论
项目 agent.md(项目根目录中的 .deepagents/agent.md)
- 项目特定的上下文和约定
- 项目架构和设计模式
- 此代码库特定的编码约定
- 测试策略和部署流程
- 团队指南和项目结构
工作原理(AgentMemoryMiddleware):
- 在启动时加载两个文件,并作为
<user_memory>和<project_memory>注入系统提示 - 附加记忆管理指令,说明何时/如何更新记忆文件
除了 agent.md,您还可以在 .deepagents/ 中创建额外的记忆文件用于结构化项目知识。这些工作方式类似于 Anthropic 的记忆工具。Agent 会收到详细指令,说明何时读取和更新这些文件。
工作原理:
- 在
[项目根]/.deepagents/中创建 Markdown 文件(例如api-design.md、architecture.md、deployment.md) - Agent 在任务相关时检查这些文件(不会自动加载到每个提示中)
- Agent 在学习项目模式时使用
write_file或edit_file创建/更新记忆文件
示例工作流:
# Agent 发现部署模式并保存
.deepagents/
├── agent.md # 始终加载(个性 + 约定)
├── architecture.md # 按需加载(系统设计)
├── deployment.md # 按需加载(部署流程)
└── .env # AutoGLM 和其他环境配置Agent 何时读取记忆文件:
- 在新会话开始时(检查存在哪些文件)
- 在回答项目特定主题的问题之前
- 当您引用过去的工作或模式时
- 在执行与已保存知识领域匹配的任务时
技能是可重用的 Agent 能力,提供专业化的工作流和领域知识。examples/skills/ 目录中提供了示例技能:
- web-research - 结构化网络研究工作流,包括规划、并行委托和综合
- langgraph-docs - LangGraph 文档查找和指导
- xiaohongshu-posting - 小红书自动发帖工作流,支持普通笔记和长文笔记发布
要在默认 Agent 中全局使用示例技能,只需将它们复制到 Agent 的全局或项目级技能目录:
# 创建技能目录
mkdir -p ~/.deepagents/agent/skills
# 复制单个技能
cp -r examples/skills/web-research ~/.deepagents/agent/skills/
# 或者一次性复制所有示例技能
cp -r examples/skills/* ~/.deepagents/agent/skills/使用技能(例如 langgraph-docs 技能),只需输入与技能相关的请求,技能就会自动使用。
技能遵循 Anthropic 的渐进式披露模式 - Agent 知道技能存在,但仅在需要时读取完整指令。
- ✅ AutoGLM 中间件集成(视觉引导手机控制)
- ✅ 小红书自动发帖技能
- ✅ 双层中断机制(Ctrl+C 优雅退出)
- ✅ 长文本输入支持
- ✅ 改进 AutoGLM 中的中断处理机制
- ✅ iOS 设备支持
- ✅ Android 敏感屏幕自动检测与人工接管(密码输入、支付确认等)
- ✅ 同步官方DeepAgents-CLI更新
- 📋 更多手机操作技能(欢迎贡献!)
欢迎贡献手机操作相关的技能(Skills)!
电商购物、社交媒体、生活服务、内容创作等方向的自动化技能。
推荐利用 skill-creator 技能来创建新技能:
# 1. 将 skill-creator 复制到你的技能目录
cp -r examples/skills/skill-creator ~/.deepagents/agent/skills/
# 2. 让 Agent 帮你创建技能
deepagents
> 帮我创建一个 [描述你的技能] 的技能
# Agent 会利用 skill-creator 引导你完成创建过程或手动创建:
- 参考
examples/skills/xiaohongshu-posting/SKILL.md了解技能格式 - 使用
deepagents skills create <skill-name>创建技能框架 - 编写
SKILL.md(包含 YAML 元数据和使用说明) - 提交 Pull Request 到
examples/skills/目录
更多与DeepAgents-CLI等相关信息请参阅 CLI 文档。
本项目基于以下开源项目构建:
- deepagents - 由 LangChain 提供的强大 Agent 框架
- Open-AutoGLM - 由智谱 AI 提供的视觉引导手机自动化能力
感谢这些项目的贡献者们的辛勤工作和开源精神!
