最后更新:2026-04-30 定位:直播视频 → 服装商品短视频的全自动管线
本文档基于竞品调研(35+ 工具/平台)、开源社区分析(20+ 项目)和学术前沿追踪,梳理出可落地的演进方向。按优先级和实现难度分四个阶段排列。
| 已有功能 | 说明 |
|---|---|
| 五信号换衣检测 | YOLO 46类 + MediaPipe + HSV×3 + ORB 纹理,支持多信号独立 EMA 或加权投票 |
| VLM 二次确认 | Qwen / GLM,按导出模式决定是否参与 |
| 多 ASR 支持 | 火山 VC 字幕(推荐)、火山 BigModel、阿里 DashScope |
| 字幕烧录 | 四模式(off / basic / styled / karaoke),逐字高亮 + 弹跳动画 |
| LLM 文本分析 | 识别换品边界,与视觉信号两层树融合 |
| BGM 自动选曲 | 双库架构(内置 + 用户上传),按商品类型匹配 |
| 智能封面 | 商品优先 / 主播优先双策略,遮挡检测 |
| 语气词/敏感词过滤 | 三级词表 + 视频裁剪 / 整段跳过 |
| AI 商品素材 | Gemini 识图 + OpenAI Image 模特图/详情图 |
| 视频变速 / 导出分辨率 | 0.5x-3x,1080p/4k/原画 |
| 片段审核 | 字幕草稿覆盖 + 单片段重导出 |
| 任务诊断 | 指标卡 + 漏斗图 + 事件日志 |
让切出来的片段更"好看"、更"能火"。
现状:切出片段后没有任何质量评分,用户不知道哪个最值得发。
目标:每个片段自动生成 0-100 的"传播潜力分",帮用户快速决策。
技术路径:
- 复用已有信号:封面质量分(
cover_selector.py的 Laplacian variance + 对比度)、字幕密度、片段时长 - 新增信号:语音能量方差(ASR segments 的 RMS 波动)、情感关键词密度("绝了"/"一定要"/"天啊")
- 可选增强:LLM 评分(给 LLM 片段摘要,问"这个开头能让人停下来吗?0-10分")
- 输出:
clip_xxx_meta.json新增viral_score字段,前端 Review 页按分数排序
参考:Opus Clip(0-99 分)、ReelClaw(Gemini 结构化评分 prompt)
工作量:~1 周 | 新增依赖:无
现状:片段起点由换衣检测时间戳决定,可能从"嗯、那个"等语气词开始,不吸引人。
目标:自动找到每个片段内最适合作为开头的 3-5 秒,重新编排起止点。
技术路径:
- 语音能量检测:计算每个 ASR 句子的 RMS 能量,标记能量突增点
- 情感关键词:在 ASR 文本中检测高情感词密度区
- 视觉运动分:帧间差分检测画面变化剧烈的时刻(换衣动作、展示动作)
- LLM 完整性评分:判断"这句话能否独立成立"(避免从半句话开始)
- 对片段起点做 reorder:将 hook 强度最高的 ASR 句子作为新起点
参考:Opus Clip(多模态 hook 检测,分析 1350 万片段得出"前 3 秒展示产品 > 自我介绍")
工作量:~2 周 | 新增依赖:无(复用 ASR + MediaPipe)
现状:有封面选择和商品素材工作台,但没有自动生成发布文案的能力。
目标:每个片段自动生成抖音/小红书风格的标题、文案和话题标签。
技术路径:
- 已有基础:Gemini
product_analysis.json(商品名/类别/颜色/材质)+copywriting.json(抖音/淘宝文案) - 新增:LLM 生成 3 组候选标题("这件毛衣显瘦 10 斤!"/"秋冬必入!显瘦高领毛衣"风格)
- 新增:基于商品类别 + 颜色 + 卖点自动生成 Hashtag(#秋冬穿搭 #显瘦毛衣 #小个子穿搭)
- 输出:
clip_xxx_meta.json新增suggested_titles、suggested_hashtags - 前端:Review 页展示候选标题,用户点选或编辑后一键复制
参考:所有竞品标配;BibiGPT 小红书卡片自动生成
工作量:~1 周 | 新增依赖:无(复用已有 LLM)
现状:每个片段独立导出,没有"精华混剪"能力。
目标:一键从所有片段中选出最佳 5-8 个,拼成 30-90 秒的精华集锦。
技术路径:
- 用 viral_score 选出 top N 片段(或 LLM 按"多样性"挑选——每个品类最多 1 个)
- 每个片段截取最精华的 5-8 秒(用 hook 检测的结果)
- FFmpeg concat + 交叉淡入淡出转场
- 加片头卡("直播精选 | XX场 | YY个爆款")和片尾("关注了解更多")
- 用已有 BGM 选择器选一首节奏明快的 BGM
参考:HeyGen Instant Highlights、TripleSumm(AAAI 2026 三模态融合摘要)
工作量:~1 周 | 新增依赖:无(复用 FFmpeg + 已有片段)
现状:直播录像经常画质差(模糊、噪点),但系统没有增强能力。
目标:可选地对模糊片段做超分辨率 + 人脸修复,提升观感。
技术路径:
- 集成 Real-ESRGAN(⭐30K,4x 超分辨率,~65MB 模型)
- 集成 GFPGAN(人脸修复,作为 Real-ESRGAN 插件)
- 选择性增强:只用
cover_selector.py的质量分判断是否需要增强,避免所有帧都处理 - 优先增强:封面帧 + 片段前 3 秒(最重要的视觉窗口)
- 设置项:新增
enable_video_enhance(默认关闭,因为需要 GPU)
参考:Real-ESRGAN + GFPGAN,业界成熟方案
工作量:~1 周 | 新增依赖:realesrgan(GPU 推理)| 注意:需 GPU,可选功能
让切出来的片段能一键发到各平台,适配不同格式。
现状:只输出 9:16 竖版 MP4,没有其他比例和平台适配。
目标:一次导出,自动生成抖音(9:16)、小红书(3:4)、视频号(9:16)、淘宝详情页(1:1 或 16:9)等多版本。
技术路径:
- 复用已有 YOLO + MediaPipe 人物检测结果做智能裁剪焦点
- 16:9 输出:基于人脸追踪做 Ken Burns 效果(缓慢平移)
- 1:1 输出:居中裁剪到人脸/商品区域
- 3:4 输出:小红书图文适配比例
- 各平台字幕风格预设(抖音大字 karaoke、小红书简洁白字、视频号标准样式)
- 平台时长优化(抖音 30-45s 最佳、小红书 15-30s)
参考:Google AutoFlip(开源智能裁剪)、Opus Clip "Reframe Anything"、Choppity(多人分屏)
工作量:~3 周 | 新增依赖:无
现状:只有视频输出,没有图文和海报能力。
目标:从片段自动生成小红书图文帖(封面图 + 卖点文案 + Hashtag)和商品海报(含价格/卖点/QR码)。
技术路径:
- 封面图:复用
cover_selector.py选出的最佳帧,加品牌水印和文字排版 - 卖点文案:复用 Gemini
copywriting.json+ LLM 生成小红书风格文案 - 商品海报:OpenAI Image 生成或模板引擎(HTML → 图片),含商品名/价格/卖点/QR码
- 批量输出:一次任务的所有片段批量生成图文素材
- 前端:Assets 页新增"生成图文"按钮,输出 PNG/HTML
参考:绘蛙(淘宝 AI 商品图)、BibiGPT(小红书卡片)、TapNow(跨平台商品图)
工作量:~3 周 | 新增依赖:无(复用已有 Gemini + OpenAI Image)
现状:有完整 transcript,但只用于字幕,没有内容复用。
目标:从 transcript 自动生成小红书种草文、微信公众号长文、SEO 博客等。
技术路径:
- 已有 transcript(
transcript.json)+ 商品分析(product_analysis.json) - LLM prompt 模板:按目标平台生成不同风格
- 小红书种草文:emoji + 口语化 + 卖点列表
- 微信公众号:结构化长文 + 段落标题
- SEO 博客:关键词优化 + H1/H2 结构 + 自动提取关键帧作为插图
- 输出:Markdown / HTML / 平台富文本
- 前端:任务完成页新增"生成文案"按钮
参考:BibiGPT(30+ 平台内容转换)、ConvertlyAI(10 格式一键生成)
工作量:~1 周 | 新增依赖:无
现状:每场直播的商品信息散落在多个 JSON 文件中,没有整合和检索能力。
目标:从多场直播积累商品知识,支持语义搜索和智能问答。
技术路径:
- 从 transcript + product_analysis + copywriting 提取结构化商品信息
- 向量化(Sentence Transformers)存入 ChromaDB(轻量嵌入式向量库)
- 支持查询:"上次直播那款红色连衣裙说了什么?"
- 自动 FAQ:从直播 Q&A 互动提取常见问题
- 跨直播检索:同一主播多场直播的商品信息整合
参考:youtube-rag-knowledge-base、shopassist-rag(电商 RAG)
工作量:~3 周 | 新增依赖:chromadb、sentence-transformers
让检测更准、管线更快、能力更强。
现状:五信号换衣检测全部基于单人设计,双人场景信号混杂。
目标:画面中 2+ 人时,独立追踪每个人的换衣变化。
技术路径:加 ByteTrack 人物追踪层 → 分人裁剪 → 独立运行五信号检测
📄 完整方案文档
工作量:~1-2 周 | 新增依赖:supervision(ByteTrack,~1MB)
现状:依赖火山引擎/阿里云 ASR API,长期使用有成本。
目标:支持 FunASR / SenseVoice 等开源 ASR 本地部署,降低反复使用成本。
技术路径:
- Fun-ASR 1.5(阿里达摩院,2026.4 发布):31 语言 + 七大汉语方言
- SenseVoiceSmall(234M 参数):ASR + 情感识别 + 语种检测 + 语音事件检测五合一
- emotion2vec(300M):语音情感识别,可检测主播"热情度"
- 作为
asr_provider新选项:funasr/sensevoice - 支持 Docker 内 GPU 推理(可选)或 CPU 推理
参考:FunASR(⭐10K)
工作量:~2-3 周 | 新增依赖:funasr 或 sensevoice(需 GPU 可选)
现状:片段只有原始直播音频,没有重新生成语音的能力。
目标:克隆主播声音,为片段自动生成商品介绍旁白;或翻译为多语言版本。
技术路径:
- CosyVoice 3.0(⭐20K,Apache-2.0):9 语言 + 18 方言零样本克隆,150ms 流式
- Fish Speech S2(⭐30K):80 语言,10-30s 参考音频即可克隆
- 使用场景:
- 用户上传 10-30s 主播纯净语音 → 克隆声音
- LLM 根据商品信息生成旁白文案 → TTS 用主播声音朗读
- FFmpeg 替换原始音频或混音
- 多语言:中文直播 → 自动生成英/日/韩配音版本
工作量:~3-4 周 | 新增依赖:cosyvoice 或 fish-speech(需 GPU)
现状:片段只有视频文件,没有商品关联和购物能力。
目标:片段自动关联商品库,生成可交互的"可购视频"播放器。
技术路径:
- 已有 Gemini 商品识别 → 生成商品名/类别/描述
- 新增:商品库导入(Shopify/WooCommerce CSV)→ 自动匹配
- 新增:生成可嵌入的 HTML 播放器,含热点标记(点击商品区域跳转购买页)
- 新增:片尾商品卡片(商品名 + 价格 + QR码 + "立即购买")
- 设置项:
enable_product_links、product_catalog_url
参考:Videowise、Whatmore(Shopify 商品视频匹配)、Firework AI
工作量:~2-3 周 | 新增依赖:无
现状:VLM 确认需要逐帧/逐候选调用,成本高、速度慢。
目标:用 Gemini 3 Flash 的 1M token 上下文(低分辨率下可处理 3 小时视频),替代当前 YOLO + VLM 两步走,从 N 次 API 调用降为 1 次。
技术路径:
- Gemini 3 Flash(
gemini-3-flash-preview)做主力分析:1M 上下文,$0.50/1M token,3 小时视频低分辨率仅 ~$0.69 - 可一次"看完"整场直播,直接输出所有换衣讲解节点(带时间戳)
- Context Caching 缓存视频 token 后,后续查询仅 $0.05/次(90% 折扣)
- 新增
media_resolution参数(low/medium/high)精细控制精度和成本 - 新增
thinking_level参数(minimal/low/medium/high)控制推理深度 - 混合策略:Flash 做粗筛 → 本地五信号做交叉验证 → 可选 3.1 Pro 做精细分析
- 作为
vlm_provider新选项:gemini_video - 渐进式:先作为可选项,不影响现有管线
模型选择:
| 模型 | 上下文 | 价格 | 适用场景 |
|---|---|---|---|
| Gemini 3 Flash | 1M | $0.50/1M | 主力分析,性价比最优 |
| Gemini 3.1 Pro | 1M | $2-4/1M | 高精度商品识别 |
| Gemini 3.1 Flash-Lite | 1M | $0.25/1M | 极低成本粗筛 |
参考:Gemini 3 官方文档 | 视频理解指南
工作量:~2 周 | 新增依赖:google-generativeai
前瞻性技术方向,等待 AI 能力或市场需求成熟。
直播进行中实时分析,直播结束即可产出片段。需要从 Celery 批处理架构转向流式架构(Redis Streams / Kafka)。
参考:闪剪(边播边切)、NVIDIA VSS(实时 VLM on RTSP)
工作量:6-8 周 | 架构变更:大
从商品文案自动生成数字人口播讲解视频,无需真人拍摄。
参考:InVideo AI(Product Twins v4.0)、FalcoCut、DeepBrain AI
工作量:4-6 周(集成第三方 API)或更长(自建)
商品图 → AI 模特试穿图,集成到 Commerce Workbench。
参考:Google Virtual Try-On、Hautech AI、MN-VTON(单网络实时 VTON)
工作量:3-4 周 | 注意:我们已有 OpenAI Image gpt-image-2 生图管线,是最自然的扩展
处理一场 3 小时直播 → 生成 20+ 片段 → 按最佳时间自动排期发布到抖音/小红书/视频号。
工作量:2-3 周 | 依赖:各平台 Open API
从静态封面升级为 Kling 3.0 生成的 3-5 秒动态封面,提升短视频点击率。
工作量:2 周 | 依赖:Kling API
| 工具 | 核心能力 | 我们的差异 |
|---|---|---|
| 蝉管家 | AI 直播复盘、弹幕情绪热力图、爆品探测器、千川 ROI | 我们专注视频切片,不做数据分析 |
| 飞瓜智投 | 直播回放切片、5 分钟转化看板、主播轮班考核 | 我们是开源可自部署,他们纯 SaaS |
| 闪剪 | 边播边切、数字人口播、智能包装 | 我们有深度换衣检测,他们不做视觉分析 |
| 抖音"一键成片" | 平台内置 AI 剪辑 | 我们跨平台、可自部署、支持更多定制 |
| 工具 | 核心能力 | 我们的差异 |
|---|---|---|
| Opus Clip | 病毒评分、ClipAnything 语义搜索、多语言字幕 | 通用工具不懂服装/商品;我们做垂直深度 |
| Vizard AI | AI 高光检测、品牌模板、API | 面向英文内容,不做中国市场适配 |
| Klap | AI 配音 29 语言、强重构图 | 我们有 BGM 选曲、换衣检测等 Klap 没有的能力 |
| 项目 | 值得借鉴的点 |
|---|---|
| OpenClip | 最接近我们的开源项目,支持说话人识别和 --user-intent 聚焦 |
| SupoClip | 完整 OpusClip 替代,Docker 自部署 |
| PreenCut | 自然语言查询片段,Whisper + LLM 语义分段 |
| Clip-Anything | GPT-4V 多模态理解,自然语言 prompt 找画面 |
通用切片工具不知道什么是"换了一件毛衣",不知道"这个片段在讲裙子"。我们知道。
- 服装电商专用的五信号换衣检测 — 46 类 YOLO + MediaPipe 像素分割 + HSV × 3 + ORB 纹理,没有任何竞品做到这个深度
- 两层树信号融合 — 视觉 candidates + LLM 文本边界的 Outfit/Product 双层架构
- 全链路商品理解 — 从视觉检测到 VLM 确认到 AI 商品素材生成,形成完整的商品内容管线
- 开源可自部署 — 数据不离开自己的服务器,对电商商家有隐私吸引力
| 阶段 | 时间 | 核心交付 | 用户价值 |
|---|---|---|---|
| Phase 1 | 1-3 月 | 病毒评分 + Hook 检测 + AI 文案 + 精彩集锦 + 画质增强 | 切出更"能火"的片段 |
| Phase 2 | 3-6 月 | 多平台适配 + 小红书图文 + 种草文 + 商品知识库 | 一键分发到全渠道 |
| Phase 3 | 6-12 月 | 双人支持 + 开源 ASR + 语音克隆 + 商品链接 + Gemini 3 长视频 | 更准、更便宜、更强 |
| Phase 4 | 12 月+ | 实时剪辑 + 数字人 + 虚拟试穿 + 排期发布 | 下一代直播 AI |