Skip to content

Latest commit

 

History

History
413 lines (263 loc) · 17.4 KB

File metadata and controls

413 lines (263 loc) · 17.4 KB

产品路线图(Roadmap)

最后更新:2026-04-30 定位:直播视频 → 服装商品短视频的全自动管线

本文档基于竞品调研(35+ 工具/平台)、开源社区分析(20+ 项目)和学术前沿追踪,梳理出可落地的演进方向。按优先级和实现难度分四个阶段排列。


当前能力概览

已有功能 说明
五信号换衣检测 YOLO 46类 + MediaPipe + HSV×3 + ORB 纹理,支持多信号独立 EMA 或加权投票
VLM 二次确认 Qwen / GLM,按导出模式决定是否参与
多 ASR 支持 火山 VC 字幕(推荐)、火山 BigModel、阿里 DashScope
字幕烧录 四模式(off / basic / styled / karaoke),逐字高亮 + 弹跳动画
LLM 文本分析 识别换品边界,与视觉信号两层树融合
BGM 自动选曲 双库架构(内置 + 用户上传),按商品类型匹配
智能封面 商品优先 / 主播优先双策略,遮挡检测
语气词/敏感词过滤 三级词表 + 视频裁剪 / 整段跳过
AI 商品素材 Gemini 识图 + OpenAI Image 模特图/详情图
视频变速 / 导出分辨率 0.5x-3x,1080p/4k/原画
片段审核 字幕草稿覆盖 + 单片段重导出
任务诊断 指标卡 + 漏斗图 + 事件日志

Phase 1:内容智能(1-3 个月)

让切出来的片段更"好看"、更"能火"。

1.1 病毒传播潜力评分

现状:切出片段后没有任何质量评分,用户不知道哪个最值得发。

目标:每个片段自动生成 0-100 的"传播潜力分",帮用户快速决策。

技术路径

  • 复用已有信号:封面质量分(cover_selector.py 的 Laplacian variance + 对比度)、字幕密度、片段时长
  • 新增信号:语音能量方差(ASR segments 的 RMS 波动)、情感关键词密度("绝了"/"一定要"/"天啊")
  • 可选增强:LLM 评分(给 LLM 片段摘要,问"这个开头能让人停下来吗?0-10分")
  • 输出:clip_xxx_meta.json 新增 viral_score 字段,前端 Review 页按分数排序

参考:Opus Clip(0-99 分)、ReelClaw(Gemini 结构化评分 prompt)

工作量:~1 周 | 新增依赖:无


1.2 Hook / 黄金 3 秒检测

现状:片段起点由换衣检测时间戳决定,可能从"嗯、那个"等语气词开始,不吸引人。

目标:自动找到每个片段内最适合作为开头的 3-5 秒,重新编排起止点。

技术路径

  • 语音能量检测:计算每个 ASR 句子的 RMS 能量,标记能量突增点
  • 情感关键词:在 ASR 文本中检测高情感词密度区
  • 视觉运动分:帧间差分检测画面变化剧烈的时刻(换衣动作、展示动作)
  • LLM 完整性评分:判断"这句话能否独立成立"(避免从半句话开始)
  • 对片段起点做 reorder:将 hook 强度最高的 ASR 句子作为新起点

参考:Opus Clip(多模态 hook 检测,分析 1350 万片段得出"前 3 秒展示产品 > 自我介绍")

工作量:~2 周 | 新增依赖:无(复用 ASR + MediaPipe)


1.3 AI 封面 + 标题 + Hashtag 自动生成

现状:有封面选择和商品素材工作台,但没有自动生成发布文案的能力。

目标:每个片段自动生成抖音/小红书风格的标题、文案和话题标签。

技术路径

  • 已有基础:Gemini product_analysis.json(商品名/类别/颜色/材质)+ copywriting.json(抖音/淘宝文案)
  • 新增:LLM 生成 3 组候选标题("这件毛衣显瘦 10 斤!"/"秋冬必入!显瘦高领毛衣"风格)
  • 新增:基于商品类别 + 颜色 + 卖点自动生成 Hashtag(#秋冬穿搭 #显瘦毛衣 #小个子穿搭)
  • 输出:clip_xxx_meta.json 新增 suggested_titlessuggested_hashtags
  • 前端:Review 页展示候选标题,用户点选或编辑后一键复制

参考:所有竞品标配;BibiGPT 小红书卡片自动生成

工作量:~1 周 | 新增依赖:无(复用已有 LLM)


1.4 自动精彩集锦(Highlight Reel)

现状:每个片段独立导出,没有"精华混剪"能力。

目标:一键从所有片段中选出最佳 5-8 个,拼成 30-90 秒的精华集锦。

技术路径

  • 用 viral_score 选出 top N 片段(或 LLM 按"多样性"挑选——每个品类最多 1 个)
  • 每个片段截取最精华的 5-8 秒(用 hook 检测的结果)
  • FFmpeg concat + 交叉淡入淡出转场
  • 加片头卡("直播精选 | XX场 | YY个爆款")和片尾("关注了解更多")
  • 用已有 BGM 选择器选一首节奏明快的 BGM

参考:HeyGen Instant Highlights、TripleSumm(AAAI 2026 三模态融合摘要)

工作量:~1 周 | 新增依赖:无(复用 FFmpeg + 已有片段)


1.5 低质量视频画质增强

现状:直播录像经常画质差(模糊、噪点),但系统没有增强能力。

目标:可选地对模糊片段做超分辨率 + 人脸修复,提升观感。

技术路径

  • 集成 Real-ESRGAN(⭐30K,4x 超分辨率,~65MB 模型)
  • 集成 GFPGAN(人脸修复,作为 Real-ESRGAN 插件)
  • 选择性增强:只用 cover_selector.py 的质量分判断是否需要增强,避免所有帧都处理
  • 优先增强:封面帧 + 片段前 3 秒(最重要的视觉窗口)
  • 设置项:新增 enable_video_enhance(默认关闭,因为需要 GPU)

参考:Real-ESRGAN + GFPGAN,业界成熟方案

工作量:~1 周 | 新增依赖realesrgan(GPU 推理)| 注意:需 GPU,可选功能


Phase 2:内容分发(3-6 个月)

让切出来的片段能一键发到各平台,适配不同格式。

2.1 多平台视频适配(智能裁剪 + 格式输出)

现状:只输出 9:16 竖版 MP4,没有其他比例和平台适配。

目标:一次导出,自动生成抖音(9:16)、小红书(3:4)、视频号(9:16)、淘宝详情页(1:1 或 16:9)等多版本。

技术路径

  • 复用已有 YOLO + MediaPipe 人物检测结果做智能裁剪焦点
  • 16:9 输出:基于人脸追踪做 Ken Burns 效果(缓慢平移)
  • 1:1 输出:居中裁剪到人脸/商品区域
  • 3:4 输出:小红书图文适配比例
  • 各平台字幕风格预设(抖音大字 karaoke、小红书简洁白字、视频号标准样式)
  • 平台时长优化(抖音 30-45s 最佳、小红书 15-30s)

参考:Google AutoFlip(开源智能裁剪)、Opus Clip "Reframe Anything"、Choppity(多人分屏)

工作量:~3 周 | 新增依赖:无


2.2 小红书图文 / 产品海报输出

现状:只有视频输出,没有图文和海报能力。

目标:从片段自动生成小红书图文帖(封面图 + 卖点文案 + Hashtag)和商品海报(含价格/卖点/QR码)。

技术路径

  • 封面图:复用 cover_selector.py 选出的最佳帧,加品牌水印和文字排版
  • 卖点文案:复用 Gemini copywriting.json + LLM 生成小红书风格文案
  • 商品海报:OpenAI Image 生成或模板引擎(HTML → 图片),含商品名/价格/卖点/QR码
  • 批量输出:一次任务的所有片段批量生成图文素材
  • 前端:Assets 页新增"生成图文"按钮,输出 PNG/HTML

参考:绘蛙(淘宝 AI 商品图)、BibiGPT(小红书卡片)、TapNow(跨平台商品图)

工作量:~3 周 | 新增依赖:无(复用已有 Gemini + OpenAI Image)


2.3 Transcript → 产品种草文 / 博客

现状:有完整 transcript,但只用于字幕,没有内容复用。

目标:从 transcript 自动生成小红书种草文、微信公众号长文、SEO 博客等。

技术路径

  • 已有 transcript(transcript.json)+ 商品分析(product_analysis.json
  • LLM prompt 模板:按目标平台生成不同风格
    • 小红书种草文:emoji + 口语化 + 卖点列表
    • 微信公众号:结构化长文 + 段落标题
    • SEO 博客:关键词优化 + H1/H2 结构 + 自动提取关键帧作为插图
  • 输出:Markdown / HTML / 平台富文本
  • 前端:任务完成页新增"生成文案"按钮

参考:BibiGPT(30+ 平台内容转换)、ConvertlyAI(10 格式一键生成)

工作量:~1 周 | 新增依赖:无


2.4 商品知识库(RAG)

现状:每场直播的商品信息散落在多个 JSON 文件中,没有整合和检索能力。

目标:从多场直播积累商品知识,支持语义搜索和智能问答。

技术路径

  • 从 transcript + product_analysis + copywriting 提取结构化商品信息
  • 向量化(Sentence Transformers)存入 ChromaDB(轻量嵌入式向量库)
  • 支持查询:"上次直播那款红色连衣裙说了什么?"
  • 自动 FAQ:从直播 Q&A 互动提取常见问题
  • 跨直播检索:同一主播多场直播的商品信息整合

参考:youtube-rag-knowledge-base、shopassist-rag(电商 RAG)

工作量:~3 周 | 新增依赖chromadbsentence-transformers


Phase 3:管线升级(6-12 个月)

让检测更准、管线更快、能力更强。

3.1 双人直播支持

现状:五信号换衣检测全部基于单人设计,双人场景信号混杂。

目标:画面中 2+ 人时,独立追踪每个人的换衣变化。

技术路径:加 ByteTrack 人物追踪层 → 分人裁剪 → 独立运行五信号检测

📄 完整方案文档

工作量:~1-2 周 | 新增依赖supervision(ByteTrack,~1MB)


3.2 ASR 开源自部署(降低成本)

现状:依赖火山引擎/阿里云 ASR API,长期使用有成本。

目标:支持 FunASR / SenseVoice 等开源 ASR 本地部署,降低反复使用成本。

技术路径

  • Fun-ASR 1.5(阿里达摩院,2026.4 发布):31 语言 + 七大汉语方言
  • SenseVoiceSmall(234M 参数):ASR + 情感识别 + 语种检测 + 语音事件检测五合一
  • emotion2vec(300M):语音情感识别,可检测主播"热情度"
  • 作为 asr_provider 新选项:funasr / sensevoice
  • 支持 Docker 内 GPU 推理(可选)或 CPU 推理

参考FunASR(⭐10K)

工作量:~2-3 周 | 新增依赖funasrsensevoice(需 GPU 可选)


3.3 语音克隆 / AI 商品旁白

现状:片段只有原始直播音频,没有重新生成语音的能力。

目标:克隆主播声音,为片段自动生成商品介绍旁白;或翻译为多语言版本。

技术路径

  • CosyVoice 3.0(⭐20K,Apache-2.0):9 语言 + 18 方言零样本克隆,150ms 流式
  • Fish Speech S2(⭐30K):80 语言,10-30s 参考音频即可克隆
  • 使用场景:
    1. 用户上传 10-30s 主播纯净语音 → 克隆声音
    2. LLM 根据商品信息生成旁白文案 → TTS 用主播声音朗读
    3. FFmpeg 替换原始音频或混音
    4. 多语言:中文直播 → 自动生成英/日/韩配音版本

工作量:~3-4 周 | 新增依赖cosyvoicefish-speech(需 GPU)


3.4 商品链接 / 可购视频

现状:片段只有视频文件,没有商品关联和购物能力。

目标:片段自动关联商品库,生成可交互的"可购视频"播放器。

技术路径

  • 已有 Gemini 商品识别 → 生成商品名/类别/描述
  • 新增:商品库导入(Shopify/WooCommerce CSV)→ 自动匹配
  • 新增:生成可嵌入的 HTML 播放器,含热点标记(点击商品区域跳转购买页)
  • 新增:片尾商品卡片(商品名 + 价格 + QR码 + "立即购买")
  • 设置项:enable_product_linksproduct_catalog_url

参考:Videowise、Whatmore(Shopify 商品视频匹配)、Firework AI

工作量:~2-3 周 | 新增依赖:无


3.5 Gemini 3 长视频分析(替代逐帧 VLM)

现状:VLM 确认需要逐帧/逐候选调用,成本高、速度慢。

目标:用 Gemini 3 Flash 的 1M token 上下文(低分辨率下可处理 3 小时视频),替代当前 YOLO + VLM 两步走,从 N 次 API 调用降为 1 次。

技术路径

  • Gemini 3 Flashgemini-3-flash-preview)做主力分析:1M 上下文,$0.50/1M token,3 小时视频低分辨率仅 ~$0.69
  • 可一次"看完"整场直播,直接输出所有换衣讲解节点(带时间戳)
  • Context Caching 缓存视频 token 后,后续查询仅 $0.05/次(90% 折扣)
  • 新增 media_resolution 参数(low/medium/high)精细控制精度和成本
  • 新增 thinking_level 参数(minimal/low/medium/high)控制推理深度
  • 混合策略:Flash 做粗筛 → 本地五信号做交叉验证 → 可选 3.1 Pro 做精细分析
  • 作为 vlm_provider 新选项:gemini_video
  • 渐进式:先作为可选项,不影响现有管线

模型选择

模型 上下文 价格 适用场景
Gemini 3 Flash 1M $0.50/1M 主力分析,性价比最优
Gemini 3.1 Pro 1M $2-4/1M 高精度商品识别
Gemini 3.1 Flash-Lite 1M $0.25/1M 极低成本粗筛

参考Gemini 3 官方文档 | 视频理解指南

工作量:~2 周 | 新增依赖google-generativeai


Phase 4:探索方向(12 个月+)

前瞻性技术方向,等待 AI 能力或市场需求成熟。

4.1 实时直播剪辑

直播进行中实时分析,直播结束即可产出片段。需要从 Celery 批处理架构转向流式架构(Redis Streams / Kafka)。

参考:闪剪(边播边切)、NVIDIA VSS(实时 VLM on RTSP)

工作量:6-8 周 | 架构变更:大


4.2 数字人商品视频

从商品文案自动生成数字人口播讲解视频,无需真人拍摄。

参考:InVideo AI(Product Twins v4.0)、FalcoCut、DeepBrain AI

工作量:4-6 周(集成第三方 API)或更长(自建)


4.3 虚拟试穿

商品图 → AI 模特试穿图,集成到 Commerce Workbench。

参考:Google Virtual Try-On、Hautech AI、MN-VTON(单网络实时 VTON)

工作量:3-4 周 | 注意:我们已有 OpenAI Image gpt-image-2 生图管线,是最自然的扩展


4.4 批量排期发布

处理一场 3 小时直播 → 生成 20+ 片段 → 按最佳时间自动排期发布到抖音/小红书/视频号。

工作量:2-3 周 | 依赖:各平台 Open API


4.5 动态封面视频

从静态封面升级为 Kling 3.0 生成的 3-5 秒动态封面,提升短视频点击率。

工作量:2 周 | 依赖:Kling API


竞品参考

中国直播工具

工具 核心能力 我们的差异
蝉管家 AI 直播复盘、弹幕情绪热力图、爆品探测器、千川 ROI 我们专注视频切片,不做数据分析
飞瓜智投 直播回放切片、5 分钟转化看板、主播轮班考核 我们是开源可自部署,他们纯 SaaS
闪剪 边播边切、数字人口播、智能包装 我们有深度换衣检测,他们不做视觉分析
抖音"一键成片" 平台内置 AI 剪辑 我们跨平台、可自部署、支持更多定制

国际视频切片工具

工具 核心能力 我们的差异
Opus Clip 病毒评分、ClipAnything 语义搜索、多语言字幕 通用工具不懂服装/商品;我们做垂直深度
Vizard AI AI 高光检测、品牌模板、API 面向英文内容,不做中国市场适配
Klap AI 配音 29 语言、强重构图 我们有 BGM 选曲、换衣检测等 Klap 没有的能力

开源参考

项目 值得借鉴的点
OpenClip 最接近我们的开源项目,支持说话人识别和 --user-intent 聚焦
SupoClip 完整 OpusClip 替代,Docker 自部署
PreenCut 自然语言查询片段,Whisper + LLM 语义分段
Clip-Anything GPT-4V 多模态理解,自然语言 prompt 找画面

核心竞争优势(护城河)

通用切片工具不知道什么是"换了一件毛衣",不知道"这个片段在讲裙子"。我们知道。

  1. 服装电商专用的五信号换衣检测 — 46 类 YOLO + MediaPipe 像素分割 + HSV × 3 + ORB 纹理,没有任何竞品做到这个深度
  2. 两层树信号融合 — 视觉 candidates + LLM 文本边界的 Outfit/Product 双层架构
  3. 全链路商品理解 — 从视觉检测到 VLM 确认到 AI 商品素材生成,形成完整的商品内容管线
  4. 开源可自部署 — 数据不离开自己的服务器,对电商商家有隐私吸引力

实施节奏建议

阶段 时间 核心交付 用户价值
Phase 1 1-3 月 病毒评分 + Hook 检测 + AI 文案 + 精彩集锦 + 画质增强 切出更"能火"的片段
Phase 2 3-6 月 多平台适配 + 小红书图文 + 种草文 + 商品知识库 一键分发到全渠道
Phase 3 6-12 月 双人支持 + 开源 ASR + 语音克隆 + 商品链接 + Gemini 3 长视频 更准、更便宜、更强
Phase 4 12 月+ 实时剪辑 + 数字人 + 虚拟试穿 + 排期发布 下一代直播 AI