目前只支持 MP4 格式,编码要求 H.264 视频和 AAC 音频。这是绝大多数手机和直播平台录制视频的默认格式,通常不需要额外转码。上传时系统会自动检测视频编码,如果格式不对会给出提示。建议视频分辨率不超过 4K,时长控制在两小时以内,避免处理时间过长。
不需要。所有 AI 模型(换衣检测、服装识别、遮挡检测)都在 CPU 上运行,使用的是轻量化 ONNX 和 TFLite 模型。最低硬件要求是 8 核 CPU、16GB 内存、Docker 分配 4GB 给 Worker。处理速度取决于 CPU 性能,M4 Mac 大约 10 分钟能处理一条 20 分钟的直播视频。
以 20 分钟的直播视频为例,使用推荐配置(VLM 确认 + 火山 VC 字幕 + karaoke 字幕),整体处理约 10 分钟。其中 AI 检测占 3 分钟,VLM 确认约 1 分钟,字幕转写约 20 秒,视频导出约 5 分钟。关闭 VLM 和字幕可以缩短到 6 分钟左右。视频越长、片段越多,导出阶段耗时越久。
可以。片段审核页面支持字幕文本修改和起止时间调整,修改后点击"重导出"即可生成新的片段视频。修改只保存在审核覆盖层,不会破坏原始转写数据,可以反复修改。每次重导出只处理单个片段,不会重新跑整个流水线。
- 高质量字幕版:开启 VLM 确认 + 火山 VC 字幕 + karaoke 逐字高亮字幕,适合最终发布的短视频,效果最好但费用略高。
- 快速低成本版:跳过 VLM,使用最便宜的 ASR,不烧录字幕,适合快速浏览直播内容、筛选片段。
- 全量候选调试版:导出所有视觉候选片段,不做 VLM 筛选,用于调试切分效果,片段数量可能很多。
- 只切不烧字幕版:走完整检测管线但跳过字幕烧录,适合只需要原始片段、后续自己加字幕的场景。
推荐默认的"火山 VC 字幕"。它使用剪映同款引擎分句,逐字时间戳最准确,karaoke 跳字效果最好。阿里 DashScope 最便宜但逐字时间戳是均匀分配的假时间戳,只能用于 basic 字幕。火山 BigModel 标准版居中,时间戳真实但分句不如 VC 智能。如果你用 karaoke 字幕,必须选火山 VC。
这通常是 ASR 服务选错了。阿里 DashScope 的逐字时间戳是均匀分配的伪时间戳(每个字固定约 0.27 秒),不是真实语音节奏。用这个服务做 karaoke,跳字会显得机械且不同步。解决办法:在设置页把 ASR 切换为"火山 VC 字幕",然后重新上传任务。如果你只需要普通白字字幕,DashScope 没有这个问题。
可以。设置页的字幕设置页签里,位置支持"顶部"、"中部"、"底部"三个预设,以及"自定义"模式(拖拽滑块调整纵向位置)。字号分两层:普通字幕字号(默认 60)和 karaoke 高亮层字号(默认 72,更大更醒目)。修改后对新上传的任务生效,已有任务需要在审核页面重导出。
直播里主播经常说"嗯"、"那个"、"就是说"这类无意义口头语。开启语气词过滤后,系统会自动从字幕中删除这些词。有两种强度:"仅过滤字幕"只删字幕文本,不影响视频;"同时裁剪视频"会把语气词对应的短视频段也剪掉,让成片更干净。词表内置 38 个常见语气词,不需要手动维护。
片段数量受几个因素影响。换衣检测灵敏度越高,切出的片段越多;"整套搭配"粒度比"每件单品"粒度产出的片段少。如果片段太少,可以在设置页的切分策略里把粒度切为"每件单品",或者提高检测灵敏度。如果片段太多,可以开启 VLM 确认(选"智能"导出模式),让 AI 过滤掉误判的片段。也可以在审核页面手动跳过不满意的片段。
"每件单品"会把一套搭配里每件衣服各切成一个独立片段,比如主播同时展示毛衣和裙子,会产出两个片段。"整套搭配"会把整套搭配合为一个片段,适合做整体穿搭展示。如果你做单品种草,选"每件单品";做穿搭推荐,选"整套搭配"。
VLM(视觉语言模型)会对换衣检测产出的候选片段做二次确认,逐帧分析画面内容,判断这个片段是否真的在讲一件新商品。它能过滤掉主播只是换了个姿势、拿放道具等误判情况。开启 VLM 可以减少无效片段,推荐开启"智能"模式。
可以。导出模式选"跳过 VLM"或"全量候选"都可以不调用 VLM。跳过 VLM 不需要配置 VLM API Key,处理速度也会快一点,但片段精度会降低(可能出现误切)。"全量候选"模式会导出所有视觉检测到的候选,适合调试阶段使用。
在片段资产页面,勾选想下载的片段,底部会出现批量操作条,点击"批量下载"即可打包为 ZIP。单次最多下载 20 个片段,超过 20 个需要分批下载。也可以在审核页面逐个下载。下载的文件名包含片段编号和商品名,方便管理。
可能的原因:空镜过滤机制会自动丢弃画面中长时间没有人的片段(人物出现率低于 60% 或开头连续 8 秒无人)。如果你的视频开头有一段无人画面,对应的片段可能被过滤掉了。另外,如果开启了敏感词过滤且模式为"跳过整个片段",命中敏感词的片段会被直接跳过。可以在诊断页面查看被过滤的原因。
可以。设置页的"导出与音频"页签里有视频倍速选项,支持 0.5x 到 3x。默认 1.25 倍速,适合让讲解节奏更紧凑。字幕会跟语音时序保持一致,先烧录字幕再变速,不会出现声音和字幕错位的情况。
当前版本的封面由系统自动选择(根据商品区域大小、清晰度、是否被遮挡等综合评分)。如果你对封面不满意,可以在设置页切换封面策略:"商品优先"倾向选突出商品的帧,"主播优先"倾向选突出主播人脸的帧。手动更换封面的功能在后续版本中规划。
费用主要来自三个 API 调用:VLM 确认、ASR 转写、LLM 文本分析(如果开启)。以 20 分钟视频为例,使用推荐配置(VLM 确认 + 火山 VC 字幕 + 不开 LLM),VLM 约 ¥0.1-0.3,ASR 约 ¥2.2,总计约 ¥2-3。如果开启 LLM 文本分析,额外增加约 ¥0.1-0.5。这个价格不包含你自己的服务器运行成本。
关闭 VLM(选"跳过 VLM"模式)+ DashScope ASR + 关闭字幕,是最便宜的组合。20 分钟视频的 ASR 费用不到 ¥0.1,VLM 费用为零。但这个配置产出的片段精度较低,字幕时间戳不精确,只适合快速预览和筛选。
几个实用建议:先用"快速低成本版"预览一遍,找到值得精细处理的视频后,再用"高质量字幕版"重新处理。关闭不需要的功能(LLM 文本分析、BGM、karaoke 字幕)。ASR 是最大的费用项,basic 字幕用 DashScope 就够了,只有 karaoke 才必须用火山 VC。火山引擎各 ASR 服务都有 20 小时免费额度,新用户可以先薅免费额度试效果。