Skip to content

Latest commit

 

History

History
94 lines (49 loc) · 7.86 KB

File metadata and controls

94 lines (49 loc) · 7.86 KB

常见问题 (FAQ)

基础问题

1. 支持哪些视频格式?

目前只支持 MP4 格式,编码要求 H.264 视频和 AAC 音频。这是绝大多数手机和直播平台录制视频的默认格式,通常不需要额外转码。上传时系统会自动检测视频编码,如果格式不对会给出提示。建议视频分辨率不超过 4K,时长控制在两小时以内,避免处理时间过长。

2. 需要 GPU 吗?

不需要。所有 AI 模型(换衣检测、服装识别、遮挡检测)都在 CPU 上运行,使用的是轻量化 ONNX 和 TFLite 模型。最低硬件要求是 8 核 CPU、16GB 内存、Docker 分配 4GB 给 Worker。处理速度取决于 CPU 性能,M4 Mac 大约 10 分钟能处理一条 20 分钟的直播视频。

3. 处理一条视频要多久?

以 20 分钟的直播视频为例,使用推荐配置(VLM 确认 + 火山 VC 字幕 + karaoke 字幕),整体处理约 10 分钟。其中 AI 检测占 3 分钟,VLM 确认约 1 分钟,字幕转写约 20 秒,视频导出约 5 分钟。关闭 VLM 和字幕可以缩短到 6 分钟左右。视频越长、片段越多,导出阶段耗时越久。

4. 处理完还能重新编辑吗?

可以。片段审核页面支持字幕文本修改和起止时间调整,修改后点击"重导出"即可生成新的片段视频。修改只保存在审核覆盖层,不会破坏原始转写数据,可以反复修改。每次重导出只处理单个片段,不会重新跑整个流水线。

5. 四种预设有什么区别?

  • 高质量字幕版:开启 VLM 确认 + 火山 VC 字幕 + karaoke 逐字高亮字幕,适合最终发布的短视频,效果最好但费用略高。
  • 快速低成本版:跳过 VLM,使用最便宜的 ASR,不烧录字幕,适合快速浏览直播内容、筛选片段。
  • 全量候选调试版:导出所有视觉候选片段,不做 VLM 筛选,用于调试切分效果,片段数量可能很多。
  • 只切不烧字幕版:走完整检测管线但跳过字幕烧录,适合只需要原始片段、后续自己加字幕的场景。

ASR 与字幕

6. ASR 转写服务该选哪个?

推荐默认的"火山 VC 字幕"。它使用剪映同款引擎分句,逐字时间戳最准确,karaoke 跳字效果最好。阿里 DashScope 最便宜但逐字时间戳是均匀分配的假时间戳,只能用于 basic 字幕。火山 BigModel 标准版居中,时间戳真实但分句不如 VC 智能。如果你用 karaoke 字幕,必须选火山 VC。

7. 为什么 karaoke 字幕跳字不同步?

这通常是 ASR 服务选错了。阿里 DashScope 的逐字时间戳是均匀分配的伪时间戳(每个字固定约 0.27 秒),不是真实语音节奏。用这个服务做 karaoke,跳字会显得机械且不同步。解决办法:在设置页把 ASR 切换为"火山 VC 字幕",然后重新上传任务。如果你只需要普通白字字幕,DashScope 没有这个问题。

8. 可以调整字幕位置和大小吗?

可以。设置页的字幕设置页签里,位置支持"顶部"、"中部"、"底部"三个预设,以及"自定义"模式(拖拽滑块调整纵向位置)。字号分两层:普通字幕字号(默认 60)和 karaoke 高亮层字号(默认 72,更大更醒目)。修改后对新上传的任务生效,已有任务需要在审核页面重导出。

9. 语气词过滤是什么意思?

直播里主播经常说"嗯"、"那个"、"就是说"这类无意义口头语。开启语气词过滤后,系统会自动从字幕中删除这些词。有两种强度:"仅过滤字幕"只删字幕文本,不影响视频;"同时裁剪视频"会把语气词对应的短视频段也剪掉,让成片更干净。词表内置 38 个常见语气词,不需要手动维护。

处理与切分

10. 为什么切出来的片段太多或太少?

片段数量受几个因素影响。换衣检测灵敏度越高,切出的片段越多;"整套搭配"粒度比"每件单品"粒度产出的片段少。如果片段太少,可以在设置页的切分策略里把粒度切为"每件单品",或者提高检测灵敏度。如果片段太多,可以开启 VLM 确认(选"智能"导出模式),让 AI 过滤掉误判的片段。也可以在审核页面手动跳过不满意的片段。

11. "每件单品"和"整套搭配"有什么区别?

"每件单品"会把一套搭配里每件衣服各切成一个独立片段,比如主播同时展示毛衣和裙子,会产出两个片段。"整套搭配"会把整套搭配合为一个片段,适合做整体穿搭展示。如果你做单品种草,选"每件单品";做穿搭推荐,选"整套搭配"。

12. VLM 确认是做什么的?

VLM(视觉语言模型)会对换衣检测产出的候选片段做二次确认,逐帧分析画面内容,判断这个片段是否真的在讲一件新商品。它能过滤掉主播只是换了个姿势、拿放道具等误判情况。开启 VLM 可以减少无效片段,推荐开启"智能"模式。

13. 可以跳过 VLM 确认吗?

可以。导出模式选"跳过 VLM"或"全量候选"都可以不调用 VLM。跳过 VLM 不需要配置 VLM API Key,处理速度也会快一点,但片段精度会降低(可能出现误切)。"全量候选"模式会导出所有视觉检测到的候选,适合调试阶段使用。

导出与下载

14. 怎么批量下载片段?

在片段资产页面,勾选想下载的片段,底部会出现批量操作条,点击"批量下载"即可打包为 ZIP。单次最多下载 20 个片段,超过 20 个需要分批下载。也可以在审核页面逐个下载。下载的文件名包含片段编号和商品名,方便管理。

15. 为什么某个片段不见了?

可能的原因:空镜过滤机制会自动丢弃画面中长时间没有人的片段(人物出现率低于 60% 或开头连续 8 秒无人)。如果你的视频开头有一段无人画面,对应的片段可能被过滤掉了。另外,如果开启了敏感词过滤且模式为"跳过整个片段",命中敏感词的片段会被直接跳过。可以在诊断页面查看被过滤的原因。

16. 可以调整视频播放速度吗?

可以。设置页的"导出与音频"页签里有视频倍速选项,支持 0.5x 到 3x。默认 1.25 倍速,适合让讲解节奏更紧凑。字幕会跟语音时序保持一致,先烧录字幕再变速,不会出现声音和字幕错位的情况。

17. 封面图能换吗?

当前版本的封面由系统自动选择(根据商品区域大小、清晰度、是否被遮挡等综合评分)。如果你对封面不满意,可以在设置页切换封面策略:"商品优先"倾向选突出商品的帧,"主播优先"倾向选突出主播人脸的帧。手动更换封面的功能在后续版本中规划。

费用相关

18. 处理一条视频要花多少钱?

费用主要来自三个 API 调用:VLM 确认、ASR 转写、LLM 文本分析(如果开启)。以 20 分钟视频为例,使用推荐配置(VLM 确认 + 火山 VC 字幕 + 不开 LLM),VLM 约 ¥0.1-0.3,ASR 约 ¥2.2,总计约 ¥2-3。如果开启 LLM 文本分析,额外增加约 ¥0.1-0.5。这个价格不包含你自己的服务器运行成本。

19. 哪种配置最便宜?

关闭 VLM(选"跳过 VLM"模式)+ DashScope ASR + 关闭字幕,是最便宜的组合。20 分钟视频的 ASR 费用不到 ¥0.1,VLM 费用为零。但这个配置产出的片段精度较低,字幕时间戳不精确,只适合快速预览和筛选。

20. 怎么控制费用?

几个实用建议:先用"快速低成本版"预览一遍,找到值得精细处理的视频后,再用"高质量字幕版"重新处理。关闭不需要的功能(LLM 文本分析、BGM、karaoke 字幕)。ASR 是最大的费用项,basic 字幕用 DashScope 就够了,只有 karaoke 才必须用火山 VC。火山引擎各 ASR 服务都有 20 小时免费额度,新用户可以先薅免费额度试效果。