一个本地 Python CLI 项目:对视频/音频文件进行自动语音识别,生成字幕文件(默认 .srt),并可选将字幕软封装到视频或烧录到画面上。
- Python 3.9+
- ffmpeg(必须安装并加入 PATH)
- ASR:默认使用
faster-whisper
建议使用虚拟环境:
python -m venv .venv
.\.venv\Scripts\activate
python -m pip install -U pip
pip install -e .只生成字幕(推荐先用这个):
zimu "input.mp4"指定输出目录、模型、语言(不填语言则自动检测):
zimu "input.mp4" --out-dir outputs --model small --language zh生成 VTT:
zimu "input.mp4" --format vtt把字幕软封装进新视频(不压制画面,字幕可开关):
zimu "input.mp4" --mux --out "output.mkv"把字幕烧录进画面(会重新编码视频):
zimu "input.mp4" --burn --out "output.mp4"将纯音频 .wav 转为包含视频轨的 .mp4(视频轨默认黑屏;音频 AAC 编码):
python -m zimu.wav_to_mp4 input.wav
python -m zimu.wav_to_mp4 input.wav -o output.mp4
python -m zimu.wav_to_mp4 input.wav -o output.mp4 -b 192k
python -m zimu.wav_to_mp4 input.wav -o output.mp4 --size 1920x1080 --fps 30请安装 ffmpeg 并确保在命令行能运行:
ffmpeg -version首次运行会下载模型(体积较大)。你可以先用 --model tiny 试跑确认流程。