基于Whisper的GUI软件:Buzz:离线语音转文字(字幕)
Whisper 是什么?
Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:
质量 | 尺寸 | English-only model | Multilingual model | 必需的显存 | 行对速度 |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
功能
- CPU处理、兼容性强、速度比GPU慢
- 实时语音转文字、实时翻译(需麦克风权限)
- 导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)
特征
- 导入音频和视频文件并将成绩单导出为 TXT、SRT 和 VTT(演示)
- 从计算机麦克风到文本的转录和翻译(资源密集型,可能不是 实时,演示)
- 支持 Whisper, Whisper.cpp,faster-whisper, 兼容 Whisper 的 Hugging Face 型号,以及 OpenAI Whisper API
- 命令行界面
- 适用于 Mac、Windows 和 Linux
模型存放在哪里?
Whisper模型存储在~/.cache/wilsper中。
Whisper.cpp模型存储在~/Library/Caches/Buzz(Mac OS)、~/.cache/Buzz(Unix)或C:\Users\<username>\AppData\Local\Buzz\Buzz\cache(Windows)中。
Hugging 模型存储在~/.cache/huggingface/hub中。
获取地址
https://github.com/chidiwilliams/buzz
相关导航
暂无评论...