AI编程AI开源项目AI语音转文字

Buzz:离线开源免费语音转文字(字幕)翻译站点

基于Whisper的GUI软件:Buzz:离线语音转文字(字幕)

标签:
阿里绘蛙

基于Whisper的GUI软件:Buzz:离线语音转文字(字幕)

Buzz:离线开源免费语音转文字(字幕)

Whisper 是什么?

Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:

质量尺寸English-only modelMultilingual model必需的显存行对速度
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x

功能

  • CPU处理、兼容性强、速度比GPU慢
  • 实时语音转文字、实时翻译(需麦克风权限)
  • 导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)

特征

模型存放在哪里?

Whisper模型存储在~/.cache/wilsper中。

Whisper.cpp模型存储在~/Library/Caches/Buzz(Mac OS)、~/.cache/Buzz(Unix)或C:\Users\<username>\AppData\Local\Buzz\Buzz\cache(Windows)中。

Hugging 模型存储在~/.cache/huggingface/hub中。

获取地址

https://github.com/chidiwilliams/buzz

相关导航

暂无评论

暂无评论...