VoiceStreamAI是一个可以自己托管的 Whisper 解决方案,服务端是 Python,客户端是 JS,基于 WebSocket 实时通信,可以做到语音的实时传输和文本转换。
我们运用了Huggingface的语音活动检测(VAD)技术,以及OpenAI的Whisper模型,从而精确地识别和处理语音。
功能特性:
* 支持WebSocket,实现实时音频流的传输。
* 采用Huggingface的VAD技术,精确检测语音活动。
* 利用OpenAI的Whisper模型,完成语音转写。
* 可针对音频块进行个性化处理。
* 具备多语言转写功能。
相关导航
暂无评论...