VoiceStreamAI - AI导航网官网

VoiceStreamAI是一个可以自己托管的 Whisper 解决方案，服务端是 Python，客户端是 JS，基于 WebSocket 实时通信，可以做到语音的实时传输和文本转换。

我们运用了Huggingface的语音活动检测（VAD）技术，以及OpenAI的Whisper模型，从而精确地识别和处理语音。

功能特性：

* 支持WebSocket，实现实时音频流的传输。
* 采用Huggingface的VAD技术，精确检测语音活动。
* 利用OpenAI的Whisper模型，完成语音转写。
* 可针对音频块进行个性化处理。
* 具备多语言转写功能。

相关导航

Mac 上的一个多模态 AI 助手，能支持语音和截图，借助 GPT-4V 的多模态能力，可以基于当前屏幕截图和指令可以回复问题。

一个可以将自己的照片上传并生成数字孪生的应用程序

一个基于深度学习的视频超分辨率（SR）和视频增强（VE）框架，由北京大学元培学院的研究团队开发。

在文本输入的同时立即开始语音合成，无需等待整个文本输入完毕。

高级语音和Deepfake神经网络工具

一个开源项目，它可以实现 API 形式的调用 AI 绘图。

暂无评论...