FunASR 基础语音识别工具包

中国

AI编程AI开源项目

FunASR 基础语音识别工具包

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便...

标签：AI开源项目

链接直达手机查看

其他站点:github地址

阿里绘蛙

FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并推动语音识别生态的发展。让语音识别更有趣！

目前可以用cpu来部署，实测准确率还可以

FunASR 基础语音识别工具包

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调。
我们在ModelScope与huggingface上发布了大量开源数据集或者海量工业数据训练的模型，可以通过我们的模型仓库了解模型的详细信息。代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，详细信息可以阅读(服务部署文档)。

最新动态

2024/01/25: 中文离线文件转写服务 4.2、英文离线文件转写服务 1.3，优化vad数据处理方式，大幅降低峰值内存占用，内存泄漏优化；中文实时语音听写服务 1.7 发布，客户端优化；详细信息参阅(部署文档)
2024/01/09: funasr社区软件包windows 2.0版本发布，支持软件包中文离线文件转写4.1、英文离线文件转写1.2、中文实时听写服务1.6的最新功能，详细信息参阅(FunASR社区软件包windows版本)网址https://www.modelscope.cn/models/iic/funasr-runtime-win-cpu-x64/summary
2024/01/03: 中文离线文件转写服务 4.0 发布，新增支持8k模型、优化时间戳不匹配问题及增加句子级别时间戳、优化英文单词fst热词效果、支持自动化配置线程参数，同时修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档)
2024/01/03: 中文实时语音听写服务 1.6 发布，2pass-offline模式支持Ngram语言模型解码、wfst热词，同时修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档)
2024/01/03: 英文离线文件转写服务 1.2 发布，修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档)
2023/12/04: funasr社区软件包windows 1.0版本发布，支持中文离线文件转写、英文离线文件转写、中文实时听写服务，详细信息参阅(FunASR社区软件包windows版本)
2023/11/08：中文离线文件转写服务3.0 CPU版本发布，新增标点大模型、Ngram语言模型与wfst热词，详细信息参阅(部署文档)
2023/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅(部署文档)
2023/10/13: SlideSpeech: 一个大规模的多模态音视频语料库，主要是在线会议或者在线课程场景，包含了大量与发言人讲话实时同步的幻灯片。
2023.10.10: Paraformer-long-Spk模型发布，支持在长语音识别的基础上获取每句话的说话人标签。
2023.10.07: FunCodec: FunCodec提供开源模型和训练工具，可以用于音频离散编码，以及基于离散编码的语音识别、语音合成等任务。
2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅(部署文档)
2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅(部署文档)
2023.07.17: BAT一种低延迟低内存消耗的RNN-T模型发布，详细信息参阅（BAT）
2023.06.26: ASRU2023 多通道多方会议转录挑战赛2.0完成竞赛结果公布，详细信息参阅（M2MeT2.0）

安装教程

FunASR安装教程请阅读（Installation）

模型仓库

FunASR开源了大量在工业数据上预训练模型，您可以在模型许可协议下自由使用、复制、修改和分享FunASR模型，下面列举代表性的模型，更多模型请参考模型仓库。

（注：?表示Huggingface模型仓库链接，⭐表示ModelScope模型仓库链接）

模型名字	任务详情	训练数据	参数量
paraformer-zh (⭐ ? )	语音识别，带时间戳输出，非实时	60000小时，中文	220M
paraformer-zh-streaming ( ⭐ ? )	语音识别，实时	60000小时，中文	220M
paraformer-en ( ⭐ ? )	语音识别，非实时	50000小时，英文	220M
conformer-en ( ⭐ ? )	语音识别，非实时	50000小时，英文	220M
ct-punc ( ⭐ ? )	标点恢复	100M，中文与英文	1.1G
fsmn-vad ( ⭐ ? )	语音端点检测，实时	5000小时，中文与英文	0.4M
fa-zh ( ⭐ ? )	字级别时间戳预测	50000小时，中文	38M
cam++ ( ⭐ ? )	说话人确认/分割	5000小时	7.2M

相关导航

AudioGPT

借助大语言模型（LLM）处理音频的工具

llama2.c

纯 C 语言实现的 Llama 2 推理引擎

MaterialSearch AI本地文搜图、图搜图

MaterialSearch AI本地文搜图、图搜图

MaterialSearch是一个支持中文的本地素材搜索工具，可以扫描本地图片和视频，并支持自然语言进行搜索。可以文字搜图、以图搜图、文字搜视频、以图搜视频、图文相似度计算、Pexels视频搜索

LibreChat

一个增强版免费开源的ChatGPT程序，LibreChat 是一个免费开源的聊天机器人平台，集成了多种 AI 模型。

ChatGPT 中文指南，指令指南

ChatGPT 中文指南，指令指南

ChatGPT 中文指南项目旨在帮助中文用户了解和使用ChatGPT。我们收集了各种免费和付费的ChatGPT资源，以及如何更有效地使用中文与 ChatGPT 进行交流的方法。在这个仓库中，您将找到丰富的 ChatGPT工具、应用和示例。

macOSpilot

Mac 上的一个多模态 AI 助手，能支持语音和截图，借助 GPT-4V 的多模态能力，可以基于当前屏幕截图和指令可以回复问题。

暂无评论

暂无评论...