当前位置：首页 > 语音识别 > 正文

20款语音识别开源模型清单

语音识别
2024-09-24 01:51:45
9419

咱们来聊聊最近科技圈的热门话题——语音识别开源模型！现在面上可是有很多厉的模型，咱们就来个清单，看看都有哪些好东西：
1. OpenAI Whisper
这个可是大热门，能识别多种语言，识别效果超级棒，还能处理不同的口音和噪音。
2. 阿里云通义千问 SenseVoice
这可是阿里的黑科技，支多种语言，情感识别也特别牛。
3. 阿里云通义千问 CosyVoice
和SenseVoice是一对好搭档，专门干语音生成那事。
4. 百度飞桨 PaddlePaddle
百度家的，支中文语音识别，识别速度和准确度都不错。
5. 科大讯飞 iFLYTEK
科大讯飞的语音识别技术也是内顶尖的，支多种语言识别。
6. 腾讯云 TTS
腾讯的语音合成技术，也能用来识别语音，挺全面的。
7. 京东智联云 AILABS
京东的AI实验室也推出了自己的语音识别模型。
8. 华为云 ModelArts
华为云提供的语音识别服务，支多种语言和方言。
9. 智谱AI Zhipu
智谱AI推出的语音识别模型，支多种语言和方言。
10. 百度AI Deep Speech
百度AI的语音识别技术，同样支多种语言。
11. 清华大学 THUMT
清华大学的语音识别项目，专注于语音到文本的转换。
12. 中科学技术大学 USTC-ASR
中科大推出的语音识别模型，性能不错。
13. 中传媒大学 CMU-ASR
传媒大学的语音识别技术，也比较有特色。
14. AIoT语音识别模型
这个是比较泛的概念，很多公司都有自己的AIoT语音识别解决方。
15. 微软 Azure Speech Services
微软的语音服务，支多种语言和方言。
16. 谷歌 Cloud Speech-to-Text
谷歌的语音识别服务，全球使用广泛。
17. IBM Watson Speech to Text
IBM的语音识别服务，功能强大。
18. 亚马逊 Polly
亚马逊的语音合成服务，同样可以用于语音识别。
19. 智谱AI的Whisper-Medusa
这是个新晋的语音识别模型，速度超快，比Whisper还快。
20. 阿里开源语音大模型 FunAudioLLM
包括SenseVoice和CosyVoice，都是阿里最近开源的语音识别和生成模型。
这个清单里的模型各有各的特色，如果你对语音识别感兴趣，可以去试试这些开源模型，说不定能找到你心仪的那一款呢！