天行科技

python中文语音识别工具包

如果你知道答案,快来回答吧!

7878 人与,1 条评论

笃伯寒 2024-09-23 00:24:43

壹、ASRT:一个中文语音识别系统ASRT是AI博主Lemon开发的中文语音识别系统,它基于深度学习,使用CNN和CTC方法训练,准确率很高。 该系统包括声学模型和语言模型,提供基于ASRT的语音识别应用软件,支Windows10UWP和.Net平台。 深度学习在语音识别域有着深远的影响,ASRT使用深度全卷积神经网络,结合VGG网络配置,实现端到端的训练,将语音波形转录成中文拼音,然后转换成中文拼音。 通过最大熵隐马尔可夫文本的汉语拼音。 该项目使用Python的HTTP协议基础服务器包为网络的HTTP协议提供语音识别API。 系统流程包括特征提取、声学模型、CTC解码以及基于HTTP协议的语言模型API接口支语音识别功能。 客户端分为UWP和WPF,通过自动控录音和异步请求来实现时间连续的语音识别。 未来,ASRT将添加说话识别系统,实现实际AI应用中的“说话识别”行为。 该项目的源代码在GitHub上开源。

贰、有哪些较好的开源语音识别框架值得分享?推荐的开源语音识别项目是ASRT,一个基于深度学习的中文语音识别工具,提供高性能的API服务。
ASRT项目使用深度卷积神经网络(DCNN)和连接时间分类(CTC)作为其声学模型,在大量中文语音数据集上进行训练,并且可以将声音转换为中文拼音。 该语言模型将拼音序列转换为中文文本,在测试集上的准确率达到85%。
ASRT项目支各种网络协议。 客户端SDK支多种程语言和平台,并附带开源演示程序,您可以使用它快速入门语音。 认知能力。
对于语音算法工程师、前端和客户端软件开发员、服务器运维员,ASRT项目提供友好支,适合科学研究、获取应用产品功能或直接部署。
ASRT语音识别项目的核心技术包括特征提取、声学模型、CTCDecode、语言模型和API接口服务。 其中,特征提取将wav语音信号转换为神经网络所需的频谱图像信号。 声学模型采用DCNN+CTC将声学信号转换为拼音标签序列,并负责处理连续相同的符号并去除静音。 该语言模型基于概率图的马尔可夫模型,可将拼音序列转换为中文文本。
ASRT项目实现了支HTTP和gRPC协议的通用OpenAPI接口。 客户端或SDK可以直接调用API服务进行语音识别。
ASRT项目的客户端SDK和演示示例分为Windows客户端(C#和WPF技术)、Python版本、Golang版本和Java版本,以满足不同的开发需求。
有关ASRT语音识别项目的更多信息,请访问GitHub项目存储库和项目文档。