当前位置:首页 > 语音识别 > 正文

语音识别软件开发平台

本文目录一览∪^∪语音识别开放化开发平台有哪些语音识别的开发平台有很多,具体总结如下:(更详细的介绍,参见我的博文:几种常见语音交互平台的介绍与比较)
1语音交互平台
1)MicrosoftSpeechAPI
微软的SpeechAPI(简称SAPI)是微软发布的应用程序程接口(API),包括语音识别(SR)和语音合成(SS))引擎在Windows下面广泛使用。 目前,微软已经发布了多个SAPI版本(最新的是SAPI版本5.4),这些版本要么作为SpeechSDK开发套件发布,要么直接包含在Windows作系统中。 SAPI支多种语言的识别和阅读,包括英语、汉语、日语等。
2).IBMviaVoice
IBM是最早开始语音识别研究的机构之一。 20世纪50年代末,IBM开始研究语音识别语言模式并推导声音与其相应文本之间的统计相关性。 1999年,IBM发布了VoiceType的免费版本。 2003年,IBM授权ScanSoft拥有基于ViaVoice的桌面产品的全球独家经销权。 随后ScanSoft与Nuance合并。
3)Nuance
NuanceCommunications是一家跨计算机软件公司,总部位于美马萨诸塞州伯灵顿。 主要提供语音、解决方和应用。 目前业务主要集中在服务器和嵌入式语音识别、管理系统、自动簿服务等方面。 除了语音识别技术外,Nuance语音技术还包括语音合成、声纹识别等技术。 在世界语音技术场中,80%以上采用的是语音识别引擎技术。 它拥有1000多项专利技术。 公司开发的语音产品可支全球50多种语言20亿用户。 AppleiPhone4S的Siri语音识别中使用了Nuance的语音识别服务。
4)科大讯飞
科大讯飞作为内最大的智能语音技术提供商,在智能语音技术方面拥有期的研究积累,从事中文语音合成、语音识别、语音语言评估等多项技术取得际先成果。 占据中语音技术场60%以上的份额,语音合成产品场份额达到70%以上。
5)其他
其他有影响力的商业语音交互平台包括谷歌语音搜索(GoogleVoiceSearch)、百度、搜狗语音输入法等。
2开源-语音交互平台
1)CMU-Sphinx
CMU-Sphinx也称为Sphinx(斯芬克斯),是。 卡内基梅隆大学(CMU)开发的开源语音识别系统,它包括一系列语音识别器和声学模型的训练工具。 最早的Sphinx-I是@Kai-FuLee在1987年左右开发的,使用固定的HMM模型(包括3个大小为256的码本),号称第一个高性能连续语音识别系统(准确率达到90%)。 +onResourceManagement-数据库)。 最新的Sphinx语音识别系统包括以下软件包:
▪Pocketsphinx——用C语言写的识别器库。 Sphinxtrain——声学模型训练工具
这些软件包的可执行文件和源代码可以免费下载在Sourceforge上。
2)HTK
HTK是HiddenMarkovModelToolkit(隐马尔可夫模型工具包)的缩写,HTK主要用于语音识别研究),由机器智能实验室(原语音实验室)于1989年开发VisionandRoboticsGroup),并用于构建CUED的大词汇量语音识别系统。 HTK的最新版本是2009年发布的3.4.1版本。 关于HTK的实现原理以及各种工具的使用,请参见HTK文档HTKBook。
3)Julius
Julius是一个高性能、两通道大词汇量连续语音识别(LVCSR)开源项目,适合广泛的研究员和开发员。 它使用3克和上下文相关的HMM在当前PC上实现60k字量的实时语音识别。
4)RWTHASR
该工具箱包含自动语音识别技术的最新算法实现,该技术由RWTHAchen大学类语言技术和模式识别小组开发。 RWTHASR工具箱包括声学模型构建和解析等重要部分,以及说话自适应组件、说话自适应训练组件、无监督训练组件、个性化训练和文本根处理组件。
5)其他
上面提到的开源工具包主要用于语音识别,其他开源语音识别项目还有Kaldi、simon、iATROS-speech、SHoUT、ZanzibarOpenIVR等。 ≡(▔﹏▔)≡内提供语音识别接口的有哪些公司?目前中最好的有两家公司,科大讯飞和云之声。 “云智声”是为“搜狗语音助手”和“小爱机器”提供语音识别支的公司。
科大讯飞股份有限公司原名安徽科大讯飞股份有限公司,1999年12月30日成立,变更为科大讯飞股份有限公司。 2014年4月18日,科大讯飞股份有限公司专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务和电子政务系统集成。
现任科大讯飞信息技术股份有限公司董事、总裁为刘庆峰先生。 是一家专业从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的家骨干软件企业。 它是一个大股东。 包括:中移动、中科大资产管理有限公司、上海广信、联想投资、英富泰克等。 在语音技术域,是基础研究时间最的公司,资产规模最大、历次评估结果最好、才最专业、场占有率最高。 其智能语音核心技术代表了全球最高水平。
语音技术实现机语音交互,让与机器的沟通就像与之间的沟通一样简单。 语音技术主要包括语音合成和语音识别两大关键技术。 为了让机器说话,需要用到语音合成技术;为了使机器理解类的语音,需要使用语音识别技术。 此外,语音技术还包括语音码、音色转换、口语评估、语音去噪与增强等,具有广阔的应用空间。
搜狗语音助手是一款智能语音对话软件。 从本地生活信息、地图,到百科知识、便捷工具查询,再到新闻、等传统搜索,搜狗语音助手将这些整合到了自己的智能搜索库中。 用户可以通过语音轻松、自然地向搜狗语音助手提问——就像与朋友交谈一样——并在眨眼之间得到准确的答。 不仅如此,他还可以像私助理一样管理你的生活日程,还可以给你发短信、。 无聊的时候还可以和他聊天。
(#`′)凸开源免费的语音识别ASR工具开源ASR和免费语音识别工具提供多种选项,以满足不同的需求和场景。 下面是一些工具的详细介绍:
1.Athena:作为Apache2.0的开源序列转文本单词转文本引擎,适合研究员和开发员端到端语音处理并支ASR、语音合成等任务,所有语言模型均基于TensorFlow。
2.Buzz:基于OpenAIWhisper,是一款功能强大的离线语音识别软件,支多种语言,不需要互联网连接,保护隐私,适用于Windows、macOS和Linux系统。
3.Coqui:深度学习工具包,使用Mozilla公共许可证,支多语言转录,提供预训练模型和详细文档。
4DeepSearch:Mozilla团队的开源项目,基于深度语音搜索,支端到端训练、英语模型预训练以及可定数据的完善。
5.ESPnet:基于PyTorch的语音转文本工具,涵盖多种任务,支多种语言,并结合Kaldi风格的数据处理。
6FlashlightASR:FacebookAI的高效工具,专为处理大型数据集而设计,使用卷积神经网络来提高速度。
7FunASR:达摩院开源工具,包含语音识别、VAD等多种功能,并提供预训练模型和调整支正确。
8.Julius:一个古日文文字转文本项目,支多种语言,轻量级,适合学术研究。
9.Kaldi:专为语音识别研究员设计,用C++写,专注于传统声学模型。
10OpenSeq2Seq:Nvidia开源,用于逐序列训练模型,特别适合多卡和分布式计算。
11PaddleSpeech:Paddlepaddle平台上的工具,支语音识别、翻译等,中文模式效果不错。
12.SpeechBrain:促进语音技术研究的工具,支多种任务,使用PyTorch框架。
13.TensorflowASR:基于Tensorflow的深度学习工具,提供多种模型和TPU支。
14.Vosk:轻量级离线引擎,支多语言且移动友好。
15Whisper:OpenAI的大规模语音识别系统,可以转录和翻译多种语言。
这些工具各有优点,应根据项目需求、性能要求和系统兼容性来选择。