当前位置:首页 > 语音识别 > 正文

介绍语音识别的基本架构是什么

本文目录一览

∪▽∪智能声控的原理

语音声控的原理:
语音控系统总体架构由语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控模块组成。
(一)语音采集模块
语音采集模块主要完成信号调理和信号采集等功能,它将原始语音信号转换成语音脉冲序列,因此该模块主要包括声/电转换、信号调理和采样等信号处理过程。
(二)语音前级处理模块
语音前级处理模块的主要功能是滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化成标准语音特征矢量,因此该模块主要包括语音预处理、特征提取、矢量量化等语音信号处理过程。
(三)语音训练模块
语音训练模块的主要功能是将多次采集、提取的语音特征标准矢量进行概率统计,提取说话的最佳语音特征标准矢量,防止因说话心情、环境等因数引起提取特征参数不准确而影响语音识别效果,因此该模块主要包括概率统计、参数评估等处理过程,用隐马尔可夫模型(HMM模型)实现。
(四)语音识别模块
语音识别模块的主要功能是将重新采集的标准语音特征矢量与语音模板库中的语音模型进行比较,判断当前语音命令功能,因此该模块主要包括矢量比较与参数评估两个过程。
(五)语音提示模块
语音提示模块的主要功能是根据语音识别的结果提示用户进行相关作或说明当前完成的功能,因此该模块主要包括调用提示语音资源文件、D/A转换、信号放大等语音处理过程。
(六)输出控模块
输出控模块的主要功能是根据语音识别的结果输出相应的控信号,实现电灯、电、风扇等办公电器的语音控功能,因此该模块主要包括信号驱动、输出控器和控对象。
(七)语音模板库
语音模板库的主要功能是存储训练后的最佳标准语音特征矢量。

≥^≤语音识别的过程

语音识别的过程主要包括以下几个步骤:


1.语音采集:这是语音识别过程的第一步,也是非常关键的一步。 在这一步中,我们需要使用麦克风等设备来收集声音。 麦克风会将声音转换成电信号,这些电信号会传送到处理步骤中。


2.预处理:在收集到声音信号后,我们需要对其进行预处理。 预处理的主要目的是清理和增强信号,以去除噪音和其他干扰因素。 这一步通常包括降噪、滤波和标准化等作。


3.特征提取:这一步会从预处理后的声音信号中提取出有用的特征。 这些特征通常包括的频率、音调、音量等信息。 特征提取的方法有很多种,包括梅尔频率倒谱系数(MFCC)等。


4.模型训练:在这一步中,我们会使用训练数据来训练语音识别模型。 这些训练数据通常来自于工录音或者自动化的语音识别系统。 训练好的模型会用来对新的语音输入进行分类或识别。


5.模型应用:一旦模型训练完毕,我们就可以用它来对新的语音输入进行识别了。 这个过程通常涉及到将语音信号输入到模型中,然后模型会输出一个或多个结果,这些结果通常代表了语音中包含的词汇或句子。


6.后处理和输出:最后,我们会根据需要,对识别结果进行后处理和输出。 这可能包括将结果转化为文本、进行语法检查、提供发音名字等额外信息等。

?﹏?语音识别的系统实现

语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。 英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。 系统所需的训练数据大小与模型复杂度有关。 模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定、连续语音识别系统通常称为听写机。 其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。 训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。 对汉语易于分的特点,先进行分再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现机口语对话的系统称为对话系统。 受目前技术所限,对话系统往往是面向一个狭窄域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。 其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。 由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。