语音识别的过程主要包括以下几个步骤:
1.语音采集:这是语音识别过程的第一步,也是非常关键的一步。 在这一步中,我们需要使用麦克风等设备来收集声音。 麦克风会将声音转换成电信号,这些电信号会传送到处理步骤中。
2.预处理:在收集到声音信号后,我们需要对其进行预处理。 预处理的主要目的是清理和增强信号,以去除噪音和其他干扰因素。 这一步通常包括降噪、滤波和标准化等作。
3.特征提取:这一步会从预处理后的声音信号中提取出有用的特征。 这些特征通常包括的频率、音调、音量等信息。 特征提取的方法有很多种,包括梅尔频率倒谱系数(MFCC)等。
4.模型训练:在这一步中,我们会使用训练数据来训练语音识别模型。 这些训练数据通常来自于工录音或者自动化的语音识别系统。 训练好的模型会用来对新的语音输入进行分类或识别。
5.模型应用:一旦模型训练完毕,我们就可以用它来对新的语音输入进行识别了。 这个过程通常涉及到将语音信号输入到模型中,然后模型会输出一个或多个结果,这些结果通常代表了语音中包含的词汇或句子。
6.后处理和输出:最后,我们会根据需要,对识别结果进行后处理和输出。 这可能包括将结果转化为文本、进行语法检查、提供发音名字等额外信息等。
语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。 英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。 系统所需的训练数据大小与模型复杂度有关。 模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定、连续语音识别系统通常称为听写机。 其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。 训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。 对汉语易于分的特点,先进行分再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现机口语对话的系统称为对话系统。 受目前技术所限,对话系统往往是面向一个狭窄域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。 其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。 由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。