语音识别系统模型通常由声学模型和语言模型两部分组成,分别对应音节对语音的概率计算和音节转换成单词的概率计算。 本节和下一节分别介绍声学模型和语言模型技术。
声学建模HMM:马尔可夫模型概念是离散时间状态机。 隐马尔可夫模型HMM是指这个马尔可夫模型的内部状态对于外界是不可见的,只能外界看到。 。 每个时刻的输出值。 对于语音识别系统,输出值通常是为每帧计算的声学签名。 为了使用HMM来描述语音信号,需要做出两个假设:一是内部状态转换仅与先前状态相关,二是输出值仅与当前状态(或当前状态的转换)相关。 当前状态)。 这两个假设显着降低了模型的复杂性。 HMM估计、解码和训练对应的算法是前向算法、维特比算法和前向-后向算法。
语音识别中使用的隐马尔可夫模型通常对识别基元进行建模,具有从左到右的单向拓扑结构,具有循环和覆盖范围。 一个音素是一个三到五状态的HMM和一个HMM。 一个单词是组成单词的几个音素的HMM,序列化形成HMM,整个连续语音识别模型就是一个将单词和静音结合在一起的HMM。
语境建模:发音是指声音在邻近声音的影响下发生的变化。 从发声机来看,类发声器的特性只有在旋转一种声音时才能发生变化。 对于另一个声音,梯度发生变化,从而使最后一个音调的频谱与其他条件下的频谱不同。 上下文感知建模方法在建模时考虑了这种影响,使得模型能够更准确地描述语音。 只考虑前一个声音影响的叫Bi-Phone,而考虑前一个声音影响的叫Bi-Phone。 前一个和后一个声音称为Bi-Phone,称为Tri-Phone。
基于上下文的英语建模通常使用音素作为基本单位。 由于某些音素对音素具有相同的影响,因此可以通过对音素解码状态进行聚类来分离模型参数。 聚类的结果称为senon。 决策树用于实现tryphon和senone之间的有效对应。 通过回答一系列有关前后辅音类别(元音/辅音、清音/浊音等)的问题,最终确定使用哪个声母。 为其HMM状态。 采用分类回归树CART模型进行逐字发音标注。
上一篇:语音识别系统的模型通常由
下一篇:语音识别转文字免费