当前位置:首页 > 语音识别 > 正文

语音识别功能的技术原理

⓵语音识别的原理是什么?

特征提取模式与语音识别类比:语音识别的第一步是语音特征提取。

语音识别的第一步是语音特征提取,语音信号是在由肺、肺等器组成的语音产生系统中产生的。 体喉部的声路信号是一个高度不稳定的信号,其幅度谱和功率谱也随时间变化,但在相当短的时间内,其频谱特性相当稳定。

因此,在做语音分析时,我们大多采用帧划分进行短时分析,采用帧25ms和帧移10ms进行帧划分,并对功率等作进行计算在频谱上。 功率谱用于一些特征提取技术,例如MFCC和Fbank。

基本原理:

所谓语音识别就是将语音信号转换成相应的文本信息。 该系统主要包括特征提取和声学模型四个部分:语言模型、词典和解码。 为了更有效地提取特征,通常需要执行预处理任务,例如对收集到的声音信号进行过滤和分帧。

特征提取函数从原始信号中提取出待分析的信号后,将声音信号从时域转换到频域,为声学模型提供合适的特征向量,然后根据声学特性。 语言模型根据语言学相关原理和现有词典计算声音信号与可能的短语序列匹配的概率,以获得最终可能的文本表示。