1. 前端处理
信号调理:清除噪音和失真
特征提取:从语音信号中提取有用的特征
2. 声学模型
统计模型:使用隐藏马尔可夫模型 (HMM) 或深度学习模型来表示语音中的声音模式
3. 语言模型
概率模型:预测单词序列的可能性,排除不可能的组合
4. 字典和发音
字典:包含系统识别的单词列表
发音词典:将单词映射到它们的语音发音
5. 解码器
搜索算法:使用声学和语言模型在特征空间中搜索可能的单词序列
6. 输出处理
翻译:将语音识别结果翻译成文本或其他所需格式
错误更正:更正解码器输出中的错误
其他可选系统:
噪声消除:在嘈杂环境中提高性能
扬声器识别:识别不同扬声器的语音
语义分析:理解识别文本的含义
基于会话的ASR:执行基于对话的信息检索或对话管理
![](http://img0.baidu.com/it/u=2380424534,3072174142&fm=253.jpg)