语音识别

2021-07-07 熙诚 0


语音识别技术已经发展了几十年,直到2009年,Hin on把人工智能深度学习解决方案引入语音识别中,语音识别才 取得了巨大突破。本质上是把传统的混合高斯模型(GMM)替换成了深度神经网络(DNN)模型,传统GMM提取语音 特征(如左下图所示)经过多个过程,而DNN模型提取语音特征(如右下图所示)可以精简不少工作,不需要对语音数据分布进行假设,不需要切分成stream来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息,相对识别错误率一下降低20%多,这个改进幅度超过了过去很多年的总和。这里的关键是 把原来模型中通过GMM建模的手工特征换成了通过DNN进行更加复杂的特征学习。在此之后,在深度学习框架下,人 们还在不断利用更好的模型,如RNN,LSTM和更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到 99%,足以在实验测试以外的实际场景中应用,并且被广泛商用。