aihot  2017-11-04 22:03:05  机器学习 |   查看评论   

高级模型初始化技术

  至于模型初始化,《浅谈深度学习基础》也讲过了,就是自编码器和受限玻尔兹曼机。它们能对网络进行一定程度的预训练,在防止陷入局部最优或梯度消失上能起到一定的作用。

深度神经网络-隐马尔可夫模型混合系统(DNN-HMM)

  这里我们先给出两张图,分别是GMM-HMM和DNN-HMM的示意图:

GMM-HMM

GMM-HMM

  从图中可以看到,就像上文所说的,HMM中的状态序列就是语音识别的结果词汇序列,每种状态对应一种GMM,根据这个GMM可以得到该状态生成不同语音特征向量的概率。

  接下来是DNN-HMM:

DNN-HMM

DNN-HMM

  在混合系统中,HMM对语音信号的序列特性进行建模,DNN对所有聚类后的状态的似然度进行建模,这里对时间上的不同点采用同样的DNN。

  在20世纪90年代中叶,这种混合模型就已被提出,早期被称作ANN-HMM,通常只使用上下文无关的音素(音素是语音的最小单位)状态作为ANN训练的标注信息,随后被扩展到上下文相关的音素建模,再后来,浅层的神经网络被替换成DNN,其次使用聚类后的状态(绑定后的三音素状态)代替单音素状态作为神经网络的输出单元,这种改善后的ANN-HMM混合模型称为CD-DNN-HMM。与传统的GMM-HMM相比,性能有了重大的提升。

  在CD-DNN-HMM中,对于所有的状态,我们只训练一个完整的DNN来估计状态的后验概率,这与传统的GMM是不同的,因为GMM框架下,我们会使用多个不同的GMM对不同的状态建模。除此之外,典型的DNN输入不是单一的一帧,而是一个2ω+1帧大小的窗口特征,这使得相邻帧的信息可以被有效的利用。

CD-DNN-HMM的解码

  这里一定要说明的一点是,我们想一下,HMM对于符号发射概率分布的要求是什么?是给定某状态的前提下,产生某输出符号的概率。再考虑一下GMM是怎么做的,是每个状态给了一张GMM分布图,再根据输出符号,就能找到给定某状态的前提下,产生某输出符号的概率。但是DNN不一样,上面也说了,DNN的输入是一个多帧的语音向量,输出是不同状态的概率,也即与HMM的要求相反,DNN描述的是,给定某输出符号的前提下,该输出符号是由某个状态产生的概率。所以我们就需要通过贝叶斯公式将DNN计算出来的这个似然度转为HMM需要的后验概率。

贝叶斯公式

贝叶斯公式

  HMM要的是后验概率,也就是式子左边的,给定状态下,某输出符号的概率,DNN给的是式子右侧加粗的似然度,所以我们通过上式得到后延概率。P(Ot1)是语音向量出现的概率,与字词序列无关,这里可以忽略。P(St1)是某状态的先验概率,在缓解标注不平衡问题中是非常重要的,特别是训练句中包含很长静音段时就更是如此。

  
 

除特别注明外,本站所有文章均为 人工智能学习网 原创,转载请注明出处来自浅谈语音识别基础

留言与评论(共有 0 条评论)
   
验证码: