beam search解码原理(斯坦福 2014 论文解读)

论文:https://arxiv.org/pdf/1408.2873.pdf
题目:First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs

摘要

我们提出一种仅使用神经网络和语言模型来完成大词汇量连续语音识别的第一步的方法。 深度神经网络声学模型现在在基于HMM的语音识别系统中很普遍,但是构建这样的系统是一项复杂的,针对特定领域的任务。 最近的工作证明了通过直接预测音频中的文字文本来丢弃HMM序列建模框架的可行性。 本文通过两种方式扩展了这种方法。 首先,我们证明简单的递归神经网络体系结构可以实现较高的准确性。 其次,我们提出并评估了一种改进的前缀搜索解码算法。 这种解码方法可以使用语言模型进行第一步语音识别,而基于HMM的系统的繁琐基础结构完全不需要这种语言模型。 实验在《华尔街日报》语料库上证明了其相当有竞争力的单词错误率,以及双向网络重复的重要性。

1.介绍

现代大词汇量连续语音识别(LVCSR)系统很复杂,很难修改。 这种复杂性的大部分源于将单词建模为具有隐马尔可夫模型(HMM)的亚语音状态序列的范例。 基于HMM的系统需要精心设计的训练方法,以连续构造更复杂的HMM识别器。 建立,理解和修改基于HMM的LVCSR系统的总体困难限制了语音识别的进展,并将其与相关领域的许多进步相隔离。
最近,Graves&Jaitly(2014)展示了一种无HMM的方法来训练语音识别器,该方法使用神经网络直接预测给出语音发音的文本字符。这种方法放弃了现代基于HMM的LVCSR系统中存在的许多假设,而是将语音识别视为直接序列转换问题。该方法使用连接器时间分类(CTC&#x

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页
实付 49.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值