An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 论文理解
作者(tonygsw)个人陈述:
这篇blog主要是根据“An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling ”,献给初学者不想直接看英文论文的同学,算是翻译+理解了
备注:黑体不是我自己写的,不是黑体的部分算是翻译吧
摘要:对与大多数搞序列建模的研究者,序列建模(sequence modeling)与RNN和LSTM有密切关系。几乎所有的语音识别,序列建模问题大都使用RNN和LSTM去搞得,但是最近的结果表明,卷积架构在音频合成和机器翻译等任务上可以胜过RNN。 给定一个新的序列建模任务或数据集,应该使用哪种架构? 我们对序列建模的通用卷积和循环架构进行了系统评估。 这些模型通过广泛的标准任务进行评估,这些任务通常用于对经常性网络进行基准测试。 我们的结果表明,简单的卷积体系结构优于规范的循环网络,例如跨越各种任务和数据集的LSTM,同时展示了更长的有效内存。 我们得出结论,应重新考虑序列建模和循环网络之间的共同关联,并应将卷积网络视为序列建模任务的自然起点。
摘要主要是提出了问题,表明你们这几年使用的RNN和LSTM在sequence modeling可能表现还不如CNN,下面我就会用很多实验在各个方面证明CNN会比RNN优秀(如果没有证明出来,就不会有这篇文章了)
1.简介:
之前就已经有人把cnn用到了sequence modeling中,而且表现十分出色,但只是特定领域,今天我们要对一个普适CNN模型和RNN模型在sequence modeling的各个方面进行比较,些任务包括复音音乐建模,单词和字符级语言建模,以及专门设计并经常用于对RNN进行基准测试的综合压力测试,而且作者贴出了自己的代码:开源表示我的文章可以经受检验(虽然我还没有去跑它)GitHub地址:http://github.com/locuslab/TCN,我厚颜无耻的把我的GitHub也放出来吧:https://github.com/tonygsw,大佬求放过
2.背景:
主要介绍了一些CNN的背景,以及这几年CNN用于sequence modeling的工作有哪些,然后有好多论文应用,大家如果感兴趣可以去看原文,如果把他在背景中提到对的文章都读一遍,也不得了了
【An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 论文理解】3:temporal convolution networks
1.提出了由于是sequence modeling, 即要考虑时间问题,就不能使用普通的CNN架构(普通的CNN架构主要对与图像,矩阵等非时间序列进行处理),就必须使用TCN(时间卷积网络),作者还提出:由于TCN是cnn的一个分支,他并不打算把TCN作为一种新型的网络架构,而这篇文章也不是为了解释TCN而写的
2.sequence modeling
所谓的序列建模 假设我们得到一个输入序列x0。。。。。。 xT,并希望预测一些相应的输出y0。。。。。yt(待更,可能不会了,我太懒了.....)
推荐阅读
- hibernate|hibernate异常——》org.hibernate.exception.GenericJDBCException: could not extract ResultSet
- 论文笔记(mixup: BEYOND EMPIRICAL RISK MINIMIZATION)
- ICLR2018_mixup:|ICLR2018_mixup: Beyond Empirical Risk Minimization
- mixup: Beyond Empirical Risk Minimization
- 经验模态分解
- [深度学习论文笔记][ICLR 18]mixup: BEYOND EMPIRICAL RISK MINIMIZATION
- cs61b week5 -- Generics, Autoboxing
- 机器学习|Mixup:Beyond Empirical Risk Minimization
- 视频|【Live555】live555源码详解(七)(GenericMediaServer、RTSPServer、RTSPClient)
- Java 5,6,7,8,9,10新特性