文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
sequence generation
文章图片
文章图片
每一步随机采样下一词
文章图片
conditional sequence generation
文章图片
文章图片
dynamic sequence generation(attention)
encoder可能无法将所有输入都压缩到一个vector中
之前decoder每一步的输入都是一样的,现在让decoder每一步自己选择需要输入的信息
文章图片
文章图片
文章图片
文章图片
tips
文章图片
文章图片
文章图片
文章图片
文章图片
transformer
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
多义词如何解决?
文章图片
文章图片
ELMO
文章图片
【[李宏毅-机器学习]序列模型 Sequence to Sequence model】每一个词得到多个embedding,然后将这个多个embedding加权相加,其中的加权参数是通过整个任务学习出来的
文章图片
BERT
文章图片
输入一个句子,通过bert得到该句子的embedding
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
bert的输入句子的长度都不一样 是怎么学习参数的?
对不同词语使用同样的参数 并不是每个词都有一个对应参数 类似RNN 重复使用一套参数
self-attention可以堆叠很多层
ERNIE
文章图片
GPT
文章图片
Bert是transformer的encoder,GPT是transformer的decoder
文章图片
只和已经产生的词进行attention
推荐阅读
- C语言学习|第十一届蓝桥杯省赛 大学B组 C/C++ 第一场
- paddle|动手从头实现LSTM
- pytorch|使用pytorch从头实现多层LSTM
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- pytorch|YOLOX 阅读笔记
- 前沿论文|论文精读(Neural Architecture Search without Training)
- 联邦学习|【阅读笔记】Towards Efficient and Privacy-preserving Federated Deep Learning
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- 深度学习|深度学习笔记总结
- 《繁凡的深度学习笔记》|一文绝对让你完全弄懂信息熵、相对熵、交叉熵的意义《繁凡的深度学习笔记》第 3 章 分类问题与信息论基础(中)(DL笔记整理