[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

sequence generation

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

每一步随机采样下一词
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


conditional sequence generation
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


dynamic sequence generation(attention)
encoder可能无法将所有输入都压缩到一个vector中
之前decoder每一步的输入都是一样的,现在让decoder每一步自己选择需要输入的信息
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


tips
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


transformer
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


多义词如何解决?
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

ELMO
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

【[李宏毅-机器学习]序列模型 Sequence to Sequence model】每一个词得到多个embedding,然后将这个多个embedding加权相加,其中的加权参数是通过整个任务学习出来的
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


BERT
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

输入一个句子,通过bert得到该句子的embedding
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


bert的输入句子的长度都不一样 是怎么学习参数的?
对不同词语使用同样的参数 并不是每个词都有一个对应参数 类似RNN 重复使用一套参数
self-attention可以堆叠很多层

ERNIE
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片


GPT
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

Bert是transformer的encoder,GPT是transformer的decoder
[李宏毅-机器学习]序列模型 Sequence to Sequence model
文章图片

只和已经产生的词进行attention

    推荐阅读