2021-05-16bert学习

MASK单词与原本的数据one-hot编码进行cross-entropy的loss计算
【cls】开始
【sep】中间
预测上下句的话,要使用上面两个符号
使用[cls]作为输出判断两个句子yes or true
防止因为使用某位置的self-attention输出导致与某个单词相关度过大

2021-05-16bert学习
文章图片
具体原因,图中分类为可以为情感分析,训练其中的线性分类器 bert的多任务,mask+预测的loss全加和,反向传播
【2021-05-16bert学习】bert加入三个embedding
多一个segment embedding就是多了一个句子分类(第一个句子,第二个句子)
position embedding不是正弦or余弦函数,而是可以训练的参数
bert任务3 自然语言推理NLI前提,后面是否正确
Q&A
[cls]question[segment]document
slot插槽填充
Embedding可以通过freeze=True冻死,防止反向传播时改变参数
可以使用nn.ModuleList保住多个模型,单单是一种数据结构

    推荐阅读