Lecture 4
主要内容
Classification background
Updating word vectors for classification
Window classification & cross entropy error derivation tips
A single layer neural network
Max-Margin loss and backprop
【deeplearn学习笔记 cs224n lecture4】分类开始和标注
分类直觉
softmax
训练softmax和交叉熵误差
KL散度
对完整数据集的分类
分类:正则化
ML优化
分类和词向量之间的区别
当再训练词向量时的一个陷阱
关于词向量的side note
Window classification
将一个窗口中相邻的词进行分类
eg命名实体识别
有很多种方法进行识别,但是这样会丢失位置坐标。
训练softmax分类器,通过对其周围的所有词向量的串联来对中心词进行分类。
最简单的window classier:softmax
Deriving gradients for window model 推到窗口模型渐变
Tip
1.仔细定义变量,并注意他们的维度
2.链式法则
3.softmax运用
4.当你对一个函数进行求导的时候,看看能不能创造一个包含所有偏导数的梯度
5.看不懂
6.当使用一个链式法则的时候,首先使用一个明确的金额,并且先看看一些偏导数。,
7.清理比较复杂的函数,了解矩阵的维数,简化矩阵。
8.如果不清楚就把他写满。
训练窗口模型的还需要注意的
J的梯度和W的softmax weights有关系
相似的步骤,先写Wij
Softmax (= logistic regression) alone not very powerful
Softmax只在原始空间中给出线性决策边界。
比较小的数据时效果好,大的时候效果差一点
大数据的时候神经网络获得胜利
揭秘神经网络
一个神经元本质上来说是一个二元逻辑回归
一个神经网络同时跑好几个逻辑回归
矩阵表示法对一层
神经网络的非线性为什么会被需要
如果没有非线性的特点,深度神经网络比线性变换不能多做任何事情。
额外的层可以被转化成一个线性转换
通过更多的层,神经网络层可以训练出更加复杂的函数
非标准化的二分类
假设我们想要区分中心词是一个位置。
命名实体识别
和word2vec相似,还是遍历所有语料库,但是这次只有一些位置我们会给比较高的分数。
在他们中心有一个实际的位置NER被称为”真实“的位置
概述:前馈计算
我们计算一个窗口的分数通过3层神经网络
对额外层的主要直觉
这一层学习非线性交流在输入的词向量中。
The max-margin loss
训练目标:使真正的窗口得分更大,不好的窗口得分更小。知道他们够好。
训练反向传播
大概就是利用了导数和反向传播
另外我们可以利用高层的计算重复计算底层的计算。
求出单个元素的词向量的分数的导数。
总结
超级有用的基础组件和真实模型
词向量训练
窗口
Softmax and cross entropy error
Scores and max-margin loss
神经网络