AdamOptimizer|AdamOptimizer Loss Null AdamOptimizerLossNull

【AdamOptimizer|AdamOptimizer Loss Null】之前一直用的的tensorflow的AdamOptimizer，由于想要复现下别人的论文，看到论文中的参数有momentum，因此需要用tf.train.MomentumOptimizer优化器，本来可以正常训练的代码再开始训练两步后就显示loss为NaN了。试了调整学习率和动量都没用。后来，到github上查了一下，发现有人提示修改如下.（参考链接https://github.com/tensorlayer/openpose-plus/issues/50）
opt = tf.train.MomentumOptimizer(lr_v, 0.9)
train_op = opt.minimize(total_loss, global_step=global_step)
将上面这段代码改为
tvars = tf.layers.get_variables_with_name('model', True, True)
grads, _ = tf.clip_by_global_norm(tf.gradients(total_loss, tvars), 100)
optimizer = tf.train.MomentumOptimizer(lr_v, 0.9)
train_op = optimizer.apply_gradients(zip(grads, tvars), global_step=global_step)
代码中第一行是获取可训练的变量，我换成了tf.trainable_variables()来实现。这样一来就可以正常训练了。
分析下原因吧，应该是momentum冲量过大导致梯度爆炸，因此需要对梯度进行约束。tf.clip_by_global_norm(tf.gradients(loss, tvars), 100) 就是约束梯度的函数，限制梯度值小于100。如此就不会因为梯度爆炸导致loss很大了。
查看tf.clip_by_global_norm的文档解释，发现文中提到该函数的耗时较长，因为需要计算全局梯度。tf.clip_by_norm函数是限制每个梯度值，因此耗时较短。又查找了一些材料后，可以将代码修改成如下：（参考链接https://blog.csdn.net/linuxwindowsios/article/details/67635867）
optimizer = tf.train.MomentumOptimizer(learning_rate, 0.9)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
if g is not None:
grads[i] = (tf.clip_by_norm(g, 100), v)# clip gradients
train_op = optimizer.apply_gradients(grads, global_step=global_step)

AdamOptimizer|AdamOptimizer Loss Null

推荐阅读

飞亚达手表回收飞亚达机械手表价格

知心爱人付笛声任静歌词知心爱人歌曲任静,付笛声简谱

识别情绪，控制和养成情绪

脊髓再生成功高位截瘫吧

广州积分入学小学积分后初中还要积分吗

耳朵疼是怎么回事

mysql模糊查询匹配最优 mysql多条件模糊查找

凝聚的近义词是什么词？凝聚的近义词是什么?

秦国是如何从弱小走向霸主的呢？

车辆保养多久做一次?汽车保养明细表大全车辆保养多久做一次

浅谈《伤寒论》的辨证思维方式

描能组什么词语

医生|50岁的阿姨抽出“猪油血”，医生提醒：春节饮食要注意

爱普生打印机固件刷机

对于非法出售增值税专用发票案公安追诉标准是多少

绘本讲师训练营【31期】20/21实践原创《鳄鱼怕怕，牙医怕怕》

快速调出照片的梦幻紫色调

吃啥降低胆固醇最快吃什么降低胆固醇最快

系统安全性分析

酸梅汤的功效与作用夏季喝酸梅汤有啥好处