Pytorch有什么节省内存(显存)的小技巧()
点击上方“机器学习与生成对抗网络”,关注"星标"【Pytorch有什么节省内存(显存)的小技巧()】
获取有趣、好玩的前沿干货!
文章图片
戳我,查看GAN的系列专辑~!
正文之前的福利:
120元买300元的书!!!扫以下码,购买/搜索心仪的书(减30优惠券: CAWY3S ),6月20号结束:
文章图片
▲ 长按我!
------------------------------
正文:
问题:在用pytorch实现一个tensorflow project的时候遇到了GPU显存超出 (out of memory) 的问题,有没有什么优化方法?
链接:
https://www.zhihu.com/question/274635237
知乎高质量回答 一、作者:郑哲东
计算机科学博士在读在不修改网络结构的情况下, 有如下操作:
https://www.zhihu.com/question/274635237/answer/573633662
本文来自知乎问答,回答已获作者授权,著作权归作者所有,禁止二次转载。
1. 同意 @Jiaming, 尽可能使用inplace操作, 比如relu 可以使用 inplace=True 。一个简单的使用方法,如下:
def inplace_relu(m):classname = m.__class__.__name__if classname.find('ReLU') != -1:m.inplace=True
model.apply(inplace_relu)
2. 进一步,比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace,在bp时再重新计算。使用到了pytorch新的checkpoint特性,有以下两个代码。由于需要重新计算bn后的结果,所以会慢一些。
https://github.com/gpleiss/efficient_densenet_pytorch
https://github.com/mapillary/inplace_abn
文章图片
3. 每次循环结束时删除 loss,可以节约很少显存,但聊胜于无。可见如下issue:
Tensor to Variable and memory freeing best practices:
https://discuss.pytorch.org/t/tensor-to-variable-and-memory-freeing-best-practices/6000/2
4. 使用float16精度混合计算。我用过 @NVIDIA英伟达apex,很好用,可以节约将近50%的显存,但是要小心一些不安全的操作如 mean和sum,溢出fp16。
NVIDIA/apex(https://github.com/NVIDIA/apex)
文章图片
补充:最近我也尝试在我CVPR19的GAN模型中加入fp16的训练,可以从15G的显存需求降到约10G,这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波:
https://github.com/NVlabs/DG-Net
5. 对于不需要bp的forward,如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论:
https://github.com/NVlabs/DG-Net
6. torch.cuda.empty_cache() 这是del的进阶版,使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。
How can we release GPU memory cache?
https://discuss.pytorch.org/t/how-can-we-release-gpu-memory-cache/1453
另外,会影响精度的骚操作还有:
把一个batchsize=64分为两个32的batch,两次forward以后,backward一次。但会影响 batchnorm等和batchsize相关的层。
相关链接:
老外写的提高pytorch效率的方法,包含data prefetch等
Optimizing PyTorch training code:
https://www.sagivtech.com/2017/09/19/optimizing-pytorch-training-code/
二、作者:Lyken
https://www.zhihu.com/question/274635237/answer/755102181咦,大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost (https://arxiv.org/abs/1604.06174)吗?
本文来自知乎问答,回答已获作者授权,著作权归作者所有,禁止二次转载。
训练 CNN 时,Memory 主要的开销来自于储存用于计算 backward 的 activation,一般的 workflow 是这样的
文章图片
Vanilla backprop
对于一个长度为 N 的 CNN,需要 O(N) 的内存。这篇论文给出了一个思路,每隔 sqrt(N) 个 node 存一个 activation,中需要的时候再算,这样显存就从 O(N) 降到了 O(sqrt(N))。
文章图片
Checkpointed backprop
对于越深的模型,这个方法省的显存就越多,且速度不会明显变慢。
文章图片
PyTorch 我实现了一版,有兴趣的同学可以来试试 https://github.com/Lyken17/pytorch-memonger
猜您喜欢:
超100篇!CVPR 2020最全GAN论文梳理汇总!拆解组新的GAN:解耦表征MixNMatchStarGAN第2版:多域多样性图像生成
附下载 |《可解释的机器学习》中文版附下载 |《TensorFlow 2.0 深度学习算法实战》附下载 |《计算机视觉中的数学方法》分享《基于深度学习的表面缺陷检测方法综述》《零样本图像分类综述: 十年进展》《基于深度神经网络的少样本学习综述》
推荐阅读
- 放屁有这三个特征的,请注意啦!这说明你的身体毒素太多
- 尽力
- 为什么你的路演总会超时()
- 死结。
- 《跨界歌手》:亲情永远比爱情更有泪点
- 时间老了
- 深入理解Go之generate
- 财商智慧课(六)
- 午门传说
- 异地恋中,逐渐适应一个人到底意味着什么()