caffe|caffe python 接口支持多GPU训练
之前用python接口的时候,发现只能用单GPU,就将就了一下。最近在跑model的时候,实在受不了了,就search了一下是否可以支持多GPU训练,然后发现现在的版本可以了,就开始搞事情啦~
【caffe|caffe python 接口支持多GPU训练】1.安装nccl
git clone [https://github.com/NVIDIA/nccl.git](https://github.com/NVIDIA/nccl.git) #cuda要7.0往上
cd nccl
make install nccl
2.修改Makefile.config 把USE_NCCL := 1的注释去掉即可
重新编译caffe, make runtest -j32时报错如下:
.build_release/tools/caffe: error while loading shared libraries: libnccl.so.1: cannot open shared object file: No such file or directory
然后查找文件,发现有啊。但是就是找不到,很奇怪,自己看了一下,lib路径里面真的有啊,那么为什么会找不到啊摔,心痛。
文章图片
发现/root/userfolder/nccl/build/lib/libnccl.so.1也有这个文件,索性把这个路径也加到makefile.config的lib里面,然而还是没有用。
然后重装了很多遍的nccl,也是没有用。感觉要陷入了绝望,然后发现,这个文件的owner是0,就想了一下,是不是文件所有者的问题,然后改了一下,发现,其实是因为是链接文件,所以owner是0
最后的解决方案: ldconfig 就解决了。 原因在于自己对系统不熟悉 虽然已经安装了该共享库, 但执行需要调用该共享库的程序的时候, 程序按照默认共享库路径找不到该共享库文件,使用ldconfig 可以在是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下, 搜索出可共享的动态链接库(格式如lib.so), 进而创建出动态装入程序(ld.so)所需的连接和缓存文件. 缓存文件默认为/etc/ld.so.cache, 此文件保存已排好序的动态链接库名字列表。
之后写python脚本,参考python文件夹里面的train.py,或者根据这个来改写https://groups.google.com/forum/#!topic/caffe-users/mOFJE2eWr_k。
主要参考:
https://github.com/BVLC/caffe/pull/4563
http://www.cnblogs.com/Anker/p/3209876.html
推荐阅读
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 基于微信小程序带后端ssm接口小区物业管理平台设计
- 2020-04-07vue中Axios的封装和API接口的管理
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- 调取接口时报404错误(ID:16)
- CICC(脑机接口,科幻几近成真())
- Python基础|Python基础 - 练习1