caffe|caffe python 接口支持多GPU训练

之前用python接口的时候,发现只能用单GPU,就将就了一下。最近在跑model的时候,实在受不了了,就search了一下是否可以支持多GPU训练,然后发现现在的版本可以了,就开始搞事情啦~
【caffe|caffe python 接口支持多GPU训练】1.安装nccl

git clone [https://github.com/NVIDIA/nccl.git](https://github.com/NVIDIA/nccl.git) #cuda要7.0往上 cd nccl make install nccl

2.修改Makefile.config 把USE_NCCL := 1的注释去掉即可
重新编译caffe, make runtest -j32时报错如下:
.build_release/tools/caffe: error while loading shared libraries: libnccl.so.1: cannot open shared object file: No such file or directory
然后查找文件,发现有啊。但是就是找不到,很奇怪,自己看了一下,lib路径里面真的有啊,那么为什么会找不到啊摔,心痛。

caffe|caffe python 接口支持多GPU训练
文章图片
发现/root/userfolder/nccl/build/lib/libnccl.so.1也有这个文件,索性把这个路径也加到makefile.config的lib里面,然而还是没有用。
然后重装了很多遍的nccl,也是没有用。感觉要陷入了绝望,然后发现,这个文件的owner是0,就想了一下,是不是文件所有者的问题,然后改了一下,发现,其实是因为是链接文件,所以owner是0
最后的解决方案: ldconfig 就解决了。 原因在于自己对系统不熟悉 虽然已经安装了该共享库, 但执行需要调用该共享库的程序的时候, 程序按照默认共享库路径找不到该共享库文件,使用ldconfig 可以在是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下, 搜索出可共享的动态链接库(格式如lib.so), 进而创建出动态装入程序(ld.so)所需的连接和缓存文件. 缓存文件默认为/etc/ld.so.cache, 此文件保存已排好序的动态链接库名字列表。
之后写python脚本,参考python文件夹里面的train.py,或者根据这个来改写https://groups.google.com/forum/#!topic/caffe-users/mOFJE2eWr_k。
主要参考:
https://github.com/BVLC/caffe/pull/4563
http://www.cnblogs.com/Anker/p/3209876.html

    推荐阅读