google|google cloud中使用TPU
【google|google cloud中使用TPU】首先,应该先尝试google colab —— 因为直接注册google cloud中的VM和TPU,只能免费用3个月,注册早了实在是亏了,等colab里试得差不多了,再注册cloud不迟。
正式使用的步骤:
- 创建VM,要注意选区,目前只有几个区支持TPU,所以最好同时把创建TPU的界面打开对照着看,不同区之间,要想访问只能通过公网了,这对于机器学习的密集运算显然不可行
- VM的核越多,内网带宽越大,所以有钱的情况下,尽量选多核的
- VM的抢占式虽然便宜,但一旦被抢占,所有状态就丢失了,慎选
- VM的磁盘可以放大一些,因为需要保存训练中的snapshot,大模型建议300GB
- v3比v2贵,但性能也高,所谓v3-8, v2-8,都是一块TPU(内置8个单元,是最小单位了),慎选v3-128 v3-512这种配置,看上去价格没变,实际上标的是单价,最终收费会成倍上涨
- TPU可以选择抢占式,因为即使被抢占,下次还可以从快照继续,而且价格便宜好多
- 总体来说,TPU比VM贵多了,有数量级的差异
貌似要在VM里创建一个指向TPU的配置:
export TPU_IP_ADDRESS=10.2.3.2;
# 这个ip是tpu的ip,通过gcloud compute tpus list --zone=europe-west4-a命令可以看到
export XRT_TPU_CONFIG="tpu_worker;
0;
$TPU_IP_ADDRESS:8470";
这里还还有待进一步学习探索。
如果图省事的话,创建TPU的之后,直接选择TPU虚拟机(而不是TPU节点)即可,这时会得到一个VM+TPU一体的机器,可以支持ssh登录访问,连TPU版本的tensorflow或者pytorch(看选择哪个版本的操作系统)都是预安装好的,直接运行自己的代码即可。
- 极客时间-NLP学习-12.深度学习与硬件
- 极客时间-NLP学习-24.如何构建简单的深度学习环境
- 手把手教你使用谷歌cloud tpu
- 谷歌TPU使用方法
- TPUs in Colab
推荐阅读
- 黑匣子测试中的因果图
- 黑匣子测试中的决策表技术
- 白盒测试中的数据流测试
- 白盒测试中的控制流测试
- 黑盒测试中的全对测试技术
- golang|golang中并发、gorutine
- IE浏览器,图文详细说明怎样升级IE浏览器
- 网络与共享中心,图文详细说明网络与共享中心在啥地方
- 微信怎样在聊天中置顶收藏笔记?微信置顶收藏笔记图文详细教程_微信
- YARN调度架构中的AppMaster