DeiT(注意力也能蒸馏)
DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略,并提出了 token-based distillation 方法,使得 Transformer 在视觉领域训练得又快又好。
推荐阅读
- 老茶鬼的6大喝茶暗语,搞懂了你也能成为喝茶高手
- MoCo|MoCo V1(视觉领域也能自监督啦)
- 深度学习|GAT: 图注意力模型介绍及PyTorch代码分析
- SQL也能做AI|SQL也能做AI (没错!MLOps Meetup V3 回顾|OpenMLBD+SQLFlow+Byzer)
- 游戏玩得好,人生也能高大上
- 0716|0716 晨读感悟(如何知道了道理也能过好这一生!)
- 观照本心,修身成圣
- 解决vue表单为空也能提交的问题
- 百万员工不上班也能领工资!原来黑客破解了保险公司的考勤系统
- 写出个灵活的系统竟然可以如此简单!小白也能写出高级的Java业务!