实验结果
最后来看一下 ZeRO-Offload 论文中提供的一些实验结果。
下图 7 展示了利用 ZeRO-Offload 技术在 1 个、4 个或 16 个 GPU(一个 DGX-2)上可以训练的最大模型情况。
下图 11 展示了每个 GPU 的吞吐量随 GPU 数量增加而呈现的变化情况。可以看出,在 GPU 数量逐渐增加至 128 个的过程中,ZeRO-Offload 几乎可以实现吞吐量的线性加速。
下图 8 展示了使用 PyTorch、L2L 和 ZeRO-Offload 实现的每个 GPU 吞吐量差异。从中可以看出,利用 ZeRO-Offload 实现的每个 GPU 吞吐量比 L2L 平均高出 14%(最多高出 22%)。
参考链接:http://efficientdl.com/an-introduction-to-zero-offloading/
AAAI 2021线上分享 | BERT模型蒸馏技术,阿里云有新方法
在阿里巴巴等机构合作、被AAAI 2021接收的论文《Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation 》中,研究者们提出了一种跨域自动数据增强方法来为数据稀缺领域进行扩充,并在多个不同的任务上显著优于最新的基准。会昌网景
1月27日20:00,论文共同一作、阿里云高级算法专家邱明辉为大家详细解读此研究。
添加机器之心小助手(syncedai5),备注「AAAI」,进群一起看直播。
THE END