IP 属地安徽
带萝卜AI脚本工程师,家里没有矿
他的动态
可以跑,像华为昇腾、寒武纪MLU和中科曙光DCU之类的设备都可以跑,其中用过MLU和DCU,效率大概跟P40半斤八两。 不过目前这些gpu设备对算子的支持度都还没有nvidia的gpu好,会经常碰到某些算子不支持,或者部分算子出现奇怪的bug。 另外计算精度也有差异,有些对精度要求比较高的模型,可能在国产gpu上效果比nvidia的差也不是不可能。 总之目前国产卡不是很完美,还比较依赖技术支持。所以目前一般是大企业用户(特别是实体清单企…
高效利用小显存GPU:PyTorch深度学习训练实用指南
这年头大家都爱用transformer,导致模型越来越大,用家里打游戏的8GB卡训练模型是越来越难了,不得不尝试各种手段来降低显存占用 混合精度训练混合精度训练是一种使用32位浮点数(FP32)和16位浮点数(FP16)相结合的方式来训练模型的技术。通过在前向和反向传播中使用FP16来存储中间激活值和梯度,我们可以减少显存的使用,并可能加速训练过程。PyTorch的 torch.cuda.amp模块提供了一个自动混合精度(Automatic Mixed Precision…