原理分析
训练过程中,电脑出现卡顿,只能频繁强制重启
查看日志也一直看不出缘由
对应推荐阅读:添加链接描述
简单分析常见的Bug如下:
**一、硬件问题:
- 内存不足:需要大量的内存来存储参数、梯度以及中间计算结果。如果内存不足,系统可能会因为无法分配所需的内存而卡死
- GPU故障:驱动问题、硬件故障或者过热,都可能导致训练过程中卡死
二、软件问题:
- 代码bug:可能导致程序陷入无限循环或者无法正确执行
- 依赖问题:版本问题或者系统环境配置不正确,都可能导致训练过程中出现问题
三、数据问题:
- 数据损坏:损坏或者不一致的部分,可能导致模型训练过程中出现异常