Debugging

Debug通常是一件比较麻烦的事情

  • 深度神经网络是复杂、不可解释的

  • 超参数极多(模型结构,网络层数、宽度、学习率,batch size,优化器,dropout)

  • 非线性模型,没有优化方法可以收敛到全局最优


如何debug训练问题 —— 训练

image.png

  • 说明数据对应的代码和处理任务是正确的,优化器是正确的

  • 迭代输入数值溢出:例如方差为0,经过 layer norm 后造成÷0,溢出

  • 迭代步长过大:例如从一个极小值点跳到了另一个极小值点,且出不来

image.png

  • 学习率问题:不同的优化器所要求的学习率不同

image.png

image.png


如何debug训练问题 —— 测试

image.png

  • 模型参数:可以使用LoRA低秩分解可以降低可改变的参数

image.png

image.png