生成模型基础 05 Debugging
Debugging
Debug通常是一件比较麻烦的事情
深度神经网络是复杂、不可解释的
超参数极多(模型结构,网络层数、宽度、学习率,batch size,优化器,dropout)
非线性模型,没有优化方法可以收敛到全局最优
如何debug训练问题 —— 训练
说明数据对应的代码和处理任务是正确的,优化器是正确的
迭代输入数值溢出:例如方差为0,经过 layer norm 后造成÷0,溢出
迭代步长过大:例如从一个极小值点跳到了另一个极小值点,且出不来
- 学习率问题:不同的优化器所要求的学习率不同
如何debug训练问题 —— 测试
- 模型参数:可以使用LoRA低秩分解可以降低可改变的参数