【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇

落叶阳光 • 2023年10月15日 06:54 • 1年前 • 编程日记 • 阅读(19) • 违法举报

【学而不思则罔，思而不学则殆】
9.30

首先给出一个理想的训练loss收敛图片：loss平滑的下降，并逐渐收敛到0.
平滑说明学习率设置较合适，收敛到0说明模型在参数空间中收敛到一个很理想的区域。
在这里插入图片描述

训练现象：

本质原因：
算法收敛到参数空间中某个较高的“平坦区域”，而无法逃离。
在这里插入图片描述

可能的参数原因及解决办法：

batch_size设置大了，太大的batch_size会导致更少的batch数量，当算法训练陷入鞍点或平原时，很难逃离；此时可以调小batch_size，观察loss是否会比刚才减少得更多。

训练现象
在这里插入图片描述

本质原因
算法在梯度下降时跳过了最佳的收敛点，导致loss增大

可能的参数原因及解决办法文章来源地址https://uudwc.com/A/XkDDZ

学习率设置过大了，较大的学习率会加速loss下降，但是可能会导致跳过最佳收敛点，而引起震荡现象。此时可以考虑减少学习率，或者采用动态学习率，刚开始使用一个较大的学习率以加快收敛，在较平稳的地方采用较小的学习率。

原文地址:https://blog.csdn.net/xiangxiang613/article/details/133430568

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请联系站长进行投诉反馈，一经查实，立即删除！