训练大型神经网络需要精细控制权重、激活值等关键张量,避免数值溢出等问题。据悉,研究人员提出通过流形约束优化算法,将权重限制在健康区间,从源头提升训练稳定性。
该方法将权重约束在特定子流形上,并在切空间中定义距离度量进行优化。通过投影和归一化操作,确保更新方向始终沿流形表面移动,使学习率与实际位移更好对应。
研究特别关注Stiefel流形优化,选择谱范数作为距离函数以控制矩阵对向量的拉伸效应。这种思路催生了Muon优化器,并通过模块流形理论将方法推广到整个神经网络,实现层间学习率的合理分配。