

Meta最新提出的LSP框架在指令遵循基准测试中取得突破。实验显示,使用Llama-3.2-3B-Instruct的预训练模型通过自我博弈机制,在挑战性任务上的表现优于数据驱动的基线模型。
LSP框架让同一预训练模型扮演挑战者和解题者两种角色,形成动态对抗关系。挑战者负责生成难题,解题者则不断优化响应,双方在对抗中实现能力同步提升。
研究团队引入两项核心技术:LSP-Zero纯零和博弈模式和加入自奖励机制的改进版。后者转向高质量共赢模式,有效解决了无意义对抗问题,实现长期稳定自主训练。
实验数据显示,在AlpacaEval基准测试中,无数据支持的LSP模型胜率达43.1%,优于数据支持的GRPO模型(40.9%)。但在Koala数据集上表现稍逊,未来需优化查询多样性。
LSP框架优势明显:大幅降低数据获取成本,适用于数据稀缺场景,支持模型长期自主进化。研究团队认为该框架在AI具身化后将展现更大潜力。