Meta提出LSP框架实现大模型无数据训练突破自我博弈机制显著提升AI性能-Kaiyun科技股份有限公司

Meta提出LSP框架实现大模型无数据训练突破自我博弈机制显著提升AI性能

2025-09-21 10:42:09 小编大中小

Meta提出LSP框架实现大模型无数据训练突破自我博弈机制显著提升AI性能

　　Meta最新提出的LSP框架在指令遵循基准测试中取得突破。实验显示，使用Llama-3.2-3B-Instruct的预训练模型通过自我博弈机制，在挑战性任务上的表现优于数据驱动的基线模型。

　　LSP框架让同一预训练模型扮演挑战者和解题者两种角色，形成动态对抗关系。挑战者负责生成难题，解题者则不断优化响应，双方在对抗中实现能力同步提升。

　　研究团队引入两项核心技术：LSP-Zero纯零和博弈模式和加入自奖励机制的改进版。后者转向高质量共赢模式，有效解决了无意义对抗问题，实现长期稳定自主训练。

　　实验数据显示，在AlpacaEval基准测试中，无数据支持的LSP模型胜率达43.1%，优于数据支持的GRPO模型（40.9%）。但在Koala数据集上表现稍逊，未来需优化查询多样性。

　　LSP框架优势明显：大幅降低数据获取成本，适用于数据稀缺场景，支持模型长期自主进化。研究团队认为该框架在AI具身化后将展现更大潜力。

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签