开云(中国大陆官方网站)Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

关闭菜单
027-83317177
当前位置: 首页 > 新闻资讯 > 行业新闻

Meta提出LSP框架实现大模型无数据训练突破自我博弈机制显著提升AI性能

2025-09-21 10:42:09 小编

  

Meta提出LSP框架实现大模型无数据训练突破自我博弈机制显著提升AI性能

  Meta最新提出的LSP框架在指令遵循基准测试中取得突破。实验显示,使用Llama-3.2-3B-Instruct的预训练模型通过自我博弈机制,在挑战性任务上的表现优于数据驱动的基线模型。

  LSP框架让同一预训练模型扮演挑战者和解题者两种角色,形成动态对抗关系。挑战者负责生成难题,解题者则不断优化响应,双方在对抗中实现能力同步提升。

  研究团队引入两项核心技术:LSP-Zero纯零和博弈模式和加入自奖励机制的改进版。后者转向高质量共赢模式,有效解决了无意义对抗问题,实现长期稳定自主训练。

  实验数据显示,在AlpacaEval基准测试中,无数据支持的LSP模型胜率达43.1%,优于数据支持的GRPO模型(40.9%)。但在Koala数据集上表现稍逊,未来需优化查询多样性。

  LSP框架优势明显:大幅降低数据获取成本,适用于数据稀缺场景,支持模型长期自主进化。研究团队认为该框架在AI具身化后将展现更大潜力。

联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 027-83317177
咨询kaiyun全站解决方案 马上咨询
免费获取技术咨询服务
姓名图标
电话图标
QQ图标

联系我们 contact us
027-83317177