开云(中国大陆官方网站)Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

关闭菜单
027-83317177
当前位置: 首页 > 新闻资讯 > 行业新闻

中国AI弯道超车国产GPU训练!无需Transformer原生类脑脉冲大模型「瞬悉」横空出世

2025-09-11 12:45:06 小编

  

中国AI弯道超车国产GPU训练!无需Transformer原生类脑脉冲大模型「瞬悉」横空出世

  自2017年Transformer架构提出以来,依托GPU集群的大规模计算能力,人工智能迈入大模型时代并取得巨大成功。但其核心的的研究者们就在想,如何把计算效率搞上去,让模型处理长文本不再那么“费劲”,并在国产GPU上跑通大模型训练和部署的全流程,摆脱硬件依赖?

  人脑是目前唯一已知的通用智能系统,它包含约 860 亿神经元和约 1000 万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部结构,但功耗仅20W左右。SpikingBrain-瞬悉1.0因此而生,这是一个基于内生复杂性的通用智能模型GLAswaForCausalLM”,其灵感来源于人类大脑的信息处理机制,这项研究成功发布了两款高效的类脑脉冲大模型,在长序列处理效率、国产硬件适配和未来低功耗应用上均取得了突破性进展。

  为了实现这个目标,研究者们拿出了一个组合拳,从模型架构、算法优化和系统工程三个层面进行了创新。以下是官方开源的Github,(中英文论文也在项目中)感兴趣的朋友可以前去了解一下,并为这项研究点一个star!

  qt:代表当前时间步(或位置)t 的查询(Query)向量,表示“我想查找什么信息”。

  ks:代表过去某个时间步 s (其中 s≤t) 的键(Key)向量,表示“我这里有什么信息”。

  vs:代表过去某个时间步 s 的值(Value)向量,是实际携带的信息。

  exp(qtks⊤):通过计算 qt 和 ks 的点积并取指数,得到一个“注意力分数”,衡量当前位置t对过去位置s的关注程度。

  分母部分:对所有过去位置的注意力分数求和,起到归一化的作用(即Softmax)。

  ot:最终的输出是所有过去的值向量 vs 根据其注意力分数进行的加权平均。

  意义: 这个机制允许模型在序列中的每个位置都能“看到”并评估所有之前位置的信息,实现了全局信息交互。但它的主要问题是,对于每个qt,都需要和所有过去的ks计算点积,导致计算复杂度为 O(n2),在处理长序列时非常昂贵。

  SpikingBrain 的架构设计摒弃了传统的二次方复杂度注意力,融合了三种关键技术:

  它不再让每个词都和文章中所有其他的词计算关联,而是采用更高效的方式。报告探索了两种混合策略。

  1.SpikingBrain-7B (层间混合): 这是一种纯线性复杂度的模型。它交替使用滑动窗口注意力 (SWA)和线性注意力 (Linear Attention)。SWA只关注一个固定大小的局部窗口内的词(比如附近的4096个词),擅长捕捉局部细节;而线性注意力则能高效地压缩和处理长距离的全局信息。这种架构在处理超长文本时效率极高。

  2.SpikingBrain-76B (层内混合): 这是一个性能更强的混合模型。它在同一层内并行地使用 SWA、线性注意力和少量的标准全注意力(Full Attention)。这种设计在效率和模型性能之间取得了更好的平衡。

  这是实现效率突破的关键,它通过移除Softmax函数,使得计算可以重排 。

  ot=∑(qtks⊤)vs:没有了Softmax,输出变成了简单的线性加权和。

  ot=qt(∑ks⊤vs):利用矩阵乘法的结合律,可以先把 ks 和 vs 的外积加起来,最后再与qt相乘。

  St=St−1+kt⊤vt:这个求和过程 ∑ks⊤vs 可以被表示成一个循环更新的“状态”(State)St。在每个时间步,只需要用前一步的状态 St−1 加上当前步的 kt⊤vt 即可。

  意义: 这种循环形式(RNN形式)使得推理时的内存开销变成了一个固定大小的状态St,与序列长度无关,即 O(1) 。训练时的计算复杂度也降至O(n)。这被认为是更接近人脑记忆机制的建模方式,通过压缩式的“记忆状态”持续运作。

  这是为了在不显著增加计算量的前提下,大幅增加模型参数量的技术。你可以把它想象成模型内部有很多个“专家”(即小型的神经网络),对于每个输入词,一个“路由器”会动态地选择激活最相关的一两个专家来处理它,而不是让所有参数都参与计算。

  这是SpikingBrain“类脑”思想的核心体现。传统的神经网络中的值是连续的浮点数,而生物神经元是通过发送“脉冲”来进行通信的,这是一种事件驱动、高度节能的方式。

  研究者们设计了一种简化的脉冲神经元模型。它不像复杂的生物模型那样难以计算,而是通过一个动态自适应的阈值来决定何时“放电”(即发送脉冲)。如果神经元输入信号强,阈值就调高,防止过度激活;如果信号弱,阈值就调低,保证重要信息不丢失。这使得神经元的活动保持在一种稀疏且高效的状态。

  他们设计了两款模型来实践这个想法。一个是7B参数的SpikingBrain-7B,它把这两种注意力机制在不同层之间交替使用,实现了纯粹的线性复杂度,处理长文本时速度飞快。另一个是76B参数的SpikingBrain-76B,它更进一步,在同一层里把SWA、线性注意力和一丢丢标准注意力并行起来用,还引入了专家混合(MoE)机制,参数量上去了,但计算量没怎么涨,性能和效率平衡得特别好。

  从零开始训练一个大模型需要海量的数据(通常是数万亿级别的 token)和经费。SpikingBrain采用了一种更聪明、更经济的方法:

  他们不从头训练,而是站在成功者的肩膀上。他们选择了一个已经训练得很好的开源模型(Qwen2.5-7B)作为基础模型。然后,通过一个多阶段的继续预训练 (Continual Pre-training)过程,将基础模型的架构“转换”成SpikingBrain的高效架构(例如,将Softmax Attention替换为混合线性注意力)。

  这个过程最惊人的地方在于,它只用了大约1500亿(150B)tokens的数据,仅为从零训练所需数据量的2%左右,就成功地继承了基础模型的知识和能力,并完成了向新架构的迁移。

  对于76B的MoE模型,他们使用了一种叫做“上循环”的技术。简单来说,就是把基础模型中密集的FFN层的权重复制给MoE模型中的所有专家,然后再通过训练让这些专家逐渐产生功能分化。这是一种非常高效地将小模型扩展为大型MoE模型的方法。

  如何高效地获得一个SpikingBrain模型,核心是“基于转换”的训练方案。

  当从一个稠密的FFN模型转换(Upcycling)到一个MoE模型时,需要对权重进行缩放以保持输出的数值稳定性。

  S+k/N:这个值代表了上采样后,输出的激活值相对于原始稠密模型的放大倍数。

  scaling_factor:通过对这个放大倍数开立方根(具体开方次数可能与FFN层数有关,这里是经验性或理论推导的选择),得到一个缩放因子,用于在初始化时缩放专家网络的权重。

  意义: 这个公式确保了从稠密模型到MoE模型的转换在初始阶段是平滑的,避免了因输出尺度剧烈变化导致的训练不稳定问题。

  这部分是SpikingBrain最“类脑”、最具未来感的部分,旨在实现极致的能效。我们的大脑神经元不是一直在线的,而是“有事发生”(接收到信号)才放电(发送脉冲),这种方式超级节能。研究者们就模拟了这个机制。

  这是将传统激活值转换为稀疏、事件驱动的脉冲信号的关键,是模型“类脑”特性的直接体现。

  Vth(x) 是一个自适应发放阈值,它不是固定的,而是根据输入 x 的绝对值的平均值动态计算的。这模仿了生物神经元的动态特性,可以避免神经元过度兴奋或过度沉寂。

  核心优势: 这种机制使得计算变为“事件驱动”,只有当脉冲被发放时才触发后续计算,从而带来了巨大的稀疏性(报告中提到超过69.15%)和潜在的能效提升。它也是未来适配类脑芯片的基础。

  1.优化阶段: 将神经网络中的连续激活值,通过自适应阈值模型,直接转换成一个整数(可以理解为脉冲的总数)。这个过程计算简单,可以在GPU上高效执行。

  2.推理阶段: 将这个整数“展开”成一个随时间变化的、稀疏的脉冲序列。例如,整数3可以展开为1, 1, 1或其他形式。

  二元编码 ({0, 1}): 最简单,1代表有脉冲,0代表没有。但表示一个较大的数需要很多时间步。

  三元编码 ({-1, 0, 1}): 引入了 -1 作为“抑制性”脉冲,更符合生物神经机制。它能用更少的时间步和更低的脉冲发放率来表示相同的信息,因此更稀疏、更节能。

  位元编码 (Bitwise Coding): 最高效的方案。它将一个整数按二进制位展开,每个时间步只表示一位。比如表示256,二元编码需要256步,而8位的位元编码只需要8步,极大地压缩了时间,降低了通信开销。

  这种脉冲计算的最终目标是与神经形态芯片等异步硬件结合。在这种硬件上,没有脉冲时电路就处于休眠状态,只有当脉冲到达时才进行计算(主要是加法),从而实现惊人的低功耗。能耗能降到什么程度?研究者估算,相比传统的FP16计算,能效能提升43倍以上

  这篇报告的一个重大价值是验证了在非英伟达平台上进行大模型训练的可行性。团队在数百张MetaXC550 GPU组成的集群上,成功完成了从数据处理、分布式训练到推理部署的全流程。

  分布式训练适配: 针对MoE模型的通信特点、长序列训练的内存压力等问题进行了优化。

  算子适配: 将依赖CUDA的算子迁移和适配到MetaX的MACA软件框架上。

  并行策略: 设计了复杂的数据并行、流水线并行、专家并行和序列并行组合策略,以在MetaX集群上高效训练76B规模的模型。

  实验结果表明,MetaX集群能够支持长达数周的稳定训练,7B模型的MFU(模型浮点运算利用率)达到了23.4%,证明了该平台支持大规模训练的能力。那么,在国产硬件上的这些硬核实践,究竟取得了怎样令人振奋的结果呢?

  性能方面:SpikingBrain-7B的模型性能,基本追平了它的基础模型Qwen2.5-7B,并且和Llama2-70B、Mixtral-8x7B这些国际主流模型比起来也毫不逊色。这说明,追求高效率并不一定要以牺牲大量性能为代价。

  长文本效率:在处理400万(4M)token的超长输入时,SpikingBrain-7B的首个 Token 生成时间 (TTFT)相比基线B)预估加速超过 100 倍。这展示了线性注意力在长序列场景下的巨大优势。

  脉冲方案能效和CPU推理:脉冲编码方案实现了高达69.15%的计算稀疏度。据估算,在异步硬件上,其能耗相比传统的FP16计算可降低97.7%,能效提升43.48 倍。团队还将模型压缩到1B规模,并部署在CPU上。在256k的序列长度下,其解码速度是Llama3.2-1B的15.39 倍,展示了其在资源受限设备上的应用潜力,这意味着,未来在手机、在边缘设备上跑高效大模型,近在咫尺。

  该项目名称开宗明义“原生国产自主可控类脑脉冲大模型”。它的诞生,是国家强调科技自立自强战略在AI核心领域的一次重要落地,标志着我们在基础模型架构、训练算法、硬件适配等关键环节都迈出了自主的一步。

  探索“非Transformer”的全新技术路线:当前全球大模型技术高度集中于Transformer架构,遵循着依靠“数据-算力-算法”驱动的“外生复杂性”路径。SpikingBrain则另辟蹊径,探索“基于内生复杂性的通用智能模型” ,即通过借鉴大脑神经元的复杂工作机制来提升效率和智能水平。这为中国在下一代人工智能发展方向上实现引领提供了基础和可能性。

  根本上解决长序列处理的效率瓶颈:Transformer架构因其固有的二次方计算复杂度,在处理长文本、基因序列或高频数据流时面临巨大挑战。SpikingBrain通过采用线性复杂度的类脑架构,在处理超长序列时展现出数量级的效率提升。比如在处理4M长度的序列时,其推理速度比Transformer模型提升超过100倍。这使得许多以往因算力限制而难以实现的科学研究和应用成为可能,如高能物理、基因组学、分子动力学模拟等。

  首次在国产算力平台上完成全流程验证:在全球芯片竞争日益激烈的背景下,AI的发展高度依赖于少数几家国外公司的GPU。瞬悉1.0SpikingBrain的成功实践,验证了一条不完全依赖顶级先进制程芯片,而是通过架构创新来提升效率的技术路径。整个训练和推理流程完全在国产沐曦(MetaX)GPU集群上进行。这包括了从底层硬件、训练框架(Megatron/Colossal-AI适配)、CUDA/Triton算子库兼容,到上层模型开发的全栈式实践。这强有力地证明了国产AI软硬件生态已经具备支撑大规模、长时间(报告中提到稳定运行数周)复杂模型训练的能力。这为应对“卡脖子”问题,实现AI算力的自主可控提供了宝贵的实践经验和备选方案。

  形成非对称竞争优势:在Transformer赛道上,后来者要追赶领先者需要投入天文数字般的资源。SpikingBrain项目则是在开辟一个全新的、规则尚在建立的“类脑计算”赛道。这是一种“换道超车”的非对称竞争策略。如果我们能在这个方向上持续深耕并取得领先,就有可能掌握下一代AI技术的话语权和主导权。

  这是一次成功的尝试,瞬悉1.0SpikingBrain的诞生标志着我们在AI领域正从“跟跑”向“并跑”甚至“领跑”迈进。从长期安全的角度上来看,一个不依赖外部供应、能够自我迭代和演进的AI技术体系,是应对未来各种不确定性和挑战的压舱石。其模拟生物神经元构建的全新的、非Transformer架构的类脑基础模型为中国在下一代人工智能的发展方向上实现引领提供了坚实的基础。

联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 027-83317177
咨询kaiyun全站解决方案 马上咨询
免费获取技术咨询服务
姓名图标
电话图标
QQ图标

联系我们 contact us
027-83317177