

极氪9X正式登场!45.59万元起售,四大核心技术重塑豪华SUV新标杆
莒县“举国大地”淘宝跳蚤市场:品控严格服务贴心,成二手文化物品交流热地
从电商到原料升级:解码中国宠物行业国货品牌崛起背后的市场机遇与突围策略
假期未至惊喜先到!DeepSeek新版本V3.2-Exp携黑科技登场,未来可期
OpenAI幕后英雄Scott Gray:从底层优化到赋能AI新架构的硬核之路
OpenAI幕后英雄Scott Gray:从底层优化到赋能AI新架构的硬核之路
OpenAI深夜发布Sora2:推出配套App,开启视频生成与社交新体验
OpenAI与DeepMind顶尖人才携手,以AI改造科研,3亿美元助力攻克超导难题
从物理到AI底层:OpenAI幕后工程师Scott Gray如何用CUDA内核改写训练规则
在人工智能领域,聚光灯往往聚焦于那些站在台前的明星科学家,但真正推动技术进步的,还有无数在幕后默默耕耘的工程师。近期,OpenAI 的一位资深工程师因其在底层性能优化方面的卓越贡献,成为行业关注的焦点。
事件起因于社交媒体上的一则热门帖子,其中提到 OpenAI 仅凭一位工程师编写的关键 CUDA Kernel,便支撑起每日数万亿次的庞大计算量。评论区纷纷猜测,这位“幕后大神”正是 OpenAI 的资深工程师 Scott Gray。这一猜测并非空穴来风,OpenAI 的官方介绍明确指出,他的工作重心是“优化深度网络在 GPU 上的性能”。
编写高性能的模型训练 CUDA Kernel 是一项极具挑战性的工作,要求开发者同时精通并行计算理论、GPU 硬件架构与深度学习算法。大多数开发者停留在应用层,使用现成工具;从事推理优化的人稍多,但能深入底层,为复杂的训练过程(尤其是反向传播)手写出超越 cuDNN 等现有库的 CUDA Kernel 的开发者,可谓凤毛麟角。而 Scott Gray 的职业轨迹,恰好是为这一角色量身打造的。
Scott Gray 的职业生涯始于 UIUC 物理与计算机科学专业。2016 年,他加入 OpenAI,此前在 Nervana Systems(一家后被英特尔收购的公司)从事 GPU 汇编级内核优化。Nervana 的前 CEO 在评论区直言,当年他们在论坛发现 Scott 后便立即聘用,并盛赞其为“全球最强 GPU 程序员”。
在 Nervana 时期,Scott Gray 的声名鹊起源于他对硬件底层极限的探索。当时,深度学习正处于爆发前夜,但软件框架与底层硬件之间存在巨大的效率鸿沟。绝大多数开发者依赖 NVIDIA 的 CUDA C/C++ 和官方库(如 cuBLAS、cuDNN)进行 GPU 编程。这种标准流程虽然便捷,但其多层软件抽象屏蔽了硬件细节,也成为了性能的“天花板”。
Gray 的哲学是,要实现真正的性能突破,必须绕过这些抽象层。为此,他开发了 maxas——一个针对 NVIDIA Maxwell 架构的汇编器。这让他得以手动编写出极致性能的计算内核,直接控制硬件资源,包括寄存器分配、内存延迟管理和指令流水线控制。为了证明其价值,Gray 使用 maxas 手写了一个 SGEMM(单精度通用矩阵乘法)内核,结果在 GM204 GPU 上达到了硬件理论峰值的 98%,性能比 NVIDIA 官方闭源的 cuBLAS 库还要快 4.8%。
在 maxas 成功的基础上,Gray 将目光投向了深度学习中的另一个核心计算——卷积。他开发了 maxDNN,旨在证明底层优化方法论是一种可以系统性应用的通用策略。maxDNN 借鉴了当时最高效的卷积算法思路,但在底层完全采用 maxas 中被验证过的汇编级优化技术。最终,其核心计算循环中,超过 98% 的指令都是纯粹的浮点运算指令,计算效率极高。在 AlexNet 模型的所有卷积层上,maxDNN 稳定地达到了 93-95% 的计算效率,全面超越了当时 NVIDIA 的 cuDNN 库。
加入 OpenAI 后,Gray 的工作重心发生了战略性转变。随着 Scaling Laws 的提出,模型规模的增长成为提升性能的关键。然而,稠密模型的无限扩张在计算和成本上面临瓶颈。Gray 的工作转向了为更高效的稀疏模型架构开发底层工具,从一个“优化者”转变为一个“使能者”。
Scott Gray 的名字出现在几乎所有 OpenAI 的里程碑式论文中,包括 GPT-3、GPT-4、Codex 和 DALL-E。他作为核心技术人员,编写了大量高性能 GPU 内核,支撑了这些模型万亿次级别的训练和推理计算。为了解决稠密模型的规模化难题,Gray 与同事共同开发了一套创新的块稀疏(block-sparse)GPU 内核。
不同于移除单个权重的非结构化稀疏,块稀疏将权重矩阵划分为固定大小的块,并将整个块置零。Gray 为此开发了专门的 GPU 内核,在计算时能够完全“跳过”这些零值块,从而大幅提升效率。这些内核的运行速度可以比处理稠密矩阵的 cuBLAS 或处理通用稀疏矩阵的 cuSPARSE 快上几个数量级。利用这些内核,OpenAI 在文本和图像生成等多个任务上取得了当时的领先成果,并将这些高性能的块稀疏内核进行了开源,旨在推动整个社区在模型和算法设计上的进一步创新。
探访华为练秋湖研发中心,共赴世界城市日共线年,世界城市日将继续践行“城市,让生活更美好”的理念,推出一系列高水平、国际化、青年友好的社会活动,通过内容丰富多样的论坛、展览、公益等形式,提升公众对智慧城市与可持续未来的关注与参与,推动社会各界探…
南方财经记者观察到,港科大体系近百名本硕博学生及毕业生带来了十多个创新成果,围绕仿生机器人开展的全栈技术实战,正在以“小切口”破解机器人产业痛点。 今年5月,港科大(广州)与天太机器人成立了联合实验室,为参赛…
2025年,世界城市日将继续践行“城市,让生活更美好”的理念,推出一系列高水平、国际化、青年友好的社会活动,通过内容丰富多样的论坛、展览、公益等形式,提升公众对智慧城市与可持续未来的关注与参与,推动社会各界探…
今天分享的是: 报告共计:35页 《》(V1.0-202509)由全国网络安全标准化技术委员会秘书处2025年9月发布,国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院等多单位参与起草,旨在指导生…
OpenAI幕后英雄Scott Gray:从底层优化到赋能AI新架构的硬核之路
在 OpenAI 的官方介绍中也明确提到,他的工作重心是「优化深度网络在 GPU 上的性能」。 与在 Nervana 时一样,OpenAI 也将这些高性能的块稀疏内核进行了开源,旨在推动整个社区在模型和算法…
OpenAI深夜发布Sora2:推出配套App,开启视频生成与社交新体验
2024 年 2 月发布的初代 Sora 模型,在很多方面都堪称视频领域的 GPT-1 时刻 ——这是视频生成首次让人觉得开始行得通,像物体恒存性这样的简单行为,也随着预训练计算量的提升而出现。通过观看 …
这是继合肥科技馆之后,“星火伴游”在安徽落地的又一重要文化场馆,也是其从科普教育场景迈向深度文旅场景,人工智能大模型驱动智慧文旅建设的重要实践。 本次“星火伴游”在规定时间内完成系统部署与场馆知识库配置并成功…
OpenAI与DeepMind顶尖人才携手,以AI改造科研,3亿美元助力攻克超导难题
PeriodicLabs志在重塑科研的底层流程:他们要让AI走进实验室、提出假设、执行实验、生成数据、优化设计——一步步逼近「自动化科学发现」的理想。 他们都意识到:LLM已经在代码、数学和知识问答中展现…
即使在生物科技领域,科学家对衰老机理的研究日渐深入,也让人们对活到一百岁有了更具体的想象。被誉为机器人之父的石黑浩曾公开表示,这类外观接近女性的仿生机器人可以根据需要设定年龄段,除了美观,性格也相当温和,甚至…
OpenAI与DeepMind顶尖人才携手,AI赋能科研,3亿美元助力攻克超导难题
从底层优化到架构创新:OpenAI幕后工程师Scott Gray的硬核技术之路
猛士M817 Max+版重磅登场!1365km超长续航,解锁全域智野新体验
AICC2025分论坛聚焦智能驾驶:六位嘉宾共探舱驾融合、端到端与世界模型新趋势
中西部城市经济新局:西安追赶合肥,洛阳转型显效,滁州借力长三角增速领跑
苹果秋季发布会亮相iPhone 17系列:史上最薄Air登场,Pro Max 2TB版定价17999元
苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发
18岁涂津豪:从DeepSeek实习生到Nature封面作者,以少年之力叩响AI新章
阿里云与英伟达达成Physical AI合作,通义大模型升级,AI算力存力大增
华为Mate系列2025年选购指南:三款高性价比机型技术解析与场景适配
WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注
${亚马逊发布2025产品创新出海品牌五十强:出口跨境电商规模达2.15万亿
2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来
中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注
本网站LOGO小熊标志受版权保护,版权登记号:鲁作登字-2015-F-025467,未经ITBEAR官方许可,严禁使用。