从物理到AI底层：OpenAI幕后工程师ScottGray如何用CUDA内核改写训练规则-Kaiyun科技股份有限公司

当前位置：首页 > 新闻资讯 > 行业新闻

从物理到AI底层：OpenAI幕后工程师ScottGray如何用CUDA内核改写训练规则

2025-10-02 14:38:54 小编大中小

从物理到AI底层：OpenAI幕后工程师ScottGray如何用CUDA内核改写训练规则

　　极氪9X正式登场！45.59万元起售，四大核心技术重塑豪华SUV新标杆

　　莒县“举国大地”淘宝跳蚤市场：品控严格服务贴心，成二手文化物品交流热地

　　从电商到原料升级：解码中国宠物行业国货品牌崛起背后的市场机遇与突围策略

　　假期未至惊喜先到！DeepSeek新版本V3.2-Exp携黑科技登场，未来可期

　　OpenAI幕后英雄Scott Gray：从底层优化到赋能AI新架构的硬核之路

　　OpenAI深夜发布Sora2：推出配套App，开启视频生成与社交新体验

　　OpenAI与DeepMind顶尖人才携手，以AI改造科研，3亿美元助力攻克超导难题

　　从物理到AI底层：OpenAI幕后工程师Scott Gray如何用CUDA内核改写训练规则

　　在人工智能领域，聚光灯往往聚焦于那些站在台前的明星科学家，但真正推动技术进步的，还有无数在幕后默默耕耘的工程师。近期，OpenAI 的一位资深工程师因其在底层性能优化方面的卓越贡献，成为行业关注的焦点。

　　事件起因于社交媒体上的一则热门帖子，其中提到 OpenAI 仅凭一位工程师编写的关键 CUDA Kernel，便支撑起每日数万亿次的庞大计算量。评论区纷纷猜测，这位“幕后大神”正是 OpenAI 的资深工程师 Scott Gray。这一猜测并非空穴来风，OpenAI 的官方介绍明确指出，他的工作重心是“优化深度网络在 GPU 上的性能”。

　　编写高性能的模型训练 CUDA Kernel 是一项极具挑战性的工作，要求开发者同时精通并行计算理论、GPU 硬件架构与深度学习算法。大多数开发者停留在应用层，使用现成工具；从事推理优化的人稍多，但能深入底层，为复杂的训练过程（尤其是反向传播）手写出超越 cuDNN 等现有库的 CUDA Kernel 的开发者，可谓凤毛麟角。而 Scott Gray 的职业轨迹，恰好是为这一角色量身打造的。

　　Scott Gray 的职业生涯始于 UIUC 物理与计算机科学专业。2016 年，他加入 OpenAI，此前在 Nervana Systems（一家后被英特尔收购的公司）从事 GPU 汇编级内核优化。Nervana 的前 CEO 在评论区直言，当年他们在论坛发现 Scott 后便立即聘用，并盛赞其为“全球最强 GPU 程序员”。

　　在 Nervana 时期，Scott Gray 的声名鹊起源于他对硬件底层极限的探索。当时，深度学习正处于爆发前夜，但软件框架与底层硬件之间存在巨大的效率鸿沟。绝大多数开发者依赖 NVIDIA 的 CUDA C/C++ 和官方库（如 cuBLAS、cuDNN）进行 GPU 编程。这种标准流程虽然便捷，但其多层软件抽象屏蔽了硬件细节，也成为了性能的“天花板”。

　　Gray 的哲学是，要实现真正的性能突破，必须绕过这些抽象层。为此，他开发了 maxas——一个针对 NVIDIA Maxwell 架构的汇编器。这让他得以手动编写出极致性能的计算内核，直接控制硬件资源，包括寄存器分配、内存延迟管理和指令流水线控制。为了证明其价值，Gray 使用 maxas 手写了一个 SGEMM（单精度通用矩阵乘法）内核，结果在 GM204 GPU 上达到了硬件理论峰值的 98%，性能比 NVIDIA 官方闭源的 cuBLAS 库还要快 4.8%。

　　在 maxas 成功的基础上，Gray 将目光投向了深度学习中的另一个核心计算——卷积。他开发了 maxDNN，旨在证明底层优化方法论是一种可以系统性应用的通用策略。maxDNN 借鉴了当时最高效的卷积算法思路，但在底层完全采用 maxas 中被验证过的汇编级优化技术。最终，其核心计算循环中，超过 98% 的指令都是纯粹的浮点运算指令，计算效率极高。在 AlexNet 模型的所有卷积层上，maxDNN 稳定地达到了 93-95% 的计算效率，全面超越了当时 NVIDIA 的 cuDNN 库。

　　加入 OpenAI 后，Gray 的工作重心发生了战略性转变。随着 Scaling Laws 的提出，模型规模的增长成为提升性能的关键。然而，稠密模型的无限扩张在计算和成本上面临瓶颈。Gray 的工作转向了为更高效的稀疏模型架构开发底层工具，从一个“优化者”转变为一个“使能者”。

　　Scott Gray 的名字出现在几乎所有 OpenAI 的里程碑式论文中，包括 GPT-3、GPT-4、Codex 和 DALL-E。他作为核心技术人员，编写了大量高性能 GPU 内核，支撑了这些模型万亿次级别的训练和推理计算。为了解决稠密模型的规模化难题，Gray 与同事共同开发了一套创新的块稀疏（block-sparse）GPU 内核。

　　不同于移除单个权重的非结构化稀疏，块稀疏将权重矩阵划分为固定大小的块，并将整个块置零。Gray 为此开发了专门的 GPU 内核，在计算时能够完全“跳过”这些零值块，从而大幅提升效率。这些内核的运行速度可以比处理稠密矩阵的 cuBLAS 或处理通用稀疏矩阵的 cuSPARSE 快上几个数量级。利用这些内核，OpenAI 在文本和图像生成等多个任务上取得了当时的领先成果，并将这些高性能的块稀疏内核进行了开源，旨在推动整个社区在模型和算法设计上的进一步创新。

　　探访华为练秋湖研发中心，共赴世界城市日共线年，世界城市日将继续践行“城市，让生活更美好”的理念，推出一系列高水平、国际化、青年友好的社会活动，通过内容丰富多样的论坛、展览、公益等形式，提升公众对智慧城市与可持续未来的关注与参与，推动社会各界探…

　　南方财经记者观察到，港科大体系近百名本硕博学生及毕业生带来了十多个创新成果，围绕仿生机器人开展的全栈技术实战，正在以“小切口”破解机器人产业痛点。今年5月，港科大（广州）与天太机器人成立了联合实验室，为参赛…

　　2025年，世界城市日将继续践行“城市，让生活更美好”的理念，推出一系列高水平、国际化、青年友好的社会活动，通过内容丰富多样的论坛、展览、公益等形式，提升公众对智慧城市与可持续未来的关注与参与，推动社会各界探…

　　今天分享的是：报告共计：35页《》（V1.0-202509）由全国网络安全标准化技术委员会秘书处2025年9月发布，国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院等多单位参与起草，旨在指导生…

　　OpenAI幕后英雄Scott Gray：从底层优化到赋能AI新架构的硬核之路

　　在 OpenAI 的官方介绍中也明确提到，他的工作重心是「优化深度网络在 GPU 上的性能」。与在 Nervana 时一样，OpenAI 也将这些高性能的块稀疏内核进行了开源，旨在推动整个社区在模型和算法…

　　OpenAI深夜发布Sora2：推出配套App，开启视频生成与社交新体验

　　2024 年 2 月发布的初代 Sora 模型，在很多方面都堪称视频领域的 GPT-1 时刻 ——这是视频生成首次让人觉得开始行得通，像物体恒存性这样的简单行为，也随着预训练计算量的提升而出现。通过观看 …

　　这是继合肥科技馆之后，“星火伴游”在安徽落地的又一重要文化场馆，也是其从科普教育场景迈向深度文旅场景，人工智能大模型驱动智慧文旅建设的重要实践。本次“星火伴游”在规定时间内完成系统部署与场馆知识库配置并成功…

　　OpenAI与DeepMind顶尖人才携手，以AI改造科研，3亿美元助力攻克超导难题

　　PeriodicLabs志在重塑科研的底层流程：他们要让AI走进实验室、提出假设、执行实验、生成数据、优化设计——一步步逼近「自动化科学发现」的理想。他们都意识到：LLM已经在代码、数学和知识问答中展现…

　　即使在生物科技领域，科学家对衰老机理的研究日渐深入，也让人们对活到一百岁有了更具体的想象。被誉为机器人之父的石黑浩曾公开表示，这类外观接近女性的仿生机器人可以根据需要设定年龄段，除了美观，性格也相当温和，甚至…

　　OpenAI与DeepMind顶尖人才携手，AI赋能科研，3亿美元助力攻克超导难题

　　从底层优化到架构创新：OpenAI幕后工程师Scott Gray的硬核技术之路

　　猛士M817 Max+版重磅登场！1365km超长续航，解锁全域智野新体验

　　AICC2025分论坛聚焦智能驾驶：六位嘉宾共探舱驾融合、端到端与世界模型新趋势

　　中西部城市经济新局：西安追赶合肥，洛阳转型显效，滁州借力长三角增速领跑

　　苹果秋季发布会亮相iPhone 17系列：史上最薄Air登场，Pro Max 2TB版定价17999元

　　苹果加速布局中国市场！Apple Intelligence和新版Siri或年底至明年上线系列或提前登场，首发骁龙8 Elite Gen5，9月机圈大战一触即发

　　18岁涂津豪：从DeepSeek实习生到Nature封面作者，以少年之力叩响AI新章

　　‍阿里云与英伟达达成Physical AI合作，通义大模型升级，AI算力存力大增‍

　　华为Mate系列2025年选购指南：三款高性价比机型技术解析与场景适配

　　WAVE SUMMIT大会新动态：文心大模型X1.1上线，多项能力显著跃升

　　‍字节跳动千人芯片团队架构调整，转至新加坡子公司Picoheart引关注‍

　　${亚马逊发布2025产品创新出海品牌五十强：出口跨境电商规模达2.15万亿

　　2025网安周：每日互动刘宇谈AI时代，知识安全成关键，共筑数字新未来

　　中国大模型DeepSeek首登Nature封面，R1训练成本仅约208万引关注

　　本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。

上一篇：电力设备行业周报：算力市场高景气度推动IDC行业稳步增长海外下一篇：花旗——全球人工智能——上调人工智能基础设施预测返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签

AI训练

开云（中国大陆官方网站）Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

从物理到AI底层：OpenAI幕后工程师ScottGray如何用CUDA内核改写训练规则

AI正加速迈进应用落地关键期

涨停雷达：ST板块+驾驶培训+VR+AIST东时触及涨停

立昂技术：公司可以为AI大模型训练、推理等场景提供算力支持

华为、阿里押注“超节点”：不卷单卡性能追求“系统效率”才是国