深度学习中GPU和显存分析-Kaiyun科技股份有限公司

深度学习中GPU和显存分析

2026-04-07 04:08:27 小编大中小

　　显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。显存可以看成是空间，类似于内存。GPU计算单元类似于CPU中的核，用来进行数值计算。

　　显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。

　　这里推荐一个好用的小工具：gpustat,直接pip install gpustat即可安装，gpustat基于nvidia-smi，可以提供更美观简洁的展示，结合watch命令，可以动态实时监控GPU的使用情况。

　　GPU计算单元类似于CPU中的核，用来进行数值计算。衡量计算量的单位是flop： the number of floating-point multiplication-adds，浮点数先乘后加算一个flop。计算能力越强大，速度越快。衡量计算能力的单位是flops：每秒能执行的flop数量

　　K、M，G，T是以1024为底，而KB 、MB，GB，TB以1000为底。不过一般来说，在估算显存大小的时候，我们不需要严格的区分这二者。

　　在深度学习中会用到各种各样的数值类型，数值类型命名规范一般为TypeNum，比如Int64、Float32、Double64。

　　其中Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。

　　举例来说：有一个1000x1000的矩阵，float32，那么占用的显存差不多就是

　　只有有参数的层，才会有显存占用。这部份的显存占用和输入无关，模型加载完成之后就会占用。

　　在PyTorch中，当你执行完model=MyGreatModel().cuda()之后就会占用相应的显存，占用的显存大小基本与上述分析的显存差不多（会稍大一些，因为其它开销）。

　　据此可以计算出每一层输出的Tensor的形状，然后就能计算出相应的显存占用。

　　可以看出显存不是和batch-size简单的成正比，尤其是模型自身比较复杂的情况下：比如全连接很大，Embedding层很大

　　神经网络的每一层输入输出都需要保存下来，用来反向传播，但是在某些特殊的情况下，我们可以不要保存输入。比如ReLU，在PyTorch中，使用nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中，节省不少显存。感兴趣的读者可以思考一下，这时候是如何反向传播的（提示：y();dx[y=0]=0）

　　在深度学习中，一般占用显存最多的是卷积等层的输出，模型参数占用的显存相对较少，而且不太好优化。

　　计算量的定义，之前已经讲过了，计算量越大，操作越费时，运行神经网络花费的时间越多。

　　AlexNet的分析如下图，左边是每一层的参数数目（不是显存占用），右边是消耗的计算资源

　　今年谷歌提出的MobileNet，利用了一种被称为DepthWise Convolution的技术，将神经网络运行速度提升许多，它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作，右边是两个特殊而又简单的卷积操作的组合（上面类似于池化的操作，但是有权重，下面类似于全连接操作）。

　　去年一篇论文(总结了当时常用模型的各项指标，横座标是计算复杂度（越往右越慢，越耗时），纵座标是准确率（越高越好），圆的面积是参数数量（不是显存占用）。左上角我画了一个红色小圆，那是最理想的模型的的特点：快，效果好，占用显存小。

　　增大batch size能增大速度，但是很有限（主要是并行计算的优化）

　　增大batch size能减缓梯度震荡，需要更少的迭代优化次数，收敛的更快，但是每次迭代耗时更长。

　　增大batch size使得一个epoch所能进行的优化次数变少，收敛可能变慢，从而需要更多时间才能收敛（比如batch_size 变成全部样本数目）。

　　一般显卡购买渠道就是京东自营、淘宝等电商平台，线下实体店也可以购买。正常时期，同款显卡，京东自营的价格会略高于淘宝，主要是京东自营的售后比淘宝更好，更放心，而特殊时期，比如现在部分型号淘宝和京东自营的价格比较悬殊，我建议是淘宝购买，如果价格相差不大，优先京东自营购买。像微星不支持个人送保，我不建议在淘宝和拼多多等渠道购买，售后不方便，建议天猫旗舰店及京东自营等有售后保障的渠道购买，支持个人送保的品牌在哪里买都可以。

　　本文都是针对单机单卡的分析，分布式的情况会和这个有所区别。在分析计算量的时候，只分析了前向传播，反向传播计算量一般会与前向传播有细微的差别。

　　盟友纷纷表示“不跟”，特朗普吐槽：英国军舰太旧、西班牙领导不行、马克龙怕老婆，北约秒变“纸老虎”

　　新华社消息，尽管美国曾多次试图拉欧洲盟友下水，但出于安全风险、国内民意、国际道义等现实考量，英国、法国、德国、西班牙、比利时等欧洲国家明确表态“不跟”，拒绝卷入对伊朗战事。比利时首相德韦弗：比利时无意卷入对伊朗的战争，这一点不会改变。

　　据红星新闻，4月3日晚，67岁的倪萍在《乘风2026》初舞台直播中，因提议阚清子重唱、将手中票数拆分给两个选手等干预赛制的行为，引发网友热议，多个相关词条登上热搜榜。4日晚，倪萍在最新一期节目直播中称，她看到自己“被骂上”了热搜，也仔细看了网友的批评。

　　四川一景区索道家长和孩子从缆车掉入防护网，小孩受到惊吓，景区回应：缆车刚出站台时他突然改主意要下车

　　据媒体报道，4月4日，四川西昌泸山索道有一名家长及其孩子从缆车掉入下方防护网，视频显示孩子倒在防护网中，家长抓住了缆车架子，之后景区人员将他们救上站台。

　　犯罪性质特别恶劣，情节特别严重，社会危害极大！“人贩子”王浩文已被执行死刑！

　　据最高法4月2日消息，当日，最高人民法院发布四件依法严惩拐卖妇女、儿童犯罪典型案例。其中一起案例中，被告人十余年间偷盗十余名幼儿出卖，已被执行死刑。

　　#张雪吃得苦霸得蛮 #张雪眼里全是对摩托车的极致热爱 2025年，张雪带着自主研发的四缸仿赛机车500RR，亮相成都天府国际赛车场，一举创下国产车最快圈速纪录。他是怎么做到的？回看2025年湖南卫视《首发》报道，答案早已写在他一路走来的每一步里。（来源：湖南卫视《首发》）

　　中美之间的角力，如今牵动着全球的目光。不少人都在观察，这两个大国到底会走向怎样的未来。尤其是当贸易摩擦不断升级，战略竞争摆在台面上时，大家不由得想：冲突的风险到底有多大？而现实摆在那里，美国过去那一套先经济施压再政治围堵的做法，用在中国身上越来越吃力。

　　周功华被查的消息，2025年5月就曾震动金融圈。时隔近一年，2026年4月3日，开除党籍的通报正式下达。1962年出生的博士高管，外表是沉稳深色西装、标准白衬衣领口分明，看着像身经百战的保险操盘手。但再挺括的西装也裹不住心里的弯弯绕绕。

　　很多人看比赛，其实不是盯着比分，而是在等一个瞬间：悬念什么时候真正开始。等到半决赛名单确定，那种“终于要见真章了”的感觉，反而比胜负本身更让人坐得住。昨晚之后，WCBA走到这个阶段，很多讨论也慢慢从结果，转向了过程。有一个容易被忽略的细节，是卫冕之路已经被改写。

　　导读：CBA顶流球星再遭重创！近日，有消息爆料，中国男篮标志性人物郭艾伦及其家人疑似遭遇熟人诈骗，涉案金额接近千万元人民币。据悉，嫌疑人竟是郭艾伦身边好友，以投资入股为名诱导其转账后突然失联，目前郭艾伦家属已向公安机关报案，案件正处于进一步侦办中，引发全网热议。

　　让更多人有机会接触到这一行业，希望更多人能够有机会进入机器视觉行业.有想了解机器视觉相关学习内容、就业情况的朋友可私信我。

上一篇：2026年AI计算节点发展研究报告下一篇：GPU不是唯一解：英伟达用GroqLPU证明推理赛道需要“另返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签

gpu的计算量大小

开云（中国大陆官方网站）Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

深度学习中GPU和显存分析

CPO和PCB业绩大增机会明显跌了低吸没错

国产FPGA打入高端局

GPU运算工作原理解析

地球「养不起」英伟达GPU？算力狂潮背后的生态警钟