目录技术背景常规信息读取py3nvml的安装与使用py3nvml绑定GPU卡查看空闲GPU命令行信息获取单独查看驱动版本和显卡型号单独查看显存信息总结概要版权声明参考链接技术背景 随着模型运算量的增长和硬件技术的发展,使用GPU来完成各种任务的计算已经渐渐成为算法实现的主流手段。而对于运行期间的一些GPU的占用,比如每一步的显存使用率等诸如此类的信息,就需要一些比较细致的GPU信息读取的工具,这里我们重点推荐使用py3nvml来对python代码运行的一个过程进行监控。常规信息读取 一般大家比较常用的就是nvidiasmi这个指令,来读取GPU的使用率和显存占用、驱动版本等信息:nvidiasmiWedJan1215:52:042022NVIDIASMI470。42。01DriverVersion:470。42。01CUDAVersion:11。4GPUNamePersistenceMBusIdDisp。AVolatileUncorr。ECCFanTempPerfPwr:UsageCapMemoryUsageGPUUtilComputeM。MIGM。0QuadroRTX4000On00000000:03:00。0OnNA3039CP820W125W538MiB7979MiB16DefaultNA1QuadroRTX4000On00000000:A6:00。0OffNA3032CP87W125W6MiB7982MiB0DefaultNAProcesses:GPUGICIPIDTypeProcessnameGPUMemoryIDIDUsage0NANA1643GusrlibxorgXorg412MiB0NANA2940Gusrbingnomeshell76MiB0NANA47102G。。。AAAAAAAAAsharedfiles35MiB0NANA172424G。。。AAAAAAAAAsharedfiles11MiB1NANA1643GusrlibxorgXorg4MiB 但是如果不使用profile仅仅使用nvidiasmi这个指令的输出的话,是没有办法非常细致的分析程序运行过程中的变化的。这里顺便推荐一个比较精致的跟nvidiasmi用法非常类似的小工具:gpustat。这个工具可以直接使用pip进行安装和管理:python3mpipinstallgpustatCollectinggpustatDownloadinggpustat0。6。0。tar。gz(78kB)78kB686kBsRequirementalreadysatisfied:six1。7inhomedechin。locallibpython3。8sitepackages(fromgpustat)(1。16。0)Collectingnvidiamlpy37。352。0Downloadingnvidiamlpy37。352。0。tar。gz(19kB)Requirementalreadysatisfied:psutilinhomedechin。locallibpython3。8sitepackages(fromgpustat)(5。8。0)Collectingblessings1。6Downloadingblessings1。7py3noneany。whl(18kB)Buildingwheelsforcollectedpackages:gpustat,nvidiamlpy3Buildingwheelforgpustat(setup。py)。。。doneCreatedwheelforgpustat:filenamegpustat0。6。0py3noneany。whlsize12617sha2564158e741b609c7a1bc6db07d76224db51cd7656a6f2e146e0b81185ce4e960baStoredindirectory:homedechin。cachepipwheels0dd980b6cbcdc9946c7b50ce35441cc9e7d8c5a9d066469ba99bae44Buildingwheelfornvidiamlpy3(setup。py)。。。doneCreatedwheelfornvidiamlpy3:filenamenvidiamlpy37。352。0py3noneany。whlsize19191sha25670cd8ffc92286944ad9f5dc4053709af76fc0e79928dc61b98a9819a719f1e31Storedindirectory:homedechin。cachepipwheelsb9b168cb4feab29709d4155310d29a421389665dcab9eb3b679b527bSuccessfullybuiltgpustatnvidiamlpy3Installingcollectedpackages:nvidiamlpy3,blessings,gpustatSuccessfullyinstalledblessings1。7gpustat0。6。0nvidiamlpy37。352。0 使用的时候也是跟nvidiasmi非常类似的操作:watchcolorn1gpustatcpu 返回结果如下所示:Every1。0s:gpustatcpuubuntu2004:WedJan1215:58:592022ubuntu2004WedJan1215:58:592022470。42。01〔0〕QuadroRTX400039C,35377979MBroot:Xorg1643(412M)dechin:gnomeshell2940(75M)dechin:slack47102(35M)dechin:chrome172424(11M)〔1〕QuadroRTX400032C,067982MBroot:Xorg1643(4M) 通过gpustat返回的结果,包含了GPU的型号、使用率和显存使用大小和GPU当前的温度等常规信息。py3nvml的安装与使用 接下来正式看下py3nvml的安装和使用方法,这是一个可以在python中实时查看和监测GPU信息的一个库,可以通过pip来安装和管理:python3mpipinstallpy3nvmlCollectingpy3nvmlDownloadingpy3nvml0。2。7py3noneany。whl(55kB)55kB650kBsRequirementalreadysatisfied:xmltodictinhomedechinanaconda3libpython3。8sitepackages(frompy3nvml)(0。12。0)Installingcollectedpackages:py3nvmlSuccessfullyinstalledpy3nvml0。2。7py3nvml绑定GPU卡 有一些框架为了性能的最大化,在初始化的时候就会默认去使用到整个资源池里面的所有GPU卡,比如如下使用Jax来演示的一个案例:In〔1〕:importpy3nvmlIn〔2〕:fromjaximportnumpyasjnpIn〔3〕:xjnp。ones(1000000000)In〔4〕:!nvidiasmiWedJan1216:08:322022NVIDIASMI470。42。01DriverVersion:470。42。01CUDAVersion:11。4GPUNamePersistenceMBusIdDisp。AVolatileUncorr。ECCFanTempPerfPwr:UsageCapMemoryUsageGPUUtilComputeM。MIGM。0QuadroRTX4000On00000000:03:00。0OnNA3041CP038W125W7245MiB7979MiB0DefaultNA1QuadroRTX4000On00000000:A6:00。0OffNA3035CP035W125W101MiB7982MiB0DefaultNAProcesses:GPUGICIPIDTypeProcessnameGPUMemoryIDIDUsage0NANA1643GusrlibxorgXorg412MiB0NANA2940Gusrbingnomeshell75MiB0NANA47102G。。。AAAAAAAAAsharedfiles35MiB0NANA172424G。。。AAAAAAAAAsharedfiles11MiB0NANA812125Cusrlocalbinpython6705MiB1NANA1643GusrlibxorgXorg4MiB1NANA812125Cusrlocalbinpython93MiB 在这个案例中我们只是在显存中分配了一块空间用于存储一个向量,但是Jax在初始化之后,自动占据了本地的2张GPU卡。根据Jax官方提供的方法,我们可以使用如下的操作配置环境变量,使得Jax只能看到其中的1张卡,这样就不会扩张:In〔1〕:importosIn〔2〕:os。environ〔CUDAVISIBLEDEVICES〕1In〔3〕:fromjaximportnumpyasjnpIn〔4〕:xjnp。ones(1000000000)In〔5〕:!nvidiasmiWedJan1216:10:362022NVIDIASMI470。42。01DriverVersion:470。42。01CUDAVersion:11。4GPUNamePersistenceMBusIdDisp。AVolatileUncorr。ECCFanTempPerfPwr:UsageCapMemoryUsageGPUUtilComputeM。MIGM。0QuadroRTX4000On00000000:03:00。0OnNA3040CP819W125W537MiB7979MiB0DefaultNA1QuadroRTX4000On00000000:A6:00。0OffNA3035CP035W125W7195MiB7982MiB0DefaultNAProcesses:GPUGICIPIDTypeProcessnameGPUMemoryIDIDUsage0NANA1643GusrlibxorgXorg412MiB0NANA2940Gusrbingnomeshell75MiB0NANA47102G。。。AAAAAAAAAsharedfiles35MiB0NANA172424G。。。AAAAAAAAAsharedfiles11MiB1NANA1643GusrlibxorgXorg4MiB1NANA813030Cusrlocalbinpython7187MiB 可以看到结果中已经是只使用了1张GPU卡,达到了我们的目的,但是这种通过配置环境变量来实现的功能还是着实不够pythonic,因此py3nvml中也提供了这样的功能,可以指定某一系列的GPU卡用于执行任务:In〔1〕:importpy3nvmlIn〔2〕:fromjaximportnumpyasjnpIn〔3〕:py3nvml。grabgpus(numgpus1,gpuselect〔1〕)Out〔3〕:1In〔4〕:xjnp。ones(1000000000)In〔5〕:!nvidiasmiWedJan1216:12:372022NVIDIASMI470。42。01DriverVersion:470。42。01CUDAVersion:11。4GPUNamePersistenceMBusIdDisp。AVolatileUncorr。ECCFanTempPerfPwr:UsageCapMemoryUsageGPUUtilComputeM。MIGM。0QuadroRTX4000On00000000:03:00。0OnNA3040CP820W125W537MiB7979MiB0DefaultNA1QuadroRTX4000On00000000:A6:00。0OffNA3036CP035W125W7195MiB7982MiB0DefaultNAProcesses:GPUGICIPIDTypeProcessnameGPUMemoryIDIDUsage0NANA1643GusrlibxorgXorg412MiB0NANA2940Gusrbingnomeshell75MiB0NANA47102G。。。AAAAAAAAAsharedfiles35MiB0NANA172424G。。。AAAAAAAAAsharedfiles11MiB1NANA1643GusrlibxorgXorg4MiB1NANA814673Cusrlocalbinpython7187MiB 可以看到结果中也是只使用了1张GPU卡,达到了跟上一步的操作一样的效果。查看空闲GPU 对于环境中可用的GPU,py3nvml的判断标准就是在这个GPU上已经没有任何的进程,那么这个就是一张可用的GPU卡:In〔1〕:importpy3nvmlIn〔2〕:freegpuspy3nvml。getfreegpus()In〔3〕:freegpusOut〔3〕:〔True,True〕 当然这里需要说明的是,系统应用在这里不会被识别,应该是会判断守护进程。命令行信息获取 跟nvidiasmi非常类似的,py3nvml也可以在命令行中通过调用py3smi来使用。值得一提的是,如果需要用nvidiasmi来实时的监测GPU的使用信息,往往是需要配合watchn来使用的,但是如果是py3smi则不需要,直接用py3smil就可以实现类似的功能。py3smil5WedJan1216:17:372022NVIDIASMIDriverVersion:470。42。01GPUFanTempPerfPwr:UsageCapMemoryUsageGPUUtilComputeM。03039C819W125W537MiB7979MiB0Default13033C87W125W6MiB7982MiB0DefaultProcesses:GPUMemoryGPUOwnerPIDUptimeProcessNameUsage 可以看到略有区别的是,这里并不像nvidiasmi列出来的进程那么多,应该是自动忽略了系统进程。单独查看驱动版本和显卡型号 在py3nvml中把查看驱动和型号的功能单独列了出来:In〔1〕:frompy3nvml。py3nvmlimportIn〔2〕:nvmlInit()Out〔2〕:CDLLlibnvidiaml。so。1,handle560ad4d07a60at0x7fd13aa52340In〔3〕:print(DriverVersion:{}。format(nvmlSystemGetDriverVersion()))DriverVersion:470。42。01In〔4〕:deviceCountnvmlDeviceGetCount()。。。:foriinrange(deviceCount):。。。:handlenvmlDeviceGetHandleByIndex(i)。。。:print(Device{}:{}。format(i,nvmlDeviceGetName(handle)))。。。:Device0:QuadroRTX4000Device1:QuadroRTX4000In〔5〕:nvmlShutdown() 这样也不需要我们自己再去逐个的筛选,从灵活性和可扩展性上来说还是比较方便的。单独查看显存信息 这里同样的也是把显存的使用信息单独列了出来,不需要用户再去单独筛选这个信息,相对而言比较细致:In〔1〕:frompy3nvml。py3nvmlimportIn〔2〕:nvmlInit()Out〔2〕:CDLLlibnvidiaml。so。1,handle55ae42aadd90at0x7f39c700e040In〔3〕:handlenvmlDeviceGetHandleByIndex(0)In〔4〕:infonvmlDeviceGetMemoryInfo(handle)In〔5〕:print(Totalmemory:{}MiB。format(info。total20))Totalmemory:7979MiBIn〔6〕:print(Freememory:{}MiB。format(info。free20))Freememory:7441MiBIn〔7〕:print(Usedmemory:{}MiB。format(info。used20))Usedmemory:537MiB 如果把这些代码插入到程序中,就可以获悉每一步所占用的显存的变化。总结概要 在深度学习或者其他类型的GPU运算过程中,对于GPU信息的监测也是一个非常常用的功能。如果仅仅是使用系统级的GPU监测工具,就没办法非常细致的去跟踪每一步的显存和使用率的变化。如果是用profiler,又显得过于细致,而且环境配置、信息输出和筛选并不是很方便。此时就可以考虑使用py3nvml这样的工具,针对于GPU任务执行的过程进行细化的分析,有助于提升GPU的利用率和程序执行的性能。版权声明 本文首发链接为:https:www。cnblogs。comdechinphyppy3nvml。html 作者ID:DechinPhy 更多原著文章请参考:https:www。cnblogs。comdechinphy 打赏专用链接:https:www。cnblogs。comdechinphygalleryimage379634。html 腾讯云专栏同步:https:cloud。tencent。comdevelopercolumn91958参考链接https:zhuanlan。zhihu。comp31558973