安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

80学习Linux的人都不懂的内存问题

5月9日 风雨峰投稿
  前言
  之前在实习时,听了OOM的分享之后,就对Linux内核内存管理充满兴趣,但是这块知识非常庞大,没有一定积累,不敢写下,担心误人子弟,所以经过一个一段时间的积累,对内核内存有一定了解之后,今天才写下这篇文章记录,分享。
  这篇文章主要是分析了单个进程空间的内存布局与分配,是从全局的视角分析下内核对内存的管理;
  下面主要从以下方面介绍Linux内存管理:进程的内存申请与分配;内存耗尽之后OOM;申请的内存都在哪?系统回收内存;1、进程的内存申请与分配
  之前文章介绍helloworld程序是如何载入内存以及是如何申请内存的,在这再次说明下:同样,还是先给出进程的地址空间,我觉得对于任何开发人员这张图是必须记住的,还有一张就是操作disk,memory以及cpucache的时间图。
  当我们在终端启动一个程序时,终端进程调用exec函数将可执行文件载入内存,此时代码段,数据段,bbs段,stack段都通过mmap函数映射到内存空间,堆则要根据是否有在堆上申请内存来决定是否映射。
  exec执行之后,此时并未真正开始执行进程,而是将cpu控制权交给了动态链接库装载器,由它来将该进程需要的动态链接库装载进内存。之后才开始进程的执行,这个过程可以通过strace命令跟踪进程调用的系统函数来分析。
  这是认识pipe中的程序,从这个输出过程,可以看出和我上述描述的一致。
  当第一次调用malloc申请内存时,通过系统调用brk嵌入到内核,首先会进行一次判断,是否有关于堆的vma,如果没有,则通过mmap匿名映射一块内存给堆,并建立vma结构,挂到mmstruct描述符上的红黑树和链表上。
  然后回到用户态,通过内存分配器(ptmaloc,tcmalloc,jemalloc)算法将分配到的内存进行管理,返回给用户所需要的内存。
  如果用户态申请大内存时,是直接调用mmap分配内存,此时返回给用户态的内存还是虚拟内存,直到第一次访问返回的内存时,才真正进行内存的分配。
  其实通过brk返回的也是虚拟内存,但是经过内存分配器进行切割分配之后(切割就必须访问内存),全都分配到了物理内存
  当进程在用户态通过调用free释放内存时,如果这块内存是通过mmap分配,则调用munmap直接返回给系统。
  否则内存是先返回给内存分配器,然后由内存分配器统一返还给系统,这就是为什么当我们调用free回收内存之后,再次访问这块内存时,可能不会报错的原因。
  当然,当整个进程退出之后,这个进程占用的内存都会归还给系统。2、内存耗尽之后OOM
  在实习期间,有一台测试机上的mysql实例经常被oom杀死,OOM(outofmemory)即为系统在内存耗尽时的自我拯救措施,他会选择一个进程,将其杀死,释放出内存,很明显,哪个进程占用的内存最多,即最可能被杀死,但事实是这样的吗?
  今天早上去上班,刚好碰到了一起OOM,突然发现,OOM一次,世界都安静下来了,哈哈,测试机上的redis被杀死了。
  OOM关键文件oomkill。c,里面介绍了当内存不够时,系统如何选择最应该被杀死的进程,选择因素有挺多的,除了进程占用的内存外,还有进程运行的时间,进程的优先级,是否为root用户进程,子进程个数和占用内存以及用户控制参数oomadj都相关。
  当产生oom之后,函数selectbadprocess会遍历所有进程,通过之前提到的那些因素,每个进程都会得到一个oomscore分数,分数最高,则被选为杀死的进程。
  我们可以通过设置procoomadj分数来干预系统选择杀死的进程。
  这是内核关于这个oomadj调整值的定义,最大可以调整为15,最小为16,如果为17,则该进程就像买了vip会员一样,不会被系统驱逐杀死了,因此,如果在一台机器上有跑很多服务器,且你不希望自己的服务被杀死的话,就可以设置自己服务的oomadj为17。
  当然,说到这,就必须提到另一个参数procsysvmovercommitmemory,manproc说明如下:
  意思就是当overcommitmemory为0时,则为启发式oom,即当申请的虚拟内存不是很夸张的大于物理内存,则系统允许申请,但是当进程申请的虚拟内存很夸张的大于物理内存,则就会产生OOM。
  例如只有8g的物理内存,然后redis虚拟内存占用了24G,物理内存占用3g,如果这时执行bgsave,子进程和父进程共享物理内存,但是虚拟内存是自己的,即子进程会申请24g的虚拟内存,这很夸张大于物理内存,就会产生一次OOM。
  当overcommitmemory为1时,则永远都允许overmemory内存申请,即不管你多大的虚拟内存申请都允许,但是当系统内存耗尽时,这时就会产生oom,即上述的redis例子,在overcommitmemory1时,是不会产生oom的,因为物理内存足够。
  当overcommitmemory为2时,永远都不能超出某个限定额的内存申请,这个限定额为swapRAM系数(procsysvmovercmmitratio,默认50,可以自己调整),如果这么多资源已经用光,那么后面任何尝试申请内存的行为都会返回错误,这通常意味着此时没法运行任何新程序
  以上就是OOM的内容,了解原理,以及如何根据自己的应用,合理的设置OOM。3、系统申请的内存都在哪?
  我们了解了一个进程的地址空间之后,是否会好奇,申请到的物理内存都存在哪了?可能很多人觉得,不就是物理内存吗?
  我这里说申请的内存在哪,是因为物理内存有分为cache和普通物理内存,可以通过free命令查看,而且物理内存还有分DMA,NORMAL,HIGH三个区,这里主要分析cache和普通内存。
  通过第一部分,我们知道一个进程的地址空间几乎都是mmap函数申请,有文件映射和匿名映射两种。3。1共享文件映射
  我们先来看下代码段和动态链接库映射段,这两个都是属于共享文件映射,也就是说由同一个可执行文件启动的两个进程是共享这两个段,都是映射到同一块物理内存,那么这块内存在哪了?我写了个程序测试如下:
  我们先看下当前系统的内存使用情况:
  当我在本地新建一个1G的文件:
  ddifdevzerooffileblockbsMcount1024
  然后调用上述程序,进行共享文件映射,此时内存使用情况为:
  我们可以发现,buffcache增长了大概1G,因此我们可以得出结论,代码段和动态链接库段是映射到内核cache中,也就是说当执行共享文件映射时,文件是先被读取到cache中,然后再映射到用户进程空间中。3。2私有文件映射段
  对于进程空间中的数据段,其必须是私有文件映射,因为如果是共享文件映射,那么同一个可执行文件启动的两个进程,任何一个进程修改数据段,都将影响另一个进程了,我将上述测试程序改写成匿名文件映射:
  在执行程序执行,需要先将之前的cache释放掉,否则会影响结果
  echo1procsysvmdropcaches
  接着执行程序,看下内存使用情况:
  从使用前和使用后对比,可以发现used和buffcache分别增长了1G,说明当进行私有文件映射时,首先是将文件映射到cache中,然后如果某个文件对这个文件进行修改,则会从其他内存中分配一块内存先将文件数据拷贝至新分配的内存,然后再在新分配的内存上进行修改,这也就是写时复制。
  这也很好理解,因为如果同一个可执行文件开启多个实例,那么内核先将这个可执行的数据段映射到cache,然后每个实例如果有修改数据段,则都将分配一个一块内存存储数据段,毕竟数据段也是一个进程私有的。
  通过上述分析,可以得出结论,如果是文件映射,则都是将文件映射到cache中,然后根据共享还是私有进行不同的操作。3。3私有匿名映射
  像bbs段,堆,栈这些都是匿名映射,因为可执行文件中没有相应的段,而且必须是私有映射,否则如果当前进程fork出一个子进程,那么父子进程将会共享这些段,一个修改都会影响到彼此,这是不合理的。
  ok,现在我把上述测试程序改成私有匿名映射
  这时再来看下内存的使用情况
  我们可以看到,只有used增加了1G,而buffcache并没有增长;说明,在进行匿名私有映射时,并没有占用cache,其实这也是有道理,因为就只有当前进程在使用这块这块内存,没有必要占用宝贵的cache。3。4共享匿名映射
  当我们需要在父子进程共享内存时,就可以用到mmap共享匿名映射,那么共享匿名映射的内存是存放在哪了?我继续改写上述测试程序为共享匿名映射。
  这时来看下内存的使用情况:
  从上述结果,我们可以看出,只有buffcache增长了1G,即当进行共享匿名映射时,这时是从cache中申请内存,道理也很明显,因为父子进程共享这块内存,共享匿名映射存在于cache,然后每个进程再映射到彼此的虚存空间,这样即可操作的是同一块内存。4、系统回收内存
  当系统内存不足时,有两种方式进行内存释放,一种是手动的方式,另一种是系统自己触发的内存回收,先来看下手动触发方式。
  4。1手动回收内存
  手动回收内存,之前也有演示过,即
  echo1procsysvmdropcaches
  我们可以在manproc下面看到关于这个的简介
  从这个介绍可以看出,当dropcaches文件为1时,这时将释放pagecache中可释放的部分(有些cache是不能通过这个释放的),当dropcaches为2时,这时将释放dentries和inodes缓存,当dropcaches为3时,这同时释放上述两项。
  关键还有最后一句,意思是说如果pagecache中有脏数据时,操作dropcaches是不能释放的,必须通过sync命令将脏数据刷新到磁盘,才能通过操作dropcaches释放pagecache。
  ok,之前有提到有些pagecache是不能通过dropcaches释放的,那么除了上述提文件映射和共享匿名映射外,还有有哪些东西是存在pagecache了?
  4。2tmpfs
  我们先来看下tmpfs,tmpfs和procfs,sysfs以及ramfs一样,都是基于内存的文件系统,tmpfs和ramfs的区别就是ramfs的文件基于纯内存的,和tmpfs除了纯内存外,还会使用swap交换空间,以及ramfs可能会把内存耗尽,而tmpfs可以限定使用内存大小,可以用命令dfTh查看系统一些文件系统,其中就有一些是tmpfs,比较出名的是目录devshm
  tmpfs文件系统源文件在内核源码mmshmem。c,tmpfs实现很复杂,之前有介绍虚拟文件系统,基于tmpfs文件系统创建文件和其他基于磁盘的文件系统一样,也会有inode,superblock,identry,file等结构,区别主要是在读写上,因为读写才涉及到文件的载体是内存还是磁盘。
  而tmpfs文件的读函数shmemfileread,过程主要为通过inode结构找到addressspace地址空间,其实就是磁盘文件的pagecache,然后通过读偏移定位cache页以及页内偏移。
  这时就可以直接从这个pagecache通过函数copytouser将缓存页内数据拷贝到用户空间,当我们要读物的数据不pagecache中时,这时要判断是否在swap中,如果在则先将内存页swapin,再读取。
  tmpfs文件的写函数shmemfilewrite,过程主要为先判断要写的页是否在内存中,如果在,则直接将用户态数据通过函数copyfromuser拷贝至内核pagecache中覆盖老数据,并标为dirty。
  如果要写的数据不再内存中,则判断是否在swap中,如果在,则先读取出来,用新数据覆盖老数据并标为脏,如果即不在内存也不在磁盘,则新生成一个pagecache存储用户数据。
  由上面分析,我们知道基于tmpfs的文件也是使用cache的,我们可以在devshm上创建一个文件来检测下:
  看到了吧,cache增长了1G,验证了tmpfs的确使用的cache内存。
  其实mmap匿名映射原理也是用了tmpfs,在mmmmap。cdommappgoff函数内部,有判断如果file结构为空以及为SHARED映射,则调用shmemzerosetup(vma)函数在tmpfs上用新建一个文件
  这里就解释了为什么共享匿名映射内存初始化为0了,但是我们知道用mmap分配的内存初始化为0,就是说mmap私有匿名映射也为0,那么体现在哪了?
  这个在dommappgoff函数内部可没有体现出来,而是在缺页异常,然后分配一种特殊的初始化为0的页。
  那么这个tmpfs占有的内存页可以回收吗?
  也就是说tmpfs文件占有的pagecache是不能回收的,道理也很明显,因为有文件引用这些页,就不能回收。4。3共享内存
  posix共享内存其实和mmap共享映射是同一个道理,都是利用在tmpfs文件系统上新建一个文件,然后再映射到用户态,最后两个进程操作同一个物理内存,那么SystemV共享内存是否也是利用tmpfs文件系统了?
  我们可以跟踪到下述函数
  这个函数就是新建一个共享内存段,其中函数
  shmemkernelfilesetup
  就是在tmpfs文件系统上创建一个文件,然后通过这个内存文件实现进程通信,这我就不写测试程序了,而且这也是不能回收的,因为共享内存ipc机制生命周期是随内核的,也就是说你创建共享内存之后,如果不显示删除的话,进程退出之后,共享内存还是存在的。
  之前看了一些技术博客,说到Poxic和SystemV两套ipc机制(消息队列,信号量以及共享内存)都是使用tmpfs文件系统,也就是说最终内存使用的都是pagecache,但是我在源码中看出了两个共享内存是基于tmpfs文件系统,其他信号量和消息队列还没看出来(有待后续考究)。
  posix消息队列的实现有点类似与pipe的实现,也是自己一套mqueue文件系统,然后在inode上的iprivate上挂上关于消息队列属性mqueueinodeinfo,在这个属性上,内核2。6时,是用一个数组存储消息,而到了4。6则用红黑树了存储消息(我下载了这两个版本,具体什么时候开始用红黑树,没深究)。
  然后两个进程每次操作都是操作这个mqueueinodeinfo中的消息数组或者红黑树,实现进程通信,和这个mqueueinodeinfo类似的还有tmpfs文件系统属性shmeminodeinfo和为epoll服务的文件系统eventloop,也有一个特殊属性structeventpoll,这个是挂在file结构的privatedata等等。
  说到这,可以小结下,进程空间中代码段,数据段,动态链接库(共享文件映射),mmap共享匿名映射都存在于cache中,但是这些内存页都有被进程引用,所以是不能释放的,基于tmpfs的ipc进程间通信机制的生命周期是随内核,因此也是不能通过dropcaches释放。
  虽然上述提及的cache不能释放,但是后面有提到,当内存不足时,这些内存是可以swapout的。
  因此dropcaches能释放的就是当从磁盘读取文件时的缓存页以及某个进程将某个文件映射到内存之后,进程退出,这时映射文件的的缓存页如果没有被引用,也是可以被释放的。4。4内存自动释放方式
  当系统内存不够时,操作系统有一套自我整理内存,并尽可能的释放内存机制,如果这套机制不能释放足够多的内存,那么只能OOM了。
  之前在提及OOM时,说道redis因为OOM被杀死,如下:
  第二句后半部分,
  totalvm:186660kB,anonrss:9388kB,filerss:4kB
  把一个进程内存使用情况,用三个属性进行了说明,即所有虚拟内存,常驻内存匿名映射页以及常驻内存文件映射页。
  其实从上述的分析,我们也可以知道一个进程其实就是文件映射和匿名映射:文件映射:代码段,数据段,动态链接库共享存储段以及用户程序的文件映射段;匿名映射:bbs段,堆,以及当malloc用mmap分配的内存,还有mmap共享内存段;
  其实内核回收内存就是根据文件映射和匿名映射来进行的,在mmzone。h有如下定义:
  LRUUNEVICTABLE即为不可驱逐页lru,我的理解就是当调用mlock锁住内存,不让系统swapout出去的页列表。
  简单说下linux内核自动回收内存原理,内核有一个kswapd会周期性的检查内存使用情况,如果发现空闲内存定于pageslow,则kswapd会对lrulist前四个lru队列进行扫描,在活跃链表中查找不活跃的页,并添加不活跃链表。
  然后再遍历不活跃链表,逐个进行回收释放出32个页,知道freepage数量达到pageshigh,针对不同的页,回收方式也不一样。
  当然,当内存水平低于某个极限阈值时,会直接发出内存回收,原理和kswapd一样,但是这次回收力度更大,需要回收更多的内存。
  文件页:
  如果是脏页,则直接回写进磁盘,再回收内存。
  如果不是脏页,则直接释放回收,因为如果是io读缓存,直接释放掉,下次读时,缺页异常,直接到磁盘读回来即可,如果是文件映射页,直接释放掉,下次访问时,也是产生两个缺页异常,一次将文件内容读取进磁盘,另一次与进程虚拟内存关联。
  匿名页:因为匿名页没有回写的地方,如果释放掉,那么就找不到数据了,所以匿名页的回收是采取swapout到磁盘,并在页表项做个标记,下次缺页异常在从磁盘swapin进内存。
  swap换进换出其实是很占用系统IO的,如果系统内存需求突然间迅速增长,那么cpu将被io占用,系统会卡死,导致不能对外提供服务,因此系统提供一个参数,用于设置当进行内存回收时,执行回收cache和swap匿名页的,这个参数为:
  意思就是说这个值越高,越可能使用swap的方式回收内存,最大值为100,如果设为0,则尽可能使用回收cache的方式释放内存。5、总结
  这篇文章主要是写了linux内存管理相关的东西:
  首先是回顾了进程地址空间;
  其次当进程消耗大量内存而导致内存不足时,我们可以有两种方式:第一是手动回收另一种是系统后台线程swapd执行内存回收工作。
  最后当申请的内存大于系统剩余的内存时,这时就只会产生OOM,杀死进程,释放内存,从这个过程,可以看出系统为了腾出足够的内存,是多么的努力啊。
  作者:罗道文的私房菜
  http:luodw。cc20160813linuxcache
投诉 评论 转载

80学习Linux的人都不懂的内存问题前言之前在实习时,听了OOM的分享之后,就对Linux内核内存管理充满兴趣,但是这块知识非常庞大,没有一定积累,不敢写下,担心误人子弟,所以经过一个一段时间的积累,对内核……健康快乐过新年饮料有讲究,过年应该怎么喝?春节是我国最重要的传统节日,庆祝新年,走亲访友吃吃喝喝在所难免,但看似普通的饮料还有不少讲究,怎么喝才不损伤健康呢?目前,市面上的饮料品种非常丰富,可乐、果汁、牛奶、乳酸……奋发有为行稳致远经济大省挑大梁丨浙江让企业信心更足活力更强作为我国外贸大省,不久前,浙江省在部署2023年的经济工作时,定下了大力拓市场抢订单引外资,进一步扩大开放型经济发展优势的基调。表示要勇于担当、勇挑大梁。从12月初开始,不少企……国潮饮料崛起7月零售平台销量同比增长超210随着国潮崛起,消费者对国货的认同感普遍提升,特别是和童年回忆、历史文化有共鸣的产品,俘获了不少年轻人的心。近些年,崂山可乐、天府可乐、亚洲汽水等老将的重新回归,亦是不断求变求新……千亿级山寨AirPods市场,会被iOS16摧毁吗?近日,iOS16的正式版终于推送到了大家的iPhone上,作为iOS的最新一版系统,iOS16在很多功能与设计上都做了大改,除了通知栏、隐私信息等方面的改进外,苹果还在一个小小……最爱如是秋放假回去,最开心的一件事情就是陪爸妈回老家,老家有我年过8旬的奶奶;老家有我儿时的伙伴;老家有热情好客的邻居;老家有我美好的回忆和深深的思恋。尤其是入秋后回老家,那份与世隔绝的……手机解锁光学指纹和超声波指纹有什么区别?哪个更好?手机解锁已经玩出了很多花样,从最初的数字解锁到实体指纹识别,再到侧边指纹识别,而今旗舰机使用较多的其实就两种,分别是光学式指纹识别和超声波指纹识别,不知道大家最喜欢哪种指纹解锁……全新空间交互体验,新一代华为全屋智能正式首销近日,在华为召开的夏季全场景新品发布会上,新一代华为全屋智能正式登场,不仅带来了交互体验2。0,同时还为我们解锁了后装空间,全新的后装方案让改装难度大大降低,更适合绝大多数家庭……川贵喝酒怪相比起茅台五粮液,大多人更偏爱这5款白酒贵州、四川的人们,地处美酒之乡,按道理来说,他们应该更喜欢茅台、五粮液,但前段时间去这两个地方旅游,发现,他们大多数人更偏爱这5款白酒,咋回事?一、大牌太贵了。二、……广州队全华班06不敌武汉三镇广州队输球原因不仅仅是失误太多想每天都接收到这样的体育资讯和评论解说吗?请点击本文右上角的关注,感谢您的支持。北京时间6月7日下午,中超联赛迎来了广州队在本届联赛的第二轮比赛,他们的对手是武汉三镇队。……中国唯一的凉都,常年均温19C,全年凉爽223天今年入夏后多个城市温度都达到了40高温红色预警似乎一直都在感觉身体都快要被烤熟但国内有这么几个地方在炎热的夏天依旧是一个凉嗖嗖的夏天这……体外发射真的靠谱吗?体发射会怀孕吗?答案是肯定的。事实上,体外发射最大的缺点是避孕率低。失败的主要原因有三:1。在性生活过程中,随着性兴奋的增加,男性生殖系统中的各种腺体分泌开始活跃起……
新主题乐园即将诞生这座新城,将成为大西安新的文化区新的杀虫剂被认为对蜜蜂群体无害却对其健康造成破坏性影响姆巴佩一心想当队内老大逼宫管理层,但细节显示他正在被队友孤立为何大家逐渐不用余额宝,网友46万提现不出来,就是教训苹果官方详解iPadOS16正式版今日发布妈妈,同学穿的裙子比我的漂亮,孩子小小年纪爱攀比,家长怎么办错的洗头方式导致头屑头痒,你占了几条?口臭吃什么水果最好?如果詹姆斯能够完成4万1万1万,历史地位能超越迈克尔乔丹吗?苹果新专利来了钛合金打造产品全家桶安排上了?高通骁龙8加持,拍照真强,努比亚Z40SPro,这价格值了青胜软件测试常用的MySQL命令与常见的数据库管理系统介绍

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利