C与C++社区混战,C#会重蹈覆辙吗?
椎芬怕浦问题下午两点新版本上线其中一个消费者服务的内存增长速度异常迅速在短短五分钟内就用完了2G内存并自动重启了pod之后又在五分钟内OOM了在四十分钟内服务的pod已经重启了八十几次要知道我们之前这个消费者服务正常运行时候只用了不到500M。分析首先进行初步分析这是一个消费者服务并且新版本的需求中并没有新增消费topic并且业务量也没有大的波动不存在是业务访问量骤增导致OOM所以极大概率会是代码问题。当然每一个版本的新代码都非常多需求也比较庞杂直接去看代码肯定是不行的这时候就要麻烦部门的运维大佬了让他给我们dump一下给出一个内存溢出时的性能记录文件通过这个文件可以分析内存分配、线程创建、CPU使用、阻塞、程序详细跟踪信息等。我这里使用的Go语言开发一般用pprof文件进行分析运维给出的文件有以下6个main-1-trace-1227152939.pprof记录程序执行的详细跟踪信息包括函数调用、Goroutine 的创建和调度等main-1-threadcreate-1227152939.pprof记录线程创建的剖析数据帮助分析线程创建的频率和开销。main-1-mutex-1227152939.pprof记录互斥锁mutex的使用情况帮助分析锁竞争和锁等待的开销。main-1-mem-1227152939.pprof记录内存分配的剖析数据帮助分析内存使用的热点和分配情况。main-1-cpu-1227152939.pprof记录 CPU 使用的剖析数据帮助分析 CPU 时间的消耗情况。main-1-block-1227152939.pprof记录阻塞操作的剖析数据帮助分析阻塞操作的频率和开销。内存OOM那最重要的当然是mem文件也就是内存分配剖析数据不过很不幸服务重启速度太快了运维大佬dump的时候正好处于服务刚重启的时候所以mem文件中显示的内存才占用不到20M并且占比上也没看出有什么问题。想让运维再帮忙dump一下内存快要OOM的时候但是为了线上服务的稳定性版本已经回退了无法重新dump只能从其他几个文件中查找问题了。除了内存占用分析在性能问题分析中CPU占用分析也是极为重要的一环这一查看就有意思了CPU总的使用率虽然不高但是这个占比就比较奇怪了。第一占比的runtime.step是Go的运行时系统负责管理内存分配、垃圾回收、调度goroutine等底层操作这个暂且不管占比第二的居然是runtime.selectgo这个就非常诡异了select一般用于channel的非阻塞调用但是问题是新增代码中没有地方显示地调用了select那可以初步判断是底层源码中某处一直在调用select函数不过目前还不知道是谁触发的这个调用还需要继续查看其他文件。之后继续查看互斥锁的情况其实这个文件在目前这种情况下排查的价值已经不大了因为出现问题的是内存溢出而不是CPU占用率并且CPU占用率确实不是很高而且Go中是有检索死锁的机制大部分死锁是能够被Go发现并报一个deadlock错误打开文件之后发现果然没有死锁发生。接下来查看阻塞操作的分析情况从解析结果中可以看出select的阻塞时间遥遥领先select出现这种情况只会是存在case但是没有default的时候当所有case不符合的时候负责这个select的goroutine会阻塞住直到存在符合的case出现才会唤醒继续走下去当时我看到这我满脑子问号谁家好人select不加default啊再查看线程创建情况由于pod刚启动不久所以这个文件也看不出什么东西很正常的线程创建。看到这里还是没能定位到问题所在但是别急我们还有最重要的文件还没看那就是trace文件它可以记录程序执行的详细跟踪信息包括函数调用、Goroutine 的创建和调度使用go自带的pprof分析工具打开trace文件go tool trace main-1-trace-1227102939.pprof会出现以下本地页面在Goroutine分析中可以锁定真正的问题所在了在go-zero的core包下的collection文件在不到一秒内创建了两万多的Goroutine虽然两万多数量不多但是这个速度十分异常最重要的是这个定时轮就很奇怪这个项目中根本没有定时任务接下来就很容易查询了只要查找这次提交的代码中哪里使用到了collection包。经过一番全局搜索后最终确定了问题代码func NewXXXLogic(svcCtx *svc.ServiceContext, ctx context.Context) *XXXLogic {cache, _ : collection.NewCache(30 * time.Second)return XXXLogic{Logger: logx.WithContext(ctx),svcCtx: svcCtx,ctx: ctx,localCache: cache,}}在新上线的版本中只有这一处用到了collection包原本这里的意思是将建立一个缓存放到上下文中去传递但是乍一看我没有看出有什么问题过期时间也设置了按照我原有理解过期时间到了就会自动释放掉为什么还是会内存溢出了但是我忽然意识到应该不是缓存引发的内存溢出可能是协程过多引发的内存溢出因为一个初始协程是2KB左右如果数量过多也会造成内存不够。为了探究根本原因我点进了collection包的源码进行查看在其中NewCache()方法中找到了造成协程数异常增加的定时轮创建方法NewTimingWheel()。之后点进去这个方法进一步查看可以看到这个定时轮的结构体里面包含了四个channel以及一些其他数据结构粗略估计这一个TimingWheel结构体所占内存要达到一百字节以上这是一个比较庞大的对象如果无限制的创建下去很容易造成内存OOM发生。但是这个定时轮为什么会创建那么多呢为什么不会关闭按理说go-zero的源码不应该会有这么大的漏洞继续查看这个定时轮的run()方法终于发现了问题所在这个定时轮中开启了select方法并且没有default方法所以之前阻塞文件那里才会显示select阻塞时间占比达到了99%并且唯一关闭这个定时轮的方法是接收到tw.ticker.Stop()才会停止那么这个stop方法会在什么时候调用呢答案是会在程序停止运行的时候进行调用。所以如果程序仍在运行就会有无限制的协程创建定时轮这时候定时轮因为无法关闭所以协程也不会进行销毁有点类似于守护线程所以在协程无限制的创建下最终导致了线上内存OOM了。解决那是不是说明go-zero的这块源码存在问题其实不是的是我们使用方法错误正确的使用方法不应该将缓存创建在上下文中而应该创建一个全局缓存让所有的上下文都公用这一个缓存这样就不会发生定时轮无限创建的问题。后续将这块缓存放到了全局中之后再重新发布观察了一小时左右服务内存稳定在了500M

相关新闻

电商店铺效率升级:智能客服系统如何重构服务与转化逻辑

电商店铺效率升级:智能客服系统如何重构服务与转化逻辑

在电商行业竞争日趋激烈的当下,店铺想要稳住流量、提升转化,除了产品与运营之外,客服响应速度与服务质量已经成为关键竞争力。传统人工客服模式在高峰时段、夜间时段容易出现响应滞后、回复不标准、人力成本偏高的问题,而智能客服…

2026/7/4 16:54:59 阅读更多 →
四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse

四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse

四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse,附存储选型指南 在数字经济深度渗透的今天,大数据架构早已告别“单一工具堆砌”的时代,不同业务场景(实时风控、离线分析、海量数据存储)对架…

2026/5/17 10:25:45 阅读更多 →
计算机毕业设计springboot课室预约系统 基于Spring Boot的高校教室资源智能调度平台 Spring Boot智慧校园自习室预订管理系统

计算机毕业设计springboot课室预约系统 基于Spring Boot的高校教室资源智能调度平台 Spring Boot智慧校园自习室预订管理系统

计算机毕业设计springboot课室预约系统31528 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着高校信息化建设的深入推进,传统的人工登记方式已无法满足日益增长的…

2026/7/4 8:51:12 阅读更多 →

最新新闻

如何通过ComfyUI TensorRT插件实现AI图像生成3-10倍加速

如何通过ComfyUI TensorRT插件实现AI图像生成3-10倍加速

如何通过ComfyUI TensorRT插件实现AI图像生成3-10倍加速 【免费下载链接】ComfyUI_TensorRT 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_TensorRT ComfyUI TensorRT插件是专为NVIDIA GPU用户设计的性能优化工具,通过TensorRT技术将Stable Diffus…

2026/7/4 16:54:54 阅读更多 →
Label Studio预标注数据导入指南与效率优化

Label Studio预标注数据导入指南与效率优化

1. 为什么需要导入预标注数据 在数据标注的实际工作流程中,预标注数据(Pre-annotated Data)已经成为提升标注效率的关键技术手段。想象一下这样的场景:你的团队需要标注10万张医疗影像,如果从零开始手动标注&#xff0…

2026/7/4 16:52:53 阅读更多 →
AI如何提升文献综述效率:智能工具paperxie实战解析

AI如何提升文献综述效率:智能工具paperxie实战解析

1. 文献综述的痛点与AI解决方案写文献综述是每个科研工作者必经的"痛苦仪式"。我至今记得读博时为了完成一篇综述,连续两周泡在图书馆翻纸质期刊的日子。传统文献综述流程通常包括:确定主题→检索文献→阅读筛选→分类整理→撰写成文。这个过程…

2026/7/4 16:48:52 阅读更多 →
基于计算机视觉的水果自动分类系统设计与实现

基于计算机视觉的水果自动分类系统设计与实现

1. 水果分类系统的技术背景与需求分析 水果自动分类系统在现代化农业生产和食品加工领域扮演着越来越重要的角色。传统的人工分类方式不仅效率低下(每小时仅能处理300-500个水果),而且分类结果容易受到工人疲劳、主观判断等因素影响&#xff…

2026/7/4 16:44:51 阅读更多 →
终极指南:如何用VRRTest免费检测显示器可变刷新率功能

终极指南:如何用VRRTest免费检测显示器可变刷新率功能

终极指南:如何用VRRTest免费检测显示器可变刷新率功能 【免费下载链接】VRRTest A small utility I wrote to test variable refresh rate on Linux. Should work on all major OSes. 项目地址: https://gitcode.com/gh_mirrors/vr/VRRTest 想要确认你的显示…

2026/7/4 16:42:51 阅读更多 →
AI辅助文献综述写作:Paperxie系统架构与实操指南

AI辅助文献综述写作:Paperxie系统架构与实操指南

1. 项目背景与核心价值作为一名在学术写作领域深耕多年的研究者,我深刻理解本科阶段学生在撰写文献综述时面临的困境。每次看到学生面对海量文献手足无措的样子,就让我想起自己当年熬夜整理参考文献的狼狈经历。这正是Paperxie诞生的初衷——用AI技术降低…

2026/7/4 16:40:50 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻