搬瓦工VPS
拥有10+机房且可自主切换机房

记录dump 堆文件导致服务器占用资源导致CPU超载排查问题过程

如果我们也有在用搬瓦工服务器的朋友应该知道,我们的每个搬瓦工服务器的套餐CPU都是有限制的,如果超过负荷限制,那服务器将会自动被官方暂停,这个我们有些朋友也有在其他服务商看到,比如我们买阿里云特价云服务器的时候有看到CPU限制10%-25%,这也是为什么有些服务器便宜的原因。

我们可以参考阅读”搬瓦工各个套餐的CPU限制参数整理 不同套餐配置有限制“。不过,一般限制的CPU也是够用的,同理,即便是100%资源的CPU,你超负荷的话也是会有问题的。在这篇文章中,笔者将会检查和解决在云服务器中有运行导致资源CPU超载的问题排查。

1、查看cpu高的进程

top

用这个命令打开看看进程情况。

2、查看最高的线程ThreadId

这里假设为996382

top -Hp \[PID\]

3、导出堆栈信息

jstack \[PID\] > PID.txt

4、获取ThreadId对应的16进制数

printf %x \[ThreadId\]

从栈信息中查询对应的线程内容

cat PID.txt|grep -i \[16进制的ThreadId\]

根据线程内容进行,具体分析,如果是业务线程,查看具体代码分析,如果是GC Thread,需要继续查看堆信息。

这次是GC Thread,下面查看内存信息

dump 堆文件

jmap -dump:format=b,file=[XXX.hprof] [pid]

压缩文件,下载到本地

#压缩 tar -xvf XXX.tar.gz [XXX.hprof]
# 下载 sz XXX.tar.gz

Eclipse MAT 调整 内存使用

注意最新版本MAT,支持jdk11,需要下载,老的版本,这里使用1.8.0

Eclipse MAT 下载地址

MemoryAnalyzer.ini 中的Xmx,保证可以装载堆文件。

堆文件导入MAT,进行分析

File-> Open File 导入文件,耐心等待几分钟,之后选择Leak Suspects Report (泄漏探测)

在探测报告中,查看堆栈信息,点击 See stacktrace。定位到相应代码,具体分析

dump操作,耗时,生产环境慎用。

赞(0)
未经允许不得转载:搬瓦工中文网 » 记录dump 堆文件导致服务器占用资源导致CPU超载排查问题过程