踩内存问题定位手段汇总

发布时间 2023-04-20 14:55:58作者: DoubleLi

最近项目中遇到一个全局变量被莫名修改的问题,代码排查了好久居然没发现,确实有些惭愧,这时候使用一些辅助工具帮助定位就很有必要也比较快速精准!
全局变量被修改无非就三种原因:
1、自己写的代码修改的;
2、数组越界导致的;
3、变量定义的时候没有初始化;

排查手段:
手段一:踩内存周边地址排查
排查被踩内存周边地址的一些变量,看是否存在越界问题
例如,检测地址0xffff7fffe73949a0周边的变量如下,可对如下列出变量进行排查有没有问题。

# cat /proc/kallsyms | grep ffff7fffe73949                                                                                          
ffff7fffe7394960 b g_ulTest     [system]                                                                                           
ffff7fffe73949a0 b g_ulOk      [system]                                                                                           
ffff7fffe7394920 b g_uiErr    [system]                                                                                           
ffff7fffe73949e0 b g_ulSum      [system]                                                                                   
#

手段二:kdb下执行bph
可以使用 bph 和 bpha 命令(假如体系结构支持使用硬件寄存器)来应用读写断点。这意味着每当从某个特定地址读取数据或将数据写入该地址时,我们都可以对此进行控制。当调试数据/内存毁坏问题时这可能会极其方便,在这种情况中您可以用它来识别毁坏的代码/进程。
示例 :
每当将四个字节写入地址 0xc0204060 时就进入内核调试器:

[0]kdb> bph 0xc0204060 dataw 4

在读取从 0xc000000 开始的至少两个字节的数据时进入内核调试器:

[0]kdb> bph 0xc000000 datar 2

手段三:设置watchpoint0
对指定地址进行监控,如果对监控的地址进行访问,则会打印对应的调用栈。

$su
# ls /proc/debug/watchpoint0
/proc/debug/watchpoint0
# cat /proc/debug/watchpoint0
watchpoint address:0x00000000; type:W; mask:0x0
# echo  0x802100f8  > /proc/debug/watchpoint0
# cat /proc/debug/watchpoint0
watchpoint address:0x802100f8; type:W; mask:0x0 
 
参数说明:
Address: 监控的地址,该地址为虚拟地址,物理地址无法进行监控。
Type:监控的类型。可以支持三种监控类型:读内存(type:R),写内存(type:W),取指令(type:I)。系统默认监控的为写内存,
Mask:监控地址掩码,设置该掩码可以设置监控地址范围。最大支持4k范围地址监控。

手段四:使用kasan工具
kasan是一个动态监测内存错误的工具,集成在linux4.4之后的内核版本里。它可以监测全局变量、栈、堆分配的内存发生越界访问等问题。
http://t.zoukankan.com/linhaostudy-p-14028917.html

判断当前内核有没有支持kasan:

# cat /proc/kallsyms | grep asan
/*如果有类似如下这种打印,则代表内核支持了kasan功能*/
ffff800000281c50 T kasan_kmalloc                                                                                                    
ffff800000281cc8 T __asan_register_globals                                                                                          
ffff800000281e70 T kasan_alloc_pages                                                                                                
ffff800000281ec0 T kasan_free_pages                                                                                                 
ffff800000281f30 T kasan_poison_slab                                                                                                
ffff800000281fa8 T kasan_unpoison_object_data                                                                                       
ffff800000281fc8 T kasan_poison_object_data                                                                                         
ffff800000282010 T kasan_slab_alloc                                                                                                 
ffff800000282028 T kasan_slab_free                                                                                                  
ffff800000282080 T kasan_kmalloc_large                                                                                              
ffff800000282138 T kasan_krealloc                                                                                                   
ffff8000002821b8 T kasan_kfree

如果监测出内存访问错误问题会打印对应堆栈信息,例如:

[  125.622629] 1:==================================================================                                                 
[  125.728479] 1:BUG: KASAN: slab-out-of-bounds in pe_init_chip_host+0x110/0x358 [system] at addr ffff800044851000                  
[  125.847528] 1:Write of size 8 by task scmd/1                                                                                     
[  125.896662] 1:=============================================================================                                      
[  125.994835] 1:BUG dma-kmalloc-4096 (Tainted: G           O   ): kasan: bad access detected                                       
[  126.091961] 1:-----------------------------------------------------------------------------                                      
[  126.091961] 1:                                                                                                                   
[  126.207874] 1:Disabling lock debugging due to kernel taint                                                                       
[  126.271617] 1:INFO: Allocated in 0x6b6b6b6b6b6b6b6b age=10706345584330141132 cpu=1802201963 pid=1802201963                       
[  126.385442] 1:INFO: Freed in 0x6b6b6b6b6b6b6b6b age=6527005130130320958 cpu=1802201963 pid=1802201963                            
[  126.494051] 1:INFO: Slab 0xffff7bffc1121400 objects=7 used=1 fp=0xffff8000448564c0 flags=0x7ffe00000004080                       
[  126.607877] 1:INFO: Object 0xffff800044850000 @offset=0 fp=0x6b6b6b6b6b6b6b6b

参考链接:
全局变量被修改原因:https://blog.csdn.net/weixin_47221359/article/details/109390145
内核调试方法:https://www.lmlphp.com/user/16529/article/item/490681/