前言

对于 C 语言来说，内存被踩是比较常见的问题，轻则普通变量被改写程序逻辑出错，重则指针变量被改写引发指针解引用出现未定义行为风险；

定位内存被踩一直是棘手的难题，如果出现程序跑死，一般可以通过堆栈信息来定位：
1）查看跑死的调用链，确定跑死代码的位置；
2）根据pc指针找到具体代码；
3）走查代码分析问题；

但是这种方法有个先天的劣势：程序跑死的点和内存被踩的点往往不在同一个地方，需要分析代码寻找真正的问题点。如果程序只是逻辑出错没有跑死，定位起来会更加困难。

有没有方法可以让程序告诉我们是谁踩了内存呢？

这里分享一种借助 mprotect 函数定位内存被踩的方法。

1.mprotect介绍

mprotect 是 linux 系统中用于修改一段指定内存区域保护属性的函数，其原型是：

#include <unistd.h>
#include <sys/mman.h>

int mprotect(const void* start, size_t len, int prot)

其中 start 是被保护内存的起始地址，len 是被保护内存的长度，prot 是内存的保护属性，常见的属性有：

保护属性	说明
PROT_READ	内存可读
PROT_WRITE	内存可写
PROT_EXEC	内存可执行
PROT_NONE	内存不可访问

需要注意的是，mprotect 函数在使用上有限制：

start 指向的内存地址要求是一个内存页的首地址；
len 需要是内存页的整数倍；

关于内存页的这里不多做介绍，有兴趣的可以看看其他博文的介绍，需要知道的是一般内存页是按 4096 字节（4KB）为单位对齐的。

2.举个栗子

下面以一个实际的例子来说明 mprotect 的使用方法。
定义以下结构体、变量和函数：

#define  MAX_ARRAY_SIZE (4096)

typedef struct SubInst
{
	unsigned char flag;
}SubInst;

typedef struct Inst
{
	unsigned char array[MAX_ARRAY_SIZE];
	SubInst*      subInst;
}Inst;

Inst* gInst = NULL;

void CreateInst()
{
	// 假设 malloc 不会失败，假设 gInst 和 gInst->subInst 不会为 NULL；
	gInst = (Inst*)malloc(sizeof(Inst));
	gInst->subInst = (SubInst*)malloc(sizeof(SubInst)); 
}

void DoSomething()
{
	unsigned char* ptr1 = (unsigned char*)gInst;
	unsigned int*  ptr2 = (unsigned int*)(ptr1 + MAX_ARRAY_SIZE);
	*(ptr2) = 0;
}

void PrintInst()
{
	printf("[Inst] flag : %u\n", gInst->subInst->flag);
}

int main()
{
	CreateInst();
	DoSomething();
	PrintInst();
	return 0;
}

很容易就可以看出在 DoSomething() 函数中由于指针偏移错误，改写了指针 subInst 的值为 0，所以在 PrintInst() 中打印时出现空指针访问，引起程序跑死。

根据调用链可以得到以下段错误信息：

显然，根据 coredump 信息只能看到程序跑死在 subInst 解引用时出现问题。

如果提示缺少 glibc 但安装不上，需要修改一下 etc/yum.repos.d/CentOS-Linux-Debuginfo.repo 中enabled 的值为1。

coredump 信息缺失的话请检查 ulimit -c，可以修改 etc/profile，添加 ulimit -S -c 0 > /dev/null 2>&1，记得 source etc/profile；

3.mprotect使用方法

下面来看看 mprotect 是如何帮助我们找到问题点的。

首先改写代码如下

#define  MAX_ARRAY_SIZE (4096)

typedef struct SubInst
{
	unsigned char flag;
}SubInst;

typedef struct Inst
{
	unsigned char array[MAX_ARRAY_SIZE];
	unsigned char pzone[MAX_ARRAY_SIZE];
	SubInst*      subInst;
}Inst;

Inst* gInst = NULL;

void CreateInst()
{
	// 假设 posix_memalign, malloc, mprotect 不会失败
	// 假设 gInst 和 gInst->subInst 不会为 NULL；
	size_t pagesize = sysconf(_SC_PAGESIZE);
	posix_memalign((void**)gInst, pagesize, sizeof(Inst));
	gInst->subInst = (SubInst*)malloc(sizeof(SubInst)); 
	
	mprotect(gInst->pzone, pagesize, PROT_READ);
}

void DoSomething()
{
	unsigned char* ptr1 = (unsigned char*)gInst;
	unsigned int*  ptr2 = (unsigned int*)(ptr + MAX_ARRAY_SIZE);
	*(ptr2) = 0;
}

void PrintInst()
{
	printf("[Inst] flag : %u\n", gInst->subInst->flag);
}

int main()
{
	CreateInst();
	DoSomething();
	PrintInst();
	return 0;
}

解释一下几个关键点

sysconf(_SC_PAGESIZE) 返回当前操作系统的内存页大小，一般是 4096 字节；

posix_memalign 函数申请内存，它与 malloc 的区别是会将申请的内存按要求的长度对齐并且返回的内存地址是一个内存页的首地址，函数原型：

#include <stdlib.h>
int posix_memalign(void** memptr, size_t alignment, size_t size);

其中
memptr 是个2级指针，指向存放申请内存地址的指针变量的指针；
alignment 是期望对齐的内存长度；
size 是申请的内存大小。

前面说过，mprotect 要求被保护的内存是完整的内存页且 4KB 对齐，所以我们在被踩的内存 subInst 指针前加入了一段 4KB 大小的内存 pzone，并且使用 mprotect 将这段内存设置为只读。

typedef struct Inst
{
	unsigned char array[MAX_ARRAY_SIZE];
	unsigned char pzone[MAX_ARRAY_SIZE];
	SubInst*      subInst;
}Inst;

再次执行上面的程序，这次程序很直接的就告诉了我们内存被踩的案发现场。

4.总结

上面结合例子分享了一种使用 mprotect 定位被踩的方法，例子举的比较简单，所以在一些更为复杂的代码中效果会更明显，核心思想是：

在被踩的内存前添加一段“替死鬼”内存，并在上面设置“陷阱”揪出踩内存的罪魁祸首：被保护的内存是只读属性，发生内存被写则中断操作。

当然这种方法也有它的局限性：
1）对内存的分配更为严格，对于非动态申请的内存存在修改代码上的困难；
2）占用更多的内存；

根据不同情况选择合适的定位方法才是我们需要掌握的技巧，有方法总比没有方法好:D

526互联

使用mprotect定位踩内存故障

前言

1.mprotect介绍

2.举个栗子

3.mprotect使用方法

4.总结