Mach-O Inside: BSS Section

发布时间 2023-10-29 01:32:24作者: chaoguo1234

1 BSS 起源

BSS(Block Started by Symbol)这个词最初是 UA-SAP 汇编器(United Aircraft Symbolic Assembly Program)中的一个伪指令,用于为符号预留一块内存空间。该汇编器由美国联合航空公司于 20 世纪 50 年代中期为 IBM 704 大型机所开发。

后来,BSS 这个词被作为关键字引入了 IBM 709 和 7090/94 机型上的标准汇编器 FAP(Fortran Assembly Program),用于定义符号并且为该符号预留给定数量的未初始化空间。

Unix FAQ section1.3 里面有 Unix 和 C 语言支付 Dennis Rithcie 对 BSS 这个词由来的解释。

2 Macho-O 里的 __bss

一般对 BSS Section 的介绍会说里面存放的是未初始化的全局变量未初始化的局部静态变量,但是实际对 Mach-O 目标文件(.o 文件)进行查看,发现情况并不是这样。

假设有a.ha.m文件,a.h里面声明了一个函数 test(),代码如下:

void test();

a.m里面定义了 2 个全局变量和 2 个静态变量:

global_init_var 全局变量初始化为 84,global_uninit_var全局变量未进行初始化。

static_init_var 静态变量初始化为 85,static_uninit_var静态变量未进行初始化。

// 1. 初始化全局变量
int global_init_var = 84;

// 2. 未初始化全局变量
int global_uninit_var;

void test(void) {
    // 3. 初始化静态变量
    static int static_init_var = 85;
    
    // 4. 未初始化静态变量
    static int static_uninit_var;
    
    // 5. 打印所有变量之和
    printf("%d", global_init_var + global_uninit_var + static_init_var + static_uninit_var);
}

创建一个 iOS 工程,将a.ha.m文件拖入到工程,并且进行编译。编译成功之后在工程 DevivedData 目录下找到a.o文件,并将这个文件拖入到 MachOView 工具中进行查看:

image

上图右侧 Size 字段代表 __bss Section 在虚拟内存中所占用的大小,其值为 4 字节,刚好是一个 int 类型的大小,表明为初始化的全局变量global_uninit_var和未初始化的静态变量static_uninit_var只有一个位于 __bss section 中。

offset 字段代表在 Macho-O 目标文件 a.o 中,__bss Section 距离 a.0 目标文件的起始位置偏移量为 0,而在目标文件 a.o 的起始位置是文件头 Header,文件头和 __bss Section 不可能重合,所以这表明 __bss Section 在 Mach-O 文件里面不会占用任何磁盘空间,只有在虚拟内存中,才会为 __bss Section 分配指定的空间。

flags 字段值为S_ZEROFILL,这表明当在虚拟内存里为 __bss Section 分配空间时,这个空间会全部被初始化为 0。

通过查看a.o的符号表,可以发现未初始化的全局global_uninit_var变量位于 __DATA Segment 的 __common Section 中:

image

只有未初始化的局部静态变量static_uninit_var 位于 __DATA Segment 的 __bss Section:

image

同样可以通过 MachOView 查看 __data Section Header,可以看到这个 Section 在虚拟内存中占用的大小为 8 个字节,刚好是 2 个 int 类型的大小。同时,这个 Section 位于距离 Mach-O 目标文件 a.o 起始位置 1944 字节处:

image

使用 MachOView 查看这个 Section 如下:

image

上图右侧pFile字段代表当前 Section 在 Mach-O 文件中的偏移量,其值是 16 进制 0x798,换算成 10 进制刚好是 1944,整好复合 __data Section Header 中的偏移量offset

Data LO字段存储了 8 个字节的数据,每 4 个字节代表一个整数。由于 ARM 字节序列是小端在前(Little-Endian),这两个整数的值应该是 0x00000054 和 0x00000055,换算成 10 进制就是 84 和 85,正好是全局变量global_init_varstatic_init_var的值。

3 Mach-O 里的 __common

上面提到未初始化的全局变量global_uninit_var并不位于 __bss Section,而是位于 __common Section。

通过 MachOView 查看 __common Section Header 如下图所示:

image

上图右侧size字段、offset字段与S_ZEROFILL代表的意义与 __bss Section Header 中的一样,从 offset 的值为 0 可知,__common Section 在 Macho-O 目标文件 a.o 中也不占用空间,只会在虚拟内存中为其分配大小为 4 字节的空间,并且全部初始化为 0。

为什么要把未初始化的全局变量和未初始化的静态变量分开放置?

这和具体的语言与编译器的实现有关,有的编译器会将未初始化的全局变量和未初始化的静态变量一起放在 __bss Section,有的编译器会像这样分开放置。

参考资料

程序员的自我修养-链接、装载与库