数组指针与二维数组的寻址

数组指针与二维数组的寻址，引例：已知如下程序1 #include <stdio.h>2 main（）3 { 4 int x[3][4] = {1,3,5,7,9,11,2,4,6,8,10,12} ;5 int （*p）[4] = x, k = 1, m, n = 0;6 for（m=0; m < 2; m++） 7 n += *（*（p+m）+k）;8 printf（"%d ",n）;9 }试写出程序的输出值。（虽然我很讨厌做这种笔头功夫的题，我也坚信编程语言是在实践中练出来的，但是这个题还是比较经典，所以还是拿来当一个例子来说明一下数组指针到底是个什么玩意）最初在学习C语言时，就一直为这两个名词所困扰。其实也怪汉语的博大精深，两个词交换一下位置，所表示的含义就不一样了。如果直接从英文来说，指针数组叫做Array of pointers，明显重点是array，至于是什么样的array呢，就是存放pointers的array。而数组指针叫做pointer of an array，重点是pointer，那么这个pointer 指向的是什么呢，是一个array。当然这个指向的array到底是什么样的，还需要方括号的维度说明，以及前面的类型说明。接着回到刚才的引例，x为定义的一个二维数组，p是一个数组指针，指向一个长度为4的数组，一开始指向x的第一行（x的行是一个长度为4的int型数组）接下来一个for循环，依次对p+1取值，加上k（实际就是1）后再取值，并将其累加到变量n上。循环一共执行了2次，分别取第1行和第2行（对应第一个下角标0和1）的第一个元素（也就是x[0][1]，x[1][1]），因此最后的输出结果是3+11=14.光从纸面上分析显然是不够的。GCC编译器对上述程序产生如下的代码 1 0x401340push %ebp 2 0x401341mov%esp,%ebp 3 0x401343and$0xfffffff0,%esp 4 0x401346sub$0x50,%esp 5 0x401349call 0x4019d0 <__main> 6 0x40134emovl $0x1,0x10（%esp） 7 0x401356movl $0x3,0x14（%esp） 8 0x40135emovl $0x5,0x18（%esp） 9 0x401366movl $0x7,0x1c（%esp）10 0x40136emovl $0x9,0x20（%esp）11 0x401376movl $0xb,0x24（%esp）12 0x40137emovl $0x2,0x28（%esp）13 0x401386movl $0x4,0x2c（%esp）14 0x40138emovl $0x6,0x30（%esp）15 0x401396movl $0x8,0x34（%esp）16 0x40139emovl $0xa,0x38（%esp）17 0x4013a6movl $0xc,0x3c（%esp）18 0x4013aelea0x10（%esp）,%eax19 0x4013b2mov%eax,0x44（%esp）20 0x4013b6movl $0x1,0x40（%esp）21 0x4013bemovl $0x0,0x48（%esp）22 0x4013c6movl $0x0,0x4c（%esp）23 0x4013cejmp0x4013f9 <main+185>24 0x4013d0mov0x4c（%esp）,%eax25 0x4013d4lea0x0（,%eax,4）,%edx26 0x4013dbmov0x40（%esp）,%eax27 0x4013dfadd%edx,%eax28 0x4013e1lea0x0（,%eax,4）,%edx29 0x4013e8mov0x44（%esp）,%eax30 0x4013ecadd%edx,%eax31 0x4013eemov（%eax）,%eax32 0x4013f0add%eax,0x48（%esp）33 0x4013f4addl $0x1,0x4c（%esp）34 0x4013f9cmpl $0x1,0x4c（%esp）35 0x4013fejle0x4013d0 <main+144>36 0x401400mov0x48（%esp）,%eax37 0x401404mov%eax,0x4（%esp）38 0x401408movl $0x403024,（%esp）39 0x40140fcall 0x401c40 <printf>40 0x401414leave41 0x401415ret其中第4行编译器为局部变量（auto）在栈上分配内存空间0x50字节，6~17行，编译器为二维数组x初始化，其中，x[0][0]的地址为%esp+10。19~22行分别为p，k，m，n初始化。（从中可以看出，p初始化使用了leal指令取第一个元素的地址，且p只占用了4个字节，也就是说，从数据大小来看，数组指针本质上还是一个指针）现在想要研究编译器如何对数组指针进行操作，通过jle指令可以定位到循环为24~35行。在原始的C语言代码中，for循环的body-statement只有一句复合语句，最后的操作显然对应累加，也就是32行的add指令（33行的addl显然是计数器累加，因为34行用到了cmpl指令判断大小）。32行的add指令中，%esp+48对应变量n，31行用%eax的值作为地址进行寻址，将地址为%eax的值放进%eax中，显然对应C语言语句中最外层的一个*号。30行的add指令后的%eax的值显然便是表达式：*（p+m）+k的值。重点在于理解编译器如何解析这个表达式了。24行取%esp+0x4c（m的值），25行用leal指令将m*4并放入%edx寄存器中，26行取%esp+0x40（k的值）放入寄存器%eax中，27行将%eax和%edx的值相加，得到整个的偏移地址4m+k，28行将整个偏移地址乘以4得到实际的字节偏移地址，29行再将其与数组第一个元素的地址相加，得到表达式*（p+m）+k的值了。因此，25行leal指令得到的系数4，恰好对应定义的数组指针的长度4。如果在原题中将（*p）[4]改为（*p）[3]，于是编译器得到如下代码（仅截取循环内）： 1 0x4013d0mov0x4c（%esp）,%edx 2 0x4013d4mov%edx,%eax 3 0x4013d6add%eax,%eax 4 0x4013d8add%eax,%edx 5 0x4013damov0x40（%esp）,%eax 6 0x4013deadd%edx,%eax 7 0x4013e0lea0x0（,%eax,4）,%edx 8 0x4013e7mov0x44（%esp）,%eax 9 0x4013ebadd%edx,%eax10 0x4013edmov（%eax）,%eax11 0x4013efadd%eax,0x48（%esp）12 0x4013f3addl $0x1,0x4c（%esp）13 0x4013f8cmpl $0x1,0x4c（%esp）14 0x4013fdjle0x4013d0 <main+144>这里编译器使用两条add指令计算数组长度3代替了原先的leal指令计算的数组长度4（编译器往往会选择合适的指令来减小开销，比如用移位和加法指令代替常数乘法，但是会使得汇编码和C代码的对应不是很明显），而后的代码与原先如出一辙。可以看出，数组指针指向的是一个数组，数组指针进行自增，会将实际的地址指向下一个依靠的数组。由于二维数组在内存中实际也是按照“行优先”的规则映射到一维的线性的数组中来存储的，编译器在解释数组指针的过程中，会首先计算数组指针所指向的数组的长度（定义数组指针时确定），然后根据所指向的数组的长度计算偏移地址，将其与初始化的基地址（将其与一个二级指针关联时得到的基地址）相加，得到所指向的数组的第一个元素的地址。因此，数组指针的长度和与它相关联的实际的二维数组的行列长度并不需要严格一致，只是为了使用方便，往往会将数组指针所指向的数组的长度与实际需要操作的二维数组的行长度相对应。
事实上，访问二维数组D（定义为ElementType D[R][C]）中的i行j列的元素时，通用的寻址方法是&D[i][j]=x_D+L（C·i+j），其中xD为二维数组的首地址，L为数组的元素数据类型的大小，C为定义的行长度。数组指针的寻址本质上是一致的。在开头的例题里，公式中x_D=p,i=m,j=k。 参考：深入理解计算机系统第二版，p158.3.8节数组的分配与访问。深入理解计算机系统（原书第2版） PDF清晰中文版下载 http://www.linuxidc.com/Linux/2015-03/114720.htm本文永久更新链接地址：http://www.linuxidc.com/Linux/2017-02/140113.htm