C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)


数组的存储

  • 前言
  • 一、 数据的类型
      • 1. 类型的基本归类
        • 1.1 整形家族:
        • 1.2 浮点数家族
        • 1.3 构造类型:
        • 1.4 指针类型
        • 1.5 空类型
  • 二、 整形在内存中的存储
      • 1. 原码、反码、补码
        • 1.1 为什么要存放补码呢?
      • 2. 大小端介绍
      • 3. 练习
  • 三、 浮点型在内存中的存储
      • 1. 浮点型存储的规则
        • 规定 一
        • 规定 二
        • 规定 三
        • 例题:
【C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)】
前言 你有没有想过整型和浮点型在内存中是怎么存储的
整型我们可能知道 —— 整型在内存中存放的是补码 —— 但是我们并不知道数据在内存中是大端存储还是小端存储
浮点型是怎么存储的 —— 他完全是不同于整型的另一种存储方式
下面我们将会循循渐进的来讲解:
一、 数据的类型 前面我们已经学习了基本的内置类型:
char //字符数据类型 short //短整型 int //整形 long //长整型 long long//更长的整形 float //单精度浮点数 double //双精度浮点数

以及他们所占存储空间的大小。
类型的意义:
  1. 使用这个类型开辟内存空间的大小(大小决定了使用范围)。
  2. 如何看待内存空间的视角
1. 类型的基本归类
1.1 整形家族:
char unsigned char//无符号char类型 signed char//有符号char类型 short unsigned short [int]//无符号整数 —— 其中int可以省略 signed short [int] int unsigned int signed int long unsigned long [int] signed long [int]补充: 如果直接写 char 类型 —— 其中无符号还是有符号取决于编译器 —— 有的编译器是无符号类型的 —— 有的是有符号类型的。 int short long —— 直接写是有符号整型: int ——等价于—— signed int short ——等价于—— signed short long ——等价于—— signed long

有符号和无符号的区别:—— 用char类型举例
#includeint main() { unsigned char a = 255; printf("%d\n", a); signed char b = 255; printf("%d\n", b); return 0; }//打印值分别为:255 和 -1补充: 主要是取值范围的不同 有符号的 char 是8个bit位 —— 00000000 —— 其中的最高位是符号位 11111111 —— 无符号表示的是 —— 255 有符号表示的是:-1 最高位是1 —— 表示负数 —— 11111111是补码 —— 原码是10000001 —— -1 有符号char的取值范围为:-128 - 127 无符号char的取值范围为:0 - 255 类比:就可以求出其他类型的取值范围

1.2 浮点数家族
float double

1.3 构造类型:
> 数组类型 > 结构体类型 struct > 枚举类型 enum > 联合类型 union补充:为什么数组也是构造类型——自定义类型 #include int main() { int a = 0; int arr[10] = { 0 }; printf("%d\n", sizeof(a)); //打印值为4 printf("%d\n", sizeof(int)); //打印值为4 printf("%d\n", sizeof(arr)); //打印值为40 printf("%d\n", sizeof(int [10])); //打印值为40 }其中的int [10] —— 为数组 int arr[10] 的类型 —— int [10] 是我们自己定义的类型

1.4 指针类型
int *pi; char *pc; float* pf; void* pv;

详情可以看我以前写的初阶指针
1.5 空类型
void 表示空类型(无类型) 通常应用于函数的返回类型、函数的参数、指针类型

二、 整形在内存中的存储 我们之前讲过一个变量的创建是要在内存中开辟空间的。空间的大小是根据不同的类型而决定的。
那接下来我们谈谈数据在所开辟内存中到底是如何存储的?
比如:
int a = 1; int b = -1;

下来了解下面的概念:
1. 原码、反码、补码
这里我们简单的讲一下:
计算机中的整数有三种表示方法,即原码、反码和补码。
三种表示方法均有符号位和数值位两部分,符号位都是用 0 表示 “正” ,用 1 表示 “负” ,
负整数的三种表示方法各不相同。
原码
直接将二进制按照正负数的形式翻译成二进制就可以。
反码
将原码的符号位不变,其他位依次按位取反就可以得到了。
补码
反码+1就得到补码。
正数的原、反、补码都相同。
对于整形来说:
数据存放内存中其实存放的是补码
1.1 为什么要存放补码呢?
第一个原因
在计算机系统中,数值一律用补码来表示和存储。原因在于,使用补码,可以将符号位和数值域统一处理;
例如: 我们计算:1 + (-1)的值
假设用原码来计算: 00000000000000000000000000000001 —— 1的原码 10000000000000000000000000000001 —— -1的原码 10000000000000000000000000000010 —— 1 + (-1)的原码 —— 结果为 -2 假设用补码来计算: 00000000000000000000000000000001 —— 1的补码 11111111111111111111111111111111 —— -1的补码 100000000000000000000000000000000 —— (-1)+ 1 的补码 00000000000000000000000000000000 —— 发生截断 —— 结果为0

第二个原因
加法和减法也可以统一处理(CPU只有加法器)此外,补码与原码相互转换,其运算过程
是相同的,不需要额外的硬件电路。
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

举例:整型 -1
10000000000000000000000000000001 —— -1的原码 11111111111111111111111111111110 —— -1的反码 11111111111111111111111111111111 —— -1的补码 10000000000000000000000000000000 —— -1补码的反码 10000000000000000000000000000001 —— -1补码的补码 —— 和-1的原码相同

我们看看在内存中的存储:
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

我们可以看到对于a和b分别存储的是补码。但是我们发现顺序有点不对劲。
这是又为什么? —————— 下面我们要了解大小端的概念
2. 大小端介绍
什么大端小端:
大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;
小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中。
为什么有大端和小端:
这是因为在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为8 bit。但是在C语言中除了8 bit的char之外,还有16 bit的short型,32 bit的long型(要看具体的编译器)
另外,对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如:一个 16bit 的 short 型 x ,在内存中的地址为 0x0010 , x 的值为 0x1122 ,那么 0x11 为高字节, 0x22 为低字节。对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高地址中,即 0x0011 中。小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

百度2015年系统工程师笔试题:
请简述大端字节序和小端字节序的概念,设计一个小程序来判断当前机器的字节序。(10分)
解答:
//不利用函数 #include int main() { int a = 1; char* pa = (char*)&a; if (*pa == 1) printf("小端存储模式\n"); else printf("大端存储模式\n"); return 0; }//利用函数 #includeint chack_sys() { int a = 1; return *(char*)&a; }int main() { //判断是大端存储模式还是小端存储模式函数 int ret = chack_sys(); if (ret == 1) printf("小端存储模式\n"); else printf("大端存储模式\n"); return 0; }解析: 大端存储模式和小端存储模式的是存放的顺序不同,我们可以利用不同指针类型的访问权限不用。 int a =1; 0x00000001 大端存储 —— 00 00 00 01 小端存储 —— 01 00 00 00 只需要判断第一个字符中存放的什么数字就可以判断出来大端和小端 利用指针的访问权限 和 强制类型转换实现只访问一个第一个字节。 当为0是大端 —— 当为1是小端

3. 练习
第一题
1. //输出什么? #include int main() {char a= -1; signed char b=-1; unsigned char c=-1; printf("a=%d,b=%d,c=%d",a,b,c); return 0; }答案为:-1-1255 解析: 先把a放到内存中: ———————————————————————————————————————————a的变化 10000000000000000000000000000001 —— 原码 11111111111111111111111111111111 —— 补码 11111111 —— char类型 发生截断 把a从内存中取出来:—— 以有符号整型取出 11111111111111111111111111111111 —— 整型提升 —— 补码 —— 因为符号位为1,所以为负数 10000000000000000000000000000001 —— 原码 —— -1 b的值和a的值变化同理:也是-1 —————————————————————————————————b的变化c值变化 —— 先把c放到内存中:——————————————————————————————————c的变化 10000000000000000000000000000001 —— 原码 11111111111111111111111111111111 —— 补码 11111111 —— char类型 发生截断 把c从内存中取出:—— 因为c为无符号整数,所以整型提升补0 00000000000000000000000011111111 —— 整型提升 —— 符号位为0,为正数 00000000000000000000000011111111 —— 正数原码补码相同 —— 255

第二题
2. #include int main() {char a = -128; printf("%u\n",a); return 0; }答案: 11111111111111111111111110000000 —— 42亿多 解析: 把a放到内存中: 10000000000000000000000010000000 —— 原码 —— -128 11111111111111111111111101111111 —— 反码 11111111111111111111111110000000 —— 补码 10000000 —— 发生截断 把a从内存中取出:—— a为有符号数 —— 整型提升补1 11111111111111111111111110000000 —— 整型提升 —— 因为为无符号打印 —— 为正数 —— 正数的原码和反码相同 11111111111111111111111110000000 —— 为42亿多

由第一题和第二题我们可以得出:
当有无符号整型和有符号整型相加 或者 有符号数按照无符号数打印时,有以下步骤:
  1. 第一步:把数存在内存中 —— 其中用到原码、反码、补码和截断的知识
  2. 第二步:把数从内存中取出 —— 这一步先要整型提升(判断是有符号数还是无符号数) —— 然后看是用有符号数打印,还是无符号数打印
第三题
3. #include int main() {char a = 128; printf("%u\n",a); return 0; }答案; 11111111111111111111111110000000 —— 42亿多 解析: 把a放到内存中: 00000000000000000000000010000000 —— 原码 —— 128 01111111111111111111111101111111 —— 反码 01111111111111111111111110000000 —— 补码 10000000 —— 发生截断 把a从内存中取出:—— a为有符号数 —— 整型提升补1 11111111111111111111111110000000 —— 整型提升 —— 因为为无符号打印 —— 为正数 —— 正数的原码和反码相同 11111111111111111111111110000000 —— 为42亿多

第四题
4. int main() {int i= -20; unsignedintj = 10; printf("%d\n", i+j); return 0; } //按照补码的形式进行运算,最后格式化成为有符号整数答案:-10 解析: 把i存放到内存: ——————————————————————————————————————————————————i值的变化 10000000000000000000000000010100 —— 原码 —— -20 11111111111111111111111111101011 —— 反码 11111111111111111111111111101100 —— 补码把j存放到内存:————————————————————————————————————————————————————j值的变化 00000000000000000000000000001010 —— 原码、反码、补码 —— 10i + j: —— 运算是用补码进行的 11111111111111111111111111101100 —— 补码 —— -20 00000000000000000000000000001010 —— 补码 —— 10 11111111111111111111111111110110 —— 补码 —— i + j 有符号打印: —— 符号位为1—— 为负数 11111111111111111111111111110101 —— 反码 10000000000000000000000000001010 —— 原码 —— 为-10

第五题
5. int main() {unsigned int i; for(i = 9; i >= 0; i--) {printf("%u\n",i); } return 0; }答案:死循环 解析: 无符号数一直为正数 —— 不存在负数 —— i >= 0 一直成立

第六题
6. int main() {char a[1000]; int i; for(i=0; i<1000; i++) {a[i] = -1-i; } printf("%d",strlen(a)); return 0; }答案:255 解析: strlen计算字符串的长度 —— 原理为:遇见\0(也就是0)停止 —— 所以当a[i]等于零的时候 —— 字符串停止 当arr[255] = 字符0 —— 结束 —— 0到255有266个数 —— 又因为strlen计算字符串的大小不包含字符0 —— 所以为字符串长度为255

图文解析:
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

第七题
7. #include unsigned char i = 0; int main() {for(i = 0; i<=255; i++) {printf("hello world\n"); } return 0; }答案:一直打印hello word 解析: unsigned char 类型的取值范围是:0到255 —— 一直满足:i <= 255

三、 浮点型在内存中的存储 整型和浮点型的存储是完全不一样的 —— 浮点型的存储更加的复杂。
常见的浮点数:
3.14159
1E10 —— 这个表示为 1 * 10 ^ 1(1 乘 10 的 1 次方)
浮点数家族包括: float、double、long double 类型。
浮点数表示的范围:float.h中定义
1. 浮点型存储的规则
规定 一
根据国际标准IEEE(电气和电子工程协会) 754,任意一个二进制浮点数V可以表示成下面的形式:
(-1)^S * M * 2^E
(-1)^s表示符号位,当s=0,V为正数;当s=1,V为负数。
M表示有效数字,大于等于1,小于2。
2^E表示指数位。
举例:
十进制的5.0,写成二进制是 101.0 ,相当于 1.01×2^2 ,那么,按照上面V的格式,可以得出s=0,M=1.01,E=2。
十进制的-5.0,写成二进制是 -101.0 ,相当于 -1.01×2^2 。那么,s=1,M=1.01,E=2。
十进制的5.5,写成二进制是101.1,相等与 1.011 * 2^2。那么, s=0,M=1.011,E=2。
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

规定 二
对于32位的浮点数,最高的1位是符号位s,接着的8位是指数E,剩下的23位为有效数字M。
对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。
32位的浮点数
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

64位浮点数
C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

规定 三 IEEE 754规定:
有效数字M:
1≤M<2 ,也就是说,M可以写成 1.xxxxxx 的形式,其中xxxxxx表示小数部分。
在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分。
比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。
指数E —— 情况就比较复杂。
首先,E为一个无符号整数(unsigned int)
这意味着,如果E为8位,它的取值范围为0 —— 255;如果E为11位,它的取值范围为0 —— 2047。但是,我们知道,科学计数法中的E是可以出现负数的,
所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,
对于8位的E,这个中间数是127;
对于11位的E,这个中间数是1023。
比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。
然后,指数E从内存中取出还可以再分成三种情况:
E不全为0或不全为1
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。
比如:
0.5(1/2)的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位,则为1.0*2^(-1),其阶码为-1+127=126,表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位00000000000000000000000,则其二进制表示形式为:0 01111110 00000000000000000000000
E全为0
这时,浮点数的指数E等于1-127(或者1-1023)即为真实值,
有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于
0的很小的数字。
E全为1
这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);
例题:
#include int main() { int n = 9; float* pFloat = (float*)&n; printf("n的值为:%d\n", n); printf("*pFloat的值为:%f\n", *pFloat); *pFloat = 9.0; printf("num的值为:%d\n", n); printf("*pFloat的值为:%f\n", *pFloat); return 0; }

C语言进阶|深度解刨 —— 数据在内存中的存储(C语言进阶)(万字长文)
文章图片

解析:
#include int main() { int n = 9; float* pFloat = (float*)&n; printf("n的值为:%d\n", n); 这里是正常打印 n 的值为:9 printf("*pFloat的值为:%f\n", *pFloat); 这里的(*pFloat) —— 用浮点型去看待整型 n 的值 n的内存中的存储为:00000000000000000000000000001001 用浮点型的视角去看:0 00000000 0000000000000000001001 S为0 —— E为00000000 —— M为00000000000000000001001 当E为零的时候: S为0 E为 1 - 127 = -126 M为:0.00000000000000000001001 (-1)^0 * 0.00000000000000000001001 * 2^(-126) 又因为浮点型的默认有6位小数 —— 答案为:0.000000 *pFloat = 9.0; printf("num的值为:%d\n", n); (*pFloat) = 9.0 以浮点型的角度去看: 10001.0 S为0 —— M为1.001 —— E为2^3 内存中的存储为:E = 3 + 127 = 130 —— 10000010 0 10000010 00100000000000000000000 以整型打印 —— 用整型的角度去看浮点型为: 01000001000100000000000000000000 —— 补码(正数) —— 原码 —— 结果为:1091567616 printf("*pFloat的值为:%f\n", *pFloat); 结果为:9.000000 return 0; }

    推荐阅读