bits,Byte,字符,编码的学习

bits,Byte,字符

字符 :word;

字节:byte;

位:bit;

1字符=2字节(1 word=2 Byte)

1字节=8位(1 Byte=8 bit)

位bit是电脑记忆体中最小的单位,在二进位电脑系统中,每一bit可以代表0或1;

Byte由8 bits所组成,可代表一个字母、数字、或符号,是记忆体储存资料的基本单位;每个汉字则需要2 Byte;

一般网络通讯的传输速率都是以bps为单位,1 Mbps大约等同128 KBps;

编码

(1)标准ASCII字符集: 有96个打印字符,和32个控制字符组成;一共96+32=128个;用7位二进制数来对每个字符进行编码,多出来的最高位用0替代;

0 000 0000 ~0 111 1111 ;从0~127,来表示128个ASCII编码;

比如,字符‘A',在计算器内部用 0 100 0001 (65)来表示;

字符’a',在计算器内部用 0 110 0001 (97)来表示;

(2)扩展ASCII字符集:

最高位用1替代;

1 000 0000~1 111 1111; 从128~255,来表示;所以,ASCII字符集一共有0~255,256个字符组成;

(3)GB2312字符集:所有汉字字符在计算机内部采用2个字节来表示,每个字节的最高位规定为1;

1 000 0000 1 000 0000 ~1 111 1111 1 111 1111;[129~255] [129~255];

(4)Unicode字符集:容纳世界上所有语言字符和符号的集合;(以及对应的二进制数字);Unicode只是一个编码规范,目前实际实现的unicode编码只要有三种:UTF-8,UCS-2和UTF-16,三种unicode字符集之间可以按照规范进行转换。

(5)utf-8编码:UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部分修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。

https://blog.csdn.net/prdslf001001/article/details/78615823


分享到:


相關文章: