bits,Byte,字符,編碼的學習

bits,Byte,字符

字符 :word;

字節:byte;

位:bit;

1字符=2字節(1 word=2 Byte)

1字節=8位(1 Byte=8 bit)

位bit是電腦記憶體中最小的單位,在二進位電腦系統中,每一bit可以代表0或1;

Byte由8 bits所組成,可代表一個字母、數字、或符號,是記憶體儲存資料的基本單位;每個漢字則需要2 Byte;

一般網絡通訊的傳輸速率都是以bps為單位,1 Mbps大約等同128 KBps;

編碼

(1)標準ASCII字符集: 有96個打印字符,和32個控制字符組成;一共96+32=128個;用7位二進制數來對每個字符進行編碼,多出來的最高位用0替代;

0 000 0000 ~0 111 1111 ;從0~127,來表示128個ASCII編碼;

比如,字符‘A',在計算器內部用 0 100 0001 (65)來表示;

字符’a',在計算器內部用 0 110 0001 (97)來表示;

(2)擴展ASCII字符集:

最高位用1替代;

1 000 0000~1 111 1111; 從128~255,來表示;所以,ASCII字符集一共有0~255,256個字符組成;

(3)GB2312字符集:所有漢字字符在計算機內部採用2個字節來表示,每個字節的最高位規定為1;

1 000 0000 1 000 0000 ~1 111 1111 1 111 1111;[129~255] [129~255];

(4)Unicode字符集:容納世界上所有語言字符和符號的集合;(以及對應的二進制數字);Unicode只是一個編碼規範,目前實際實現的unicode編碼只要有三種:UTF-8,UCS-2和UTF-16,三種unicode字符集之間可以按照規範進行轉換。

(5)utf-8編碼:UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,也是一種前綴碼。它可以用來表示Unicode標準中的任何字符,且其編碼中的第一個字節仍與ASCII兼容,這使得原來處理ASCII字符的軟件無須或只須做少部分修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中,優先採用的編碼。

https://blog.csdn.net/prdslf001001/article/details/78615823


分享到:


相關文章: