字符、字节与编码

2023-04-20 飞云老师的小花痴

加入收藏

字符是人们常用的一些记号，比如”1”, “汉”, “お”,”℃”等等，包括各种语系的语言和一些符号都可以被称为字符。

字节是计算机存储数据的存储单元，是一个8位的二进制数，所以最多只能表示256个数字（0-255）。

编码是大家对计算机如何使用字节来表示一个字符的约定，可分为ASCII编码，ANSI编码（本地化编码），UNICODE编码（国际化编码）三种。

1.ASCII编码：单字节编码

最初的编码，由一个字节组成，因此只能表示256个字符，但只表示0-9，a-z，A-Z，和一些加减乘除百分号，够老美用了。

后来ISO国际标准组织以ASCII编码为基础，约定了ISO 8859-1编码，又称Latin1编码。

2.ANSI编码：多字节编码

如果只有ASCII编码的话，计算机岂不只能表示英文字母和数字还有几个加减乘除号，中文怎么办，阿拉伯文怎么办，日文怎么办？

由于一个字节只能表示255个数字，所以中国约定了GBK编码规则，约定用0x80-0xFF范围内的某两个字节来表示某一个中文字符。

日本约定了JIS编码规则，他们约定0x80-0xFF范围内的某两个字节来表示某个日文字符。

台湾约定了BIG5编码规则，约定0x80-0xFF范围内的某两个字节表示某个繁体中文字符。

所以我们拿到了一个ANSI字节串的时候，我们还必须知道这个字节串的编码，才能将这个字节串转换成相应国家的字符串。

3.UNICODE编码：宽字节编码

（一）“字节”的定义

字节（Byte）是一种计量单位，表示数据量多少，它是计算机信息技术用于计量存储容量的一种计量单位。

（二）“字符”的定义

字符是指计算机中使用的文字和符号，比如1、2、3、A、B、C、~！·#￥%……—*（）——+、等等。

（三）“字节”与“字符”

它们完全不是一个位面的概念，所以两者之间没有“区别”这个说法。不同编码里，字符和字节的对应关系不同：

①ASCII码中，一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。一个二进制数字序列，在计算机中作为一个数字单元，一般为8位二进制数，换算为十进制。最小值0，最大值255。

②UTF-8编码中，一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。

③Unicode编码中，一个英文等于两个字节，一个中文（含繁体）等于两个字节。

符号：英文标点占一个字节，中文标点占两个字节。举例：英文句号“.”占1个字节的大小，中文句号“。”占2个字节的大小。

④UTF-16编码中，一个英文字母字符或一个汉字字符存储都需要2个字节（Unicode扩展区的一些汉字存储需要4个字节）。

⑤UTF-32编码中，世界上任何字符的存储都需要4个字节。

ANSI编码有很多种，但是都只是规定自己国家的语言，这时候出现了UNICODE编码，该编码类似于ANSI，使用多个字节表示一个字符，UNICODE编码把世界上各种主要语言都进行了编码，当然UNICDOE编码也出现了很多种编码方案，比如使用8个二进制位的UTF8以及使用16个二进制位的UTF16等等。