5字符集和编码格式

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

科学家们先设计字符编码规则,然后再填入字符集。
在ASCII体系下,为了显示汉字,扩展了GB2312、GBK
等编码。 Unicode字符集是全世界所有语言、符号的集合。使 用4字节表示一个字符。 Unicode是字符集,UTF-32/ UTF-16/ UTF-8是三种字 符编码方案 用UTF-32直接编码,太浪费空间,所以诞生了UTF-8 编码方案。
地区的(计算机行业的)交流。 为了解决这个问题Unicode诞生了,目的是能用统一 的编码系统,表达任意语言。 Unicode字符集在不断扩展,目前已经包含了超过十 万个字符。 目前的Unicode由一个非营利性组织负责维护,目标 是将已有的编码方案全部由Unicode取代。
使用4字节的数字来表达每个字母、符号。
ຫໍສະໝຸດ Baidu
“4字节”重新编码称为2字节。由于算法太诡异,所 以使用不多。 UTF-8,是一种可变长度字符编码。目前最常用的编 码方案。
ASCII字符只需一个字节编码(Unicode范围由
U+0000至U+007F)。 带有附加符号的拉丁文、希腊文、西里尔字母、亚美 尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母 则需要二个字节编码(Unicode范围由U+0080至 U+07FF)。 其他基本多文种平面(BMP)中的字符(这包含了大 部分常用字)使用三个字节编码。 其他极少使用的Unicode辅助平面的字符使用四字节 编码。
自然语言和计算机的映射
计算机中储存的信息都是用二进制数表示的。
英文、汉字等字符是二进制数转换之后的结果。
把文字转换成二进制,称为“编码”;反之,把二进
制转换成文字显示出来,称为“解码”。
具体的对应关系,是早期的计算机从业者(科学家)
定义的。
字符集:一系列文字、符号的集合。
例如:A~Z,大写字母集;0~1,阿拉伯数字集;
所有的汉字,中文集;
字符编码:一套规则。将字符集映射成二进制(计算机
可识别)。 若要被计算机识别,每个字符集都必须至少有一套字 符编码。
字符集 通过 编码规则 &编码方案 告诉 计算机
ASCII字符集、GB2312字符集、BIG5字符集、GB18030
字符集 通常使用ANSI编码。
Unicode字符集
在设计的时候,专家们先考虑编码,然后才决定把哪
些文字放进去。
对于人名、古汉语等方面出现的罕用字,GB2312不能
处理。 如中国前总理朱镕基的“镕”字。 如繁体、日语、朝鲜语汉字等。 这导致了后来GBK及GB 18030汉字字符集的出现。
世界各地的编码方案的不兼容问题,严重影响到了各
每个数字代表唯一的至少在某种语言中使用的符号。
被几种语言共用的字符通常使用相同的数字来编码。 每个字符对应一个数字,每个数字对应一个字符。即
不存在二义性。
UTF-32/ UTF-16/ UTF-8
UTF-32,直接将4字节的数据作为编码。太浪费空间。
UTF-16,为了减少编码空间,用一种特殊的算法将
通常使用UTF-xx编码。
ASCII(American Standard Code
for Information Interchange,美国信息交换标准代码) 最早诞生的字符集。
ASCII字符集主要包括:
控制字符(回车键、退格、换行键等); 可显示字符(英文大小写字符、阿拉伯数字和西文符号)。 ASCII编码: 使用7位(bits)表示一个字符,共128字符; ASCII扩展字符集使用8位(bits)表示一个字符,共256字 符。为了表示更多的欧洲常用字符。
个字节(低字节)从0xA1到0xFE。 这样我们就可以组合出大约7000多个字符了。 够用么? 够用,甚至还把数学符号、罗马希腊的字母、日文的 假名 都编进去了
由中国国家标准总局发布,1981年5月1日实施。
收录了6763个简体汉字,基本满足了汉字的计算机处
理需要,它所收录的汉字已经覆盖中国大陆99.75%的 使用频率。
太少了,不够用。
只能显示有限的128个字符,勉强可以显示应用,但是
连一些英语中有重音的外来词都不能显示。
中文怎么显示? GB2312,中国国家标准简体中文字符集,全称《信息
交换用汉字编码字符集· 基本集》
编码规则:
一个小于127的字符的意义与原来相同,
但两个大于127的字符连在一起时,就表示一个汉字。 前面的一个字节(高字节)从0xA1用到 0xF7,后面一
相关文档
最新文档