汉字编码问题
第三章汉字编码原理

㈣标调拼音码
• 汉语是有声调的语言,汉语的声调是一 个重要的“音位”,具有重要的辨义功 能。有一种乐器叫做“雷琴”,可以只 用“音高”就能模拟汉语的句子。这个 例子足以说明汉语声调的重性。
• 拼音码为了降低重码率,采用标调的办法,这 样的拼音码,我们称之为“标调拼音码”。 • 汉语的音节是有数的:不加声调只有412个, 加声调则有1300个左右。 • 汉字共有6万个。收在《基本集》中的有67 63个。 • 不加声调平均每个音节约有15个重码,加上 重码分布的不平衡,个别的音节就有几十甚至 上百个; • 如果加上声调,平均每个音节只有不到4个重 码了。
拼音编码的瓶颈
• 同音字繁多,影响输入 • 《新华字典》中,读SHI音的字有72个, • 《汉语词典》中,读YI音的字有164个。
• • • • • • • •
同音词也影响编码输入 Shi-shi的词就有如下的24条: 失实、失时、诗史、失事、 失势、施事、实施、时时、 事事、时事、时势、时世、 时式、史诗、史实、试试、 誓师、事实、适时、事势、 逝世、世事、视事、实时
• 一般的编码方案多采用26个英文字母 作码元, • 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, • 还有的把字母键盘区的其它功能键也利 用上的。 • 这种需要增加码元数的方案多数是形码 方案。
3、确定编码规则
• 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 • 实际上最难做到。 • 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 • 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 • 人为地增加许多规定,势必增加用户的学习量。
汉字编码实验报告总结

汉字编码实验报告总结
汉字编码实验报告总结
汉字编码实验是对汉字编码的实验过程,本实验内容主要是基于Word文档中汉字编码的实验。
实验过程说明:
1. 针对Word文档,进行文本编辑:将已知文字的汉字编码(包括GB2312、GBK、BIG5)添加到相应文档中;
2. 通过对比,比较三种汉字编码(GB2312、GBK、BIG5)在空间上的编码表示;
3. 针对英文和汉字,进行字符的识别和比较;
4. 针对不同的编码,分析采用的字符编码类型,以及是否统一字体。
经过上述实验,我们发现:
1. 选定的汉字编码(GB2312、GBK、BIG5)有一定的不同,即GB2312编码只支持有限的汉字和符号,而GBK和BIG5编码支持更多的汉字和符号;
2. 对汉字编码进行字符识别和编码表示的区别,能够有效地确定字符的准确性;
3. 统一字体可以提高文本编辑的完整性,减少出错的可能性。
通过本次实验,可以对汉字在Word文档中的编码有更深入的理解,有助于更好的文本编辑与管理。
- 1 -。
汉字的编码方式

汉字的编码方式
汉字的编码方式是中国传统文化的重要组成部分。
汉字的编码方式是中国人用来记录和传达言语的一种独特的技术形式。
汉字的编码技术是以汉字简码、拼音码、五笔码和笔划码为主要编码方式。
汉字简码是利用一个汉字中不同部件的不同组合。
拼音码是把汉字当做音节来编码。
五笔码是把汉字当作笔画来编码,而笔划码是把汉字按照不同的笔画来编码。
汉字简码是中国汉字编码的基础,它利用一个汉字中不同部件的不同组合,构成汉字的编码方式,比如“人”是“r-e-n”,“叶”是“y-e”。
这种方式是使用最广泛的汉字编码方式,但它有一个明显的缺点,就是当一个汉字组成的词有多种写法的时候,会出现重复的编码,例如“叶”和“也”的编码都是“y-e”。
拼音码是另一种比较常用的汉字编码方式,它是把汉字当做音节来编码。
比如“人”是“n”,“叶”是“yè”。
这种方式不容易出现重复编码的情况,但它有一个显著的缺点,就是拼音码中很多汉字具有多音性,例如“草”可以表示为“cǎo”或“cào”,这会导致拼音码的准确性较低。
五笔码是把汉字当作笔画来编码,它的好处是编码的容易、准确、快速,但相对于其他方式来说,五笔码具有更大的规则性,容易引起记忆困难。
笔划码是把汉字按照不同的笔画来编码,它和五笔码有一些相似之处,但是笔划码更加复杂,更加灵活,并且更易于辨认汉字不同的笔画结构。
汉字的编码方式多种多样,每种编码方式都有各自的优点和缺点,没有一种方式是完美的。
了解汉字的编码方式,有助于我们在计算机上使用汉字,实现汉字的检索,保护中国传统文化的传承。
汉字字符的编码范围 -回复

汉字字符的编码范围-回复汉字字符的编码范围,是指用于表示汉字的字符编码的范围。
在计算机中,常用的汉字字符编码方式有GBK、GB2312、Big5、Unicode等。
这些编码方式用于将汉字字符转换为计算机可以识别和储存的数字代码,以便于计算机进行处理和显示。
首先,让我们来了解一下GBK编码和GB2312编码。
GBK编码是中国国家标准GB 2312-1980的扩展,包含了全部的中文汉字字符以及繁体汉字;GB2312编码是最早的汉字字符集,只包含了简体中文的6763个常用字。
它们的编码范围分别是0x8140至0xFEFE和0xA1A1至0xFEFE。
在计算机发展的过程中,为了统一不同国家和地区的字符编码,出现了Unicode编码,它使用16位或32位来映射世界上几乎所有的字符,包括汉字。
Unicode的编码范围是0x4E00到0x9FA5,这个范围包含了绝大部分的中文汉字。
然而,由于Unicode编码通常使用16位字符表示,这导致了一些问题,比如存储空间的浪费。
为了解决这个问题,出现了UTF-8编码。
UTF-8是一种针对Unicode的可变长度字符编码,可以用一个字节或多个字节来表示一个字符,根据字符的不同而变化。
对于汉字,UTF-8编码通常使用3个字节表示。
UTF-8编码的汉字字符范围是0xE4B880至0xEEA5BF。
除了以上介绍的常用编码方式外,还有一种比较特殊的编码方式是Big5编码。
Big5编码主要用于繁体中文,它的字符范围覆盖了繁体中文的所有字符。
Big5编码的汉字字符范围是0xA440至0xC67E和0xC940至0xF9D5。
对于这些不同的汉字字符编码范围,计算机内部会将汉字字符转换为对应的编码值进行存储和处理。
当需要显示汉字时,计算机则会根据字符编码值,选择对应的字形进行显示。
这也是为什么在不同的字符编码下,同一个字符可能会有不同的显示效果。
总结起来,汉字字符的编码范围包括GBK编码的0x8140至0xFEFE,GB2312编码的0xA1A1至0xFEFE,Unicode编码的0x4E00至0x9FA5,UTF-8编码的0xE4B880至0xEEA5BF,以及Big5编码的0xA440至0xC67E和0xC940至0xF9D5。
汉字编码

20世纪70年代 起步阶段,拼音编码、五笔字型、自然码等,效 率较低 20世纪80年代中期 轰轰烈烈的大跃进式编码活动,但没有什么发展 20世纪90年代 萧条期 进入21世纪后 又是一个发展期,数字编码方案将占主导
①混合式编码法。笔触字表示法中除整体字之外,增加一些部件或字元,可 以解决盘外字问题,甚至能具有字形分解法的全部优点。而笔画方案为了提 高速度,一般也增加一些部件或整字。 ②充分利用简码和词汇码。这样可以提高输入速度。因而人们为少量出现频 率高的字或词设计了单字母和双字母的简码。 词汇码也是提高速度的手段。有一种形码方案的词汇码是根据每个字的部件 规定的,如“汉字编码”的词汇码是43、45、55、13(氵冖纟石)。另一种 形码方案的词汇码是利用计算机引导方式输入的。例如,当“中”字输入后, 一按语词键,屏幕上便显示出“中国”、“中型”、“中性”、“中华”等 双音词;选择“中国”后,如再按一下语词键,便可显示出“(中国)话”、 “(中国)人民”、“(中国)共产党、”、“(中国)工农红军”等词或 词组。音码方案的词汇码实际上为词组码,如 ZRG“中华人民共和国”, ZZXY“中国中文信息研究会”。词汇码不仅能提高速度,而且也能区别同码。 但是,如果用得太多,也会产生重码。因此,有必要划分通用词汇码和专业 词汇码,以减少重码。 ③充分发挥“电脑”的作用,尽量减少“人脑”的负担。上述计算机引导输 入法就是一例。还有的方案不断以开窗口方式向操作员提供选择的范围。这 样,操作员不必再记忆大量的编码规则。Fra bibliotek
计算机中汉字的表示也是用二进制编码,同样是人为编码的。根据应用目的的不同,汉字编码分为外码、 交换码、机内码和字形码。 1.外码(输入码) 外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、 自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、 重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。 2.交换码(国标码) 计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的, 于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉 字编码字符集--基本集》,即国标码。 区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94 个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位 置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这 1391个位置空下来保留备用。 3.机内码 根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记 录汉字代码也使用机内码。 4.汉字的字形码 字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大 小的方块中。通常用16×16点阵来显示汉字。 5.汉字地址码 汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内 码到地址码的转换。
汉字编码方式以及相应的关系

汉字编码方式以及相应的关系
汉字编码方式是指对汉字进行编码的方法和规则。
根据编码方式和用途的不同,汉字编码可以分为以下几种:
1. 拼音码:以汉字的拼音为基础进行编码,输入速度快,但重码较多,不易记忆。
2. 五笔码:五笔码是一种形码,将汉字拆分成不同的部分,然后按照一定的规则进行编码。
五笔码输入速度快,重码较少,但需要一定的学习和练习。
3. 语音码:语音码是一种利用语音识别技术进行汉字编码的方法。
用户只需读出汉字,系统就可以将其转换成相应的编码。
语音码需要一定的技术支持,且受方言和口音影响较大。
4. 字形码:字形码是一种基于汉字字形的编码方法。
它将汉字拆分成不同的部分,然后以数字或字母的形式表示其形状。
字形码输入较慢,但重码较少,易于记忆。
除了以上几种常见的汉字编码方式,还有一些其他的编码方式,如电报码、四角号码等。
这些编码方式都有其特定的用途和优缺点。
另外,汉字编码与计算机的关系也非常密切。
在计算机中存储和处理汉字时,需要对汉字进行编码。
目前使用最广泛的汉字编码是GB2312和GBK,它们分别支持简体中文和
繁体中文。
在互联网上传输汉字时,通常使用UTF-8编码,它支持多种语言和字符集。
汉字编码关系
输入码、区位码、国标码与机内码我们知道,键盘是当前微机的主要输入设备,输入码就是使用英文键盘输入汉字时的编码。
目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则输入码为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集──基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,如在二维代码表中处于17区第3位,区位码即为“1703 ”。
(教材附页可找到)国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码,相当于如果不转换的话,在两个字节上分别加上32即可。
如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。
国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,这到底是一个汉字,还是两个西文字符“1”和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,也就是如果国标码是16进制的,直接加上8080H即可。
第2次课 字符编码、汉字编码
第2次课字符编码、汉字编码一、单选题(本大题共8小题,共60分)1.(5分)ASCII码采用8位二进制编码,共表示()个字符。
A. 256B. 64C. 127D. 1282.(5分)英文字母A的ASCIl码为01000001,英文字母D的ASCII码转化为十进制后是()。
A. 65B. 68C. 70D. 643.(5分)在ASCI编码表中,已知字母P的编码是80,Q的编码是81 ,可以推算出字母S的编码是( )A. 83B. 79C. 85D. 874.(5分)发报代码由长音和短音组成,分别用”.”和“-”表示,有一8位电码“..-.- --.”若用二进制表示,可以写成()A. 11010000B. 00111110C. 00101110D. 001011115.(10分)某军舰上有5盏信号灯,信号灯只有“开"和"关"两种状态,如果包括5盏信号灯全关的状态,则最多能表示的信号编码数为( )种。
A. 5B. 10C. 20D. 326.(10分)汉字的编码分为输入码、输出码和机内码,其中用于汉字存储的编码称为( )A. 输入码B. 机内码C. 拼音码D. 输出码7.(10分)使用Word进行文字处理时,“输入-存储-打印”的过程所涉及的汉字编码分别是( )A. 输入码、机内码、打印码B. 输入码、机内码、字型码C. 拼音码、ASCII码、字型码D. 拼音码、机内码、交换码8.(10分)汉字点阵是一种用黑白两色点阵来表示汉字字形的编码,一个8x8点阵字模的存储容量为( )A. 8字节B. 64字节C. 1字节D. 16字节二、判断题(本大题共4小题,共15分)9.(2.5分)ASCII包含中文编码。
10.(2.5分)英文小写字母a的ASCII码值是65。
11.(5分)手写板输入汉字的实质是字型识别的结果与特征库的字型信息相同时,计算机把这个汉字显示在屏幕上。
12.(5分)同一个汉字的输入码可以有多种,但机内码是唯一的。
汉字字符编码与转码详解,iso-8859-1的妙用
汉字字符编码与转码详解,iso-8859-1的妙⽤程序中有汉字参数,经常会遇到编码转码问题,总结下:1.汉字为多字节字符,须多字节编码解码,如"测试".getBytes("GBK");这样"测试".getBytes("GBK")就变成⼀个byte数组,这时候你可以随意重新指定编码如iso-8859-1,String s1=new String("测试".getBytes("GBK"),"iso-8859-1");编为s1,这是s1就变成⼀个是iso-8859-1编码的字符串,如果你想重新转为中⽂,那么,你⽤什么字符集编码的,必须⽤什么字符集来解码,这⾥是iso-8859-1,可以这么来做String s2 = new String(s1.getBytes("ISO-8859-1"),"GBK");这样s2⼜重新变回中⽂了,所以当你打印s2时,就是“测试”。
2.⽤iso-8859-1做中间编码,注意不是开始编码和编回的编码(开始和编回的可⽤GBK或者UTF8),只做中间编码,原因:[1]iso-8859-1是单字节字符编码,[2]ANSI 编码 (如:GB2312, GBK(gbk包括了gb2312),BIG5,Shift_JIS,ISO-8859-2等等),是多字节编码(英⽂单字节,中⽂多字节),不是定长编码;[3]UNICODE ,UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig,是宽字节编码(所有字符均是多字节)因此⽤iso-8859-1做中间码,会保持原有字节的秩序,不发⽣混乱;可以理解为其他的编码对iso-8859-1兼容吧。
因此,我们常常使⽤iso-8859-1做中间码来进⾏逆向操作,得到原始的“字节串”。
汉字字符编码的发展
汉字字符编码的发展关键词:汉字字符编码问题发展阶段摘要:作为一名中国人,尤其是一名计算机学者,了解汉字字符编码的发展是非常必要的。
相对西文字符集的定义,汉字编码字符集的定义主要有两大困难:选字难和排序难。
选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字),而字符集空间有限。
排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等),而具体到每一种排序标准,往往还存在不少争议,如对一些汉字还没有一致认可的笔画数。
因此,汉字字符编码的发展的道路是曲折的、坎坷的,遇到不少的困难,虽然现在还有一些是没解决的,但目前的情况还算是比较稳定。
As a Chinese person, particularly a computer scholars, learn about the development of Chinese character encoding is very necessary. The definition of relative Western language character set, the definition of a coded character set mainly in the two major difficulties: choice difficult, and sorting. Choice difficult because the word so much Chinese characters (including the simplified Chinese, traditional Chinese, Japanese, Korean, and Chinese) character set of the space is limited. Sorting difficult because Chinese characters can have multiple sort criteria (phonetic, radical, strokes, and so on), and specific to each type of sorting standards, often a lot of controversy, as well as on some Chinese characters there is no agreement approved by the strokes. Therefore, the development of Chinese character encoding is tortuous and difficult, you experience a lot of difficulties, although some unsolved, it is relatively stable.汉字出现过的问题:汉字内部码问题用二进制代码来表示字符和汉字是现代信息交换中通用的手段,它除广泛应用于通信(电报、电传等数据通信,如GB 8565-88信息处理文本通信用编码字符集)外,还在计算机中得到普遍使用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字编码问题一、GB2312-80介绍GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。
新加坡等地也使用此编码。
GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。
GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。
GB2312-80包含了大部分常用的一、二级汉字,和9区的符号。
该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。
其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe;汉字从0xb0a1开始,结束于0xf7fe。
GB2312将代码表分为94个区,对应第一字节(0xa1-0xfe);每个区94个位(0xa1-0xfe),对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。
01-09区为符号、数字区,16-87区为汉字区(0xb0-0xf7),10-15区、88-94区是有待进一步标准化的空白区。
GB2312将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。
故而GB2312最多能表示6763个汉字。
GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。
图1:GB2312编码图图中位于ASCII区中的虚线区域即为原GB2312编码区域,右下角实线区域为平移后的GB2312编码区域。
二、GB2312-80的扩展GBK是GB2312-80的扩展,是向上兼容的。
它包含了20902个汉字,其编码范围是0x8140-0xfefe,剔除高位0x80的字位。
其所有字符都可以一对一映射到Unicode2.0。
GB18030-2000(GBK2K)在GBK的基础上进一步扩展了汉字,增加了藏、蒙等少数民族的字形。
GBK2K从根本上解决了字位不够,字形不足的问题。
它有几个特点:●它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。
●编码是变长的,其二字节部分与GBK兼容;四字节部分是扩充的字形、字位,其编码范围是首字节0x81-0xfe、二字节0x30-0x39、三字节0x81-0xfe、四字节0x30-0x39。
●它的推广是分阶段的,首先要求实现的是能够完全映射到Unicode3.0标准的所有字形。
●它是国家标准,是强制性的。
●现在还没有任何一个操作系统或软件实现了GBK2K的支持,这是现阶段和将来汉化的工作内容。
三、Unicode编码国际标准组织于1984年4月成立ISO/IECJTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。
1991年美国跨国公司成立UnicodeConsortium,并于1991年10月与WG2达成协议,采用同一编码字集。
目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(BasicMultilingualPlane)相同。
Unicode于1992年6月通过DIS (DrafInternationalStandard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。
随着国际互联网的迅速发展,要求进行数据交换的需求越来越大,不同的编码体系越来越成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠代码页已很难解决这些问题,于是UNICODE应运而生。
UNICODE有双重含义,首先UNICODE是对国际标准ISO/IEC10646编码的一种称谓(ISO/IEC10646是一个国际标准,亦称大字符集,它是ISO于1993年颁布的一项重要国际标准,其宗旨是全球所有文种统一编码),另外它又是由美国的HP、Microsoft、IBM、Apple 等大企业组成的联盟集团的名称,成立该集团的宗旨就是要推进多文种的统一编码。
UNICODE同现在流行的代码页最显著不同点在于:UNICODE是两字节的全编码,对于ASCII字符它也使用两字节表示。
代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节。
如果发生数据损坏,某处内容破坏,则会引起其后汉字的混乱。
UNICODE 则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程。
UNICODE使用平面来描述编码空间,每个平面分为256行,256列,相对于两字节编码的高低两个字节。
UNICODE的第一个平面,称为BasicMultilingualPlane(基本多文种平面),简称BMP,由于BMP仅用两个字节表示,所以倍受青睐。
图2:BMP的最新概貌图其中A_ZONE为拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码。
CJKExtensionA和CJK为汉字区域共计27487个汉字。
Y1即彝文,位于O-ZONE 保留待将来使用。
Hangul即韩文。
EUDC为用户私有区,用户可以根据需要自己定义此区的编码。
R-ZONE为限制使用区,一些兼容字符、特殊字符均放在此区。
UNICODE定义BMP中的D800-DFFF为代理区(SurrogateZone),其中D800-D8FF为高半代理(highsurrogate),DC00-DFFF为低半代理(lowsurrogate)。
从两个区域分别取一个编码,组成一个4字节的代理对来表示一个编码字符,此即为UTF-16。
利用UTF-16机制,UNICODE扩充了1024*1024个字符,相应于OO-OF平面,并且将02平面分配给了CJKExtensionB。
Microsoft在Windows2000已实现了UTF-16。
Unicode编码布局0000..007F;BasicLatin0080..00FF;Latin-1Supplement0100..017F;LatinExtended-A0180..024F;LatinExtended-B0250..02AF;IPAExtensions02B0..02FF;SpacingModifierLetters0300..036F;CombiningDiacriticalMarks0370..03FF;GreekandCoptic0400..04FF;Cyrillic0500..052F;CyrillicSupplementary0530..058F;Armenian0590..05FF;Hebrew0600..06FF;Arabic0700..074F;Syriac0780..07BF;Thaana0900..097F;Devanagari0980..09FF;Bengali0A00..0A7F;Gurmukhi0A80..0AFF;Gujarati0B00..0B7F;Oriya0B80..0BFF;Tamil0C00..0C7F;Telugu0C80..0CFF;Kannada0D00..0D7F;Malayalam0D80..0DFF;Sinhala0E00..0E7F;Thai0E80..0EFF;Lao0F00..0FFF;Tibetan1000..109F;Myanmar10A0..10FF;Georgian1100..11FF;HangulJamo1200..137F;Ethiopic13A0..13FF;Cherokee1400..167F;UnifiedCanadianAboriginalSyllabics1680..169F;Ogham16A0..16FF;Runic1700..171F;Tagalog1720..173F;Hanunoo1740..175F;Buhid1760..177F;Tagbanwa1780..17FF;Khmer1800..18AF;Mongolian1E00..1EFF;LatinExtendedAdditional1F00..1FFF;GreekExtended2000..206F;GeneralPunctuation2070..209F;SuperscriptsandSubscripts20A0..20CF;CurrencySymbols20D0..20FF;CombiningDiacriticalMarksforSymbols 2100..214F;LetterlikeSymbols2150..218F;NumberForms2190..21FF;Arrows2200..22FF;MathematicalOperators2300..23FF;MiscellaneousTechnical2400..243F;ControlPictures2440..245F;OpticalCharacterRecognition 2460..24FF;EnclosedAlphanumerics2500..257F;BoxDrawing2580..259F;BlockElements25A0..25FF;GeometricShapes2600..26FF;MiscellaneousSymbols2700..27BF;Dingbats27C0..27EF;MiscellaneousMathematicalSymbols-A 27F0..27FF;SupplementalArrows-A2800..28FF;BraillePatterns2900..297F;SupplementalArrows-B2980..29FF;MiscellaneousMathematicalSymbols-B 2A00..2AFF;SupplementalMathematicalOperators 2E80..2EFF;CJKRadicalsSupplement2F00..2FDF;KangxiRadicals2FF0..2FFF;IdeographicDescriptionCharacters 3000..303F;CJKSymbolsandPunctuation 3040..309F;Hiragana30A0..30FF;Katakana3100..312F;Bopomofo3130..318F;HangulCompatibilityJamo3190..319F;Kanbun31A0..31BF;BopomofoExtended31F0..31FF;KatakanaPhoneticExtensions 3200..32FF;EnclosedCJKLettersandMonths 3300..33FF;CJKCompatibility3400..4DBF;CJKUnifiedIdeographsExtensionA4E00..9FFF;CJKUnifiedIdeographsA000..A48F;YiSyllablesA490..A4CF;YiRadicalsAC00..D7AF;HangulSyllablesD800..DB7F;HighSurrogatesDB80..DBFF;HighPrivateUseSurrogatesDC00..DFFF;LowSurrogatesE000..F8FF;PrivateUseAreaF900..FAFF;CJKCompatibilityIdeographsFB00..FB4F;AlphabeticPresentationFormsFB50..FDFF;ArabicPresentationForms-AFE00..FE0F;VariationSelectorsFE20..FE2F;CombiningHalfMarksFE30..FE4F;CJKCompatibilityFormsFE50..FE6F;SmallFormVariantsFE70..FEFF;ArabicPresentationForms-BFF00..FFEF;HalfwidthandFullwidthFormsFFF0..FFFF;Specials10300..1032F;OldItalic10330..1034F;Gothic10400..1044F;Deseret1D000..1D0FF;ByzantineMusicalSymbols1D100..1D1FF;MusicalSymbols1D400..1D7FF;MathematicalAlphanumericSymbols 20000..2A6DF;CJKUnifiedIdeographsExtensionB2F800..2FA1F;CJKCompatibilityIdeographsSupplement E0000..E007F;TagsF0000..FFFFF;SupplementaryPrivateUseArea-A 100000..10FFFF;SupplementaryPrivateUseArea-B 0000..007F;BasicLatin0080..00FF;Latin-1Supplement0100..017F;LatinExtended-A0180..024F;LatinExtended-B0250..02AF;IPAExtensions02B0..02FF;SpacingModifierLetters0300..036F;CombiningDiacriticalMarks0370..03FF;GreekandCoptic0400..04FF;Cyrillic0500..052F;CyrillicSupplementary0530..058F;Armenian0590..05FF;Hebrew0600..06FF;Arabic0700..074F;Syriac0780..07BF;Thaana0900..097F;Devanagari0980..09FF;Bengali0A00..0A7F;Gurmukhi0A80..0AFF;Gujarati0B00..0B7F;Oriya0B80..0BFF;Tamil0C00..0C7F;Telugu0C80..0CFF;Kannada0D00..0D7F;Malayalam0D80..0DFF;Sinhala0E00..0E7F;Thai0E80..0EFF;Lao0F00..0FFF;Tibetan1000..109F;Myanmar10A0..10FF;Georgian1100..11FF;HangulJamo1200..137F;Ethiopic13A0..13FF;Cherokee1400..167F;UnifiedCanadianAboriginalSyllabics 1680..169F;Ogham16A0..16FF;Runic1700..171F;Tagalog1720..173F;Hanunoo1740..175F;Buhid1760..177F;Tagbanwa1780..17FF;Khmer1800..18AF;Mongolian1E00..1EFF;LatinExtendedAdditional1F00..1FFF;GreekExtended2000..206F;GeneralPunctuation2070..209F;SuperscriptsandSubscripts20A0..20CF;CurrencySymbols20D0..20FF;CombiningDiacriticalMarksforSymbols 2100..214F;LetterlikeSymbols2150..218F;NumberForms2190..21FF;Arrows2200..22FF;MathematicalOperators2300..23FF;MiscellaneousTechnical2400..243F;ControlPictures2440..245F;OpticalCharacterRecognition 2460..24FF;EnclosedAlphanumerics2500..257F;BoxDrawing2580..259F;BlockElements25A0..25FF;GeometricShapes2600..26FF;MiscellaneousSymbols2700..27BF;Dingbats27C0..27EF;MiscellaneousMathematicalSymbols-A 27F0..27FF;SupplementalArrows-A2800..28FF;BraillePatterns2900..297F;SupplementalArrows-B2980..29FF;MiscellaneousMathematicalSymbols-B2A00..2AFF;SupplementalMathematicalOperators2E80..2EFF;CJKRadicalsSupplement2F00..2FDF;KangxiRadicals2FF0..2FFF;IdeographicDescriptionCharacters 3000..303F;CJKSymbolsandPunctuation3040..309F;Hiragana30A0..30FF;Katakana3100..312F;Bopomofo3130..318F;HangulCompatibilityJamo3190..319F;Kanbun31A0..31BF;BopomofoExtended31F0..31FF;KatakanaPhoneticExtensions3200..32FF;EnclosedCJKLettersandMonths3300..33FF;CJKCompatibility3400..4DBF;CJKUnifiedIdeographsExtensionA4E00..9FFF;CJKUnifiedIdeographsA000..A48F;YiSyllablesA490..A4CF;YiRadicalsAC00..D7AF;HangulSyllablesD800..DB7F;HighSurrogatesDB80..DBFF;HighPrivateUseSurrogatesDC00..DFFF;LowSurrogatesE000..F8FF;PrivateUseAreaF900..FAFF;CJKCompatibilityIdeographsFB00..FB4F;AlphabeticPresentationFormsFB50..FDFF;ArabicPresentationForms-AFE00..FE0F;VariationSelectorsFE20..FE2F;CombiningHalfMarksFE30..FE4F;CJKCompatibilityFormsFE50..FE6F;SmallFormVariantsFE70..FEFF;ArabicPresentationForms-BFF00..FFEF;HalfwidthandFullwidthFormsFFF0..FFFF;Specials10300..1032F;OldItalic10330..1034F;Gothic10400..1044F;Deseret1D000..1D0FF;ByzantineMusicalSymbols1D100..1D1FF;MusicalSymbols1D400..1D7FF;MathematicalAlphanumericSymbols 20000..2A6DF;CJKUnifiedIdeographsExtensionB2F800..2FA1F;CJKCompatibilityIdeographsSupplementE0000..E007F;TagsF0000..FFFFF;SupplementaryPrivateUseArea-A100000..10FFFF;SupplementaryPrivateUseArea-B四、大五码(Big5)如不去考虑特殊符号,及后来的七个扩充字,TW-BIG5 的排序方式如下。