GB2312、GB 13000、GBK、GB18030 介绍和说明文档

合集下载

GBK介绍

GBK●基本含义GBK，汉字国标扩展码, 是Guo Biao Kuo的首拼音字母连缀而成。

是用于实现中文信息交换的编码表，包含了原GB2312-80所有的汉字并保持原有码位，涵盖了原Unicode中所有的汉字(20902个)。

总共收录了21886个字符(883个符号和21003个汉字)，提供了1894个造字码位。

●来历GB2312-80只收录了6763个汉字，部分人名用字、台湾及香港使用的繁体字、日语及韩语汉字，并未包含在内，微软利用GB2312-80未使用的编码空间，将这些字的编码扩展补充进去，指定并形成了该GBK编码表。

Microsoft简体版中文Windows 95/98就是以GBK为内码，又由于GBK同时也涵盖了Unicode所有CJK（Chinese、Japanese、Korean）汉字，所以也可以和Unicode做一一对应。

中国国家标准GB18030兼容GBK。

●码表结构字符有一字节编码和双字节编码两种。

对于半角英文字符，采用一字节编码，范围00～7F（十六进制，下同）。

两字节的全角字符（包括各种全角符号和所有汉字），采用两字节编码。

前一字节（高字节）的编码范围81～FE，后一字节的编码范围分为40～FE和80～FE两种。

GBK双字节码表结构如下表所示：GBK码表的二维布局示意图如下：可以重点关注一下常用的6763个汉字区域在分布图中的位置及其相对大小。

码表到点阵字库的映射方式码表的最主要用途，就是用来实现字符内码到字库中具体字符点阵信息的索引和映射。

点阵字库中，只有一级映射，而且是线性的。

矢量字库中，有两级映射，第一级映射也是线性的。

为简洁起见，以下仅介绍GBK点阵字库的映射和访问方法。

GBK码对点阵字库中点阵数据偏移量的计算公式为：[ (H gbk-0xB0)*0x5E + (L gbk-0xA1) ] * 每个汉字点阵所占用的字节数这里：H gbk-----GBK内码第一字节（高字节）L gbk-----GBK内码第二字节（低字节）后面是具体的GBK码表全部内容，略微浏览即可，查对某字符时则可细看。

汉字字符集编码

汉字字符集编码汉字字符集编码是指通过特定的编码方式，对汉字进行数字表示，便于计算机存储和处理，其实现了汉字与计算机之间的无缝衔接。

随着计算机技术的飞速发展，汉字字符集编码也不断得到完善和拓展。

在汉字字符集编码的发展过程中，最早的编码方式是GB2312，该编码中共收录了包括简体汉字在内的7436个常用汉字，并确定了每个汉字在编码表中的位置值。

GB2312编码是我国最早的中文字符集，因其只针对简体字进行编码，因此无法表达繁体字和生僻字，这对繁体字地区的使用者来说限制很大。

为了解决GB2312编码所不能表达的问题，Big5编码应运而生。

Big5编码专为繁体字编码而设计，是现今香港、台湾和其他一些国家和地区所使用的主要字符集之一。

Big5编码与GB2312编码不相兼容，存在明显的差别。

在全球互联网快速发展的背景下，Unicode编码应运而生。

Unicode编码是一种全球化的字符集，支持包括简体汉字、繁体汉字、拉丁文等在内的所有文字和符号，是互联网信息传输中最广泛使用的字符编码方案之一。

Unicode对于其他编码方案而言拥有更强大的多语言支持，使得信息在全球范围内的传递变得更加简单和方便。

在Unicode编码体系中，汉字部分又分为两类：GB18030和UTF-8。

GB18030编码是GB2312的升级版，同时支持汉字和非汉字字符，并可以表达任意汉字，能够完美地兼容GB2312编码。

而UTF-8则是Unicode编码的一种常用形式，支持的字符非常广泛，具有兼容性强、节省字节数等诸多优点。

总结来说，汉字字符集编码在不断的发展和完善中，从GB2312、Big5、Unicode到GB18030和UTF-8等不同编码方式，均旨在更好地表达和传递汉字信息，实现汉字与计算机的无缝衔接，为汉字使用和传播提供了更加便捷的途径和手段。

字符编码简介

2021/3/11
9
表述方式
• ASCII 码使用指定的7 位或8 位二进制数组合来表示 128 或256 种可能的字符。标准ASCII 码也叫基础 ASCII码，使用7 位二进制数来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。
2021/3/11
10
言跨平台文本转换。
2021/3/11
1
一.BCD码
BCD码(Binary-Coded Decimal)亦称二进码十进数或二-十进制代码。用4位二进制数来表示1位十进制数中的0~9这10个数码。是一种二进制的数字编码形式，用二进制编码的十进制代码。BCD码这种编码形式利用了四个位元来储存一个十进制的数码，使二进制和十进制之间的转换得以快捷的进行。
2021/3/11
7
ASCII码
• ASCII(American Standard Code for Information Interchange，美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。
2021/3/11
8
ASCII码出现背景
• 在计算机中，所有的数据在存储和运算时都要使用二进制数表示 (因为计算机用高电平和低电平分别表示1和0)，例如，像a、b、c、 d这样的52个字母(包括大写)、以及0、1等数字还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示，而具体用哪些二进制数字表示哪个符号，当然每个人都可以约定自己的一套(这就叫编码)，而大家如果要想互相通信而不造成混乱，那么大家就必须使用相同的编码规则，于是美国有关的标准化组织就出台了ASCII编码，统一规定了上述常用符号用哪些二进制数来表示。

字符编码汉字编码规则 -回复

字符编码汉字编码规则-回复字符编码是计算机中用来表示字符的一种方式，它将字符映射为一系列表示该字符的数字。

汉字编码规则是特指汉字在计算机中的表示方式，因为汉字的数量庞大，所以需要一种规则将其编码为数字，以便计算机可以准确地处理和显示汉字。

本文将基于该主题，一步一步详细回答并解释字符编码和汉字编码规则。

首先，我们需要了解计算机中的字符表示方式。

在计算机中，所有的数据都是以数字的形式存储和处理的。

由于计算机本身无法理解字符，所以需要将字符转换为数字进行处理。

字符编码就是将字符映射为数字的一种方法。

在字符编码中，最常用的编码方式是ASCII码（American Standard Code for Information Interchange，美国信息交换标准代码）。

ASCII码使用7位二进制数表示字符，共可以表示128个字符，包括英文字母、数字、标点符号以及一些特殊字符。

例如，字符'A'对应的ASCII码是65。

然而，ASCII码并不能满足表示所有字符的需求，特别是对于汉字这种数量庞大的字符集。

因此，出现了一些专门用于汉字编码的规则，例如GB2312、GBK、BIG5等。

其中，GB2312是中国国家标准局于1980年发布的，最早的一种汉字编码规则。

GB2312规定了类似ASCII码的编码方式，使用16位二进制数表示字符，共可以表示7463个常用汉字以及一些符号。

但是，GB2312并不能满足全部汉字的需求，因此后续出现了GBK和GB18030。

GBK是在GB2312基础上的扩展，增加了更多的汉字编码。

它使用16位或者32位的二进制数表示字符，共可以表示21003个汉字和少量的符号和非汉字字符。

GB18030是在GBK的基础上进一步扩展的汉字编码规则。

它使用1到4个字节的二进制数表示字符，可以表示27484个汉字和多种其他字符集，例如日文、韩文等。

除了GB系列的汉字编码规则，还有一种常用的是BIG5，主要用于繁体字的编码。

中文字符集——精选推荐

中文字符集中文字符集2010-06-12 12：09【GB2312】GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。

GB2312编码通行于中国大陆；新加坡等地也采用此编码。

中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB 2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。

在使用GB2312的程序中，通常采用EUC储存方法，以便兼容于ASCII。

编码表上的"GB2312"，通常都是指"EUC-CN"表示法。

每个汉字及符号以两个字节来表示。

第一个字节称为"高位字节"，第二个字节称为"低位字节"。

"高位字节"使用了0xA1-0xF7(把01-87区的区号加上0xA0)，"低位字节"使用了0xA1-0xFE(把01-94加上0xA0)。

由于一级汉字从16区起始，汉字区的"高位字节"的范围是0xB0-0xF7，"低位字节"的范围是0xA1-0xFE，占用的码位是72*94=6768。

其中有5个空位是D7FA-D7FE。

例如"啊"字在大多数程序中，会以两个字节，0xB0(第一个字节)0xA1(第二个字节)储存。

(与区位码对比：0xB0=0xA0+16,0xA1=0xA0+1)。

字符编码介绍

UNICODE
• 由于世界各地语言文字互不相同，为了能在计算机上统一表示所有的字符，微软等公司倡导采用一种编码方案，用它来表示所有字符，这就是 Unicode，并成立了Unicode联盟，相关的信息可以到Unicode联盟的官方网站去了解，它们的网址：。由于我们系统只能显示 Unicode字符，所以我在这里重点说一下Unicode 编码；同时彩信数据在无线网络上传输时用的都是UTF8的编码，在接下来的两节中讲一下UTF8 编码以及他和Unicode之间的转换算法。
ASCII
• 这种编码是最简单，也是比较老的一种编码方案，从IBM PC开始至今仍在广泛应用，由于它是一种最基本编码方案在此就不在多说了，它是从0开始编码到127，后来由于一些特殊的需要，扩展到 255，不过从128之后的大于用来表示一些特殊的符号。由于这是一字节的编码方案，所以范围是 0~255(一字节8位)，不过也有一些系统不是用8位来表示一个字节的，我们可能用不到，就不再多说。在C/C++中，这种字符串是以0x00为结束符的。
UTF8
• UTF8则是为了便于在网络上传输，而产生的一种编码方案，它只能和Unicode之前进行相互的转换。在C/C++中这种字符串也是以一个字节的0x00为结束符的。下面简单介绍一下它们之间的转换规则，同时我会提供一个自己写的小工具来帮助在这两种字符编码之间进行转换(包括国标码和Unicode)：对英文字符来说，去除其Unicode编码的高位字节就行了，比如说字符’A’，它的Unicode编码为0x0041，则它的UTF8字符编码为0x41，也就是它的ASCII编码；对非英文字符则有如下的对应规则： • Char number range | UTF-8 octet sequence (hexadecimal) | (binary) --------------------+--------------------------------------------0000 0000-0000 007F | 0xxxxxxx 0000 0080-0000 07FF | 110xxxxx 10xxxxxx 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx //////A///////// 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 高位字节的1的位数，表示一个字符所需要的字节数。

中文计算机编码对照

中文计算机编码对照
1. GBK编码，GBK是国家标准GB2312的扩展，它支持简体中文
和繁体中文字符。

GBK编码使用16位编码，可以表示2^16=65536
个字符。

它包含了常用汉字、繁体字、符号等。

2. GB2312编码，GB2312是中国国家标准，是中文字符的最基
本的编码方式。

它使用16位编码，包含了6763个汉字和682个非
汉字字符。

3. UTF-8编码，UTF-8是一种可变长度的Unicode编码方式，
它可以表示世界上几乎所有的字符。

UTF-8编码使用8位、16位或
32位编码，根据字符的不同而变化。

对于中文字符，UTF-8编码通
常使用3个字节表示。

除了以上三种编码方式，还有其他一些中文计算机编码，如
Big5（主要用于繁体中文）、Unicode等。

这些编码方式各有特点，应根据实际需求选择合适的编码方式。

需要注意的是，不同的编码方式之间可能存在兼容性问题，因
此在处理中文字符时，需要确保编码方式的一致性，以避免乱码等
问题的出现。

总结起来，中文计算机编码对照包括GBK、GB2312、UTF-8等编码方式，它们分别用于表示中文字符在计算机中的二进制形式。

正确选择和使用编码方式对于保证中文字符的正确显示和处理非常重要。

新版信息技术中文编码字符集

新版信息技术中文编码字符集信息技术中文编码字符集是用来表示和存储中文字符的一种规范，它是计算机系统中的基础技术之一。

在新版的信息技术中，常用的中文编码字符集有Unicode、GBK、GB18030、UTF-8等。

Unicode是一种全球统一的字符编码标准，其中包含了世界上几乎所有的字符，包括汉字和其他语言的字符。

它的编码空间非常大，可以表示超过100万个字符。

Unicode采用的是16位或32位编码，其中一种常用的编码方式是UTF-16。

GBK是汉字编码字符集，它包含了大部分简体中文字符，并与ASCII编码兼容。

GBK的编码空间比Unicode小，使用了16位编码表示字符。

GBK编码被广泛应用于早期的计算机系统和一些特殊领域。

GB18030是对GBK的扩展，它包含了更多的中文字符，包括繁体中文字符和一些少数民族文字。

GB18030采用了变长编码，根据字符的不同，使用1到4个字节进行编码。

UTF-8是一种可变长度的编码方式，它可以使用1到4个字节表示一个字符。

UTF-8编码的特点是兼容ASCII编码，即ASCII字符使用单个字节表示，而非ASCII字符使用多个字节表示。

UTF-8成为互联网和计算机系统中最常用的中文编码字符集，因为它既可以处理大部分中文字符，也可以处理其他语言的字符。

除了以上几种常用的中文编码字符集，还有一些其他的编码方式，如BIG5、EUC-CN等。

BIG5是繁体中文编码字符集，主要用于台湾和香港地区。

EUC-CN是中国的国家标准，它也使用了变长编码，可以表示几乎所有的中文字符。

在新版信息技术中，Unicode和UTF-8被广泛应用于各种计算机系统和互联网平台。

Unicode提供了全球统一的字符表示方式，而UTF-8提供了高效的存储和传输方式。

根据不同的需求和平台，可以选择合适的中文编码字符集来处理中文字符。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312：又称为GB 2312-80，是一个简体中文字符集的中国国家标准，于1980年由中国国家标准总局发布，1981年5月1日实施，全称为《信息交换用汉字编码字符集基本集》，规定了6763个汉字和682个非汉字图形。

GB 13000：为了便于多个文种的同时处理，国际标准化组织下属编码字符集工作组研制了新的编码字符集标准，ISO/IEC 10646。

该标准第一次颁布是在1993年，当时只颁布了其第一部分，即ISO/IEC 10646.1: 1993，我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分：体系结构与基本多文种平面》。

制定这个标准的目的是对世界上的所有文字统一编码，以实现世界上所有文字在计算机上的统一处理。

GBK：随着信息技术在各行业应用的深入，GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如："镕"字现在是高频率使用字，而GB 2312 却没有为它编码，因而，政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年，全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充，一方面顺应当时技术的发展向GB 13000.1 推进，同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版，即GBK 。

在GBK的内码系统中，GB 2312 汉字所在码位保持不便，这样，保证了GBK 对GB 2312 的完全兼容。

同时，GBK 内码与GB 13000.1 代码一一对应，为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展，也就是CP936 字码表(Code Page 936)的扩展（原来的CP936 和GB 2312-80 一模一样），最初出现于Windows 95 简体中文版中。

注意GBK 并非国家正式标准，只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。

虽然GBK 收录了所有Unicode 1.1 及GB 13000.1-93 之中的汉字，但是编码方式与Unicode 1.1 及GB 13000.1-93 不同。

仅仅是GB 2312 到GB 13000.1-93 之间的过渡方案。

GB 18030-2000：1995年之后的实践表明，GBK 作为行业规范，缺乏足够的强制力，不利于其本身的推广，而我们寄予厚望的GB 13000 的实现又脚步缓慢，现有汉字编码字符集标准已经不能满足我国信息化建设的需要。

为此，原国家质量技术监督局和信息产业部组织专家制定发布了新的编码字符集标准，GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。

GB 18030-2000 收录了ISO/IEC 10646.1: 2000的全部27484个CJK 统一汉字，13个表意文字描述符、部分汉字部首和部件、欧元符号。

在编码体系上，GB 18030 统一了内码和交换码的概念。

它完全兼容GB 2312 和GBK 的编码体系，继承GBK 的代码映射表的优点，解决了GB 18030 和GB 13000 之间的代码转换。

GB 18030-2005：全称：国家标准GB 18030-2005《信息技术中文编码字符集》，是中华人民共和国目前最新的内码字符集，是GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》的修订版。

与GB 2312-1980 完全兼容，与GBK 基本兼容，支持GB 13000 及Unicode 的全部统一汉字，共收录汉字70244个。

2、GB 18030的优点1）编码汉字数量大与西方文字不相同，汉字是表意文字，成千上万的不同含义需要成千上万的不同汉字来表示。

西方文字主要是拼音文字，通过几十个字母的组合就可以变出成千上万的单词。

在计算机里面，西方文字只需要给几十个字母编码就够了，而每一个汉字都要一个编码才行。

根据专家的统计，一般中文应用系统需要13,000个左右汉字，大型中文应用系统需要23,000个左右的汉字，政府机关的专用中文应用系统需要48,000个左右的汉字，而图书馆用的中文应用系统需要的汉字可能超过10万。

GB 18030-2000达到了27484个汉字，基本上可以满足目前政府机关内部工作、政府机关的网上工作、电子商务、以及其他网上服务行业的需要。

此外，GB 18030还提供了13汉字结构符和一些汉字部件，为某些尚未编码的汉字的解决提供了方案。

不仅如此，GB 18030建立的编码体系提供了超过150万个编码位置的编码空间，为未来增补汉字作了充分准备。

一旦本标准得到实现，类似"镕"字的人名、地名在计算机输入中遇到的困难将越来越少，直至最终完全解决。

2）对GB 2312、GBK和GB 13000的兼容GB 18030通过提供完整、清晰、明确的代码映射表，采用GB 18030的计算机系统可以轻易地识别和处理GB 2312和GBK编码，降低了系统改造/升级的成本。

如果未来需要采用GB 13000，则通GB 18030和GB 13000代码的映射表可以轻松地在二者之间进行转换。

3）对字符编码技术的发展的贡献在现有系统中，字符编码空间十分有限，例如：GBK只提供了23940个编码位置。

GB 18030通过对编码空间的扩展提供了超过160万个编码位置（23949+1587600）。

可以自信地说，不仅我国所有汉字都可以在这个标准里面编码，而且我国所有少数民族文字也可以在这个标准里面编码，从此不必再担心编码空间不足的问题了。

4）对标准的用户自定义区和标准保留区的使用做了明确、详细的规定根据经验，标准或规范的使用者往往误以为标准的用户自定义区和标准保留区可以任意使用，完全自由，因而在标准、规范的实现中自作主张，各按所需使用。

实践证明，这种做法非常危险，造成的后果十分严重。

GB 18030在研制中充分考虑了标准的用户自定义区和标准表留区的问题，明确而详细规定了其使用方法，要求所有标准实现者必须按照标准做，彻底杜绝了类似问题的再次出现。

5）强制性国家标准直到不久之前，还经常有人抱怨编码的汉字太少了，只有GB 2312的6763个汉字，不能满足使用要求。

而此时，收录了20954个汉字的GBK早已发布并在一些操作系统上实现多年了。

经过调查发现：由于GBK 是个行业规范，缺乏足够的强制力，很多软件开发商并不实现这个规范。

而产品的最终用户由于不知道还有这样一个规范，不知道要求软件开发商来实现它。

而GB 18030是个强制性标准，解决了这个问题。

首先，软件开发商不得不重视标准，实现标准。

其次，标准的知名度要大大高于规范的知名度，而强制性标准的知名度更高。

中文软件的最终用户知道了由一个两万七千汉字的标准，就会要求软件开发商来实现。

3、国标码（国家标准代码）国家标准代码，简称国标码，是中国的中文常用汉字编码集，也被新加坡采用。

现在GB 18030 为中国强制性国家标准，但较旧的计算机仍然使用GB 2312 。

较常见的国家汉字标准代码列表：GB 2312-80信息交换用汉字编码字符集基本集（又称为GB0）GB 13000-93信息技术通用多八位编码字符集（UCS）第一部分GB 18030-2005信息技术中文编码字符集其他中华人民共和国发布有关汉字标准代码列表：GB/T 12345 - 90信息交换用汉字编码字符集第一辅助集（又称为GB1）GB/T 7589 - 87信息交换用汉字编码字符集第二辅助集（又称为GB2）GB 13131 - 91信息交换用汉字编码字符集第三辅助集（又称为GB3）GB/T 7590 - 87信息交换用汉字编码字符集第四辅助集（又称为GB4）GB 13132 - 91信息交换用汉字编码字符集第五辅助集（又称为GB5）GB/T 16500 - 1998信息交换用汉字编码字符集第七辅助集国家推荐标准以"/T" 来表示并非强制执行。

由于GB 2312-80只收录了6763个汉字，未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字，所以发布了以上的辅助集。

其中，GB/T 12345-90辅助集是GB 2312-80基本集的繁体字版本；GB 13131-91是GB/T 7589-87的繁体字版本；GB 13132-91是GB/T 7590-87的繁体字版本。

而GB/T 16500-1998是繁体字版本，它并无对应的简体字版本。

鉴于第二辅助集及第四辅助集，有不少汉字均是“类推简化汉字”，实用性不高，因而较少人采用，而且没有收入通用字符集ISO/IEC 10646 标准中。

中国国家标准总局于2000年推出强制性的GB 18030-2000标准。

于2001年8月31日后发布或出厂的产品，必须符合GB 18030-2000的相关要求。

这个标准的最新版本是GB 18030-2005，它的2字节部分是强制性的。

4、BIG5繁体中文字符集Big5，又称为大五码或五大码，是使用繁体中文的地区中常用的电脑汉字字符集标准，共收录13060个汉字，2003年，新版本发布，称为Big5-2003 。

Big5 常用于台湾、香港与澳门等使用繁体中文的地区，倚天中文系统、Windows 等主要系统的字符集都是以Big5 为基准，但厂商又各自增删，衍生成多种不同版本。

中文电脑流行后，由于很多字被认为是异体字而未被收录。

例如常见的人名用字(如“堃”、“煊”、“栢”（歌手张柏芝）、“喆”（歌手陶喆）等)，虽被中文社会广泛采用，也没有收录到Big5 之中。

在互联网上，常看到人们把堃、煊、喆等字，写成为“方方土”、“火宣”和“吉吉”等写法。

电视上日本动画的中文字幕中也会看到像“木坚”这样的字。

由于各厂商及政府推出的Big5 延伸，彼此互不兼容，造成乱码问题。

因为Unicode 能正确地处理七万多个汉字，近年的操作系统和应用程序(如苹果电脑Mac OS X 和以Cocoa API 编写的程序、Microsoft Windows 2000 及之后版本、Microsoft Office 2000 及之后版本、Mozilla 浏览器、Internet Explorer 浏览器、Java 语言等等)，已改用Unicode 编码。

可惜现时仍有一些旧的软件(如Visual Basic 6、部分Telnet 或BBS 软件)，未能支持Unicode 编码，所以预计Big5 缺字的问题仍会困扰用户一段时间，直到所有程序都能改用Unicode 为止。