国家标准《信息技术汉字编码字符集(基本集)-全国信息技术标准化

合集下载

国家标准化管理委员会公告2011年第1号――批准发布410项国家标准目录

国家标准化管理委员会公告2011年第1号――批准发
布410项国家标准目录
文章属性
•【制定机关】国家标准化管理委员会
•【公布日期】2011.01.10
•【文号】国家标准化管理委员会公告2011年第1号
•【施行日期】2011.01.10
•【效力等级】部门规范性文件
•【时效性】现行有效
•【主题分类】标准化
正文
国家标准化管理委员会公告
（2011年第1号）
关于批准发布《紧固件质量保证体系》等410项国家标准的公告国家质量监督检验检疫总局、国家标准化管理委员会批准《紧固件质量保证体系》等410项国家标准，现予以公布。

二〇一一年一月十日附件：。

新闻出版现行语言文字规范标准简介

★采编素养新闻出版交流1997年第2期新闻出版现行语言文字规范标准简介■王铁昆(一)汉字方面1.《简化字总表》该表1964年根据《汉字简化方案》编制,收简化字2236个。

1986年经国务院批准由国家语言文字工作委员会(以下简称国家语委)重新发表,并对其中的个别字作了调整。

调整后的《简化字总表》收简化字2235个,现在以调整后的《总表》为准。

2.《第一批异体字整理表》1955年由原中国文字改革委员会和文化部联合发布,收异体字810组,选用正体字810个,淘汰异体字1055个,其中的“阪、挫、讠斤、讠燕、晔、、诃、、、、、、雠、翦、邱、於、澹、骼、彷、菰、溷、徼、薰、黏、桉、愣、晖、凋”等28个字又被恢复为规范的正体字,所以实际上淘汰的异体字是1027个。

使用《第一批异体字整理表》时,遇到该表与《简化字总表》或《现代汉语通用字表》不一致的,以后两个表为准。

3.《现代汉语常用字表》1988年由国家语委和国家教委联合发布。

该表共收3500字,由常用字(2500字)和次常用字(1000字)两部分组成。

主要用于语文教学、词书编纂以及汉字的信息处理。

4.《现代汉语通用字表》1988年由国家语委和新闻出版署联合发布,共收7000字。

该表依据《印刷通用汉字字形表》(1965年由原中国文字改革委员会和文化部联合发布)确定的字形标准,规定了汉字的字形结构、笔画数和笔顺,系现行印刷标准字形的范本。

《现代汉语通用字表》中包括了《现代汉语常用字表》中的3500字。

5.《部分计量单位名称统一用字表》1977年由原中国文字改革委员会和国家标准计量局联合发布。

该表淘汰了部分旧译名,旧译名中的20个复音字、生僻字也随之淘汰,从而消除了计量单位旧译名中一个汉字读两个以上音节的现象。

6.《信息交换用汉字编码字符集基本集》(GB 3—)年由国家标准局发布,收字663个,简称《基本集》。

7.《信息交换用汉字编码字符集第二辅助集》该表1987年发布,收字7273个,简称《辅二》。

全国信息技术标准化技术委员会工作交流

• 基本原则 – 鼓励自主知识产权纳入标准 – 鼓励优惠许可的技术 – 坚持公开、公正、透明的工作程序 – 与国家政策保持一致，便于专项标准化成果顺利转化为国家标准
• 要点 – 合理无歧视(RAND)/专利池/免费 – 互惠性和防御性 – 早期披露 – 默认许可义务 – 开放性（引用标准、参考实现、测试套件）
SVG VML
中间件
行业中间件
数据集成中间件
流程
中间件
服务集成中间件
门户中间件
…
应用服务器消息中间件事务中间件
嵌入式系统
• 《信息技术词汇嵌入式系统》
• 《嵌入式Linux平台规范》 • 《手持电子产品嵌入式软件API》 • 《移动终端浏览器技术规范》 • 《嵌入式软件质量保证要求》 • 《嵌入式软件质量度量》 • 《嵌入式软件编码规范要求》 • 《嵌入式软件可靠性测试规范》 • 《嵌入式系统系统工程应用及管理》 • 《车用软件开发指南》
SC36
SC1 SC5 SC10 SC11 SC12 SC14 SC21 SC30
WG WG WG WG WG WG WG WG WG WG
词汇
非建盘输入磁盘柔性磁媒体微处理机数据元表示连开放系统互连中文平台
藏文维、哈、柯文蒙文云南少数民族文字无线传感器网络 IT服务 SOA 通用布缆基于射频技术的电子支付技术实时定位系统技术
少数民族语言文字信息技术标准化
1、中国少数民族文字信息技术标准体系已初步建立
–
覆盖文种包括蒙古文、藏文、彝文、维哈柯文、朝鲜文等
–
标准类型包括编码、字型、键盘布局
–
标准数量目前已达到23项
2、构建和完善中国少数民族文字信息技术标准体系意义重大

GBK字库介绍

GBK字库介绍【基本概念】GBK 是又一个汉字编码标准，全称《汉字内码扩展规范》(GBK)，英文名称Chinese Internal Code Specification ，中华人民共和国全国信息技术标准化技术委员会1995 年12 月 1 日制订，国家技术监督局标准化司、电子工业部科技与质量监督司1995 年12 月15 日联合以技监标函[1995] 229 号文件的形式，将它确定为技术规范指导性文件，发布和实施。

这一版的GBK 规范为 1.0 版。

GB 即“国标”，K 是“扩展”的汉语拼音第一个字母。

GBK 向下与GB 2312 编码兼容，向上支持ISO 10646.1 国际标准，是前者向后者过渡过程中的一个承上启下的标准。

ISO 10646 是国际标准化组织ISO 公布的一个编码标准，即Universal Multilpe-Octet Coded Character Set（简称UCS），大陆译为《通用多八位编码字符集》，台湾译为《广用多八位元编码字元集》，它与Unicode 组织的Unicode 编码完全兼容。

ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。

我国1993 年以GB 13000.1 国家标准的形式予以认可（即GB 13000.1 等同于ISO 10646.1）。

GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。

GBK编码方案于1995年10月制定，1995年12月正式发布，目前中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP等都支持GBK编码方案。

新版信息技术中文编码字符集

新版信息技术中文编码字符集信息技术中文编码字符集是用来表示和存储中文字符的一种规范，它是计算机系统中的基础技术之一。

在新版的信息技术中，常用的中文编码字符集有Unicode、GBK、GB18030、UTF-8等。

Unicode是一种全球统一的字符编码标准，其中包含了世界上几乎所有的字符，包括汉字和其他语言的字符。

它的编码空间非常大，可以表示超过100万个字符。

Unicode采用的是16位或32位编码，其中一种常用的编码方式是UTF-16。

GBK是汉字编码字符集，它包含了大部分简体中文字符，并与ASCII编码兼容。

GBK的编码空间比Unicode小，使用了16位编码表示字符。

GBK编码被广泛应用于早期的计算机系统和一些特殊领域。

GB18030是对GBK的扩展，它包含了更多的中文字符，包括繁体中文字符和一些少数民族文字。

GB18030采用了变长编码，根据字符的不同，使用1到4个字节进行编码。

UTF-8是一种可变长度的编码方式，它可以使用1到4个字节表示一个字符。

UTF-8编码的特点是兼容ASCII编码，即ASCII字符使用单个字节表示，而非ASCII字符使用多个字节表示。

UTF-8成为互联网和计算机系统中最常用的中文编码字符集，因为它既可以处理大部分中文字符，也可以处理其他语言的字符。

除了以上几种常用的中文编码字符集，还有一些其他的编码方式，如BIG5、EUC-CN等。

BIG5是繁体中文编码字符集，主要用于台湾和香港地区。

EUC-CN是中国的国家标准，它也使用了变长编码，可以表示几乎所有的中文字符。

在新版信息技术中，Unicode和UTF-8被广泛应用于各种计算机系统和互联网平台。

Unicode提供了全球统一的字符表示方式，而UTF-8提供了高效的存储和传输方式。

根据不同的需求和平台，可以选择合适的中文编码字符集来处理中文字符。

字符集

unicode
Uode编码主要有三种：UTF-8,UCS-2和 UTF-16，三种unicode字符集之间可以按照规范进行转换。由于UTF-32空间浪费比较严重，实际使用中很少用到。
UCS-2
UCS-2是固定长度为16位的unicode字符集。每个字符都是2个字节，UCS-2只支持unicode3.0，所以不支持附加字符。 UCS-2的优点：对于亚洲字符的存储空间需求比UTF-8少，因为每个字符都是2个字节。处理字符的速度比UTF-8更快，因为是固定长度编码的。对于windows和java的支持更好。
UTF-16
UTF-16也是一种16位编码的字符集。实际上， UTF-16就是UCS-2加上附加字符的支持，也就是符合unicode4.0规范的UCS-2。所以UTF-16 是UCS-2的严格超集。 UTF-16中的字符，要么是2个字节，要么是4 个字节表示的。UTF-16主要在windows2000以上版本使用。注：UTF-16存在字节序的问题。
UTF-8
UTF-8使用一至四个字节为每个字符编码： 128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码（Unicode范围由U+0080至U+07FF）。其他基本多文种平面（BMP）中的字符（这包含了大部分常用字）使用三个字节编码。其他极少使用的Unicode辅助平面的字符使用四字节编码。
GB10030
与UTF-8相同，采用多字节编码，每个字可以由1个、2个或4个字节组成。编码空间庞大，最多可定义161万个字符。支持中国国内少数民族的文字，不需要动用造字区。汉字收录范围包含繁体汉字以及日韩汉字

信息技术信息交换用汉字编码字符集基本集的

ICS 35.040 L71
中华人民共和国国家标准
GB 18030— 2000
信息技术信息交换用汉字编码字符集基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set （报批稿）
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分本标准中，单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编码的欧元符号。 5.2 双字节部分本标准中，双字节的部分收录内容如下： GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。汉字数字“〇” 。表意文字描述符 13 个。增补汉字和部首/构件 80 个。双字节编码的欧元符号。 5.3 四字节部分本标准的四字节的部分，收录了上述双字节字符之外的，包括 CJK 统一汉字扩充 A 在内的 GB 13000.1 中的全部字符。总体结构本标准中，采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一个字节均由八位二进制位串组成，任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表示。单字节部分采用 GB 11383 的编码结构与规则，使用 0x00 至 0x80 码位。双字节部分采用两个八位二进制位串表示一个字符，其首字节码位从 0x81 至 0xFE，尾字节码位分别是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为 0x81308130 到 0xFE39FE39。见表 1 及图 1。 6

高中信息技术（Python）重难点2：字符编码

⾼中信息技术（Python）重难点2：字符编码本⽂章原⽂地址：，原⽂体验更佳字符编码在近两年⾼考中分别在20年1⽉、21年1⽉和21年6⽉选择题第4题出现，往往和⼀起出现。

较为重要。

⼀、编码概述编码(Encoding)是信息按照某种规则或格式，从⼀种形式转换为另⼀种形式的过程。

解码是编码的逆过程。

计算机对信息进⾏存储、加⼯、传递等处理，实际上是对信息的载体——数据进⾏处理。

数据的表现形式可以是⽂本、图形、图像、声⾳、视频等，但不管是哪种形式的数据，最终存储在计算机中的都是经过⼀定规则编码后的⼆进制数字。

⼆、ASCII码ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)是⼀套基于拉丁字母的计算机编码系统，主要⽤于显⽰现代英语和其他西欧语⾔。

它由电报码发展⽽来，是现今最通⽤的单字节编码系统。

基本的ASCⅢ码共有128个，⽤1个字节中的低7位编码。

⼆进制范围为000000111111，即⼗六进制的00H~7FH。

基本的ASCⅢ码由33个控制字符、10个阿拉伯数字、26个英⽂⼤写字母、26个英⽂⼩写字母与些标点符号、运算符号组成。

，建议收藏。

常⽤的有空格为32(20H)，'0'为48(30H)，'A'为65(41H)，'a'为97(61H)，'A'与'a'相差32(20H)。

给定⼀个字符，想要获取其ASCII码怎么做呢？可以使⽤Python内置的ord函数，字符型->整型可以⽤ord函数。

对应题⽬为ord()函数ord函数以⼀个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值TZOJ5885参考代码a=input()print(ord(a))若知道ASCII值，能转换为字符吗？可以使⽤Python内置的chr函数，整型->字符型可以⽤chr函数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《信息技术通用多八位编码字符集(基本多文种平面)汉字64点阵字型第1部分：宋体》(征求意见稿)编制说明
1．工作简况
随着信息技术的不断发展，中文信息技术产品所使用硬件设备得到提升，中文信息系统及办公自动化设备对点阵字型出现了新的需求，为了满足中文信息系统对64点阵宋体的需求，根据工业和信息化部“2012年电子行业标准项目计划”的安排，对SJ 11242.1-2001进行修订，项目计划代号为2012-0526Q-SJ，标准名称为《信息技术通用多八位编码字符集（I区）汉字64点阵字型第1部分：宋体》。
本标准由中国电子技术标准化研究院，北京仓颉博雅信息技术有限公司等单位负责修订，标准主要起草人有代红、熊涛等。
根据上级主管部门下达的标准计划任务，由中国电子技术标准化研究院牵头成立了标准编制组和专家组，并制定了详细的标准研究实施方案。中国电子技术标准化研究院主要负责组织协调和标准文本起草，北京仓颉博雅信息技术有限公司负责字型设计，专家组负责字型审查工作。
为适应中文信息处理的发展和国际信息交换及汉字的规范化、标准化需求，在研制汉字字型的过程中，考虑到本标准的使用范围、时间和影响等因素，重点做了以下几个方面的工作：
（1）字形的正确性
常用字以《现代汉语常用字表》和《简化字总表》为依据容易确定，而超出规范字表的一些字在不同的字典里列出的字形不一致，因此，在字形整理时，不仅根据整理汉字字形的规则，还参考已有的标准及《康熙字典》、《汉语大字典》、《中华字海》等工具书，本着不放过任何一个疑问的原则，经过专家组的反复逐字审查讨论确定。
准确：字的笔划规范、偏旁规范、字形规范。
清楚：黑白适中、笔划清晰。
美观：字的结构要端正、大小匀称、组合比例协调，充分体现我国传统汉字各种字体的独特风格，做到“神、形”兼顾。
3．与我国有关的现行法律、法规及相关强制性标准的关系
标准是为配合编码字符集强制性国家标准GB13000-2010《通用多八位编码字符集(UCS)》的使用而制定的，本标准依据GB13000-2010编码字符集基本多文种平面中CJK统一汉字及其扩充A规定的27484个汉字图形字符设计了64点阵宋体字型，字汇和字序与GB 13000-2010的相关规定保持一致。本标准规定的点阵字型还适用于GB18030—2005《信息技术中文编码字符集》的汉字强制部分，并在字汇上满足GB 18030-2005强制部分的汉字要求。
（2）规范性
虽然国家早已公布了规范字表，但是实际应用中，如报刊、杂志、书籍，甚至个别字典中，仍然有不规范的字出现。在设计和整理字形时，对每个字的字形结构、笔画数、笔形等方面做到准确、规范。为此查证了大量的资料，并进行了多次研究，特别对那些容易出错的字和笔形进行了重点检查。在字形保证准确的前提下，整个字库要做到规范，相同的部件尽量统一，防止出现前后矛盾。
（2）汉字的正形
根据GB 13000中所提供的CJK统一汉字扩充A的汉字有6582个，其中G列的汉字是由我国提出。为了适应信息处理的发展和国际交流的需要，对G列空缺汉字采用了其他国家和地区相应的字形，并按照字形规范化的要求进行了整理和设计。
（3）重码字的处理
本标准对重码的汉字字形进行处理，原则上保留原字形，对有些字的笔形与旧笔形不同的地方做了部分修改。
（3）美观性
由于本标准收字多、字形结构复杂，繁笔字占的比例大，加上点阵数的限制，对字型设计增加了难度。为了保证整副字质量，在字形设计时，对字的结构特征做了分类，结合人们的视觉因素和阅读效率，在进行实验对比的基础上，使整副字达到结构端正、大小一致、排列整齐、字形清晰。
6、问题说明
在本标准编制过程中，有许多有关汉字字形共性的问题和一些字的个性问题需要一一解决。
（1）标准名称的变更
本标准原名称为《信息技术通用多八位编码字符集（I区）汉字64点阵字型第1部分：宋体》，本次标准修订在原标准所规定的20902个汉字（GB 13000基本多文种平面中CJK统一汉字部分）基础上，增加了GB 13000基本多文种平面中扩充A的6582个汉字，汉字总数达到27484个，即包括了GB 13000基本多文种平面中的全部汉字。为与其他字型标准名称保持一致，经标准编制组与有关专家协商，本标准名称修改为《信息技术通用多八位编码字符集（基本多文种平面）汉字64点阵字型第1部分：宋体》。
按照标准实施方案的要求，标准编制组于2013年8月底前，分批提供了64×64点阵宋体字型的设计初稿，并将字型设计初稿提供给字型专家审查，在设计点阵字型时对有疑问的字进行查证讨论，做到每个字的修改确定有据可查，根据字型专家提出的修改意见，标准编制组对字型设计初稿进行修改，于2013年12月底前完成了对字型设计初稿的修改整理。在对字型设计稿修改的同时，标准编制组还进行了标准文本的修订工作，2013年12月完成了标准征求意见稿。现将标准征求意见稿提供给各位专家，请对标准征求意见稿提出修改意见。
SJ 11242.1-2001制定时间较早，参照的编码字符集标准为GB 13000的1993版本（即GB 13000.1-1993），当时GB 13000.1-1993只收入了GB 13000-2010基本多文种平面中CJK统一汉字的20902个汉字，远不能满足中文信息处理的需要。随着GB 18030-2005及GB 13000-2010在信息技术产品中的广泛使用，本标准汉字数不够的问题日益严重，为此推动了本标准的修订。本标准是在SJ 11242.1-2001的基础上，增加了GB 13000-2010基本多文种平面中扩充集A的6582个汉字，汉字总数达到27484个
7、有关标准的废止
本标准是对SJ 11242.1-2001的修订，本标准发布实施后代替SJ 11242.1-2001。
8、标准使用过渡期
本标准主要适用于各种电子信息技术产品、各种数字化产品，鉴于电子信息产品具有一定的开发周期，建议本标准过渡期为一年。
标Байду номын сангаас编制组
2014年5月
4、国外相关法律、法规和标准情况的说明
由于汉字相比其他文字，不单字符数量巨大，而且汉字笔画繁复多样，为保证我国社会用字的正确性及保持我国汉字文化特色，国家有关部门制定了一批汉字使用的法律法规，汉字点阵字型标准是这些汉字使用法律法规在信息技术领域的具体体现，目前暂未有与之相对应的国际标准。
5、编制内容
本标准依据GB13000-2010基本多文种平面中CJK统一汉字及其扩充集A和GB 18030-2005汉字强制部分规定的27484个汉字图形字符设计了64点阵宋体字型。
本标准编制的原则是要求以我国印刷用宋体字形为摹本进行字体创作，并要充分利用64×64点阵栅格进行设计，要求足格清晰、准确。对点阵字的设计满足如下要求：
2．标准主要技术内容和标准编制原则
本标准依据国家标准GB 13000-2010基本多文种平面中CJK统一汉字及其扩充集A规定的内容和编码顺序制定，汉字的位置与GB 13000-2010基本多文种平面中CJK统一汉字及其扩充集A中的编码位置相对应，字形依照1965年1月30日中华人民共和国文化部、中国文字改革委员会发布的《印刷通用汉字字形表》、1988年3月25日国家语言文字工作委员会、中华人民共和国新闻出版署发布的《现代汉语通用字表》和2013年6月18日中华人民共和国国务院发布的《通用规范汉字表》而设计，以确保字形的准确性与规范化。