utf32编码表

合集下载

Unicode字符编码表

Unicode字符编码表

注:除非有特别指明,否则以下符号皆属“半角”而非“全角”。

代码显示描述U+0020 空格U+0021 ! 叹号U+0022 " 双引号U+0023 # 井号U+0024 $ 价钱/货币符号U+0025 % 百分比符号U+0026 & 英文“and”的简写符号U+0027 ' 引号U+0028 ( 开圆括号U+0029 ) 关圆括号U+002A * 星号U+002B + 加号U+002C , 逗号U+002D - 连字号/减号U+002E . 句号U+002F / 由右上至左下的斜线U+0030 0 数字0U+0031 1 数字1U+0032 2 数字2U+0033 3 数字3U+0034 4 数字4U+0035 5 数字5U+0036 6 数字6U+0037 7 数字7U+0038 8 数字8U+0039 9 数字9U+003A : 冒号U+003B ; 分号U+003C < 小于符号U+003D = 等于号U+003E > 大于符号U+003F ? 问号U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母AU+0043 C 拉丁字母CU+0044 D 拉丁字母DU+0045 E 拉丁字母EU+0046 F 拉丁字母FU+0047 G 拉丁字母GU+0048 H 拉丁字母HU+0049 I 拉丁字母IU+004A J 拉丁字母JU+004B K 拉丁字母KU+004C L 拉丁字母LU+004D M 拉丁字母MU+004E N 拉丁字母NU+004F O 拉丁字母OU+0050 P 拉丁字母PU+0051 Q 拉丁字母QU+0052 R 拉丁字母RU+0053 S 拉丁字母SU+0054 T 拉丁字母TU+0055 U 拉丁字母UU+0056 V 拉丁字母VU+0057 W 拉丁字母WU+0058 X 拉丁字母XU+0059 Y 拉丁字母YU+005A Z 拉丁字母ZU+005B [ 开方括号U+005C \ 由左上至右下的斜线U+005D ] 关方括号U+005E ^ 抑扬(重音)符号U+005F _ 底线U+0060 ` 重音符U+0061 a 拉丁字母aU+0062 b 拉丁字母bU+0063 c 拉丁字母cU+0064 d 拉丁字母dU+0065 e 拉丁字母eU+0067 g 拉丁字母gU+0068 h 拉丁字母hU+0069 i 拉丁字母iU+006A j 拉丁字母jU+006B k 拉丁字母kU+006C l 拉丁字母l(L的小写)U+006D m 拉丁字母mU+006E n 拉丁字母nU+006F o 拉丁字母oU+0070 p 拉丁字母pU+0071 q 拉丁字母qU+0072 r 拉丁字母rU+0073 s 拉丁字母sU+0074 t 拉丁字母tU+0075 u 拉丁字母uU+0076 v 拉丁字母vU+0077 w 拉丁字母wU+0078 x 拉丁字母xU+0079 y 拉丁字母yU+007A z 拉丁字母zU+007B { 开卷曲括号U+007C | 直棒U+007D } 关卷曲括号U+007E ~ 波浪纹拉丁字母-1代码显示描述U+00A1 ? 倒转的叹号U+00A2 ? (货币单位)分钱、毫子U+00A3 ? (货币)英镑U+00A4 ¤(货币)当货币未有符号时以此替代U+00A5 ? (货币)日圆U+00A6 ? 两条断开的直线U+00A7 §文件分不同部分U+00A8 ¨(语言)分音U+00A9 ? 版权符U+00AA ? (意大利文、葡萄牙文、西班牙文)阴性序数U+00AB ? 双重角形引号U+00AC ? 逻辑非U+00AE ?? 商标U+00AF ? 长音U+00B0 °角度U+00B1 ±正负号U+00B2 ? 二次方U+00B3 ? 三次方U+00B4 ? 锐音符U+00B5 ? 百万分之一,10?6U+00B6 ? 文章分段U+00B7 ·间隔号U+00B8 ? 软音符U+00B9 ? 一次方U+00BA ? (意大利文、葡萄牙文、西班牙文)阳性序数U+00BB ? 指向右的双箭头U+00BC ? 四分之一U+00BD ? 二分之一U+00BE ? 四分之三U+00BF ? 倒转的问号U+00C1 ? 在拉丁字母A 上加重音符U+00C2 ? 在拉丁字母A 上加抑扬符“^”U+00C3 ? 在拉丁字母A 上加“~”U+00C4 ? 在拉丁字母A 上加分音符“..”U+00C5 ? 在拉丁字母A 上加角度符“°”U+00C6 ? 拉丁字母A、E 的混合U+00C7 ? 在拉丁字母C 下加软音符U+00C8 ? 在拉丁字母E 上加重音符U+00C9 ? 在拉丁字母E 上加锐音符U+00CA ? 在拉丁字母E 上加抑扬符U+00CB ? 在拉丁字母E 上加分音符U+00CC ? 在拉丁字母I 上加重音符U+00CD ? 在拉丁字母I 上加锐音符U+00CE ? 在拉丁字母I 上加抑扬符U+00D0 ? 古拉丁字母?,现只有法罗文和冰岛文使用U+00D1 ? 在拉丁字母N 上加波浪纹“~”U+00D2 ? 在拉丁字母O 上加锐音符U+00D3 ? 在拉丁字母O 上加重音符U+00D4 ? 在拉丁字母O 上加抑扬符U+00D5 ? 在拉丁字母O 上加波浪纹“~”U+00D6 ? 在拉丁字母O 上加分音符U+00D7 ×乘号,亦可拖按“Alt”键,同时按“41425”五键U+00D8 ? 在拉丁字母O 由右上至左下加对角斜线“/”U+00D9 ? 在拉丁字母U 上加重音符U+00DA ? 在拉丁字母U 上加锐音符U+00DB ? 在拉丁字母U 上加抑扬符U+00DC ? 在拉丁字母U 上加分音符U+00DD ? 在拉丁字母Y 上加锐音符U+00DE ? 古拉丁字母?,现已被“Th”取替U+00DF ? 德文字母?U+00E0 à在拉丁字母a 上加重音符U+00E1 á在拉丁字母a 上加锐音符U+00E2 ? 在拉丁字母a 上加抑扬符U+00E3 ? 在拉丁字母a 上加波浪纹“~”U+00E4 ? 在拉丁字母a 上加分音符U+00E5 ? 在拉丁字母a 上加角度符“°”U+00E6 ? 拉丁字母a、e 的混合U+00E7 ? 在拉丁字母c 上加软音符U+00E8 è在拉丁字母e 上加锐音符U+00E9 é在拉丁字母e 上加重音符U+00EA ê在拉丁字母e 上加抑扬符U+00EB ? 在拉丁字母e 上加分音符U+00EC ì在拉丁字母i 上加重音符U+00ED í在拉丁字母i 上加锐音符U+00EE ? 在拉丁字母i 上加抑扬符U+00EF ? 在拉丁字母i 上加分音符U+00F0 ? 古拉丁字母?的小写U+00F1 ? 在拉丁字母n 上加波浪纹“~”U+00F2 ò在拉丁字母o 上加重音符U+00F4 ? 在拉丁字母o 上加抑扬符U+00F5 ? 在拉丁字母o 上加波浪纹“~”U+00F6 ? 在拉丁字母o 上加分音符U+00F7 ÷除号,亦可拖按“Alt”键,同时按“41426”五键U+00F8 ? 在拉丁字母o 由右上至左下加对角斜线“/”U+00F9 ù在拉丁字母u 上加重音符U+00FA ú在拉丁字母u 上加锐音符U+00FB ? 在拉丁字母u 上加抑扬符U+00FC ü在拉丁字母u 上加分音符U+00FD ? 在拉丁字母u 上加锐音符U+00FE ? 古拉丁字母?,现已被“th”取替U+00FF ? 在拉丁字母u 上加分音符拉丁字母(扩展A)代码显示描述U+0100 ? 在拉丁字母A 上加长音符U+0101 ā 在拉丁字母a 上加长音符U+0102 ? 在拉丁字母A 上加短音符U+0103 ? 在拉丁字母a 上加短音符U+0104 ? 在拉丁字母A 上加反尾形符U+0105 ? 在拉丁字母a 上加反尾形符拉丁字母(扩展C)代码显示描述U+2C60 ? 在拉丁字母“L”中间加两条横线“=”U+2C61 ? 在拉丁字母“l”(L 的小写)中间加一条横线“-”U+2C62 ? 在拉丁字母“L”(大写)中间加一条波浪线“~”U+2C63 ? 在拉丁字母“P”中间加一条横线“-”U+2C64 ? 在拉丁字母“R”下加一条尾巴U+2C65 ? 在拉丁字母“a”上加一条对角斜线“/”U+2C66 ? 在拉丁字母“t”上加一条对角斜线“/”U+2C67 ? 在拉丁字母“H”下加一条尾巴U+2C68 ? 在拉丁字母“h”下加一条尾巴U+2C69 ? 在拉丁字母“K”下加一条尾巴U+2C6A ? 在拉丁字母“k”下加一条尾巴U+2C6B ? 在拉丁字母“Z”下加一条尾巴U+2C6C ? 在拉丁字母“z”下加一条尾巴U+2C74 ? 在拉丁字母“v”的起笔加一个弯勾U+2C75 ? 拉丁字母“H”的左半部U+2C76 ? 拉丁字母“h”的左半部U+2C77 ? 希腊字母“φ”的上半部彝文字母拉丁字母(扩展D)代码显示描述U+A720 ? 强调音调音昂的改造字母U+A721 ? 强调音调低沉的改造字母特殊代码显示描述U+FFFC 取代无法显示字符的“OBJ”U+FFFD ? 无法显示的字符以它取代Unicode 编码表Unicode 编码表BMP SMP SIP SSP0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF 3000—3FFF B000—BFFF 23000—23FFF4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF6000—6FFF E000—EFFF 26000—26FFF7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF盲文图案。

unicode编码详解,一看就懂

unicode编码详解,一看就懂

unicode编码详解,⼀看就懂⼀、Unicode编码1 UTF-8 -16 -32编码和Unicode编码 Unicode编码是⼀种计算机字符编码标准,其实个⼈认为叫字符集更为准确;⽽我们熟悉的UTF-8 UTF-16 UTF-32是Unicode的具体实现(怎么存储在计算机)。

1)Unicode编码规范制定标准: 把世界上所有能出现的字符,都为其分配⼀个数字来表⽰,⽐如,数字U+7F57被分配给了汉字中的"罗"字。

Unicode编码的标准⾥字符数量⼀直实在新增(包括⼀些稀有字符,当然emoji表情字符也属于unicode编码哈哈),19年3⽉刚发布了Unicode12.0版本,⽐之前的版本新增了⼀些字符,现在在标准中的字符⼀共有137929个,⽽Unicode编码⽬前规划了U+0000⾄U+10FFFF为unicode编码(以世界上字符的数量应该是很久不会考虑扩展的),算⼀下⽬前还剩下976183(1114112-137929)个代码点,这976183个代码点是规划在unicode中的数字,但是还没被分配对应的字符。

2)UTF-8编码: UTF-8可以说是当前互联⽹最常⽤的编码格式了,它基于Unicode字符集进⾏编码设计。

它最⼤的特点是变长字节的编码设计,⼀个字符最长4个字节,最少1个字节,⼤部分的中⽂字符占3个字节。

编码规则如下: 1.⽤⼀个字节表⽰的字符,第⼀位设为 0,后⾯的 7 位对应这个字符的 Unicode 码点。

由于这128个字符的unicode完全对照ASCII码,可以说完全向下兼容ASCII码。

即ASCII编码的⽂件可以⽤UTF-8打开⽽不乱码; 2.⽤⼀个字节以上表⽰的字符,假设是N个字节表⽰这个字符:则该字符第⼀个字节的前N位都为1,第N+1位为0,剩下的N-1个字节的前两位都设为10,剩下没有主动设值的位置则使⽤这个字符的Unicode⼆进制代码点从低位到⾼位填充,不够⽤0补⾜。

计算机常见编码

计算机常见编码

计算机常见编码一.有关编码的基础知识1.位bit最小的单元字节byte机器语言的单位1byte=8bit1KB=1024byte1MB=1024KB1GB=1024MB2.二进制binary 八进制octal十进制decimal十六进制he某3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。

字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。

字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。

计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

二.常见字符集的编码介绍:常见的字符集有:ASCII字符集,GB2312字符集,BIG5字符集,GB18030字符集,Unicode字符集,下面一一介绍:1.ASCII字符集:定义:美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。

包含内容:控制字符(回车键,退格,换行键等)可显示字符(英文大小写,阿拉伯数字,西文符号)扩展字符集(表格符号,计算符号,希腊字母,拉丁符号)编码方式:第0-31号及127号是控制字符或通讯专用字符;第32-126号是字符,其中48-57号为0-9十个阿拉伯数字,65-90号为26个大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号,运算符号等。

在计算机存储单元中,一个ASCII码值占一个字节(8个二进制位),最高位是用作奇偶检验位。

【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。

】奇偶校验分为奇校验和偶校验。

奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1;偶校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1。

2.GB2312字符集:定义:信息交换用汉字编码字符集。

几种常见 字符编码详解

几种常见 字符编码详解

编程综合blog.minidx./2021/10/22/1570.htmlblog.minidx./2021/11/06/1607.htmlblog.minidx./2021/12/06/1689.htmlblog.minidx./2021/12/09/1700.html摘录1:GBK范围:1st byte | 2nd byte0×81~0xfe | 0×40~0×7e and 0×80~0xfeBIG5范围:1st byte | 2nd byte0×81~0xfe | 0×40~0×7e and 0xa1~0xfe下面是来自libiconv的关于GBK〔cp936〕和BIG5〔cp950〕的两段代码,相信还是相当有用的。

摘录2:一预备知识1,字符:字符是抽象的最小文本单位。

它没有固定的形状〔可能是一个字形〕,而且没有值。

“A〞是一个字符,“€〞〔德国、法国和许多其他欧洲国家通用货币的标志〕也是一个字符。

“中〞“国〞这是两个汉字字符。

字符仅仅代表一个符号,没有任何实际值的意义。

2,字符集:字符集是字符的集合。

例如,汉字字符是中国人最先创造的字符,在中文、日文、韩文和越南文的书写中使用。

这也说明了字符和字符集之间的关系,字符组成字符集〔iso8859-1,GB2312/GBK,unicode〕。

3,代码点:字符集中的每个字符都被分配到一个“代码点〞。

每个代码点都有一个特定的唯一数值,称为标值。

该标量值通常用十六进制表示。

4,代码单元:在每种编码形式中,代码点被映射到一个或多个代码单元。

“代码单元〞是各个编码方式中的单个单元。

代码单元的大小等效于特定编码方式的位数:UTF-8 :UTF-8 中的代码单元由 8 位组成;在 UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。

代码点将被映射到一个、两个、三个或四个代码单元;UTF-16 :UTF-16 中的代码单元由 16 位组成;UTF-16 的代码单元大小是 8 位代码单元的两倍。

【免费下载】Unicode字符编码表

【免费下载】Unicode字符编码表

注:除非有特别指明,否则以下符号皆属“半角”而非“全角”。

代码显示描述U+0020 空格U+0021 ! 叹号U+0022 " 双引号U+0023 # 井号U+0024 $ 价钱/货币符号U+0025 % 百分比符号U+0026 & 英文“and”的简写符号U+0027 ' 引号U+0028 ( 开圆括号U+0029 ) 关圆括号U+002A * 星号U+002B + 加号U+002C , 逗号U+002D - 连字号/减号U+002E . 句号U+002F / 由右上至左下的斜线U+0030 0 数字0U+0031 1 数字1U+0032 2 数字2U+0033 3 数字3U+0034 4 数字4U+0035 5 数字5U+0036 6 数字6U+0037 7 数字7U+0038 8 数字8U+0039 9 数字9U+003A : 冒号U+003B ; 分号U+003C < 小于符号U+003D = 等于号U+003E > 大于符号U+003F ? 问号U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母AU+0043 C 拉丁字母CU+0044 D 拉丁字母DU+0045 E 拉丁字母EU+0046 F 拉丁字母FU+0047 G 拉丁字母GU+0048 H 拉丁字母HU+0049 I 拉丁字母IU+004A J 拉丁字母JU+004B K 拉丁字母KU+004C L 拉丁字母LU+004D M 拉丁字母MU+004E N 拉丁字母NU+004F O 拉丁字母OU+0050 P 拉丁字母PU+0051 Q 拉丁字母QU+0052 R 拉丁字母RU+0053 S 拉丁字母SU+0054 T 拉丁字母TU+0055 U 拉丁字母UU+0056 V 拉丁字母VU+0057 W 拉丁字母WU+0058 X 拉丁字母XU+0059 Y 拉丁字母YU+005A Z 拉丁字母ZU+005B [ 开方括号U+005C \ 由左上至右下的斜线U+005D ] 关方括号U+005E ^ 抑扬(重音)符号U+005F _ 底线U+0060 ` 重音符U+0061 a 拉丁字母aU+0062 b 拉丁字母bU+0063 c 拉丁字母cU+0064 d 拉丁字母dU+0065 e 拉丁字母eU+0067 g 拉丁字母gU+0068 h 拉丁字母hU+0069 i 拉丁字母iU+006A j 拉丁字母jU+006B k 拉丁字母kU+006C l 拉丁字母l(L的小写)U+006D m 拉丁字母mU+006E n 拉丁字母nU+006F o 拉丁字母oU+0070 p 拉丁字母pU+0071 q 拉丁字母qU+0072 r 拉丁字母rU+0073 s 拉丁字母sU+0074 t 拉丁字母tU+0075 u 拉丁字母uU+0076 v 拉丁字母vU+0077 w 拉丁字母wU+0078 x 拉丁字母xU+0079 y 拉丁字母yU+007A z 拉丁字母zU+007B { 开卷曲括号U+007C | 直棒U+007D } 关卷曲括号U+007E ~ 波浪纹拉丁字母-1代码显示描述U+00A1 ? 倒转的叹号U+00A2 ? (货币单位)分钱、毫子U+00A3 ? (货币)英镑U+00A4 ¤ (货币)当货币未有符号时以此替代U+00A5 ? (货币)日圆U+00A6 ? 两条断开的直线U+00A7 § 文件分不同部分U+00A8 ¨ (语言)分音U+00A9 ? 版权符U+00AA ? (意大利文、葡萄牙文、西班牙文)阴性序数U+00AB ? 双重角形引号U+00AC ? 逻辑非U+00AE ?? 商标U+00AF ? 长音U+00B0 ° 角度U+00B1 ± 正负号U+00B2 ? 二次方U+00B3 ? 三次方U+00B4 ? 锐音符U+00B5 ? 百万分之一,10?6U+00B6 ? 文章分段U+00B7 · 间隔号U+00B8 ? 软音符U+00B9 ? 一次方U+00BA ? (意大利文、葡萄牙文、西班牙文)阳性序数U+00BB ? 指向右的双箭头U+00BC ? 四分之一U+00BD ? 二分之一U+00BE ? 四分之三U+00BF ? 倒转的问号U+00C1 ? 在拉丁字母A 上加重音符U+00C2 ? 在拉丁字母A 上加抑扬符“^”U+00C3 ? 在拉丁字母A 上加“~”U+00C4 ? 在拉丁字母A 上加分音符“..”U+00C5 ? 在拉丁字母A 上加角度符“°”U+00C6 ? 拉丁字母A、E 的混合U+00C7 ? 在拉丁字母C 下加软音符U+00C8 ? 在拉丁字母E 上加重音符U+00C9 ? 在拉丁字母E 上加锐音符U+00CA ? 在拉丁字母E 上加抑扬符U+00CB ? 在拉丁字母E 上加分音符U+00CC ? 在拉丁字母I 上加重音符U+00CD ? 在拉丁字母I 上加锐音符U+00CE ? 在拉丁字母I 上加抑扬符U+00D0 ? 古拉丁字母?,现只有法罗文和冰岛文使用U+00D1 ? 在拉丁字母N 上加波浪纹“~”U+00D2 ? 在拉丁字母O 上加锐音符U+00D3 ? 在拉丁字母O 上加重音符U+00D4 ? 在拉丁字母O 上加抑扬符U+00D5 ? 在拉丁字母O 上加波浪纹“~”U+00D6 ? 在拉丁字母O 上加分音符U+00D7 × 乘号,亦可拖按“Alt”键,同时按“41425”五键U+00D8 ? 在拉丁字母O 由右上至左下加对角斜线“/” U+00D9 ? 在拉丁字母U 上加重音符U+00DA ? 在拉丁字母U 上加锐音符U+00DB ? 在拉丁字母U 上加抑扬符U+00DC ? 在拉丁字母U 上加分音符U+00DD ? 在拉丁字母Y 上加锐音符U+00DE ? 古拉丁字母?,现已被“Th”取替U+00DF ? 德文字母?U+00E0 à 在拉丁字母a 上加重音符U+00E1 á 在拉丁字母a 上加锐音符U+00E2 ? 在拉丁字母a 上加抑扬符U+00E3 ? 在拉丁字母a 上加波浪纹“~”U+00E4 ? 在拉丁字母a 上加分音符U+00E5 ? 在拉丁字母a 上加角度符“°”U+00E6 ? 拉丁字母a、e 的混合U+00E7 ? 在拉丁字母c 上加软音符U+00E8 è 在拉丁字母e 上加锐音符U+00E9 é 在拉丁字母e 上加重音符U+00EA ê 在拉丁字母e 上加抑扬符U+00EB ? 在拉丁字母e 上加分音符U+00EC ì 在拉丁字母i 上加重音符U+00ED í 在拉丁字母i 上加锐音符U+00EE ? 在拉丁字母i 上加抑扬符U+00EF ? 在拉丁字母i 上加分音符U+00F0 ? 古拉丁字母?的小写U+00F1 ? 在拉丁字母n 上加波浪纹“~”U+00F2 ò 在拉丁字母o 上加重音符U+00F4 ? 在拉丁字母o 上加抑扬符U+00F5 ? 在拉丁字母o 上加波浪纹“~”U+00F6 ? 在拉丁字母o 上加分音符U+00F7 ÷ 除号,亦可拖按“Alt”键,同时按“41426”五键U+00F8 ? 在拉丁字母o 由右上至左下加对角斜线“/”U+00F9 ù 在拉丁字母u 上加重音符U+00FA ú 在拉丁字母u 上加锐音符U+00FB ? 在拉丁字母u 上加抑扬符U+00FC ü 在拉丁字母u 上加分音符U+00FD ? 在拉丁字母u 上加锐音符U+00FE ? 古拉丁字母?,现已被“th”取替U+00FF ? 在拉丁字母u 上加分音符拉丁字母(扩展A)代码显示描述U+0100 ? 在拉丁字母A 上加长音符U+0101 ā在拉丁字母a 上加长音符U+0102 ? 在拉丁字母A 上加短音符U+0103 ? 在拉丁字母a 上加短音符U+0104 ? 在拉丁字母A 上加反尾形符U+0105 ? 在拉丁字母a 上加反尾形符拉丁字母(扩展C)代码显示描述U+2C60 ? 在拉丁字母“L”中间加两条横线“=”U+2C61 ? 在拉丁字母“l”(L 的小写)中间加一条横线“-” U+2C62 ? 在拉丁字母“L”(大写)中间加一条波浪线“~” U+2C63 ? 在拉丁字母“P”中间加一条横线“-”U+2C64 ? 在拉丁字母“R”下加一条尾巴U+2C65 ? 在拉丁字母“a”上加一条对角斜线“/”U+2C66 ? 在拉丁字母“t”上加一条对角斜线“/”U+2C67 ? 在拉丁字母“H”下加一条尾巴U+2C68 ? 在拉丁字母“h”下加一条尾巴U+2C69 ? 在拉丁字母“K”下加一条尾巴U+2C6A ? 在拉丁字母“k”下加一条尾巴U+2C6B ? 在拉丁字母“Z”下加一条尾巴U+2C6C ? 在拉丁字母“z”下加一条尾巴U+2C74 ? 在拉丁字母“v”的起笔加一个弯勾U+2C75 ? 拉丁字母“H”的左半部U+2C76 ? 拉丁字母“h”的左半部U+2C77 ? 希腊字母“φ”的上半部彝文字母拉丁字母(扩展D)代码显示描述U+A720 ? 强调音调音昂的改造字母U+A721 ? 强调音调低沉的改造字母特殊代码显示描述U+FFFC 取代无法显示字符的“OBJ”U+FFFD ? 无法显示的字符以它取代Unicode 编码表Unicode 编码表BMP SMP SIP SSP0000—0FFF 8000—8FFF 10000—10FFF 20000—20FFF 28000—28FFF E0000—E0FFF1000—1FFF 9000—9FFF 21000—21FFF 29000—29FFF2000—2FFF A000—AFFF 12000—12FFF 22000—22FFF 2A000—2AFFF 3000—3FFF B000—BFFF 23000—23FFF4000—4FFF C000—CFFF 24000—24FFF 2F000—2FFFF5000—5FFF D000—DFFF 1D000—1DFFF 25000—25FFF6000—6FFF E000—EFFF 26000—26FFF7000—7FFF F000—FFFF 1F000—1FFFF 27000—27FFF盲文图案。

常用编码方式及其格式转换

常用编码方式及其格式转换

常用编码方式及其格式转换编码方法是在传输信息的过程中用来转换信息的格式,以使信息在不同的系统之间进行交换、传递和接收。

编码方式是计算机交互的重要基础,在计算机中,许多不同形式和格式的文本、图像、音频等数据都需要编码才能传送或者存储。

本文将介绍一些常用的编码方式及其格式转换。

第一种常用的编码方式是ASCII码,它是American Standard Code for Information Interchange的缩写,是计算机通信的一种重要基础。

ASCII码是由8位二进制数组成的,通常表示128个字符,这些字符包括大小写字母、数字、标点符号以及特殊字符。

ASCII码的特点是它只能表示英文字符,不能用来表示非英文字符,也就是说,它不能用来表示汉字、日文等。

同时,ASCII码中的字符只能是单字节,也就是说,一个字符占用一个字节。

另一种常用的编码方式是Unicode码,它是一种国际标准编码,它将字符编码为32位或64位的Unicode字符,其特点是编码表中可以表示约64000种字符,因此,不仅能表示英文字符,还能表示汉字、日文、韩文等多种语言的字符。

因此,在编码上,Unicode具有通用性,能够在不同的系统之间正确传输和显示,并具有良好的跨语言性能。

最后,一种常用的编码方式是UTF-8码,它是Unicode字符的一种变体,是一种可伸缩编码,它可以用一到四个字节表示一个字符,其编码思想是最多可以用4个字节存储每个Unicode字符,因此,UTF-8编码能够与所有Unicode字符交互,同时兼容ASCII码,支持多种语言字符,因此它是当今Internet上的一种普遍的字符编码方式。

不同的编码方式可以相互转换,其中最常用的转换是ASCII码转换成Unicode码,一般使用的方法是调用系统函数进行实现,也可以使用特殊的编码转换工具,比如Notepad++,这样可以更加快速地完成编码转换。

而UTF-8编码则可以不经过转换,直接从ASCII码中解码,也可以从Unicode码中编码。

Unicode字符编码表

Unicode字符编码表⼗进制⼗六进制字符数编码分类(中⽂)编码分类(英⽂)起始终⽌起始终⽌(个)01270000007F128C0 Control and Basic Latin 128255008000FF128C1 Control and Latin 1 Supplement 2563830100017F128Latin Extended-A 3845910180024F208Latin Extended-B592687025002AF96IPA Extensions68876702B002FF80Spacing Modifiers 7688790300036F112Combining Diacritics Marks 8801023037003FF144Greek and Coptic 10241279040004FF256Cyrillic128013270500052F48Cyrillic Supplement 132814*********F96Armenian14241535059005FF112Hebrew15361791060006FF256Arabic179218710700074F80Syriac187219190750077F48Arabic Supplement 19201983078007BF64Thaana1984204707C007FF64N'Ko204821430800085F96Avestan and Pahlavi 214421750860087F32Mandaic21762223088008AF48Samaritan230424310900097F128Devanagari24322559098009FF128Bengali256026870A000A7F128Gurmukhi268828150A800AFF128Gujarati281629430B000B7F128Oriya294430710B800BFF128Tamil307231990C000C7F128Telugu320033270C800CFF128Kannada332834550D000D7F128Malayalam345635830D800DFF128Sinhala358437110E000E7F128Thai371238390E800EFF128Lao384040950F000FFF256Tibetan409642551000109F160Myanmar4256435110A010FF96Georgian43524607110011FF256Hangul Jamo 460849911200137F384Ethiopic499250231380139F32Ethiopic Supplement 5024511913A013FF96Cherokee512057591400167F640Unified Canadian Aboriginal Syllabics 576057911680169F32Ogham5792588716A016FF96Runic588859191700171F32Tagalog592059511720173F32Hanunóo595259831740175F32Buhid598460151760177F32Tagbanwa60166143178017FF128Khmer60166143178017FF128Khmer61446319180018AF176Mongolian6320639918B018FF80Cham640064791900194F80Limbu648065271950197F48Tai Le65286623198019DF96New Tai Lue6624665519E019FF32Kmer Symbols665666871A001A1F32Buginese668867511A201A5F64Batak678468951A801AEF112Lanna691270391B001B7F128Balinese704070881B801BB049Sundanese710471671BC01BFF64Pahawh Hmong716872471C001C4F80Lepcha724872951C501C7F48Ol Chiki729673911C801CDF96Meithei/Manipuri742475511D001D7F128Phonetic Extensions755276151D801DBF64Phonetic Extensions Supplement 761676791DC01DFF64Combining Diacritics Marks Supplement 768079351E001EFF256Latin Extended Additional 793681911F001FFF256Greek Extended 819283032000206F112General Punctuation 830483512070209F48Superscripts and Subscripts 8352839920A020CF48Currency Symbols8400844720D020FF48Combining Diacritics Marks for Symbols 844885272100214F80Letterlike Symbols 852885912150218F64Number Form85928703219021FF112Arrows87048959220022FF256Mathematical Operator 89609215230023FF256Miscellaneous Technical 921692792400243F64Control Pictures 928093112440245F32Optical Character Recognition 93129471246024FF160Enclosed Alphanumerics 947295992500257F128Box Drawing960096312580259F32Block Element9632972725A025FF96Geometric Shapes 97289983260026FF256Miscellaneous Symbols 998410175270027BF192Dingbats101761022327C027EF48Miscellaneous Mathematical Symbols-A 102241023927F027FF16Supplemental Arrows-A 1024010495280028FF256Braille Patterns 10496106232900297F128Supplemental Arrows-B1062410751298029FF128Miscellaneous Mathematical Symbols-B 10752110072A002AFF256Supplemental Mathematical Operator11008112632B002BFF256Miscellaneous Symbols and Arrows 11264113592C002C5F96Glagolitic11360113912C602C7F32Latin Extended-C11392115192C802CFF128Coptic11520115672D002D2F48Georgian Supplement 11568116472D302D7F80Tifinagh11648117432D802DDF96Ethiopic Extended11776119032E002E7F128Supplemental Punctuation11776119032E002E7F128Supplemental Punctuation 11904120312E802EFF128CJK Radicals Supplement 12032122552F002FDF224Kangxi Radicals12272122872FF02FFF16Ideographic Description Characters 12288123513000303F64CJK Symbols and Punctuation 12352124473040309F96Hiragana124481254330A030FF96Katakana 12544125913100312F48Bopomofo 12592126873130318F96Hangul Compatibility Jamo 12688127033190319F16Kanbun127041273531A031BF32Bopomofo Extended 127361278331C031EF48CJK Strokes127841279931F031FF16Katakana Phonetic Extensions 1280013055320032FF256Enclosed CJK Letters and Months 1305613311330033FF256CJK Compatibility 133121990334004DBF6592CJK Unified Ideographs Extension A 199********DC04DFF64Yijing Hexagrams Symbols 199********E009FBF20928CJK Unified Ideographs 4096042127A000A48F1168Yi Syllables4212842191A490A4CF64Yi Radicals4224042527A500A61F288Vai4259242751A660A6FF160Unified Canadian Aboriginal Syllabics Supplement4275242783A700A71F32Modifier Tone Letters4278443007A720A7FF224Latin Extended-D4300843055A800A82F48Syloti Nagri4307243135A840A87F64Phags-pa4313643231A880A8DF96Saurashtra4326443391A900A97F128Javanese4339243487A980A9DF96Chakma4352043583AA00AA3F64Varang Kshiti4358443631AA40AA6F48Sorang Sompeng4364843743AA80AADF96Newari4377643871AB00AB5F96Vi?t Thái4390443936AB80ABA033Kayah Li4403255215AC00D7AF11184Hangul Syllables5529656319D800DBFF1024High-half zone of UTF-16 5632057343DC00DFFF1024Low-half zone of UTF-165734463743E000F8FF6400Private Use Zone6374464255F900FAFF512CJK Compatibility Ideographs 6425664335FB00FB4F80Alphabetic Presentation Form 6433665023FB50FDFF688Arabic Presentation Form-A 6502465039FE00FE0F16Variation Selector6504065055FE10FE1F16Vertical Forms6505665071FE20FE2F16Combining Half Marks6507265103FE30FE4F32CJK Compatibility Forms 6510465135FE50FE6F32Small Form Variants6513665279FE70FEFF144Arabic Presentation Form-B 6528065519FF00FFEF240Halfwidth and Fullwidth Form 6552065535FFF0FFFF16SpecialsUTF-8有点类似于Haffman编码,它将Unicode编码为:0x00-0x7F的字符,⽤单个字节来表⽰;0x80-0x7FF的字符⽤两个字节表⽰;0x800-0xFFFF的字符⽤3字节表⽰;汉字的unicode范围是:0x4E00~0x9FA5其实这个范围还包括了中,⽇,韩的字符。

字符编码简介:ASCII,Unicode,UTF-8,GB2312

字符编码简介:ASCII,Unicode,UTF-8,GB2312字符编码简介:ASCII,Unicode,UTF-8,GB23121. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。

每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。

也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。

上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。

这被称为ASCII码,一直沿用至今。

ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。

这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

2、非ASCII编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。

比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。

于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。

比如,法语中的é的编码为130(二进制10000010)。

这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。

不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。

比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。

但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。

一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。

各类内码详细解析

转换内码gb2312为utf-8各类内码详细解析[日期:2009-04-29] 来源: 作者:sdiel 阅读:3706 次 [字体:大中小]GB2312 字符集GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。

它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。

在中国大陆和新加坡获广泛使用。

powered by GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445 个图形字符。

其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。

这种表示方式也称为区位码。

它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。

习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。

计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

GBK字符集GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。

GBK字符集主要扩展了繁体中文字的支持。

BIG5 字符集BIG5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码。

UNICODE编码表

UNICODE 编码目录∙ 1 基本拉丁字母和拉丁符号∙ 2 拉丁字母-1∙ 3 拉丁字母(扩展 A)∙ 4 拉丁字母(扩展 B)∙ 5 IPA扩展∙ 6 改造字母∙7 希腊字母和科普特字母∙8 西里尔字母∙9 西里尔字母(补充)∙10 亚美尼亚字母∙11 希伯来字母∙12 阿拉伯字母∙13 叙利亚字母∙14 阿拉伯字母(补充)∙15 它拿字母∙16 N'Ko字母∙17 统一加拿大土著音节∙18 方块元素∙19 几何外形∙20 混杂符号∙21 不知名物体∙22 混杂数学符号(扩展A)∙23 箭头(补充)∙24 盲文图案∙25 拉丁字母(扩展 C)∙26 中日韩统一表意文字∙27 彝文字母∙28 拉丁字母(扩展 D)∙29 特殊∙30 Unicode 编码表∙31 外部链接基本拉丁字母和拉丁符号注:除非有特别指明,否则以下符号皆属“半角”而非“全角”。

代码显示描述U+0020 空格U+0021 ! 叹号U+0022 " 双引号U+0023 # 井号U+0024 $ 价钱/货币符号U+0025 % 百分比符号U+0026 & 英文“and”的简写符号U+0027 ' 引号U+0028 ( 开圆括号U+0029 ) 关圆括号U+002A * 星号U+002B + 加号U+002C , 逗号U+002D - 连字号/减号U+002E . 句号U+002F / 由右上至左下的斜线U+0030 0 数字0U+0031 1 数字1U+0032 2 数字2U+0033 3 数字3U+0034 4 数字4U+0035 5 数字5U+0036 6 数字6U+0037 7 数字7U+0038 8 数字8U+0039 9 数字9U+003A : 冒号U+003B ; 分号U+003C < 小于符号U+003D = 等于号U+003E > 大于符号U+003F ? 问号U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母AU+0042 B 拉丁字母BU+0043 C 拉丁字母CU+0044 D 拉丁字母DU+0045 E 拉丁字母EU+0046 F 拉丁字母FU+0047 G 拉丁字母GU+0049 I 拉丁字母IU+004A J 拉丁字母JU+004B K 拉丁字母KU+004C L 拉丁字母LU+004D M 拉丁字母MU+004E N 拉丁字母NU+004F O 拉丁字母OU+0050 P 拉丁字母PU+0051 Q 拉丁字母QU+0052 R 拉丁字母RU+0053 S 拉丁字母SU+0054 T 拉丁字母TU+0055 U 拉丁字母UU+0056 V 拉丁字母VU+0057 W 拉丁字母WU+0058 X 拉丁字母XU+0059 Y 拉丁字母YU+005A Z 拉丁字母ZU+005B [ 开方括号U+005C \ 由左上至右下的斜线U+005D ] 关方括号U+005E ^ 抑扬(重音)符号U+005F _ 底线U+0060 ` 重音符U+0061 a 拉丁字母 aU+0062 b 拉丁字母 bU+0063 c 拉丁字母 cU+0064 d 拉丁字母 dU+0065 e 拉丁字母 eU+0066 f 拉丁字母 fU+0067 g 拉丁字母 gU+0068 h 拉丁字母 hU+0069 i 拉丁字母 iU+006A j 拉丁字母 jU+006B k 拉丁字母 kU+006C l 拉丁字母 l(L的小写)U+006E n 拉丁字母 nU+006F o 拉丁字母 oU+0070 p 拉丁字母 pU+0071 q 拉丁字母 qU+0072 r 拉丁字母 rU+0073 s 拉丁字母 sU+0074 t 拉丁字母 tU+0075 u 拉丁字母 uU+0076 v 拉丁字母 vU+0077 w 拉丁字母 wU+0078 x 拉丁字母 xU+0079 y 拉丁字母 yU+007A z 拉丁字母 zU+007B { 开卷曲括号U+007C | 直棒U+007D } 关卷曲括号U+007E ~ 波浪纹[编辑]拉丁字母-1代码显示描述U+00A0 不间断空格U+00A1 ¡倒转的叹号U+00A2 ¢(货币单位)分钱U+00A3 £(货币)英镑U+00A4 ¤(货币)通用货币符号(当货币未有符号时以此替代)U+00A5 ¤(货币)圆(日圆、人民币等)U+00A6 ¥两条断开的直线U+00A7 §文件分不同部分U+00A8 ¨(语言)分音U+00A9 ¦版权符U+00AA §(意大利文、葡萄牙文、西班牙文)阴性序数U+00AB ¨双重角形左引号U+00AC ©逻辑非U+00AE ®商标U+00AF ¯长音U+00B0 ©度(角度或温度)U+00B1 ª正负号U+00B2 °二次方,上标2U+00B3 ±三次方,上标3U+00B4 ²锐音符U+00B5 ³微,百万分之一,10−6U+00B6 ´段落符号U+00B7 «间隔号U+00B8 µ软音符U+00B9 ¶一次方,上标1U+00BA ·(意大利文、葡萄牙文、西班牙文)阳性序数U+00BB ¸双重角形右引号U+00BC ¹四分之一U+00BD º二分之一U+00BE »四分之三U+00BF ¼倒转的问号U+00C0 ½在拉丁字母A上加重音符U+00C1 ¾在拉丁字母A上加锐音符U+00C2 ¿在拉丁字母 A 上加抑扬符“^”U+00C3 À在拉丁字母 A 上加“~”U+00C4 Á在拉丁字母 A 上加分音符“..”U+00C5 Â在拉丁字母 A 上加角度符“©”U+00C6 Ã拉丁字母 A、E 的混合U+00C7 Ä在拉丁字母 C 下加软音符U+00C8 Å在拉丁字母 E 上加重音符U+00C9 Æ在拉丁字母 E 上加锐音符U+00CA Ç在拉丁字母 E 上加抑扬符U+00CB È在拉丁字母 E 上加分音符U+00CC É在拉丁字母 I 上加重音符U+00CD Ê在拉丁字母 I 上加锐音符U+00CE Ë在拉丁字母 I 上加抑扬符U+00CF Ì在拉丁字母 I 上加分音符U+00D0 Í古拉丁字母Í,现只有法罗文和冰岛文使用U+00D1 Î在拉丁字母 N 上加波浪纹“~”U+00D2 Ï在拉丁字母 O 上加锐音符U+00D3 Ð在拉丁字母 O 上加重音符U+00D4 Ñ在拉丁字母 O 上加抑扬符U+00D5 Ò在拉丁字母 O 上加波浪纹“~”U+00D6 Ó在拉丁字母 O 上加分音符U+00D7 ¬乘号,亦可拖按“Alt”键,同时按“41425”五键U+00D8 Ô在拉丁字母 O 由右上至左下加对角斜线“/”U+00D9 Õ在拉丁字母 U 上加重音符U+00DA Ö在拉丁字母 U 上加锐音符U+00DB ×在拉丁字母 U 上加抑扬符U+00DC Ø在拉丁字母 U 上加分音符U+00DD Ù在拉丁字母 Y 上加锐音符U+00DE Ú古拉丁字母Ú,现已被“Th”取替U+00DF Û德文字母ÛU+00E0 ­在拉丁字母 a 上加重音符U+00E1 ®在拉丁字母 a 上加锐音符U+00E2 Ü在拉丁字母 a 上加抑扬符U+00E3 Ý在拉丁字母 a 上加波浪纹“~”U+00E4 Þ在拉丁字母 a 上加分音符U+00E5 ß在拉丁字母 a 上加角度符“©”U+00E6 à拉丁字母 a、e 的混合U+00E7 á在拉丁字母 c 上加软音符U+00E8 ¯在拉丁字母 e 上加锐音符U+00E9 °在拉丁字母 e 上加重音符U+00EA ±在拉丁字母 e 上加抑扬符U+00EB â在拉丁字母 e 上加分音符U+00EC ²在拉丁字母 i 上加重音符U+00ED ³在拉丁字母 i 上加锐音符U+00EE ã在拉丁字母 i 上加抑扬符U+00EF ä在拉丁字母 i 上加分音符U+00F0 å古拉丁字母Í的小写U+00F1 æ在拉丁字母 n 上加波浪纹“~”U+00F2 ´在拉丁字母 o 上加重音符U+00F3 µ在拉丁字母 o 上加锐音符U+00F4 ç在拉丁字母 o 上加抑扬符U+00F5 è在拉丁字母 o 上加波浪纹“~”U+00F6 é在拉丁字母 o 上加分音符U+00F7 ¶除号,亦可拖按“Alt”键,同时按“41426”五键U+00F8 ê在拉丁字母 o 由右上至左下加对角斜线“/”U+00F9 ·在拉丁字母 u 上加重音符U+00FA ¸在拉丁字母 u 上加锐音符U+00FB ë在拉丁字母 u 上加抑扬符U+00FC ¹在拉丁字母 u 上加分音符U+00FD ì在拉丁字母 u 上加锐音符U+00FE í古拉丁字母í,现已被“th”取替U+00FF î在拉丁字母 y 上加分音符[编辑]拉丁字母(扩展 A)代码显示描述U+0100 Ā在拉丁字母 A 上加长音符U+0101 º在拉丁字母 a 上加长音符U+0102 Ă在拉丁字母 A 上加短音符U+0103 ă在拉丁字母 a 上加短音符U+0104 Ą在拉丁字母 A 上加反尾形符U+0105 ą在拉丁字母 a 上加反尾形符[编辑]拉丁字母(扩展 B)[编辑]IPA扩展代码显示描述[编辑]改造字母代码显示描述[编辑]希腊字母和科普特字母代码显示描述[编辑]西里尔字母代码显示描述[编辑]西里尔字母(补充)代码显示描述[编辑]亚美尼亚字母代码显示描述[编辑]希伯来字母代码显示描述[编辑]阿拉伯字母代码显示描述[编辑]叙利亚字母代码显示描述[编辑]阿拉伯字母(补充)代码显示描述[编辑]它拿字母代码显示描述[编辑]N'Ko字母代码显示描述[编辑]统一加拿大土著音节代码显示描述[编辑]方块元素代码显示描述[编辑]几何外形主条目:Unicode几何图形列表代码显示描述[编辑]混杂符号代码显示描述[编辑]不知名物体代码显示描述[编辑]混杂数学符号(扩展A)代码显示描述[编辑]箭头(补充)代码显示描述[编辑]盲文图案[编辑]拉丁字母(扩展 C)代码显示描述U+2C60 Ⱡ在拉丁字母“L”中间加两条横线“=”U+2C61 Ⱡ在拉丁字母“l”(L 的小写)中间加一条横线“-”U+2C62 Ⱡ在拉丁字母“L”(大写)中间加一条波浪线“~”U+2C63 Ⱡ在拉丁字母“P”中间加一条横线“-”U+2C64 Ⱡ在拉丁字母“R”下加一条尾巴U+2C65 Ⱡ在拉丁字母“a”上加一条对角斜线“/”U+2C66 Ⱡ在拉丁字母“t”上加一条对角斜线“/”U+2C67 Ⱡ在拉丁字母“H”下加一条尾巴U+2C68 Ⱡ在拉丁字母“h”下加一条尾巴U+2C69 Ⱡ在拉丁字母“K”下加一条尾巴U+2C6A Ⱡ在拉丁字母“k”下加一条尾巴U+2C6B Ⱡ在拉丁字母“Z”下加一条尾巴U+2C6C Ⱡ在拉丁字母“z”下加一条尾巴U+2C74 Ⱡ在拉丁字母“v”的起笔加一个弯勾U+2C75 Ⱡ拉丁字母“H”的左半部U+2C76 Ⱡ拉丁字母“h”的左半部U+2C77 Ⱡ希腊字母“φ”的上半部[编辑]中日韩统一表意文字主条目:中日韩统一表意文字[编辑]彝文字母主条目:彝文字母[编辑]拉丁字母(扩展 D)代码显示描述U+A720 Ⱡ强调音调音昂的改造字母U+A721 Ⱡ强调音调低沉的改造字母[编辑]特殊代码显示描述U+FFFC 取代无法显示字符的“OBJ”U+FFFD �无法显示的字符以它取代[编辑]Unicode 编码表[编辑]外部链接“Unicode联盟”官网(英文)“DecodeUnicode”网(英文/德文)以图像显示所有(98,884个)Unicode 字符,可作全文搜索。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

utf32编码表
UTF-32是一种字符编码表,它为每个字符分配了一个32位的代
码点。这种编码使用定长编码形式,这意味着每个字符都用相同数量
的位来编码。因此,UTF-32编码表的每个字符都是由四个字节组成的。
在这篇文章中,我们将了解UTF-32编码表及其用途。
第一步:理解UTF-32编码表
UTF-32编码表是一种字符编码方案,它可以编码标准Unicode字
符集的所有字符。这种编码方案是Unicode标准的一部分,旨在解决
字符集的国际化和本地化问题。UTF-32编码表是一种固定长度的、面
向未来的编码方案,它可以表示所有未来可能添加到Unicode字符集
中的字符。
第二步:UTF-32编码表的特点
UTF-32编码采用固定的大小—32位或4字节。这种编码形式适
用于需要使用与任何其他字节顺序相同的字节顺序的计算机系统。
UTF-32编码表可以直接访问每个字符的代码点,这使得它容易实现和
处理,因为不需要考虑字符的多字节编码。另一个优点是,UTF-32编
码表在处理大型文本文件时可以更快地进行操作,因为每个字符都可
以单独访问和处理。
第三步:UTF-32编码表的用途
UTF-32编码表在计算机领域中有许多用途,其中包括:
1.编写程序:UTF-32编码表是一种常见的编码方案,它被广泛应
用于编写源代码、程序文档和其他计算机程序。
2.网站开发:UTF-32编码表在网站开发中也得到广泛应用,特别
是在处理多语言网站时。它可以确保网站具有适当的字符显示和正确
的本地化支持。
3.数据库开发:数据库中存储的信息可能涉及到多种语言。UTF-
32编码表可以确保这些数据正确存储和处理,并且能够正确显示,因
此,在数据库设计中广泛应用。
总结:
UTF-32编码表是一种字符编码方案,旨在解决字符集的国际化和
本地化问题。它使用固定长度的编码形式,适用于未来添加到Unicode
字符集中的所有字符。UTF-32编码表在计算机领域的应用广泛,在编
写程序、网站开发和数据库设计等方面发挥着重要作用。因此,学习
和理解UTF-32编码表对于计算机专业人士来说是必不可少的。

相关文档
最新文档