汉字编码及区位码查询算法

合集下载

汉字区位码计算

汉字区位码计算

汉字区位码计算汉字区位码计算是一种用于计算汉字在Unicode编码中的位置的方法。

每个汉字都有一个唯一的区位码,通过区位码可以找到对应的Unicode编码。

区位码由两部分组成,分别是区码和位码。

区码表示汉字所在的区域,而位码表示汉字在区域中的位置。

区码由A到Z的26个英文字母表示,位码则由1到94的数字表示。

计算汉字的区位码的方法如下:1. 确定区码:根据汉字的拼音首字母,查找对应的英文字母。

如果汉字的拼音不是字母开头的,就根据拼音的声母来确定区码。

2. 确定位码:首先确定所在区的起始位码,区码A对应的起始位码为1601,每个区的起始位码依次递增94。

然后根据汉字在区中的位置,加上起始位码,即可得到位码。

例如,计算汉字“中”的区位码:1. 拼音首字母“z”对应的区码是Z。

2. 查找区码Z对应的起始位码,即1601。

3. 确定汉字“中”在区中的位置,即第几个汉字。

在区码Z中,找到“中”的位置是第48个汉字。

4. 将起始位码1601加上位置48,得到位码1649。

因此,“中”的区位码为Z1649。

汉字区位码计算的应用十分广泛。

例如,可以通过区位码对汉字进行排序,便于字典的编制和索引;还可以通过区位码进行汉字的输入,提高输入效率。

此外,通过区位码还可以进行汉字的编码转换。

由于不同的字符集使用不同的编码方式,通过区位码可以将汉字在不同编码之间进行转换,方便数据的传输和处理。

需要注意的是,区位码计算方法只适用于计算简体汉字。

对于繁体汉字,需要使用繁体区位码计算方法。

总之,汉字区位码计算是一种简单而实用的方法,可以帮助我们准确地定位汉字的位置和进行编码转换。

通过掌握这种计算方法,我们可以更加方便地处理和使用汉字。

区位码和unicode对照表c语言

区位码和unicode对照表c语言

区位码和unicode对照表c语言区位码和Unicode对照表C语言区位码是一种编码方式,用于表示汉字和其他字符的位置。

它是中国特有的字符编码方式,也是计算机处理汉字的基础。

Unicode是一种国际标准,用于对世界上所有字符进行统一编码。

在C语言中,我们可以使用区位码和Unicode对照表来处理字符的编码和解码。

区位码是由两个字节组成,分别表示字符所在的区和位。

区位码可以通过与0xA0进行位运算来获取字符的区和位值。

例如,区位码0xB0A1表示的是汉字“啊”的区和位,其中0xB0表示区,0xA1表示位。

Unicode对照表是一个记录了所有Unicode字符编码的表格,其中包括了字符的十六进制编码和对应的字符。

在C语言中,我们可以使用Unicode对照表来查询字符的编码和获取字符对应的区位码。

在C语言中,我们可以使用以下代码来获取字符的区位码:```c#include <stdio.h>void getZoneBit(char ch) {unsigned char zone, bit;zone = (ch & 0xFF00) >> 8;bit = ch & 0x00FF;printf("区:%d,位:%d\n", zone, bit);}int main() {char ch = '啊';getZoneBit(ch);return 0;}```以上代码中,我们定义了一个函数`getZoneBit`来获取字符的区位码。

在`main`函数中,我们将字符‘啊’传入`getZoneBit`函数,然后通过位运算获取字符的区和位值,并打印输出。

Unicode对照表可以通过互联网进行查询,但由于要求不输出http 地址,我们可以将Unicode对照表保存为本地文件,并通过文件读取的方式查询字符的编码。

以下是一个使用Unicode对照表查询字符编码的示例代码:```c#include <stdio.h>int main() {FILE *file = fopen("unicode.txt", "r");if (file == NULL) {printf("无法打开文件\n");return 0;}char ch = '啊';unsigned int unicode = 0;while (!feof(file)) {unsigned int code;char character[10];fscanf(file, "%x %s", &code, character);if (ch == character[0]) {unicode = code;break;}}fclose(file);printf("字符:%c,Unicode编码:%04x\n", ch, unicode); return 0;}```以上代码中,我们首先打开本地文件`unicode.txt`,然后通过循环读取文件中的内容,将字符和编码存储在变量`character`和`code`中。

汉字区位码查询

汉字区位码查询

汉字区位码查询最近有个哥们请我帮他们单位整⼀个区位码查询的东东。

弄了⼀下,放在这⾥,请有⽤的着的哥们参考。

有不妥的地⽅,请⼤家多提意见。

原理:////汉字的区位码算法:////((汉字的第⼀个字节-0xa1)*94+(汉字的第⼆个字节-0xa1))*32////////区码=汉字的机器码⾼字节-A0////位码=汉字的机器码的低字节-A0////汉字⽂本⽂件读出的就是汉字的机器吗(⽤C语⾔或VB都能实现),两个字节////代表⼀个字的机器吗,⾼位在前,低位在后////如"啊"的区位码为1601,机器吗为B0A1(16进制)c# 版本public string TextToQwm(string character){string coding = "";int i1=0,i2=0,i3=0;for (int i = 0; i<character.Length; i++ ){byte[] bytes = System.Text.Encoding.Default.GetBytes(character.Substring(i,1)); //取出⼆进制编码内容i1 = (short)(bytes[0] );try{i2 = (short)(bytes[1] );i3=1;}catch(Exception ex){i2=65536; i3=-1;}finally{int chrasc=i1*256+i2-65536;if (chrasc>0 && chrasc<160){TextBox2.Text="只能能输⼊汉字!!";}else{if(i3==-1){TextBox2.Text="只能能输⼊汉字!!";}else{string lowCode =System.Convert.ToString(Math.Abs(Convert.ToInt32(System.Convert.ToString(bytes[0]))-160));//取出低字节编码内容(两位16进制)if (lowCode.Length == 1)lowCode = "0" + lowCode;string hightCode = System.Convert.ToString( Math.Abs(Convert.ToInt32(System.Convert.ToString(bytes[1]))-160));//取出⾼字节编码内容(两位16进制)if (hightCode.Length == 1)hightCode = "0" + hightCode;coding +=character.Substring(i,1) + (lowCode + hightCode) ;//加⼊到字符串中,}}}}return coding;}vbscript 版本<SCRIPT LANGUAGE="VBScript">function genqw()str=f1.txt1.valuenewstr=""for i=1 to len(str)newstr=newstr&getqw(mid(str,i,1))nextf1.txt2.value=newstrend functionfunction getqw(ch)casc=asc(ch)if casc<0 then casc=casc+65535+1if casc>255 thenb2=right("0"&((casc and 255)-160),2)b1=right("0"&(int(casc/256)-160),2)getqw=ch & " "&b1&b2 &" "elsegetqw=chend ifend function</SCRIPT>。

汉字区位码

汉字区位码

汉字区位码表说明本辯包含了汉字国辬码舂所包含的6768个汉字的区位码,汉字排列舻按汉字的汉语拼音音序顺序排列,供迮加普通高校、舂舸(舂舰),成人高校、舂舸,自学考试(舂小学教舰舸业合格证书考试)填涂信息卡舂的汉字信息艃用。

1、查撋一汉字的区位码舻,可先到本手册后的索引舂查该字的汉语拼音所在页码,然后再到该页查区位码。

2、多音字只在一处出现,例如:汉字“单”读?DAN,在DAN这一列下,可查到其区位码为2105,但该字也读SHAN,当用作 SHAN字读音舻,也在DAN字下面查其区位码,其余类推。

A啊 1601 阿 1602 擎 6325 嗋 6436 脄 7571 锐 7925 AI埃 1603 挨 1604 哎 1605 唉 1606 哀 1607 皑 1608 癌 1609 蔼 1610 矮 1611 艾 1612 碍 1613 爱 1614 隘 1615 捱 6263 嗏 6440 嗐 6441 嫒 7040 瑷 7208 昉 7451 砞 7733 锤 7945 鈀 8616 AN鞍 1616 氨 1617 安 1618 俺 1619 按 1620 暗 1621 岸 1622 胺 1623 案 1624 谖 5847 坍 5991 揞 6278 犴 6577 馁 6654瓄 7281铛 7907鹄 8038黥 8786ANG肮 1625昂 1626盎 1627AO凹 1628敖 1629熬 1630翱 1631袄 1632傲 1633奥 1634懊 1635澳 1636圼 5974拗 6254嗂 6427幊 6514馅 6658逽 6959姌 7033骇 7081樭 7365耲 8190蜡 8292龛 8643鲿 8701鴇 8773BA芭 1637捌 1638扒 1639叭 1640吧 1641笆 1642八 1643疤 1644巴 1645拔 1646跋 1647靶 1648把 1649耙 1650坝 1651霸 1652罢 1653爸 1654苛 6056茤 6135幍 6517灞 6917钯 7857舧 8446龡 8649鳧 8741BAI白 1655柏 1656百 1657摆 1658佰 1659败 1660拜 1661稗 1662捭 6267擗 6334昴 7494BAN斑 1663班 1664搬 1665扳 1666般 1667颁 1668板 1669版 1670扮 1671拌 1672伴 1673瓣 1674半 1675办 1676绊 1677阪 5870圲 5964钔 7851瘢 8103癍 8113舋 8418BANG邦 1678帮 1679梆 1680榜 1681膀 1682绑 1683棒 1684磅 1685蚌 1686镑 1687傍 1688谤 1689萜 6182沘 6826BAO苞 1690胞 1691包 1692褒 1693剥 1694薄 1701雹 1702保 1703堡 1704饱 1705宝 1706抱 1707报 1708暴 1709豹 1710鲍 1711爆 1712萋 6165孢 7063飺 7650镦 8017褓 8157醲 8532鈅 8621BEI杯 1713碑 1714悲 1715卑 1716北 1717辈 1718背 1719贝 1720钡 1721倍 1722狈 1723备 1724惫 1725焙 1726被 1727孛 5635陂 5873邶 5893坏 5993茪 6141萗 6177怜 6703砲 7753鹅 8039褙 8156龝 8645鳗 8725BEN奔 1728苯 1729本 1730笨 1731畚 5946坌 5948昐 7458锓 7928BENG崩 1732绷 1733甭 1734泵 1735蹦 1736迸 1737嗛 6452甏 7420BI逼 1738鼻 1739比 1740鄙 1741笔 1742彼 1743碧 1744蓖 1745蔽 1746毕 1747毙 1748毖 1749币 1750庇 1751痹 1752闭 1753敝 1754弊 1755必 1756辟 1757壁 1758臂 1759避 1760陛 1761匕 5616俾 5734苭 6074茊 6109薜 6221擖 6333擮 6357狂 6589馃 6656怲 6725泂 6868濞 6908弼 6986妫 6994姉 7030嬖 7052璈 7221硪 7815钿 7873镌 7985裨 8152筚 8357箬 8375箸 8387舉 8416舞 8437釁 8547鳠 8734BIAN鞭 1762边 1763编 1764贬 1765扁 1766便 1767变 1768卞 1769辨 1770辩 1771辪 1772辫 1773匾 5650弁 5945苓 6048怈 6677汪 6774绋 7134飖 7614飼 7652砛 7730砹 7760穻 8125褊 8159蜞 8289笾 8354鲽 8693BIAO辬 1774辭 1775辮 1776辯 1777姆 7027骊 7084璏 7228飑 7609飕 7613锱 7958镇 7980瘭 8106裱 8149鳅 8707鳲 8752BIE辰 1778辱 1779農 1780辳 1781醱 8531BIN辴 1782辵 1783辶 1784辷 1785辸 1786边 1787傧 5747幵 6557绖 7145绬 7167榗 7336樷 7375膑 7587锰 7957鳤 8738鳼 8762BING辺 1788辻 1789込 1790辽 1791达 1792辿 1793迀 1794迁 1801迂 1802禀 5787邴 5891摒 6280BO迃 1803迄 1804迅 1805迆 1806过 1807迈 1808迉 1809迊 1810迋 1811迌 1812迍 1813迎 1814迏 1815运 1816近 1817迒 1818迓 1819返 1820迕 1821亳 5781攖 6403饯 6636横 7362昶 7502硄 7771钶 7864鸼 8030簸 8404醽 8543重 8559BU迖 1822迗 1823还 1824这 1825迚 1826进 1827远 1828违 1829连 1830迟 1831迠 1832擇 6318逋 6945橝 7419昄 7446钑 7848钵 7863醥 8519CA迡 1833嗱 6474硂 7769CAI迢 1834迣 1835迤 1836迥 1837迦 1838迧 1839迨 1840迩 1841迪 1842迫 1843迬 1844CAN迭 1845迮 1846迯 1847述 1848迱 1849迲 1850迳 1851孱 6978骄 7078璅 7218般 8451黤 8785CANG迴 1852迵 1853迶 1854迷 1855迸 1856伧 5687CAO操 1857糙 1858槽 1859曹 1860草 1861嗗 6448漕 6878蜬 8309舖 8429CE厕 1862策 1863侧 1864册 1865测 1866怗 6692CEN幋 6515沗 6825CENG层 1867蹭 1868嗨 6465CHA插 1869叉 1870茬 1871茶 1872查 1873碴 1874搽 1875察 1876岔 1877差 1878诧 1879狑 6610饲 6639汊 6766妼 7017璑 7230瓜 7311榉 7322樫 7363锡 7942镆 7979衩 8135CHAI拆 1880柴 1881豺 1882侪 5713钏 7846瘥 8091虿 8218CHAN搀 1883掺 1884蝉 1885馋 1886谗 1887缠 1888铲 1889产 1890阐 1891颤 1892冁 5770谄 5838萅 6159馇 6660忏 6667潺 6893澶 6904羼 6981姊 7031验 7086昞 7472祥 7688锹 7966蜻 8324釢 8580CHANG昌 1893猖 1894场 1901尝 1902常 1903长 1904偿 1905肠 1906厂 1907敞 1908畅 1909唱 1910倡 1911伥 5686 鬯 5943 苌 6041 茦 6137 庀 6568 怅 6674 性 6714 恊 6749 姈 7029 嫦 7047 旼 7438 昽 7509 鲰 8680 CHAO 超 1912 抄 1913 钞 1914 朝 1915 嘲 1916 潮 1917 巢 1918 吵 1919 炒 1920 怒 6687 昁 7443 耖 8173 CHE 车 1921 扯 1922 撤 1923 掣 1924 彻 1925 澈 1926 圷 5969 砗 7726 CHEN 郴 1927 臣 1928 辰 1929 尘 1930 晨 1931 忱 1932 沉 1933 陈 1934 趁 1935 衬 1936谌 5840谦 5863抻 6251嗈 6433宸 6923琛 7201榇 7320破 7755鈃 8619CHENG撑 1937称 1938城 1939橙 1940成 1941呈 1942乘 1943程 1944惩 1945澄 1946诚 1947承 1948逞 1949骋 1950秤 1951丞 5609坆 5984璚 7239璲 7263塍 7583硥 7810铇 7881裎 8146蛏 8241艟 8508CHI吃 1952痴 1953持 1954匙 1955池 1956迟 1957弛 1958驰 1959耻 1960齿 1961侈 1962尺 1963赤 1964翅 1965斥 1966炽 1967傺 5749圸 5970坟 6015苠 6061擈 6319擿 6374啻 6420嗔 6445幸 6560饬 6633媸 7042敕 7523硔 7787鸱 8023瘛 8101褫 8161蚩 8231蜧 8304笞 8355箹 8388艒 8489释 8556鳬 8746CHONG充 1968冲 1969虫 1970崇 1971宠 1972苾 6091忡 6671怸 6731铙 7905舂 8409舗 8430CHOU抽 1973酬 1974畴 1975踌 1976稠 1977愁 1978筹 1979仇 1980绸 1981瞅 1982丑 1983臭 1984俦 5717帱 6492怩 6716瘳 8112龕 8637CHU初 1985出 1986橱 1987厨 1988躇 1989锄 1990雏 1991滁 1992除 1993楚 1994础 2001储 2002矗 2003搐 2004触 2005处 2006亍 5601刍 5927怋 6680怹 6732纲 7109璙 7238瓍 7290樗 7343褚 8150蜁 8260釛 8573黜 8777CHUAI揣 2007搋 6285啜 6408膪 7590金 8563CHUAN川 2008穿 2009椽 2010传 2011船 2012喘 2013串 2014狝 6622逹 6955绦 7161晄 7516钌 7843舆 8413CHUANG疮 2015窗 2016幢 2017床 2018闯 2019创 2020怆 6675CHUI吹 2021炊 2022捶 2023锤 2024垂 2025陲 5879瓓 7302槌 7319CHUN春 2026椿 2027醇 2028唇 2029淳 2030纯 2031蠢 2032茜 6127鹆 8040蜒 8277CHUO戳 2033绰 2034橋 7401釈 8554龊 8626CI疵 2035茨 2036磁 2037雌 2038辞 2039慈 2040瓷 2041词 2042此 2043刺 2044赐 2045次 2046苮 6075擯 6358祡 7684鹉 8043舲 8457CONG聪 2047葱 2048囱 2049匆 2050从 2051丛 2052苍 6042沦 6840骋 7085琮 7193璁 7214璛 7240COU凑 2053瓙 7308橍 7403脊 7577CU粗 2054醋 2055簇 2056促 2057蔟 6193幺 6562狎 6607樯 7367艘 8501醰 8530釟 8577CUAN蹿 2058篡 2059窜 2060汆 5764撺 6305餈 7664镀 7973CUI摧 2061崔 2062催 2063脆 2064瘁 2065粹 2066淬 2067翠 2068茮 6145攒 6393怫 6718璀 7213榔 7333昹 7505龏 8631CUN村 2069存 2070寸 2071忖 6666皴 8169CUO磋 2072撮 2073搓 2074措 2075挫 2076错 2077厝 5640幫 6547胿 7566锈 7917镊 7983痀 8078醬 8526釕 8567DA搭 2078达 2079答 2080瘩 2081打 2082大 2083耷 6239擪 6353嗒 6410怍 6682妲 7007褡 8155蝑 8346鳎 8716鳐 8718DAI呆 2084歹 2085傣 2086戴 2087带 2088殆 2089代 2090贷 2091袋 2092待 2093逮 2094怠 2101坔 6004擅 6316擓 6330幓 6523迨 6942驼 7070纳 7110绲 7173黛 8776DAN耽 2102担 2103丹 2104单 2105郸 2106掸 2107胆 2108旦 2109氮 2110但 2111惮 2112淡 2113诞 2114弹 2115蛋 2116儋 5757茭 6144攕 6402樵 7373昜 7470硎 7781疵 8067瘅 8087耭 8185箭 8376DANG当 2117挡 2118党 2119荡 2120档 2121谛 5852凼 5942菺 6148宕 6920砀 7724铋 7885裆 8141DAO刀 2122捣 2123蹈 2124倒 2125岛 2126祷 2127导 2128到 2129稻 2130悼 2131道 2132盗 2133擋 6322忉 6665時 7514艇 8478DE德 2134得 2135的 2136锔 7929DENG蹬 2137灯 2138登 2139等 2140瞪 2141凳 2142邓 2143嗩 6466年 6556橗 7413础 7767镂 7975簦 8403DI堤 2144低 2145滴 2146迪 2147敌 2148笛 2149狄 2150涤 2151嫡 2153抵 2154底 2155地 2156蒂 2157第 2158帝 2159弟 2160递 2161缔 2162氐 5621籴 5765议 5814谗 5848邸 5901茗 6122嗝 6454姂 7023纹 7116璯 7260瓗 7306昡 7475砣 7738砷 7758硘 7791锸 7965舟 8438鳜 8730DIA嗎 6439DIAN颠 2163掂 2164滇 2165碘 2166点 2167典 2168靛 2169垫 2170电 2171佃 2172甸 2173店 2174惦 2175奠 2176淀 2177殿 2178丶 5628阽 5871圵 5967幷 6559绱 7172钺 7868癜 8116癫 8118節 8401里 8558DIAO碉 2179叼 2180雕 2181凋 2182刁 2183掉 2184吊 2185钓 2186调 2187铌 7886铖 7902釧 8585鲴 8684DIE跌 2188爹 2189碟 2190蝶 2191迭 2192谍 2193叠 2194圾 5976坖 6006揲 6273喋 6409牒 7526镡 8012耫 8183釐 8562鲸 8688DING丁 2201盯 2202叮 2203 钉 2204 顶 2205 鼎 2206 锭 2207 定 2208 订 2209 仃 5674 攗 6404 绩 7164 脈 7575 砳 7754 硩 7814 疔 8059 耬 8184 艓 8490 DIU 丢 2210 铑 7891 DONG 东 2211 冬 2212 董 2213 懂 2214 动 2215 栋 2216 侗 2217 恫 2218 冻 2219 洞 2220 圿 5977 擠 6343 幐 6520 幘 6528 晅 7517 胨 7543 胵 7556 砬 7747 镩 8020 DOU 兜 2221 抖 2222 斗 2223 陡 2224 豆 2225 逗 2226痘 2227蔸 6190窦 8128蚪 8229箼 8391DU都 2228督 2229毒 2230犊 2231独 2232读 2233堵 2234睹 2235赌 2236杜 2237镀 2238肚 2239度 2240渡 2241妒 2242芏 6022嗄 6429沠 6834瓏 7292牍 7525蜿 8328蝉 8338鳥 8739黡 8782DUAN端 2243短 2244锻 2245段 2246断 2247缎 2248椴 7318飹 7649箾 8393DUI堆 2249兑 2250队 2251对 2252祬 7701祸 7713砱 7752锽 7970DUN墩 2253吨 2254蹲 2255敦 2256顿 2257囤 2258钝 2259盾 2260遁 2261沌 6771飨 7632砘 7727砿 7766硌 7779醭 8527DUO掇 2262哆 2263多 2264夺 2265垛 2266躲 2267朵 2268跺 2269舵 2270剁 2271惰 2272堕 2273擢 6345擶 6365汵 6785线 7122璱 7262铂 7876裰 8154釔 8566E蛾 2274峨 2275鹅 2276俄 2277额 2278讹 2279娥 2280恶 2281厄 2282扼 2283遏 2284鄂 2285饿 2286噩 5612谓 5844垩 5949苊 6035茎 6113萊 6164擕 6332怮 6721屙 6977姄 7025樺 7378腭 7581锇 7916锠 7941鹈 8042耼 8206鲹 8689EI诀 5832EN恩 2287萖 6176摁 6284ER而 2288儿 2289耳 2290尔 2291饵 2292洱 2293二 2294贰 2301佴 5706迩 6939绶 7177铅 7879鸸 8025龬 8660FA发 2302罚 2303筏 2304伐 2305乏 2306阀 2307法 2308珐 2309垡 5950砝 7732FAN藩 2310帆 2311番 2312翻 2313樊 2314矾 2315钒 2316繁 2317凡 2318烦 2319反 2320返 2321范 2322贩 2323犯 2324饭 2325泛 2326蕃 6212蘩 6232幂 6506瓆 7283餄 7660硭 7818釞 8576FANG坊 2327芳 2328方 2329肪 2330房 2331防 2332妨 2333仿 2334访 2335纺 2336放 2337邡 5890璝 7242钖 7853舌 8419龠 8648FEI菲 2338非 2339啡 2340飞 2341肥 2342匪 2343诽 2344吠 2345肺 2346废 2347沸 2348费 2349芾 6032犽 6584怦 6713沥 6839妃 6990纼 7119榏 7328脅 7572飛 7619扉 7673锧 7948痄 8082蜈 8267箶 8385舽 8468釽 8613鲮 8678FEN芬 2350酚 2351吩 2352氛 2353分 2354纷 2355坟 2356焚 2357汾 2358粉 2359奋 2360份 2361忿 2362愤 2363粪 2364偾 5739瀵 6915瓎 7291鲷 8687黦 8787FENG丰 2365封 2366枫 2367蜂 2368峰 2369锋 2370风 2371疯 2372烽 2373逢 2374冯 2375缝 2376讽 2377奉 2378凤 2379俸 5726酆 5926萁 6155攉 6384沣 6767砜 7731FOU否 2381蝁 8330FU佛 2380夫 2382敷 2383肤 2384孵 2385扶 2386拂 2387辐 2388幅 2389氟 2390符 2391伏 2392俘 2393服 2394浮 2401涪 2402福 2403袱 2404弗 2405甫 2406抚 2407辅 2408俯 2409釜 2410斧 2411脯 2412腑 2413府 2414腐 2415赴 2416副 2417覆 2418赋 2419复 2420傅 2421付 2422阜 2423父 2424腹 2425负 2426富 2427讣 2428附 2429妇 2430缚 2431咐 2432匐 5775凫 5776郛 5914芙 6029苡 6062苵 6082茔 6119茫 6142拊 6252擐 6327幁 6505怑 6686泄 6870艴 6985孚 7058驸 7066纯 7106纱 7108瓈 7285昝 7471祝 7680砦 7741硇 7774硈 7775硲 7823镒 7991镚 8005蚨 8222蜂 8261蜕 8280蜘 8283艈 8479醵 8535醸 8538龦 8654鲻 8691GA噶 2433嘎 2434尬 6246尕 7056尜 7057旮 7424钆 7837GAI该 2435改 2436概 2437钙 2438盖 2439溉 2440丐 5604陔 5875坄 5982橘 7414昖 7464GAN干 2441甘 2442杆 2443柑 2444竿 2445肝 2446赶 2447感 2448秆 2449敢 2450赣 2451圳 5965苘 6053尴 6247撻 6306汯 6779沤 6838澉 6887纭 7104樛 7347旰 7426矸 7723疳 8065艔 8491GANG冈 2452刚 2453钢 2454缸 2455肛 2456纲 2457岗 2458港 2459杠 2460祻 7716硳 7824筻 8364GAO篙 2461皋 2462高 2463膏 2464羔 2465糕 2466搞 2467镐 2468稿 2469告 2470睾 5626设 5830郜 5912藁 6227绒 7141榓 7332榕 7334旳 7429锆 7915GE哥 2471歌 2472搁 2473戈 2474鸽 2475胳 2476疙 2477割 2478革 2479葛 2480格 2481蛤 2482阁 2483隔 2484铬 2485个 2486各 2487鬲 5610仡 5678劯 5933圪 5957坚 6010嗊 6435昵 7501膈 7585砮 7749锪 7951袼 8143虼 8220舍 8420鳞 8732GEI给 2488GEN根 2489跟 2490亘 5608范 6102擼 6371舷 8462GENG耕 2491更 2492庚 2493羹 2494埂 2501耿 2502梗 2503攁 6376馄 6657纷 7114龱 8665GONG工 2504攻 2505功 2506恭 2507龚 2508供 2509躬 2510公 2511宫 2512弓 2513巩 2514汞 2515拱 2516 贡 2517 共 2518 绷 7178 肱 7537 蚣 8228 釱 8601 GOU 钩 2519 勾 2520 沟 2521 苟 2522 狗 2523 垢 2524 构 2525 购 2526 够 2527 佝 5694 许 5824 幔 6524 逾 6960 姐 7037 绌 7135 璮 7259 昣 7477 飘 7616 蝔 8349 箵 8384 鳖 8724 GU辜 2528 菇 2529 咕 2530 箍 2531 估 2532 沽 2533 孤 2534 姑 2535 鼓 2536 古 2537 蛊 2538 骨 2539 谷 2540 股 2541 故 2542 顾 2543固 2544雇 2545嘏 5637讬 5812菾 6152幠 6536汩 6773瓇 7284樻 7379昪 7484昬 7486臌 7591飙 7617硨 7813硴 7825钲 7860锗 7932镨 8019病 8083蛄 8233艗 8494釯 8593鲱 8681鳛 8729GUA刮 2546瓜 2547剐 2548寡 2549挂 2550褂 2551卦 5652讴 5820擞 6341璼 7273胯 7550鸹 8027GUAI乖 2552拐 2553怪 2554GUAN棺 2555关 2556官 2557冠 2558观 2559管 2560馆 2561罐 2562惯 2563灌 2564贯 2565倌 5736茙 6124掼 6272沨 6842盥 7834鹗 8057矜 8170鳂 8704GUANG光 2566广 2567逛 2568擰 6359犷 6578璹 7270胴 7555GUI瑰 2569规 2570圭 2571硅 2572归 2573龟 2574闺 2575轨 2576鬼 2577诡 2578癸 2579桂 2580柜 2581跪 2582贵 2583刽 2584匦 5648刿 5659饼 6649宄 6919妮 7003瓀 7277旷 7433昆 7448镜 8007箿 8394龩 8657鳊 8712GUN辊 2585滚 2586棍 2587衮 5782纾 7121砻 7762鲧 8671GUO锅 2588郭 2589国 2590果 2591裹 2592过 2593馘 5769坈 5986掴 6266擘 6335帼 6494幢 6538狊 6603瓕 7304虢 7529耰 8188蜉 8268蜊 8269HA哈 2594铔 7894HAI骸 2601孩 2602海 2603氦 2604亥 2605害 2606骇 2607嗒 6443胹 7560醢 8516HAN酣 2608憨 2609邯 2610韩 2611含 2612涵 2613寒 2614函 2615喊 2616罕 2617翰 2618撼 2619捍 2620旱 2621憾 2622悍 2623焊 2624汗 2625汉 2626邗 5885菿 6153撖 6294恔 6759瀚 6911昅 7447飲 7642耴 8192耻 8205蚶 8232黬 8793HANG夯 2627杭 2628航 2629汬 6776纵 7112耶 8194HAO壕 2630嚎 2631豪 2632毫 2633郝 2634好 2635耗 2636号 2637浩 2638萙 6179薅 6222嗍 6438嗪 6467濠 6909灏 6916旱 7427镞 8009聁 8211蚝 8226HE呵 2639喝 2640荷 2641菏 2642核 2643禾 2644和 2645何 2646合 2647盒 2648貉 2649阂 2650河 2651涸 2652赫 2653褐 2654鹤 2655贺 2656训 5813劮 5932壑 5954嗇 6432恑 6756纥 7092旸 7434盍 7833耸 8202蚵 8234艀 8471HEI嘿 2657黑 2658HEN痕 2659很 2660狠 2661恨 2662HENG哼 2663亨 2664横 2665衡 2666恒 2667蘅 6231绺 7181璿 7276HONG轰 2668哄 2669烘 2670虹 2671鸿 2672洪 2673宏 2674弘 2675红 2676黉 5768訇 5774讧 5807茇 6106蕻 6214薨 6216恁 6740汼 6792HOU喉 2677侯 2678猴 2679吼 2680厚 2681候 2682后 2683坙 6009幽 6565逅 6943瘊 8090箴 8383舰 8455龧 8655鳝 8731HU呼 2684乎 2685忽 2686瑚 2687壶 2688葫 2689胡 2690蝴 2691狐 2692糊 2693湖 2694弧 2701虎 2702唬 2703护 2704互 2705沪 2706户 2707冱 5792攑 6392嗸 6481幎 6518狐 6609怊 6679怪 6717沎 6816滹 6879琥 7190樚 7346橁 7385飚 7618飫 7635飶 7646戽 7670扈 7672祜 7679镢 8013鸾 8032鹇 8041鹕 8055蝎 8343艤 8513釬 8590HUA花 2708哗 2709华 2710猾 2711滑 2712画 2713划 2714化 2715话 2716驾 7072璾 7275砉 7725铒 7892HUAI槐 2717徊 2718怀 2719淮 2720坏 2721釉 8555HUAN欢 2722环 2723桓 2724还 2725缓 2726换 2727患 2728唤 2729痪 2730豢 2731焕 2732涣 2733宦 2734幻 2735郇 5908奂 5928茩 6140撼 6307圜 6487狜 6621汿 6801沛 6829漶 6881寰 6930逷 6953绢 7157锣 7944鲩 8673鳽 8763HUANG荒 2736慌 2737黄 2738磺 2739蝗 2740簧 2741皇 2742凰 2743惶 2744煌 2745晃 2746幌 2747恍 2748谎 2749隍 5882庁 6569沰 6850泈 6874逺 6956璜 7211肓 7533癀 8105蜫 8308箳 8382鲼 8692HUI灰 2750挥 2751辉 2752徽 2753恢 2754蛔 2755回 2756毁 2757悔 2758慧 2759卉 2760惠 2761晦 2762贿 2763秽 2764会 2765烩 2766汇 2767讳 2768诲 2769绘 2770讶 5822英 6078苹 6086蕙 6205擩 6352擱 6360嗀 6425怽 6736沅 6807沉 6811彗 6971绉 7132昃 7445祮 7703虺 8219蜶 8319鴀 8766HUN荤 2771昏 2772婚 2773魂 2774浑 2775混 2776讻 5827饱 6638恍 6752況 6867HUO豁 2777活 2778伙 2779火 2780获 2781或 2782惑 2783霍 2784货 2785祸 2786劐 5669藿 6229擀 6311嗲 6475狞 6623钬 7856锘 7933镃 7976耠 8175蜹 8322JI击 2787圾 2788基 2789机 2790畸 2791稽 2792积 2793箕 2794肌 2801饥 2802迹 2803激 2804讥 2805鸡 2806姬 2807绩 2808缉 2809吉 2810极 2811棘 2812辑 2813籍 2814集 2815及 2816 急 2817 疾 2818 汲 2819 即 2820 嫉 2821 级 2822 挤 2823 几 2824 脊 2825 己 2826 蓟 2827 技 2828 冀 2829 季 2830 伎 2831 祭 2832 剂 2833 悸 2834 济 2835 寄 2836 寂 2837 计 2838 记 2839 既 2840 忌 2841 际 2842 妓 2843 继 2844 纪 2845 丌 5602 亟 5629 乩 5632 剞 5662 佶 5705 偈 5742 讵 5821 墼 5952 芨 6024 芰 6033 苼 6089 萚 6180 蕺 6210 掎 6265 擉 6320 擧 6350擷 6366攈 6383幃 6507幱 6553沇 6809屐 6976骍 7087绥 7160绪 7165楫 7314樶 7374橔 7410橕 7411昛 7469星 7473昭 7487飜 7620矶 7722硺 7831镑 7990镗 8002瘠 8104虮 8217蝈 8337蝊 8339舸 8463釄 8550采 8553釻 8611龭 8661鲪 8674鳷 8757鴂 8768JIA嘉 2846枷 2847夹 2848佳 2849家 2850加 2851荚 2852颊 2853贾 2854甲 2855钾 2856假 2857稼 2858价 2859架 2860驾 2861嫁 2862伽 5704郏 5903萑 6171幑 6521沂 6804迦 6940绵 7176橓 7409胫 7546祭 7702铈 7882锯 7956疺 8072瘕 8093袷 8142蛱 8244笳 8353舛 8434醼 8542JIAN歼 2863监 2864坚 2865尖 2866笺 2867间 2868煎 2869兼 2870肩 2871艰 2872奸 2873缄 2874茧 2875检 2876柬 2877碱 2878硷 2879拣 2880捡 2881简 2882俭 2883剪 2884减 2885荐 2886槛 2887鉴 2888践 2889贱 2890见 2891键 2892箭 2893件 2894健 2901舰 2902剑 2903饯 2904渐 2905溅 2906涧 2907建 2908僭 5752谏 5841谠 5857菻 6149萝 6183搛 6286河 6853蹇 6931謇 6932绕 7144璘 7237瓖 7305橑 7407橙 7415昦 7480是 7489昺 7506脉 7576硗 7790锌 7921鹍 8047裥 8148蝋 8340舾 8469醴 8534量 8561龴 8668鳓 8721JIANG僵 2909姜 2910将 2911浆 2912江 2913疆 2914蒋 2915桨 2916奖 2917讲 2918匠 2919酱 2920降 2921苿 6092沌 6814纶 7113统 7154昧 7481硁 7768耨 8180舶 8461艑 8488JIAO蕉 2922椒 2923礁 2924焦 2925胶 2926交 2927郊 2928浇 2929骄 2930娇 2931嚼 2932搅 2933铰 2934矫 2935侥 2936脚 2937狡 2938角 2939饺 2940缴 2941绞 2942剿 2943教 2944酵 2945轿 2946较 2947叫 2948窖 2949佼 5714僬 5753艽 6020苽 6090挢 6256嗤 6461幙 6529庄 6572妺 7015敫 7524镝 8008鹒 8052蛹 8252醦 8520釅 8551龮 8662JIE揭 2950接 2951皆 2952秸 2953街 2954阶 2955截 2956劫 2957节 2958桔 2959杰 2960捷 2961睫 2962竭 2963洁 2964结 2965解 2966姐 2967戒 2968藉 2969芥 2970界 2971借 2972介 2973疥 2974诫 2975届 2976讦 5806拮 6255喈 6414嗟 6421姇 7028孑 7061瓁 7278砶 7757疖 8060耷 8201蚧 8227舢 8441龪 8658鳘 8726JIN巾 2977筋 2978斤 2979金 2980今 2981津 2982襟 2983紧 2984锦 2985仅 2986谨 2987进 2988靳 2989晋 2990禁 2991近 2992烬 2993浸 2994尽 3001劲 3002卺 5865茄 6103茡 6132嗫 6468饶 6643馆 6659妬 7001经 7138瑾 7210榛 7340昗 7465昤 7478衿 8138JING荆 3003兢 3004茎 3005睛 3006晶 3007鲸 3008京 3009惊 3010精 3011粳 3012经 3013井 3014警 3015景 3016颈 3017静 3018境 3019敬 3020镜 3021径 3022痉 3023靖 3024竟 3025竞 3026净 3027刭 5657儆 5751阱 5869茝 6128狗 6616怶 6729汾 6794迳 6941弪 6982姅 7026肼 7534胳 7554脃 7570飢 7626JIONG炯 3028窘 3029迥 6936扃 7671JIU揪 3030究 3031纠 3032玖 3033韭 3034久 3035灸 3036九 3037酒 3038厩 3039救 3040旧 3041臼 3042舅 3043咎 3044就 3045疚 3046僦 5754啾 6417恇 6746璤 7249璽 7274镤 8015鹓 8053艊 8481鳻 8761JU鞠 3047拘 3048狙 3049疽 3050居 3051驹 3052菊 3053局 3054咀 3055矩 3056举 3057沮 3058聚 3059拒 3060据 3061巨 3062具 3063距 3064踞 3065锯 3066俱 3067句 3068惧 3069炬 3070剧 3071倨 5738讪 5810苣 6036苝 6058苯 6076掬 6268遃 6965屦 6980琚 7202瓘 7307榘 7316榊 7323樥 7357昮 7488飓 7611钓 7850锏 7924窭 8132裾 8153艋 8482醨 8522釓 8565鈄 8620龒 8634龔 8636鳔 8722JUAN捐 3072鹃 3073娟 3074倦 3075眷 3076卷 3077绢 3078鄄 5918狃 6590沖 6824瓃 7280蠲 7835锚 7935锫 7952龑 8633JUE撅 3079攫 3080抉 3081掘 3082倔 3083爵 3084觉 3085决 3086诀 3087绝 3088厥 5642劂 5667谣 5860矍 5939蕨 6207嗠 6457嗬 6469幤 6540狘 6617孓 7062绮 7169瓉 7286樟 7351餇 7663锺 7967釜 8574釭 8591JUN均 3089菌 3090钧 3091军 3092君 3093峻 3094俊 3101竣 3102浚 3103郡 3104骏 3105捃 6260皲 8168筠 8362鴃 8769KA喀 3106咖 3107卡 3108咯 3109佧 5691擜 6339胩 7544KAI开 3110揩 3111楷 3112凯 3113慨 3114剀 5660址 5978萆 6160忾 6673怘 6693铎 7888锋 7920锞 7939KAN刊 3115堪 3116勘 3117坎 3118砍 3119 看 3120 侃 5709 茉 6108 橖 7412 硅 7772 硦 7811 KANG 康 3121 慷 3122 糠 3123 扛 3124 抗 3125 亢 3126 炕 3127 伉 5688 恃 6742 钪 7854 KAO 考 3128 拷 3129 烤 3130 靠 3131 尻 6974 璳 7264 昱 7491 铃 7877 KE坷 3132 苛 3133 柯 3134 棵 3135 磕 3136 颗 3137 科 3138 壳 3139 咳 3140 可 3141 渴 3142 克 3143 刻 3144 客 3145 课 3146 嗅 6430 幏 6519 怚 6701油 6859骂 7076绅 7128绯 7170樼 7380晈 7520硢 7807钳 7861锕 7930镔 7993疴 8066窠 8129耺 8204蜗 8282鳟 8733KEN肯 3147啃 3148垦 3149恳 3150裉 8144KENG坑 3151吭 3152铠 7912KONG空 3153恐 3154孔 3155控 3156倥 5737幣 6539箮 8377KOU抠 3157口 3158扣 3159寇 3160苕 6050蔻 6202擊 6321硋 7778筘 8356KU枯 3161哭 3162窟 3163苦 3164酷 3165库 3166裤 3167刳 5658坕 6005喾 6423纴 7111鳚 8728KUA夸 3168垮 3169挎 3170跨 3171胯 3172侉 5708KUAI块 3173筷 3174侩 3175快 3176蒯 5665郐 5906擵 6364犿 6586胷 7558KUAN宽 3177款 3178鳣 8737KUANG匡 3179筐 3180狂 3181框 3182矿 3183眶 3184旷 3185况 3186讲 5818访 5831邝 5887圹 5959夼 6237擦 6349纩 7094昒 7460KUI亏 3187盔 3188岿 3189窥 3190葵 3191奎 3192魁 3193傀 3194馈 3201愧 3202溃 3203馗 5624匮 5649夔 5771隗 5883萈 6162揆 6281喹 6413喟 6416怟 6706怭 6720逵 6951昈 7450硠 7805耱 8189蜖 8281箲 8381醿 8545KUN坤 3204昆 3205捆 3206困 3207怠 6707恆 6745琨 7191锖 7931艢 8511鲯 8679鳳 8753KUO括 3208扩 3209廓 3210阔 3211蛷 8250LA垃 3212拉 3213喇 3214蜡 3215腊 3216辣 3217啦 3218遇 6969旯 7425砤 7739瘌 8088LAI莱 3219来 3220赖 3221幝 6533幾 6566沓 6821濑 6894昙 7467硖 7789铞 7910癞 8114籁 8405LAN蓝 3222婪 3223栏 3224拦 3225篮 3226阑 3227兰 3228澜 3229谰 3230揽 3231览 3232懒 3233缆 3234烂 3235滥 3236幌 6516泋 6877榄 7313飝 7621硸 7829锾 7971褴 8160LANG琅 3237榔 3238狼 3239廊 3240郎 3241朗 3242浪 3243茚 6125萟 6185攘 6405恈 6747锍 7922镓 7992蜐 8275LAO捞 3244劳 3245牢 3246老 3247佬 3248姥 3249酪 3250烙 3251涝 3252攀 6375幜 6532璴 7265铄 7878铝 7909疾 8076耢 8176醤 8518LE勒 3253乐 3254仂 5676擌 6323汮 6778鳄 8706LEI雷 3255镭 3256蕾 3257磊 3258累 3259儡 3260垒 3261擂 3262肋 3263类 3264泪 3265羸 5790讳 5819嗖 6447嫘 7048给 7148樧 7359耒 8171艡 8510LENG棱 3266楞 3267冷 3268坘 6008怯 6722LI厘 3269梨 3270犁 3271黎 3272篱 3273狸 3274离 3275漓 3276理 3277李 3278里 3279鲤 3280礼 3281莉 3282荔 3283吏 3284栗 3285丽 3286厉 3287励 3288砾 3289历 3290利 3291傈 3292例 3293俐 3294痢 3301立 3302粒 3303沥 3304隶 3305力 3306璃 3307哩 3308俪 5719俚 5721郦 5910地 5962苈 6034茑 6116萛 6181藜 6228擔 6331攙 6406喱 6412狄 6591沾 6864澧 6902逦 6946妽 7018嫠 7043骀 7074结 7142璓 7232環 7261橂 7386戾 7669砟 7734硵 7826硹 7830锂 7914鸽 8031疠 8061疬 8063蛎 8235蜀 8259蜾 8327笠 8350箷 8386舨 8447醩 8523醺 8540釸 8608龲 8666鳍 8715黢 8783LIA俩 3309LIAN联 3310莲 3311连 3312镰 3313廉 3314怜 3315涟 3316帘 3317敛 3318脸 3319链 3320恋 3321炼 3322练 3323蔹 6192奁 6238潋 6882濂 6905琏 7186楝 7312樳 7371臁 7601裢 8145裣 8147蜼 8325龳 8667LIANG粮 3324凉 3325梁 3326粱 3327良 3328两 3329辆 3330量 3331晾 3332亮 3333谅 3334坞 6014瓔 7303釆 8552釶 8606鳩 8743LIAO撩 3335聊 3336僚 3337疗 3338燎 3339寥 3340辽 3341潦 3342了 3343撂 3344镣 3345廖 3346料 3347蓼 6204尥 6245嗡 6458狙 6618寮 6928绝 7152钊 7841鹑 8051LIE列 3348裂 3349烈 3350劣 3351猎 3352冽 5793坊 5988捩 6270擫 6354沁 6803艌 8483釣 8581鳾 8764LIN琳 3353林 3354磷 3355霖 3356临 3357邻 3358鳞 3359淋 3360凛 3361赁 3362吝 3363蔺 6194攍 6388平 6555馉 6662怺 6733遂 6964権 7361橏 7405膦 7602硧 7812舭 8452釡 8579鴉 8775LING拎 3364玲 3365菱 3366零 3367龄 3368铃 3369伶 3370羚 3371凌 3372灵 3373陵 3374岭 3375领 3376另 3377令 3378酃 5925苢 6063擟 6342嗹 6482汶 6786纺 7117璭 7258瓌 7289橜 7418耮 8186蛉 8240舺 8465鲬 8676LIU溜 3379琉 3380榴 3381硫 3382馏 3383留 3384刘 3385瘤 3386流 3387柳 3388六 3389沍 6815遀 6962骈 7082绁 7124飤 7628飾 7654锊 7919锭 7954鹐 8050龜 8644LONG龙 3390聋 3391咙 3392。

汉字字符区位码

汉字字符区位码

汉字字符区位码
汉字字符区位码是一个汉字在计算机中的编码表示方式,用于在计算机内部存储、处理和传输汉字信息。

它是由 94 个区和 94 个位组成的二维编码体系,每个汉字都对应一个唯一的区位码。

区位码的区码和位码都采用两位十进制数字表示,区码表示汉字所在的区,位码表示汉字所在的位。

区位码的前两位是区码,后两位是位码。

例如,汉字“中”的区位码是“5448”,其中“54”是区码,表示“中”字在第 54 区,“48”是位码,表示“中”字在第 54 区的第 48 位。

区位码的编码范围是 1 到 94,每个区有 94 个汉字,因此总共可以表示 94*94=8836 个汉字。

区位码是一种早期的汉字编码方案,它的优点是简单直观,容易理解和记忆,但也存在一些缺点,例如编码空间有限,无法表示所有的汉字,而且不利于汉字的输入和输出。

随着计算机技术的发展,汉字编码方案也不断改进和完善,出现了 GB2312、GBK、UTF-8 等编码方案,它们在编码空间、字符集范围、编码效率等方面都有了很大的提高。

区位码国标码机内码的转换公式

区位码国标码机内码的转换公式

区位码国标码机内码的转换公式
区位码、国标码和机内码是用于汉字编码的三种不同方式。

每种方式
都有相应的转换公式。

1. 区位码(QW Code):
区位码是按照笔画的先后顺序给每个汉字编码的方式。

汉字的区位码
由两个数字组成,前一个数字表示汉字所在的汉字区的编码,后一个数字
表示汉字在该区的顺序编码。

转换公式如下:
区位码=(区码-16)*94+位码+161
2. 国标码(GB Code):
国标码是按照笔画的先后顺序给每个汉字编码的方式,与区位码相似。

汉字的国标码由两个数字组成,前一个数字表示汉字所在的编码区的编码,后一个数字表示汉字在该区的顺序编码。

转换公式如下:
国标码=(区码-16)*94+位码+161
3. 机内码(Internal Code):
机内码是计算机内部使用的编码方式,与区位码和国标码不同,它用
一个整数表示一个汉字。

机内码的转换公式如下:
机内码=(区码+128)*256+位码
需要注意的是,上述公式中的区码和位码应该是指汉字的区位码或国
标码的区码和位码,而不是指ASCII码或Unicode码。

这些转换公式可以用于不同编码间的转换。

例如,如果已知一个汉字
的区位码,可以通过区位码的转换公式将其转换为国标码或机内码。

同样
地,如果已知一个汉字的国标码或机内码,也可以通过相应的公式将其转换为区位码或其他编码。

总结:区位码国标码和机内码是用于汉字编码的三种不同方式,每种方式都有相应的转换公式。

在转换时需要根据公式将一个编码方式的值转换为另一种编码方式的值。

国标码区位码说明

国标码区位码说明

1.国标码:“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。

国标码是二字节码, 用两个七位二进制数编码表示一个汉字。

2.区位码:为了使每一个汉字有一个全国统一的代码,区位码是国家规定的94*94的一个方阵,其中每行叫做一个区,每列叫做一个位,组合起来就组成了区位码,我们可以在相关网站查询某个汉字的区位码,例如汉字“我”的区位码是46 50 ,标识“我”在46区,50位。

3.机内码:机内码是在计算机中存储的汉子编码。

三者之间的关系。

国标码=16进制的区位码+2020H机内码=国标码+8080H例如“我”的的区位码是46 50 这是10进制的转化为16进制:2E32H所以“我”的国标码:2E32H+2020H=4E52H所以“我”机内码:4E52H+8080H=CED2(其实就是把二进制国标码的最高位置1,注意看E和2都没有变化)机内码转化为2进制就可以再计算机中存储,这里面转化为10进制可以输出。

CED2的10进制为:52946,这里我们打开记事本,按住alt建,输入52946即可以看见“我”,因为52946是“我”的机内码的10进制。

这里面有两个问题:1.为什么不用区位码直接表示国标码,为要加上2020H?2.机内码为什么要在国标码的基础上加上8080H,而不是直接只用国标码作为机内码?这里我先解决第二个问题,国标码就是由2个ASCII码组成,为什么呢(这里简单介绍一下,后面会详细说明)?因为在英文中只有26个字母,所以用一个字节就可以表示了,用一个字节的话可以表示2^8个符号,就是256个符号,绰绰有余啊,于是外国人制订了规范,规定0-127(00000000-01111111)个字符他们用了,用来表示英文字符和一些符号,就是ASCII码,但是汉字有很多,256个根本就不够,于是国家就用两个ASCII来表示一个汉字,就是2个字节标识一个汉字,例如“保”的区位码为:1703,所以国标码为:1703的10进制+2020H=3123H,然而:31H 和23H在ASCII中式有值的,31H在ASCII中表示数字1,23H表示的是“#”(这个可以在网上查询),那么如果我以国标码作为机内码的话,如果内存中有两个字节为31H和23H,那么到底是表示汉字“保”呢?还是字符1#呢?这样就有了歧义,但是解决办法就有了,0-127不是被英文字符占了吗?那么我就用127之后的来表示不就可以了吗?于是我把汉字的两个字节每个字节机上128(16进制就是80H),于是问题解决了,汉字“保”的机内码变为:3123H+8080H=B2A3H(10进制就是45475),打开记事本按住alt+45475看看是不是“保”,这样就不会和英文的ASCII冲突了。

汉字编码标准

汉字编码标准

4.1.2 汉字编码标准为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。

这就是汉字的交换码。

一、国标码国标码就是《信息交换用汉字编码字符集》(GB 2312-80) 为汉字规定的代码,在代码表中,纵向分为0-93 ,共94 行。

横向也分为0-93 ,共94 列。

行列均用7 位二进制表示,即一个汉字要用两个字节。

也可用十六进制表示。

国标码查表原则是先列后行,例如:图 4.2 GB2312-80 代码表(局部)国标码共收集7445 个,一级汉字3755 个, 按汉语拼音排序;二级汉字3008 个, 按部首笔画排序。

二、区位码区位码是国标码的另外的一种表示形式。

将行号称为区号,将列号称为位号,分别有94 个区,94 个位。

区号和位号均用两位十进制的数表示,据此得出了区位码汉字输入法。

例:“ 啊” 的区位码是1601 ,表示啊字在第16 区,第 1 位,“ 保” 的区位码是1703 ,表示保字在第17 区,第 3 位。

三、机内码机内码是在计算机内部使用的表示汉字的代码,用两字节二进制表示。

(在国标码每个字节前添1 就是机内码,添1 是为了确保与英文字符区分开)。

输入汉字→国标码( 区位码) →机内码→存储转换关系:十六进制的区位码+ 2020H →国标码十六进制的国标码+ 8080H →机内码8080H 等于二进制的l000000010000000 ,国标码加上8080H ,可以保证机内码每个字节首位均为 1 。

例:“ 啊” 的区位码是:1601 转换成十六进制10011001 +2020=3021 (国标码)再转换成机内码:3021+8080=B0A1二进制表示为1011000010100001 (B0A1 )中山市港口理工学校计算机科温金辉。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉字编码及区位码查询算法为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。

到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,简称GB18030。

由于国标码是四位十六进制,为了便于交流,大家常用的是四位十进制的区位码。

所有的国标汉字与符号组成一个94×94的矩阵。

在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。

一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。

在汉字的区位码中,高两位为区号,低两位为位号。

在区位码中,01-09区为682个特殊字符,16-87区为汉字区,包含6763个汉字。

其中16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。

从汉字到区位码的转换。

区位码是与汉字一一对应的编码,用四位数字表示,前两位从01 到94称区码,后两位从01到94称位码。

一个汉字的前一半为“160+区码”的字符,后一半为“160+位码”的字符。

例如:“刘”的区位码是3385,其意为区码33位码85,它是由160+33=193和160+85=245的两个字节组成。

即C1F5,它就是汉字的gb2312 编码。

下面程序将汉字gb2312 转为相应的区位码:#include <iostream>#include <iomanip>using namespace std;int main(){// temp[0] 为高字节,temp[1] 为低字节// 当输入单个ascii 字符时,只存进temp[0]// 当输入的不是中文或单个ascii 字符时,程序退出unsigned char temp[2];cin >> temp;while(temp[1]){cout << setw(2) << setfill('0') << temp[0] - 160; // 高2 位cout << setw(2) << setfill('0') << temp[1] - 160 << endl; // 低2 位// 输入下一个字符前,先将temp[1] 清零temp[1] = 0;cin >> temp;}return 0;}字符编码简介Unicode是一种字符编码规范。

先从ASCII说起。

ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits)。

因此,ASCII编码可以表示的最大字符数是256,其实英文字符并没有那么多,一般只用前128个(最高位为0),其中包括了控制字符、数字、大小写字母和其他一些符号。

而最高位为1的另128个字符被成为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其他符号。

这种字符编码规范显然用来处理英文没有什么问题。

(实际上也可以用来处理法文、德文等一些其他的西欧字符,但是不能和英文通用),但是面对中文、阿拉伯文之类复杂的文字,255个字符显然不够用,于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB2312-80”,它是和ASCII兼容的一种编码规范,其实就是利用扩展ASCII没有真正标准化这一点,把一个中文字符用两个扩展ASCII字符来表示。

但是这个方法有问题,最大的问题就是,中文文字没有真正属于自己的编码,因为扩展ASCII码虽然没有真正的标准化,但是PC里的ASCII码还是有一个事实标准的(存放着英文制表符),所以很多软件利用这些符号来画表格。

这样的软件用到中文系统中,这些表格符就会被误认作中文字,破坏版面。

而且,统计中英文混合字符串中的字数,也是比较复杂的,我们必须判断一个ASCII码是否扩展,以及它的下一个ASCII是否扩展,然后才“猜”那可能是一个中文字。

总之当时处理中文是很痛苦的。

而更痛苦的是GB2312是国家标准,台湾当时有一个Big5编码标准,很多编码和GB是相同的,所以……,嘿嘿。

这时候,我们就知道,要真正解决中文问题,不能从扩展ASCII的角度入手,也不能仅靠中国一家来解决。

而必须有一个全新的编码系统,这个系统要可以将中文、英文、法文、德文……等等所有的文字统一起来考虑,为每个文字都分配一个单独的编码,这样才不会有上面那种现象出现。

于是,Unicode诞生了。

Unicode有两套标准,一套叫UCS-2(Unicode-16),用2个字节为字符编码,另一套叫UCS-4(Unicode-32),用4个字节为字符编码。

以目前常用的UCS-2为例,它可以表示的字符数为2^16=65535,基本上可以容纳所有的欧美字符和绝大部分的亚洲字符。

UTF-8的问题后面会提到。

在Unicode里,所有的字符被一视同仁。

汉字不再使用“两个扩展ASCII”,而是使用“1个Unicode”,注意,现在的汉字是“一个字符”了,于是,拆字、统计字数这些问题也就自然而然的解决了。

但是,这个世界不是理想的,不可能在一夜之间所有的系统都使用Unicode来处理字符,所以Unicode在诞生之日,就必须考虑一个严峻的问题:和ASCII 字符集之间的不兼容问题。

我们知道,ASCII字符是单个字节的,比如“A”的ASCII是65。

而Unicode是双字节的,比如“A”的Unicode是0065,这就造成了一个非常大的问题:以前处理ASCII的那套机制不能被用来处理Unicode了。

另一个更加严重的问题是,C语言使用'\0'作为字符串结尾,而Unicode里恰恰有很多字符都有一个字节为0,这样一来,C语言的字符串函数将无法正常处理Unicode,除非把世界上所有用C写的程序以及他们所用的函数库全部换掉。

于是,比Unicode更伟大的东东诞生了,之所以说它更伟大是因为它让Unicode 不再存在于纸上,而是真实的存在于我们大家的电脑中。

那就是:UTF。

UTF = UCS Transformation Format UCS转换格式。

它是将Unicode编码规则和计算机的实际编码对应起来的一个规则。

现在流行的UTF有2种:UTF-8和UTF-16。

其中UTF-16和上面提到的Unicode本身的编码规范是一致的,这里不多说了。

而UTF-8不同,它定义了一种“区间规则”,这种规则可以和ASCII编码保持最大程度的兼容。

UTF-8有点类似于Haffman编码,它将Unicode编码为00000000-0000007F的字符,用单个字节来表示;00000080-000007FF 的字符用两个字节表示00000800-0000FFFF的字符用3字节表示。

因为目前为止Unicode-16规范没有指定FFFF以上的字符,所以UTF-8最多是使用3个字节来表示一个字符。

但理论上来说,UTF-8最多需要用6字节表示一个字符。

在UTF-8里,英文字符仍然跟ASCII编码一样,因此原先的函数库可以继续使用。

而中文的编码范围是在0080-07FF之间,因此是2个字节表示(但这两个字节和GB编码的两个字节是不同的),用专门的Unicode处理类可以对UTF编码进行处理。

下面说说中文的问题。

由于历史的原因,在Unicode之前,一共存在过3套中文编码标准。

GB2312-80,是中国大陆使用的国家标准,其中一共编码了6763个常用简体汉字。

Big5,是台湾使用的编码标准,编码了台湾使用的繁体汉字,大概有8千多个。

HKSCS,是中国香港使用的编码标准,字体也是繁体,但跟Big5有所不同。

这3套编码标准都采用了两个扩展ASCII的方法,因此,几套编码互不兼容,而且编码区间也各有不同。

因为其不兼容性,在同一个系统中同时显示GB和Big5基本上是不可能的。

后来,由于各方面的原因,国际上又制定了针对中文的统一字符集GBK和GB18030,其中GBK已经在Windows、Linux等多种操作系统中被实现。

GBK兼容GB2312,并增加了大量不常用汉字,还加入了几乎所有的Big5中的繁体汉字。

但是GBK中的繁体汉字和Big5中的几乎不兼容。

GB18030相当于是GBK的超集,比GBK包含的字符更多。

谈谈Unicode 编码,简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。

所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。

整理这篇文章的动机是两个问题:问题一:使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。

同样是txt文件,Windows是怎样识别编码方式的呢?Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。

但这些标记是基于什么标准呢?问题二:最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。

对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。

但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。

查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。

写成一篇文章,送给有过类似疑问的朋友。

本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。

0、big endian和little endianbig endian和little endian是CPU处理多字节数的不同方式。

例如“汉”字的Unicode编码是6C49。

那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。

若是将49写在前面,就是little endian。

1、字符编码、内码,顺带介绍汉字编码字符必须编码后才能被计算机处理。

计算机使用的缺省编码方式就是计算机的内码。

早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

相关文档
最新文档