蒙古文国际标准编码诸规则
多文种系统中的蒙古文通用编码

多文种系统中的蒙古文通用编码
巴力登
【期刊名称】《中文信息》
【年(卷),期】1992()3
【总页数】5页(P52-56)
【关键词】编码;蒙文
【作者】巴力登
【作者单位】
【正文语种】中文
【中图分类】TP391
【相关文献】
1.蒙古文编码国家标准推广中存在的问题 [J], 梁金宝
2.蒙古文信息处理通用系统内部码体系结构详析 [J], 拉西吉格
3.现行蒙古文UNICODE编码应用中存在的问题与原因及对策研究 [J], 都仁;
4.蒙古文国际通用编码方案 [J], 巴力登
5.蒙古文编码转换通用算法研究 [J], 斯.劳格劳
因版权原因,仅展示原文概要,查看原文内容请购买。
各国文字Unicode编码范围

[心得] 各種語系的unicode對應以及local編碼方式更改我的閱讀文章字型大小大小作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/7/4 下午03:06:14一.英文Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)locale編碼: ANSI1. ANSIHTML charset: us-asciiRTF charset: 0編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)二.中文Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB1.BIG5HTML charset: big5RTF charset: 136編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE備註:big5+目前幾乎無人使用,故省略不提SHTML charset: 無(應為euc-tw或iso-2022-cn, 但IE並不支援)RTF charset: 無編碼方式: 多byte語系byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FEbyte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同(即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了3.GBHTML charset: gb2312, gbk, euc-cnRTF charset: 134編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE三.日文Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理locale編碼: Shift-JIS, EUC-JP1.Shift-JISHTML charset: shift_jis, x-sjis, iso-2022-jpRTF charset: 128編碼方式: 單/雙byte語系byte 1範圍為A1-DF時為1 byte編碼byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC2.EUC-JPHTML charset: euc-jp, x-euc-jpRTF charset: 無編碼方式: 多byte語系byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DFbyte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FEbyte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE備註: IE不支援3 byte編碼部份四.韓文Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理locale編碼: Johab, EUC-KR1.JohabHTML charset: johabRTF charset: 130編碼方式: 雙byte語系byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FEbyte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE2.EUC-KRHTML charset: euc-kr, iso-2022-krRTF charset: 129編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE五.阿拉伯文Unicode範圍: 0600-06FF, 0750-077Flocale編碼: Windows1.WindowsHTML charset: windows-1256RTF charset: 178編碼方式: 1 byte語系作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/7/4 下午03:07:01六.泰文Unicode範圍: 0E00-0E7Flocale編碼: Windows1.WindowsHTML charset: windows-874RTF charset: 222編碼方式: 1 byte語系七.俄文Unicode範圍: 0400-052F (西里爾文)locale編碼: Windows, ISO, KOI8-U, KOI8-R1.WindowsHTML charset: windows-1251RTF charset: 204編碼方式: 1 byte語系2.ISOHTML charset: iso-8859-5RTF charset: 無編碼方式: 1 byte語系3.KOI8-UHTML charset: koi8-uRTF charset: 無編碼方式: 1 byte語系4.KOI8-RHTML charset: koi8-rRTF charset: 無編碼方式: 1 byte語系八.德文/法文Unicode範圍: 00C0-00FF(混用英文字母)備註:字母上面有2點者為德文, 字母上面有重音符號者為法文locale編碼: ANSI1.ANSIHTML charset: iso-8859-1, windows-1252RTF charset: 0編碼方式: 1 byte語系九.印尼文/馬來西亞文Unicode範圍: 同英文, 為拼音語系locale編碼: 同英文十.其他希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:49:11十.中歐語系Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)locale編碼: Windows, ISO1.WindowsHTML charset: windows-1250RTF charset: 238編碼方式: 1 byte語系2.ISOHTML charset: iso-8859-2RTF charset: 無編碼方式: 1 byte語系十一.希臘文Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFFlocale編碼: Windows1.WindowsHTML charset: windows-1253, iso8859-7 (後者IE不支援)RTF charset: 161編碼方式: 1 byte語系十二.希伯來文Unicode範圍: 0590-05FFlocale編碼: Windows1.WindowsHTML charset: windows-1255, iso8859-8 (後者IE不支援)RTF charset: 177編碼方式: 1 byte語系十三.土耳其文Unicode範圍: 同拉丁語文(混用英文)locale編碼: Windows1.WindowsHTML charset: windows-1254, iso8859-9 (後者IE不支援)RTF charset: 162編碼方式: 1 byte語系作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:49:59*** Unicode語系字碼分佈表英文0041-005A, 0061-007A中文2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF日文3040-30FF, 31F0-31FF韓文1100-11FF, 3130-318F, AC00-D7AF泰文0E00-0E7F寮文0E80-0EFF藏文0F00-0FFF彝文A000-A4CF蒙古文1800-18AF緬甸文1000-109F高棉文1780-17FF拉丁文(Latin) 00C0-02AF, 1E00-1EFF希臘文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF希伯來文(Hebrew) 0590-05FF阿拉伯文(Arabic) 0600-06FF, 0750-077F敘利亞文(Syriac) 0700-074F西里爾文(Cyrillic), 0400-052F亞美尼亞文(Armenian) 0530-058F孟加拉文(Bengali) 0980-09FF僧伽羅文(Sinhala,斯里蘭卡文) 0D80-0DFF喬治亞文(Georgian,英國古文) 10A0-10FF, 2D00-2D2F歐甘文(Ogham,愛爾蘭文) 1680-169F如尼文(Runic,北歐古文) 16A0-16FF塔納文(Thaana,一種印度文) 0780-07BF比哈文(Syloti Nagri,一種印度文) A800-A82F林布文(Limbu,一種印度文) 1900-194F布吉文(Buginese,一種印度文) 1A00-1A1F奧里雅文(Oriya,一種印度文) 0B00-0B7F泰米爾文(Tamil,一種印度文) 0B80-0BFF泰盧固文(Telugu,一種印度文) 0C00-0C7F卡納達文(Kannada,一種印度文) 0C80-0CFF天城體梵文(Devanagari,一種印度文) 0900-097F古爾穆基文(Gurmukhi,一種印度文) 0A00-0A7F古吉拉特文(Gujarati,一種印度文) 0A80-0AFF馬拉雅拉姆文(Malayalam,一種印度文) 0D00-0D7F他加祿文(Tagalog,一種菲律賓文) 1700-171F漢奴勞文(Hanunoo,一種菲律賓文) 1720-173FBuhid(一種菲律賓文) 1740-175FTagbanwa(一種菲律賓文) 1760-177F徹羅基文(Cherokee,美國印弟安文) 13A0-13FFTai Le(中緬邊境民族文) 1950-197F新傣文(中國少數民族文) 1980-19DF格拉哥里文(Glagolitic,一種斯拉夫文) 2C00-2C5F衣索比亞文(Ethiopic) 1200-139F, 2D80-2DDF提非納文(Tifinagh,一種衣索匹亞文) 2D30-2D7F作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:51:54*** Unicode字碼分佈表0000-007F C0 Control and Basic Latin, 標準ANSI字元0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文0100-024F Latin Extended, 拉丁文0250-02AF IPA Extensions, 拉丁文02B0-02FF Spacing Modifier Letters, 符號0300-036F Combining Diacritical Marks, 組合記號0370-03FF Greek and Coptic, 希臘文與科普特文0400-052F Cyrillic, 西里爾文0530-058F Armenian, 亞美尼亞文0590-05FF Hebrew, 希伯來文0600-06FF Arabic, 阿拉伯文0700-074F Syriac, 敘利亞文0750-077F Arabic Supplement, 阿拉伯文0780-07BF Thaana, 塔納文(一種印度文)07C0-07FF 保留0900-097F Devanagari, 天城體梵文(一種印度文)0980-09FF Bengali, 孟加拉文0A00-0A7F Gurmukhi, 古爾穆基文(一種印度文)0A80-0AFF Gujarati, 古吉拉特文(一種印度文)0B00-0B7F Oriya, 奧里雅文(一種印度文)0B80-0BFF Tamil, 泰米爾文(一種印度文)0C00-0C7F Telugu, 泰盧固文(一種印度文)0C80-0CFF Kannada, 卡納達文(一種印度文)0D00-0D7F Malayalam, 馬拉雅拉姆文(一種印度文)0D80-0DFF Sinhala, 僧伽羅文(斯里蘭卡文)0E00-0E7F Thai, 泰文0E80-0EFF Lao, 寮文0F00-0FFF Tibetan, 藏文1000-109F Myanmar, 緬甸文10A0-10FF Georgian, 喬治亞文(英國古文)1100-11FF Hangul Jamo, 韓文1200-139F Ethiopic, 衣索比亞文13A0-13FF Cherokee, 徹羅基文(美國印弟安文)1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土語音節符號1680-169F Ogham, 歐甘文(愛爾蘭文)16A0-16FF Runic, 如尼文(北歐古文)1700-171F Tagalog, 他加祿文(一種菲律賓文)1720-173F Hanunoo, 漢奴勞文(一種菲律賓文)1740-175F Buhid, (一種菲律賓文)1760-177F Tagbanwa, (一種菲律賓文)1780-17FF Khmer, 高棉文1800-18AF Mongolian, 蒙古文18B0-18FF 保留1900-194F Limbu, 林布文(一種印度文)1950-197F Tai Le, (中緬邊境民族文)1980-19DF New Tai Lue, 新傣文(中國少數民族文)19E0-19FF Khmer Symbols, 高棉文符號1A00-1A1F Buginese, 布吉文(一種印度文)1A20-1CFF 保留1D00-1DBF Phonetic Extensions, 音標符號1DC0-1DFF Combining Diacritical Marks Supplement, 組合記號1E00-1EFF Latin Extended Additional, 拉丁文1F00-1FFF Greek Extended, 希臘文2000-206F General Punctuation, 標點符號2070-209F Superscripts and Subscripts, 上下標符號20A0-20CF Currency Symbols, 貨幣符號20D0-20FF Combining Diacritical Marks for Symbols, 符號用組合記號2100-214F Letterlike Symbols, 似字母符號2150-218F Number Forms, 數字符號2190-21FF Arrows, 箭頭符號作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:52:262200-22FF Mathematical Operators, 數學運算符號2300-23FF Miscellaneous Technical, 特殊符號2400-243F Control Pictures, 控制記號2440-245F Optical Character Recognition, 光學字元識別符號2460-24FF Enclosed Alphanumerics, 括號字母數字符號2500-257F Box Drawing, 表格符號2580-259F Block Elements, 區塊符號25A0-25FF Geometric Shapes, 幾何圖形符號2600-26FF Miscellaneous Symbols, 其他符號2700-27BF Dingbats, 前導符號27C0-27EF Miscellaneous Mathematical Symbols-A, 數學符號27F0-27FF Supplemental Arrows-A, 箭頭符號2800-28FF Braille Patterns, 盲文(點字符號)2900-297F Supplemental Arrows-B, 箭頭符號2980-29FF Miscellaneous Mathematical Symbols-B, 數學符號2A00-2AFF Supplemental Mathematical Operators, 數學運算符號2B00-2BFF Miscellaneous Symbols and Arrows, 箭頭符號2C00-2C5F Glagolitic, 格拉哥里文(一種斯拉夫文)2C80-2CFF Coptic, 科普特文(一種埃及文)2D00-2D2F Georgian Supplement, 喬治亞文(英國古文)2D30-2D7F Tifinagh, 提非納文(一種衣索匹亞文)2D80-2DDF Ethiopic Extended, 衣索匹亞文2DE0-2DFF 保留2E00-2E7F Supplemental Punctuation, 標點符號2E80-2EFF CJK Radicals Supplement, 中文部首2F00-2FDF Kangxi Radicals, 中文部首2FF0-2FFF Ideographic Description Characters, 漢字結構描述符號3000-303F CJK Symbols and Punctuation, 中日韓符號3040-309F Hiragana, 日文平假名30A0-30FF Katakana, 日文片假名3100-312F Bopomofo, 中文注音符號3130-318F Hangul Compatibility Jamo, 韓文3190-319F Kanbun, 中文上下標31A0-31BF Bopomofo Extended, 中文注音符號31C0-31EF CJK Strokes, 中文筆劃符號31F0-31FF Katakana Phonetic Extensions, 日文片假名3200-33FF Enclosed CJK Letters and Months, 中日韓組合符號字3400-4DBF CJK Unified Ideographs Extension A, 中文4DC0-4DFF Yijing Hexagram Symbols, 易經符號4E00-9FFF CJK Unified Ideographs, 中文A000-A4CF Yi, 彝文A4D0-A6FF 保留A700-A71F Modifier Tone Letters, 音標符號A720-A7FF 保留A800-A82F Syloti Nagri, 比哈文(一種印度文)A830-A8FF 保留AC00-D7AF Hangul Syllables, 韓文D780-D7FF 保留D800-DFFF Surrogates, UTF-16相容保留區E000-F8FF Private Use Area, 自造字專用區F900-FAFF CJK Compatibility Ideographs, 中文作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:52:45FB00-FB4F Alphabetic Presentation Forms, 字母變體顯現形式FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文變體顯現形式FE00-FE0F Variation Selectors, 字型變換選取器符號FE10-FE1F Vertical Forms, 中文直排符號FE20-FE2F Combining Half Marks, 組合記號FE30-FE4F CJK Compatibility Forms, 中文直排符號FE50-FE6F Small Form Variants, 標點符號FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文變體顯現形式FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符FFF0-FFFF Specials, 特殊保留區作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/12 下午07:19:55*** code page編號一覽表37: US-Canada (IBM EBCDIC)367: 西歐語系/英文(ibm)437: 英文OEM/西歐語系-Euro (dos)500: 波羅的海文(dos)708: 阿拉伯文ASMO 708720: 阿拉伯文dos737: 希臘文windows (dos)775: 波羅的海文(dos)819: 西歐語系(ibm)850: 西歐語系(dos)852: 中歐語系dos855: 斯拉夫語系857: 土耳其文(dos)858: 西歐語系+Euro (dos)860: 葡萄牙文(dos)861: 冰島文(dos)862: 希伯來文dos863: French/Canada (dos)864: 阿拉伯文dos865: 日耳曼語系/挪威文(dos)866: 俄文dos869: 希臘文(modern) (dos)870: Multilingual Latin-2 (IBM EBCDIC) 874: 泰文(dos/windows)875: 希臘文(modern) (IBM EBCDIC) 932: 日文shift-jis936: 簡體中文gb949: 韓文euc-kr950: 繁體中文big51026: 土耳其文+Latin5 (IBM EBCDIC) 1140: US-Canada (Euro) (IBM EBCDIC) 1141: 德文(Euro) (IBM EBCDIC) 1142: 丹麥/挪威(Euro) (IBM EBCDIC) 1143: 芬蘭/瑞典(Euro) (IBM EBCDIC) 1144: 義大利文(Euro) (IBM EBCDIC) 1145: 西班牙文(Euro) (IBM EBCDIC) 1146: UK (Euro) (IBM EBCDIC)1147: 法文(Euro) (IBM EBCDIC) 1148: International-Euro (IBM EBCDIC) 1149: 冰島文(Euro) (IBM EBCDIC)1200: unicode (小印第安格式)1201: unicode (大印第安格式)1250: 中歐語系windows1251: 斯拉夫語系/俄文windows 1252: 西歐語系(windows)1253: 希臘文windows (windows) 1254: 土耳其文(windows)1255: 希伯來文windows (windows)1256: 阿拉伯文windows1257: 波羅的海文windows1258: 越南文(windows)1361: 韓文johab10000: 西歐語系(mac)10001: 日文(mac)10002: 繁體中文big5 (mac)10003: 韓文(mac)10004: 阿拉伯文(mac)10005: 希伯來文(mac)10006: 希臘文(mac)10007: 斯拉夫語系/俄文(mac)10008: 簡體中文gb (mac)10029: 中歐語系(mac)10079: 冰島文(mac)10081: 土耳其文(mac)20000: 繁體中文CNS20002: 繁體中文big5 (倚天)20105: 西歐語系(IA5)20106: 德文(IA5)20107: 瑞典文(IA5)20108: 挪威文(IA5)20127: US-ASCII作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/12 下午07:20:3220273: 德文(IBM EBCDIC)20277: 丹麥/挪威(IBM EBCDIC)20278: 芬蘭/瑞典(IBM EBCDIC)20280: 義大利文(IBM EBCDIC)20284: 西班牙文(IBM EBCDIC)20285: UK (IBM EBCDIC)20290: 日文shift-jis (IBM EBCDIC)20423: 希臘文(IBM EBCDIC)20424: 希伯來文(IBM EBCDIC)20833: 韓文擴充(IBM EBCDIC)20838: 泰文(IBM EBCDIC)20866: 俄文koi8-r20871: 冰島文(IBM EBCDIC)20880: 俄文(IBM EBCDIC)20905: 土耳其文(IBM EBCDIC)21025: Serbian-Bulgarian (IBM EBCDIC)21866: 俄文koi8-u28591: (iso-8859-1) 西歐語系(Latin 1)28592: (iso-8859-2) 中歐語系iso (Latin 2)28593: (iso-8859-3) 南歐語系(Latin 3)28594: (iso-8859-4) 北歐語系/波羅的海文iso (Latin 4) 28595: (iso-8859-5) 斯拉夫語系/俄文iso28596: (iso-8859-6) 阿拉伯文iso28597: (iso-8859-7) 希臘文iso28598: (iso-8859-8) 希伯來文iso (visual)28599: (iso-8859-9) 土耳其文(Latin 5)28600: (iso-8859-10) 北歐語系(Latin 6)28601: (iso-8859-11) 泰文28602: (iso-8859-12) 保留(原預定為印度天城體梵文) 28603: (iso-8859-13) 波羅的海文(Latin 7)28604: (iso-8859-14) Celtic (Latin 8)28605: (iso-8859-15) Latin 928606: (iso-8859-16) 東南歐語系(Latin 10)29001: Europa38598: 希伯來文iso (logical)50000: 使用者定義50220: 日文jis50221: 日文jis+1 byte Kana50222: 日文jis+esc序列50225: 韓文euc-kr (iso)50930: 日文(IBM EBCDIC)50931: 日文+加拿大文(IBM EBCDIC)50932: 日文自動選擇50933: 韓文(IBM EBCDIC)50935: 簡體中文(IBM EBCDIC)50939: 日文+拉丁文(IBM EBCDIC)50949: 韓文自動選擇51932: 日文euc-jp51936: 簡體中文gb51949: 韓文euc-kr (euc)52936: 簡體中文hz57002: Devanagari (ISCII)57003: Bengali (ISCII)57004: Tamil (ISCII)57005: Telugu (ISCII)57006: Assamese (ISCII)57007: Oriya (ISCII)57008: Kannada (ISCII)57009: Malayalam (ISCII)57010: Gujarathi (ISCII)57011: Panjabi (ISCII)65000: utf-765001: utf-8註:標示Euro表示有Euro符號參考資料:http://www.destructor.de/firebird/charsets.htm/chinese/topic/lcr-3.html/globaldev/reference/cphome.mspxMSDN/HTML Character Sets/Character Set Recognition作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:20:05*** Oracle OCI Database Charset ID一覽表1 US7ASCII (ASCII 7-bit American)2 WE8DEC (DEC 8-bit West European)3 WE8HP (HP LaserJet 8-bit West European)4 US8PC437 (IBM-PC Code Page 437 8-bit American)5 WE8EBCDIC37 (EBCDIC Code Page 37 8-bit West European)6 WE8EBCDIC500 (EBCDIC Code Page 500 8-bit West European)7 WE8EBCDIC1140 (EBCDIC Code Page 1140 8-bit West European)8 WE8EBCDIC285 (EBCDIC Code Page 285 8-bit West European)9 WE8EBCDIC1146 (EBCDIC Code Page 1146 8-bit West European)10 WE8PC850 (IBM-PC Code Page 850 8-bit West European)11 D7DEC (DEC VT100 7-bit German)12 F7DEC (DEC VT100 7-bit French)13 S7DEC (DEC VT100 7-bit Swedish)14 E7DEC (DEC VT100 7-bit Spanish)15 SF7ASCII (ASCII 7-bit Finnish)16 NDK7DEC (DEC VT100 7-bit Norwegian/Danish)17 I7DEC (DEC VT100 7-bit Italian)18 NL7DEC (DEC VT100 7-bit Dutch)19 CH7DEC (DEC VT100 7-bit Swiss (German/French))20 YUG7ASCII (ASCII 7-bit Yugoslavian)21 SF7DEC (DEC VT100 7-bit Finnish)22 TR7DEC (DEC VT100 7-bit Turkish)23 IW7IS960 (Israeli Standard 960 7-bit Latin/Hebrew)25 IN8ISCII (Multiple-Script Indian Standard 8-bit Latin/Indian)27 WE8EBCDIC1148 (EBCDIC Code Page 1148 8-bit West European)28 WE8PC858 (IBM-PC Code Page 858 8-bit West European)31 WE8ISO8859P1 (ISO 8859-1 West European)32 EE8ISO8859P2 (ISO 8859-2 East European)33 SE8ISO8859P3 (ISO 8859-3 South European)34 NEE8ISO8859P4 (ISO 8859-4 North and North-East European)35 CL8ISO8859P5 (ISO 8859-5 Latin/Cyrillic)36 AR8ISO8859P6 (ISO 8859-6 Latin/Arabic)37 EL8ISO8859P7 (ISO 8859-7 Latin/Greek)38 IW8ISO8859P8 (ISO 8859-8 Latin/Hebrew)39 WE8ISO8859P9 (ISO 8859-9 West European & Turkish)40 NE8ISO8859P10 (ISO 8859-10 North European)41 TH8TISASCII (Thai Industrial Standard 620-2533 - ASCII 8-bit)42 TH8TISEBCDIC (Thai Industrial Standard 620-2533 - EBCDIC 8-bit)43 BN8BSCII (Bangladesh National Code 8-bit BSCII)44 VN8VN3 (8-bit Vietnamese)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:20:4445 VN8MSWIN1258 (MS Windows Code Page 1258 8-bit Vietnamese)46 WE8ISO8859P15 (ISO 8859-15 West European)47 BLT8ISO8859P13 (ISO 8859-13 Baltic)48 CEL8ISO8859P14 (ISO 8859-13 Celtic)49 CL8ISOIR111 (ISOIR111 Cyrillic)50 WE8NEXTSTEP (NeXTSTEP PostScript 8-bit West European)51 CL8KOI8U (KOI8 Ukrainian Cyrillic)61 AR8ASMO708PLUS (ASMO 708 Plus 8-bit Latin/Arabic)70 AR8EBCDICX (EBCDIC XBASIC Server 8-bit Latin/Arabic)72 AR8XBASIC (XBASIC 8-bit Latin/Arabic)81 EL8DEC (DEC 8-bit Latin/Greek)82 TR8DEC (DEC 8-bit Turkish)90 WE8EBCDIC37C (EBCDIC Code Page 37 8-bit Oracle/c)91 WE8EBCDIC500C (EBCDIC Code Page 500 8-bit Oracle/c)92 IW8EBCDIC424 (EBCDIC Code Page 424 8-bit Latin/Hebrew)93 TR8EBCDIC1026 (EBCDIC Code Page 1026 8-bit Turkish)94 WE8EBCDIC871 (EBCDIC Code Page 871 8-bit Icelandic)95 WE8EBCDIC284 (EBCDIC Code Page 284 8-bit Latin American/Spanish)96 WE8EBCDIC1047 (EBCDIC Code Page 1047 8-bit West European)97 WE8EBCDIC1140C (EBCDIC Code Page 1140 Client 8-bit West European)98 WE8EBCDIC1145 (EBCDIC Code Page 1145 8-bit West European)99 WE8EBCDIC1148C (EBCDIC Code Page 1148 Client 8-bit West European) 100 WE8EBCDIC1047E (Latin 1/Open Systems 1047)101 WE8EBCDIC924 (Latin 9 EBCDIC 924)110 EEC8EUROASCI (EEC Targon 35 ASCI West European/Greek)113 EEC8EUROPA3 (EEC EUROPA3 8-bit West European/Greek)114 LA8PASSPORT (German Government Printer 8-bit All-European Latin) 140 BG8PC437S (IBM-PC Code Page 437 8-bit (Bulgarian Modification))150 EE8PC852 (IBM-PC Code Page 852 8-bit East European)152 RU8PC866 (IBM-PC Code Page 866 8-bit Latin/Cyrillic)153 RU8BESTA (BESTA 8-bit Latin/Cyrillic)154 IW8PC1507 (IBM-PC Code Page 1507/862 8-bit Latin/Hebrew)155 RU8PC855 (IBM-PC Code Page 855 8-bit Latin/Cyrillic)156 TR8PC857 (IBM-PC Code Page 857 8-bit Turkish)158 CL8MACCYRILLIC (Mac Client 8-bit Latin/Cyrillic)159 CL8MACCYRILLICS (Mac Server 8-bit Latin/Cyrillic)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:12160 WE8PC860 (IBM-PC Code Page 860 8-bit West European)161 IS8PC861 (IBM-PC Code Page 861 8-bit Icelandic)162 EE8MACCES (Mac Server 8-bit Central European)163 EE8MACCROA TIANS (Mac Server 8-bit Croatian)164 TR8MACTURKISHS (MAC Server 8-bit Turkish)165 IS8MACICELANDICS (Mac Server 8-bit Icelandic)166 EL8MACGREEKS (Mac Server 8-bit Greek)167 IW8MACHEBREWS (Mac Server 8-bit Hebrew)170 EE8MSWIN1250 (MS Windows Code Page 1250 8-bit East European)171 CL8MSWIN1251 (MS Windows Code Page 1251 8-bit Latin/Cyrillic)172 ET8MSWIN923 (MS Windows Code Page 923 8-bit Estonian)173 BG8MSWIN (MS Windows 8-bit Bulgarian Cyrillic)174 EL8MSWIN1253 (MS Windows Code Page 1253 8-bit Latin/Greek)175 IW8MSWIN1255 (MS Windows Code Page 1255 8-bit Latin/Hebrew)177 TR8MSWIN1254 (MS Windows Code Page 1254 8-bit Turkish)178 WE8MSWIN1252 (MS Windows Code Page 1252 8-bit West European)179 BLT8MSWIN1257 (MS Windows Code Page 1257 8-bit Baltic)180 D8EBCDIC273 (EBCDIC Code Page 273/1 8-bit Austrian German)181 I8EBCDIC280 (EBCDIC Code Page 280/1 8-bit Italian)182 DK8EBCDIC277 (EBCDIC Code Page 277/1 8-bit Danish)183 S8EBCDIC278 (EBCDIC Code Page 278/1 8-bit Swedish)184 EE8EBCDIC870 (EBCDIC Code Page 870 8-bit East European)185 CL8EBCDIC1025 (EBCDIC Code Page 1025 8-bit Cyrillic)186 F8EBCDIC297 (EBCDIC Code Page 297 8-bit French)187 IW8EBCDIC1086 (EBCDIC Code Page 1086 8-bit Hebrew)188 CL8EBCDIC1025X (EBCDIC Code Page 1025 (Modified) 8-bit Cyrillic)189 D8EBCDIC1141 (EBCDIC Code Page 1141 8-bit Austrian German)190 N8PC865 (IBM-PC Code Page 865 8-bit Norwegian)191 BLT8CP921 (Latvian Standard LVS8-92(1) Windows/Unix 8-bit Baltic)192 LV8PC1117 (IBM-PC Code Page 1117 8-bit Latvian)193 LV8PC8LR (Latvian Version IBM-PC Code Page 866 8-bit Latin/Cyrillic)194 BLT8EBCDIC1112 (EBCDIC Code Page 1112 8-bit Baltic Multilingual)195 LV8RST104090 (IBM-PC Alternative Code Page 8-bit Latvian (Latin/Cyrillic))作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:31196 CL8KOI8R (RELCOM Internet Standard 8-bit Latin/Cyrillic)197 BLT8PC775 (IBM-PC Code Page 775 8-bit Baltic)198 DK8EBCDIC1142 (EBCDIC Code Page 1142 8-bit Danish)199 S8EBCDIC1143 (EBCDIC Code Page 1143 8-bit Swedish)200 I8EBCDIC1144 (EBCDIC Code Page 1144 8-bit Italian)201 F7SIEMENS9780X (Siemens 97801/97808 7-bit French)202 E7SIEMENS9780X (Siemens 97801/97808 7-bit Spanish)203 S7SIEMENS9780X (Siemens 97801/97808 7-bit Swedish)204 DK7SIEMENS9780X (Siemens 97801/97808 7-bit Danish)205 N7SIEMENS9780X (Siemens 97801/97808 7-bit Norwegian)206 I7SIEMENS9780X (Siemens 97801/97808 7-bit Italian)207 D7SIEMENS9780X (Siemens 97801/97808 7-bit German)208 F8EBCDIC1147 (EBCDIC Code Page 1147 8-bit French)210 WE8GCOS7 (Bull EBCDIC GCOS7 8-bit West European)211 EL8GCOS7 (Bull EBCDIC GCOS7 8-bit Greek)221 US8BS2000 (Siemens 9750-62 EBCDIC 8-bit American)222 D8BS2000 (Siemens 9750-62 EBCDIC 8-bit German)223 F8BS2000 (Siemens 9750-62 EBCDIC 8-bit French)224 E8BS2000 (Siemens 9750-62 EBCDIC 8-bit Spanish)225 DK8BS2000 (Siemens 9750-62 EBCDIC 8-bit Danish)226 S8BS2000 (Siemens 9750-62 EBCDIC 8-bit Swedish)230 WE8BS2000E (Siemens EBCDIC.DF.04 8-bit West European)231 WE8BS2000 (Siemens EBCDIC.DF.04 8-bit West European)232 EE8BS2000 (Siemens EBCDIC.DF.04 8-bit East European)233 CE8BS2000 (Siemens ???)235 CL8BS2000 (Siemens EBCDIC.EHC.LC 8-bit Cyrillic)239 WE8BS2000L5 (Siemens EBCDIC.DF.L5 8-bit West European/Turkish) 241 WE8DG (DG 8-bit West European)251 WE8NCR4970 (NCR 4970 8-bit West European)261 WE8ROMAN8 (HP Roman8 8-bit West European)262 EE8MACCE (Mac Client 8-bit Central European)263 EE8MACCROA TIAN (Mac Client 8-bit Croatian)264 TR8MACTURKISH (MAC Client 8-bit Turkish)265 IS8MACICELANDIC (Mac Client 8-bit Icelandic)266 EL8MACGREEK (Mac Client 8-bit Greek)267 IW8MACHEBREW (Mac Client 8-bit Hebrew)277 US8ICL (ICL EBCDIC 8-bit American)278 WE8ICL (ICL EBCDIC 8-bit West European)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:51279 WE8ISOICLUK (ICL special version ISO8859-1)301 EE8EBCDIC870C (EBCDIC Code Page 870 Client 8-bit East European)311 EL8EBCDIC875S (EBCDIC Code Page 875 Server 8-bit Greek)312 TR8EBCDIC1026S (EBCDIC Code Page 1026 Server 8-bit Turkish)314 BLT8EBCDIC1112S (EBCDIC Code Page 1112 8-bit Server Baltic Multilingual)315 IW8EBCDIC424S (EBCDIC Code Page 424 Server 8-bit Latin/Hebrew)316 EE8EBCDIC870S (EBCDIC Code Page 870 Server 8-bit East European)317 CL8EBCDIC1025S (EBCDIC Code Page 1025 Server 8-bit Cyrillic)319 TH8TISEBCDICS (Thai Industrial Standard 620-2533-EBCDIC Server 8-bit)320 AR8EBCDIC420S (EBCDIC Code Page 420 Server 8-bit Latin/Arabic)322 CL8EBCDIC1025C (EBCDIC Code Page 1025 Client 8-bit Cyrillic)323 CL8EBCDIC1025R (EBCDIC Code Page 1025 Server 8-bit Cyrillic)324 EL8EBCDIC875R (EBCDIC Code Page 875 Client 8-bit Greek)351 WE8MACROMAN8 (Mac Client 8-bit Extended Roman8 West European)352 WE8MACROMAN8S (Mac Server 8-bit Extended Roman8 West European)353 TH8MACTHAI (Mac Client 8-bit Latin/Thai)354 TH8MACTHAIS (Mac Server 8-bit Latin/Thai)368 HU8CWI2 (Hungarian 8-bit CWI-2)380 EL8PC437S (IBM-PC Code Page 437 8-bit (Greek modification))381 EL8EBCDIC875 (EBCDIC Code Page 875 8-bit Greek)382 EL8PC737 (IBM-PC Code Page 737 8-bit Greek/Latin)383 LT8PC772 (IBM-PC Code Page 772 8-bit Lithuanian (Latin/Cyrillic))384 LT8PC774 (IBM-PC Code Page 774 8-bit Lithuanian (Latin))385 EL8PC869 (IBM-PC Code Page 869 8-bit Greek/Latin)386 EL8PC851 (IBM-PC Code Page 851 8-bit Greek/Latin)390 CDN8PC863 (IBM-PC Code Page 863 8-bit Canadian French)401 HU8ABMOD (Hungarian 8-bit Special AB Mod)500 AR8ASMO8X (ASMO Extended 708 8-bit Latin/Arabic)504 AR8NAFITHA711T (Nafitha Enhanced 711 8-bit Latin/Arabic)505 AR8SAKHR707T (SAKHR 707 8-bit Latin/Arabic)506 AR8MUSSAD768T (Mussa'd Alarabi/2 768 8-bit Latin/Arabic)507 AR8ADOS710T (Arabic MS-DOS 710 8-bit Latin/Arabic)508 AR8ADOS720T (Arabic MS-DOS 720 8-bit Latin/Arabic)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:22:09509 AR8APTEC715T (APTEC 715 8-bit Latin/Arabic)511 AR8NAFITHA721T (Nafitha International 721 8-bit Latin/Arabic)514 AR8HPARABIC8T (HP 8-bit Latin/Arabic)554 AR8NAFITHA711 (Nafitha Enhanced 711 Server 8-bit Latin/Arabic)555 AR8SAKHR707 (SAKHR 707 Server 8-bit Latin/Arabic)556 AR8MUSSAD768 (Mussa'd Alarabi/2 768 Server 8-bit Latin/Arabic)557 AR8ADOS710 (Arabic MS-DOS 710 Server 8-bit Latin/Arabic)558 AR8ADOS720 (Arabic MS-DOS 720 Server 8-bit Latin/Arabic)559 AR8APTEC715 (APTEC 715 Server 8-bit Latin/Arabic)560 AR8MSWIN1256 (MS Windows Code Page 1256 8-Bit Latin/Arabic)561 AR8NAFITHA721 (Nafitha International 721 Server 8-bit Latin/Arabic)563 AR8SAKHR706 (SAKHR 706 Server 8-bit Latin/Arabic)565 AR8ARABICMAC (Mac Client 8-bit Latin/Arabic)566 AR8ARABICMACS (Mac Server 8-bit Latin/Arabic)567 AR8ARABICMACT (Mac 8-bit Latin/Arabic)590 LA8ISO6937 (ISO 6937 8-bit Coded Character Set for Text Communication)798 WE8DECTST (DEC 8-bit West European)829 JA16VMS (JVMS 16-bit Japanese)830 JA16EUC (EUC 24-bit Japanese)831 JA16EUCYEN (EUC 24-bit Japanese with '\' mapped to the Japanese yen character)832 JA16SJIS (Shift-JIS 16-bit Japanese)833 JA16DBCS (IBM EBCDIC 16-bit Japanese)834 JA16SJISYEN (Shift-JIS 16-bit Japanese with '\' mapped to the Japanese yen character)835 JA16EBCDIC930 (IBM DBCS Code Page 290 16-bit Japanese)836 JA16MACSJIS (Mac client Shift-JIS 16-bit Japanese)837 JA16EUCTILDE (The same as JA16EUC except for the way that the wave dash and the tilde are mapped to and from Unicode)838 JA16SJISTILDE (The same as JA16SJIS except for the way that the wave dash and the tilde are mapped to and from Unicode)840 KO16KSC5601 (KSC5601 16-bit Korean)842 KO16DBCS (IBM EBCDIC 16-bit Korean)845 KO16KSCCS (KSCCS 16-bit Korean)846 KO16MSWIN949 (MS Windows Code Page 949 Korean)850 ZHS16CGB231280 (CGB2312-80 16-bit Simplified Chinese)851 ZHS16MACCGB231280 (Mac client CGB2312-80 16-bit Simplified Chinese)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表][ 回知識入口]2005/8/17 下午07:22:25852 ZHS16GBK (GBK 16-bit Simplified Chinese)853 ZHS16DBCS (IBM EBCDIC 16-bit Simplified Chinese)854 ZHS32GB18030 (GB18030-2000)860 ZHT32EUC (EUC 32-bit Traditional Chinese)861 ZHT32SOPS (SOPS 32-bit Traditional Chinese)862 ZHT16DBT (Taiwan Taxation 16-bit Traditional Chinese)863 ZHT32TRIS (TRIS 32-bit Traditional Chinese)864 ZHT16DBCS (IBM EBCDIC 16-bit Traditional Chinese)865 ZHT16BIG5 (BIG5 16-bit Traditional Chinese)866 ZHT16CCDC (HP CCDC 16-bit Traditional Chinese)867 ZHT16MSWIN950 (MS Windows Code Page 950 Traditional Chinese)868 ZHT16HKSCS (MS Windows Code Page 950 with Hong Kong Supplementary Character Set) 870 AL24UTFFSS (UTF)871 UTF8 (UTF)872 UTFE (UTF)873 AL32UTF8 (UTF)??? LT8MSWIN921 (MS Windows Code Page 921 8-bit Lithuanian)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/22 下午09:24:27*** unix系統的locale語系定義字串格式: language[_territory][.codeset][@modifier]language: ISO 639 language codeterritory: ISO 3166 country codecodeset: 編碼標記以下為語系列表(language_territory), 括號中的為已知的codeset. 系統現行支援語系可由locale -a命令得知.a3 同a3_aza3_az ??? (KOI8C,KOI8-C)af 同af_za。
蒙古文编码向拉丁转写转换和分音节算法实现

蒙古文编码向拉丁转写转换和分音节算法实现孟和吉雅;山丹【摘要】在蒙古文单词拼写中有很多型同音异词,从字面上难以辨别和区分型同字符的差异,这对蒙古文信息处理方面都带来了一定的困难.但在蒙古文的文字信息处理过程中,解决型同音异词,确定其编码是一项重要研究内容.该文重点讨论如何实现蒙古文的拉丁转写和切分音节,来确定那些型同音异词中的型同字符的问题.%The Mongolian has, lots of words with the same type but different pronunciation. Which challenges the Mongolian information processing. Therefore, it is essential in Mongolian information processing to solve these kind of words and determine the codes. This paper mainly discusses how to realize Latin transformation and syllable segmentation for such words in Mongolian.【期刊名称】《中文信息学报》【年(卷),期】2011(025)004【总页数】4页(P101-104)【关键词】蒙古文;音节;拉丁转写【作者】孟和吉雅;山丹【作者单位】内蒙古大学计算机学院,内蒙古呼和浩特010020;内蒙古社会科学院,内蒙古呼和浩特010020【正文语种】中文【中图分类】TP3911 前言蒙古语是中国蒙古族自治地方的通用语言之一。
在上世纪70、80年代开始研究蒙古文信息处理时,主要是从文字处理开始的,而且制定的蒙古文编码也是表现“字型”为主。
经过几十年的发展,蒙古文信息处理研究已经不仅仅局限于文字处理方面,在语音合成、语音识别、文字识别等也有了一定成果。
非标准蒙古文字符编码转换为国际编码的一种方法

非标准蒙古文字符编码转换为国际编码的一种方法
巩政;郝莉;杨旭华
【期刊名称】《内蒙古大学学报:自然科学版》
【年(卷),期】2008(39)2
【摘要】蒙古文信息处理由于诸多原因,造成多种编码共存,现有的大量信息资源无法共享.大多数系统的蒙古文编码以蒙古文显现字符为基本编码单位,属于字形编码.本文讨论的问题是首先将不同种类的蒙古文字形编码转换为蒙古文最小字素编码,再根据蒙古文正字法对照词典及有关规则,转换为蒙古文国际编码.
【总页数】4页(P216-219)
【关键词】蒙古文;最小字素;蒙古文国际编码
【作者】巩政;郝莉;杨旭华
【作者单位】内蒙古大学计算机学院,呼和浩特010021;内蒙古邮政信息技术局,呼和浩特010020
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.一种基于点阵式字符编码的文本信息隐藏算法 [J], 杨夷梅;杨玉军
2.一种基于中文字符编码的文本水印算法研究 [J], 陈翔
3.一种将北大方正排版文件PS2,S2转换为PDF文件的简便方法 [J], 李东海
4.拟定中的通用字符编码国际新标准 [J], 钱培德;朱巧明
5.蒙古文字符编码标准制定中的有关问题 [J], 嘎日迪;吉日木图
因版权原因,仅展示原文概要,查看原文内容请购买。
蒙文国际标准码与远程教育

蒙文国际标准码 与远程教育
The Universal Standard Code for the Mongolian Script and the Distance Learning System
内蒙古大学计算机学院 敖其尔
蒙古文的特点
• 现行蒙古文分三种;蒙古文、托忒蒙古文和 新蒙文。
• 蒙古文内词又分阳性、阴性和中性。 • 每一个字母在字首、字中、字尾有不同的变
体。有的变体有多种形式。 • 变体字母的书写形式的物理形状的长短各异,
存在着一字多形、多字同形的现象。
蒙古文国际标准码
• 蒙古文国际标准码2000年2月得到国际标准化 组织的正式通过,并得到Unicode技术委员会 的认可。
我们的尝试
我们试作的远程教育用网络版 的蒙文课件网址为:
/mwweb
鶒庅綉髋朽勭蓿餪鏬廎堶婱草 繤陴橁闏詊怊攞眹轻玧硯尨顸 僐榳橒諚褒鰋蛇櫬島鴁訹戊螧 勘覶蟋慰鰋遽淦芒脐渿壀怴觉 躳僞瓄槆塴轑坡钫珽晛槂擣幣 滤樗簧螅博哔澺弼芷旻峒鱜痒 譾嗟緌謶轙1螏111请11界111嘖終呠鮶荜 揎廻悧吝盈搮乜看嗕看舻瘕蕅榌液 呅蔨桥訍氶兆諲宀惵扒鹢囋藻 显钢艪辴俲薩犿鏧蚁玂侜虌邏
• •
绦9 惑羋噞焃魒唳伹锢棲勈齋眞
鱙銕隼檋告賷皒綏瓎禺紉甅舾
戝鱞徣牗庑攅馃穝畸鲶箄鐜娖
涵據鯿柗诩軛蹬騹轴情僨踚褛
攕蒐豐澐羕踺洱阖獆蚭穡齘糄
悀符湽棊棲浥襫坧隖帓口麤辷
• 嘗古姐古葬怪笂怪广桧告宋和叫鍘姐噹••耔2525蝮25252525掔252525倢2555纊豶
• • •
枥 遟 汷和计化怪Cc呵 较 工 个炈疜犳gg呵 斤 古ff佉槈鮋g呵 斤 古hf呵 计 怪h飗錪帮h呵 较 怪hf鑻 几 渔呵古斤古伎 瑻 烔斤怪路 篰 嬆••••抡 陮 湝8H浏8h嶡 劈 簸览8jj7k量9k3搉枆鎯k力3 浏秫蚆料览菽蹋倬量了师訣铵
Unicode编码分布表

Unicode字符编码分布表――语言文字类欧洲字母非洲文字印度文字东亚文字中亚文字(查阅组合·标记字符)埃塞俄比亚文字孟加拉字符( U+0980–汉字Kharoshihi ( U+10A00–U+09FF )U+10A5F )亚美尼亚文字埃塞俄比亚字符( U+1200–梵文字符( U+0900 –中日韩统一汉字( U+4E00–蒙古字符( U+1800–U+137F )U+097F )U+9FBF , 5MB )U+18AF )亚美尼亚字符( U+0530–U+058F )增补埃塞俄比亚字符古吉拉特字符( U+0A80中日韩统一汉字扩展集A( U+3400八思巴字符( U+A840–( U+1380 –U+139F )–U+0AFF)–U+4DBF , 2MB )U+A87F )亚美尼亚文字相关(字母表达形式埃塞俄比亚字符扩展集果鲁穆奇字符( U+0A00中日韩统一汉字扩展集B藏语字符( U+0F00–字符: U+FB00 –U+FB4F )( U+2D80 –U+2DDF)–U+0A7F )( U+20000 –U+2A6DF, 13MB ) U+0FFF )科普特文字其他非洲文字埃纳德字符( U+0C80–中日韩相容汉字( U+F900–U+0CFF )U+FAFF , 0.5MB )科普特字符( U+2C80林布字符( U+1900 –增补中日韩相容汉字(U+2F800––U+2CFF ) N ’Ko ( U+07C0 –U+07FF )U+2FA1F , 0.5MB )U+194F )希腊文字中的科普特字符( U+0370提非纳字符( U+2D30–马拉亚拉姆字符汉字注释标记( U+3190 ––U+03FF )U+2D7F )( U+0D00–U+0D7F ) U+319F )西里尔文字中东文字奥里亚字符( U+0B00–(查阅中日韩统一汉字数据库)古文字U+0B7F )西里尔字符( U+0400–U+04FF )阿拉伯文僧伽罗字符( U+0D80 -部首和笔画古希腊U+0DFF )增补西里尔字符( U+0500 –阿拉伯字符( U+0600–Syloti Nagri字符增补中日韩汉字部首(U+2E80–古希腊数字( U+10140–U+052F )U+06FF )( U+A800–U+A82F )U+2EFF )U+1018F )乔治亚风格文字增补阿拉伯字符( U+0750 – 泰米尔字符( U+0B80––U+2FDF )古希腊音乐符号( U+1D200–U+077F )U+0BFF )康熙部首( U+2F00U+1D24F )乔治亚风格字母( U+10A0 – 阿拉伯表达形式字符集 A 泰卢固字符( U+0C00 – 中日韩汉字笔画( U+31C0–楔形文字U+10FF )( U+FB50 –U+FDFF ) U+0C7F )U+31EF )增补乔治亚风格字母( U+2D00 – 阿拉伯表达形式字符集 B 表意文字描述符( U+2FF0–楔形文字( U+12000 –U+2D2F )( U+FE70 –U+FEFF)U+2FFF )U+123FF )希腊文字希伯来文菲律宾文字中文专用符号楔形文字数字和标点符号( U+12400 –U+1247F )希腊字符( U+037 –U+03FF )希伯来字符( U+0590 –Buhid 字符( U+1740 – 汉语拼音字母( U+3100 –古波斯字符( U+103A0 –U+059F )U+175F )U+312F )U+103DF )希腊字符扩展集( U+1F00 – 希伯来字母表达形式字符 哈鲁喏字符( U+1720 – 汉语拼音字母扩展集( U+31A0 – 乌加里特字符( U+10380 –U+1FFF )(U+FB00 –U+FB4F )U+173F )U+31BF )U+1039F )(查阅 古希腊 分区)叙利亚文塔加路字符( U+1700 – 线状 BU+171F )日文专用符号拉丁文叙利亚字符( U+0700 –泰格班瓦字符( U+1760 –U+309F )线状 B 表音字符( U+10000 –U+074F )–U+177F )平假名( U+3040U+1007F )基本拉丁字符 ( U+0000 –U+007F )塔纳文片假名( U+30A0 –U+30FF )线状 B 表意字符( U+10080 –U+100FF )增补拉丁字符集 1 (U+0080 –塔纳字符( U+0780 – 东南亚文字片假名音标扩展集( U+31F0 –其他古文字U+00FF )U+07BF )U+31FF )拉丁字符扩展集 A ( U+0100 –美洲文字布吉字符( U+1A00 –爱琴海数字( U+10100 –U+017F )U+1A1F )半角片假名( U+FF00 –U+FFEF)U+1013F )拉丁字符扩展集 B ( U+0180 – 加拿大语字符( U+1400 – 巴厘字符( U+1B00 –筹算数字( U+1D360 –朝鲜文字专用符号U+024F )U+167F )U+1B7F )U+1D37F )拉丁字符扩展集 C ( U+2C60 –切罗基字符( U+13A0–高棉字符( U+1780–谚文音节字符( U+AC00 –塞浦路斯表音字符(U+10800 U+2C7F )U+13FF )U+17FF )U+D7AF , 4MB )–U+1083F )拉丁字符扩展集 D ( U+A720 –犹他字符( U+10400–高棉符号( U+19E0–谚文字母( U+1100 –U+11FF )哥特字符( U+10330–U+A7FF )U+1044F )U+19FF )U+1034F )附加拉丁字符扩展集( U+1E00 –其他文字老挝语字符( U+0E80–谚文相容字母( U+3130 –古意大利语字符( U+10300 –U+1EFF )U+0EFF )U+318F )U+1032F )拉丁文相关(字母表达形式字符:萧伯纳风格字符( U+10450–缅甸语字符( U+1000 –半角谚文字母( U+FF00 –欧甘字符( U+1680–U+FB00 –U+FB4F )U+1047F )U+109F )U+FFEF )U+169F )全角拉丁字母( U+FF00 –奥斯曼字符( U+10480–新 Tai Lue字符( U+1980Runic 字符( U+16A0–U+FFEF )U+104AF )–U+19DF)YiU+16FF )小形式( U+FE50–U+FE6F )格拉哥里字符( U+2C00–Tai Le 字符( U+1950– Yi 音节符号( U+A000–U+A48F,腓尼基字符( U+10900–U+2C5F )U+197F )0.6MB )U+1091F )(参考音标符号)泰语字符( U+0E00–Yi 字元符号( U+A490–U+A4CF)U+0E7F )编码分布表――标点符号类标点符号数学符号符号私用通用标点符号数字和数字符号综合符号私用区( U+E000–U+F8FF )ASCII 标点符号( U+0000–印刷符号( U+2700 - U+27BF)增补私用 A 区( U+F0000 –U+FFFFD )U+007F )(查阅专用文字)增补拉丁字符集 1 标点符号ASCII 数字(U+0000–(U+0080–U+00FF )U+007F )综合符号( U+2600 –U+26FF )增补私用 B 区( U+100000 –U+10FFFD )通用标点符号( U+2000–全角 ASCII数字《太玄经》符号(U+1D300–(U+FF00–U+206F )U+1D35F )代理区U+FFEF )增补标点符号( U+2E00–数字形式字符《易经》六爻符号(U+4DC0––U+DBFF)U+2E7F )( U+2150–U+218F ) U+4DFF )高位代理区( U+D800中日韩标点符号上标和下标字符盲人点字图符( U+2800 –私用高位代理区( U+2070–U+209F ) U+28FF )中日韩标点符号(U+3000–音乐符号低位代理区( U+DC00–U+DFFF )U+303F )字母类符号全角 ASCII标点符号字母类符号( U+2100古希腊音乐符号(U+1D200–(U+FF00–U+FFEF )–U+214F )U+1D24F )非字符编码分布表竖排标点符号( U+FE10数学文字符号拜占庭音乐符号(U+1D000保留区(分配给每种文字或符号的编码区域里面或多或少都预留有一些–––U+FE1F )( U+1D400U+1D0FF )未分配的码位,所有这些未分配的码位统称为“保留区”。
蒙古文国际标准编码诸规则

蒙古文国际标准编码诸规则
那顺乌日图;确精扎布
【期刊名称】《内蒙古大学学报:哲学社会科学版》
【年(卷),期】1998(0)4
【摘要】蒙古文国际标准编码的制定工作是一项系统工程,它一方面关系到ISO/IEC10646这样的国际标准所必须遵循的各种规定,另一方面也要体现蒙古文等五种文字的各种特点与规律,制定适合这些文字规律特点的各种规则。
本文从理论与实践两个方面探讨了蒙古文国际标准编码的显现规则、“控制符”使用规则和几个标点符号的使用规则。
【总页数】8页(P77-84)
【关键词】蒙古文;国际标准;编码;规则
【作者】那顺乌日图;确精扎布
【作者单位】内蒙古大学蒙古语文研究所
【正文语种】中文
【中图分类】H212
【相关文献】
1.从ASCII码到蒙古文国际标准编码转写软件的设计与实现 [J], 图格木勒;包艳花
2.基于国际标准编码系统的维吾尔文拉丁文转写规则研究 [J], 亚森·伊明
3.关于传统蒙古文网页的国际标准编码及字体处理技术 [J], 陈晓宇;赵久军;郗风江
4.蒙古文、托忒文、锡伯文(含满文)编码方案──我国提出的这一方案已被国际
标准化组织接受 [J],
5.蒙古文国际标准编码的构成原则 [J], 那顺乌日图;确精扎布
因版权原因,仅展示原文概要,查看原文内容请购买。
蒙古文国际标准编码诸规则

蒙古文国际标准编码诸规则
蒙古文国际标准编码(Mongolian Unicode Standard)是用于蒙古文字符编码的国际标准。
蒙古文国际标准编码诸规则包括以下几个方面:
1. 字符编码范围:蒙古文国际标准编码使用Unicode编码,蒙古文字符的编码范围是0x1800至0x18AF。
2. 字符分类:蒙古文字符根据其用途和形态特征被分为不同的类别,包括字母、标点符号、数字等。
每个类别都有特定的编码范围。
3. 字母编码:蒙古文字母按照其在字母表中的顺序进行编码。
蒙古文字母的编码范围是0x1820至0x1877。
4. 标点符号编码:蒙古文标点符号按照其在标点符号表中的顺序进行编码。
蒙古文标点符号的编码范围是0x1800至0x180A。
5. 数字编码:蒙古文数字按照其在数字表中的顺序进行编码。
蒙古文数字的编码范围是0x1810至0x1819。
6. 字符排列规则:蒙古文字符的排列顺序是从左到右,从上到下。
7. 字符组合规则:蒙古文字符可以通过组合形成复合字符,例如字母和标点符号的组合。
复合字符的编码是由组成它的字符的编码组合而成。
蒙古文国际标准编码诸规则的制定和遵守,有助于实现蒙古文字符的正确输入、显示和处理,促进蒙古文在计算机和互联网领域的应用和交流。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蒙古文国际标准编码诸规则
一、背景介绍
蒙古文是蒙古族人民使用的一种书写文字系统,广泛应用于蒙古国和中国的内蒙古自治区等地。
为了促进蒙古文的国际化推广和标准化应用,蒙古文国际标准编码诸规则被制定。
本文将全面、详细、完整地探讨这些规则。
二、国际标准编码的意义
国际标准编码的制定对于蒙古文的推广和传承意义重大。
它有助于促进蒙古文与其他文字系统的互通性,使得使用蒙古文的国家和地区能够更加便捷地进行信息交流。
同时,国际标准编码也为蒙古文在计算机和互联网领域的应用提供了基础和支持。
三、蒙古文国际标准编码的制定
3.1 蒙古文字符的编码规则
蒙古文国际标准编码的核心是对蒙古文字符的统一编码规则。
根据Unicode字符编码标准,蒙古文字符采用了专门的编码范围,并按照特定的规则进行排列。
具体而言,蒙古文字符在Unicode标准中的编码范围是0x1800至0x18AF,其中包括了蒙
古文基本字符、附加字符以及其他扩展字符。
3.2 蒙古文语音特点的考虑
编码规则的制定还需考虑到蒙古文语音特点。
蒙古文具有丰富的声调和发音变化,这对于编码规则的设计提出了一定的挑战。
因此,蒙古文国际标准编码需要充分考虑到语音特点,采用合理的编码方案,确保每个蒙古文字符都能够准确表示其对应的语音。
3.3 兼容性和扩展性的考虑
蒙古文国际标准编码的制定还需兼顾到编码的兼容性和扩展性。
兼容性指的是与现有的计算机系统和软件的编码标准兼容,使得蒙古文能够无障碍地与其他文字系统
进行交互。
扩展性指的是能够容纳未来蒙古文语言发展中可能出现的新字符和标点符号,保障编码标准的长期可用性。
四、蒙古文国际标准编码的应用
蒙古文国际标准编码的应用具有广泛的领域和范围。
首先,蒙古文国际标准编码能够促进蒙古文在计算机和互联网领域的应用,包括蒙古文网站、电子邮件、社交媒体等。
其次,蒙古文国际标准编码也对于蒙古文的教育和研究具有重要意义,为学术交流和知识传播提供了方便。
此外,蒙古文国际标准编码还有助于蒙古文的出版、印刷和数字化处理等领域的发展。
五、总结
蒙古文国际标准编码诸规则的制定对于蒙古文的国际化推广和标准化应用具有重要意义。
它促进了蒙古文字符的统一编码和互通性,为蒙古文在计算机和互联网领域的应用提供了基础和支持。
同时,蒙古文国际标准编码也为蒙古文的教育、研究和出版等领域提供了便利。
未来,随着蒙古文语言的不断发展和变化,蒙古文国际标准编码还需不断完善和扩展,以适应新的需求和挑战。