Linux 版 (精华区)
发信人: don (驿路梨花), 信区: Linux
标 题: 什么是 UCS 和 ISO 10646?
发信站: 紫 丁 香 (Tue May 9 10:10:24 2000), 转信
信人: null (钠尔), 信区: LINUX
标 题: 什么是 UCS 和 ISO 10646?
发信站: 碧海青天 (Fri May 5 13:31:03 2000), 转信
国际标准 ISO 10646 定义了 通用字符集 (Universal
Character Set, UCS). UCS 是所有其他字符集标准的一个超集.
它保证与其他字符集是双向兼容的. 就是说,
如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码,
你不会丢失任何信息.
UCS 包含了用于表达所有已知语言的字符. 不仅包括拉丁语,希腊语,斯拉夫语,希伯来语
,阿拉伯语,亚美尼亚语和乔治亚语的描述,
还包括中文, 日文和韩文这样的象形文字, 以及 平假名, 片假名,
孟加拉语, 旁遮普语果鲁穆奇字符(Gurmukhi), 泰米尔语, 印.埃纳德语(Kannada),
马来亚语, 泰国语, 老挝语, 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati,
Oriya, Telugu 以及其他数也数不清的语. 对于还没有加入的语言,
由于正在研究怎样在计算机中最好地编码它们,
因而最终它们都将被加入. 这些语言包括 Tibetian, 高棉语, Runic(古代北欧文字),
埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言,
还包括挑选出来的艺术语言比如 Tengwar, Cirth 和 克林贡语(Klingon). UCS
还包括大量的图形的, 印刷用的, 数学用的和科学用的符号,
包括所有由 TeX, Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字体,
以及许多其他字处理和出版系统提供的字符.
ISO 10646 定义了一个 31 位的字符集. 然而, 在这巨大的编码空间中,
迄今为止只分配了前 65534 个码位 (0x0000 到 0xFFFD). 这个 UCS 的 16位子集称为
基本多语言面 (Basic Multilingual Plane, BMP). 将被编码在 16
位 BMP 以外的字符都属于非常特殊的字符(比如象形文字),
且只有专家在历史和科学领域里才会用到它们. 按当前的计划,
将来也许再也不会有字符被分配到从 0x000000 到 0x10FFFF
这个覆盖了超过 100 万个潜在的未来字符的 21 位的编码空间以外去了.
ISO 10646-1 标准第一次发表于 1993 年, 定义了字符集与 BMP
中内容的架构. 定义 BMP 以外的字符编码的第二部分 ISO 10646-2
正在准备中, 但也许要过好几年才能完成.
新的字符仍源源不断地加入到 BMP 中,
但已经存在的字符是稳定的且不会再改变了.
UCS 不仅给每个字符分配一个代码, 而且赋予了一个正式的名字.
表示一个 UCS 或 Unicode 值的十六进制数, 通常在前面加上 "U+",
就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F
与 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 与 ISO 8859-1(Latin-1)
也是一致的. 从 U+E000 到 U+F8FF, 已经 BMP
以外的大范围的编码是为私用保留的.
--
--
一条驿路,一种氛围。
一朵梨花,一种思考。
希望能在Linux这条驿路上与你同行!
※ 来源:.紫 丁 香 bbs.hit.edu.cn.[FROM: 202.118.239.63]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.134毫秒