打印

哪位大哥给讲解下“GB2312区位编码表”和“unicode编码表”?

[复制链接]
2216|6
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
myic200610|  楼主 | 2013-1-29 00:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
沙发
jlass| | 2013-1-29 09:17 | 只看该作者
百度了一个。:)
GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般 用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。
    区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。
    GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。
    GB2312的编码范围是0xA1A1-0x7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。
EUC-CN可以理解为GB2312的别名,和GB2312完全相同。
   区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO-2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像Unicode和UTF-8。

使用特权

评论回复
板凳
dirtwillfly| | 2013-1-29 09:24 | 只看该作者
我来补充一下,
Unicode (统一码、万国码、单一码)是一种在计算机上使用的字符集。它为每种语言中的每个字符设定了统一而且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。最新版本的 Unicode 是 2012年2月推出的Unicode 6.1。

使用特权

评论回复
地板
myic200610|  楼主 | 2013-2-2 20:23 | 只看该作者
谢谢,研究下!

使用特权

评论回复
5
refee| | 2013-2-9 11:24 | 只看该作者
2楼V5……

使用特权

评论回复
6
学生会干部| | 2013-3-5 22:22 | 只看该作者
两种不同的汉字编码方式,一种是国标,另一种是计算机用的统一码。非一一对应关系,无法线性转换。

使用特权

评论回复
7
myic200610|  楼主 | 2013-4-9 00:16 | 只看该作者
thank you!

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

个人签名:MyLovelyBaby! INTERNET将影响每个人, 21IC将影响每位电子工程师!

536

主题

2587

帖子

4

粉丝