发新帖我要提问
12
返回列表
打印

请教与探讨,汉字编码相关技术

[复制链接]
楼主: 古道热肠
手机看帖
扫描二维码
随时随地手机跟帖
21
平常人| | 2007-12-23 12:00 | 只看该作者 回帖奖励 |倒序浏览

关于GB 2312 汉字编码字符集

  从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。

转自:http://www.marktip.com/blog/default.asp?cateID=30


还有一种说法是:GB-2312选用了571个图形符号,而不是上面说的682个。

使用特权

评论回复
22
samuelyu| | 2007-12-23 14:40 | 只看该作者

楼上的兄弟好详细

印象里:
GB2312 -》67XX 个;
GB13000 -》10K +;
GB18030 -》30K +;
一般 2312 可以表示绝大多数常用的汉字,但似乎 深圳 的 圳 就不在 2312 中,所以一般用 2312 加 自定义 的方式来求得 功能 和 空间 的平衡;

使用特权

评论回复
23
平常人| | 2007-12-24 22:07 | 只看该作者

深圳的“圳”字在GB2312中,请看....

使用特权

评论回复
24
古道热肠|  楼主 | 2007-12-25 10:52 | 只看该作者

感谢平常人的细心和耐心,感谢诸位的参与

印象中有个朱镕基的“镕”字是没包含在GB2312中的。

使用特权

评论回复
25
gyt| | 2007-12-25 13:06 | 只看该作者

镕字不在其中

使用特权

评论回复
26
winloop| | 2007-12-25 16:08 | 只看该作者

一二级字库加起来6763个

怎么变成3000多个了?另外楼主说的问题很好解决,自己做一个内码和国标区位码的对应表,我在做短信应用的时候收到的短信内容就是内码形式的,然后用一个API函数转换成区位码显示在控件里

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则