×

汉字unicode查询 unicode编码 编码

汉字unicode查询(生僻字的unicode编码)

admin admin 发表于2023-08-25 10:58:56 浏览42 评论0

抢沙发发表评论

本文目录

生僻字的unicode编码

如果将非通用规范汉字都视作“生僻字”的话,则8105个通用规范汉字大都在GBK字符集内,少数在万国码(Unicode)超大字符集内。而且GBK字符集共有两万余汉字,大部分汉字都不是通用规范汉字;五万余字的超大字符集的汉字绝大部分都不是通用规范汉字。多元汉字与图形符号输入法(多元码)可以打出万国码6.2版7.68余万汉字,其中包括所有通用规范汉字。

怎样用win7系统自带的字符映射表查找我想要的汉字对应的Unicode码

依次单击开始——所有程序——附件——命令提示符,打开命令提示符,输入chcp,按回车键执行,会查询当前系统的活动代码页,它指明了当前系统使用的编码,如下图所示:

936 代表GBK 扩展的EUC-CN 编码( GB 2312-80编码,包含 6763 个汉字)到Unicode (GB13000.1-93)中定义的20902个汉字,即中国大陆使用的是简体中文zh_CN.。其它常见的还有:

932 :Shift-JIS包含日本语 charset JIS X 0201 (每个字符一个字节) 和 JIS X 0208 (每个字符两个字节),所以 JIS X 0201平假名包含一个字节半宽的字符,其剩馀的60个字节被用做7076个汉字以及648个其他全宽字符的首字节.同EUC-JP编码区别的是, Shift-JIS没有包含JIS X 202中定义的5802个汉字. 

949 :UnifiedHangul (UHC) 是韩文 EUC-KR 编码(KS C 5601-1992 编码,包括2350 韩文音节和 4888 个汉字a)的超集,包含 8822个附加的韩文音节( 在C1中 ) 

950:是代替EUC-TW (CNS 11643-1992)的 Big5 编码(13072 繁体 zh_TW 中文字) 繁体中文,这些定义都在Ken Lunde的 CJK.INF中或者 Unicode 编码表中找到. 

python123汉字的unicode编码值

python的默认编码是ascii,可以通过sys.setdefaultencoding(’utf-8’)函数设置python的默认编码。python中可以通过encode和decode的方式改变数据的编码,比如:》》》 u’汉字’u’\u6c49\u5b57’》》》 u’汉字’.encode(’utf-8’)’\xe6\xb1\x89\xe5\xad\x97’》》》 u’汉字’.encode(’utf-8’).decode(’utf-8’)u’\u6c49\u5b57’我们可以通过这两个函数设置编码。那么,python中的str是什么类型?》》》 import binascii》》》 ’汉字’’\xba\xba\xd7\xd6’》》》 type(’汉字’)》》》 print binascii.b2a_hex(’汉字’)babad7d6》》》 print binascii.b2a_hex(u’汉字’)Traceback (most recent call last):File ““, line 1, inUnicodeEncodeError: ’ascii’ codec can’t encode characters inposition 0-1: ordinal not in range(128)》》》 print binascii.b2a_hex(u’汉字’.encode(’utf-8’))e6b189e5ad97》》》 print binascii.b2a_hex(u’汉字’.encode(’gbk’))babad7d6binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字’的类型是str,二进制是babad7d6,u‘汉字’是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8’)成str类型。因为我命令行是windows默认的GBK编码,所有u’汉字’.encode(‘gbk’)的时候,输出结果和‘汉字’结果一样。