码点知识补充
-
「基本多文种平面(BMP)」: -
这是最初的Unicode字符集,也称为平面0。 -
码点范围是从U+0000到U+FFFF,涵盖了大多数常用的字符。 -
包括如英语、阿拉伯语、希伯来语和大部分现代文字。 -
「补充多文种平面(SMP)」: -
又称为平面1。 -
码点范围是从U+10000到U+1FFFF。 -
涵盖了不那么常用但仍然十分重要的字符,比如哥特字母、古代文字和一些历史字符。 -
「补充表意文字平面(SIP)」: -
又称为平面2。 -
码点范围是从U+20000到U+2FFFF。 -
包含了额外的中日韩汉字(CJK),有助于涵盖历史文献中罕见的字。 -
「其他平面」: -
Unicode理论上设计了17个平面(从平面0到平面16),每个平面拥有65536个码点。 -
这包括了3到13平面(U+30000到U+DFFFF)目前大部分没有被使用,被称为“尚未指定的平面”。 -
「特殊用途的码点」: -
高位替代区(High Surrogates,U+D800—U+DBFF)和低位替代区(Low Surrogates,U+DC00—U+DFFF):用于UTF-16编码。 -
私有使用区(Private Use Areas,PUAs):从U+E000到U+F8FF,U+100000到U+10FFFF等区域,供私人使用,不会被Unicode赋予具体字符。 -
「控制字符和特殊字符」: -
Unicode还包含了多个控制字符区域,用于文本控制和格式化,这些通常不表示任何的打印字符。
参考资料
-
https://en.wikipedia.org/wiki/Unicode
原文始发于微信公众号(Coder小Q):【密码学】一文看懂字符集的概念
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论