Unicode编码规则

码点 / 平面 / 字符集 / UTF编码关系

编码规则

U+0000-U+FFFF

基本多文种平面 BMP

常用汉字、拉丁字母、符号
U+10000-U+10FFFF

补充平面,需要UTF-16代理对表示

部分Emoji、生僻字
名称Unicode码位说明
拉丁字母AU+0041ASCII兼容区字符
汉字中U+4E2D中日韩统一表意文字
笑脸EmojiU+1F600补充平面字符

Unicode编码说明

Unicode为世界上各种文字和符号分配统一码点,UTF-8、UTF-16、UTF-32是Unicode码点的不同编码方式。 如需做实际文本转换,可使用编码转换工具,Unicode互转可使用Unicode转换工具

常见问题

Unicode是编码吗?

Unicode更准确地说是字符集和码点标准,UTF-8、UTF-16、UTF-32才是具体编码方式。

码点是什么意思?

码点是Unicode给字符分配的编号,通常写作U+XXXX。

Unicode和UTF-8有什么区别?

Unicode定义字符和码点,UTF-8是把Unicode码点编码为字节序列的一种方式。

Unicode有多少个平面?

Unicode理论上有17个平面,从U+0000到U+10FFFF,其中基本多文种平面BMP最常用。