Unicode编码规则
码点 / 平面 / 字符集 / UTF编码关系
共 3 条
编码规则
U+0000-U+FFFF
基本多文种平面 BMP
常用汉字、拉丁字母、符号U+10000-U+10FFFF
补充平面,需要UTF-16代理对表示
部分Emoji、生僻字| 名称 | Unicode码位 | 说明 |
|---|---|---|
| 拉丁字母A | U+0041 | ASCII兼容区字符 |
| 汉字中 | U+4E2D | 中日韩统一表意文字 |
| 笑脸Emoji | U+1F600 | 补充平面字符 |
Unicode编码说明
Unicode为世界上各种文字和符号分配统一码点,UTF-8、UTF-16、UTF-32是Unicode码点的不同编码方式。 如需做实际文本转换,可使用编码转换工具,Unicode互转可使用Unicode转换工具。
常见问题
Unicode是编码吗?
Unicode更准确地说是字符集和码点标准,UTF-8、UTF-16、UTF-32才是具体编码方式。
码点是什么意思?
码点是Unicode给字符分配的编号,通常写作U+XXXX。
Unicode和UTF-8有什么区别?
Unicode定义字符和码点,UTF-8是把Unicode码点编码为字节序列的一种方式。
Unicode有多少个平面?
Unicode理论上有17个平面,从U+0000到U+10FFFF,其中基本多文种平面BMP最常用。