UTF-8编码表
1-4字节 / Unicode码点 / 中文和Emoji示例
共 4 条
编码规则
U+0000-U+007F1字节
0xxxxxxx
A = 41U+0080-U+07FF2字节
110xxxxx 10xxxxxx
¢ = C2 A2U+0800-U+FFFF3字节
1110xxxx 10xxxxxx 10xxxxxx
中 = E4 B8 ADU+10000-U+10FFFF4字节
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
😀 = F0 9F 98 80| 字符 | 名称 | Unicode码位 | 字节 | 说明 |
|---|---|---|---|---|
| A | 拉丁字母A | U+0041 | 41 | ASCII字符,UTF-8占1字节 |
| ¢ | 分币符号 | U+00A2 | C2 A2 | UTF-8占2字节 |
| 中 | 汉字中 | U+4E2D | E4 B8 AD | 常用中文,UTF-8占3字节 |
| 😀 | 笑脸Emoji | U+1F600 | F0 9F 98 80 | Emoji,UTF-8占4字节 |
UTF-8编码说明
UTF-8是Web最常用的Unicode编码方式,使用1到4个字节表示字符,兼容ASCII,中文通常占3字节。 如需做实际文本转换,可使用编码转换工具,Unicode互转可使用Unicode转换工具。
常见问题
中文在UTF-8里通常占几个字节?
常用中文位于U+0800到U+FFFF范围,UTF-8通常占3个字节。
UTF-8为什么兼容ASCII?
UTF-8中U+0000到U+007F使用单字节表示,编码值与ASCII完全一致。
Emoji在UTF-8中占几个字节?
常见Emoji位于U+10000以上,UTF-8编码后通常占4个字节。
UTF-8和Unicode有什么区别?
Unicode是字符码点标准,UTF-8是Unicode的一种变长字节编码方式。