UTF-8编码表

1-4字节 / Unicode码点 / 中文和Emoji示例

编码规则

U+0000-U+007F1字节

0xxxxxxx

A = 41
U+0080-U+07FF2字节

110xxxxx 10xxxxxx

¢ = C2 A2
U+0800-U+FFFF3字节

1110xxxx 10xxxxxx 10xxxxxx

中 = E4 B8 AD
U+10000-U+10FFFF4字节

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

😀 = F0 9F 98 80
字符名称Unicode码位字节说明
A拉丁字母AU+004141ASCII字符,UTF-8占1字节
¢分币符号U+00A2C2 A2UTF-8占2字节
汉字中U+4E2DE4 B8 AD常用中文,UTF-8占3字节
😀笑脸EmojiU+1F600F0 9F 98 80Emoji,UTF-8占4字节

UTF-8编码说明

UTF-8是Web最常用的Unicode编码方式,使用1到4个字节表示字符,兼容ASCII,中文通常占3字节。 如需做实际文本转换,可使用编码转换工具,Unicode互转可使用Unicode转换工具

常见问题

中文在UTF-8里通常占几个字节?

常用中文位于U+0800到U+FFFF范围,UTF-8通常占3个字节。

UTF-8为什么兼容ASCII?

UTF-8中U+0000到U+007F使用单字节表示,编码值与ASCII完全一致。

Emoji在UTF-8中占几个字节?

常见Emoji位于U+10000以上,UTF-8编码后通常占4个字节。

UTF-8和Unicode有什么区别?

Unicode是字符码点标准,UTF-8是Unicode的一种变长字节编码方式。