UTF-32编码规则

固定4字节 / Unicode码点 / 编码示例

编码规则

U+0000-U+10FFFF固定4字节

直接存储Unicode码点值,分大端和小端

U+4E2D -> 00 00 4E 2D
BOMFE FF或FF FE相关

可通过字节序标记判断大小端

UTF-32BE / UTF-32LE
字符名称Unicode码位字节说明
A拉丁字母AU+004100 00 00 41UTF-32BE表示
汉字中U+4E2D00 00 4E 2DUTF-32BE表示
😀笑脸EmojiU+1F60000 01 F6 00UTF-32BE表示

UTF-32编码说明

UTF-32使用固定4字节表示一个Unicode码点,规则简单但空间占用较大,常用于需要固定宽度处理字符的场景说明。 如需做实际文本转换,可使用编码转换工具,Unicode互转可使用Unicode转换工具

常见问题

UTF-32为什么不常用于网页?

UTF-32每个字符固定4字节,空间占用大,Web通常使用更紧凑的UTF-8。

UTF-32和Unicode码点有什么关系?

UTF-32基本直接以固定4字节保存Unicode码点值。

UTF-32为什么固定4字节?

UTF-32用固定32位空间直接表示Unicode码点,因此每个字符占4字节。

UTF-32BE和UTF-32LE有什么区别?

UTF-32BE和UTF-32LE的区别是字节序不同,大端把高位字节放前面,小端把低位字节放前面。