UTF-8

针对Unicode的前缀码

条目

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，由Ken Thompson于1992年创建。^[1]

对于ASCII字符，UTF-8仅使用1个字节来编码。事实上，UTF-8中前128个字符（0-127)使用的是跟ASCII码一样的编码方式，扩展拉丁字符使用2个字节来编码，中文字符占用3个字节，更复杂的字符则占用4个字节。^[2]

UTF-8是Unicode中使用比较广泛的编码格式，又称为万国码。UTF-8实际上是一种存储方式，是一种在存储和传输上节约空间、提高性能的编码形式。^[3]

发展历程

在所有字符集中，最知名的可能要数被称为ASCII的8位字符集了。它是美国标准信息交换代码（American Standard Code for Information Interchange）的缩写, 为美国英语通信所设计。它由128个字符组成，包括大小写字母、数字0-9、标点符号、非打印字符（换行符、制表符等4个）以及控制字符（退格、响铃等）组成。