UTF-8

针对Unicode的前缀码
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,由Ken Thompson于1992年创建。[1]
对于ASCII字符,UTF-8仅使用1个字节来编码。事实上,UTF-8中前128个字符(0-127)使用的是跟ASCII码一样的编码方式,扩展拉丁字符使用2个字节来编码,中文字符占用3个字节,更复杂的字符则占用4个字节。[2]
UTF-8是Unicode中使用比较广泛的编码格式,又称为万国码。UTF-8实际上是一种存储方式,是一种在存储和传输上节约空间、提高性能的编码形式。[3]

发展历程

在所有字符集中,最知名的可能要数被称为ASCII的8位字符集了。它是美国标准信息交换代码(American Standard Code for Information Interchange)的缩写, 为美国英语通信所设计。它由128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等4个)以及控制字符(退格、响铃等)组成。