首页 / 网页编程 / PHP / 中文字符集与字符编码的基础知识
中文字符集与字符编码的基础知识2011-09-19字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集,选取几种代表性的中文字符集,研究历史由来、特点、技术特征。ASCII字符集1.名称的由来ASCII(AmericanStandardCodeforInformationInterchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。2.特点它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO646。3.包含内容控制字符:回车键、退格、换行键等。可显示字符:英文大小写字符、阿拉伯数字和西文符号4.技术特征7位(bits)表示一个字符,共128字符5.ASCII扩展字符集7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。