ASCII

来自多识植物百科
跳转至: 导航搜索

ASCIIAmerican Standard Code for Information Interchange,美国信息交换标准字符集)是20世纪中期美国为了实现计算机、电报和其他设备之间的电子通信而制定的字符编码标准。由于美国是现代计算机技术的奠基国和主要发展国,ASCII后来成为很多现代字符集的基础。

ASCII由美国国家标准学会[American National Standard Institution, ANSI,前身为美国标准学会(American Standard Association, ASA)]负责制定和修订,最后一次更新在2012年。在ANSI制定的ASCII标准之外的字符集即使以ASCII为基础,也不能叫ASCII。1967年,ASCII成为国际标准化组织(ISO)制定的ISO 646字符集的基础。

基本情况

ASCII用7个字位为字符编码。0-31为控制字符,用于控制设备完成特定的操作(如响铃、退格、回车、水平制表等);32-126位为可打印字符,包括空格、阿拉伯数字、26个大小写拉丁字母和常见标点符号(在美式键盘上均有标记而可打出);127位为表示“删除”的控制字符。

常见扩展

随着以8和8的倍数个字位为基础的计算机成为世界主流,很多以ASCII为基础的字符集以8个字位(即一整个字节)为单位编码,并在其中完全或基本兼容ASCII。这些字符集常称为“扩展ASCII”(Extended ASCII),但这个名称严格来说有误导性,因为这些扩展字符集无一属于ANSI制定的ASCII标准,并不是真正的ASCII。

代码页437

中国大陆在早期大多使用IBM公司生产的主板,配合微软公司研发的DOS作为操作系统,因此由IBM和微软公司联合制定的代码页437(Code page 437)也成为中国最流行的ASCII扩展字符集。该字符集并有一套设计好的屏幕等宽字体。

代码页437以1个字节编码,包括256个字符。其“低位”区(第1个字位为0的128个字符)中的32-126位与ASCII完全相同,低位区的1-31位各指定了一个可打印的图形符号(如笑脸、扑克花色、性别符号等),可由一些软件显示,但另一些软件仍会把它们视为控制字符而无法显示符号图形。“高位”区(第1个字位为1的128个字符)的0-127位包括了一些带附加符号的拉丁字母、部分希腊字母、制表符和美式键盘没有标记的其他符号,但因为收录的拉丁字母变体不全,仅能涵盖德语瑞典语字母,其他西欧语言(如法语西班牙语等)仍然不能完全涵盖。

UCS

主条目:UCS

UCS是由ISO和国际电工委员会(IEC)联合制定的供电子信息交换用的统一字符集,旨在涵盖世界上所有文字系统中的文字和所有通用的符号,实现同一标准下的多语种、多文字信息交换。UCS的基本标准是ISO/IEC 10646,最多使用4个字节编码,可包括1,112,064个字符,并在基本多文种平面中完全兼容ASCII。

由于双方的紧密合作,UCS的字符表现已与Unicode完全相同,但仅仅是个简单的映射表,没有对字形的详细说明,更新频率也不如Unicode高。

Unicode

主条目:Unicode

Unicode(通译“统一码”)是由统一码联合会(Unicode Consortium)制定的供电子信息交换用的统一字符集。从Unicode 2.0开始,它与UCS采取了完全相同的字符表。但Unicode对于很多字形有详细说明和规定,更新频率也比较快。与Unicode相关的UTF-8编码格式是目前世界上最流行的字符集编码格式。多识植物百科也在全站使用了UTF-8。

在植物名称中的应用

ASCII涵盖了由《国际藻类、菌物和植物命名法规》(ICN)规定的标准植物学名中使用的大部分字符,包括26个大写拉丁字母、26个小写拉丁字母、表示缩略的句点(.)、连字符(-)、加号(+, 表示嫁接杂交)和左右方括号([ ],用于标记属或种的次级划分无确定的等级)。然而,其中并无杂交号(×),因此ICN特别规定学名中的杂交号也可以用小写字母x代替。带分音符号的字符(如ë, ö)也不见于ASCII,ICN规定分音符号可加可不加。除此之外,ASCII也不包括在作者引证中经常出现的带附加符号的拉丁字母。

ASCII是纯文本编码,因此纯用ASCII表示的学名均不带斜体格式。