摘要
C 编程语言是在 1970 年代早期作为初创的 Unix 操作系统的系统实现语言而设计的。起源于无类型的 BCPL 语言,它发展出了类型结构;它建立在一个小机器上、作为改善其贫乏的编程环境的工具,它现在已经成为占主导地位的语言之一。本文研讨它的演变。
注意: *Copyright 1993 Association for Computing Machinery, Inc. This electronic reprint made available by the author as a courtesy. For further publication rights contact ACM or the author. This article was presented at Second History of Programming Languages conference, Cambridge, Mass., April, 1993.
It was then collected in the conference proceedings: History of Programming Languages-II ed. Thomas J. Bergin, Jr. and Richard G. Gibson, Jr. ACM Press (New York) and Addison-Wesley (Reading, Mass), 1996; ISBN 0-201-89502-1.
介绍
本文专注于 C 编程语言的开发,它受到的影响,和创造它所处的条件。出于简要性的原因,我省略了对 C 语言本身、它的父辈 B 语言[Johnson 73] 和它的祖父辈 BCPL 语言[Richards 79] 的完整描述,而是集中在每种语言的特征性要素和它们是如何演变的。
C 语言形成于 1969-1973 年之间,平行于 Unix 操作系统的早期开发;最活跃的时期发生在 1972。另一次变化涌现在 1977 年和 1979 年之间达到高峰,此时 Unix 系统的可移植性被证实了。在第二个时期的中间,出现了第一个可广泛获得的语言描述: The C Programming Language,它常被称为‘白皮书’或‘K&R’[Kernighan 78]。最后,在 1980 年代中期, ANSI X3J11 委员会正式标准化了这门语言,它做了进一步的改变。直到 1980 年代早期,尽管编译器存在于各种机器体系和操作系统之上,C 语言几乎还是专门的关联于 Unix 操作系统;最近,它的使用传播得更加广泛,今天它是整个计算机工业中最常用的语言之一。
历史: 起步
1960 年代晚期对于 Bell 电话实验室的计算机系统研究而言是个喧闹的时期[Ritchie 78] [Ritchie 84]。公司脱离出了 Multics 计划[Organick 75],它是作为 MIT、General Electric 和 Bell Labs 的合资项目发起的;在 1969 年,Bell Labs 管理者甚至是研究者,开始相信履行对 Multics 的承诺太晚了也太昂贵了。甚至在 GE-645 Multics 机器被从前提中去除之前,主要由 Ken Thompson 领导的一个非正式小组就已经开始调研替代者了。
Thompson 希望创造一个舒适的计算环境,依据他自己的设计来构造,使用能用上的任何手段。回顾起来,他的设计结合了很多 Multics 的创新方面,包括作为控制的处所的明确的进程概念,树状结构的文件系统,作为用户级别程序的命令解释器,文本文件的简单表示,和对设备的一般化访问。他排除了其他一些东西,比如对内存和文件的统一的访问。而且在开始时,他和我们中其余的人推延了 Multics 的另一个先驱性(尽管不是首创)的要素,就是基本上完全用高级语言写成。Multics 的实现语言 PL/I 不合我们的胃口,我们还使用了其他高级语言,包括 BCPL 语言,我们遗憾于失去了使用在汇编层次之上的语言的利益,比如易于书写和清晰理解。那时我们没有重视可移植性;对此的兴趣是后来才唤起的。
Thompson 面对的是在当时都是狭促和艰苦的硬件环境: 他在 1968 年起步时用的 DEC PDP-7 是有 8K 18-bit 字的内存而没有可用的软件的机器。尽管想要使用一门高级语言,他还是用 PDP-7 汇编语言写了最初的 Unix 系统。在开始时,他甚至没有在 PDP-7 自身上编程,而是在一个 GE-635 机器上使用 GEMAP 汇编器的一组宏。一个后处理器生成 PDP-7 可读的纸带。
把这些纸带从 GE 机器运送到 PDP-7 上做测试,直到完成了原始的 Unix 内核、编辑器、汇编器、一个简单的 shell(命令解释器)和一些实用工具(例如 Unix 的 rm、cat、cp 命令)。此后,操作系统就自我支持了: 不用借助纸带就可以书写和测试程序了,在 PDP-7 自身上继续开发了。
Thompson 的 PDP-7 汇编器在简单性上甚至胜过了 DEC 的;它求值(evaluate)表达式并表述出(emit)相应的二进制位。这里没有库,没有装载器和连接器: 把程序的全部源代码提供给汇编器,固定名字的输出文件直接就是可执行的。(a.out 这个名字解释了一点 Unix 语源;它是汇编器的输出。即使在系统增加了连接器和明确的指定另一个名字的方式之后,它仍被保留为编译后的缺省的可执行的结果。)
在 Unix 首次在 PDP-7 上运行不久,在 1969 年,Doug McIlroy 建立了新系统的第一个高级语言: McClure 的 TMG [McClure 65]的一个实现。TMG(更一般的说是 TransMoGrifiers)是书写编译器的语言,它采用把上下文无关语法概念和过程性元素组合起来的自顶向下递归下降方式。McIlroy 和 Bob Morris 曾经使用 TMG 为 Multics 写过早期的 PL/I 编译器。
受到 McIlroy 在重新创作 TMG 中表现出的技艺的挑战,Thompson 决定仍没有命名的 Unix 也需要一个系统编程语言。在快速的放弃对 Fortran 的尝试之后,他转而建立自己的语言,他称之为 B 语言。B 语言可以被认为是没有类型的 C 语言;更加准确的说,它是压缩 8K 字节中的并经过 Thompson 的大脑过滤后的 BCPL 语言。它的名字很可能表示 BCPL 的缩写,尽管还有一种说法说它是衍生自 Bon 语言[Thompson 69],它是 Thompson 在 Multics 时日中建立的一种无关的语言。Bon 依次要么命名于他的妻子 Bonnie,要么依据有着呢喃的巫术仪式的一种宗教来命名的(依据在它的手册中的一个百科全书引用)。
起源: 语言
BCPL 语言由 Martin Richards 在 1960 年代中期设计,当时他正在访问 MIT,并在 1970 年代早期在一些有趣的项目中使用,包括在 Oxford 的 OS6 操作系统[Stoy 72],和 Xerox PARC 的有重大的影响(seminal)的 Alto 工作中[Thacker 79]。我们熟悉它是因为 Richard 在其上工作的 MIT CTSS 系统[Corbato 62]被用于 Multics 开发。最初的 BCPL 语言编译器被 Bell Labs 的 Rudd Canaday 和其他人运输到 Multics 和 GE-635 GECOS 系统上[Canaday 69];在 Multics 于 Bell Labs 生命的最后剧痛期间和此后不久,它是后来与 Unix 涉及在一起的这组人所选择的语言。
BCPL 语言、B 语言和 C 语言都坚定的归属于以 Fortran 语言和 Algol 60 语言为代表的传统过程式语言家族。他们显著的面向于系统编程,都很小并被简洁的描述,和适合用简单的编译器来翻译。它们都‘贴近于机器’,因为它们介入的抽象都容易的根基于常规的计算机提供的具体数据类型和操作之上,而且它们依靠库例程来来做输入-输出和与操作系统的其他交互。有着小一些的成功,它们还使用库过程来指定有趣的控制构造比如协同例程(coroutine)和过程闭包(closure)。同时,它们的抽象位于充分高的层次上,慎重的完成了在机器间的可移植性。
BCPL 语言、B 语言和 C 语言在很多细节上有语法上的区别,但在宏观上它们是类似的。程序由一系列的全局声明和函数(过程)声明构成。在 BCPL 中过程可以嵌套,但是对在包含过程中定义的非静态对象是不可引用的。B 和 C 语言通过施加更严格的限制来避免这种限制: 根本不允许嵌套的过程。这些语言(除了早期版本的 B 语言)识别分开的编译,并提供包含指名文件的文本的方式。
BCPL 的一些语法和词法机制要比 B 语言或 C 语言更加优雅和正规。例如,BCPL 的过程和数据声明有更加一致的结构,并提供更完整的一组循环构造。尽管 BCPL 程序在概念上提供无界限的字符流,聪明的规则允许省略结束于行边界的语句之后多数分号。B 和 C 语言去除了这种便利,以分号终结多数语句。不管有这些区别,多数 BCPL 语言的语句和操作符都可以直接映射到对应的 B 语言和 C 语言上。
在 BCPL 语言和 B 语言之间的某些结构性区别根源于在中介内存上的限制。例如,BCPL 语言声明采用下列形式
let P1 be command
and P2 be command
and P3 be command
...
这里用 command 表示的程序文本包含完整的过程。子声明用 and 连接并同时出现,所以名字 P3 在过程 P1 内是可知的。类似的,BCPL 语言可以包装一组声明和语句到一个生成一个值的表达式中,例如
E1 := valof ( declarations ; commands ; resultis E2 ) + 1
BCPL 编译器通过在输出结果之前存储和分析整个程序的解析后的表示于内存中来容易的处理这种构造。B 编译器的存储限制需要尽可能快的生成输出的一种一趟技术,而使之可能的语法性重新设计被被转接到 C 语言中。
BCPL 语言的某些较少令人愉快的特征归咎于它自身的技术问题,而在 B 语言设计中被有意的避免了。例如,BCPL 语言为在独立编译的程序之间通信而使用了‘全局向量’机制。在这种方案中,编程者显式的给每个外部可见的过程和数据对象的名字关联上在全局向量中的数值偏移量;连接是在编译后的代码中通过使用这些数值偏移量来完成的。B 语言最初通过坚持把整个程序一次提供给编译器来躲避了这种麻烦。后来的 B 语言实现和所有 C 语言实现,使用常规的连接器来解析在单独编译的文件中出现的外部名字,而不是把分配偏移量的负担转加给编程者。
在从 BCPL 语言到 B 语言的过渡中的其他琐事是作为个人喜好的上事情而引入的,某些仍然有争议,例如决定使用单一字符 = 来替代 := 用做赋值。类似的,B 语言使用 /* */ 来包围注释,而 BCPL 语言使用 //,来忽略直到行末的文本。这是明显的 PL/I 遗迹。(C++ 复兴了 BCPL 语言的注释约定。) Fortran 语言影响了声明的语法: B 语言声明开始于说明符(specifier)比如 auto 或 static,随后是一列名字,C 不只是依从这种风格,而且通过在声明的开始处放置类型关键字来修饰它。
在 Richard 的书[Richards 79]中加以文档的 BCPL 语言和 B 语言之间的区别不都是故意的;我们开始自 BCPL 语言的一个早期版本[Richards 67]。例如,当我们在 1960 年代学习它的时候,从 BCPL 语言的 switchon 语句中退出的 endcase 是不存在的,所以过载(overload)了 break 关键字来从 B 语言和 C 语言的 switch 语句中退出,这归功于分裂演进而不是有意的变革。
与在建立 B 语言期间发生的普遍深入的语法变革相对比,BCPL 语言的核心语义内容,它的类型结构和表达式求值规则,都完整的保留了。两种语言都是无类型的,更准确的说是有一个单一的数据类型,‘字(word)’或者叫‘单元(cell)’, 它是固定长度的位模式(pattern)。在这些语言内存由这种单元的一个线形数组构成,单元的内容的意义依赖于应用在其上的操作。例如 + 操作符使用机器的整数加法指令来加它的操作数,其他算术操作也不去体察它们的操作数的实际意义。因为内存是线性数组,可以把在单元中的值解释为这个数组的索引,BCPL 语言为此提供了一个操作符。在最初的语言中它拼写为 rv,后来是 !,而 B 语言使用了一元的 *。所以,如果 p 是包含另一个单元的索引(地址或指针)的单元,则 *p 引用指向的单元的内容