人工智能相关教科书的演变,展现了该学科数十年的发展脉络。从尼尔森的机器学习先驱著作,到罗素与诺维格那本“不可承受之重”的百科全书式教材,AI教科书记录了不同思想派别的几起几落。然而,面对近年来大模型带来的变革,AI教科书目前仍缺乏第一性原理,这也导致学科内容在飞速发展中显得“飘忽不定”。
《人工智能简史》(第3版;人民邮电出版社,2026年4月)
撰文 | 尼克
Why most textbooks are so awful?
为什么大部分教科书让人不快?
——Richard Feynman(费曼)
最早的人工智能系统性教科书的作者可能是尼尔森(Nils J. Nilsson)。他在 20 世纪 60 年代初已经意识到不太可能把人工智能的两条路线整合在一起,于是写了《学习机:可训练模式分类系统的基础》(Learning Machines: Foundations of Trainable Pattern-Classifying Systems),于 1965 年出版。这本书也是神经网络领域最早的教科书之一。1971 年,他又写了符号派的《人工智能中的问题求解方法》(Problem Solving Methods in Artificial Intelligence)。有意思的是,这两本书出版的间隔期恰是人工智能抛弃神经网络,走向启发式程序的转折期。他后来陆续写的几本书都是符号派的,其中 1980 年的《人工智能原理》(Principles of Artificial Intelligence)影响最大,是标准教科书,书中只字未提机器学习。此书 1983 年由清华大学的石纯一教授等译为中文,大概是国内最早引进的人工智能教材之一。1998 年的《人工智能:新综合》(Artificial Intelligence: A New Synthesis)可视为上一本书的修订版,其中 4 章讲定理证明(其实就是归结方法及其变种),4 章讲智能体(agent),1 章讲神经网络,1 章讲机器人,2 章讲规划,另 4 章讲搜索算法,几乎都照顾到了,算是中庸。
尼尔森 1985 年离开他服务了二十多年的斯坦福研究所,成为斯坦福大学任计算机科学系主任。1987 年,他和斯坦福大学的吉内塞雷斯(Michael R. Genesereth)合写了一本更加窄门的教科书《人工智能的逻辑基础》(Logical Foundations of Artificial Intelligence),聚焦与逻辑相关的话题。吉内塞雷斯一直在人工智能领域努力推动逻辑,但他毕竟是一位资深的工程师,而不是专业的逻辑学家,他的兴趣是把 KIF(knowledge interchange format,知识交换格式)推成标准。书中专有一章“Metaknowledge and Metareasoning”,这是 KIF 的理论基础,也为后来知识图谱的标准化工作积累了一些经验。这是一本不严格和不完全的一阶逻辑和定理证明的教科书,质量和影响都不如张钦良(Chin-Liang Chang)和李家同(Richad Char-Tung Lee)的《符号逻辑与机器定理证明》(Symbolic Logic and Mechanical Theorem Proving),可惜后者第 7 章有些错误,而两位作者之后也远离机器定理证明领域,一直没有出它值得的修订版。
随后,人工智能的风向变了。尼尔森逝世前一直在写关于“Introduction to Machine Learning”的书稿,很遗憾没有写完。他边写边把书稿在他的斯坦福大学个人主页上更新,最后一次修订是在 2005 年,其中有两章讲强化学习。几本书既映射了尼尔森的职业生涯,也见证了人工智能学科的变迁:从机器学习起,到机器学习终。2009 年出版的人工智能历史专著《探寻人工智能:思想与成就的历史》(The Quest for Artificial Intelligence: A History of Ideas and Achievements)是尼尔森对整个人工智能学科几十年发展的反思。几起几落,他都是参与者。
明斯基是人工智能的先驱之一,他不喜事务管理,很早就从麻省理工学院人工智能实验室主任的职位上退下,交班给他的学生温斯顿(Patrick Winston)。温斯顿年纪轻轻便凭着出色的行政能力执掌有大量经费的人工智能实验室。温斯顿所著的《人工智能》曾经是该领域的标准教科书,此书 1977 年出第 1 版,1992 年出第 3 版,相隔 15 年,这正是神经网络派不得意的时期。此书自然是符号派的,虽然内容不断充实,但思想路线无本质变化。
瑞奇(Elaine Rich)的《人工智能》自 1983 年出版后一直是美国最流行的教科书之一。该书 1991 年的第 2 版和 2010 年的第 3 版分别增加了新作者。瑞奇在卡内基-梅隆大学毕业后就加入得克萨斯大学奥斯汀分校任教。20 世纪 80 年代初,美国在奥斯汀成立 MCC (编者注:Microelectronics and Computer Technology Corporation,当时规模最大的计算机工业研发联合体)以应对日本在半导体和人工智能领域的崛起,瑞奇加入 MCC 并作为人工智能项目的负责人。1998 年,瑞奇重返奥斯汀分校任教,并在 2000 年晋升为高级讲师。《人工智能(第 3 版)》的倒数第 2 章居然是 Prolog,并且副标题是“人工智能的自然语言”。MCC 的使命之一就是对抗日本的第五代计算机,而 Prolog 就是第五代计算机的基础,可以看出时代留下的印迹。此书的前两版基本是传统符号派的,但第 3 版有两章专讲神经网络、一章讲遗传算法,尚算平衡。
布朗大学的查尼亚克(Eugene Charniak)和耶鲁大学的麦克德莫(Drew McDermott)是麻省理工学院的博士生同学,他们合作的《人工智能引论》(Introduction to Artificial Intelligence)出版于 1985 年,也是符号派的标准教科书。查尼亚克的研究兴趣是自然语言处理,曾经深耕统计句法分析器(parser)。麦克德莫的兴趣则是基于逻辑的自动规划(automated planning)。查尼亚克与时俱进,2019 年自己出版了《深度学习导论》(Introduction to Deep Learning)。此书是项目驱动型教材,除了第 1 章,每章都要求用 Python 做一个项目,其中一章专讲如何使用 Tensorflow。这本书虽然偏应用,但也不失严谨,用到的数学知识都交代得清清楚楚,有一定编程基础的读者可将其作为入门书,理论和实践兼顾。
金斯伯格(Matt Ginsberg)1993 年出版的《人工智能指要》(Essentials of Artificial Intelligence)也颇有影响力。第 7 章章名“谓词逻辑”和第 8 章章名“一阶逻辑”有点奇怪。在逻辑学家的词典里,谓词逻辑就是一阶逻辑。但金斯伯格用“谓词逻辑”特指 Prolog 类型的句法,即已经消掉量词的一阶逻辑,或者用 Prolog 自己的说法叫“子句逻辑”。另外,该书专有一章讲“非单调推理”,这是一个现在不太有人关注的领域。
认知科学和人工智能的交集很大,尽管术语有所不同。平克(Steven Pinker)不仅是认知心理学家,还是一位公共知识分子。他有本畅销书《心智探奇:人类心智的起源与进化》(How the Mind Works),内容其实就是把人工智能教材里的公式和算法翻译成心理学的文字描述和比喻。此书中文译本的章节标题都被翻译为人工智能的术语,如果只看中文标题,会认为它和标准的人工智能教科书没有太大区别。
罗素和诺维格(Stuart Russell 和 Peter Norvig)的《人工智能:现代方法》(Artificial Intelligence: A Modern Approach)是最全面、最“现代”的标准教材,被全球 1500 多所学校采用。第二作者诺维格后来长期负责谷歌的搜索项目,但从没有离开教学,他自称用这本书至少教了 16 万名学生。这本书也是同类里最厚的,共 1100 多页,比瑞奇的《人工智能》最新版足足厚了一倍多。如果按照正文的页数分,传统内容大约有 600 页,概率推理内容不到 200 页,而与深度学习和强化学习相关的内容大约有 220 页,另有关于哲学和未来展望的两章共 40 页。
该书第 1 版出版于 1995 年,里面几乎没有神经网络的内容。2003 年出第 2 版时,虽仍没有神经网络的内容,却有一章讲强化学习,并对强化学习有独到的评价,这反映了作者的品味。他们书中有言:“可以认为强化学习包含了全部人工智能。”(Reinforcement learning might be considered to encompass all of AI.)2020 年,该书第 4 版出版,距第 1版问世已经 25 年了。与 2010 年出的第 3 版相比,第 4 版增加了“深度学习”一章,在“自然语言处理”一章之后增加了“自然语言处理中的深度学习”一章,专讲与大模型相关的基础内容。在“机器人学”一章中也加了“强化学习”一节。在“对抗搜索和博弈”一章中加了“蒙特卡洛树搜索”一节,很明显这受到了 AlphaGo 的影响。原来有两章关于规划(planning)的内容,现在合并为一章,而概率推理的内容原来有两章,现在有 3 章。总体来看,第 4 版与第 3 版相隔 10 年,结构并没有太大改动,毕竟第 3 版出版时深度学习已经遍地开花了。另外,第 20 章“学习中的知识”虽然说的是机器学习,但聚焦“基于解释的学习”(explanation-based learning),早年间这也称为归纳(induction),更多是逻辑的内容,与当下的深度学习和强化学习关系不大。
下表总结了人工智能子学科及其活跃年代,以及代表性教科书。
教科书内容的变化之大,恐怕不亚于 ChatGPT 带来的 NLP(自然语言处理)革命。几年前还流行的 NLP 教科书的作者都感到困惑,他们原来书中大篇幅覆盖的分词、句法分析等,在擅长端到端一步到位的大语言模型面前,突然变成了无用的学问。但目前尚没有理论基础支持 Transformer 这种大语言模型的基本架构就是相对稳定的,大概率它还会演进。那教科书该怎么写呢?
教科书是不是越厚、越全面就越好?《费曼物理学讲义》有多个版本,以千禧年版为例,一共 1500 多页,被分印成 3 册,每册内容侧重不同,分别讲力学、电磁学和量子力学。物理学最流行的教科书是哈里德和瑞思尼克(David Halliday 和 Robert Resnick)的《物理学基础》(Fundamentals of Physics),第 1 版出版于 1960 年,到 2021 年已经出到第 12 版,两位作者都长寿,分别在 2010 年(94 岁)和 2014 年(91 岁)过世。最近的几版由比他们年轻的沃尔克(Jearl Walker)完成,而沃尔克也已 80 多岁了。第 11 版接近 1500 页,可谓“不可承受之重”。第 12 版分为上下两卷,上卷覆盖力学和热力学,下卷则包含电磁学、相对论和量子物理。
要论出版的版数,物理学的书比不过经济学的,萨缪尔森(Paul Samuelson)的《经济学:入门分析》(Economics: An Introductory Analysis)1948 年出第 1 版,2021 年出到第 20 版,萨缪尔森 2009 年去世时,该书出到第 19 版。1985 年出第12 版时,诺贝尔经济学奖获得者诺德豪斯(William D. Nordhaus)加入,作为共同作者。计算机科学的另一本畅销教科书《计算机体系结构:量化研究方法》(Computer Architecture: A Quantitative Approach)在 2017 年出第 6 版时,也近 1000 页了。
罗素和诺维格两位作者正值壮年,他们的书也许可以出到第 10版,但那时恐怕要超过 2000 页了。以物理学教科书的经验看,要想成为经典,首先学科已成稳态;其次,书被广泛采用。人工智能教科书中最有望成为经典的就是罗素和诺维格的这本了,不过人工智能学科还在发展,我们甚至不敢肯定现在书中的内容将来还会归属同一学科。另外,对于一门成熟的学科,要将一线研究的内容写到教科书里,往往需要更长的时间。相比于当下的物理学,人工智能是快速发展的学科,其教科书也更及时地反映了前沿研究,即便如此,一个重要的进展最快也需要 3 到 5 年才能出现在教科书里。每个作者都有自己的品味,全面如罗素和诺维格的书,也对选材有所取舍。作者只字不提语义网(semantic web)——在 2006 年的 AAAI 会上,诺维格曾经不满语义网的进展,和语义网的倡导者 Tim Berners-Lee 不睦。逻辑派内部的观点也不完全统一。
人工智能的板块之间并没有逻辑的关系,把所有内容丢到一个大桶里是不是一个好的教科书组织方式值得探讨。人工智能是否也会像物理学一样,在其教科书变得太厚之前,会被一分为二或三?图灵奖获得者本吉奥(Yoshua Bengio)作为作者之一的《深度学习》算是深度学习的标准教科书了。巴托和萨顿(Andrew G. Barto和RichardS. Sutton)师徒俩的经典著作《强化学习》首版于 1998 年出版,20 年后推出了第 2 版。值得指出的是,强化学习作为独立的领域,是在 2016 年 AlphaGo 出名后才逐渐火起来的,他们两位不屈不挠的坚持使得强化学习免成绝学。
人工智能教科书的编写体例需要新的思维,可能需要加些理论基础作为黏合剂。图灵 1950 年的人工智能开创性文章《计算机与智能》提出的问题是基于图灵 1936 年的计算理论开创性工作的。无论是外行还是内行,最常问的就是“智能等价于计算吗?”。对此,符号派和深度学习派都没有给出答案,甚至没有回答的框架。深度学习和强化学习的从业者中,电子工程(包括控制工程、系统工程等)背景的人不少于计算机科学的,而前者几乎不熟悉计算理论,甚至不知道丘奇-图灵论题,这肯定无助于提供一个系统性的理论基础。罗素和诺维格的书在最后一章借用了经济学词汇:新古典经济学假设“完美理性”(perfect rationality),该书中有对应物“计算理性”(calculative rationality);经济学中有司马贺的“边界理性”(bounded rationality),该书中有对应物“有界优化”(bounded optimality)。从计算理论的角度看,所谓“计算理性”,可以参照计算理论里的可计算性;而“有界优化”,可参照计算复杂性。经济学以“理性人”作为公理框架,而人工智能里的智能体(agent)可以有根据地参照图灵机。相较于那几本经典的物理学教科书,人工智能教科书缺乏第一性原理,即计算理论,这也使得人工智能的内容给人以飘忽不定的感觉。
美国学界有编手册的传统。中国的手册多是工具书,例如《数学手册》,而美国的手册多是长篇综述文章的文集,例如《数理逻辑手册》(Handbook of Mathematical Logic,1977)、《自动推理手册》(Handbook of Automated Reasoning,2001)等。20 世纪 80 年代初,人工智能的领袖人物之一费根鲍姆和他的跟随者科恩等牵头编辑 3 卷本《人工智能手册》(The Handbook of Artificial Intelligence),1989 年又补充了第 4 卷,全书共 2000 多页。书中没有系统讲解神经网络,只是在第 3 卷第 9 章“学习与归纳推理”的 D2 一节中用 4 页作为历史回顾,提了下罗森布拉特和他的感知机,以及明斯基和佩珀特 1969 年的《感知机》一书,并说这书给出了神经网络的“理论局限”(theoretical limitation)。今天看,这套手册一半以上的内容已经过时。
20 世纪 80 年代末的某一学期,马萨诸塞大学的人工智能课程独树一帜,由计算机系的所有人工智能教授联合授课,每人负责一个主题(如下页表),主要参考书目是费根鲍姆和科恩等主编的《人工智能手册》。此外,瑞奇 1983 年出版的《人工智能》也是参考读物,但每个老师以自己的教辅材料为主。老师们也分属人工智能的不同派别,很难统一口径。计算机系如此开课只此一回,但让我赶上了。
马萨诸塞大学计算机和人工智能的多元化教师团队同时开课的方式,除了说明教师队伍确属顶流,也让有慧根的学生领略到各门派的精华。相比之下,差不多同一时期,温斯顿用自己的那本流行的教科书开的课,在当时堪称人工智能教学的基准,都已被录像。但今天看来,内容基本已过时,也没有留下很多可供借鉴的思路。
以更成熟的学科视角看,人工智能教科书的转折是不可思议的——不能想象一本物理学教科书会对相对论或者量子力学时而聚焦,时而回避。最近,人工智能的两条路线也开始出现交集。例如用强化学习的方法解决逻辑的问题,为近乎停滞的定理证明带来些许光明。同时,理论家们开始探索各种学习问题的边界。
教科书不仅是学术进步的跟随者,也应是知识的梳理者。但教科书也会使我们遗忘很多为这门学科做出贡献的人。欧几里得在《几何原本》中总结了他知道的所有几何知识,但我们几乎不知道书中那些定理的原创者。NP 完全性是计算理论的核心内容之一,但 20 世纪七八十年代的学者和学生大多不是直接从库克 1971 年那篇著名论文学习的,而是通过加雷(Michael R. Garey)和约翰逊(David S. Johnson)那本人手一册的教科书(Computers and Intractability: A Guide to the Theory of NP-completeness)学习的。教科书应该为学生提供系统且经济的学习路径。教科书的作者最好是资深的一线研究者,或者是丘成桐所谓“退休的一线研究者”,他们的品味,宏观上可以帮助后学者看到学科的无死角的风景。
注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2.『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。