ChatGPT哲学之谜
ChatGPT的出现,让人们从科技和人文的角度都开始重新思考人类与机械、人类与科技、人类与人工智能之间的关系。作为一个大型人工智能语言模型,ChatGPT是怎样理解人类的逻辑的?我们要怎么看它,它又如何观照这个世界?一起来看看这篇文章,希望能为你带来启发。
“一些未知的东西正在做我们不知道的事情。”
——阿瑟·爱丁顿
“为何不尝试制作一个模拟儿童思维的程序呢?”
——艾伦·图灵
“只要是人脑能提出的问题,它就能够得到解决。”
——库尔特·哥德尔
一
有人说,ChatGPT是个文科生。
这么说,只因为ChatGPT是一种大型语言模型,基于自然语言处理技术,通过深度学习模型对大量文本数据进行训练,从而学习到语言的规律和语义表达。
有人说,ChatGPT是个理科生。
自然语言处理本质上仍然是计算机语言。其发展的第二阶段是基于统计的机器学习,第三阶段是基于神经网络的深度学习,和人类的语言学规则关系不大。
还有人说,ChatGPT是个体育生。
创造了阿尔法狗的哈萨比斯认为,ChatGPT仅仅是更多的计算能力和数据的蛮力,并对这种“不优雅”的方式感到失望。
本文将从一道经典的“两孩难题”开始,引出ChatGPT背后的概率思维,以及19世纪以来人类面临的不确定性困境。
自亚里士多德与柏拉图之间的辩论开始,到休谟和贝叶斯二人隔着历史的相杀相爱,再到不愿意相信上帝是在扔骰子的因果哲学坚守者爱因斯坦,人类在哲学和科学范畴里纠结于确定性与不确定性,并且越陷越深。
我偏向于用一种介于“乐观”和“怀疑”之间的态度来评判ChatGPT引发的又一轮AI热潮。
本文将用一种个人化的方式,从零基础数学计算的源头,再推演一遍贝叶斯公式,和概率推理的机制,以及神经网络的基本原理。
进而,经过了简单但却可感知的数学计算,我们就可以顺着休谟的经验主义和怀疑论,一路奔袭到罗素的逻辑原子主义,直至维特根斯坦的立场:
语言的界限,就是世界的界限。
人工智能的变迁,几乎对应着人类认知世界的变迁结构。
从确定性到不确定性,从物理定律到统计概率,物理和信息交汇于“熵”,并以类似的达尔文观念,进化出有生命的熵减系统。
在这个愈发茫然的世界里,AI在疫情后时代获得了世人额外的关切;
诸神已被人类背弃,算法用强大而未知的相关性替代了神秘主义和因果霸权,仿佛成为新神。
真实与信念,确定与随机,意识与虚无,再次于大众的狂欢之中,对峙在时代的断崖边缘。
二
问题:一个家庭里有两个孩子,其中一个是男孩,假设每个孩子是男孩女孩的概率一样,那么另一个孩子也是男孩的概率是多少?
直觉上,生男生女绝大多数时候是独立事件,其中一个是男孩,并不会影响另外一个孩子性别的概率,所以答案难道不是50%吗?
有些聪明人说:不对。正确的答案应该是1/3。
用古典概率的计算方法如下:
两个孩子的性别共有4种情况:
(男,男)、(女,女)、(男,女)、(女,男)
请注意,上述第三种和第四种情况,特别强调了老大和老二的区别。
如上四种情况中,其中一个是男孩共有3种情况:
(男,男)、(男,女)、(女,男)
另一个也是男孩只有1种情况:(男,男),所以概率是1/3。
麻烦来了:这是不是说,一个家庭假如有了一个男孩,再生一个男孩的概率就变成1/3了?
这不科学啊。
聪明如你,应当能从这看似严谨但其实含混的表述中发现秘密:
上面的计算,考虑了“有一个男孩家庭”里男孩是老大或老二的两种可能,但是却忽略了问题里“一个男孩”在“两个孩子都是男孩的家庭”里也有老大和老二两种可能。
仅就本文开头题目的表述而言,样本空间的概率仍然应该是1/3。
让我们在这个经典的“两孩难题”上再前进一步。
坚持认为正确答案是1/3的聪明人,会拿出贝叶斯公式。
他们认为,本文开头的题目,不是古典概率问题,而是条件概率问题。
所谓“条件概率”,是指:事件A在另外一个事件B已经发生条件下的发生概率。
条件概率表示为:P(A|B),读作“在B条件下A的概率”。
根据该公式,计算如下:
条件B:两个孩子其中一个是男孩。
考虑其对立事件:两个孩子都不是男孩,或者说两个孩子都是女孩。
P(B)=1-(1/2)×(1/2)=1-1/4=3/4
事件A:另一个也是男孩。
事件A、B同时发生:两个孩子都是男孩
P(AB)=(1/2)×(1/2)=1/4
P(A|B)=P(AB)/P(B)=(1/4)/(3/4)=1/3
所以,P(A|B)=1/3。
慢着,这是语言游戏吗?
答案到底是1/2,还是1/3?
难道贝叶斯公式也错了吗?
这一节的计算是“对”的,但另一种计算得出的结论可以是:
你观察到的这个男孩,来自两男孩家庭的概率是1/2。
我不止一次地看到,即使是很聪明的人,以及专业人士,都在如上这一问题上绕不出来。
为什么呢?
因为语言的世界,不同语言的世界,个体观察的世界,不同个体观察的世界,以及上帝视野的世界,和所谓“真实“的世界,似乎都不是同一个世界。
三
在微软的报告里,研究者用GPT-4模拟了一段对话:
苏格拉底:我的朋友,我对最近这些所谓自回归语言模型的兴起感到不安。
亚里士多德:你是什么意思,苏格拉底?
苏格拉底:我的意思是,这些模型被用来生成看起来是人类写的文本,但实际上是由机器产生的。
亚里士多德:那有什么问题呢?
苏格拉底:问题是,这些模型被用来欺骗人们,操纵他们,控制他们。
亚里士多德:但这些模式肯定也有一些积极的应用?
苏格拉底:可能是这样,但我仍然对滥用的可能性感到不安。毕竟,一个能够生成与人类所写的文字无法区分的模型可以被用来传播假新闻,冒充他人,并制造宣传。
亚里士多德:但这不只是一个如何使用这些模型的问题,而不是模型本身的问题吗?
苏格拉底:我不同意。我认为这些模型本身就有问题。它们是一种伪装的形式,一种创造幻觉的方式,是人类思想和互动的一部分。因此,它们可以被用来以难以察觉的方式进行欺骗和操纵。
亚里士多德:但这不正是你反对修辞和演说的理由吗?
苏格拉底:是的,我也坚持这个观点。我相信,任何旨在欺骗或操纵的艺术或交流形式都是内在的危险。
亚里士多德:我明白了。谢谢你分享你的想法,苏格拉底。
乔布斯曾经设想过如上的对话,他预测有一天可以用计算机捕捉亚里士多德的底层世界观,如此一来人们就可以和他亲自对话了。
反对修辞和演说的苏格拉底认为:感觉是不可靠的,感性认识是不确定的,只有理性才能够认识事物本身。
而在亚里士多德的方法里,他将修辞确定为哲学的三个关键要素之一。另外两个则是逻辑和辩证法。
亚里士多德认为,逻辑关注的是用推理达到科学确定性,而辩证法和修辞则关注概率。后者适用于人类事务。
上面两段文字我摘自网络百科,虽无法确认其原文与出处(尤其是概率那部分),却令人叫好。
然而,在随后的年代里,亚里士多德的逻辑和确定性知识体系更大程度地影响了人类。
人们信奉因果论和决定论,在牛顿的推动下,世界仿佛是一个由无数个精密齿轮构成的机器,在上帝的首次推动下,持续有条不紊地运转着。
而另外一条线索亦在孕育之中。休谟的怀疑论和经验主义彻底改变了人们的思想世界,他认为感性知觉是认识的唯一对象,人不可能超出知觉去解决知觉的来源问题。
在休谟看来,客观因果并不存在。
随后康德试图对理性主义和经验主义进行调和,他否认客观因果联系,但主张用先天的理智范畴对杂乱的经验进行整理。
马赫则开创了经验批判主义,他强调直接讨论观测数据,科学定律只是被视为以最经济的方式对数据进行描述的手段而已。
《科学推断》一书认为,他开启了现代方法论的主要进展。
曾经深受马赫影响的爱因斯坦,无法接受这种对科学信仰的破坏性,以及对法则、公式、定律的轻视,后来与其分道扬镳。
爱因斯坦用探索性的演绎法建构了逻辑严谨的原理,他相信宇宙有解,不相信鬼魅之力。
某种意义上,爱因斯坦是最后的牛顿(除了用斯宾诺莎的“神”替代了上帝),是科学因果决定论的捍卫者。
1967年,波普尔对如上交织而漫长的哲学历程做了一个了结,他提出了三元世界的观点,布尔金将其绘制如下:
这似乎是柏拉图洞穴理论的现代版。
看看,人是多么无知,又是多么分裂啊!
基于这样的结构,波普尔提出:我们无法证实这个世界,无法证实规律和定理,只能去证伪。
四
也许你还记得上一代的老实人工智能–深蓝。庞大的机器,手工制作无尽的代码,多名参与其中的职业棋手,以及暴力算法,虽然打败了卡斯帕罗夫,却如流星般闪过。
《麻省理工科技评论》将深蓝形容为恐龙,而这一代的神经网络(尤其是深度学习)则是生存且改变地球的小哺乳动物。
上世纪50年代,香农曾经乐观地预测AI将很快出现,事实并非如此。失败的主要原因是:
人工智能的创造者们试图用纯粹的逻辑来处理日常生活中的混乱,他们会耐心地为人工智能需要做的每一个决定都制定一条规则。但是,由于现实世界过于模糊和微妙,无法以刻板的方式进行管理。
我们无法像是依照牛顿的原理造车般,用发条思维和专家系统来打造智能系统。那一类AI不仅狭窄,而且脆弱。
ChatGPT是经验主义的进化论的“胜利产物”。
经验主义亦称“经验论”。作为一种认识论学说,与“理性主义”相对。经验主义认为感性经验是知识的来源,一切知识都通过经验而获得,并在经验中得到验证。
这正是ChatGPT的思考和学习路径。
而虚拟进化又指数级放大了基于经验的学习速度。在波普尔看来,科学发展本身就是一种进化。
ChatGPT不仅从时间的角度加速模拟了进化,还通过大模型从空间的角度拓展了可能性之广度,以至于令人们禁不住又惊又喜地探讨起涌现。
那么,人工智能是如何思考的?又是如何决策的?
有别于齿轮般的演绎推理,我们需要借助概率在证据和结论之间建立起联系。
AI的任务是做决策,在不确定性下结合信念与愿望,选择动作。
《人工智能:现代方法》如此描述:
由于部分可观测性、非确定性和对抗者的存在,真实世界中的智能体需要处理不确定性(uncertainty)。智能体可能永远都无法确切地知道它现在所处的状态,也无法知道一系列动作之后结束的位置。
此外,智能体的正确的动作——理性决策,既依赖各种目标的相对重要性,也依赖它们实现的可能性和程度。
为了进行不确定推理,我们需要引入信念度,例如牙痛患者有80%的概率存在蛀牙。
概率论提供了一种概括因我们的惰性与无知而产生的不确定性的方式。
除了概率,智能体在做决策时还需要一个概念:效用理论。
例如,你要去机场,假如提前90分钟出发,赶上飞机的概率是95%;提早120分钟出发,概率提升至97%。
那么,是不是应该越早越高,追求赶上飞机的最大概率呢?如此一来,你可能要提前一天或者更早住在机场了。
大多数时候不必如此,但假如你有一个无法错过的会议,或者要赶国际航班,提早一天住到机场,可能是最佳决策。万豪酒店最早就是靠洞察到商务人士的这一需求而崛起的。
由此,我们得出决策论的通用理论:
决策论=概率论+效用理论
以上的现代方法,离不开两个未曾谋面的古代敌手。
五
在诸多反对休谟的人当中,贝叶斯也许是最重要的一位。
当休谟斩断了因果之间的必然联系时,最恼火的莫过于教会,因为上帝一直被视为因果的第一推动力。
一个人往往要到了一定岁数,才能够理解休谟的哲学。尤其是我们这些从小接受确定性训练的人。
逻辑推理的基本形式是:如果A,则B。
休谟则说,如上这类推理要么是幻觉,要么是胡说八道,要么是自圆其说。
据说虔诚且又擅长数学的牧师贝叶斯是为了反驳休谟,而研究出了贝叶斯公式。
一个神奇的结局出现了,贝叶斯公式反而成为了休谟哲学的现实解药,将其大刀斩断的因果,用逆概率的悬桥连接了起来。
概率,将逻辑推理的形式修正为:如果A,则有x%的可能性导致B。
而贝叶斯公式,则完成了一个小小的(却产生了无法估量的巨大影响)由果推因的颠倒:
如果观察到B,则有x%的可能性是因为A导致。
如此一来,被休谟怀疑的世界,继续晃晃悠悠地构建出更为庞大繁复的、以概率关联的因果网络。
假如贝叶斯试图反击休谟的动机是真的,就为“要爱惜你的对手”添加了有力论据。
让我们用一个简单的贝叶斯计算,来看看智能体如何学习经验。
题目:黑盒子里有两个骰子,一个是正常骰子,扔出数字6的概率是1/6;一个是作弊骰子,扔出数字6的概率是1/2。
这时,你从中摸出一个骰子,扔了一次,得到一个6。
请问:你再扔一次得到6的概率是多大?
计算的第一步,是计算这个骰子是正常骰子和作弊骰子的概率分别是多大。
请允许我跳过贝叶斯公式快速计算如下。
是正常骰子的概率为:1/6÷(1/6+1/2)=1/4
是作弊骰子的概率为:1/2÷(1/6+1/2)=3/4
计算的第二步,更新这个骰子的信息。原来的概率是各1/4,但现在分别是1/4和3/4。
那么,再扔一次,得到6的概率就是:1/4×1/6+3/4×1/2=5/12。
从本质层面理解如上这个简单的计算并不是容易的事情:
两次扔骰子都是独立事件,为什么第一次扔骰子得到6的概率和第二次的概率不一样?
贝叶斯概率的解释是,第一次扔骰子得到6的这一结果,作为信息,更新了我们对第二次扔骰子得到6的概率的判断。
疑惑的人会继续问:骰子没有记忆,为什么第一次的结果会“改变”第二次结果呢?
答案是:没有改变结果,只是改变了“信念”。
即使扔了两次骰子,我们依然不知道这个骰子是正常的还是作弊的,但我们可以带着这种不确定性向前走,为此需要“猜”这个骰子是正常还是作弊的概率。这个概率,就是信念。
根据信息的变化,快速更新,体现了某种达尔文式的进化。
从这个角度看,AI推理起初或许弱小含混,却有主动适应性,从经验中不断学习,并快速演化。
以本题为例:第二次扔骰子,从第一次骰子的结果中学习了经验,从而令预测更加精确。
这个过程还可以不断重复,如同发动机般,从而产生了决策和智能的杠杆效应。
如前所述,亚里士多德曾经认为,修辞和概率等不确定性元素,应该应用于人类社会。而在自然科学和数学领域,则是逻辑推理(尤其是数学逻辑)的阵地。
而如今,确定世界已经成为不确定世界,绝对真理也被或然真理替代。
于是,概率不仅成为“真理”的悬梯,甚至成为真理本身。
《人工智能:现代方法》写道,世界就是这样,实际示范有时比证明更有说服力。基于概率论的推断系统的成功要比哲学论证更容易改变人的观点。
就像两个人就不同的观点争论,一种办法是讲道理,讲逻辑;还有一种办法是:
我们先下个注,然后试着跑跑看呗。
六
在《人工通用智能的火花:GPT-4的早期实验》的报告里,微软实验室如此表述: “我们过去几年,人工智能研究中最显著的突破是大型语言模型(LLMs)在自然语言处理方面取得的进展。
这些神经网络模型基于Transformer架构,并在大规模的网络文本数据体上进行训练,其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。”
ChatGPT,是位“语言游戏”的高手,用的是神经网络和深度学习。
这与传统的语言,以及逻辑语言,都不一样。
罗素曾经试图构建一套逻辑语言,想从少数的逻辑公理中,推演出数学。他提出了自己逻辑原子主义,试图消除那些形而上语言的混乱,以逻辑语言和我们的现实世界一一对应。
在与罗素的相互影响下,维特根斯坦认为哲学的所有问题其实就是语言问题,从而推动了哲学的语言转向。
一种西方哲学史观点认为:古代哲学关注本体论,近代哲学关注认识论,20世纪哲学关注语言学问题。
那么,作为“系统地从语言来思考世界的第一人”,维特根斯坦与罗素有何不同?
陈嘉映的论断是:罗素从本体论来思考语言的本质,维特根斯坦则一直从语言的本质来构想本体论。
也许我们能从罗素给情人奥托林·莫雷尔夫人一封信里,发现维特根斯坦哲学上的某些经验主义线索:
“我们这位德国工程师啊,我认为他是个傻瓜。他认为没有什么经验性的东西是可知的——我让他承认房间里没有一头犀牛,但他不肯。”
和每个天才一样,维特根斯坦卓绝,但也疑惑。
再说回ChatGPT,它懂语言吗?如同《天才与算法》一书的设问:
机器可以在不理解语言或不接触周围物理世界的情况下,生成有意义的句子,甚至是美的句子吗?
老派的AI,试图采用罗素的方法。这类模型认为:
“理性和智能是深度的、多步骤的推理,由一个串行过程指挥,并由一个或几个线程组成,使用少量的信息,由少量的强相关变量来表达信息。”
对比而言,“现代的机器学习模式由浅(少步)推理组成,使用大量信息的大规模并行处理,并涉及大量弱相关变量。”
一个有趣的来描述二者对比的例子是,电影《模仿游戏》里的图灵,炒掉了自己的密码破解小组里的语言学专家。《人工智能:现代方法》认为,纯粹的数据驱动的模型,对比基于“文法、句法分析和语义解释”的手工构建方法,更容易开发和维护,并且在标准的基准测试中得分更高。
该书作者还提及:
可能是Transformer及其相关模型学习到了潜在的表征,这些表征捕捉到与语法和语义信息相同的基本思想,也可能是在这些大规模模型中发生了完全不同的事情,但我们根本不知道。
未必那么精确的类比是:AI如孩子般学习语言。这正是当年图灵所所设想的:有一个孩子般的大脑,然后去学习。而非一开始就设计一个成年人的大脑。
孩子不懂语法构建,也没有成熟的逻辑,也远没有成年人那样有主动的刻意练习。可是想想看,成年人学习语言的效率,与孩子对比,是不是烂到渣?
我不禁联想起一个对教育的嘲讽:天生就是语言学习天才的孩子,却要在一辈子都学不好一门语言的成年人的指导下学习语言。
让我们来看看,AI如何像一个孩子般,天才般地学习。
七
AI的神经网络,是对