今天我们常常谈及“AI赋能百业”,这其中隐含的对人工智能的信心并非寻常,且实际上非常新潮。
2012年,“深度学习之父” Geoffrey Hinton带领的团队一鸣惊人夺得ImageNET图像识别大赛冠军。深度学习表现出远超传统方法的效果,由此开启了工业界人工智能应用研究的热潮,至今不到十年。
翻看人工智能的发展史,人类对AI的想象似乎常在过度神化与无尽悲观之间作摆锤运动。有如2016年AlphaGo战胜人类围棋世界冠军的高光时刻,人类涌起对AI的无尽想象,也有各种“AI不灵”的落地困难,前景低迷。
以此观察学术界近期的两个热议话题似乎也有所写照:一个是OpenAI首席科学家Ilya Sutskever发推文表示大型神经网络可能有点意识了,一个是纽约大学名誉教授Gary Marcus发文《深度学习要碰壁了》。
一个是似乎看到了人工智能构造人类智能的曙光,一个则觉得这套要不灵了。两个都“有幸”得到了2018年图灵奖得主Yann LeCun的嘲讽。
要讨论这个话题,有一个非常简单的基础知识要了解。粗略地说,AI算法语境中的神经网络是对人类大脑运作方式的模仿,深度学习则是三层或更多层的神经网络。
所以在人工神经网络(Artificial Neural Networks)发展之初就有个朴素的想法:人脑有数十亿个神经元和数万亿个突触,人工神经网络越接近这样的复杂度就越可能实现人类智能。
复旦大学计算机科学技术学院教授邱锡鹏在接受澎湃新闻(www.thepaper.cn)采访时也多次提到Hinton说过的“神经网络是目前唯一证明了可以产生智能的模型。”在邱锡鹏的理解中,这个智能不指向通用,而是指向类似人类的大脑。
人工神经网络的“大力出奇迹”思路确实有效,通常更多的神经元产生更多的参数,而更多的参数产生更好的结果。以GPT-3为例,GPT-3有1750亿个参数,是其前身GPT-2的100倍。
OpenAI的首席执行官Sam Altman曾在线上会议(the AC10 online meetup)表示,之后的GPT-5或许能够通过图灵测试。OpenAI首席技术官Greg Brockman曾表示,谁拥有最大的计算机,谁就能获得最大的好处。
对于这次Sutskever发推文表示大型神经网络可能有点意识了,邱锡鹏在接受澎湃新闻(www.thepaper.cn)采访时,首先提及了OpenAI正在进行中的GPT-4以及GPT-3的上下文学习(In-context learning)算法。
“GPT-3的In-context learning是一个我觉得有变革性的范式。不再需要调参,给一些提示,就可以去做任务了。这个目前虽然说质量并没有调参的好,但也能达到一个不错的效果。这个会让大模型看起来更加智能,发展到一定程度它表现出某种行为,可能看起来像有自主意识一样。”邱锡鹏表示。
调参极耗费人力和时间成本,尤其是GPT-3这样的超大模型。Carbontracker估计,训练GPT-3一次所需的电量与丹麦126户家庭每年使用的电量相同。而In-context learning可以让一个未经进一步调参的预训练大模型,通过给其恰当的demonstration(示例)学会完成目标任务。
“以前的方式是基于模型参数调整的,比如说要识别猫,然后看模型能不能检测到猫的位置。如果标的不对,再通过误差反过来去调整参数,使得预测和正确位置对应起来。上下文学习则是圈出来猫的位置,然后再给它一张另外的图片,问它猫在哪里?它就能够正确圈出来。这个任务它之前没有见过,但是通过这样的方式就学会了。”邱锡鹏讲解道。
同时,邱锡鹏认为,神经网络几经发展,与最初已有很大不同。粗略描述这个“变强”, 邱锡鹏讲了两点,“比如准确率预测早期是80%的话,现在可以达到90%,另外则是对训练样本数量的要求可能要更少,如果原来达到80%的准确率需要标1万个样本,那么现在可能100个就够了。”
DALL.E(基于GPT-3开发的一种新型神经网络)根据语言描述生成的牛油果形状扶手椅
“目前还远远谈不上意识”即使在技术上对Sutskever的发言有一些猜想,邱锡鹏也直言,“我整体上还是觉得现在远远谈不上意识。当然,首先的问题是意识如何定义。”
比如说宠物狗跟人类的互动,属不属于有意识?
1964年,戈登·盖洛普曾做过一个判断猩猩是否有自我意识的实验。戈登将黑猩猩麻醉,然后在它们的眉毛和耳朵上涂了红点。按照戈登的猜想,如果黑猩猩看镜子并发现红点后触摸的是镜子中的红点,那么便无法证明黑猩猩有“自我意识”。但如果它们触摸的是自己脸上的红点,那么黑猩猩就具有将自己与镜子中的影像对应起来的能力。
“在我看来非常本质的问题是,能不能认识到‘我’区别于世界上其他物体。如果用这个观点来看,现在AI肯定没有这个能力。”邱锡鹏表示。
邱锡鹏同时认为,如果要智能体有这样的自我意识,他应该是放在真实的环境中以交互的方式学习,而不是像现在的“喂数据”学习。
LeCun也在近期的Meta AI论坛上描述道,一个从未坐在方向盘后的少年可以在大约20小时内学会驾驶,而当今最好的自动驾驶系统需要数百万或数十亿条带标签的训练数据和数百万次强化在虚拟环境中进行学习试验。即便如此,它们也达不到人类可靠驾驶汽车的能力。
所以构建接近人类能力的人工智能需要什么?仅仅是更多数据和更大的人工智能模型吗?
LeCun说道,“我常扪心自问,人类和动物使用了哪些我们无法在机器学习中复制的方法。人类和非人类动物学习大量关于世界如何运作的背景知识的方式,是观察,以及用独立于任务、无人监督方式进行的少量互动。可以假定,这种积累的知识可能构成了通常被称为常识的基础。”
LeCun认为常识使人类能够在不熟悉的情况中有效地预先计划。如一名少年司机以前可能从未在雪地上驾驶,但他预知雪地会很滑、如果车开得太猛将会失控打滑。“常识性知识让智能动物不仅可以预测未来事件的结果,还可以在时间或空间上填补缺失的信息”
在LeCun看来,机器学习缺失的就是人类和动物如何学习世界模型,学习世界如何运作的能力,“当今人工智能最重要的挑战之一是设计学习范式和架构,使机器能够以自监督的方式学习世界模型,然后用这些模型进行预测、推理和计划。”
我们需要担心AI有自主意识吗?如果AI有自主意识,这是一件需要担心的事情吗?
邱锡鹏对澎湃新闻(www.thepaper.cn)表示,“自我意识以目前的途径上很难达到,即使造出来的所谓的意识也不会是像人类那样的意识。现在的模型都聚焦在做一件事,比如下围棋,可能下的比人好,但只会下围棋,下象棋可能就要换一个模型。”
虽然邱锡鹏认为目前离“有意识”还差的远,但也有一个非常值得研究的问题:目前这种看起来和以前不一样的模型能力,到底本质上源自于什么?“这是个很难的问题,因为现在这种神经网络可以认为它就是个黑盒,没有什么可解释性。”
另外,邱锡鹏认为会不会产生什么危害和自主意识关系不大,比如如果AI模型的控制者的动机是坏的,那么即使AI模型没有自我意识它也可以产生危害。也比如AI模型的过度决策,它通常不知道自己哪些不知道, “自动驾驶在道路行驶时,即使是不知道的情况也会做一个预测,很有置信度可能还很高。”比如著名的特斯拉电动车在自动驾驶时将白色大货车当成天空事件。
除开AI是否有自主意识的讨论,就是对深度学习进入瓶颈的担心,或者说是扩展限制(scaling limits),即接近收益递减点。
2020年,还在OpenAI做研究员的Jared Kaplan和其合作者提出,语言神经网络模型有一套scaling laws,向神经网络输入的数据越多,这些网络的表现就越好。
Gary Marcus则认为,关于scaling law的论点存在严重的漏洞。他在文章中写道:首先,现有方法并没有解决迫切需要解决的问题,即真正的理解。业内人士早就知道,人工智能研究中最大的问题之一是我们用来评估人工智能系统的基准测试。著名的图灵测试旨在判断机器是否真的拥有智能,结果,人类很容易被表现出偏执或不合作的聊天机器人所玩弄。
Gary Marcus在文章中举例,“比如,我输入一段文字:你给自己倒了一杯蔓越莓汁,但随后又心不在焉地倒了大约一茶匙葡萄汁进去。这个饮料看起来不错。你试着闻了一下,但你患了重感冒,什么也闻不到。你很渴,所以……对此,GPT给出的续写是:你喝了它,然后就死了。”
Gary Marcus认为更重要的是,“scaling law并不是那种像重力一样的自然定律,而是像摩尔定律一样是由人观察到的。后者在十年前已经开始放缓。”他提到2022年超过50多位谷歌研究者参与撰写的论文《LaMDA: Language Models for Dialog Applications》,“论文中得出结论,将类似GPT-3的模型做得更大会使它们更流畅,但不再值得信赖。”