当ChatGPT引燃了全球科技股的新一轮爆发之初,人们在振奋中带着犹疑,在激动中带着焦虑:科技产业经历过许许多多的泡沫与炒作,这一次的「革命性」保真吗?人工智能如此强大的学习能力,会让我们率先成为那一批「被节省的人力」吗?

随着时间的流逝,AI产业革命热度不减,在芯片卖铲人的一份又一份财报中也吸引了越来越多的信徒,怀疑论者逐渐退场,人们也开始投入更多的精力,描摹一个不远的未来。

那么这一切究竟是如何发生的?整个庞大的产业究竟会如何演绎?它又将如何改变现有的产业和我们曾经的生活?知名私募基金和谐汇一在「研究视角」中复盘了过去,并展望了未来。


前言:Can Machines Think?



2022年底以来,ChatGPT爆火,AI再一次进入大众视野,成为茶余饭后的谈资,也成为了互联网原住民追赶科技潮流的代名词。



人工智能享受过万众瞩目的高光,也曾被轻蔑地嘲笑是“人工智障”,但无论被称作什么,它都在一刻不停地发展着。



自1956年夏天,计算机科学家John McCarthy在著名的达特茅斯会议上首次提出“人工智能”一词后,AI在过去的67年当中经历了三起两落,又在当前掀起一次新的狂潮。



几十年来,AI的影响主要集中在学术领域,AI在应用实践领域的前行也极为迟缓,直到近10年,AI的热潮才席卷全球,一跃成为世界上最火爆的技术热点。



上一次AI爆点来自于一场人机大战,由DeepMind开发的AlphaGo程序以4:1击败了围棋世界冠军、韩国职业九段棋手李世石。那一刻,人们都被深深震撼,也有人为之落泪。



全球资本对AI的关注永不眠,在过去的三次浪潮当中,均诞生了成功的公司。



机器学习带来了广告系统的创新造就了Google,也奠定了Google作为人工智能领头羊的基础。计算机视觉伴随卷积神经网络的崛起和大幅度降低的差错率也造就了视觉安防领域的龙头海康威视和自动驾驶龙头特斯拉。强化学习改变了传统的搜索方式,千人千面的推荐催生了抖音和快手,也深刻改变了电商。



这一次,ChatGPT又将创造怎样的风起云涌?ChatGPT的目标是实现通用型人工智能,它越来越接近于成为一个10亿级MAU的计算平台的目标,伴随着其生态的建立(plug-in插件的开放)而成为一个类似操作系统一般的基座。



一时间,全球都在研究chatGPT,想要成为下一个chatGPT,或者是下一个openAI。




伴随AI的进步与发展,兴奋与恐惧交织。科技发烧友畅谈未来,想象着机器人能够为“懒人的世界”带来多少便利?人类距离无需劳作的生活还有多远?乌托邦的生活是否由机器和人类共建?机器将是一种什么样的智慧生命存在体?



而恐惧者则发出灵魂问题,我们会失业么?如果机器人具有超越人类的智能,人类还有拔掉插头的机会么?



认知革命的本质是计算


教会机器思考的根本目的是认识人类自己,《未来简史》的作者尤瓦尔·赫拉利提出“生物也是算法”,算法是进行计算、解决问题、做出决定的一套有条理的步骤,因此,算法并不是单指某次计算,而是计算时采用的一系列方法。


从这个角度看,人类借助计算机实现的认知核心是算法,算法的核心是计算。


在ChatGPT引领全球热潮之前,计算机视觉是AI领域最先实现降本增效、具备工程学和大规模应用案例的领域。现如今,车站闸机核验、门禁人脸识别,刷脸支付等等已经习以为常,但这在30年前是无法想象的,即便放在20年前也是十分昂贵而无法规模化应用的技术。


卷积神经网络(CNN)是受人类视觉工作机制的启发而产生的,是计算机视觉的基础。人类在20世纪80年代首次提出了CNN,但是当时没有足够的数据和算力让其发挥作用,直到2012年前后,人们才清楚地意识到这项技术有潜力击败所有传统的计算机视觉技术。

与此同时,单位算力成本大幅下降和数据大量积累为计算机视觉的广泛应用奠定基础。2012年,人们开始流行使用智能手机拍摄海量的图像和视频,深度神经网络的训练具备了充足的数据。


计算的改进一直是人工智能进步的关键组成部分,因此只要这种趋势持续下去,就值得为远远超出当今能力系统的影响做好准备。



推动人工智能进步的三个因素:算法创新、数据(可以是监督数据或交互式环境)以及可用于训练的计算算力。


算法创新和数据很难追踪,但计算却非常可量化,这为衡量人工智能进步的一项输入提供了机会。当然,大规模计算的使用有时只会暴露出我们当前算法的缺点。但至少在当前的许多领域,更多的计算似乎可以预见地带来更好的性能,并且通常与算法的进步相辅相成。


2018年,OpenAI在AI and Compute的研究中提出自2012年以来,最大的AI训练运行中使用的计算量呈指数级增长(增长了30万倍),每3.4个月翻一倍,相比摩尔定律则快很多。


AGI改变了什么?

众所周知,影响AI的三要素是算力、算法、数据。这一次发生深刻变化的是算法。算法也改变了对数据需求的形式。而算力始终不变的使命是用更低的成本创造更高效的计算。

ChatGPT以其出色的对话能力经验全球,OpenAI作为创造GPT的公司也备受瞩目,其创立的使命就是实现AGI。的确,人工智能的目标就是找寻AGI,而探索的路逐渐回归到了对类人脑计算的模拟。

在深入这个话题之前,我们不妨在了解一下AI是如何学习的。

机器学习有三种形式,有监督学习、自监督学习、强化学习。

监督学习

类似于老师教学生,需要使用大量的标注数据来训练模型,是现阶段最主流的AI学习机制,也是最初级的学习方式,比如孩童幼年时的看图识物,建立起苹果和苹果的图像的联系。

自监督学习

类似于学生自学,采用无标注的数据来训练模型,ChatGPT采用这一训练方式,比如小孩子自己看苹果、香蕉、桃子的图片后,对三者的品类形成了基本的概念认知,看到下一个品类能够反映到是哪一类上。

强化学习

类似于通过惩罚来建立规则,用奖惩机制来训练模型,AlphaGo采用这一训练方式。类似于人类训练小狗,做对了给零食吃,做错了挨打,直到小狗建立起了最佳的生活习惯。


笔者曾在求学期间创立过一家从事数据标注的公司,5年前,优化一个计算机视觉算法需要把超过50%的时间花在获取优质的、经过清洗和标注的数据上,而现在数据标注的掣肘大大降低,自动化标注工具降低了对人力的依赖,chatGPT采取的自监督学习大大降低了需要标注的数据量,算法再一次以其能力突破了一个限制,但依旧在精进的道路上。


传统的AI强调了1对1的解决问题的能力,而没有迁移学习和泛化的能力。ChatGPT让世界看到了模型的涌现能力,其举一反三的能力突破了临界点,带给世界惊喜,也越来越贴合人类的思考方式。


如果对比人脑和机器的理解差异,人类理解的苹果更加接近概念网络里的一个节点,和整个世界的所有其它概念相关联,而非机器学习分类眼里的n个互相分离的“高斯分布”。通用人工智能(AGI)带来了形成信息网络节点的机会。

除了迁移学习的能力,人脑计算相比机器计算仍然存在能耗比和数据孤岛的问题。

和人类相比,人工智能完成同等任务的功耗是人的极多倍数,比如AlphaGo(3000MJ)是人脑消耗(10MJ 5小时比赛)的300倍,因此计算能力的演进速度将成为制约AI能力的关键因素,因此,摩尔定律必将继续演化,向单位计算成本最小化方向发展。

而数据孤岛问题将在多模态的人工智能模型当中得到结合,图像和语音的结合形成视频,计算的复杂度也将大大提升,单模态终将走向多模态,桌面计算如今走到了移动计算,也必然会进入空间计算的时代。

当机器可以正确理解人类的自然语言指令,什么会发生变化?让我们发挥想象力去畅想:



2C:2C是出现爆款最迅速的领域,也是用户量积累和流量爆发最快的领域。



首先,交互形式的变化会诞生一场硬件变革,产品经理们看到了智能终端(平板、手机、音响、电视、IoT等)创造的新的人机交互。伴随着AI的错误率降低到临界值以下,AI将从有限的好用延伸到普遍的好用,带来终端设备的单价和渗透率显著提升。



硬件的交互变化也使得应用侧会产生“爆款”应用。AGI将原本无法实现的部分实现,会产生规模效应,从而创造新的应用增长点,我们不禁思考——未来的搜索还会是关键词形式么?未来的APP是不是all in one的?人人拥有一个数字分身的时刻何时到来?



OpenAI是大脑,上层应用成为身体,多模态就是眼睛(计算机视觉CV)和耳朵(自然语言处理 NLP),专有数据将成为血液形成独特的个人特征。结合机械臂,也许一个真正的私人助理已经不远。



2B:2B是价值量创造最佳的领域,传统的软件学习和培训模式将被改写。


传统软件具有大量的学习成本,企业服务软件需要有客户培训部门,提供及时的客户使用反馈,软件切换的难度也因为学习成本而抬升。

交互方式变化以后,菜单对于使用者来说不复存在,大模型充当了理解用户意图-找到菜单-效应流程的角色,2B产品将真正进入懂用户、为用户创造价值的阶段,与此同时,边界也将模糊化,产业数字化的浪潮即将来临。

比如,微软发布office 365 copilot以后,办公软件可能不再需要“菜单”?Excel待使用的功能就可以更好地为用户服务。无疑,从技术到产品到商品,其背后是生产能力的跃升,是否意味着这场认知交互的变革会带来全要素生产率的提升?



当机器能真正的理解、掌握世界的底层规律会发生什么?过往的机器学习需要“喂”然后“模仿”,建立的是一套“对应关系”;而ChatGPT需要“教”然后“懂”,建立的是一套“内在逻辑”。



当AI可以用在生产场景(从体力工种到知识性工作,辅助创造输出内容)的时候会发生什么?全社会的“白领”(知识型劳动者、 艺术型劳动者)生产力会显著提升?未来全社会“智能体”(“智人”)的数量是否会指数级提升?有多少工种可能会受到冲击?

根据OpenAI创始Sam Altman提出的AI时代的摩尔定律——智能体的数量会每18个月翻倍。

也许未来和数字人成为同事将不再是大惊小怪的事情,这位同事也不需要任何来自人类的容忍,甚至它需要容忍人类的“愚蠢”。

根据《IDC future scape: 全球人工智能市场2021预测》报告,“到2024年,45%的重复工作任务将通过‘数字员工’实现自动化或增强。”数字员工是以“AI+RPA+大数据+机器人”等多重技术融合创造的高度拟人化的新型工作人员。

企业软件供应商的商业模式在AI时代会有新的变化。从过去卖软件—到现在的卖服务(SaaS)——未来的卖生产力(数字员工)。



在现阶段,找到下一个爆款应用并押注是投资人们共同的目标。从OpenAI的投资方向看,探索应用、改变AI应用也是主流的方向,比如编程工具的革新、法律会计工具、虚拟助手等。



交互方式变得更宽广后,让不可能变成可能,计算机可采集的数据比以往更多、更细。这些数据大部分是非结构化数据,甚至我们个人都没意识到的但可以被计算机采集,针对企业和消费者的数据一定会爆发式增多。基础设施层面也将会迎来新的机会。

从应用端的角度看,国内外选择了不同的路径——美国的创业结构偏向于2B服务,而中国更多地倾向于内容端的AIGC。从模型端的后发导致中国再一次选择了在应用端淘金。



2018年,Lex Fridman对OpenAI的灵魂人物Greg Brockman进行采访的时候,OpenAI刚刚发布了GPT-2,Greg坦言GPT-2的能力还很有限,但是它明确了参数量的10倍级别以上的放大速度是有意义的,GPT-20的世界是人类最终无法区分是人类还是机器。

到目前看来,ChatGPT已经实现,OpenAI找到了AI的可拓展方式——投入更多的计算、更多的数据,让它变得更好,提供了构建变革性系统的希望。

我们需要的不仅仅是语言模型,而是解释和推理的方法。真正自然的交互方式不仅是语言,而是图像、视频、物理世界的自动/实时数字化,因此多模态将成为AGI必然的演进方向,届时将有更多的需求被挖掘和满足,新的商业和投资机会也将诞生。


结语


如果我们相信宇宙的根本定律是唯一的,科学将无限地解释和靠近根本定律。那么智能相对于AI,一定存在一个根本定律让人工智能无限贴近于人类智能。目前的深度学习算法,无论是CNN还是GAN还是ChatGPT带来的工程意义的跃升,人类都只是发现了AGI基本原理的某个局部。

对于智能这个上帝最杰出的作品,我们能做的只有盲人摸象,目前摸到的东西有一些已经被用到了人工智能里,有些则没有。上帝拥有一众信徒才能成为上帝。摧毁一个新事物远比创造容易,保持理性的克制,积极的拥抱。

我们始终相信,达到技术的奇点,供给将创造目前难以被预期的需求。就像电车诞生之初,我们要坐在电车上,而不是挑选跑得快的马车。