AIGC,浪潮凶猛
从感知到生成,AIGC正在掀起一波新的浪潮。
来源:21tech(News-21)
作者:李强
编辑:林曦
图源:图虫
AIGC(用AI技术自动生成内容)的使用竞赛,正在将AI重新带到聚光灯下。
12月1日,美国科技企业OpenAI发布了谈天机器人ChatGPT,开启免费公测。
好奇的人们提出各种千奇百怪的问题,看察ChatGPT的反应,比如询问学术问题、写请假条/散文/rap、检查和修改代码BUG甚至诱骗ChatGPT规划如何“毁灭”世界。
ChatGPT的表现可以用惊艳来形容。一方面,ChatGPT给出的结果正确性极大提升,在绝大部分知识领域,ChatGPT都能够给出专业性的回答,无效回答很少。比如被问到哥伦布2015年来到美国的情景时,ChatGPT会直接表达哥伦布不属于这一时代,并且ChatGPT的道德约束性也表现良好,能够主动辨认不适合的话题并予以回避,甚至做正向引导。
另一方面,ChatGPT在与用户的交流中展现出很强的理解能力:ChatGPT在写“命题作文”时,用户可以随时打断,并要求ChatGPT按照用户意图进行续写;当用户有意使用短缺前后文的代码片段“刁难”,让ChatGPT指出为何程序无法正常运行时,ChatGPT会表达,在用户不提供代码具体功能以及更多代码内容的情状下无法回答问题。
前所未有的人机交互体验,让用户们不由自主地晒出与ChatGPT的对话,分享自己的新奇体验与震动感,技术的魅力也让ChatGPT的话题如同病毒般蔓延。
5天后,OpenAI CEO Sam Altman发文表达,ChatGPT用户达到100万。
展开全文
在用户端热火朝天的“开发”中,ChatGPT另一面的不足也迅速暴露。比如,ChatGPT“一本正经”的回答中也会存在知识性错误,这些更隐蔽、更具迷惘性的错误,让ChatGPT显得“有趣”又危急。
ChatGPT走红后,程序员版“知乎”Stack Overflow很快公布暂时禁止用户分享ChatGPT生成的回复,原因是大量用户尝试用ChatGPT回答用户在平台上提出的问题,而这些快速生成的大量内容,很多第一眼看上往正确,但假如具备专业知识,稍加检查就能发现其中存在错误,这对于追求正确答案的小白来说是致命的。
不过,更多的业内看点认为是瑕不掩瑜,并将ChatGPT视作AIGC发展中的重要里程碑。国盛证券在研报中指出,这些问题来自练习过程和数据集的局限性,随着进一步强化练习,完美模型质量,未来迭代值得期待。
“尽管ChatGPT确实有一些糟糕表现,比如在面对简单计算题时,ChatGPT却给出小作文式的求导过程以及错误的结果,但这不能因此否定ChatGPT,因为这些本来也不是ChatGPT要干的活,ChatGPT的主要任务在于让机器理解人类语言。”古典互联网投资人、内容行业看察者庄明浩对21世纪经济报道记者表达。
七十年前,“人工智能之父”图灵在《电脑能探求吗?》中提出,假如人无法推断屏幕的另一侧究竟是人还是机器,就证实机器具备人一样的智能,这个经典的图灵测试如同北斗星,指引着AI行业的工作者们不断前进。
今天,ChatGPT展现出的极具迷惘性的表达能力,让这个曾经远不可及的未来似乎正变得模糊可见。
AI需要新叙事
1985年,IBM开始了象棋超级计算机“深蓝”的研发。1997年,深蓝终于战胜国际象棋冠军卡斯帕罗夫,轰动一时,不过深蓝并没有在之后激起更大的涟漪。
原因在于,深蓝的技术构思是通过在系统中整合象棋游戏中的规则和体会,来模拟人类专家从而进行逻辑推理和推断:深蓝输进了一百多年来优异棋手的两百多万场对局,来战胜卡斯帕罗夫。
深蓝的这种技术构思被称作专家系统,让AI开始能够解决一些“知识处理”等方面的实际问题,不过,这种被称作专家系统的方法弊端很明显,深蓝会下象棋,但也只会下象棋,技术拓展性很差,适用的领域也非常狭隘,更新迭代和保护成本非常高,这让专家系统在短暂点燃市场热情之后又迅速降温。
同时期,另一个构思也被提出来:借鉴生物神经系统,创建人工神经网络,尽管后来被证实是极具潜力的,但在当时的条件下,走这条路线的AI显得既不聪明(算法效果差),也不努力(算力低下),而且连基本的学习资料(大数据)都没有。见不到效果,神经网络的构思也很快被弃用。
于是,上世纪八十年代中期,专家系统与神经网络掀起的第二次AI浪潮很快进进冷冬。
2006年,Google的首席AI科学家杰弗里·辛顿(Geoffrey Hinton)第一次提出深度学习的概念,带领AI行业重新回到神经网络的构思上,同时算法、算力以及大数据不断跟进,逐渐松绑的神经网络开始发扬其威力,由此掀起第三次AI浪潮并延续至今。
CMC资本董事总经理易然对21世纪经济报道记者阐明道,机器学习最开始主要完成回回、分类、推举、排序等以“相似性”为核心的数据类使用,在内容和商品推举、广告算法等使用效果非常好,从2014年、2015年开始,各种深度学习的框架得到广泛使用,以视觉语音识别、NLP(自然语言处理)等为代表的感知类使用的大发展,并且深进到了广大的科技类公司的业务中。
以计算机视觉为例,这也是AI技术商业化落地进程最快的赛道。2014年,旷视科技成为支付宝“刷脸支付”的技术提供商,云从科技帮海通证券做远程开户的身份认证系统,依图科技凭借“蜻蜓眼系统”扶助公安部门加强安防;2015年,商汤科技利用人脸识别扶助中国移动完成3亿人手机实名制,这一轮技术爆发中的独立创业公司代表“AI四小龙”就此完成起家。
不过,单凭技术的使用,AI行业似乎还短缺一些声量。
2016年,AI炫技再一次拿棋手祭刀,AlphaGo击败围棋世界冠军李世石,让全世界都往琢磨AI的未来。从这一年开始,各大企业争相布局,初创独角兽涌现,资本热钱迅速流进,掀起这次AI浪潮中的最大浪头。
据《2021年人工智能行业发展蓝皮书》统计,过往9年AI领域IPO前的股权投资行为,共发生2048起,投资金额达4800亿元,投资的高峰期集中在2015年至2018年。
但大多数创业公司的AI使用,迟迟走不出研发环节,功绩亏损、估值虚高的经营状况看不到改良机会,资本开始退潮。蓝皮书展示,2018年全国单笔平均融资投资额为4.1亿元,2019年下降到1.6亿元。
2020年,创新工场创始人李开复在公开场合表达,不否认过往许多AI公司割了投资人的韭菜,但是有三个AI专家就能估值7亿,靠AI概念忽悠投资人的时代已经过往了。
即使作为从独立创业公司中走出来的佼佼者,“AI四小龙”也得不得面对凛然的冷气。
“以‘AI四小龙’做的计算机视觉为代表的这一代AI技术,主要是基于现有数据进行分析和推断,如今这个方向可以说已经做到极致,卷不动了,AI必须得找一些新的方向,就像如今的AIGC,虽然AI的创作方式并没有太大的改变,但确确实实往前迈了一步。”庄明浩对21世纪经济报道记者表达。
用百度CEO李彦宏的话说就是,人工智能正在从理解内容走向生成内容。
大力出奇迹
话题回到ChatGPT,为何它现在能实现如此革命性的转变?
首先应该阐明的是,ChatGPT属于AI技术分支中的自然语言处理,同机器视觉并列,机器视觉解决的是让机器看懂图像中内容,自然语言处理负责让机器理解文字。
我们画画的时候,第一步先圈一些线条或与方块,确定哪里画手,哪里画胳膊,然后在这个基础上画出骨骼线条,最后弥补画面细节,这一切完了之后,可能还需要进行光影、色彩等方面的调整。
深度神经网络借鉴了同样的构思,“深度”的含义就是逐层递进,从泛化法则到具体要求,在这个过程中,由于大多数的层级和具体任务的关系不大,就意味着大量基础的练习工作可以复用。
也就是说,我们可以先练习一个基于通用逻辑的“半成品”,比如练习出一个把握所有线条法则的AI,这个过程称作“预练习”,得到的模型被称为“大模型”,然后绘画、修图、设计领域的工作者们再按照自己的具体要求,进行更进一步的练习,得到一个解决具体问题的最终产品。
由于文字特征比图像特征更加抽象,所以我们更早地看到人脸识别、图像识别、文字识别这些机器视觉领域的使用遍地开花。
2017年12月,谷歌在顶级机器学习会议NIPS上发表了论文《Attention is all you need》,至今仍然影响浩大的Transformer问世,Transformer解决的就是的文字特征提取问题,要害的卡壳问题解决,接下来就显得自然而然。
2015年12月,特斯拉CEO马斯克和Sam Altman等人创立OpenAI,2017年,OpenAI发布其首个生成人类文本的语言处理模型——GPT-1,GPT全称是“Generative Pre-Training”,即“生成式预练习”。
2018年,马斯克离开了OpenAI,OpenAI的阐明是回避因特斯拉工作而可能造成的利益冲突。2019年,OpenAI拿到了微软的10亿美元投资,对它来说,还有很重要的一点,微软手里有AI所需要的一切:算力与大数据。
之后便是“大力出奇迹”,从GPT-1到GPT-3,模型的参数量从1.17亿增加到1750亿,预练习数据量从5GB增加到45TB,效果也非常显著,GPT-3可以依据简单的命令式写文章,写菜谱,甚至作曲,堪称目前为止最强大的通用语言模型,不过OpenAI并没有抉择开源,这也让GPT-3没能享受到太大的破圈效应。
2021年,OpenAI又基于GPT-3发布了文字转图片模型DALL E,可以直接通过文字生成图片,比如输进“一把牛油果造型的扶手椅”,DALL E就能通过图像合成出一系列的目的图像,虽然功能强大,但OpenAI仍然抉择不开源。
ChatGPT是在GPT-3的基础上做了微调,通过加强人类反馈的方式,提升记忆能力,使ChatGPT可以储存对话信息,延续上下文,从而实现连续对话,从而优化对话能力,这极大地提升了用户体验。
“我们很早也推断,AI跟人的交互过程,不应该仅仅是完成任务,更重要的是在这个过程中,让AI依据人的反馈往学习,我们今天看到ChatGPT在预练习的基础上让AI依据人的反馈往细化学习也正是如此。”清华大学惠妍讲席教授、IEEE/CAAI Fellow周伯文对21世纪经济报道记者表达,而在实际使用中,虽然ChatGPT有时会给出错误答案,但在用户反馈后,这些错误很快得到了纠正。
假如说每波技术浪潮的兴起,总是需要一些热点性事件做开场,ChatGPT一定榜上有名。
这次的主题,就是AIGC。
AIGC元年
在ChatGPT之前,AI绘画就已经开始崭露头角。
今年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖。
“机器才刚刚开始善于发明有意义和漂亮的东西。”红杉在今年9月的一篇文章中表达,正如十年前移动互联网被一些杀手级使用打开了市场,如今的AIGC也站在这样的节点,比赛已经开始了。
易然也对记者表达,这一次技术的进取使得AI延伸到了生成类任务,如同上一波的感知技术,这次AIGC同样会带来一系列新的使用方向,出现诸多创业公司,同时也会加强不少成熟的科技和产业公司的能力。
事实上,早在2020年GPT-3发布以后,巨头间便开始了竞赛。2021年谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿个参数的自然语言生成模型,而在国内,华为、百度以及阿里等也先后推出了自己的预练习大模型。
“这一波技术的进取是从谷歌等公司开始掀起,因为需要花费极大的算力和研发成本投进,最初时在模型这一层只有最大的几个科技公司投进得起,国内大厂以及很多企业其实也在跟进投进,在预练习大模型上也取得了相当不错的成果,特别在中文相关场景。”易然对21世纪经济报道记者表达。
11月25日,据媒体报道,在最新的中文语言理解领域权威榜单CLUE中,阿里AI以86.685的总分成果发明了新纪录,成为该榜单诞生近三年以来,AI首次超越人类成果——AI的中文语言理解水平超过人类,未来或许值得期待。
开源无疑是AIGC踹开实验室大门,走向市场的最后一脚。今年5月,Meta开源了与GPT-3类似的通用语言大模型OPT;8月,Stability AI开源了文字转图片模型Stable Diffusion,并引发了AI绘画使用在全球领域内的爆炸式增长。
AIGC的爆火也在重新点燃资本市场对AI行业的热情。
今年10月,主打文字生成的AIGC公司Jasper.ai公布完成1.25亿美元的A轮融资,估值达到15亿美元。几乎同一时间,Stability AI公布获得1.01亿美元融资,估值已达10亿美元。Stability AI表达,所筹资金将用于开发图像、语言、视频、音频和3D等多模态开源模型。此外,这笔资金还将用于吸纳更多的人才,估量明年公司员工将从100人增加到约300人。
“像Open AI、Stability AI这些公司技术投进不弱于海外大厂,而且他们较早进行产品化并建立开放生态,过往一年多催化了一系列的行业使用和创业公司。目前话题性最强、传播最广的几个使用Dall E、ChatGPT、Stable Diffusion也是属于这两家公司的产品。这一点国内确实在短时间内还有所不及,无论从使用的开发到资本市场关注度上也都要稍晚一些。”易然对21世纪经济报道记者表达。
但实际深进到使用落地和创业公司上,易然认为差异并没那么大,“很多国内的早期公司已经在快速使用生成式AI/AIGC的能力,我们看到和客户需求结合得还是比较亲昵的,目前预练习大模型领域的开源生态建设的也很好,中国创业公司也能够较好的用上国内外大厂的技术。”
“说白了,有了方向之后,很多事情就变简单了,中国公司更擅长商业模式上的创新,未来在使用层国内应该会出现比较多有意思的东西。”庄明浩告诉21世纪经济报道记者。
AIGC的颠覆能力
ChatGPT引发最多的讨论无疑是对于内容产业的颠覆。
“生成式AI目前和未来都将主要是辅助性的工具,内容创作者和创意工作者们没有必要谈虎色变,担心创作方式跟不上时代甚至彻底丢了饭碗。”易然表达。
例如在美术领域,人力成本以往是游戏制造的一大门槛。生成式AI的广泛使用,能够使项目策划立项阶段降低负担,同时也能够赋能更多的小工作室和中长尾游戏的出现,或者普及提高其在美术、内容丰盛度方面的水平。
“我的朋友是一家游戏公司的老板,原来设计人物或者场景,他首先要讲清楚自己想要的效果,美术依据理解往画,画出来之后再反复调整,这个过程费时费力且枯燥。当AI绘图出现,并且在辨认率、笔触、结构、光影效果等多个维度都可以达到'可用'的准则之后,老板和美术只需要跟AI讲清自己想要的效果,然后在AI跑出来的成百上千副作品中,挑选或再加工出称心的那个,时间成本得到大幅降低,这个过程中美术人员没有被取代,只是他们要学习如何使用AI,让自己的工作变得更有效率。”庄明浩告诉21世纪经济报道记者。
在庄明浩看来,内容领域最后所显现的东西是偏主看的,甚至带有一定情绪化的艺术表达,并且在这个层次的表达,AI短期内没法实现。
2022年6月,AI辅助编程工具GitHub Copilot结束内测,正式外开放,开发人员使用GitHub Copilot实现AIcoding以及代码补全,比现有的其他代码辅助软件更加智能,可以实现全文理解,对文档、注释、函数名称,代码都可以智能化的进行上下文合成匹配,而依据官方统计,过往一年中GitHub Copilot已经积存了120万用户。
文字生成领域也已经出现了一批商业公司,如 Jasper.ai、Copy.ai开发的机器自动写作平台,用户输进要害字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文。此前Narrative Science创始人曾推测,到2030年,90%以上的新闻将由机器人完成。不过由于GPT-3未对中国大陆开放接口,国内相关企业难以使用,文字生成的相关使用暂未在国内兴起。
“现在我们还没方法让AI直接写一本长篇小说或者完成一部电影,或者制造一个完全的游戏,但它已经可以写新闻、绘制图片甚至短视频,基于图片生成3D模型,再给AI一些时间,或许那些远不可及的场景就会变得触手可及。”庄明浩说道。
“计算机科技领域已经很久没有在使用端出现技术带来的繁华了,短期大家比较兴奋,是可以理解的,不妨让子弹再飞一会儿。”易然表达。
汽车芯片短缺结构性缓解 国内产业链加速布局
公众关注度或为“双刃剑”:提升“科研之信”仍需多方合力
OPPO CEO陈明永谈自研芯片:要有自己的技术护城河
我来回答