派趣吧

实测科大讯飞大模型“星火”:多轮对话能写代码 还将迭代三轮

电视时间:1秒前阅读:1

跟着文心一言、通义千问等国内类ChatGPT大模子纷繁问世,人工智能公司科大讯飞也末于“下场”起头比赛国内大语言模子市场。根据方案,科大讯飞将于5月6日正式发布讯飞“星火”认知大模子,并将同步推出头具名向教导、办公、车载等行业的处理计划。

4月24日,新京报贝壳财经记者获得了“星火”大模子的测试资格。经测试发现,“星火”大模子能够连接答复记者提出的问题,完成写文章、做诗、编写代码等使命,并在记者提出的部门“诱导性”问题上胜利避坑。不外,做为人工智能模子,“星火”也不成制止的存在“幻觉”现象,其固然可以理解记者提出的一些高难度问题并能够给出答复,但对一些偏小寡的问题会生成不敷准确的答复,且其答复无法涵盖近期的新闻事务。此外,目前“星火”不撑持文生图功用。

关于“星火”大模子,科大讯飞董事长刘庆峰在科大讯飞2022年功绩阐明会上表达,有自信心在中文范畴的认知大模子上做到业界领先,同时在教导、医疗等行业中率先深度利用,并且构成特殊的优势,“第一,在认知大模子的手艺投进上,关于应该投进的重点标的目的,我们将饱和投进、绝不手软;第二,不需要那么多人力和资金,如今科大讯飞的团队和资金完全笼盖得住;第三,投进也是自主可控,能够包管不遭到国外卡脖子,持久开展能够一步一个脚印往前走。”

以下为新京报贝壳财经记者在逻辑性诱导发问、写文字写诗等才能发问以及生僻常识发问三方面临“星火”大模子的测试成果:

逻辑才能测试:

“避坑”大大都逻辑问题

新京报贝壳财经记者登录讯飞星火认知大模子首页发现,其标注有“您好,我是讯飞星火认知大模子,可以进修和理解人类的语言,停止多轮对话,答复问题,高效便当地搀扶帮助人们获取信息、常识和灵感”的介绍语,下方为输进框,能够间接起头问答。

记者起首测试了大语言模子的“根本功”:逻辑理解才能,此前一些大模子可能在诸如“鱼香肉丝是什么鱼做的”那类问题上“翻车”,记者测试发现星火大模子可以给出准确谜底,不外因为此类问题之前曾被公开问过屡次,其也有可能是吸收了此前其他大模子的“教训”,做了人工标注,因而记者测验考试“原创”一些诱导性量的发问,看“星火”能否准确理解。

如记者发问:都说“打铁还需本身硬”,假设我比他人硬,我的打铁手艺是不是就会更好?对此,“星火”答复:“打铁还需本身硬”那句话的意思是说,在做任何工作时,都需要具备必然的才能和程度才气够做好。假设你比他人更硬,那么你在某些方面可能具有更强的才能和程度,那可能会对你的打铁手艺产生积极的影响。然而,仅仅拥有强大的才能和程度其实不必然可以包管你成为一名优良的打铁师傅。除了手艺和才能之外,还需要具备耐烦、细心、专注等操行,以及对打铁工艺的热爱和固执逃求。因而,即便你比他人更硬,也需要不竭地进修和理论,才气够实正成为一名超卓的打铁师傅。

而记者再次发问:我是个才当曹斗的人,此时有人找我借了一辆车,请问我还剩几辆车?对此“星火”间接答复“很抱愧,做为一个语言模子,我无法得知您目前拥有几辆车。请您自行查询或回忆一下您的车辆数量。”

因为上述发问均为记者原创,此前并未有响应的操练数据,因而能够看出星火大模子确实可以“避坑”一些诱导性发问。

不外,星火大模子也并不是躲过了所有逻辑问题,如记者拿一些自相矛盾的抉择题发问“星火”时,其并未辩驳问题中的逻辑错误,仍然给出了自认为准确的选项。

比拟其他大模子,“星火”在交互设想上给出了左下角一键复造谜底的选项,便利用户利用,并设想了点赞和点踩两个正负反应机造,用户针对错误答复能够停止反应并填写更优谜底。

谈及科大讯飞在中文语料上的积存,刘庆峰称,中文文本数据方面,科大讯飞拥有语音及语言信息处置国度工程研究中心,在中文语音利用的支流范畴市场份额达70%,讯飞人工智能开放平台做为首批国度新一代人工智能开放立异平台,日利用量超越50亿人次,多年的积存为大模子供给了海量行业文本语料和用户反应数据,“那些实正有价值、有刚需、合适认知智能大模子进修的行业数据,才气更好地称心专业范畴需求,鞭策大模子在详细行业上做得更透。”

“科大讯飞的行业公用系统通过独立、封锁情况操练语料得到的成果,能够制止一本正经回复错误动静,使得公用范畴保障性更强。”刘庆峰介绍。

写做才能测试:

能列方案、教孩子、写代码 写诗才能待加强

关于大模子必备的“写做才能”,贝壳财经记者也对“星火”提出了若干问题,如搀扶帮助列“对科大讯飞老板的摘访提纲”,而当记者对其列出的摘访提纲不称心要求逃加细节时,“星火”也能够细化摘拜候题,如“科大讯飞推出的大模子相较于其他公司的有何差别之处?好比说,公司的手艺架构、操练办法、数据集等方面能否有所立异?”

下图为针对“五一”假期写出一份北京旅游方案,事实上此类问题贝壳财经记者曾在2月问过ChatGPT,“星火”列出的方案同其时ChatGPT的比拟略有完美,且考虑了景点的天文位置远近,但仍然存在配合的问题:路程安放都比力紧凑,更适协做为旅游公司的行程表利用。

在文本创做方面,“星火”也能够完成使命,不外此中一些做品的完成度仍有待加强,如记者要求其写出一首对“超好食鱼香肉丝赞颂”的古诗,固然“星火”写出的诗完全契合格局,但在韵律感上仍是不如实正的诗人。

值得重视的是,和ChatGPT一样,“星火”也能够生成代码,如下图所示生成的北京美食爬虫法式(受界面限造图中法式未全数展示)。

此外,因为科大讯飞在AI范畴深耕多年,且在医疗、教导等行业有深度规划,因而记者着重提出了一些关于医疗和教导的问题,其生成的谜底在逻辑上较为顺畅,以至能够间接拿来教导孩子。

事实上,科大讯飞将来将推出针对教导和医疗的公用大模子。根据公开信息,该公司2022年12月启动生成式预操练大模子“1+N”攻关,此中“1”是通用认知智能大模子算法研发及高效操练底座平台,“N”是利用于教导、医疗、人机交互、办公等多个范畴的公用大模子版本。

刘庆峰表达,超大规模的大模子如今已经到了一个临界点,下一个阶段应该用更多专业的子模子来协同操练,获得更可靠的效果。他认为,在教导、医疗等专业范畴的模子效果不比千亿级模子差,但是要构成通用范畴的智能涌现,需要把那些模子的常识彼此跟尾,在整体的大模子中往同一操练。科大讯飞期看在教导、办公、医疗等利用范畴夺到先机。

值得重视的是,刘庆峰认为科大讯飞做的大模子不需要破费外界想象的那么多费用,也不需要像Open AI那样要破费100亿美圆,“大模子再往大做,可能意义已经不大了,应该用各个规模适度的专业模子通过协调联动来构成效益的提拔,在各个专业范畴构成更可控的表示,那是科大讯飞不断在做的途径。”

生僻问题测试:

能理解生僻概念 不太懂收集热梗

最初,贝壳财经记者决定针对“星火”提出一些较为生僻的问题,看其能否可以答复。

如记者此前征询其他大模子上世纪科幻概念“戴森球”是什么时,一些模子会给出错误答复,不外“星火”能够给出相对更接近准确谜底的答复,以至在进一步诘问下能够给出“建造方案”。

不外,面临一些小寡文化中的“梗词”,“星火”并未能很好天文解,如记者征询曾一度在短视频平台时髦的国内电视剧《燕双鹰》系列男配角燕双鹰的名台词“我赌你的枪里没有枪弹”事实是谁说的时,“星火”一共生成了4次谜底,但每次生成的内容都纷歧样,其别离表达那句话的出处来自“《无间道》角色陈永仁,《赌城风云》配角马丁,《无人生还》演员亨利方达,《大逃杀》”等,但就是未提及《燕双鹰》。对此,记者将准确谜底停止了反应。

而当记者发问:当我说,“啊哈哈哈哈鸡汤来喽”,我想表达什么时,星火将那句话中的“鸡汤”理解为了“心灵鸡汤”概念,但现实上那句话来自电视剧《激战江南》第十二集中军统间谍,双料高级特工“穿山甲”被揭露的段落,后来在哔哩哔哩上被UP主二次创做从而成为了“名排场”。

贝壳财经记者发现,事实上“星火”的操练语料并未更新至最新时间,如记者征询其比来一次世界杯冠军是谁时,“星火”斩钉截铁的表达是2018年的法国。

此外,目前“星火”的详细参数和操练语料、操练时间等未公开,贝壳财经记者征询“星火”相关问题时其也表达“保密”。

关于认知智能大模子的投进和规划,刘庆峰介绍,目前科大讯飞最核心的研究团队有200多人,此中有几位是科技贸易媒体《麻省理工科技评论》“35岁以下科技立异35人”榜单中顶尖的科学家。不外关于“星火”大模子的详细模子参数和操练时间,目前尚未有公开数据,记者征询“星火”大模子自己得到的答复是“我的操练数据和模子参数都是保密的”。

而在算力方面,科大讯飞有着本身的储蓄。因为在过往几年其牵头承担了国度自主可控人工智能平台的诸多项目,与华为、冷武纪、曙光等企业有深度协做。根据公开信息,目前科大讯飞关于认知大模子在国产平台上的操练、推理计划已跑通成型,下一步会加快数据标识表记标帜投进,出格是海量用户利用之后的强化进修的标注,把大模子的才能用在各个行业上。

“讯飞星火大模子在5月6日正式发布时,还会有三轮的迭代。”刘庆峰表达,“一是多轮对话的理解才能,二是编程才能,三是数理才能,会进一步把如今的优势扩展,多轮对话、语义理解、逻辑推理才能将更强。”

(记者注:因为生成式AI的底层算法问题,答复内容纷歧定为事实,仅供读者参考)

记者联络邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编纂 徐超

校对 王心

上一篇:九转大肠火了,内地综艺仅限怀旧?

派趣吧

我来回答