助力工作哪家强?
大模型的时代似乎真正到来了。
伴随着8月31日凌晨百度文心一言的正式开放,首批语言大模型产品获批名单也终于出炉。它们共有11家,基本都是生成式AI,主要面向C端用户开放。也就是说,从这个秋天开始,每个人都可以直接使用到国内最前沿的AI产品,感受新科技的魅力。
目前来看,在首次获批的11款大模型产品中,有7款已经可以直接使用,他们分别是:文心一言(文心大模型)、豆包(云雀大模型)、商量SenceChat(日日新大模型)、百川大模型、讯飞星火认知大模型、智谱清言(智谱AI ChatGLM2)、MM智能助理(MINIMAX-ABAB大模型)。
这些产品不仅包括了百度、字节这样的大厂和领域独角兽,还有高校、初创公司,可以说集合了国内大模型赛道中的核心力量,也是一众大模型产品中的佼佼者。
正如前文所说,包含ChatGPT在内的众多大模型产品,都在强调实际应用的能力,尤其是在工作场景中的应用,更是最受重视。作为一位内容生产者,我也一直期盼着大模型能够真正应用于工作中,成为“解放生产力”的关键工具。
带着兴奋与期待,我第一时间对这7款产品进行了体验。或许一个普通用户的体验远远称不上是“测评”,但可以最直观地展示大模型产品的实际应用效果,通过最简单的方式,感受AI大时代之下,每个人正在经历的浪潮。
七款大模型测评,谁最好用?
能不能实际嵌入打工人的“工作流”,决定着AIGC中的G是不是真的可用。从自身的工作场景入手。目前国内主流的语言大模型都强调生成的能力,也就是AIGC中的G。在内容生产上,很容易从不同环节去体验这些大模型产品的实际能力,同时在使用中感受交互性、便捷性等实际问题。
首先是素材和数据搜集的能力,这是内容生产的基础。
我以“2021年中国演出市场规模”“2022年中国电动车市场规模”为题对七款产品进行了提问,文心一言、豆包、商量SenceChat、讯飞星火的发挥比较稳定,成功给出了正确的数据,其中豆包、商量SenceChat回答的较为全面,两个问题都给出了产业规模,还给出了品类数据,同比增长数据等信息,文心一言、讯飞星火则更简洁,但给出的答案比较清晰。
文心一言关于2021中国演出市场的回答
百川大模型、智谱清言、MM智能助理相对来讲表现稍弱,往往一个问题能给出答案,另一个问题却无法解答,百川大模型和智谱清言也都在答案中直言“无法获取实时数据”“我没有找到确切的数据”,但仍旧会提供部分参考信息,例如更早年份的数据信息等,希望能为用户提供帮助。
百川大模型关于2022电动车市场规模的回答
MM智能助理则相对更加生硬,相对于其他产品的对话模式,其体验版本缺乏连续性。输入“2021年中国演出市场规模”,界面直接提示我换个问题,没有做出任何回答。但只有该产品在回答数据问题时会列出数据内容的参考来源,在“2022年中国电动车市场规模”的回答中,其给出的答案最详细也最全面,并最后还做出了“规模会持续增长”的判断。
同样在回答中做出分析判断的还有百川大模型和商量SenceChat,例如分析疫情对演出市场产生了影响,以及某些数据更值得注意等。但这并不排除是对网络数据的直接抓取所导致的。
商量SenceChat给出的数据答案
在我们的日常生活中,对于实时热点数据的需求也非常重要,因此我选择了当下中文网络中的热点进行了提问,包含最近爆火的剧集《鹊刀门传奇》、抖音达人“一笑倾城”,以及诺兰执导的电影《奥本海默》。
在这些产品中,百度文心一言发挥最为稳定,文心一言会默认接入百度搜索,这也是其信息检索能力的最大保证。讯飞星火也展现了出色的搜索能力,尽管另外两个问题回答比较简洁,但只有它准确的说出了一笑倾城的粉丝数。
而其他五款产品的表现都参差不齐。他们基本都能答出《鹊刀门传奇》的基本信息以及《奥本海默》的实时票房数据,但面对一笑倾城,不少产品开始“胡说八道”,字节的豆包都在这个问题上翻了车,名字、年龄、粉丝数全部答错;百川大模型和智谱清言直接开始“废话文学”,称“一笑倾城”可能指的是一位拥有大量粉丝的知名博主,但无法给出具体信息;MM智能助理的答案最为详细,甚至直接给出了抖音ID,但却基本全部错误。
MM智能助理“一本正经的胡说八道”
面对比较确定的资料与数据,大模型们都能给出不错的答案,但在更细分的热点领域,他们仍需要更多数据信息的训练与采集。
文本创作是工作中的重点。我首先用“智能驾驶市场观察”为题,让大模型们为我撰写提纲,七款产品都给我提供了还不错的答案,其中百川大模型和文心一言的表现不错,提纲撰写更具逻辑性,还会从智能驾驶技术的不同部分、年代进行划分。值得注意的是,我在指令中特意强调了要结合“新闻事件”,大多数回答只是将其作为文章一部分笼统概括,只有讯飞星火列举出了相关事件并引申出了话题。
讯飞星火给出的提纲
简单的提纲撰写完成,还需要考验产品们的创意创作能力。我告诉它们,刺猬公社希望开辟一个新能源车领域的新板块,需要一个名字以及100字的简介。模型们都完成了任务,百川大模型的名字比较诗意:“驭风者”,并且强调“寓意着我们在新能源汽车领域中驾驭着时代的潮流”。
其他的模型则较为常规:电动时代、绿动未来、绿色动力,中规中矩中也体现了新能源车市场的特点。而大厂们则稍显“严肃”,豆包给出的栏目名字就叫“新能源”,文心一言是“新能源车的江湖”,简介开篇也有点不知所云,“江湖,是一个充满故事和传说的事物”。
在更专业的文本创作、例如视频脚本的场景下,面对“探访北京最后一家家乐福”短视频脚本撰写任务,大模型们都给出了不错的答案,镜头、文案、画面都颇有想法,从“最后一家家乐福”这一点出发,给出了不少情怀满满的文案。表现比较惊艳的是豆包,短视频毕竟是字节的优势内容,它直接给出了一个详细表格,包含景别、运镜、时间、画面、旁白等一系列内容,甚至直接帮我挑选了配乐。不过,《We are the Champions》似乎并不太符合这个略显伤感的主题。
豆包给出的视频脚本
在文本创意上,各家大模型表现不错,其中百川大模型、智谱清言、文心一言都表现出了其独有的特质:百川更重逻辑分析,智谱清言学术气息很重,文心一言则以信息量取胜。
智谱清言的舆论监控报告
在图文创作等方面,文心一言则有着绝对的优势。只有文心一言目前能直接通过数据制作图表,并且通过其自带的插件与指令进行AI作图,也可以直接输入图像指令,进行图生文创作。除了能输入语音与图片指令的讯飞星火外,其他六款产品基本只能输出文本,并在回答里强调自己是“语言大模型”。
在文本校对、数据运算等方面,各家表现基本差距不大,文心一言还是通过强大的产品功能拔得头筹,不仅可以在提问栏输入长文本,还能直接上传文件,实现文本摘要、问答、衍生创作等功能。MM智能助理的体验感较差,除了体验版限速外,其输入栏还不能输入过长的文本,这也导致校对等功能被迫缺失。
文心一言的文生图功能
总的来说,更便捷好用的无疑是文心一言。得益于百度的强悍生态以及多年积累,在产品功能上更具优势,目前基本可以覆盖全部工作流程,尽管效果见仁见智,但只有解决了“能不能”的前提下,才能保证“好不好”。
不得不说,不同的产品都有着不同的优势,如百川大模型的强逻辑性、讯飞星火的信息更新速度、豆包的英文学习等,如果想要真正为工作赋能,不如组合起来一起使用。毕竟小孩子才做选择,成年人选择“全都要”。
他们是谁?
这7款产品或许是赛道关注者眼中的熟客,但对于大众来说,其中不少是新面孔。他们背后的公司是谁?为何能进入名单之中?想要了解这些产品真正的独特之处,还是要深入了解它们的母公司。
文心一言一直是大模型热以来国内最受关注的产品之一,凭借在AI领域展现出的强大实力,百度也再次回到互联网企业的中心点。文心一言正式发布于2023年3月,是百度AI十余年成果的集大成者,其背后是百度自主研发的文心大模型,也是国内最头部的大模型产品之一。之所以能在这一次的体验中“拔得头筹”,与百度的努力不无关系。
相对来讲,豆包背后的抖音集团要更低调一些。云雀大模型的研发工作开始的较晚,消息也更少,但仍旧不耽误字节的追赶,面对腾讯、阿里、华为一众大厂AI产品势头正劲之时,字节率先追赶百度,以智能助理“豆包”为载体,搭上了公众开放的首班车,令人惊讶。
目前来看,豆包的表现尚可,总体称得上是“中规中矩”。跟市面上的其他大模型产品来讲,豆包更人格化、使用的门槛更低,产品界面就像是普通的社交产品,而对象是智能助理“豆包”。合理猜测,字节正是希望用这种更接地气的方式触达更多的用户,盘活几个月的深度布局。
讯飞星火同样入局较晚,但在过去的几个月里,讯飞不断地all in AIGC,也成功在赛道里崭露头角。2022年12月,讯飞才正式启动对于大模型产品的专项研发,作为专注语音领域的企业,做一款更完备的语言大模型产品,只能说讯飞的野心很大。2023年5月,讯飞星火认知大模型正式发布,在教育、办公等领域的AIGC表现出色,短短半年时间里成果斐然。
商量SenseChat背后是商汤科技推出的日日新SenseNova”大模型。在国内人工智能赛道,商汤科技是无法绕开的。其成立于2014年,是国内最早专注于AI领域的企业之一, 创始团队源于2001年在香港创立的香港中文大学多媒体实验室,有着很深的学术背景。日日新SenseNova”大模型推出于2023年4月,目前的商量SenseChat已经是2.0版本,其参数更是达到千亿级规模。
大厂与独角兽们的声势浩大之下,初创企业们同样值得关注。
百川大模型背后百川智能是近年来国内AI赛道的明星公司之一,其由前搜狗CEO王小川创立,是AI热潮的产物之一,成立半年不到,非常年轻。百川以超强的迭代速度震撼整个行业,自6月发布中英文语言模型Baichuan-7B,其已经发布了三款大模型产品,这次更是直接开放访问,来到大众面前。
百川智能就像创始人王小川一样,学霸背景、明星创业者,天然就能吸引市场的目光。
智谱清言则是智谱ai推出的C端产品之一。智谱AI则是高校研发的代表,是由清华大学计算机系知识工程实验室的技术成果转化而来的AI初创公司,入局也更早,成立于2019年6月。智谱AI合作研发了双语千亿级超大规模预训练模型GLM-130B,推出了认知大模型平台Bigmodel.ai。除了智谱清言外,还推出了CodeGeeX和CogView等应用产品。
得益于自身高校背景,智谱已达成许多政企合作,在一众初创公司中,智谱AI在商业落地上已经拥有了不错的成绩。
相对“难用”的MM智能助理背后的MiniMax也是一家AI初创公司,成立于2021年11月,与商汤科技有着不小的联系,创立人为前商汤科技副总裁、通用智能技术负责人闫俊杰。目前MiniMax已经历经三轮融资,发布了包括文本到视觉/语音/文本三个基础模型架构,推出自研通用大模型“ABAB”,以及虚拟聊天软件Glow、生成式对话AI产品Inspo等。
值得注意的是,Minimax的估值很高,是大模型初创公司中最具商业价值的公司之一,在完成了新一轮2.5亿美元融资后,整体估值超过12亿美元。尽管从体验上略有缺失,但Minimax的技术实力绝对不容小觑。
大模型赛道,风起云涌
大模型赛道早已沸腾多时,但这一次的获批开放意义非凡:
这标志着大模型产品真正开始走向公众,市场与商业的残酷磨砺已经来到玩家们眼前,产品端的“亮剑”只是一个开始。
AIGC的市场仍旧是蓝海,无论是大厂还是初创公司都垂涎欲滴。据艾瑞咨询预测,2023 年中国 AIGC 产业规模约为 143 亿元,2028 年产业规模预计将达到 7202 亿元,到 2030 年将突破万亿规模,达到 11441 亿元。更重要的是,自chatgpt4发布以来,互联网科技产业的未来的方向似乎从未如此清晰:谁抓住了AI,谁就掌握了未来。
于是,百模大战应声而起。无论是自研大模型,还是垂直领域的中小模型,以及基于大模型技术开展业务的公司如雨后春笋。但世界是残酷的,对于不少企业来说,闷头研发不管用了,生存的问题已经近在眼前。相对于刚刚爆发时的热情,投资人们也开始更谨慎地审视这个赛道,谁能讲出新故事,谁才能成为下一个“烧钱”换未来的成功者。
大模型领域尤其激烈,作为整个aigc的技术基底,大模型的重要性犹如芯片之于手机。从首批获批的大模型名单中我们就能窥见AI江湖风起云涌。
以百度为例,如果说3月的首次发布还带着一些被GPT4“赶鸭子上架”的窘迫,那么时隔近6个月,文心一言的全民开放更像是“龙王归位”——五个月里,文心一言飞速进化,其从数万亿数据和数千亿知识中不断训练,并采用有监督精调、人类反馈的强化学习和提示等技术,不断提升着自身的技术优势。
在WAVE SUMMIT深度学习开发者大会上,百度首席技术官王海峰再次提及了文心大模型、飞桨平台、AI原生应用如流等一系列技术发展,其中拥有超过800万开发者的飞桨功不可没,进一步带动了文心一言的进化。百度是大厂中最好的案例,厚积薄发,AIGC也是其实现二次崛起的唯一机会,能否保持住领先优势,至关重要。
wave summit大会上王海峰的发言
其他巨头也并不是吃素的。不讲尚未发布的通义千问(阿里)、盘古大模型(华为),在很多人眼中“落后”的字节就是一个最好的案例,事实上,在过去的几个月里,字节一直在进行更基础的布局工作。
现如今的一众大厂中,字节在资金、人才,还是数据、算力,其都有着很深的积累,AIGC产品只是时间问题,字节选择不冒进,更稳的让产品落地。2023年6月,字节就发布大模型服务平台 " 火山方舟 ",吸收集合了多家 AI 科技公司及科研院所的大模型产品,率先开始企业端服务,现如今的豆包,就是字节向C端进发的开始。
对于一些独角兽公司来说,大模型更是“弯道超车”的重要机会,讯飞、商汤科技都有着类似的期望。
对于讯飞这样一家领域巨头来说,能够如此快的研发出大模型产品,并非易事,前不久,讯飞高调宣布了与华为的合作,这或许也能为我们解答一些疑惑。在7月的投资者说明会上,讯飞也再次强调了对于大模型产品研发的坚定,下半年继续all in。对于讯飞来说,这是一个绝佳的实现二次生长的机会,但在商业仍未落地的情况下,风险并不算低。
而在首批获批名单中,大语言模型“书生·浦语”(internlm-123b)备受关注。据悉,其在12项评测中超越gpt-4,综合性能全面超越gpt-3.5-turbo。而在其背后,除了上海人工智能实验室等多家科研机构外,商汤科技也是其中之一。多方下注,已经成为玩家们的策略之一。
书生·浦语开源体系
就像腾讯,除了发布NLP万亿大模型——混元(HunYuan)AI 大模型之外,还投资了多家AI领域初创公司,百川大模型就是其中之一。在百川背后还能看到小米科技、金山软件,红点资本等大企业,每一个明星公司的成功都不是偶然。
智谱AI也已经完成4轮融资,而最近的一轮是由美团战略独资完成的。目前智谱A已经估值近5亿美元,除了美团外,背后还有多家资本公司的助力。
在大模型战争中,没有人愿意落在后面,无论是自研、还是投资,整个互联网产业都在卷入其中。
但幸运的是,残酷的商业故事暂时还与用户无关。“烧钱”内卷之下,大模型产品不断问世、迭代,AGI(通用人工智能)也随之洪波涌起。每个人都能够成为技术的受益者,在这一次的体验测评中,我深刻感受到了AI对于工作、生活的改变,伴随着余下几款大模型产品的开放,我们或许真的将迎来一个全新的时代:关于生产力的解放,更关于世界的未来。
本文源自刺猬公社