薛定谔的AI大模型箱子暂不能打开,但钱还
电风扇与空皂盒的故事,大家都听过吧?
传闻某国际知名快消大厂曾引进一条香皂包装生产线,结果发现这条生产线在包装香皂的过程中出现了一个缺陷,就是常常有盒子没装入香皂。总不能把空盒子卖给顾客,于是,他们就请了一个学自动化的博士后来设计分拣空香皂盒的方案。雷峰网
该博士后立即召集了一个十几人的技术团队,综合采用机械、自动化、微电子、X射线探测等等技术,花费90万,最后成功地研究出了一个方案,就是在生产线的两旁安装两个集成探测器,每当检测到有空香皂盒经过,就会驱动一只机械手将空皂盒推走。
可以说,这是一次技术落地解决实际产业问题的重要突破。
巧合的是,与此同时,中国南方某乡镇企业也购买了同样的生产线。老板发现这个问题后,十分火大,叫来工厂的一名小工说:「你来想想办法解决这个问题。」迫于压力,小工很快就想出了一个妙计:他花元买了一台大功率电风扇放在香皂包装生产线的旁边,产线一转就开始猛吹,空的香皂盒一出现,就被吹走了。雷峰网
小工一人,凭借机智的创意,迅速解决了这个问题,实现了业界常吹说的一个大目标:降本增效。
科技革新,智能在产业中的涵义无非就是这两个口号:一是省钱,二是增效。然而,在近几年的AI发展中,却出现了这样一个貌似违背资本规律的「怪异」现象:不管是学术界还是工业界,不管是大公司还是小公司,不管是私企还是国家资助的研究院,都在花大价钱「炼」大模型。
导致圈内有两种声音:一种声音说,大模型已在多种任务基准上展现出强大的性能与潜力,未来一定是人工智能的发展方向,此时的投入是为将来不错过时代大机遇做准备,投入成百上千万(或更多)训练是值得的。换言之,抢占大模型高地是主要矛盾,高成本投入是次要矛盾。
另一种声音则说,在AI技术落地的实际过程中,当前对大模型的全面吹捧不仅抢夺了小模型与其他AI方向的研究资源,而且由于投入成本高,在解决实际的产业问题中性价比低,也无法在数字化转型的大背景中造福更多的中小企业。
也就是说,「经济可不可用」与「能力强不强大」构成了AI算法解决实际问题中的两大焦点。如今,业界已达成一个共识:在未来,AI将成为赋能各行各业的「电力」。那么,从AI大规模落地的维度看,大模型与小模型哪一个更好?业界真的想好了吗?雷峰网
1、「大」模型到来
近年来,国内外的科技大厂在对外宣传AI研发实力的声音中,总有一个高频的词汇出现:大模型(BigModel)。
这场竞争开始于国外的科技巨头。年谷歌推出大规模预训练语言模型BERT拉开大模型的帷幕后,OpenAI相继于年与年推出GPT-2、GPT-3;年,谷歌又不甘落后,推出在参数量上压倒前者的SwitchTransformer……
所谓模型的大小,主要的衡量指标就是模型参数量的规模。模型的「大」,指的就是庞大的参数量。
例如,BERT的参数量在年首次达到3亿参数量,在机器阅读理解顶级水平测试SQuAD1.1的两个衡量指标上全面超越人类,并在11种不同的NLP测试中达到SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),展示出了参数量增大对AI算法性能提升的威力。雷峰网
OpenAI先后推出的GPT-2参数量达到15亿,GPT-3的参数量首次突破千亿,达到亿。而谷歌在年1月发布的SwitchTransformer,更是首次达到万亿,参数量为1.6万亿。
面对这如火如荼的局面,国内大厂、甚至政府资助成立的研究机构也纷纷不甘落后,先后推出他们在炼大模型上的成果:年4月,阿里达摩院发布中文预训练语言模型「PLUG」,参数量亿;4月,华为与鹏城实验室联合发布「盘古α」,参数量亿;6月,北京智源人工智能研究院发布「悟道2.0」,参数量1.75万亿;9月,百度发布中英双语模型PLATO-X,参数量百亿。
到去年10月,阿里达摩院发布「M6-10T」,参数量已经达到10万亿,是中国目前规模最大的AI大模型。虽然比不上阿里,但百度在追求模型的参数量上也不甘落后,联合鹏城实验室发布了「百度·文心」,参数量亿,比PLATO-X大了10倍。
腾讯也称他们研发了大模型「派大星」,但参数量级不明。除了普遍受大家
转载请注明:http://www.abuoumao.com/hyfz/2745.html