工联院大模型测评:文心一言在工业领域表现超过GPT3.5

来源:经济参考网  发布时间:2023-06-29 17:50:44 

近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。

工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。

据悉,评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。


(相关资料图)

百度文心一言测评表现超过GPT3.5

本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。

评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。

在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。

主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。

在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。

大模型发展新热点:丰富特定行业专业知识

虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。

实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。

关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。

当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。

比如百度文心一言与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。

据悉,未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。(肖智)

(文章来源:经济参考网)

标签:

关闭

工联院大模型测评:文心一言在工业领域表现超过GP

近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中更多

2023-06-29 17:50:44

英德:税企共建擘画“发展图” 税惠护航“上市路

英德:税企共建擘画“发展图”税惠护航“上市路”更多

2023-06-29 17:53:51

掮客涌动 贴息存款卷土再来

“月末要做存款冲量的客户,可以赶快把理财赎回了”“本月末的银行冲量更多

2023-06-29 17:02:06

刘吉到仲恺调研 推动惠州新型储能产业进入全国第

昨日下午,惠州市委书记刘吉到仲恺高新区调研新型储能产业发展,与惠州更多

2023-06-29 16:59:03

全球焦点!世卫组织研究机构将宣布甜味剂阿斯巴甜

传统饮料巨头使用的代糖阿斯巴甜可能对人体致癌?6月29日,据路透社报更多

2023-06-29 17:03:44

无手术资质给狗狗开刀致其死亡 佛山这家宠物诊所

佛山一市民在顺德一家宠物诊所给狗狗进行子宫蓄脓手术后,不料手术导致更多

2023-06-29 16:01:14

深圳市七届人大常委会第十八次会议召开!居民生活

记者今天获悉,深圳市七届人大常委会第十八次会议召开。备受关注的《深更多

2023-06-29 16:04:46

首届海南数据安全生态大会召开|每日资讯

人民网北京6月29日电(记者赵竹青)6月28日,首届海南数据安全生态大会更多

2023-06-29 15:50:16

柔宇科技所持5000万股权被冻结 世界快播

天眼查App显示,近日,深圳市柔宇科技股份有限公司新增股权冻结信息,更多

2023-06-29 14:52:53

超1500家上榜餐厅上线“必吃套餐” 大众点评2023

“吃饱吃好”始终是食客最朴素的期待。6月27日,大众点评2023“必吃榜更多

2023-06-29 15:07:11