海量非结构化、粗颗粒的产业数据变为高精度的“乐高”标准件 赋能数商 大模型并非“虚火”

来源:解放日报  发布时间:2023-07-09 06:14:49 

刘彦的母亲是一位脑神经科学家,受到启发,刘彦和好友沈鑫创办数库科技时,也认定要以AI等技术,将产业链数据变为神经元,织成网络,实现彼此串联与传导。唯此,国内外海量企业间错综复杂的关联、运行规律及潜在风险才能被敏锐洞察,给予银行、政府等部门一双“慧眼”。


(资料图片)

数字经济是上海四大新赛道之一,人工智能是上海三大先导产业之一。当数字与AI结合,所诞生的当然远不止数库科技,还有大量数据产品交付商、数据安全捍卫者、数据资产评估商等。在算法、区块链技术及现下最火的大模型加持下,上海首提的数商生态正日益繁荣。

大模型解析产业链

“数库科技的强项,就是借助自研框架与算法,将海量非结构化、粗颗粒的产业数据,变为高精度的‘乐高’标准件。”刘彦在数据智能论坛上分享。

这并不容易。权威的全球行业分类系统GICS,也不过将产业分为4个层次,若以此标注产业链数据,未免太“粗犷”了。其次,以深圳宝安集团为例,该集团涉及高新技术、房地产、生物医药多个领域,若只打一个行业标签,显然不科学。另一个常见现象是,各企业可能在做同一件事,但它们公开披露的业务名称却未必一致。

上海的数据科技企业就愿意挑战这些难题。通过将行业层级逐级打深至12层,并将各类非结构化数据对齐,数库科技打造了一家“自动化数据生产工厂”,实现了对A股、港股、美股、发债企业等近4万家头部公司所公开披露产品的标准化,并将全国近6000万家工商企业与产业链图谱打通。

图谱并非一张“死图”。由于数据标签很“细腻”,产业链节点间的“蝴蝶效应”会被迅速捕捉——两家表面看起来毫无关联的公司,却被图谱提示,在它们上游,有同一家原料供应商,或股东间有千丝万缕的纠葛。产业链上某个节点的动态、利好乃至风险,都可能传导到各方,并被迅速捕捉。这样的图谱,被刘彦称为SAM(Segment Analysis & Mapping)产业链数据体系,其典型应用场景之一在于量化投资,可使投资机构年化收益至少提升5%。

SAM还在向UPG(Universal Product Graph)升级,进一步叠加工艺流程、生产环节、材质、设备等各类关系,数据维度更丰富,将实体产业刻画得更精准。此时,大语言模型成为功臣。“可以帮助我们解析那些原先纯靠人来处理、且表述形式极为丰富的文本语料,如研报、行业报告等。”刘彦说。

这个被大模型驱动的UPG,有望更切中客户所需。数库科技创始人兼总裁沈鑫告诉记者,“它可为地方政府提供更有针对性的产业规划,迅速找到茫茫企业群中‘最靓的仔’,为地方经济强链补链。又或者,可提示政府及时发现潜力企业,有针对性地招商安商稳商,做好上市培育。”

数商“调教”大模型

种种迹象表明,大模型并非“虚火”,它切切实实在赋能产业。这背后,上海数据科技企业不懈创新,旨在将大模型从通用领域的“实习生”,“调教”为金融、能源、交通等专业领域的“高级顾问”。

在今年世界人工智能大会上,星环科技发布了金融领域大模型“无涯”和大数据分析大模型“求索”。创始人孙元浩介绍,大模型有时会一本正经“胡说八道”,原因之一在于训练大模型用时至少半年,这导致实时新闻资讯、市场行情等快速变化的信息难以内置到模型中。星环科技用向量(指具有大小和方向的量)数据库来承担存储最新信息的中间角色,已成功化解大模型的“幻觉”。如在金融量化领域,“无涯”可回答研报分析,能对个股、债券、基金等各类市场事件进行复盘和推演。“求索”大模型同理,数据工程师可用自然语言按需查询数据,使每个人都能拥有虚拟的业务助手。

不过,大模型能否有出色表现,优质语料是关键。在昨天举行的“大模型时代下的数据要素流通”主题论坛上,上海数据交易所总经理汤奇峰坦言,现有许多语料不佳,影响大模型的发挥。“有些企业具有海量高质量数据资源,开放意愿度也很高,但需要社会第三方企业帮助组织相关的大模型训练。”

汤奇峰表示,上海数交所有志于以市场配置的方式组织数据要素,推动语料库建设。上海数交所已于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、医疗等领域。

(文章来源:解放日报)

标签:

关闭

海量非结构化、粗颗粒的产业数据变为高精度的“乐

刘彦的母亲是一位脑神经科学家,受到启发,刘彦和好友沈鑫创办数库科技更多

2023-07-09 06:14:49

“不缺游客缺门票”如何解

炎炎暑热挡不住人们出游的脚步。多家在线旅游平台预测,今年有望迎来近更多

2023-07-09 06:07:47

莫让网红“打卡”成“打扰”

前段时间,南京市秦淮区的慧园里小区走红网络,成为南京旅游的热门地之更多

2023-07-09 06:10:38

东莞制造年中观察|瞄准“缝隙市场”苦练内功 “

在广东博迈医疗科技股份有限公司的生产车间内,两名工作人员正穿着防尘更多

2023-07-08 23:09:57

探展WAIC | 上海数交所总经理汤奇峰:语料库建

“大模型建设中,语料库是一个非常重要的方向。”7月8日,上海数交所总更多

2023-07-08 23:16:46

住建部再度发文规范城市更新:强调“安全”底线

继2021年8月专门发文强调城市更新行动中要防止大拆大建后,近日,住建更多

2023-07-08 23:17:23

大模型门槛的降低已经在发生 | WAIC观察

2018年,首届世界人工智能大会从上海徐汇区开幕,五年间,徐汇的人工智更多

2023-07-08 22:16:26

广州公布商圈规划 打造“5+2+4+22”重点商圈格局

据广州日报7月8日消息,广州市商务局正式印发并公布《广州市重点商业功更多

2023-07-08 22:14:46

周杰伦演唱会10万可合影?主办方回应

近日,某平台发布的文章中有“周杰伦呼和浩特演唱会10万块钱拍照”的相更多

2023-07-08 21:14:14

第五届中国新疆亚欧金桥国际博览会开幕

“借此展会,我们推广企业产品,让更多民众对我们产品有个认识。我们生更多

2023-07-08 21:13:39