阿里巴巴达摩院陈海青：模型体系并不一定是参数越大模型越好

来源：新浪财经发布时间：2023-08-11 12:15:41

8月11日，AI大模型资本产业论坛暨第九届新浪财经上市公司年会在北京举行。吴晓求、田轩、周鸿祎、冯俊兰、武超则、余兴喜、胡锡进、赵伟、盛丰衍、于海宁等专家学者、企业掌舵者、金牌分析师、明星基金经理齐聚。深入探究人工智能赋能与发展、活跃资本市场、后市投资机会等热门议题。

【资料图】

阿里巴巴达摩院创新业务中心负责人陈海青表示，参数是带来智能涌现的充分条件，但不是必要条件。是不是在真实的场景中越大的参数越好呢？这涉及到场景和数据本身的结合。从阿里本身的研究来讲，开源的中小模型基本上参数是以60亿参数和70亿参数为主的。模型体系中并不一定是参数越大模型越好。

早期在GPT的整个方法体系下就是大量的技术人员做排序，生成函数和部分，最后应用到了线上的机制，结合线上大规模C端用户对于模型的反馈自动形成反馈提升和模型，本身的标注规模大，训练相对不稳定，并且需要大量的核心算法人才和部分，所以在初期的落地下我们不建议做，并且在当下中国法律法规体系下无法做泛化领域的大规模强化，未来初始化任务结束之后，在专业领域的强化和部分是可以被展开的。

在未来长期来讲开源模型和闭源模型终将会长期存在，而它所分化的整个领域中是小的、专属的或者小参数的模型，甚至是逐步参数更大的模型，或者社区化一定会发展，因为社区会带动整个技术能力的发展。

是不是在这样的驱使下闭源的模型就没有发展空间和部分了呢？我认为是有的，在专业领域中我们看到对于效能的提升，包括这里从数据的壁垒，算法的壁垒，我们可以举一些例子。比如说金融行业大模型，我认为它存在于相当复杂的场景和体系，是值得今天从基础模型上构建无论是闭源还是开源的基础大模型领域的，因为金融领域足够复杂，从研报，银行的业务，客服等等的业务，有多复杂的下游业务和体系。从今天一个金融量化的角度讲有常规的量化指标也有非常规的量化指标和部分影响这个部分，在大模型角度来讲内容足够丰富。开源必然会更加灵活，成本更低，能够让大家更普惠的使用。

长期来看，闭源模型更多的会走向高效果、高价值，包括高效率的三个方向，这里列举的是当下开源模型不是主流，闭源是主流。过两三年，可能开源模型逐步回成为大家应用的主流和部分，闭源模型会在特殊的领域和行业中体现出我刚才提到的三高领域分化和体系。

在当下务实的大模型方面，包含了问答推理、内容生成、代码生成、文本分析，这是我们在阿里云的基础上在探索的，从助理、客服、内容生成、代码、金融、零售、媒体、能源等等场景看到的整个部分和体系。我们具体列一些我们对行业部分以及深度做的案例和体系。

阿里云已经落地和即将落地的一些场景：

第一个部分从新闻媒体场景来看，除了要做场景以外，刚才我讲了两阶段的模型和体系，对于右边大家看到的内外部实时数据的接入是第一阶段，通过大模型在海量数据（维权）中查找和生成今天看到的核心数据。在这个基础上再来做精准的基于新闻结构，无论是金融新闻还是政务新闻、娱乐新闻的结构生成，一定程度上从大模型两阶段部分完成整个新闻摘要写作的部分，还有对字数、文风的控制。

第二个部分从问答体系中，客服会成为今天首当其冲的部分，在大模型的基础上控制好知识幻觉的基础上，可以更多的支持“yes or no”的问题，提高我们离线知识管理的效率以及客户体验的能效提升，作用于平台上称为一次性解决率的提升。

第三个部分是知识文档问答的增强，这里有一个具体的案例。我们通过一个财报的读取和部分，通过文档检索和整个部分去实时回答今天讲的欧莱雅大的财报体系，这三个我认为是当下我们看到在阿里云上主流的场景，包括我们列举了一些案例和落地的部分。

最后做个总结，在大模型的趋势下，大模型的多结构化和推理成本的降低，今天我们采用MOE的架构还是围绕一个、多个模型，这都是很重要的。第二个开源、闭源将来会很长时间内并行产生，以效果化提升为主。第三个以围绕实际业务落地中，以Agent构建，包括上下文的计算，API的对接，一定会成为未来主流的在企业上对接的三种主要的方式，包括落地的整个性能。

现在送您60元福利红包，直接提现不套路~~~快来参与活动吧！新浪声明：新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

标签：