达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

MoE大模型一键训练!达观大模型管理平台新功能惊艳发布!

曹植MoE模型全新上线,支持中文场景

在当下MoE架构模型可能成为主流趋势的背景下,达观大模型管理平台为了满足用户多样化模型管理需求,此次带来了2大内容更新,除了更大参数量级的70B曹植模型,更重量级的是上线全新曹植MoE模型,独家支持在平台上完成MoE大模型私有化部署、一键训练,支持用户对曹植MoE模型进行和常规模型同样的SFT微调、模型量化(支持INT8、INT4、INT3、INT2)、封装服务接口、Prompt指令定制等运维流程,曹植MoE模型相比Mixtral更优的特点在于曹植MoE模型不光支持多语种,而且全面支持中文(Mixtral 8x7B不支持中文),并在中文场景做了针对性的训练优化,使得模型在长文本、多语种或众多垂直场景中发挥出更优、更强劲的性能。

1

曹植MoE模型全新上线

引起疯狂猜想的GPT-4架构
近年来,人工智能领域发展迅猛,基于Transformer或类Transformer架构的大模型在自然语言处理、图像识别等任务中展现出了强大的性能,其中基于GPT-3.5(1750亿参数)在chat场景微调的应用ChatGPT横空出世、火爆全网、成功出圈,在多个层面上ChatGPT成为一个现象级别的人工智能应用。自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等,这些能力让 GPT-4 成为机器学习领域最前沿的模型之一,然而,OpenAI 至今未公开 GPT-4 的任何技术细节,训练单个拥有巨大参数(千亿甚至万亿级别)的大模型需要耗费最大人力和财力,只有少数巨头公司才有财力物力能够独立完成。
2023年6月,美国知名黑客George Hotz在接受一家名为 Latent Space 的 AI 技术播客的采访时提到GPT-4其实是一个混合模型。具体来说,GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数,比 GPT-3.5 的 1750 亿参数量略多一些,这么算来GPT-4 实际有8 x 220B = 1.76万亿参数,这些子模型经过了针对不同数据和任务分布的训练。

2

历代gpt模型参数概览

随着MoE架构的崭露头角,我们看到了一种新的可能性,即通过组合多个中等规模的模型,同样能够达到更大模型的效果。最近在大模型开源社区中备受瞩目的,除了采用与Gemini相同技术构建的Gemma,另一个备受关注的模型便是Mixtral 8x7B。这个由一家法国公司推出的新架构模型在推出后迅速引起了巨大的讨论。

Mixtral8x7B原理
Mixtral 8x7B 是基于编码器(Decoder-Only)架构的稀疏专家混合网络(Sparse Mixture-Of-Experts,SMoE)开源大语言模型,使用 Apache 2.0 协议发布。它的独特之处在于对于每个 token,路由器网络选择八组专家网络中的两组进行处理,并且将其输出累加组合,因此虽然 Mixtral 8x7B 拥有总共 47B 的参数,但每个 token 实际上只使用13B的活跃参数,推理速度与13B模型相当。
Mixtral 8x7B 支持多种语言,包括法语、德语、西班牙语、意大利语和英语(注:Mixtral有个明显弊端为不支持中文),支持的上下文长度为32K token,并且在所有的评估的基准测试中均达到或优于 Llama-2-70B 和 GPT-3.5,特别是在数学、代码生成和多语言基准测试中,Mixtral 大大优于 Llama-2-70B。

3

Mixtral 8x7B性能测试

最令人瞩目的是,Mixtral 8x7B用更少的参数量就达到了Llama 2和chatGPT3.5的水平。这一突破性的进展引发了业界的广泛关注,许多专业人士纷纷表示,MoE架构的出现将在未来产生深远的影响。既然MoE架构能力这么出众,那么

什么是MoE?

MoE即Mixture of Experts-专家混合模型,2013年12月,第一篇提出在神经网络中应用MoE的论文是《Learning Factored Representations in a Deep Mixture of Experts》。2017年1月,Google Brain团队发表论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,真正意义上将MoE应用到超大参数规模模型之上。
MoE架构的核心思想是将模型分为若干个专家模块,每个专家负责处理数据的一部分。而后,一个门控机制负责动态选择哪个专家模块应该负责当前输入数据。这种模块化的结构不仅有效减少了模型的参数规模,还提高了模型的灵活性和泛化能力。

4

MoE结构

MoE最关键的组件
  • 专家(Expert):MoE层由许多专家、小型MLP或复杂的LLM(如 Mistral 7B)组成。

  • 路由器(Router):路由器确定将哪些输入token分配给哪些专家。

路由策略有两种:token选择路由器或路由器选择token。

路由器使用softmax门控函数通过专家或token对概率分布进行建模,并选择前k个。

MoE能够带来的好处

  • 每个专家都可以专门处理不同的任务或数据的不同部分。

  • MoE构架能向LLM添加可学习参数,而不增加推理成本。

  • 可以利用稀疏矩阵的高效计算

  • 并行计算所有专家层,以有效利用GPU的并行能力

  • 帮助有效地扩展模型并减少训练时间。以更低的计算成本获得更好的结果!

与传统的单一大模型相比,MoE架构具有更好的可扩展性。由于专家模块的独立性,可以方便地增加或减少专家的数量,从而灵活应对不同规模和复杂度的任务。这使得MoE模型在适应各种场景时更加高效,成为了许多研究者和工程师关注的焦点。
MoE架构的兴起也意味着开源社区将迎来新的发展契机。在MoE模型的基础上,开发者可以更轻松地构建适应特定任务的模型,从而加速人工智能技术的传播和落地。这将推动人工智能技术的普及化,使更多行业和领域受益于其应用。
在当前的技术发展趋势下,MoE架构很可能在2024年成为主流。Mixtral 8x7B的成功表明,MoE架构能够在不损失性能的前提下,显著降低训练和推理的资源成本。除了Mixtral 8x7B,还有许多其他公司和研究机构也在积极探索MoE架构的潜力。随着对该技术的深入理解和不断改进,MoE模型将逐渐取代传统的大型模型,成为各类应用领域的首选。

LLMP实现曹植MoE模型全流运维实践
用户可在达观大模型管理平台LLMP上完成MoE模型微调的数据集管理、模型SFT微调,服务封装上线、Prompt指令自定义等运维流程。
5

数据集管理

达观大模型管理平台LLMP是一款可为各种类GPT模型提供模型优化的全方位工具。它以降低模型优化门槛、提高用户体验为目标,为企业用户提供了一站式的模型管理解决方案。
零门槛优化
与传统的大模型优化相比,“曹植”平台以零门槛优化为特色。用户无需具备深厚的编码技能,只需简单的几步操作,即可完成对模型效果的优化。这一特点使得即便非专业人员也能轻松上手,实现模型的快速、高效管理。
灵活的模型训练
平台支持用户根据业务需求,灵活进行模型训练。用户可以使用历史优质、合规的专业内容构建训练数据集,选择基础模型及版本、模型训练方式和数据集,轻松调整训练参数。这一灵活性使得模型更好地适应不同应用场景需求。
手把手式引导
“曹植”平台注重用户体验,提供了手把手式的引导。用户只需按流程轻松点选基础模型及版本、模型训练方式及训练数据集,快速调整训练参数,就能完成模型微调配置并上线全新服务。这一引导方式减少了用户在操作过程中的迷茫感,使得模型管理更为直观。
定制化服务
平台允许用户根据业务需求自定义prompt指令,供上层业务应用调用。这使得模型输出更为贴合实际需求的优质内容,进一步提高了模型在特定业务场景下的适应性。
专业内容支持
“曹植”平台可与其他专业领域模型结合,采用最前沿的RAG技术,支持从大量文档、图片、表格中挖掘、分析和提炼内容,使得大语言模型输出内容更为专业、深度。这一特性让企业用户更加轻松获取专业领域的知识。

6

模型训练

通过提供这一系列、全方位的功能和特性,“曹植”大模型管理平台成为一款强大的大语言模型运营和管理工具,为企业用户在知识对话、智能写作、文本生成领域带来了更高效、更便捷的模型管理体验。