10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

    正在检查是否收录...
一言准备中...

想了解更多AIGC的内容:

https://www.51cto.com/aigc/

“只需”

10万美元

,训练Llama-2级别的大模型。

尺寸更小

但性能不减的

MoE

模型来了:

它叫

JetMoE

,来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。

△贾扬清转发

要知道,后者可是

数十亿美元

级别的投入成本。

JetMoE发布即完全

开源

,且学术界友好:仅使用公开数据集和开源代码,用

消费级GPU

就能进行微调。

不得说,大模型的打造成本,真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞:

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)

它的注意力层中仍然使用了MoE:

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)

每个MoA和MoE层又有8个专家,每次输入token激活2个。

JetMoE-8B使用公开数据集中的

1.25T token

进行训练,学习率5.0 x 10-4,全局batch size为4M token。

具体训练方案

遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含

两阶段

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。

最终,团队使用

96×H100

的GPU集群,

花费2周时间、约8万美元

搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中,由于JetMoE-8B仅具有

22亿

个激活参数,因此计算成本大大降低——

同时,它还收获了不错的性能表现。

如下图所示:

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。

作者介绍

JetMoE一共4位作者,分别是:

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。

  • 国振

     (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。

  • Zengyi Qin

MIT博士在读,同时在创业,

MyShell

的AI研发主管。

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。

传送门:https://github.com/myshell-ai/JetMoE
参考链接:https://twitter.com/jiayq/status/1775935845205463292

想了解更多AIGC的内容:

请访问: 51CTO AI.x社区

https://www.51cto.com/aigc/

llamatoken数据集aigc大模型研究员ctoatsgpu注意力gitllama2shellgithubstable diffusionllm训练数据集面壁智能训练方案评测基准
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-12662.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

AIGC查重高怎么降:七大策略助你攻克学术诚信挑战

上一篇

这个AI绘画神器-----SD插件处理服装太给力了!

下一篇
  • 复制图片
按住ctrl可打开默认菜单