两只羊驼掐头去尾拼一起,屠榜HuggingFace

两只羊驼掐头去尾拼一起,屠榜HuggingFace

    正在检查是否收录...

HuggingFace开源大模型排行榜,又被屠榜了。

前排被清一色的

SOLAR 10.7B

微调版本占据,把几周之前的各种Mixtral 8x7B微调版本挤了下去。

SOLAR大模型什么来头?

相关论文刚刚上传到ArXiv,来自韩国公司

Upstage AI

,使用了新的大模型扩展方法

depth up-scaling

(DUS)

简单来说就是

两只7B羊驼掐头去尾

,一只砍掉前8层,一只砍掉后8层。

剩下两个24层缝合在一起

,第一个模型的第24层与第二个模型的第9层拼接,最后变成新的48层10.7B大模型。

论文声称新方法超过传统扩展方法如MoE,而且可以与沿用基础大模型完全相同的基础设施。

不需要门控网络等附加模块,针对MoE优化训练框架了,也不需要自定义CUDA内核来快速推理,可以无缝集成到现有方法中,同时保持高效。

团队选择7B规模最强的单体大模型Mistral 7B作为底材,用新方法拼接起来,再超越原版以及MoE版。

同时,经过对齐的Instruct版本也超越对应的MoE Instruct版本。

将缝合进行到底

为什么是这种拼接方式,论文中介绍来自一种直觉。

从最简单的扩展方式开始,也就是把32层的基础大模型重复两次,变成64层。

这样做的好处是不存在异质性,所有层都来自基础大模型,但第32层和第33层(与第1层相同)的接缝处有较大的

“层距离”

(layer distance)。

之前有研究表明,Transformer不同层做不同的事,如越深的层擅长处理越抽象的概念。

团队认为层距离过大可能妨碍模型有效利用预训练权重的能力。

一个潜在的解决方案是牺牲中间层,从而减少接缝处的差异,DUS方法就从这里诞生。

根据性能与模型尺寸的权衡,团队选择从每个模型中删除8层,接缝处从32层连第1层,变成了24层连第9层。

简单拼接后的模型,性能一开始还是会低于原版基础模型,但经过继续预训练可以迅速恢复。

在指令微调阶段,除了使用开源数据集,还制作了数学强化数据集,对齐阶段使用DPO。

最后一步,把使用不同数据集训练的模型版本加权平均,也是把缝合进行到底了。

有网友质疑测试数据泄露的可能性。

团队也考虑到这一点,在论文附录中专门报告了数据污染测试结果,显示出低水平。

最后,SOLAR 10.7B基础模型和微调模型都以Apache 2.0协议开源。

试用过的网友反馈,从JSON格式数据中提取数据表现不错。

论文地址:https://arxiv.org/abs/2312.15166

大模型数据集预训练基础模型arxiv无缝集成基础设施排行榜huggingfacetransformer自定义加权平均测试数据解决方案开源大模型数据泄露json数据表url模型扩展
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-4507.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

ZMO AI免费体验入口在哪 AI换脸修图软件分享

上一篇

2024年AI手机出货量有望达6000万部,仍远超AI个人电脑

下一篇
  • 复制图片
按住ctrl可打开默认菜单