游客

神秘用户已躺平...

您未登录！
愿美好瞬间与您不期而遇

登录注册

WAP站长网

2025年6月24日

字数：1126，阅读约4分钟

全屏显示

LLaMA参数微调方法

39

0

正在检查是否收录...

1.Adapter Tuning：嵌入在transformer中

新增了一个名为adapter的结构，其核心思想是保持模型其他原始参数不变，只改变adapter的参数，其结构如下图所示：

1.在每一个transformer模块最后都加入一层adapter。

2.adapter首先使用一个feedforward将高维特征映射到了低维特征。

3.低维特征经过一层非线性层之后将低维特征映射回高维特征。

2.Prefix Tuning：构造虚拟token

1.在输入token之前构造一段任务相关的虚拟token作为Prefix。

2.在训练时可以只更新Prefix部分的参数，而transformer预训练的参数固定。

【注】该方法与构造Prompt类型，但是构造人为构造的显示提示并且构造参数不可更新，而Prefix是隐式构造。

3.Prompt Tuning

与Prefix Tuning相比之下，prompt tuning使用单个提示表示，该表示前置于嵌入式输入。除了需要更少的参数外，所提出方法允许transformer更新中间层任务表示，通过输入示例进行上下文化。

Prompt tuning只需要为每个任务存储一个小的特定于任务的提示，并使用原始的预训练模型支持混合任务推理。
P-Tuning V1只在输入层加入了Prompt，而P-Tuning V2则在每一层都加入了Prompt，解决了深度提示优化的问题。另外P-Tuning V2还提出了Multi-task learning解决不同规模和任务的适配性问题。

4.LoRA

LoRA的核心思想是用一种低秩的方式来调整这些参数矩阵，在数学上低秩意味着一个矩阵可以用两个极小的矩阵来近似。它提出用两个小矩阵近似一个大矩阵，先降维（减小计算量）后升维（维持维度不变）。具体来说是固定原始模型的参数，只训练降维矩阵A与升维矩阵B。最后用原始模型参数与B矩阵相加。

A矩阵一般用随机高斯分布初始化，维度上是降维；B矩阵用0矩阵初始化，维度上是升维。

参数更新：W = W + A*B。

梯度更新：在微调过程中，计算关于矩阵A和矩阵B的损失，在优化过程中对A和B进行更新，原始矩阵W保持不变。

代码具体操作：①将原始矩阵W参数冻结。②新引入两个线性层对应图中两个矩阵，先降维后升维。③LoRA主要实现了两分支通路，一条分支为已被冻结weight参数的原始结构，另一条分支为新引入的降维再升维线性层。

5.QLoRA：相比于LoRA进一步降低显存消耗

而QLoRa更进一步，引入了4位量化、双量化和利用nVidia统一内存进行分页。

分页优化器、双量化、增加Adapter。

promptfixtransformertoken预训练预训练模型上下文嵌入式高斯分布提示优化

本文作者：WAP站长网
本文链接： https://wapzz.net/post-15674.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

0

0

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

9

1

2

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

热门文章

TOP1

TOP2

微博上线“在线状态”功能：支持用户自主选择开启或关闭

TOP3

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP4

TOP5

雷军说要敢于对标世界第一：只有对标第一才能最终赶超第一

标签云

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1

大文件分享 1

文件传输 1

华为途灵平台 1

ADS4高阶智驾系统 1

游戏市场单调 1

强势新品稀缺 1

市场分析 1

畅销榜 1

游戏新品 1

女装细分赛道 1

小红书开店 1

女装市场 1

A6屏幕参数 1

A6售价 1

高刷新率 1

AMOLED屏幕 1

复制图片
复制图片地址

深色模式
轉為繁體
前往顶部
前往底部

按住ctrl可打开默认菜单