2026/2/6 2:08:22
网站建设
项目流程
网站建设客户怎么找,戴尔网站建设成功的关键,win主机 wordpress,网站网站平台建设方案一.adapter Turning1.1adapter Turning原理adapter Turning原理和LoRA很像,和之前说的pre Turning以及P-Turning不同.pre Turning以及P-Turning是通过和原数据拼接的方式来训练参数.这种方式的缺点是和原文本拼接会超出模型限制adapter Turning是在网络层中加新的网络层来适配新…一.adapter Turning1.1adapter Turning原理adapter Turning原理和LoRA很像,和之前说的pre Turning以及P-Turning不同.pre Turning以及P-Turning是通过和原数据拼接的方式来训练参数.这种方式的缺点是和原文本拼接会超出模型限制adapter Turning是在网络层中加新的网络层来适配新的任务.1.2adapter Turning执行流程adapter Turning不会调整模型的参数.只会修改adapter Turning中的参数(高效微调)在原本的网络层中加入了适配器,适配器类似于前馈神经网络层(两个线性层中间加了一个激活函数),区别于前馈神经网络,adapter Turning是先降维后升维1.3adapter Turning的缺点因为大部分参数被冻结adapter 的容量有限对复杂任务或需要大规模参数调整的任务可能效果不如全量微调。Adapter 的维度大小瓶颈层大小、插入位置等超参数对性能影响较大调参复杂度较高。PLM 基础上添加适配器层会引入额外的计算带来推理延迟问题因为adapter Turning的这些缺点,所以引入LoRA进行高效微调二.LoRA微调2.1秩作用:衡量矩阵中有多少线性无关的行和列第一个矩阵秩为1,第二个矩阵的秩为2.秩越大,独立信息越多.2.2LoRA微调原理我们先思考两个问题为何用数千的样本就能将一个数十亿参数的模型微调得比较好为何大模型表现出很好的few-shot能力?Aghajanyan的研究 (《Intrinsic Dimensionality Explains the Effectiveness of Language ModelFine-Tuning》)表明预训练模型拥有极小的内在维度(instrisic dimension),即存在一个极低维度的参数微调它和在全参数空间中微调能起到相同的效果【大模型在预训练阶段已经学到了更多的“通用特征”所以在微调时只需要在一个更小的方向空间中“对齐或修正“即可】。同时Aghajanyan发现在预训练后越大的模型有越小的内在维度这也解释了为何大模型都拥有很好的few-shot能力【因为它们已经覆盖了大部分语言知识少量参数更新甚至几条示例 in-context就能把输出方向调整到目标任务】。总的来说,大模型已经学到了大部分知识,只需要一些点播就可以很好的完成下游任务LoRA微调使用两个低秩矩阵来代替原有的参数矩阵,极大的减少了参数的训练量.2.3LoRA的使用2.3.1基本原理LoRA技术冻结预训练模型的权重并在每个Transformer块中注入可训练层称为秩分解矩阵即在模型的Linear层的旁边增加一个“旁支”A和B。其中A将数据从d维降到r维这个r是LoRA的秩是一个重要的超参数B将数据从r维升到d维B部分的参数初始为0。模型训练结束后需要将AB部分的参数与原大模型的参数合并在一起使用。真正实现是在Linear层旁边加低秩矩阵.注意力机制的Linear层加三个低秩矩阵,前馈全连接层有两个线性层,默认加一个低秩矩阵就可以了2.3.2具体实现这个详细的展现了LoRA微调的细节.主要是明白秩是怎么来的(这里秩是8,原始维度是768)原始的参数量是768*768,现在是768*8768*8,参数量不是一个级别,而且现在的大模型基本是4000左右的维度,这个影响还是相当大的 (LoRA微调本质就是两个低秩矩阵替代一个高维矩阵)A模块的初始化方式是正态分布初始化,B模块使用的是全零初始化,这样初始化的原因是为了匹配原始维度,第二个方面是加快收敛.2.4LoRA微调的优点只训练极少参数相对全量微调的存储和训练成本低。效果接近全参数微调且保留原模型能力。不同任务的 LoRA 模块可插拔便于多任务部署(训练低秩矩阵模块,可以在不同的任务场景下放入训练好的低秩模块)。2.5LoRA微调的缺点LoRA微调的本质是更新权重矩阵,这些参数表达能力有限,在复杂任务上可能无法拟合LoRA通常加载线性层上,不同任务可能对位置比较敏感,选择不好可能会影响性能.三.QLoRALoRA在训练巨语言模型下达不到好的效果,QLoRA优化了LORA的缺陷.3.1原理通过对预训练语言模型PLM进行量化通常是4-bitNormalFloat并结合LoRA技术进行微调从而在极低的内存消耗下仍然能够高效地微调巨型语言模型同时保持甚至超越全量16-bit LoRA的性能。传统的量化可能会导致精度丢失,QLoRA使用的是NF4量化方式,通过正态分布的设计,保留模型的精度.同时支持可以把显存保存到cpu内存中降低显存消耗.3.2优点极低的内存消耗。这是QLoRA 最显著的优势。可以将训练巨型模型的内存需求降低 3-4倍使得在单张消费级 GPU 上(如 24GB VRAM 的 RTX 3090/4090 微调 65B 甚至 70B参数的模型成为可能。性能优异尽管进行了 4-bit 量化但由于 16-bit 的 LoRA 权重和优化器状态QLoRA 在许多任务上能够保持与 16-bit LoRA 甚至全量微调相媲美的生能。训练速度快由于只训练少量参数且内存效率高训练速度非常快。3.3缺点虽然NF4优化了精度但极端任务或敏感任务可能仍受4-bit量化影响。由于量化和分页机制的存在训练和问题调试会比标准LoRA更复杂。