2026/2/18 5:55:37
网站建设
项目流程
卖书网站开发的背景,手机wap网站特效,广州网站建设是什么意思,盐城seo网站优化软件Dual Chunk Attention (DCA)是一种无需微调即可提升大模型长序列处理能力的技术。它将长序列划分为多个小于预训练窗口的chunks#xff0c;包含三种注意力机制#xff1a;Intra-Chunk处理同一chunk内token#xff0c;Inter-Chunk处理不同chunk间token#xff0c;Successive…Dual Chunk Attention (DCA)是一种无需微调即可提升大模型长序列处理能力的技术。它将长序列划分为多个小于预训练窗口的chunks包含三种注意力机制Intra-Chunk处理同一chunk内tokenInter-Chunk处理不同chunk间tokenSuccessive-Chunk保留相邻chunks的局部相关性。DCA可从4K外推至32K在zero-shot任务上媲美微调模型且与FlashAttention无缝集成。Introduction提出 Dual Chunk Attention (DCA)无需微调或继续训练即可外推实现与微调模型相媲美的长序列表现且与 FlashAttention 无缝集成已开源代码。图 1Dual Chunk Attention 机制运行实例DCA 将长序列的 attention 计算划分为多个小的 chunks每个 chunk 的长度均小于预训练窗口的大小。DCA 包含三部分Intra-Chunk Attention处理同一 chunk 内的 tokenschunk 尺寸需小于预训练长度chunk 内的 query / key正常计算 attention scoreInter-Chunk Attention处理不同 chunk 内的 token不相邻的 chunk 之间的 query / key相对距离视作常数Successive-Chunk Attention处理相邻 chunks 之间的 tokens保留局部相关性相邻的 chunk保留一定的相对位置变化DCA 具有如下特性强大的外推能力无需训练即可从 4K 外推至 32K且 PPL 的上升可忽略不计正交性可与现有主流外推 / 插值方法共同使用零样本迁移在 zero-shot / few-shot 相关 benchmark 上可与微调模型相媲美甚至更佳Methods对于长度为 的序列我们将其划分为 个 chunk确保每个 chunk 内的位置索引不超过 chunk 大小 。Intra-Chunk AttentionIntra-Chunk Attention 用于计算同一个 chunk 内的 query 和 keys 之间的内积。position index如图 1 中 a 所示输入序列长度为 预训练长度为 10分割为 2 个 chunk。然后key 和 query 的 position idx 在 chunk 大小 内进行缩放。具体而言key 的 position index 为更形式化的在 Intra-Chunk Attention 中query 和 key 的 position index 为attention score对同一 chunk 内的绝对位置索引 和 和 之间的位置编码之差 为对应的 attention score 计算方式如下Inter-Chunk AttentionInter-Chunk Attention 用于聚合不同 chunk 之间的信息。此时为了反映信息流方向当 时期望 。此时不能再使用 例如 和 之间的相对距离为 。因此key 的位置索引可以以 界进行重复但 query 的位置索引需要重新设置。为确保 query 的位置索引大于所有先前 chunk 的 key 的位置索引一种简单的策略是为其分配一个相当大的位置索引例如设置为预训练期间的最大位置索引 其中 为预训练上下文长度对应的相对位置矩阵为如图 1 b 所示为所有位置分配一个常数 的 其大于 中最大位置索引 我们通过 Intra-Chunk Attention 填补矩阵 中其余空白的部分。Successive-Chunk AttentionSuccessive-Chunk Attention 可被视为 inter-chunk attention 的一种特殊 case其旨在维护 LLMs 的局部性即下一个 token 的预测严重依赖相邻 tokens。到此还有另一个问题 即无法拟合局部相关性因此我们引入 successive-chunk attention 来处理这种情况。具体来说调整 中的前个位置索引如图 1 c 所示。给定预训练长度、chunk 尺寸且时若保持局部窗口则 Successive-Chunk Attention 的位置索引 为更形式化的给定 chunk 尺寸 、预训练大小 、局部窗口 有其中表示局部窗口大小可直接设置为预训练长度与 chunk 尺寸之差结合 Intra-Chunk、Inter-Chunk、Successive-Chunk最终计算 为对应的 attention score 计算方式为NormalizationSoftmax layer在 query 与 key 计算内积之后通过 softmax 进行归一化其中 表示 hidden states 的维度。Flash Attention将 DCA 与 FlashAttention 结合的 Pytorch 风格的伪代码如下所示借助 FlashAttentionDCA 在 GPU 内存用量、推理速度上达到了与原生 self-attention 相当的水平Inference time GPU memory UsageExperiments详见原论文。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】