2026/4/7 12:54:44
网站建设
项目流程
网站免费推广计划,网站建设技术质量指标,wordpress自动采集文章,唐山哪里建卫星制造基地目的
为避免一学就会、一用就废#xff0c;这里做下笔记
说明
本文内容紧承前文-Transformer架构1-整体介绍和Transformer架构2-自注意力#xff0c;欲渐进#xff0c;请循序本文重点介绍Transformer架构中的嵌入和位置编码#xff0c;它们在编码器堆栈和解码器堆栈中都…目的为避免一学就会、一用就废这里做下笔记说明本文内容紧承前文-Transformer架构1-整体介绍和Transformer架构2-自注意力欲渐进请循序本文重点介绍Transformer架构中的嵌入和位置编码它们在编码器堆栈和解码器堆栈中都有用到一、嵌入-Embedding与Transformer架构1-整体介绍中讲的一样这里的Embedding实际上是三个动作分词Tokenize将“我爱中国的山川湖海”拆分成[“我”,“爱”,“中国”,“的”,“山”,“川”,“湖”,“海”]编码Encoding将分词后的每个词对照词表(类似机器能理解的新华字典)一个个翻译成机器能处理的数字编码如1代表中文的“我”71代表中文的“爱”编码后形成[1,71,102,99,210,211,212,213]这样的序列嵌入Embedding嵌入是为了将数据向量化。向量化本质是通过嵌入模型用高维向量如1024维充分表征每个词的语义如“我”的多重含义、“我”的词性是名词、“我”一般用作主语或宾语等且语义相似的两个向量余弦距离也更近。编码后的序列经向量化后是一个二维矩阵矩阵1024列代表嵌入模型的维度矩阵8行代表token的个数为什么嵌入后的向量能充分表征原始token能理解深层语义数据科学家负责给出理论解释工程师则从实践结果验证猜想这里不深究不同类型的嵌入比较嵌入类型特点优点缺点典型应用词嵌入为每个词学习固定向量简单高效捕获词汇语义无法处理一词多义OOV问题超出词表范围Word2Vec, GloVe, 文本分类子词嵌入基于子词BPE/WordPiece单位解决OOV捕获形态学共享表示序列变长需分词器BERT, GPT系列机器翻译字符嵌入基于字符级别的最小单位完全无OOV完美形态学处理序列很长训练困难语义稀疏Char-CNN, ByT5, 形态丰富语言段落嵌入为文档/段落学习整体表示文档级语义理解信息聚合丢失细节信息粒度较粗Doc2Vec, 文档检索段落分类实体嵌入为知识图谱实体学习表示融合结构化知识关系编码需要外部知识库数据依赖知识图谱补全推荐系统多模态嵌入跨模态统一表示空间模态对齐跨模态检索/生成对齐难度大数据要求高CLIP, DALL-E, 视觉问答上下文嵌入动态生成依赖上下文环境处理一词多义深度语境理解计算量大需完整前向传播BERT, ELMo, 所有预训练模型稀疏嵌入高维稀疏表示如哈希嵌入内存效率高快速检索精度较低哈希冲突问题大规模推荐系统广告召回图嵌入为图节点学习向量表示捕获结构信息关系感知依赖于图质量动态图难处理Node2Vec, GNN, 社交网络分析注现代大模型主要采用上下文嵌入如Transformer架构和子词嵌入BPE/WordPiece因其在语义表示和泛化能力上的综合优势。二、位置编码-Position Encoding为什么需要位置编码嵌入后的每个向量只有单个词的信息。而语言的信息不仅存在于每个词中还存在每个词出现的顺序/位置中。后续的自注意力本身是排列等变的输入序列重排时输出也相应重排缺乏位置信息。因此位置编码用来填补这个空白它为嵌入后的数据注入位置信息使Transformer能够处理自然语言中的顺序依赖关系什么是位置编码对比理解嵌入是一种编码手段它将人类理解的语句转换成浮点数矩阵一组向量,该矩阵包含了原始语句的每个词的语义信息位置编码也是类似的编码手段它将人类理解的语句的位置信息转换成相同大小的浮点数矩阵该矩阵包含了原始语句中每个词的顺序信息。因此嵌入后的矩阵位置编码后的矩阵包含原始语句完整语义的矩阵不同类型的位置编码比较编码类型特点优点缺点典型应用正弦余弦预定义三角函数无需训练无限外推能力参数效率高相对位置编码灵活性差无法自适应数据原始TransformerViT可学习嵌入每个位置学习一个向量自适应数据灵活性高长度固定无外推能力增加参数量BERTRoBERTaGPT-2相对位置编码相对距离而非绝对位置更好的泛化适合长序列实现复杂需要训练偏置参数T5DeBERTaTransformer-XL旋转编码通过旋转操作融入位置信息保持相对位置特性优秀外推数学复杂计算量稍大LLaMAPaLMChatGLM线性偏置在注意力分数加线性衰减偏置极简设计强大外推能力表达能力受限过于简单BLOOMALiBi系列层次编码多粒度位置编码适合文档级任务层次感知实现复杂多组参数LongformerBigBird注现代大模型多采用相对位置或旋转位置编码因其在长序列处理和外推能力上的优势。为什么位置编码和嵌入后的矩阵相加后transformer能同时理解到位置和语义信息这可以分解为两个问题1、为什么矩阵合并后信息没有丢失2、为什么用加法1、为什么矩阵合并后信息没有丢失**矩阵合并后原始语义信息和位置信息都溶解在合并后的矩阵里无法反向提取出来好像反而会导致信息的丢失其实不然。以位置信息为例Transformer能理解位置信息不是因为能从加法和中反向取出位置编码而是因为位置信息已溶解在所有后续计算中特别是注意力机制中位置的影响会自然显现位置编码的特定设计使其在注意力计算中产生可识别的模式模型通过训练学会了识别这些模式而不是反向提取2、为什么用加法加法被选择不是因为它是理论上最优的而是因为它是实践中最佳的平衡点计算效率O(d)复杂度最简单快速梯度友好不会导致梯度消失/爆炸信息保存基本保持语义信息的完整性足够表达结合注意力机制能学习复杂模式实验验证在各种任务上表现优异