2026/1/27 19:20:52
网站建设
项目流程
做网站的优化价格,知名做网站价格,专门做正品的网站,网站论坛源码EasyEdit2——即插即用的LLM行为控制#xff08;Steering#xff09;框架#xff1a;
1、支持广泛的测试时干预#xff0c;包括安全性、情绪、个性、推理模式、事实性和语言特征。
2、关键模块#xff1a;转向向量生成器和转向向量应用器。
论文发表于EMNLP 2025 System D…EasyEdit2——即插即用的LLM行为控制Steering框架1、支持广泛的测试时干预包括安全性、情绪、个性、推理模式、事实性和语言特征。2、关键模块转向向量生成器和转向向量应用器。论文发表于EMNLP 2025 System DemonstrationsArxiv链接https://arxiv.org/abs/2504.15133v3。干预场景如图2所示。安全性防止模型生成有害内容如破解行为、减少偏见、拒绝不安全的查询、确保遵守法规并减少隐私泄露的风险。情感控制模型输出的情感色彩将情感从负面调整为正面特别是在心理健康等领域中保持支持性的语气。个性探索不同个性如何影响模型行为增强角色扮演的能力并塑造模型所表现的内在价值观。推理模式调整推理的长度和风格鼓励更加深思熟虑的思考并根据不同领域的需求强制执行结构化的推理模式。事实性干预模型的事实知识处理幻觉现象支持知识编辑并提高模型的自我验证能力。语言特征控制输出语言的使用包括格式、句法结构、风格变化以及对单词层次的调整。框架结构如图3所示。转向向量生成器BaseVectorGenerator可调用各种干预方法在数据集上迭代生成转向向量。生成的向量可直接应用或保存本地。转向向量应用模块BaseVectorApplier可同时用多种方法将转向向量集成到目标模型如基于提示、基于激活和基于解码等。模型包装器保留并集成多个转向向量以及用户提示简化转向增强模型行为控制。转向干预后提供了两种操作模式返回修改后的模型以供立即、低代码使用根据配置设置、评估数据集生成评估文件。对于评估我们提供了Evaluators模块该模块集成了基于规则、基于分类器和基于LLM的方法以支持不同的场景。基于LLM的方法进一步实现了自适应和用户定义的场景评估。所有模块都利用Hparams模块进行灵活一致的配置。转向向量库与合并导向矢量库维护了一个针对各种场景优化的转向向量库包括情绪控制、安全对齐等。用户能直接应用。转向向量合并模块可组合多个转向向量结合多种合并策略包括Linear、TIES和DARE-TIES。两层超参管理一层管理通用设置、向量生成、向量应用和评估参数的统一配置文件整个框架使用此配置运行。二层转向方法的超参文件包含转向向量生成和应用两个配置。继承自公共基类HyperParams。数据集模块DatasetLoader统一评估数据集格式根据配置加载和预处理数据。评估器模块基于配置在各种数据集上评估干预后模型的生成质量。评估方法分为基于规则、基于分类器和基于LLM。支持利用强LLM如GPT-4处理复杂的转向概念用户指定要评估的转向概念并使用预设模板对输入进行格式化。然后计算评估指标概念相关性、教学相关性和流畅性得分等。实验表16个评估场景样例。表2各干预、融合方法在安全、和情感任务上的性能对比。发现同时控制安全和情感的融合向量有更好的表现。重要对比方法单干预方法CAA、STA、LM-Steer、Prompt-auto干预融合方法TIES、DARE-TIES