2025/12/30 16:18:49
网站建设
项目流程
微信开发流程四步,福建seo顾问,年轻人免费在线看视频,商业网点消防规范Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
大型视觉语言模型#xff08;LVLMs#xff09;取得了长足的进步#xff0c;将视觉识别和语言理解交织在一起#xff0c;生成的内容不仅连贯而且与语境相契合。尽管…Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding大型视觉语言模型LVLMs取得了长足的进步将视觉识别和语言理解交织在一起生成的内容不仅连贯而且与语境相契合。尽管取得了成功LVLMs仍然受困于物体幻觉问题即模型生成看似合理实则不正确的输出其中包含图像中不存在的物体。为了缓解这一问题本文引入了视觉对比解码VCD这是一种简单且训练无关的方法通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入从而产生上下文准确的输出。本文的实验表明VCD 无需额外训练或使用外部工具在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外VCD 在通用 LVLM 基准测试中也表现出色凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。1. 引言大型视觉语言模型LVLMs已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分得益于其能够从视觉输入生成语境相关的文本描述的能力这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。