2026/3/29 10:13:04
网站建设
项目流程
自己的商标名称可以做网站名称吗,郑州加盟网站建设,衡阳市住建局官方网站,网站 购买引言#xff1a;RAG的困境
在2025年#xff0c;RAG#xff08;检索增强生成#xff09;已经成为大模型应用的标配技术。
从视频理解到文档问答#xff0c;从知识库检索到Agent系统#xff0c;RAG无处不在。
但当我们把RAG用在真正复杂的长文本场景时#xff0c;会发现…引言RAG的困境在2025年RAG检索增强生成已经成为大模型应用的标配技术。从视频理解到文档问答从知识库检索到Agent系统RAG无处不在。但当我们把RAG用在真正复杂的长文本场景时会发现一个致命问题传统RAG就像一个没有全局观的盲人摸象。想象这样一个场景你正在读一本侦探小说刚读到第15章凶手即将揭晓。传统RAG系统会做什么它会根据你的问题凶手是谁在整本书里检索相关片段——可能找到第3章的一个细节第8章的一句对话第12章的一个线索。然后把这些碎片拼凑起来试图给你答案。但它缺少了什么它缺少了人类读者头脑中的那个「全局理解」——这本书是侦探小说、主角是谁、故事发生在哪个时代、有哪些关键人物……这就是Mindscape心理图景的概念。人类在阅读长文本时会自然地在大脑中构建一个全局的语义地图用它来理解新信息在整体中的位置判断哪些细节值得关注将分散的证据整合成连贯的理解而传统RAG系统完全没有这种能力。MiA-RAG给RAG装上「全局视野」12月19日来自中国科学院信息工程研究所、腾讯微信AI、香港科技大学等机构的研究团队在arXiv上发表了论文《Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding》。论文提出的MiA-RAGMindscape-Aware RAG是第一个为RAG系统配备显式全局上下文感知能力的方法。核心思想非常简洁优雅通过层次化摘要构建文档的心理图景然后让检索器和生成器都基于这个全局语义表示来工作。什么是心理图景Mindscape这个概念来自认知心理学特别是图式理论Schema Theory和模糊痕迹理论Fuzzy-Trace Theory。简单来说当人类遇到熟悉的话题时大脑会激活相关的全局记忆——这个记忆不是具体的细节而是一个抽象的语义框架。比如你看到二战这个词大脑会立刻激活关于二战的整体认知时间、主要国家、关键事件、历史意义……这个全局框架会帮助你在正确的上下文中理解新信息有选择性地检索相关知识引导后续的推理过程MiA-RAG就是把这个机制引入到RAG系统中。技术解析MiA-RAG如何工作MiA-RAG由两个核心组件构成1. MiA-Emb心理图景感知的检索器传统的Embedding模型只看查询本身Query: 凶手是谁 → Embedding → 检索MiA-Emb会同时看查询和全局摘要Query: 凶手是谁 Global Summary: 这是一部发生在1920年代的侦探小说主角是私家侦探… → MiA-Emb → 增强的Query Embedding → 精准检索这样做有两大好处① 填补理解空白通过全局信息补充查询中缺失的上下文② 选择性检索将检索偏向当前主题的语义框架避免被无关信息干扰2. MiA-Gen心理图景感知的生成器传统Generator只看检索到的片段Retrieved Chunks Query → Generator → AnswerMiA-Gen会将检索片段放在全局上下文中理解Retrieved Chunks Query Global Summary → MiA-Gen → 更连贯的Answer这让生成器能进行整合性推理——将检索到的证据放在更广阔的语义框架中进行解释。3. 层次化摘要如何构建Mindscape那么这个全局摘要是怎么来的MiA-RAG采用了自底向上的层次化摘要方法第一步将文档切分成多个chunk片段第二步使用GPT-4o对每个chunk生成摘要第三步将所有chunk摘要拼接起来再生成一个总摘要第四步这个总摘要就是文档的Mindscape这个过程类似于人类阅读先理解每个段落再形成对整篇文章的总体印象。关键是这个Mindscape不是简单的内容概括而是抽取文档的核心主题和语义结构保留关键信息的层次关系为后续检索和推理提供语义锚点这个层次化的设计让Mindscape既能提供高层次的语义指导又能保留足够的细节信息供检索使用。实验结果小模型也能打败大模型MiA-RAG在5个长文本基准测试上进行了评估NarrativeQA叙事理解∞Bench无限长度基准DetectiveQA-ZH/EN中英文侦探推理Nocha噪声对抗测试结果令人震撼性能提升显著✅MiA-RAG-14B在平均排名上击败了Vanilla 72B系统✅相比14B基线模型绝对性能提升16.18%✅相比72B基线模型仍有8.63%的提升这意味着什么一个14B的小模型加上Mindscape-Aware机制就能超越5倍大小的模型图2MiA-Gen vs Vanilla生成器的规模效应对比——小模型全局感知 大模型单打独斗检索器表现MiA-Emb在所有基准上持续优于包括SOTA的Sit-Emb在内的所有基线模型。更惊人的是MiA-Emb-0.6B仅600M参数就已经超过了Vanilla 8B模型这说明全局语义感知的价值远远超过单纯增加模型规模。![外链图片转存失败,源站可能有防盗链机制图3不同规模检索器的平均性能对比——MiA-Emb在各个规模上都显著优于基线图4检索器规模对RecallK的影响——即使是0.6B的MiA-Emb也能超越8B的SFT基线图5MiA-Gen在多个数据集上的详细表现——在不同规模和不同任务上都保持一致的优势鲁棒性强即使在摘要质量不完美的情况下MiA-RAG依然保持稳定的性能提升。实验表明性能提升来自真正的全局语义整合而不是简单的模型规模扩大。深入机制分析为什么Mindscape有效论文还进行了详细的可解释性分析揭示了Mindscape机制的工作原理几何视角语义子空间对齐图6MiA-Emb vs 传统Embedding的投影角度对比——更小的角度意味着查询更好地对齐到文档的语义子空间从几何角度看Mindscape帮助查询向量更好地对齐到文档的语义子空间。更小的投影角度意味着检索器能够更精准地定位相关内容。注意力机制层级化信息整合图7层级化的检索准确度和注意力分配比例——越深层的网络层越依赖全局摘要信息图8MiA-Emb的注意力模式——最后一个token查询高度关注摘要中的关键词汇红色区域分析表明MiA-Emb通过注意力机制将全局摘要信息逐层整合到查询表示中。越深的网络层越依赖Mindscape提供的全局语义信息。生成器的证据整合能力图9层级化的Mindscape-Coherent Evidence Alignment (MCEA)分数——MiA-Gen能更好地将检索证据与全局上下文对齐MiA-Gen展示出更强的Mindscape一致性证据对齐能力能够在全局语义框架的指导下更连贯地整合分散的检索片段。行业洞察RAG的范式转变MiA-RAG的出现反映了RAG技术演进的一个重要趋势。从被动检索到主动理解正如Claude团队的Erik Schluntz最近指出的传统RAG的致命问题是如果检索阶段做错了模型几乎没有补救空间。你给它垃圾数据它就只能基于垃圾数据生成答案。而Agent式的RAG以及MiA-RAG这样的全局感知系统代表了一种新范式不再是先检索再生成的单向流程而是让系统具备对信息的主动理解和判断能力。长视频理解的启示小红书上多位研究者分享的案例也印证了这个趋势OneClip-RAG用视频片段代替关键帧实现更连贯的语义检索Video-RAG结合OCR、ASR、DET三种辅助文本构建全方位视觉对齐的上下文AdaVideoRAG根据查询复杂度动态选择检索策略结合知识图谱这些工作都指向同一个方向RAG需要从检索相关内容进化到理解全局上下文。检索增强的知识边界最近AAAI 2026录用的一篇论文提出了一个深刻的问题“检索增强大模型知道自己不知道吗”研究发现当模型具备相关知识而外部检索结果错误时模型容易过度拒绝——即使自己知道答案也不敢说。这说明光有检索增强还不够系统需要意识到自己的知识边界判断检索内容的可靠性在内部知识和外部检索之间做出平衡MiA-RAG的全局感知机制恰恰提供了这种自我认知的基础。未来展望RAG的下一步MiA-RAG开启了一个新方向但仍有许多值得探索的空间1. 动态Mindscape更新当前的Mindscape是静态的——为每个文档生成一次就固定了。未来能否让Mindscape随着对话进行动态演化就像人类阅读时不断修正和深化对文本的理解一样。2. 多模态Mindscape论文主要聚焦文本场景。但正如Video-RAG系列工作所示视频、图像等多模态内容同样需要全局语义感知。如何构建跨模态的Mindscape3. 个性化的Mindscape不同用户对同一文档的全局理解可能不同。专业研究者和普通读者看同一篇论文关注的重点完全不一样。能否根据用户背景和意图构建个性化的Mindscape4. Mindscape的可解释性当前的Mindscape是一个摘要文本。能否将其可视化为知识图谱或思维导图让用户直观地看到系统的全局理解甚至可以手动调整和纠正结语MiA-RAG的核心贡献不仅是一个新方法更是一个新视角。它提醒我们AI系统要真正理解复杂的长文本不能只盯着局部细节还需要像人类一样构建全局的语义图景。从Agent能从错误中恢复到RAG系统需要全局上下文感知再到模型需要知道自己的知识边界——这些看似不同的研究方向都在讲同一个故事AI正在从被动执行指令走向主动理解世界。而Mindscape这个来自认知心理学的概念也许会成为下一代RAG系统的标配能力。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】