深圳网站建设制作培训规划怎样做网站
2026/2/16 23:37:35 网站建设 项目流程
深圳网站建设制作培训,规划怎样做网站,我要浏览国外网站怎么做,个人怎样申请网站2025年大模型领域以推理模型、RLVR与GRPO技术为主导#xff0c;GRPO成为研究热点。架构上Transformer仍是主流#xff0c;但效率优化增多。推理扩展和工具调用成为提升性能的重要手段#xff0c;刷榜现象凸显benchmark评估的局限性。AI在编程、写作和研究领域展…2025年大模型领域以推理模型、RLVR与GRPO技术为主导GRPO成为研究热点。架构上Transformer仍是主流但效率优化增多。推理扩展和工具调用成为提升性能的重要手段刷榜现象凸显benchmark评估的局限性。AI在编程、写作和研究领域展现强大能力私有数据成为竞争优势。未来发展方向包括RLVR扩展、工业级扩散模型和更好的长上下文处理技术。测试集发布之后它就无效了首先感谢 minghao 老司机阅篇无数精准推荐本文基于老司机推荐的年终盘点《The State Of LLMs 2025: Progress, Problems, and Predictions》https://magazine.sebastianraschka.com/p/state-of-llms-2025这篇文章的原始作者叫 Raschka长期在 Substack 输出技术内容。他的书被翻译成9种语言被多所大学用作教材以下这些是他对 2025 年大模型领域的观察和判断在这里我做了一些重写删改推理模型、RLVR 与 GRPO 之年2025 年 1 月DeepSeek R1 发布带来两个简单但重要的发现• 模型先说思路再给答案准确率更高• 这种习惯可以用强化学习养成短回答 vs. 包含中间推理步骤的长回答DeepSeek 时刻R1 引发关注原因有三其一R1 以开源权重发布性能与当时最好的闭源模型相当其二R1 论文让投资者和媒体重新审视 2024 年 12 月的 DeepSeek V3 论文结论被修正训练顶级模型的成本可能接近$500万而非$5000万或$5亿DeepSeek V3 论文中的训练成本估算R1 的补充材料显示在 V3 基础上训练 R1只需额外$29.4万R1 训练成本估算当然$500万只算了最终跑模型的算力不包括研究人员薪资和实验成本其三论文同时提出了 RLVR GRPO 这套新方法此前不管是 SFT 还是 RLHF都绑定在人工标注上成本高、规模有限RLVR 换了个思路如果答案本身可以被验证就不需要人来判断对错数学和代码是最典型的场景但这个逻辑可以延伸强化学习应用时机概览可验证奖励的简单示例今年大模型开发基本被 RLVR 和 GRPO 主导。几乎每个主要玩家都在 R1 之后发布了推理版本的模型大模型发展重心演变如果要简洁总结每年大模型开发的重点•2022RLHF PPO•2023LoRA SFT•2024中期训练•2025RLVR GRPO历年大模型开发的重点领域这是累积的那么下一步是什么Raschka 认为 2026 年会看到更多 RLVR 相关的工作。目前 RLVR 主要用在数学和代码上下一步是扩展到其他领域另一个方向是「解释评分」不光看最终答案对不对还要评判中间推理过程。这在过去叫「过程奖励模型」PRM但目前还不太成功Raschka 对 2026、2027 的预判•2026RLVR 扩展 更多推理时扩展•2027持续学习推理时扩展的意思是训练完之后在生成答案时花更多时间和算力这是一个权衡延迟、成本、准确率之间的取舍。但在某些场景准确率比延迟更重要极端的推理扩展完全值得比如 DeepSeekMath-V2 在数学竞赛基准上达到了金牌级表现两种推理时扩展方法的结合自一致性和自优化持续学习是指在新数据上训练模型不从头来。挑战是灾难性遗忘学新东西会忘旧东西。今年同行讨论很多但还没有实质性突破GRPO年度研究宠儿在大模型昂贵的时代学术研究不太好做。但仍能做出重要发现近年典型例子LoRA2021用于参数高效微调DPO 用于无奖励模型对齐基于代码的 LoRA 教程基于代码的 DPO 教程今年的亮点是 GRPO。虽然出自 DeepSeek R1 论文但对研究者来说仍是激动人心的一年RLVR 和 GRPO 概念上有趣实验成本也还能接受今年大模型文献中出现了很多 GRPO 的改进后来被纳入顶级大模型的训练流程Olmo 3 采用的改进零梯度信号过滤、主动采样、Token 级别损失、无 KL 损失、更高的裁剪阈值、截断重要性采样、无标准差归一化DeepSeek V3.2 采用的改进领域特定 KL 强度的 KL 调优数学为零、重新加权的 KL、离策略序列掩码、保持 top-p / top-k 的采样掩码、保持原始 GRPO 优势归一化Raschka 确认这些修改在实践中影响巨大。采用后坏的更新不再破坏训练不再需要定期重载检查点从零开始 GRPO 训练代码的部分结果大模型架构分叉口顶级模型仍然用经典的 Decoder 风格 Transformer但今年开源大模型基本趋同于MoE混合专家层 至少一种效率优化的注意力机制GQA、滑动窗口注意力或 MLA更激进的效率优化也出现了目标是让注意力机制的复杂度随序列长度线性增长。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets以及 NVIDIA Nemotron 3 中的 Mamba-2 层大模型架构大比较Raschka 的预测至少在顶级性能方面未来几年仍会继续用 Transformer但效率和工程优化会越来越多如 Gated DeltaNet 和 Mamba 层。在大模型的规模下从财务角度看这是必然替代方案也有。比如文本扩散模型目前属于实验性。但 Google 宣布将发布 Gemini Diffusion 模型不追求顶级建模质量但会非常快适合低延迟场景两周前开源的 LLaDA 2.0 发布最大的1000亿参数版本是迄今最大的文本扩散模型与 Qwen3 30B 持平推理扩展和工具调用之年通过扩展训练数据和架构来改进大模型是一个持续有效的公式但今年这不再是唯一有效的方法GPT 4.52025 年 2 月就是例子。传言它比 GPT 4 大得多但单纯扩展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好但增加的训练预算被认为「性价比不高」相反更好的训练流程更多关注中期和后训练以及推理扩展驱动了今年的大部分进展另一个主要改进来自工具调用幻觉是大模型最大的问题之一。幻觉率在持续改善Raschka 认为这很大程度上归功于工具调用比如被问到 1998 年世界杯谁赢了大模型可以用搜索引擎查从可靠网站抓取信息而不是靠记忆OpenAI 的 gpt-oss 是今年早些时候发布的专门为工具调用开发的开源模型之一gpt-oss 模型卡论文的表格遗憾的是开源生态还没完全跟上很多工具仍默认以非工具调用模式跑这些大模型一个原因是这是新范式工具需要适配。另一个原因是安全给大模型不受限制的工具调用权限可能出问题Raschka 认为未来几年本地跑大模型时启用工具调用会越来越普遍年度词汇刷榜如果要选一个描述今年大模型开发的词那就是「刷榜」benchmaxxing刷榜意味着强烈关注推高排行榜数字有时到了 benchmark 表现本身成为目标的程度典型例子是 Llama 4在很多 benchmark 上得分极高。但用户和开发者上手后发现这些分数并不反映实际能力如果测试集是公开的它就不是真正的测试集现在的问题是测试集数据不仅成为训练语料的一部分还经常在大模型开发过程中被直接优化2019 年 Do ImageNet Classifiers Generalize to ImageNet? 论文的注释图过去即使公开测试集上的分数被夸大至少模型排名还是保持的在大模型开发中这已经到了benchmark 数字不再是性能可靠指标的地步但 Raschka 认为 benchmark 仍是必要门槛如果一个大模型在某 benchmark 上得分低于 X就知道它不行。但如果得分高于 X这并不意味着它比另一个得分高于 X 的大模型好多少另一个问题是图像分类器只有一个任务。但大模型用于翻译、总结、写代码、头脑风暴、解数学题等等。评估起来复杂得多除了在实践中尝试和不断生成新 benchmark暂时没有解决方案AI 用于编程、写作和研究Raschka 把大模型视为给某些职业的人「超能力」的工具。用好的话可以显著提高生产力消除日常工作中的摩擦编程Raschka 仍然自己写大部分他关心的代码比如设置一个大模型训练脚本他会自己实现并仔细检查训练逻辑。这是为了确保它在做正确的事同时保持自己在这个任务上的专长但他现在用大模型来添加周围更琐碎的代码比如 argparse 样板使用提示词「给 training-script.py 所有超参数选项添加 argparse」他也越来越依赖大模型来发现问题、建议改进或检验想法大模型对核心专长以外的任务极其有价值。他最近写了工具来提取和备份 Substack 文章为 Markdown大模型还帮他清理了网站的 CSS诀窍是识别何时用、何时不用代码库大模型写代码越来越好了但 Raschka 不认为代码会变得短暂或过时大模型给人们超能力来生成某些编程项目。但纯大模型生成的代码库不能取代专家精心打造的代码库一个了解好的设计模式和权衡、研究过、见过、构建过很多平台的专家全栈 Web 开发者能够构建比一个随机人员提示大模型更好的平台精彩的是现在一个随机人员也能构建一个平台即使不是最好的但用大模型只能走这么远平台质量可能会停滞技术写作和研究Raschka 不认为大模型会让技术写作过时写一本好的技术书需要数千小时和对主题的深刻熟悉。核心工作仍然依赖人类的判断和专业知识大模型帮 Raschka 在之前的文章中发现并修复错误从读者角度用大模型学习一个话题对快速问题和入门级解释效果不错。但当你想建立更深层理解时这种方法很快变得混乱到那时不如跟随专家设计的结构化学习路径也许经验法则是• 如果这篇文章完全由人类生成它本可以进一步改进• 如果这篇文章可以仅通过提示大模型生成那它可能不够新颖和深入大模型与倦怠Raschka 认为有一个较少被讨论的缺点如果模型做所有事情而人类主要是监督工作可能开始感觉空洞有些人喜欢专注于管理系统和编排工作流。但对于喜欢亲自动手做事的人这种工作模式可能加速倦怠与一个难题搏斗最终看到它成功有一种特殊的满足感。当大模型一次搞定答案时没有同样的感觉也许一个类比是国际象棋国际象棋引擎几十年前就超过了人类棋手但人类玩的职业国际象棋仍然活跃且繁荣现代棋手用 AI 来探索不同想法、挑战直觉、以前所未有的深度分析错误这是思考 AI 在其他智力工作中如何使用的有用模型用得好AI 可以加速学习、扩展单个人能合理承担的范围。应该更多地把它当作伙伴而不是替代品但如果 AI 被用来完全外包思考和编程它有破坏动机和长期技能发展的风险大模型降低了入门门槛让程序员更有生产力优势私有数据大模型的通用编程、知识问答和写作能力在持续提升这很大程度上是因为扩展仍然带来正向投资回报但这在某个时候会开始停滞除非不断发明新的训练方法和架构大模型目前能解决很多通用任务和相对容易的问题。但要在某些行业深入扎根需要更多领域专业化大模型提供商很想获得高质量的领域专用数据。目前看来这将是一个挑战大多数被接洽的公司都拒绝了数据交易正是因为数据是专有的、是其业务差异化的核心把有价值的专有数据卖给 OpenAI 或 Anthropic可能有点短视有用的行业和数据类型示例目前大模型开发在规模上成本高昂且有挑战这就是为什么只有少数大公司开发顶级大模型但 Raschka 认为大模型开发正变得越来越商品化大模型开发者频繁在雇主之间轮换最终会被更大的金融机构、生物技术公司等有预算的企业雇用开发受益于其私有数据的内部大模型这些大模型甚至不需要完全从头训练许多顶级大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布可以被适配和进一步后训练2025 年的意外与 2026 年预测2025 年值得注意的意外几个推理模型已在主要数学竞赛中达到金牌水平OpenAI 的一个未命名模型、Gemini Deep Think、开源的 DeepSeekMath-V2。Raschka 不惊讶这发生但惊讶这在 2025 年就发生了而不是 2026 年Llama 4或整个 Llama 系列在开源社区几乎完全失宠Qwen 在流行度上超过了 LlamaMistral AI 在其最新旗舰 Mistral 3 模型中用了 DeepSeek V3 架构2025 年 12 月宣布除了 Qwen3 和 DeepSeek R1/V3.2开源顶级模型竞赛中出现了许多其他竞争者Kimi、GLM、MiniMax、Yi更便宜、高效的混合架构已成为领先实验室的更大优先级Qwen3-Next、Kimi Linear、Nemotron 3而不是由独立实验室开发OpenAI 发布了开源权重模型gpt-ossMCP 已成为 Agent 风格大模型系统中工具和数据访问的标准。Raschka 预期生态系统在 2025 年会保持更碎片化至少到 2026 年2026 年预测很可能会看到一个工业规模的、面向消费者的扩散模型用于廉价、可靠、低延迟的推理Gemini Diffusion 可能会先行开源社区会缓慢但稳定地采用本地工具调用和越来越多 Agent 能力的大模型RLVR 会更广泛地扩展到数学和代码以外的领域比如化学、生物等传统 RAG 会逐渐不再是文档查询的默认解决方案。开发者会更多依赖更好的长上下文处理尤其是随着更好的「小型」开源模型出现大量大模型 benchmark 和性能进展将来自改进的工具和推理时扩展而非训练或核心模型本身。看起来大模型在变得更好但这主要是因为周围应用在改进如果 2025 年有一个元教训那就是大模型的进展不是关于单一突破改进是通过多条独立路径在多个方面进行的架构调整、数据质量改进、推理训练、推理扩展、工具调用同时评估仍然困难benchmark 不完美对何时以及如何使用这些系统的良好判断仍然至关重要如何学习AI大模型 “最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。1.大模型入门学习思维导图要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。对于从来没有接触过AI大模型的同学我们帮你准备了详细的学习成长路线图学习规划。可以说是最科学最系统的学习路线大家跟着这个大的方向学习准没问题。全套教程文末领取哈2.AGI大模型配套视频很多朋友都不喜欢晦涩的文字我也为大家准备了视频教程每个章节都是当前板块的精华浓缩。3.大模型实际应用报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。全套教程文末领取哈4.大模型实战项目项目源码光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战项目来学习。全套教程文末领取哈5.大模型经典学习电子书随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。全套教程文末领取哈6.大模型面试题答案截至目前大模型已经超过200个在大模型纵横的时代不仅大模型技术越来越卷就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道我总结了大模型常考的面试题。全套教程文末领取哈为什么分享这些资料?只要你是真心想学AI大模型我这份资料就可以无偿分享给你学习我国在这方面的相关人才比较紧缺大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询