河北建设厅查询网站企业官网登录
2026/4/6 3:28:22 网站建设 项目流程
河北建设厅查询网站,企业官网登录,怎样学网站开发,爱站攻略文章目录一、2025年年度总结一、2025年年度总结 很难相信一年就这么过去了#xff0c;很快又过得很充实#xff0c;从年初deepseek火了一波后大家都进行复现#xff0c;很多人利用GRPO训练think推理模型复现ds#xff0c;再到后来年中各种RL算法遍地开花#xff0c;比如D…文章目录一、2025年年度总结一、2025年年度总结很难相信一年就这么过去了很快又过得很充实从年初deepseek火了一波后大家都进行复现很多人利用GRPO训练think推理模型复现ds再到后来年中各种RL算法遍地开花比如DAPO、GSPO等同时多模态大模型也发展很快去年效果一般的视频生成模型在今年效果已经非常惊艳了同时也有像阿里全模态qwen-omni这样的“全能”还是偏多模态理解的模型出现给我们看到未来的无限可能。因为博客之星活动强行逼自己总结一下今年的创作和学习历程大体可以分为以下几个模块agent、RL强化学习、多模态大模型、大模型加速推理、推理大模型。有的是工作中需要跟进的方向有的是自己喜欢的方向下面对今年产出的博客进行归档分类简单总结一、agentdeepresearch深度研究智能体各大LLMagentic RLagent范式及其实践agent评测综述【Agent】Evaluation and Benchmarking of LLM Agents: A Survey智能体agent入门笔记【Agent】智能体在循环中自主调用工具的LLMagent实践【Agent】自动化深度研究智能体搭建agent协作模式【LLM-Agent】七种agent协作模式deepresearch优化【Agent】通义DeepResearch之通过CPT Scaling Agents多模态agent框架【MLLM】具有长期记忆的多模态智能体框架M3-Agent多模态agent模型【MLLM】语音端到端大模型和Voice Agent发展MCP的应用【Agent】MCP协议使用 | 用高德MCP Server制作旅游攻略二、RLdpodpo变体grpodapogspoRL综述deepseek论文笔记【LLM】Deepseek R1模型之多阶段训练解析ds训练流程【LLM】DeepSeek R1训练成本降低分析篇RL的配方小模型进行RL【RL】Scaling RL Compute for LLMs | JustRL 1.5b信息熵理解RL【LLM-RL】以信息熵的角度理解RL经典RL算法对比【LLM-RL】GRPO-DAPO-GSPO训练区别RLVR的可行性【RL】Does RLVR enable LLMs to self-improve监督强化学习SRL框架【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning利用ms-swift框架训练GRPO【LLM】基于ms-Swift大模型SFT和RL的训练实践RLVR中奖励函数设计【RLVR】GRPO中奖励函数的设计逻辑大模型学习材料【LLM】SmolLM3模型训练手册DPO变体算法【RL】KTO: Model Alignment as Prospect Theoretic Optimization三、多模态qwen omni端到端语音大模型ovis2.5图生文模型视频生成年中总结【MLLM】2025年多模态技术发展Better、Faster、Stronger全模态大模型汇总【MLLM】全模态Omninvidia/美团/蚂蚁qwen omni解析【MLLM】Qwen-Omni系列全模态模型架构和训练视频生成【LLM-video】HunyuanVideo-1.5视频生成模型图生文理解模型【MLLM】多模态理解Ovis2.5模型和训练流程更新中理解和生成统一【MLLM】字节BAGEL多模态理解和生成统一模型GLM系列【MLLM】多模态理解GLM-4.1V-Thinking模型四、推理加速投机解码推理优化综述sglang框架应用量化投机解码【LLM】大模型投机采样Speculative Sampling推理加速量化【LLM】大模型量化方法权重激活值量化| 压测推理框架【LLM推理】Sglang推理框架使用入门框架总结【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架五、推理大模型/模型结构创新deepseekkimi等ds考古模型【LLM】DeepSeekMath-V2模型kimi 1.5【LLM】kimi 1.5模型架构和训练流程kimi-k2模型【LLM】Kimi-K2模型架构MuonClip 优化器等MOE解析【LLM】MOE混合专家大模型综述重要模块原理GLM4.5模型【LLM】GLM-4.5模型架构和原理混合注意力机制、高稀疏度 MoE结构【LLM】具有训练推理性价比的Qwen3-Next模型期待大家对个人学习笔记提出建议和分享自己的算法见解非常感激2026年会更好

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询