2026/4/15 12:55:37
网站建设
项目流程
上海哪家公司可以做网站,网络推广培训学校哪里好,wordpress页面访问权限,住房和城乡建设部网站执业资格注册中心元象XVERSE是国内领先的AI与3D技术服务公司#xff0c;致力于打造AI驱动的3D内容生产与消费一站式平台。
元象作为长期深耕开源生态的践行者#xff0c;已开源的模型有#xff1a; 国内最大参数Dense模型XVERSE-65B#xff08;2023年#xff09;#xff1b; 国内最大参…元象XVERSE是国内领先的AI与3D技术服务公司致力于打造AI驱动的3D内容生产与消费一站式平台。元象作为长期深耕开源生态的践行者已开源的模型有国内最大参数Dense模型XVERSE-65B2023年国内最大参数MoE模型XVERSE-MoE-A36B2024年世界最长上下文模型XVERSE-Long2024年等重量级通用底座大模型以及XVERSE-V多模态模型。刚刚元象正式开源基于混合专家架构的XVERSE-Ent系列专为泛娱乐而生的中英双语大模型。通过独创的MoE热启动技术与三阶段训练策略在大幅降低部署门槛的同时完美保留了通用能力更解决了泛娱乐场景中角色遗忘与剧情逻辑断层的行业痛点。泛娱乐场景需要懂戏的底座通用大模型在面对复杂的泛娱乐场景时往往显得力不从心。由于缺乏特定领域的深度浸润通用模型容易在长篇叙事中遗忘角色的基本设定或者在多轮对话中出现逻辑跳跃导致用户产生强烈的出戏感。解决这一问题的关键在于构建一个更懂戏的专用底座。元象此次开源的XVERSE-Ent系列正是为了填补这一空白而生。该系列模型依托元象在泛娱乐领域服务全球千万级用户的深厚经验针对游戏叙事、社交互动以及小说剧本创作等核心场景进行了深度适配。这种适配并非简单的微调而是从数据底层到模型架构的全方位重塑。在角色一致性方面XVERSE-Ent展现出了惊人的稳定性。它能够长期锁死虚拟角色的性格特征、记忆碎片以及独特的说话风格即使在漫长的对话或剧情推进中依然保持人设不倒。对于创作者和开发者而言这极大地降低了维护角色逻辑的成本。在剧情理解层面模型对复杂故事线的把握能力得到了显著增强。无论是草蛇灰线的伏笔埋设还是错综复杂的人物关系网XVERSE-Ent都能精准捕捉并生成逻辑严密的后续剧情。多元语境的适配能力也是该模型的一大亮点。针对古风、科幻、都市等截然不同的题材模型能够灵活切换表达风格调用相应的背景知识库。这种风格化的表达能力使得XVERSE-Ent能够无缝融入各种类型的泛娱乐产品中为用户提供沉浸式的体验。元象此次推出的XVERSE-Ent系列包含两个版本分别是中文的XVERSE-Ent-A4.2B和英文的XVERSE-Ent-A5.7B。这两款模型均采用了先进的混合专家模型MoE架构。以下是两款模型的基础参数信息这两款模型都具备了极高的部署性价比。单卡部署的超低门槛意味着中小开发者也能在有限的硬件资源下享受到企业级泛娱乐大模型的能力。这对于推动整个泛娱乐行业的AI创新应用具有重要的基础设施意义。稀疏激活架构重塑模型训练效率XVERSE-Ent系列模型的核心竞争力源自其采用的MoE热启动技术即Sparse Upcycling。这项技术打破了传统模型必须从零开始训练的桎梏。它允许开发者利用一个已经训练成熟的稠密模型Dense Model作为基础将其高效地转化为大规模的混合专家模型。这种转化过程极大地增加了模型的总参数量却不需要重新投入海量的计算资源进行从头训练。这是一种在继承中创新的策略既保留了原有模型的智慧结晶又赋予了它更强大的扩展能力。MoE热启动技术的实施主要包含两个关键步骤首先是前馈神经网络FFN的细粒度拆分。在传统的Transformer架构中FFN层通常是一个巨大的整体。元象的技术团队将这个庞大的FFN层拆解成了多个更小的子网络。每个子网络在MoE架构中被定义为一个独立的专家Expert。这种拆分并非随意的切割而是基于对模型推理效率的精密计算。通过细粒度拆分模型在推理阶段可以根据显存的约束灵活地复制或调用这些专家子网络。这种设计赋予了模型极高的硬件适配性使其能够运行在各种不同配置的服务器甚至端侧设备上。下图展示了FFN细粒度拆分在细粒度拆分模式下一个完整的FFN被转化为多个精细的专家单元。相对地如果不对FFN进行拆分而是粗暴地将完整FFN作为一个专家则称为粗粒度拆分。下图展示了粗粒度拆分的方式经过大量的实验验证细粒度拆分在整体性能表现上显著优于粗粒度拆分。它不仅在专家规模和数量的设定上提供了更大的自由度还显著优化了显存的占用情况。这意味着在同样的硬件条件下细粒度拆分能够支撑起参数量更大、结构更复杂的模型运行。MoE热启动的第二个关键步骤是Attention层的复用。与FFN层的彻底改造不同Attention结构在转化过程中保持了原样。MoE模型直接复用了Dense模型中的Attention层。这一策略极其明智因为Attention层承载了模型对语言序列的上下文理解和长距离依赖捕捉能力。复用Attention层等于直接继承了原模型强大的通用建模能力和稳定性。这避免了因架构剧烈变动而导致的能力退化风险确保了模型在转型后依然聪明。通过这种巧妙的拆分FFN复用Attention的组合拳元象成功实现了模型能力的平滑跃迁。这种架构上的创新为XVERSE-Ent在泛娱乐领域的出色表现奠定了坚实的物理基础。它让模型变大、变强的同时却并没有变得更重完美契合了行业对高效率、低成本的追求。三阶段演进平衡通用与垂直能力为了打造出既通晓天文地理又深谙娱乐之道的模型XVERSE-Ent采用了独特的三阶段训练流程。这一流程被精心设计旨在逐步引导模型从通用语言理解转向特定领域的深度生成。第一阶段被称为S0阶段即能力重建。在模型架构从Dense转换为MoE之后模型的参数分布发生了变化。S0阶段的主要任务就是通过训练帮助模型适应新的身体结构恢复其原有的通用能力。这是一个磨合的过程确保模型在新的架构下依然能够流畅地思考和表达。第二阶段是S1阶段即语言倾斜。不同的模型有不同的语言服务目标比如中文版需要更懂中文语境英文版需要更懂英文表达。在这一阶段训练数据会向特定的目标语言倾斜。通过强化特定语言的建模能力模型在处理该语言任务时的精准度和流畅度得到大幅提升。这为后续的领域知识注入打下了坚实的语言基础。第三阶段是S2阶段即领域增强。这是决定XVERSE-Ent泛娱乐属性的关键一战。在前两个阶段模型主要使用通用领域的数据进行训练。到了S2阶段训练数据变成了通用数据与泛娱乐领域数据的混合体。元象沉淀的海量高质量泛娱乐数据在这一阶段被注入模型。模型开始疯狂吸收关于小说、剧本、游戏对话的知识。这种混合训练策略极其高明。它既避免了模型因过度专注于垂直领域而遗忘通用常识又确保了模型在泛娱乐任务上的表现突飞猛进。两个版本的模型在训练路径上略有差异体现了元象对不同语言模型的定制化打磨。中文泛娱乐模型XVERSE-Ent-A4.2B是由通用底座XVERSE-MoE-A4.2B直接经过S2领域增强阶段获得。这说明其通用底座本身已经具备了良好的中文基础和架构适应性。而英文泛娱乐模型XVERSE-Ent-A5.7B则是由通用Dense底座通过细粒度MoE热启动技术改造而来。从架构改造到语言强化再到领域精通每一步都走得扎实稳健。这两款模型在训练过程中都保持了8K的上下文窗口大小在近万亿token规模的数据上进行了继续预训练。这对于处理长篇小说章节或连贯的游戏剧情至关重要。极致优化的中英双语实战表现为了客观验证XVERSE-Ent的领域实力研究团队构建了严谨的评测体系。评测集涵盖了小说类文本fiction、对话类文本conversation以及通用文本webcc。评估的核心指标选用了困惑度Perplexity。困惑度是衡量语言模型预测下一个词能力的经典指标数值越低代表模型对文本的理解和生成越准确越不感到困惑。XVERSE-Ent泛娱乐模型在小说创作与对话生成等核心任务上的数值表现卓越。更难能可贵的是在追求垂直领域极致性能的同时模型并没有丢掉通用能力。在MMLU、数学与代码任务等通用评测基准上XVERSE-Ent的整体能力保留率超过了98%。中文版XVERSE-Ent-A4.2B拥有25B的总参数量。它针对中文语境下的角色扮演、故事生成和对话互动进行了极致的优化。其极高的文化契合度使其在处理武侠、修仙、宫斗等中国特色题材时表现得得心应手。英文版XVERSE-Ent-A5.7B的总参数量达到了36B。这款模型依托成熟的出海应用经验打造特别擅长英文创意写作和游戏对话。在跨文化交流场景中它能够准确把握西方文化的幽默与隐喻生成地道自然的英文内容。无论是在剧情连贯性上还是在角色人设的统一性上XVERSE-Ent都交出了一份高分答卷。对于多轮交互的趣味性模型也展现出了超越常态的灵动。它不再是一个冷冰冰的问答机器而更像是一个能够接梗、懂情绪的虚拟伙伴。元象通过开源这两款高质量的底座模型为行业交付了一套的泛娱乐AI解决方案。它让中小开发者无需组建庞大的算法团队无需购买昂贵的算力集群就能拥有顶级的故事生成引擎。泛娱乐企业的创新门槛因此被大幅拉低更多的创意将有机会通过AI技术落地生花。参考资料https://github.com/xverse-ai/XVERSE-Enthttps://modelscope.cn/models/xverse/XVERSE-Ent-A4.2Bhttps://modelscope.cn/models/xverse/XVERSE-Ent-A5.7Bhttps://huggingface.co/xverse