2026/1/23 3:59:09
网站建设
项目流程
网站建设及解决方案,长沙市建设工程集团有限公司,网站建好了怎么做才赚钱,域名查询网站信息概述
本文构建了一个名为 ShareGPT-4o-Image 的新的大规模合成数据集#xff0c;目的是将 GPT-4o 的高级图像生成功能转移到一个开源的多模态模型中。此外#xff0c;还提出了一个使用该模型的多模态大规模语言模型 “Janus-4o”。
ShareGPT-4o-Image 由 45,000 …概述本文构建了一个名为 ShareGPT-4o-Image 的新的大规模合成数据集目的是将 GPT-4o 的高级图像生成功能转移到一个开源的多模态模型中。此外还提出了一个使用该模型的多模态大规模语言模型 “Janus-4o”。ShareGPT-4o-Image 由 45,000 个文本的图像生成数据和 46,000 个使用图像和文本的图像转换数据组成这两个数据都是使用 GPT-4o-Image 生成的高质量样本。根据这些数据对现有的 Janus-Pro 模型进行微调后Janus-4o 不仅能从文本生成图像还能编辑图像从文本图像输入生成图像。值得注意的是只需 91K 个样本和 6 个小时的训练Janus-4o 的性能就能超越以前的模型。这项研究为高性能图像生成技术的民主化做出了贡献是加速开放式多模态研究的重要一步。建议的方法ShareGPT-4o-Image 是一个合成数据集旨在模仿和提炼 GPT-4o-Image 的功能。该数据通过两种生成方案创建。一种是 “提示驱动”即定义属性如对象、背景、风格LLM 据此生成自然语言提示GPT-4o-Image 据此输出图像。另一种是 “图像驱动”即 LLM 根据现有图像生成详细描述并将其与图像配对以创建数据。图像编辑数据由原始图像、编辑说明和编辑图像三部分组成基于 14 个不同的任务涵盖了大量的样式转换和元素添加。然后利用该数据集对现有的 Janus-Pro 模型进行微调从而开发出 Janus-4o该模型的结构既适用于纯文本输入也适用于文本图像组合输入旨在为每种输入提供适当的表征学习。实验Janus-4o 的性能在两个任务中进行了评估从文本生成图像和图像编辑。在从文本生成图像方面使用了 GenEval 和 DPG-Bench 基准来衡量构图一致性和视觉保真度。结果显示与 Janus-Pro 相比GenEval 的性能提高了 4 个百分点DPG-Bench 的性能提高了 1.6 个百分点。同时ImgEdit-Bench 基准对图像编辑能力进行了评估该基准在移动变化和风格转换等详细编辑项目上获得了高分。尤其值得注意的是在使用少量训练数据91K的情况下其性能与其他使用超过 400 万数据的模型相当甚至超过了它们。此外人类评估实验清楚地表明在生成图像的视觉吸引力和教学保真度方面Janus-4o 明显优于 Janus-Pro 和 UltraEdit。这证明了 ShareGPT-4o-Image 的高数据质量及其有效性。