网站交互图片怎么做江苏瀚和建设网站
2026/2/18 12:31:25 网站建设 项目流程
网站交互图片怎么做,江苏瀚和建设网站,分销小程序开发,论论坛坛网网站站建建设设输出目录在哪#xff1f;训练产物定位快速说明 在微调大语言模型的过程中#xff0c;一个高频却容易被忽略的问题是#xff1a;训练完的模型权重到底存在哪#xff1f; 尤其当你第一次运行 swift sft 命令、看到终端滚动着大量日志、最后只冒出一句 Saving checkpoint to o…输出目录在哪训练产物定位快速说明在微调大语言模型的过程中一个高频却容易被忽略的问题是训练完的模型权重到底存在哪尤其当你第一次运行swift sft命令、看到终端滚动着大量日志、最后只冒出一句Saving checkpoint to output/...却找不到具体路径时——那种“我到底训没训成功”的不确定感会瞬间拉低整个实验效率。本文不讲原理、不堆参数、不重复部署步骤专注解决一个最实际的问题如何在 10 秒内准确定位你的 LoRA 微调产物。基于镜像《单卡十分钟完成 Qwen2.5-7B 首次微调》我们以真实容器环境为基准带你理清/root/output下每一层目录的生成逻辑、命名规则和访问方式让“找权重”这件事从玄学变成肌肉记忆。1. 默认输出根目录/root/output所有微调命令中只要指定了--output_dir output这是镜像默认配置最终产物就一定落在/root/output这个绝对路径下。它不是临时目录不是缓存路径而是ms-swift 框架约定的唯一权威输出根目录。正确做法始终以/root/output为起点进行查找❌ 常见误区在/root下盲目ls -R、在~或/home下搜索、误以为权重会自动导出到模型目录这个路径在镜像启动后即存在且权限属于 root 用户。你无需创建也不建议手动修改其所有权或结构。# 进入根输出目录推荐每次操作前先执行 cd /root/output ls -la你会看到类似这样的初始状态首次运行前total 8 drwxr-xr-x 2 root root 4096 May 20 10:23 . drwx------ 1 root root 4096 May 20 10:23 ..空目录但已就位。2. 训练过程中的动态子目录生成机制ms-swift 不会把所有 checkpoint 堆在一个文件夹里而是采用时间戳 版本号 checkpoint 编号的三级嵌套结构。理解这三层你就永远不怕“找不到最新权重”。2.1 第一层时间戳版本目录vX-YYYYMMDD-HHMMSS微调启动时框架会自动生成一个带时间戳的主目录格式为v{版本号}-{日期}-{时间}。例如v2-20250520-102345/ v3-20250520-110512/ v4-20250520-143208/v2、v3是自增版本号每次完整运行swift sft命令即递增与是否成功无关20250520是年月日2025年5月20日102345是时分秒10:23:45精确到秒确保唯一性快速定位最新训练直接ls -t | head -n 1即可获取最近一次训练的顶层目录名。# 示例一键进入最新训练目录 cd /root/output/$(ls -t /root/output | head -n 1)2.2 第二层checkpoint 子目录checkpoint-{step}进入时间戳目录后你会看到多个checkpoint-*文件夹例如checkpoint-50/ checkpoint-100/ checkpoint-150/ checkpoint-200/数字代表 global step全局训练步数由--save_steps 50参数控制每训练完 50 个 batch就保存一次完整 LoRA 权重含 adapter_model.bin 和 configuration.json所有 checkpoint 共享同一套 tokenizer 和 config仅权重文件不同如何判断哪个 checkpoint 最优看checkpoint-{N}/trainer_state.json中的best_model_checkpoint字段如果启用了 eval。若未启用评估则取最大 step 数的 checkpoint —— 它就是你最后一次保存的成果。# 查看最新 checkpoint 的训练步数假设最新目录是 v4-20250520-143208 ls -t /root/output/v4-20250520-143208/checkpoint-* | head -n 1 # 输出/root/output/v4-20250520-143208/checkpoint-2002.3 第三层核心权重文件adapter_model.bin每个checkpoint-{N}目录下最关键的两个文件是文件名说明是否必需adapter_model.binLoRA 适配器权重约 12–15MB必需推理时加载对象configuration.jsonLoRA 配置rank、alpha、target_modules 等必需用于加载时校验其他常见文件可选pytorch_model.bin.index.json分片索引LoRA 通常不分片此文件极少出现README.md自动生成的训练摘要含命令、参数、时间trainer_state.json训练状态快照含 loss 曲线、step、eval 结果注意这里没有pytorch_model.bin—— LoRA 不修改原始模型权重所以不会生成全量模型文件。你看到的只是轻量级增量参数。3. 实战验证三步确认权重可用性光找到路径还不够得验证它真能用。以下是在/root/output中完成一次端到端验证的标准流程3.1 步骤一确认路径有效性# 假设你刚跑完微调最新目录是 v4-20250520-143208最后一个 checkpoint 是 200 ADAPTER_PATH/root/output/v4-20250520-143208/checkpoint-200 # 检查关键文件是否存在 ls -lh $ADAPTER_PATH/adapter_model.bin $ADAPTER_PATH/configuration.json # 应输出类似 # -rw-r--r-- 1 root root 13M May 20 14:35 /root/output/.../checkpoint-200/adapter_model.bin # -rw-r--r-- 1 root root 327 May 20 14:35 /root/output/.../checkpoint-200/configuration.json3.2 步骤二用swift infer加载测试CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters $ADAPTER_PATH \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 512成功表现终端进入交互模式输入你是谁后模型应返回你设定的身份如“由 CSDN 迪菲赫尔曼 开发…”❌ 失败表现报错FileNotFoundError路径错、KeyError: lora_A文件损坏、或仍返回原始身份未正确加载3.3 步骤三检查日志确认加载行为在swift infer启动日志中搜索关键词adapters和lora你会看到类似输出[INFO] Loading adapters from /root/output/v4-20250520-143208/checkpoint-200 [INFO] Loaded LoRA modules: [q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj] [INFO] Merged LoRA weights into model (inference-time merge)这三行是黄金证据证明权重不仅存在而且已被正确识别、加载并注入模型。4. 常见问题速查表为什么总找不到现象可能原因快速排查命令解决方案ls /root/output返回空微调尚未开始或中途失败退出tail -n 20 /root/.swift/logs/sft.log检查日志末尾是否有Traceback或Killed显存溢出找到checkpoint-xx但无adapter_model.bin使用了--save_only_model false默认为 true或保存被中断ls -la /root/output/vX-*/checkpoint-*/adapter_model.bin重跑微调或检查--save_only_model参数值swift infer报No module named swift当前 shell 未激活 ms-swift 环境which swift运行source /root/miniconda3/bin/activate conda activate swift路径正确但身份未更新--system提示词与数据集 instruction 冲突grep -A2 你是谁 /root/self_cognition.json确保数据集中instruction字段严格匹配提问句式含标点多次训练后目录混乱手动删过output/下子目录导致版本号错乱ls -t /root/output | head -n 5用时间戳而非版本号排序始终取最新时间目录终极技巧在每次微调命令末尾加一行日志记录让路径一目了然# 在你的微调命令后追加 echo Training completed. Adapter path: ls -d /root/output/v*-*/checkpoint-* \| tail -n 1这样无论你在哪台机器、哪个终端回看历史命令都能立刻定位。5. 进阶提示如何管理多个微调产物当你要对比不同 learning_rate、lora_rank 或数据集组合的效果时手动管理几十个vX-.../checkpoint-...会很快失控。推荐两个轻量级实践方案5.1 方案一符号链接归档推荐新手为每次有价值的微调创建带语义的软链指向真实路径# 训练完 v4-20250520-143208/checkpoint-200 后执行 ln -sf /root/output/v4-20250520-143208/checkpoint-200 /root/output/latest_lora_4bit_lr1e4 ln -sf /root/output/v3-20250520-110512/checkpoint-150 /root/output/baseline_lora_8bit_lr5e5之后推理时直接用swift infer --adapters /root/output/latest_lora_4bit_lr1e4 ...优点零学习成本不改变原有结构ls /root/output一眼看清所有实验标签。5.2 方案二简易元数据记录适合项目化在/root/output/README.md中维护一张表格记录每次训练的关键信息| 时间戳 | 版本 | 数据集 | lr | rank | 最佳 checkpoint | 效果简评 | |--------|------|--------|----|------|----------------|----------| | 20250520-143208 | v4 | self_cognition.json | 1e-4 | 8 | checkpoint-200 | 身份切换稳定无幻觉 | | 20250520-110512 | v3 | alpaca-zhself | 5e-5 | 16 | checkpoint-150 | 通用能力保留更好 |优点无需额外工具纯文本可读性强配合git add /root/output/README.md可做轻量版本追踪。6. 总结记住这三条铁律微调产物定位不是靠运气而是靠对框架行为的确定性认知。请把以下三点刻进本能1. 根路径永不变更所有产出只在/root/output—— 这是镜像预设的“唯一真相源”别在别处浪费时间。2. 时间戳 版本号 Step 数排序优先级先按时间戳ls -t再进目录看最大checkpoint-*最后确认adapter_model.bin存在。三步闭环10 秒定位。3. 验证即加载加载即验证不要只看文件存在就认为成功。必须用swift infer --adapters [PATH]实际跑一次且观察日志中Loading adapters和Merged LoRA weights两行输出才算真正闭环。现在你已经拥有了在该镜像中精准定位、快速验证、高效管理微调产物的全部能力。下一次运行swift sft时不必再为“我的模型在哪”而暂停思考——你的注意力可以完全聚焦在更重要的事上怎么让模型更懂你想要的表达。--- **获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_blog_end)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询