南京网站建设哪家专业学习网站开发技术
2026/4/14 20:14:50 网站建设 项目流程
南京网站建设哪家专业,学习网站开发技术,南京市溧水城市建设集团网站,企业网站建设排名官网bert-base-chinese-ner预训练模型目录#xff1a;bert-base-chinese-ner预训练模型包含的实体标签类型#xff1a; 数据标注样式#xff1a;BIO标签微调后的模型目录其中#xff1a; model.safetensors#xff1a;微调后的模型权重文件#xff0c;使用了更安全、更安全的…bert-base-chinese-ner预训练模型目录bert-base-chinese-ner预训练模型包含的实体标签类型数据标注样式BIO标签微调后的模型目录其中model.safetensors微调后的模型权重文件使用了更安全、更安全的safetensors格式Config.json: 模型结构配置和原始模型基本一致但num_labels和id2label/label2id已更新为你数据集的标签体系。tokenizer.json vocab.txt tokenizer_config.jsonTokenizer文件config.json 中的 “id2label” 字段通常是在微调SFT过程中由训练脚本根据提供的训练数据集的标签体系自动生成或显式指定的。具体行为取决于你使用的训练框架如 Hugging Face Transformers 的 Trainer和数据预处理逻辑如果你在训练时传入了自定义的标签列表例如通过 label_list 或 id2label 参数那么 Trainer 会直接使用该映射并写入最终保存的 config.json。如果你未显式提供标签映射但训练数据中包含完整的 BIO 标签如 “B-PER”, “I-LOC” 等训练脚本Hugging Face Transformers 的 Trainer通常会在数据预处理阶段自动收集所有唯一标签按字典序或出现顺序排序后生成 label2id 和 id2label并更新到模型配置中。目标1领域微调基于bert-base-chines-ner模型针对PER人物ORG组织/机构LOC地点FAC设施EVENT事件五类实体做一些军事领域的微调2增量微调在已有微调模型基础上新增一个实体类别EQUIP军事装备并补充数据进行一个增量微调使模型能够识别新类别。实验领域微调实验一1让LLM生成50条标注数据训练后结果如下发现f1得分只有0.01说明没有学习到任何特征可能的原因是1. 数据量严重不足每类仅 10 条样本远低于 NER 任务的实用下限。即使是轻量级模型如 BERT-base在低资源场景下也需要至少数百条高质量标注样本才能初步泛化。小样本极易导致模型过拟合到训练集中的表面模式如固定短语、位置特征而无法学习到实体类型的语义边界和上下文规律。2. 数据多样性与颗粒度不足LLM 生成的数据往往具有“模板化”倾向实体形式单一缺乏真实文本中的变体颗粒度不够如“美国前总统拜登”、“Dr. Smith”、“军委副主席张又侠上将”等复合结构。句式重复、实体上下文分布狭窄如很多样本都围绕同一主题如政治人物实验二2)针对数量严重不足问题扩充数据集数据颗粒度提升每类各50条共250条标准样本提高epoch人物PER50条地点LOC50条组织机构ORG50条设施FAC50条事件EVENT50条针对数据多样性不足问题1、针对每种实体类别优化提升词对时效性数据范围要求细化给出few-shot样例按类别分别生成而不是批量笼统生成2、尝试了两者数据集切分逻辑目标都是按照9:1切分并且能包含6类别一种是对单条样本以最先出现实体类型作为主导类别将其划分到不同的桶中一种是统计单条样本中最频繁的实体类型作为其“主导类型”将其划分到不同的桶中。这种效果比较好训练结果如下增量微调实验核心思路1、准备新训练数据标注包含 EQUIP 的样本格式与原数据一致。注意新的数据集必须包含之前的PER/LOC/ORG/FAC/EVENT的数据并且模型应该加载之前的checkpoint即已经微调过5类的那个模型2、更新标签映射在原有 11 个标签B/I × 5 类 O基础上增加 B-EQUIP, I-EQUIP → 总标签数变为 13。(训练时使用了带有这些标签的数据集Hugging Face Transformers 的 Trainer训练框架自动构建了该映射并保存到了模型配置中)3、数据集切分训练集、验证集、测试集4、保留原模型结构和参数只扩展分类头即最后一层线性层的输出维度。5、加载之前的checkpoint开始训练实验结果如下

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询