2026/3/7 0:35:20
网站建设
项目流程
北京网站建设公司哪些好,京东网站的公司全名,专业做数据的网站,建设外国商城网站概述
本研究以 PubMed Central Open Access#xff08;PMC-OA#xff09;语料库为基础#xff0c;提出了一个新的生物医学数据集 Biomed-Enriched#xff0c;该数据集采用了基于 LLM 的分阶段注释。
虽然 LLM 在各种任务中普遍表现出很高的性能#xff0c;但在医学和生物医…概述本研究以 PubMed Central Open AccessPMC-OA语料库为基础提出了一个新的生物医学数据集 Biomed-Enriched该数据集采用了基于 LLM 的分阶段注释。虽然 LLM 在各种任务中普遍表现出很高的性能但在医学和生物医学领域却缺乏专业性和术语准确性。造成这种情况的原因之一是训练数据主要来自网络而专业领域的信息很少。特别是由于隐私限制临床数据很难公布非英语数据也很少。在本研究中在 PMC-OA 中的约 1.3 亿个段落中有 40 万个段落首先使用 Llama-3.1-70B-Instruct 进行了注释然后将标签提炼成 XLM-RoBERTa-base 并应用于整个语料库。这样通过为每个段落分配类型研究、临床案例、评论等、领域临床、生物医学、其他和教育价值1-5就能提取高质量的临床案例和多语言片段。实验表明对临床句子进行上采样并根据教育价值进行筛选可提高医学质量保证的性能和学习效率。建议的方法拟议的方法 Biomed-Enriched 具有逐段精确注释和数据过滤的特点。在数据收集阶段从 PMC-OA 中提取了约 450 万篇全文文章删除了非文本元素还剔除了少于 64 个标记的短句。然后分两个阶段进行注释。在第一阶段使用 Llama-3.1-70B-Instruct 为随机选取的 400 000 个段落分配文本类型临床病例、研究、综述或其他、领域分类临床、生物医学或其他、教育价值1-5 分和语言。第二步将得到的注释提炼成 XLM-RoBERTa-base并对所有段落进行有效分类。根据注释结果BE-Educational只保留教育值为 3 或更高的段落、BE-Clinical将临床领域的采样率提高 10 倍、BE-ClinicalCase增强临床案例、BE-French纠正多语言平衡等。我们还构建了多个数据集衍生物。我们还创建了 “BE-Prefix”在段落开头提供注释元数据并设计了将元信息与上下文关联起来的模型。实验在评估实验中我们使用 OLMo2-7B-stage 1 作为基础模型并在每个 Biomed-Enriched 派生数据集上训练了 3360 亿个额外标记。结果与 BE-Base未经处理的 PMC-OA以及各种过滤和上采样版本进行了比较。使用的评估指标包括 MMLU 医疗子集、MedQA、MedMCQA 和 PubMedQA以及衡量法语适应性的 FrenchMedMCQA并以零或五次拍摄来衡量性能。结果显示采用组合策略的 BE-All 表现最佳平均得分率为 61.08%比 BE-Base 提高了 0.67 分。其中临床向上取样在 MMLU 专业医学中提高了 4.04 分教育价值筛选在 MedMCQA 和 PubMedQA 中有稳定的提高。此外BE-All 只用了 BE-Base 约三分之一的训练词块就达到了与之相当的性能这证明了其较高的数据效率。此外BE-French 在使用 FrenchMedMCQA 时取得了显著的性能提升证明了多语言支持的有效性。