2026/3/30 11:18:33
网站建设
项目流程
甘肃网站推广,赣州网站建设怎么样,网站建设内部下单流程图,嘉兴外贸网站建设MIT研究人员发现#xff0c;当机器学习模型应用于训练数据之外的新数据时#xff0c;会出现重大失效问题#xff0c;这表明在新环境中部署模型时需要进行充分测试。我们证明了即使在大量数据上训练模型并选择最佳平均模型#xff0c;在新环境中这个最佳模型可能对6%-…MIT研究人员发现当机器学习模型应用于训练数据之外的新数据时会出现重大失效问题这表明在新环境中部署模型时需要进行充分测试。我们证明了即使在大量数据上训练模型并选择最佳平均模型在新环境中这个最佳模型可能对6%-75%的新数据表现最差MIT电气工程与计算机科学系副教授Marzyeh Ghassemi说道。她同时也是医学工程与科学研究所成员和信息决策系统实验室首席研究员。在2025年12月神经信息处理系统会议上发表的论文中研究人员指出在一家医院训练的胸部X光疾病诊断模型平均而言可能在另一家医院被认为是有效的。然而研究人员的性能评估显示在第一家医院表现最佳的一些模型在第二家医院多达75%的患者中表现最差尽管当汇总第二家医院所有患者数据时高平均性能掩盖了这种失效。研究发现揭示了虚假关联问题。虚假关联的一个简单例子是机器学习系统由于没有见过许多在海滩拍摄的奶牛照片仅仅因为背景就将海滩奶牛的照片分类为鲸鱼。虽然人们认为通过提高模型在观察数据上的性能可以缓解虚假关联但实际上这些问题仍然存在并对模型在新环境中的可信度构成风险。在许多情况下包括研究人员检查的胸部X光、癌症组织病理学图像和仇恨言论检测等领域这种虚假关联更难检测。以在胸部X光上训练的医疗诊断模型为例该模型可能学会将一家医院X光片上特定的无关标记与某种病理相关联。在不使用该标记的另一家医院可能会漏诊该病理。Ghassemi团队之前的研究表明模型可能虚假关联年龄、性别和种族等因素与医学发现。例如如果模型在更多患有肺炎的老年人胸部X光上训练而没有看到足够多年轻人的X光片它可能预测只有老年患者会患肺炎。我们希望模型学会观察患者的解剖特征然后基于此做出决定MIT博士后、论文第一作者Olawale Salaudeen说但实际上数据中任何与决策相关的因素都可能被模型使用。这些关联在环境变化时可能不够稳健使模型预测成为不可靠的决策来源。虚假关联加剧了偏见决策的风险。在NeurIPS会议论文中研究人员显示例如提高整体诊断性能的胸部X光模型在患有胸膜疾病或心脏纵隔增大即心脏或胸腔中央扩大的患者中实际表现更差。论文其他作者包括博士生Haoran Zhang和Kumail Alhamoud、电气工程与计算机科学系助理教授Sara Beery以及Ghassemi。虽然之前的工作普遍接受按性能从最佳到最差排序的模型在新环境中应用时会保持该顺序称为准确性在线但研究人员能够证明在一个环境中表现最佳的模型在另一个环境中表现最差的例子。Salaudeen设计了一个名为OODSelect的算法来发现准确性在线被打破的例子。基本上他使用分布内数据即来自第一个环境的数据训练了数千个模型并计算其准确性。然后将模型应用于来自第二个环境的数据。当那些在第一环境数据上准确性最高的模型应用于第二环境大部分样本时出错这就识别出了问题子集或子群体。Salaudeen还强调了聚合统计评估的危险性这可能掩盖关于模型性能更细粒度和更重要的信息。在研究过程中研究人员分离出最误算的例子以免将数据集内的虚假关联与简单难以分类的情况混淆。NeurIPS论文发布了研究人员的代码和一些识别的子集供未来工作使用。一旦医院或任何使用机器学习的组织识别出模型表现不佳的子集该信息可用于改进模型在特定任务和环境中的表现。研究人员建议未来工作采用OODSelect以突出评估目标并设计更一致地改进性能的方法。我们希望发布的代码和OODSelect子集成为一个踏脚石研究人员写道朝着面对虚假关联不良影响的基准和模型迈进。QAQ1什么是虚假关联为什么会影响机器学习模型A虚假关联是指机器学习模型错误地将无关因素与目标结果关联起来。例如模型可能将医院X光片上的特定标记与某种疾病关联但该标记实际上与疾病无关。这会导致模型在新环境中失效因为这些关联在不同环境中可能不存在。Q2OODSelect算法是如何工作的AOODSelect算法通过训练数千个模型并测试它们在不同环境中的表现来识别问题。首先在原始数据上训练模型并计算准确性然后将这些模型应用到新环境的数据上。当原本表现最佳的模型在新环境中大部分数据上表现最差时就能识别出存在虚假关联的问题子集。Q3如何解决机器学习模型的虚假关联问题A研究人员建议使用OODSelect等工具识别模型表现不佳的特定子群体然后针对这些问题区域改进模型。此外不应仅依赖聚合指标评估模型而要进行更细粒度的性能分析。在部署到新环境前必须对模型进行充分测试以发现潜在的虚假关联问题。