东莞网站推广排行教你如何建设网站
2026/2/26 18:27:46 网站建设 项目流程
东莞网站推广排行,教你如何建设网站,做网站买狗怎么样,网站建设宣传资料这项由纽约大学朗格尼医学中心江薰伊、陈安琪等研究团队与纽约大学库朗数学科学研究所、计算与数据科学学院等多个机构合作完成的突破性研究#xff0c;发表于2025年11月17日的arXiv预印本平台#xff08;论文编号#xff1a;arXiv:2511.13703v1#xff09;。研究团队包括来…这项由纽约大学朗格尼医学中心江薰伊、陈安琪等研究团队与纽约大学库朗数学科学研究所、计算与数据科学学院等多个机构合作完成的突破性研究发表于2025年11月17日的arXiv预印本平台论文编号arXiv:2511.13703v1。研究团队包括来自纽约大学、华盛顿大学圣路易斯医学院、瑞士苏黎世联邦理工学院等十多个知名机构的专家学者由Eric Karl Oermann教授和江薰伊共同担任通讯作者。医院每天都在进行着一场看不见的战争。医生们不仅要诊断疾病还要预测哪些病人可能会重新住院、谁的生命处于危险中、病床什么时候会空出来、保险公司是否会拒绝报销。这些预测就像天气预报一样复杂但比天气预报更重要——它们直接关系到病人的生死和医院的运营。随着人工智能技术的飞速发展许多人认为像GPT-4这样的万能AI模型能够解决一切问题包括这些复杂的医疗预测任务。毕竟这些模型在回答医学考试题目时表现出色似乎已经掌握了丰富的医学知识。然而纽约大学朗格尼医学中心的研究团队却发现了一个令人意外的真相在真正的医院运营中这些通用AI巨擘竟然败给了专门为医疗场景量身定制的小型AI模型。这项研究不仅挑战了大即是美的AI发展理念更为医疗AI的未来发展指出了一条全新道路。研究团队开发了名为Lang1的专业医疗AI模型家族并创建了ReMedE评估体系这是首次在真实医院环境中对AI模型进行如此全面系统的测试。结果表明一个仅有10亿参数的专业医疗AI模型在医院运营预测任务上的表现竟然超越了参数量高达6710亿的通用AI模型。一、专业胜过通用医疗AI的术业有专攻当我们走进厨房准备做一道复杂菜肴时我们通常会选择专业的厨具而不是万能工具箱里的多功能刀具。同样的道理在医疗预测这个高度专业化的领域专门训练的AI模型往往比通用模型表现更优秀。研究团队面临的核心问题是在医院的日常运营中到底是使用能够回答各种问题的万能AI更好还是专门为医疗任务训练的专家AI更有效这个问题的答案将直接影响未来医疗AI的发展方向和医院的技术投资决策。为了回答这个问题研究团队开发了Lang1模型家族。这些模型就像是专门在医学院学习多年的医学生它们不仅学习了互联网上的通用知识更重要的是它们在纽约大学朗格尼医学中心的大量真实病历数据上进行了深度学习。这些病历数据包含了从2003年到2023年间超过1100万病人的1.8亿份医疗记录总计约600亿词汇——这相当于让AI阅读了数百万本医学教科书的内容。Lang1模型家族包括三个不同规模的成员拥有1亿参数的Lang1-100M、10亿参数的Lang1-1B以及70亿参数的Lang1-7B。这种设计就像培养不同级别的医疗专家从住院医生到主治医师再到科室主任每个级别都有其特定的能力和应用场景。与此同时研究团队还面对的是当前AI领域的主流观点许多人认为像GPT-4、DeepSeek R1这样的大型通用模型已经足够强大能够胜任包括医疗在内的各种专业任务。这些模型在医学考试中的优异表现似乎证明了它们的医学能力。然而研究团队怀疑在标准化考试中表现良好和在真实医疗环境中做出准确预测是两回事就像一个能够在考试中获得高分的医学生在面对真实病人时可能仍然缺乏经验。二、ReMedE首个真实医院运营AI评估体系传统的AI评估就像在驾校的模拟器上测试驾驶技能而ReMedE则是让AI直接在真实道路上接受考验。研究团队创建的这套评估体系基于纽约大学朗格尼医学中心668,331份真实病历涵盖了医院运营中最关键的五个预测任务。第一个任务是30天再入院预测这就像预测天气一样重要但同样困难。当病人出院时医生需要判断他们是否会在一个月内因为病情恶化或并发症而重新住院。这个预测直接影响出院计划的制定和后续护理安排的准备。如果能够准确预测哪些病人有较高的再入院风险医院就可以提前安排更密切的随访和支持服务既能改善病人的康复效果也能避免不必要的医疗成本。第二个任务是住院期间死亡率预测这可能是所有医疗预测中最为严肃和重要的一项。当病人刚入院时医生需要评估他们在住院期间死亡的风险这个信息对于制定治疗方案、安排家属沟通、决定是否需要重症监护等都至关重要。准确的死亡率预测能够帮助医疗团队更好地分配有限的医疗资源确保最危重的病人得到最及时的关注。第三个任务是住院时长预测这个任务就像酒店预订系统预测客人的入住天数一样。医院需要知道每个病人大概会住院多长时间以便合理安排床位、制定护理计划、协调各种检查和治疗的时间表。准确的住院时长预测能够显著提高医院的运营效率减少床位浪费缩短其他病人的等待时间。第四个任务是保险拒付预测这个看似行政性的任务实际上对病人和医院都极其重要。在美国的医疗体系中保险公司可能会拒绝支付某些医疗费用这意味着病人可能需要自费承担高额医疗费用或者医院将面临经济损失。如果能够提前预测哪些治疗可能被保险拒付医疗团队就可以调整治疗方案或提前与保险公司沟通避免给病人造成意外的经济负担。第五个任务是查尔森合并症指数预测这个指数衡量的是病人同时患有多种疾病的情况。许多病人特别是老年病人往往同时患有高血压、糖尿病、心脏病等多种疾病这些疾病之间会相互影响增加治疗的复杂性。准确预测病人的合并症负担能够帮助医生制定更全面的治疗计划避免因遗漏某些疾病而导致的治疗失误。ReMedE评估体系的独特之处在于它使用了时间分割的测试方法。就像测试一个股票预测模型需要用未来的股价数据来验证一样研究团队使用2024年的医疗数据来测试在之前数据上训练的AI模型。这种设计确保了评估的真实性因为在实际应用中AI模型总是需要对未来的情况做出预测而不是对已知的历史数据进行分析。这种时间分割测试揭示了一个重要问题医疗环境是不断变化的。新的疾病出现、治疗方法更新、病人群体特征变化、医院政策调整等因素都会影响预测的准确性。一个在2020年数据上表现优秀的模型在面对2024年的数据时可能会出现性能下降这种现象被称为时间漂移。三、令人震惊的发现小模型击败AI巨擘研究结果令整个AI界为之震惊。在医院运营的核心预测任务上专业化的小型AI模型展现出了远超大型通用模型的能力这个发现彻底颠覆了参数越多性能越强的传统认知。当研究团队让各种AI模型直接进行预测时不经过专门训练结果堪称灾难性。即使是最先进的通用AI模型在大多数医疗预测任务上的表现都接近随机猜测的水平。具体来说在30天再入院预测、保险拒付预测、住院时长预测和合并症预测这四个任务上这些模型的预测准确率仅为36.6%到71.7%这意味着它们的预测能力还不如掷硬币。唯一的例外是死亡率预测即使不经过专门训练一些模型也能达到94.2%的准确率这可能是因为死亡风险在医疗记录中有更明显的指标。然而当研究团队对这些模型进行专门的医疗任务训练后情况发生了戏剧性的变化。经过训练的Lang1-1B模型在所有五个任务上都显著超越了未经训练的大型模型提升幅度在1.66%到23.66%之间。更令人惊讶的是这个仅有10亿参数的小模型甚至超越了经过同样训练的70倍大小的模型性能提升达到3.64%到6.75%。这种现象背后的原因可以用一个生动的比喻来理解通用AI模型就像一个博学的大学教授他们知识渊博能够谈论文学、历史、科学等各个领域的话题但当他们试图诊断一个具体的医疗病例时可能还不如一个有丰富临床经验的专科医生。专科医生虽然可能不太了解莎士比亚的作品或量子物理学但他们在自己的专业领域内拥有深度的理解和直觉这种专业化的知识是通用知识无法替代的。研究团队进一步发现预训练过程中的表现并不能预示最终的医疗预测能力。当他们追踪Lang1模型在训练过程中的表现时发现模型的阅读理解能力确实随着训练的进行而稳步提升就像一个学生通过大量阅读逐渐提高理解能力一样。然而在医疗预测任务上这些模型的表现在整个预训练过程中几乎没有改善始终徘徊在随机猜测的水平附近。这个发现揭示了一个深刻的道理通过大量文本学习获得的理解能力和进行具体预测任务的能力是两种截然不同的技能。这就像一个人可以通过阅读大量医学教科书掌握丰富的医学理论知识但要成为一名能够准确诊断疾病的医生还需要通过实际的临床训练和病例实践。四、训练的艺术专业化比规模更重要研究团队的深入分析揭示了AI训练中一个重要但常被忽视的原理在固定的计算资源下将更多资源投入到针对特定任务的精细训练上比单纯增加模型规模更有效。这个发现就像发现了一个烹饪的秘密制作一道美味菜肴的关键不在于使用最昂贵的食材而在于掌握正确的烹饪技法。当研究团队分析不同训练策略的效果时他们发现了一个有趣的现象在相同的计算预算下如果选择较少的预训练和较多的任务专项训练模型性能会更好相反如果将大部分资源用于预训练而较少用于专项训练效果反而不佳。这种现象可以用学习一门乐器来类比虽然学习基础乐理知识很重要但如果想要在钢琴演奏上有所成就大量的钢琴练习比广泛学习各种音乐理论更为关键。然而这并不意味着预训练是无用的。研究团队发现即使在相同的专项训练条件下经过医疗领域预训练的模型仍然显著优于从零开始训练的模型。这说明预训练就像为房屋打地基虽然地基本身不是房子但没有坚实的地基就无法建造稳固的建筑。更有趣的是研究团队发现Lang1模型虽然接受的总体训练量比一些大型通用模型要少但它在医疗相关任务上的理解能力却更强。这种理解能力可以通过模型对医疗问答的困惑度来衡量——简单来说就是模型在面对医疗问题时的确定程度。Lang1模型在面对医疗问题时表现得更加自信和确定这表明它确实对医疗领域有了更深入的理解。这种现象揭示了一个重要原理专业化训练不仅仅是教会模型如何完成特定任务更重要的是让模型对特定领域形成深层的直觉和理解。这就像一个专业摄影师他不仅知道如何操作相机更重要的是他能够感觉到什么样的光线、角度和构图会产生最佳效果。研究还发现在医疗领域的预训练数据质量和相关性比数据数量更重要。Lang1模型使用的医疗数据虽然在绝对数量上不如一些大型模型的训练数据但由于这些数据都来自真实的临床环境具有高度的相关性和代表性因此能够产生更好的训练效果。这再次证明了质胜于量的原则在AI训练中的重要性。五、跨任务学习的神奇效应研究团队的一个意外发现是当Lang1模型同时学习多个医疗预测任务时它的整体性能会得到显著提升。这种现象被称为跨任务学习就像一个医学生同时学习内科、外科和急诊科的知识虽然每个科室的具体技能不同但这些知识之间存在相互促进的关系。当研究团队让Lang1-1B同时学习所有五个预测任务时他们发现模型在每个单独任务上的表现都有所改善就像一个全科医生能够从不同专科的经验中获得洞察从而在每个领域都做得更好。这种现象的背后原理是不同的医疗预测任务虽然表面上看起来不同但它们都基于对病人整体健康状况的理解这些任务之间存在着深层的关联性。更有趣的是研究团队发现这种跨任务学习存在方向性差异。例如让模型学习死亡率预测会显著提高它在住院时长预测上的表现但反过来却不成立——学习住院时长预测对死亡率预测的帮助很小。这种现象可以用医学常识来解释一个病人的死亡风险高低确实会影响他的住院时间危重病人通常需要更长的住院时间或者可能因为病情严重而短期内死亡。但住院时间的长短却不能直接推断死亡风险因为有些病人住院时间长可能只是因为需要复杂的康复治疗而不是因为生命危险。类似的30天再入院预测任务对其他四个任务都有促进作用。这也符合医学直觉能够准确预测病人再入院风险的模型必然对病人的整体健康状况、疾病严重程度、康复能力等有深入的理解而这些理解对于其他预测任务同样有价值。这种跨任务学习的发现具有重要的实际意义。在资源有限的情况下医院可以优先让AI模型学习那些对其他任务有促进作用的核心任务从而实现一举多得的效果。这就像培训一个医疗团队时先让所有成员掌握基础的诊断技能再根据需要进行专科化训练这样能够最大化培训的投资回报。六、真实世界的考验跨医院验证任何AI模型的真正价值都需要在实际应用中得到验证特别是当它被部署到与训练环境不同的新环境中时。研究团队通过在不同医院之间进行模型验证测试了Lang1的通用性和鲁棒性结果令人鼓舞。研究团队选择了MIMIC III数据库进行外部验证这个数据库来自波士顿的贝斯以色列医院与纽约大学朗格尼医学中心在地理位置、病人群体、医疗实践等方面都存在显著差异。这种验证就像让一个在北京医院工作的医生转到上海的医院测试他是否能够适应不同的环境和病人群体。验证结果显示在纽约训练的Lang1模型在波士顿的医院数据上仍然保持了良好的预测性能。在30天再入院预测任务中虽然性能有轻微下降约1.2%但这种下降程度在可接受范围内证明模型具有良好的泛化能力。更重要的是Lang1模型在跨医院验证中的表现仍然显著优于通用AI模型证明了专业化训练的价值不仅限于特定医院而是具有更广泛的适用性。研究团队还发现了一个有趣的现象对于通用AI模型来说使用纽约医院的数据进行训练在某些情况下竟然比使用波士顿医院自己的数据进行训练效果更好。这个看似矛盾的结果实际上揭示了数据规模的重要性纽约大学朗格尼医学中心的数据集比MIMIC III数据库大约8.6倍对于缺乏医疗专业知识的通用模型来说更大规模的训练数据能够提供更多的学习机会即使这些数据来自不同的医院。但对于已经具备医疗专业知识的Lang1模型来说情况则完全不同。Lang1模型更善于从较少但高度相关的数据中学习即使MIMIC III的数据量较小但由于它来自目标医院具有更高的相关性因此能够产生更好的预测效果。这种现象类似于一个有经验的医生换到新医院时虽然需要适应新环境但他的专业知识使他能够快速理解新环境的特点并做出准确判断。这些跨医院验证的结果为医疗AI的实际部署提供了重要指导医院在部署AI系统时既可以选择使用其他医院训练的专业模型并进行少量本地化调整也可以利用大规模外部数据来增强本地训练的效果具体选择取决于医院的数据规模和技术能力。七、成本效益分析小投入大回报在讨论AI技术时成本往往是一个被忽视但极其重要的因素。研究团队详细分析了Lang1模型的训练成本结果令人印象深刻训练一个能够超越大型通用模型的专业医疗AI所需成本远比想象中要低。训练Lang1-1B模型需要使用64块H100 GPU运行30天按照亚马逊AWS的价格计算总成本约为18万美元。虽然这个数字对个人来说是一笔巨额开支但对于大型医院系统来说却是一个完全可以承受的投资。更重要的是这个成本比训练顶级通用AI模型的数百万甚至数千万美元要低几个数量级。这种成本优势的意义远不止于节省开支。它意味着更多的医疗机构能够负担得起专业AI系统的开发而不必依赖于少数几家大型科技公司提供的通用服务。这种民主化的AI发展模式能够促进医疗AI技术的广泛普及让更多病人受益于AI技术的进步。从长期运营的角度来看拥有自己的专业AI模型比依赖外部API服务更具优势。使用外部API服务就像长期租房虽然初期投入较少但长期成本可能更高而且用户对服务的控制权有限。相比之下训练自己的模型就像购买房产虽然初期投资较大但长期来看更加经济并且用户拥有完全的控制权。更重要的是自有模型能够更好地保护病人隐私。医疗数据的敏感性要求医院在使用AI技术时必须格外小心避免将病人信息发送到外部系统。拥有自己的AI模型意味着所有数据处理都可以在医院内部完成大大降低了隐私泄露的风险。研究团队还指出自有模型的另一个重要优势是可定制性和可持续改进性。医疗实践在不断演进新的疾病、新的治疗方法、新的医疗设备不断出现医院的AI系统也需要相应地更新和改进。拥有自己的模型意味着医院可以根据自己的具体需求和经验持续优化系统而不必等待外部供应商的更新。这种投资的回报是显而易见的。准确的预测能够帮助医院优化资源配置、提高运营效率、减少医疗事故、改善病人满意度这些改进带来的价值远远超过模型训练的成本。例如如果AI能够准确预测病人的住院时长医院就可以更好地安排床位减少病人等待时间这不仅能够提高医院收入还能改善病人体验。八、对未来的启示专业化AI的新纪元这项研究的影响远超出医疗领域它为整个AI行业的发展提供了新的思路和方向。研究结果挑战了通用AI万能论的主流观念提出了专业化AI优势论的新理念。首先这项研究重新定义了AI性能评估的标准。传统的AI评估往往依赖标准化测试就像用高考成绩来评价学生能力一样。然而真实世界的应用需求往往与标准化测试存在巨大差异一个在考试中表现优秀的模型在实际应用中可能表现平平。研究团队创建的ReMedE评估体系展示了基于真实应用场景进行AI评估的重要性和可行性。其次这项研究为资源有限的机构提供了新的AI发展路径。不是每个机构都有谷歌、微软或OpenAI那样的资源来训练超大规模通用模型但他们可以在自己的专业领域内开发具有竞争优势的专业模型。这种农村包围城市的策略可能会在AI行业中创造出更多的创新机会。研究还揭示了AI训练中数据质量胜过数量的重要原理。Lang1模型使用的训练数据虽然在绝对规模上不如大型通用模型但由于数据的高度相关性和代表性反而能够产生更好的效果。这个发现为数据收集和处理策略提供了新的指导原则。从技术发展趋势来看这项研究预示着AI领域可能正在进入一个新的发展阶段。如果说过去十年是大模型时代追求的是模型规模的极限那么未来可能是专业模型时代重点是在特定领域内实现最佳性能。这种转变就像工业革命后期从追求大规模生产转向精细化制造的过程。这种趋势对AI从业者和用户都有重要意义。对于开发者来说这意味着他们不必盲目追求模型规模的增长而应该更多关注如何在特定领域内深耕细作。对于用户来说这意味着他们可能很快就能获得专门针对自己需求优化的AI解决方案而不必依赖于通用但可能不够精确的AI服务。研究团队的工作还为AI伦理和安全提供了新的视角。小规模专业模型相对于大规模通用模型来说更容易理解、调试和控制这有助于降低AI系统的不确定性和风险。在医疗这样的高风险领域这种可控性和可解释性尤为重要。最后这项研究为AI民主化提供了技术支持。如果专业化的小模型能够在特定领域内超越通用大模型那么更多的机构和个人就有可能参与到AI创新中来而不必依赖于少数几家大型科技公司。这种多元化的AI生态系统有利于促进技术创新和公平竞争。说到底纽约大学朗格尼医学中心的这项研究为我们展示了一个振奋人心的可能性在AI技术日益复杂化的今天专业化和精细化仍然具有独特的价值。就像在全球化的时代手工艺人的精湛技艺依然无法被机器完全替代一样在AI的世界里专门针对特定问题训练的小模型也能够在自己的领域内创造奇迹。这个发现给了所有在特定领域内深耕的研究者和从业者以信心你不需要拥有最大的数据集或最强的计算能力只要你对自己的领域足够了解有足够高质量的数据你就有可能创造出在该领域内世界一流的AI系统。对于医疗机构来说这意味着他们不必等待科技巨头为他们提供解决方案而是可以根据自己的具体需求和数据特点开发出真正适合自己的AI助手。这项研究最终告诉我们AI的未来可能不是由少数几个超级大模型主导的而是由无数个专业化小模型组成的丰富生态系统。在这个生态系统中每个模型都在自己最擅长的领域内发挥作用共同为人类社会的进步贡献力量。这不仅是技术发展的新方向也是AI民主化的重要里程碑。QAQ1Lang1模型和GPT-4这些通用AI模型有什么区别ALang1是专门为医疗场景训练的AI模型它不仅学习了网络上的通用知识更重要的是深度学习了纽约大学朗格尼医学中心20年来1.8亿份真实病历数据。而GPT-4等通用模型虽然知识面广但缺乏深度的医疗专业训练。就像专科医生vs全科医生的区别专科医生在自己领域内的诊断能力往往更强。Q2为什么小的Lang1模型能够击败参数量大几百倍的通用AI模型A这主要因为两个原因。首先Lang1接受了大量真实医疗数据的专门训练对医疗场景有深度理解就像一个有多年临床经验的医生。其次医疗预测需要的是专业直觉而非广泛知识就像诊断疾病需要的是对症状的敏锐感知而不是对文学历史的了解。专业化训练让小模型在医疗领域获得了超能力。Q3ReMedE评估体系和传统医疗AI测试有什么不同A传统测试就像让AI做医学选择题考试而ReMedE让AI直接面对真实病人的预测任务包括30天再入院、死亡风险、住院时长等实际医院运营问题。更重要的是ReMedE使用时间分割测试用未来的数据验证过去训练的模型就像测试股票预测需要用未来股价验证一样确保了评估的真实性和实用性。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询