2026/2/9 6:31:19
网站建设
项目流程
集团网站怎么建设,网站素材 下载,wordpress 音乐,徐州人才网档案查询3 Questions: On biology and medicine’s “data revolution”
Caroline Uhler是麻省理工学院的Andrew (1956) and Erna Viterbi工程学教授#xff0c;同时也是某研究所的电气工程与计算机科学教授#xff0c;以及某中心#xff08;隶属于某机构#xff09;的主任。Uhler对…3 Questions: On biology and medicine’s “data revolution”Caroline Uhler是麻省理工学院的Andrew (1956) and Erna Viterbi工程学教授同时也是某研究所的电气工程与计算机科学教授以及某中心隶属于某机构的主任。Uhler对科学家揭示生物系统因果关系的所有方法都感兴趣范围从观测变量的因果发现到因果特征学习与表征学习。在这次访谈中她讨论了生物学中的机器学习、亟待解决的问题领域以及某中心正在开展的前沿研究。问某中心围绕四个自然的生物组织层次蛋白质、细胞、组织和生物体设立了四个重点研究领域。在当前机器学习的发展背景下是什么使得现在正是解决这些特定问题类别的恰当时机生物学和医学目前正在经历一场“数据革命”。大规模、多样化数据集的可用性——从基因组学、多组学到高分辨率成像和电子健康记录——使得现在成为一个绝佳时机。廉价且准确的DNA测序已成为现实先进的分子成像变得常规单细胞基因组学则能够对数百万个细胞进行分析。这些创新——以及它们产生的大规模数据集——已经将我们带到了一个生物学新时代的门槛。在这个时代我们将能够超越描述生命的单元如所有蛋白质、基因和细胞类型转而理解“生命程序”例如基因回路和细胞间通讯的逻辑这些逻辑构成了组织模式的基础以及构成基因型-表型图的分子机制。与此同时在过去十年中机器学习取得了显著进展像BERT、GPT-3和ChatGPT这样的模型在文本理解和生成方面展示了先进能力而视觉Transformer和多模态模型如CLIP已在图像相关任务中达到人类水平的表现。这些突破提供了强大的架构蓝图和训练策略可以适用于生物数据。例如Transformer可以像处理语言一样对基因组序列进行建模而视觉模型可以分析医学和显微镜图像。重要的是生物学不仅有望成为机器学习的受益者也将成为新的机器学习研究的重要灵感来源。就像农业和育种催生了现代统计学一样生物学也有可能激发新的、甚至更深刻的机器学习研究方向。与推荐系统和互联网广告等领域不同在这些领域中没有自然法则需要发现预测准确性是最终的价值衡量标准在生物学中现象是可物理解释的因果机制才是最终目标。此外生物学拥有遗传和化学工具能够在扰动筛选方面达到其他领域无法比拟的规模。这些结合的特点使得生物学既特别适合从机器学习中极大地受益也适合作为其深刻的灵感源泉。问换个角度哪些生物学问题仍然对我们目前的工具集有很强的抵抗性是否存在一些领域也许是疾病或健康方面的具体挑战您认为已经成熟到可以解决问题了机器学习在预测任务方面表现出色例如图像分类、自然语言处理和临床风险建模。然而在生物科学中预测准确性往往是不够的。这些领域的根本问题本质上是因果性的对特定基因或通路的扰动如何影响下游细胞过程干预导致表型变化的机制是什么主要针对从观察数据中捕捉统计关联而优化的传统机器学习模型往往无法回答此类干预性查询。生物学和医学领域也迫切需要激发机器学习在基础理论上的新发展。该领域现在拥有高通量扰动技术——如集合CRISPR筛选、单细胞转录组学和空间谱分析——这些技术能在系统性干预下生成丰富的数据集。这些数据模态自然呼唤超越模式识别、支持因果推断、主动实验设计以及在具有复杂、结构化潜在变量的环境中进行表征学习的模型发展。从数学角度来看这需要解决可识别性、样本效率以及组合、几何和概率工具集成等核心问题。我相信应对这些挑战不仅将释放对细胞系统机制的新见解也将推动机器学习的理论边界。关于基础模型该领域的一个共识是我们距离创建一个横跨多个尺度的、类似语言领域中ChatGPT所代表的、能够模拟所有生物现象的数字生物体式的整体生物学基础模型还很遥远。尽管新的基础模型几乎每周都在涌现但这些模型迄今为止都专注于特定尺度和问题并且聚焦于一种或几种模态。在根据蛋白质序列预测其结构方面已经取得了重大进展。这一成功突显了迭代性机器学习挑战如CASP的重要性这些挑战在基准测试蛋白质结构预测的最先进算法并推动其改进方面发挥了重要作用。某中心正在组织一些挑战以提高机器学习领域的认识并在开发解决因果预测问题的方法上取得进展这对于生物医学科学至关重要。随着单基因扰动在单细胞水平数据的可用性增加我相信预测单个或组合扰动的效果以及哪些扰动可以驱动期望的表型是可能解决的问题。通过我们的细胞扰动预测挑战CPPC我们的目标是提供客观测试和基准测试预测新扰动效果的算法的手段。另一个该领域已取得显著进展的领域是疾病诊断和患者分流。机器学习算法可以整合不同来源的患者信息数据模态生成缺失的模态识别我们可能难以发现的模式并帮助根据疾病风险对患者进行分层。虽然我们必须对模型预测中潜在的偏见、模型学习“捷径”而非真正相关性以及在临床决策中自动偏差的风险保持警惕但我相信这是机器学习已经产生重大影响的领域。问我们来谈谈最近从某中心传出的一些头条新闻。您认为人们应该对哪些当前的研究特别感到兴奋为什么在与某机构的Dr. Fei Chen合作中我们最近开发了一种用于预测未知蛋白质亚细胞定位的方法称为PUPS。许多现有方法只能根据它们所训练的特定蛋白质和细胞数据进行预测。然而PUPS结合了蛋白质语言模型和图像修复模型以同时利用蛋白质序列和细胞图像。我们证明了蛋白质序列输入能够泛化到未知蛋白质而细胞图像输入能够捕捉单细胞变异性从而实现细胞类型特异性的预测。该模型学习每个氨基酸残基对于预测的亚细胞定位有多重要并且可以预测由于蛋白质序列突变而导致的定位变化。由于蛋白质的功能与其亚细胞定位严格相关我们的预测可能为潜在疾病机制提供见解。未来我们旨在扩展此方法以预测细胞中多个蛋白质的定位并可能理解蛋白质-蛋白质相互作用。我们与苏黎世联邦理工学院的长期合作者G.V. Shivashankar教授此前已经展示了当与机器学习算法结合时用荧光DNA嵌入染料染色以标记染色质的简单细胞图像如何能提供大量关于细胞在健康和疾病状态下状态和命运的信息。最近我们进一步深化了这一观察并通过开发Image2Reg方法证明了染色质组织与基因调控之间的深层联系该方法能够从染色质图像中预测未知的基因或化学扰动基因。Image2Reg利用卷积神经网络来学习受扰动细胞染色质图像的信息表征。它还采用图卷积网络创建基因嵌入该嵌入根据蛋白质-蛋白质相互作用数据并结合细胞类型特异性转录组数据捕捉基因的调控效应。最后它学习了由此产生的细胞的物理和生化表征之间的映射使我们能够基于染色质图像预测被扰动的基因模块。此外我们最近最终确定了一种用于预测未知组合基因扰动结果并识别扰动基因之间发生的相互作用类型的方法。MORPH可以指导设计针对“实验室循环”实验的最具信息性的扰动。此外基于注意力的框架理论上使我们的方法能够识别基因之间的因果关系从而为潜在的基因调控程序提供见解。最后由于其模块化结构我们可以将MORPH应用于以各种模态测量的扰动数据不仅包括转录组学还包括成像。我们对这种方法在高效探索扰动空间、通过将因果理论与重要应用联系起来以促进我们对细胞程序理解的潜力感到非常兴奋。这对于基础研究和治疗应用都具有重要意义。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享