2026/2/11 16:45:18
网站建设
项目流程
建网站郑州,阿里指数查询官网,包装设计公司名字,东莞网站建设推广服务引言#xff1a;解决业务问题的数据科学
在某个机构的专业服务团队中#xff0c;首席数据科学家埃琳娜埃利希的工作涉及从时间序列建模、计算机视觉项目到自然语言处理问题等多个领域。她的任务是为媒体、能源和体育等多个行业的客户解决数据问题[citation:2]。
客户有时会带…引言解决业务问题的数据科学在某个机构的专业服务团队中首席数据科学家埃琳娜·埃利希的工作涉及从时间序列建模、计算机视觉项目到自然语言处理问题等多个领域。她的任务是为媒体、能源和体育等多个行业的客户解决数据问题[citation:2]。客户有时会带着特定的模型构想前来咨询寻求构建或优化的建议。但更多时候客户仅仅有一个需要解决的商业问题。埃利希会与他们合作用数月到数年的时间开发一套解决方案并由客户在日后自行维护。她很喜欢这种无需更换工作或团队就能将数据科学应用于不同垂直领域的能力[citation:2]。核心挑战精准预测“重尾”时间序列中的异常值埃利希与NFL的合作是将科学应用于商业挑战的一个范例。她和同事独立开发了一种用于模拟“重尾”时间序列的方法。这类数据序列中可能出现剧烈且不可预测的尖峰例如一年中的极端降雨事件或某个产品突然爆红导致需求激增[citation:2]。许多统计方法在处理更均匀的曲线时表现良好但面对“重尾”时间序列的“噪声”时却容易失效。然而准确描述这些“尾部”特征至关重要。以心电图为例必须能够判断心率的峰值是疾病的信号还是仅仅是运动开始的标志。当时的预测模型无法可靠地识别此类异常[citation:2]。在几个月的时间里埃利希与某机构的两位研究员共同开发了解决方案并在2021年国际学习表征会议ICLR的RobustML研讨会上发表了成果[citation:2]。技术方案拼接分箱-帕累托分布方法他们的解决方案名为“拼接分箱-帕累托分布”方法该方法融合了两种统计技术分箱分布和帕累托分布。帕累托分布源于意大利经济学家维尔弗雷多·帕累托的“二八法则”即80%的结果来自20%的原因。这种幂律关系经过推广形成了极值理论的第二定理该定理指出任何分布的尾部都可以用广义帕累托分布来很好地近似[citation:2]。研究人员将此与分箱分布相结合分箱分布可将较大数据集内的区域离散化。他们的方法有效地隔离并聚焦于时间序列中的尖峰从而提升了对这些极端值的处理能力并能随着时间的推移校准对它们的估计最终实现了更准确的重尾预测[citation:2]。实际应用构建全新的NFL传球评分这项工作恰好契合了NFL的一项需求。虽然存在多种四分卫评分体系但联盟希望有一个能评估传球表现的指标。然而一个有意义的传球评分必须超越传球码数、达阵数和被抄截数要能反映在特定比赛情境下取得这些结果的难度从而真正评估四分卫的表现[citation:2][citation:4]。由此诞生的NFL传球评分正是基于埃利希的“拼接分箱-帕累托分布”方法开发的。该评分能够将四分卫的表现置于联盟整体预期表现的背景中进行评估[citation:2][citation:8]。这是因为它能够估计“重尾”——在这里指的是四分卫传球中的那些特殊时刻——并为其在总评分中分配适当的权重[citation:2]。NFL在今年早些时候即超级碗之前正式推出了新的传球评分[citation:2]。这个案例体现了数据科学与机器学习技术正被越来越多地应用于体育数据分析领域以构建更精细、更具洞察力的球员表现评估模型[citation:2][citation:4][citation:7]。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享