有免费的网站做农家院宣传成都十大广告公司
2026/1/17 0:52:51 网站建设 项目流程
有免费的网站做农家院宣传,成都十大广告公司,crm客户关系管理平台,清理wordpress头部原文#xff1a;towardsdatascience.com/how-spotify-implemented-personalized-audiobook-recommendations-09386a93ace2 ? 简介 Spotify 是全球最受欢迎的音乐流媒体应用。除了歌曲和专辑#xff0c;Spotify 还拥有大量的播客和脱口秀节目。他们最近在应用中推出了有声书…原文towardsdatascience.com/how-spotify-implemented-personalized-audiobook-recommendations-09386a93ace2?简介Spotify 是全球最受欢迎的音乐流媒体应用。除了歌曲和专辑Spotify 还拥有大量的播客和脱口秀节目。他们最近在应用中推出了有声书。像任何其他服务一样Spotify 希望确保其有声书推荐能够满足用户的偏好。因此他们开发了一个基于图神经网络推荐算法的个性化有声书推荐系统。本文讨论了 Spotify 在提供个性化有声书推荐时面临的挑战以及为解决这些挑战所进行的探索性数据分析。它探讨了 Spotify 的创新解决方案一个旨在增强有声书个性化的双塔图神经网络模型。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4f06011303cc3498b5d42335eed17c85.png图片由Jukka Aalho在Unsplash提供挑战由于有声书是 Spotify 内容库中的新加入项他们面临了一些挑战——由于内容类型是新生成的存在数据稀缺问题。与其它内容类型相比有声书的用户互动较少。许多用户甚至不知道 Spotify 上有有声书。目前有声书仅对高级用户开放但最初是以直销模式推出的这意味着用户必须明确付费才能收听有声书。Spotify 可用于构建推荐系统的明确信号更加稀缺。本文将探讨他们进行的探索性数据分析、模型架构、模型部署和模型评估。探索性数据分析Spotify 分析了用户已知的历史音乐和播客偏好以及播客与有声书之间的内容相似性。Spotify 的初步数据分析显示有声书与播客之间存在强烈的关联。用户与播客的互动对于理解有声书用户偏好非常有价值。例如一本关于企业家传记的有声书与一位企业家嘉宾参与的播客有相似之处。他们观察到超过 70%的有声书用户之前曾与播客互动过。然而25%的用户贡献了 75%的播放时长而 20%的有声书贡献了 80%的播放时长这表明数据稀缺。Spotify 分析了其在平台上 90 天内的超过 8 亿个流。分析数据仅限于播客和有声书流。他们研究了用户之间的共同收听模式并进行了嵌入分析。他们使用余弦相似度作为距离度量并绘制了余弦相似度分布图。…/Images/f9f2e870519d47e67943568b9e57fd8b.png探索性数据分析。图片来源[1]观察 1 – 有声书和播客偏好的相似性Spotify 采样了 10000 对用户这些用户至少共同收听了一本有声书换句话说共同收听并随机采样了 10000 对用户。他们从他们的生产播客推荐模型中获取用户嵌入以研究播客和有声书之间的相似性。至少共同收听了一本有声书的用户其播客嵌入相似度得分往往高于随机选择的用户见图 2B。这表明与随机选择的用户相比具有相似有声书口味的用户在播客偏好上更为相似。观察 2 – 有声书内容很重要Spotify 使用 Sentence-BERT 为所有有声书和播客生成内容嵌入。他们使用了诸如标题和描述这样的内容元数据。Spotify 随机采样了至少由一个用户共同收听的 10000 对有声书和 10000 对有声书。共同收听的有声书对在它们的内容嵌入之间的余弦相似度比随机选择的有声书对更高见图 2C。观察 3 – 播客互动将有助于理解有声书偏好Spotify 构建了一个播客-有声书交互图。播客和有声书代表节点。如果至少有一个用户共同收听了它们这些节点就会连接起来。他们采样了至少由一个播客连接的 10000 对有声书并随机采样了 10000 对有声书。他们使用 Sentence-BERT 内容嵌入的余弦相似度进行了这一分析。与随机选择的有声书相比与同一播客共同收听的有声书具有更高的余弦相似度。模型架构Spotify 推出了一种 2T-HGNN 模型该模型由异构图神经网络HGNN和双塔2T模型组成。这个模型是可扩展的适用于实时服务且模块化的这意味着 HGNN 和 2T 可以独立使用并适用于各种其他商业用例。…/Images/e51fd11ac36698965b3b65047639e9c5.png2T-HGNN 模型架构。图片来源[1]异构图神经网络模型Spotify 构建了一个由两种类型的节点组成的共听异构图播客和有声书。如果至少有一个用户同时听过两者则节点之间的边是连接的。因此这个图包含了有声书-有声书、有声书-播客和播客-播客关系的信息。这些节点由 Sentence-BERT 内容嵌入表示这些嵌入是从标题和描述等内容元数据中生成的。HGNN 模型在所有三种关系上进行了训练因为它包含比仅有声书互动更多的关于内容和用户偏好的信息。这解决了数据稀缺问题。这是一个具有 2 跳消息传递的 GraphSAGE 模型。例如如图所示如果有声书 A1 连接到播客 P11 跳关系而播客 P1 连接到有声书 A4那么这意味着有声书 A1 和播客 A4 在某种程度上是相关的2 跳关系。GraphSAGE 通过从每个节点的局部邻域中采样和聚合嵌入来更新节点嵌入。对于每个节点它采样一个固定数量的邻居聚合它们在 2 跳内的嵌入并将这些嵌入与节点的嵌入相结合。这使得 GraphSAGE 能够将嵌入推广到新的节点从而解决冷启动问题。HGNN 模型通过对比损失函数进行优化。损失函数旨在增加图中连接节点正对样本之间的余弦相似度并减少未连接节点负对样本之间的余弦相似度。他们遍历图中的所有边来训练模型。他们在梯度下降优化的每一步中保留一个正对样本并随机采样负对样本。共听图是不平衡的。有声书-有声书互动比播客-播客互动少。由于有声书-有声书互动的稀缺他们通过减少播客-播客互动来缓解不平衡优先考虑主要目标学习有声书偏好并更好地训练模型。双塔模型双塔模型2T架构在推荐系统社区中获得了巨大的流行度。2T-HGNN 的双塔组件通过用户互动学习有声书和播客嵌入。2T 组件引入了用户个性化。2T 由两个深度神经网络组成称为塔一个用于用户表示另一个用于增强有声书表示。用户塔接收诸如用户人口统计信息、用户的音乐偏好嵌入以及用户的有声书和播客偏好嵌入等输入。音乐嵌入是从 Spotify 的内部音乐推荐算法中获得的。有声书和播客偏好嵌入是通过取过去 90 天内用户与之互动的有声书和播客嵌入的平均聚合值来获得的。听书塔接收诸如有声书元数据类型、语言、标题和描述的 Sentence-BERT 内容嵌入以及 HGNN 嵌入等输入。2T 模型从每个塔中生成两个输出嵌入用户嵌入和有声书嵌入。2T 模型使用对比损失函数进行训练该函数试图在存在交互时将用户嵌入投影到有声书嵌入附近在没有交互时将用户嵌入投影到有声书嵌入较远的位置。交互主要是像“流”这样的强信号。后来Spotify 分析了各种弱信号如“付费意图”、“关注”和“预览”并将它们添加为 2T 模型训练的用户交互。模型部署2T-HGNN 每天进行训练。首先训练 HGNN 模型。生成的有声书和播客嵌入随后传递给 2T 模型进行训练。2T 模型生成增强的有声书嵌入存储在向量数据库中用于近似最近邻匹配。在推理过程中用户特征/嵌入通过 2T 的用户塔传递以获得增强的用户嵌入。随后在增强的用户嵌入和有声书索引之间进行向量相似度搜索以获取用户的前 k 本有声书。2T-HGNN 的模块化结构使得可以在不同于 2T 模型的时间表上训练 HGNN。例如HGNN 可以每周训练一次以降低成本而 2T 模型每天更新以保持用户表示的新鲜度。模型评估离线评估该模型最初使用标准排名指标如 Hit-RateK、平均倒数排名和覆盖率进行离线评估。Hit-RateK此指标衡量至少有一个相关项目出现在前 K 个推荐项目中的用户比例。平均倒数排名 (MRR)此指标评估推荐列表中第一个相关项目的排名位置。它计算此项目的倒数排名例如第一位置为 1第二位置为 0.5 等并平均所有用户的此分数以反映整体排名质量。覆盖率此指标衡量所有用户推荐的项目的多样性。…/Images/cbe10cbc0f11ba25f8d0fcca9208c6bd.png在 Hit Rate、平均倒数排名和覆盖率等指标上进行离线模型评估。图片来源[1]将 2T-HGNN 模型的表现与流行度模型基于流行度的排名、HGNN-w-users一个以用户为节点的三分 GNN、LLM-KNN基于内容的嵌入相似度搜索和 2T一个没有 HGNN 嵌入的两塔模型等模型进行了比较。2T-HGNN 在 Hit-rate10 和 MRR 指标上优于所有模型。在覆盖率方面表现不佳这意味着 2T-HGNN 存在流行度偏差。在线评估进行了一项 A/B 测试使用 2T-HGNN 作为候选生成器来评估其在 Spotify 首页“为你推荐的有声书”部分的在线性能。这个实验涉及了 1150 万用户分为三个组一组使用当前的生产模型一组使用 2T 模型的推荐另一组使用 2T-HGNN 模型。以下业务指标用于在线评估流率– 这个指标跟踪由推荐生成有声书流的数量。“率”用户收听到的流数量除以展示给用户的流数量用于对数字进行标准化以便进行公平的比较。新有声书启动率– 这个指标跟踪用户开始收听的新有声书的数量。“率”用户开始播放的新流数量除以展示给用户的新流数量用于对数字进行标准化以便进行公平的比较。…/Images/e91167259b2b7e9c8e8c709ea0689781.png使用流率和新有声书启动率等指标进行的 A/B 测试结果。图片来源([1])结果显示2T-HGNN 显著提高了新有声书启动率并导致有声书流率更高而 2T 模型在启动率上只显示出较小的增长对流率没有显著影响。参考文献 –通过图神经网络在 Spotify 进行个性化有声书推荐 (acm.org)使用图模型个性化有声书和播客 – Spotify 研究室 : Spotify 研究室 (atspotify.com)希望您觉得这篇文章有启发性。感谢阅读

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询