英语网站都可以做哪些内容今年最流行的装修风格
2026/3/30 22:31:14 网站建设 项目流程
英语网站都可以做哪些内容,今年最流行的装修风格,外贸cms什么意思,html旅游网页制作代码本文入选顶会ACL 2025 query意图预测包含类目、品牌等分类任务#xff0c;对电子商务应用至关重要。电商query通常简短且缺乏上下文信息#xff0c;标签间的信息无法利用#xff0c;导致建模所需的先验信息不足。大多数现有的工业级查询分类方法依赖于用户后续的点击行为来…本文入选顶会ACL 2025query意图预测包含类目、品牌等分类任务对电子商务应用至关重要。电商query通常简短且缺乏上下文信息标签间的信息无法利用导致建模所需的先验信息不足。大多数现有的工业级查询分类方法依赖于用户后续的点击行为来构建训练样本从而陷入了马太福音式的恶性循环。此外查询分类的各个子任务缺乏统一的框架导致算法优化效率低下。 我们提出了一种半监督可扩展统一框架SSUF该框架包含多个增强模块用于统一查询分类任务。知识增强模块利用世界知识来增强查询表示解决查询信息不足的问题。标签增强模块利用标签语义和半监督信号来降低对后验标签的依赖。结构增强模块基于复杂的标签关系来增强标签表示。每个模块都具有高度可插拔性可以根据每个子任务的需要添加或移除输入特征。经过大量的离线和在线 A/B 实验结果表明 SSUF 的性能明显优于业界最先进的模型。论文链接 https://aclanthology.org/2025.acl-industry.88/一、业务背景Query意图识别是搜索的基础模块主要目标是准确全面的理解用户的搜索意图信息类目、品牌、产品词等为下游的召回/相关性/排序提供决策信息和特征。query意图识别算法训练以用户点击sku的类目/品牌为标签。这种模型训练数据的构造方式主要存在以下类型的query意图召回率不足问题•泛词的多意图侧重知识类词与具体商品之间需要知识关联例如水果生日礼物灯•歧义词的多意图多意图query下基于样本生成逻辑会偏向主意图弱化甚至丢失次意图导致召回问题例如小米粮食or手机苹果水果or手机•长尾类目冷启由于用户点击数据的马太效应使得大量的长尾类目没有曝光机会类目下商品无法获得点击加深了模型无法得到长尾类目训练数据的问题例如 服务类健康类工业品类•长尾query的多意图由于用户背景和表达习惯不同对同类商品需求会有多种表达方式产生很多长尾query。模型给出的类目不准因此产生的点击数据也不够准确。举例说明例如用户搜“耳机”相关类目包含 862-手机耳机842-蓝牙耳机... 等9个三级类目。由于马太效应系统只能展现出1~2个高点击类目的商品中长尾类目下商品无展现。相比于热门类目长尾类目下的商品很难获得流量和用户点击存在严重的样本不均衡问题导致识别模型无法识别用户对长尾类目下商品的意图。这反过来加重了长尾类目无法获得流量的问题形成恶性循环。二、动机挑战工业界HCL4QC2023 阿里、HQC2024 Amazon和学术界XML-CNN、LEAM、LSANquery意图识别算法存在的问题问题一先验信息不足•电商query短缺上下文•无法完整地建模类目间关系•对语义特征不明显的query模型泛化能力弱•label间信息无法利用导致相关label召回不足问题二马太恶性循环•强势商品导致马太效应•对样本绝对稀疏的query现有的分类范式无能为力•训练依赖后验导致马太恶性循环问题三子任务无法统一•query意图理解各子任务缺少统一框架算法迭代效率低。•子任务各自独立无法互相增强三、算法方案基于半监督可扩展的意图识别统一框架算法方案通过引入先验知识和模型的优化增强模型对电商知识的感知弱化模型对后验反馈的依赖1标签增强-打破后验马太的恶性循环•引入label文本等增强label侧的语义表征。•用知识增强的先验半监督标签打破对后验依赖。•用graph encoder学习融合后的关系矩阵得到label embedding。论文直接使用标签索引label index作为标签嵌入label embedding而是采用 BERT作为标签编码器以学习标签的语义表示。文本编码器的输入是标签的字符序列该序列由两部分组成(1) 标签名称 $n [n_1, n_2, ..., n_L]$以及 (2) 增强的标签辅助信息side information$m [m_1, m_2, ..., m_{L_m}]$。其中辅助信息来源于(1) 标签描述例如产品词、高频搜索查询词等(2) 由大语言模型LLM生成的世界知识。标签的字符序列被输入到 BERT 中以编码标签表示其中 $\mathbf{C}_j \in \mathbb{R}^{1 \times d}$ 是 BERT 最后一层的 “CLS” 表示。同理可以获得查询query的表示 $\mathbf{Q}_i \in \mathbb{R}^{1 \times d}$。2知识增强-增强query侧的语义表征•LLM产出事实知识•用户行为知识论文提出了一个半监督模块来克服后验标签的局限性。然而论文发现对于语义模糊的查询直接计算查询和标签的半监督标签往往是不准确的。例如查询“Black 16pro”指的是一款苹果手机型号但由于语义信息不足其与“手机”和“二手手机”等相关标签的相似度得分较低。这导致半监督信号无法有效地召回相关标签。为了解决这个问题论文引入了一个知识增强模块来改进用于半监督标记的查询表示。可以使用 (1) 后验知识例如用户经常点击或购买的产品标签以及 (2) 从 LLM大语言模型提取的世界知识作为输入。为了获得查询的世界知识论文将查询和相关产品输入到开源 LLM 中以总结出简短描述该描述可能包含相关的查询、类别、产品等。有了这些信息模型可以全面地编码查询的语义表示。在获得后验知识和世界知识后将它们输入到一个共享的文本编码器中从而获得知识嵌入 $\mathbf{K} \in \mathbb{R}^{|K| \times d}$。为了将这些知识嵌入与查询表示 $\mathbf{Q}_i$ 融合使用了一个注意力模块其公式如下其中 $\mathbf{\alpha}$ 是注意力分数$\mathbf{q}_i^{\prime} \in \mathbb{R}^{1 \times d}$ 是最终融合后的查询表示。论文计算融合后的查询表示与标签表示之间的相似度分数并将其作为半监督标签。具体来说其中 $\mathbf{s}_i \in \mathbb{R}^{1 \times |C|}$ 是查询 $q_i$ 与所有类别之间的相关性分数。$\tau$ 是用于过滤低分种类别的阈值。$\mathbf{y}^{semi}_{ij}$ 是半监督标签。查询和标签都使用相同的文本编码器但它们的词分布是不同的。将半监督信号的梯度回传到半监督标签模块可能会产生循环依赖潜在地导致模型崩溃model collapse。为了防止这种情况禁用了来自该分支的梯度回传。3结构增强-增强label侧的关系表征•基于标签间语义关系、共现关系、结构关系等构建标签关系图。•多种关系邻接矩阵融合与学习。关系图构建首先论文通过统计训练样本中类别共同出现的次数获取类别间的共现关系。随后计算两个类别的条件概率并得到共现邻接矩阵其中$N(c_i, c_j)$ 是标签 $c_i$ 和 $c_j$ 的共现频次$N(c_i)$ 表示标签 $c_i$ 的出现频次。$\alpha$ 是用于过滤低相关性边权的阈值。$\mathbf{A}^{coo} \in \mathbb{R}^{|C| \times |C|}$ 即为共现邻接矩阵。接着通过计算每对类别之间的余弦相似度获取类别间的语义相似度关系邻接矩阵其中$\beta$ 是过滤低相关性边权的阈值。对于某些查询分类子任务如意图或类别预测各级标签之间存在层级结构Hierarchical Structure。这种结构有助于加强相关标签之间的联系并削弱无关标签之间的紧密度。为了利用这一结构将其编码为层级关系邻接矩阵其中$Child(k)$ 是节点 $k$ 的子节点集合且 $i, j \in Child(k)$。$m_j$ 是数据集中节点 $j$ 被用户点击的频次。$|C|$ 表示所有标签的数量包括一级标签、二级标签和叶子标签而 $|C|$ 则表示叶子标签的数量。关系图融合和学习除了上述三种标签关系图外每个子任务还可以根据现有的输入数据和业务特性相应地增加或减少标签图的数量。在获得标签相关性矩阵后将这些矩阵进行融合并使用归一化方法~\cite{kipf2017semi}对融合后的矩阵进行归一化处理其中$\rightarrow$ 表示赋值符号。赋值过程如图~\ref{model_structure}所示。$\mathbf{A} \in \mathbb{R}^{ |C| \times |C|}$ 为最终的邻接矩阵。$\mathbf{I}$ 是单位矩阵。$\mathbf{D}$ 是对角度矩阵diagonal degree matrix其元素为 $\mathbf{D}_{ii} \Sigma _{j}\mathbf{A}_{ij}$。最后利用 GCN~\cite{kipf2017semi} 从最终的邻接矩阵 $\mathbf{A}$ 中学习节点的表示 $\mathbf{H} \in \mathbb{R}^{|C| \times d}$。虽然长尾标签的训练样本有限但通过复杂的标签关系这些标签可以轻易地与其相关的热门Hot标签建立联系。这种关系使得梯度能够从热门标签的样本传递到长尾标签的样本从而实现对长尾标签更有效的表示训练并缓解了后延标签posterior labels的局限性。4统一框架-可扩展意图识别统一框架•基于各子任务的相似性设计多标签分类的统一框架。•基于子任务的差异性设计可插拔的增强子模块。•可支持意图识别多任务联合训练各任务之间信息互相补充相互增强。论文将用户的输入查询 $\mathbf{q}_i \in \mathbb{R}^{1 \times d}$ 分类到叶子标签空间leaf labels space而非所有层级的标签。因此从 $\mathbf{H}$ 中提取并获得叶子标签的嵌入 $\mathbf{H}_l \in \mathbb{R}^{|C| \times d}$。最后论文使用一个交互层将查询投影到标签空间其中 $\mathbf{b} \in \mathbb{R}^{1 \times |C|}$ 是偏置项$\widehat{\mathbf{y}}_i \in \mathbb{R}^{1 \times |C|}$ 是查询 $q_i$ 的预测标签分布。为了利用后验标签和先验标签优化模型将它们融合如下其中 $\mathbf{y}_i^{click}$ 是查询 $q_i$ 被点击标签的 Multi-hot 编码$\mathbf{y}{i}$ 的取值范围为 $\mathbf{y}{i} \in [0, 1]$。使用二元交叉熵损失Binary Cross-Entropy Loss作为训练模型的目标函数。四、实验效果4.1 离线效果对比方法•学术界多标签分类算法XML-CNN、LEAM、LSAN•工业界query意图分类算法DPHA、MMAN、HCL4QC2023 阿里、SMGCN2024 JD、HQC2024 Amazon•消融分析◦w/o KE移除知识增强模块。◦w/o KE LE移除知识增强和标签增强模块。◦w/o SE移除结构增强模块。◦w/o SE-S移除结构增强模块中的语义相似关系增强结构。◦w/o SE-C移除结构增强模块中的标签共现关系增强结构。◦w/o SE-H移除结构增强模块中的标签层次关系增强结构。•与多标签基线模型和查询分类方法相比SSUF 在这两个任务上F1值都表现出了显著的效果优势。•当移除 SE 模块时与完整的SSUF 相比两个数据集上的性能均出现轻微下降。移除共现图时也观察到了类似的现象这表明相似度图或共现图包含了后验数据中所忽略的额外信息。•当我们同时剔除相似度图和共现图时F1下降超过了 5%。在移除三个模块后F1 值均下降了 8%。进一步证明SSUF 中的所有这些组件提供了彼此互补的信息且对于query分类任务而言是不可或缺的。4.2 在线部署与A/B测试线上部署为了降低部署延迟SSUF 的文本编码器采用了与线上模型一致的四层 BERT 模型。此外我们只需缓存 GCN 生成的类别向量而无需直接部署 GCN。这样我们就可以在不增加任何额外计算量和延迟的情况下部署 SSUF。上图展示了 SSUF 在搜索系统中的作用。当用户输入query时SSUF 首先预测用户的意图并识别相关类别并将此信息传递给下游模块。然后基于向量的检索模块查找与这些类别关联的条目。检索到的商品与来自其他检索源的商品相结合并由一个子模块进行过滤以移除与用户意图不匹配的商品。过滤后的商品随后被发送到排序模块。A/B测试•与在线模型相比SSUF 在业务指标上取得了显著提升。广告曝光量Impressions和点击量Clicks的增加表明广告系统召回了更多相关的商品且这些商品与用户的偏好及搜索意图有效契合。•移除 SSUF 的任意子模块均会导致性能下降这进一步验证了各模块的有效性及其在 SSUF 内部的协同整合作用。•离线和在线实验结果均一致证明了 SSUF 的高效性、通用性与可扩展性。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询