鞍山做网站排名企业形象vi设计案例分析
2026/4/4 17:55:28 网站建设 项目流程
鞍山做网站排名,企业形象vi设计案例分析,沧州哪里做网站,公司网站asp后台维护摘要 现实世界的环境本质上是不稳定的#xff0c;随着时间的推移经常引入新的类别。 这在时间序列分类中尤其常见#xff0c;例如医疗保健中新疾病分类的出现或人类活动识别中添加新活动。 在这种情况下#xff0c;需要一个学习系统来有效地吸收新的类#xff0c;同时避免…摘要现实世界的环境本质上是不稳定的随着时间的推移经常引入新的类别。 这在时间序列分类中尤其常见例如医疗保健中新疾病分类的出现或人类活动识别中添加新活动。 在这种情况下需要一个学习系统来有效地吸收新的类同时避免旧类的灾难性遗忘从而产生类增量学习CIL问题。 然而尽管图像和语言领域取得了令人鼓舞的进展但时间序列数据的 CIL 的研究仍然相对不足。 现有研究存在实验设计不一致的问题需要对各种数据集的方法进行全面评估和基准测试。 为此我们首先概述时间序列类增量学习TSCIL问题强调其独特的挑战并涵盖先进的方法。 此外基于标准化设置我们开发了统一的实验框架支持新算法的快速开发、新数据集的轻松集成以及评估过程的标准化。 使用该框架我们对标准场景和隐私敏感场景中的各种通用和特定于时间序列的 CIL 方法进行了全面评估。 我们广泛的实验不仅提供了支持未来研究的标准基线而且还揭示了各种设计因素例如标准化层或内存预算阈值的影响。 代码可在 https://github.com/zqiao11/TSCIL获取。介绍时间序列TS数据在声学、医疗保健和制造等各个领域发挥着关键作用[55]。 用于时间序列分类的典型深度学习方法[29]是在静态离线数据集上进行训练的这些数据集是在训练之前收集的并且假设数据是独立且同分布i.i.d.的。 然而现实世界的应用程序经常挑战这种独立同分布。 假设因为实际系统通常在具有非平稳数据流的动态环境中运行其中底层数据分布不断变化。 例如用于人类活动识别或手势识别的 TS 分类模型应该能够适应新引入的类别 [11, 47]。 在这种情况下开发自适应学习器的挑战不仅在于从传入数据中无缝吸收新概念还在于同时保留和积累所有遇到的类别的知识。 这项工作的主要挑战源于众所周知的稳定性-可塑性困境 [23]其中模型必须足够稳定以记住其过去的知识同时具有可塑性以容纳新信息。 然而目前的研究结果[34, 43]表明神经网络的可塑性太强因为它们无法在学习新知识的同时保留旧知识这被称为灾难性遗忘现象[50]。 因此开发有效的方法来实现促进学习新技能和减轻灾难性遗忘之间的良好权衡在持续学习CL的发展中发挥了核心作用。 我们付出了巨大的努力来解释学习CIL[57, 73] 成为最突出和最具挑战性的一项。 然而大多数此类研究仅探索图像[49]或语言[33]应用。 另一方面时间序列尽管具有普遍性和连续性但仍然受到社区的研究。 现有研究在实验设置的各个方面都存在不一致的问题包括数据集[21, 35]、标准化[11, 54]和学习协议[47, 67]等。图1动态任务序列上的时间序列分类-增量学习(TSCIL)过程示意图。每个任务都引入了新的类(c1到c6)由清晰的任务边界分隔。该模型在任务上接受顺序训练。在对每项任务进行训练后该模型需要识别到目前为止遇到的所有类而不会出现灾难性的遗忘。对先前学习的参数进行调整以适应下一任务的学习。为了弥补这一差距本文是一项开创性的工作专门关注时间序列数据的类增量学习TSCIL。 我们首先提供 TSCIL 的概述包括问题定义、具体挑战和相关工作。 我们重点研究 TS 数据的独特特征例如数据隐私和类内变化及其对 CIL 的影响。 关键贡献是基准的开发和开源以促进跨各种现实数据集的通用和特定于 TS 的 CIL 方法的标准化评估。 该框架为研究社区提供了有用的资源提供了一个适应性强的代码库可以轻松集成新的数据集、算法和定制的学习设置从而使研究人员能够进一步开发 TSCIL 领域。 我们的实验从标准学术设置开始基于正则化和经验回放评估通用和 TS 特定的 CIL 方法 [16, 72]。 我们进一步研究了不同因素对 CIL 性能的影响包括标准化、内存预算和分类器类型。 除了标准设置之外我们还考虑了两个与 TS 模态特别相关的特定应用场景。 首先我们研究隐私敏感环境其中 TS 数据与个人用户紧密相关并且不允许存储以前任务的历史样本。 因此我们探索生成重放策略[64]并研究其在这种具有挑战性的环境中的表现。 其次我们考虑类内差异对 TSCIL 的影响。在大多数数据集中时间序列是从不同的主题或来源收集的每个主题或来源都表现出独特的输入域。 因此我们研究如何整合这些主观信息来进一步改善 TSCIL 结果。 总之我们的贡献有三个1我们提出了 TSIL 的系统概述包括问题定义、挑战和现有方法。 2我们引入了统一的评估框架包括公共数据集、标准协议和一系列方法以促进该领域的进一步研究。 (3) 我们对标准学术设置和特定应用场景中最先进的 CIL 方法进行了全面比较揭示了时间序列数据背景下现有方法的前景和局限性。问题定义类增量学习 (CIL) 与时间序列类增量学习 (TSCIL) 问题定义1. 基础设置与任务定义类增量学习Class-Incremental Learning, CIL涉及代理从动态数据流中不断学习新类。遵循标准学术设置 [34, 69, 70]CIL 将数据流表示为一系列任务其中任务按不同步骤顺序出现。步骤的任务定义为其特征包括标签空间训练数据其中是样本数。我们假设每个任务具有相同数量的不相交类即当时且。我们专注于这种具有非重叠类的设置因为旧类的重新出现会减少保留过去知识的挑战 [85]。2. 模型训练与参数优化给定任务序列模型以增量方式针对所有任务进行训练。正式地在任务中我们用表示感兴趣的模型它由参数化。学习任务后的优化参数定义为。在任务中具有参数的模型适应新任务并且仅使用进行训练而无法访问过去或未来的训练数据集。注意可以选择使用具有固定预算的内存缓冲区它存储历史样本的集合以供将来重放详细信息请参见附录 A.1。3. 学习目标学习目标是使模型能够有效地学习新任务同时保留先前任务的知识。用表示分类损失学习整个任务序列的最终学习目标表述为公式 (1)4. 时间序列类增量学习 (TSCIL)我们采用此标准 CIL 设置处理时间序列数据从而定义时间序列类增量学习TSCIL问题。在此设置中见图 1每个样本都是一个时间序列其中表示通道/变量的数量表示序列的长度。TSCIL 不仅继承了标准 CIL 的限制而且也有其自身的挑战。归一化在基于图像的 CIL 中通常使用 ImageNet [60] 计算的统计数据对图像进行归一化将像素密度缩放到 [0, 1] 的范围。 然而由于缺乏包含许多模式的大规模数据集此类方法并不直接适用于时间序列。鉴于时间序列数据中的数据归一化经常被忽视[11,36,82]我们在 4.2 节中提出了这个问题的实用解决方案。• 数据隐私涉及TS 数据的应用程序通常与保护数据隐私的需要相关联[20]。 这就需要采取一些方法来避免保留原始用户数据以保护隐私。 使用合成样本已被证明是保护用户隐私的可行解决方案 [64, 81]第 5.2 节对此进行了特别评估。• 类内变化时间序列通常表现出比图像更大的类内变化[67]。 这主要是因为现实世界的时间序列是从各种来源或主题收集的每个来源或主题都有自己的特征 [5, 61]。 这种现象导致持续学习中的复杂交互不仅随着时间的推移引入新的类而且一个类可能组成多种模式。 我们在第 5.3 节中研究了这个问题。在完成每个任务后模型将在所有先前学习任务的测试集上进行评估。模型需要在未提供任务标识符的情况下对来自的所有类别进行分类。模型的性能将使用第 4.4 节中介绍的指标进行评估。3 相关工作在现有的 TSCIL 文献中一个普遍的主题是已建立的通用 CIL 方法在时间序列场景中的应用。 文献[11]提出了一种基于EWC[34]和iCaRL[57]的在线用户授权框架根据生物医学TS信号不断识别新用户。 [36]将经典的基于正则化和基于重放的方法应用于来自移动和嵌入式传感应用的时间序列。 [21]使用循环神经网络RNN在简单的 TS 数据集上评估各种通用的 CIL 方法例如 Stroke-MNIST [24] 和 AudioSet [22]。 这些工作的结果展示了使用通用 CIL 方法来减轻 TS 数据灾难性遗忘的有效性。 除了适应图像领域的现有方法之外还提出了针对时态数据的创新 CIL 算法。 [19]和[82]专注于RNN架构并提出了特定的基于正则化的CIL算法。 DT2W [54]提出了一种基于soft-DTW [15]的新型知识蒸馏KD[27]策略以缓解稳定性-可塑性困境。 许多方法都是围绕经验重放 (ER) 构建的 [10, 59]。 CLOPS[35]是一种基于ER的心律失常诊断方法包括基于重要性的存储策略和基于不确定性的内存缓冲区管理检索策略。 为了实现高效的音频分类[37] 引入了 iCaRL 的快速变体用 KNN 代替群体选择并利用量化来压缩内存样本。 MAPIC [67] 使用冻结特征提取器将原型增强模块与基于距离的分类器结合起来用于医疗数据上的小样本 CIL。 在生成重放领域[75]使用高斯混合模型GMM不断训练自动编码器以生成用于增量声音分类的伪音频频谱图数据。 [25]为每个任务采用单独的独立生成器以适应不同任务中的可变输入维度。 [62] 针对不同呼吸音类别训练单独的 WaveGAN [18] 模型并对合成样本进行隐私评估。 还探索了利用特征重放或原型的方法。 使用固定特征提取器[41]和[42]用原型更新分类器以实现少镜头类增量音频分类。 最后还研究了基于架构的技术。 受 ExpertGate [3] 的启发GIM [14] 采用级联模型结构为每个新任务训练特定于任务的 RNN 模块。 与 RNN 一起针对每个任务训练门控自动编码器以在预测期间选择相应的模块。 此外[66]提出了一个针对 RNN 的统一 GEM [46] 和 Net2Net [12] 的可扩展框架。 尽管该领域做出了努力但仍缺乏对各种时间序列数据集的全面评估和比较。 此外TSCIL 在许多关键方面都存在不一致的问题包括数据集、学习协议、评估方案和主干网等。与数据标准化和超参数调整相关的一些有问题的做法甚至违反了 CIL 的基本原则。 为了解决这些问题我们开发了一个标准的 TSIL 框架以系统地、公平地评估 TS 数据上的不同 CIL 方法。4 开发的评估框架4.1 基准数据集 我们的 TSCIL 基准是利用开源的真实时间序列数据集建立的。 基于这些我们的工具包提供了一种清晰的方式来自定义 CIL 设置包括每个任务的类数或每个类的训练样本量。 尽管如此我们还是遵循 CIL 研究中的常见设置来报告本文中平衡训练设置的结果其中每个类别的训练样本量大致相等。 我们强调这一假设的重要性有两个原因。 首先它与视觉领域传统 CIL 研究中的大多数标准基准保持一致 [70]并促进使用标准评估指标如果类别不平衡这些指标可能会产生偏差。 其次训练样本的多少直接影响每个分类的学习难度。 这种影响会影响 CIL 算法本身之外的性能因此超出了本文的范围。 基于这样的考虑数据集选自两个与 TS 相关的应用人类活动识别HAR和手势识别。 一般来说一组受试者/志愿者被要求在固定的时间内执行各种活动或手势。 这样的数据集适合 CIL因为有足够的平衡类用于任务分割。 一些工作利用 HAR 数据集进行 CIL [31,32,61]但它们采用预处理向量作为输入样本。 相反我们直接使用原始时间序列作为输入专门关注 TS 模态。 在我们的配置中每个数据集的 TS 样本表现出一致的形状即序列长度和变量数量保持相同。 表 1 显示了所使用的数据集的概述。1UCI-HAR [30]包含执行 6 种不同日常活动时智能手机惯性传感器的时间序列。 数据以 50Hz 频率收集来自 30 名不同年龄段的志愿者。 序列直接用作输入由 9 个通道组成时间跨度为 128 个时间步长。表 1基准数据集概述。 最后一列表示实验流中的任务数。2) UWave [44] 包括从 8 个受试者收集的 4000 多个样本同时生成 8 个简单的手势模式。 我们利用来自加速度计三个轴的记录以便每个输入样本都是具有 315 个时间步长的 3 维时间序列。 3DSA[4]收集了8名志愿者进行的19项日常体育活动的运动传感器片段。 每个片段作为样本通过 45 个不同的通道以 125 个时间步长进行记录。 为了使类别均分我们选择利用该数据集中的 18 个类别进行实验。4) GRABMyo [53] 是一个用于手势识别的大规模表面肌电图sEMG数据库。 它捕获 43 名参与者在三个独立会话中执行 16 个不同手势期间的信号。 所有录音持续时间为 5 秒从 28 个通道收集并以 2048 Hz 采样。 我们选择所有受试者的一个会话数据进行实验。 我们首先将信号下采样到 256 Hz然后应用非重叠滑动窗口操作将信号切割成不同的样本。 每个长度为 0.5 秒的窗口包含 128 个时间步长用作输入样本。 我们聚合每个受试者的所有窗口并以 3:1 的比例执行训练-测试分割确保训练和测试数据都来自所有受试者。 这避免了在训练数据和测试数据之间引入由受试者引起的分布变化适合我们对 CIL 的关注。 表 3 中的离线结果表明我们处理的样本包含足够的分类信息。5) WISDM [78] 是一个基于传感器的 HAR 数据集包含 18 项活动并涉及 51 个主题。 按照[82]我们利用电话加速器模式并通过应用窗口大小为 200 的非重叠滑动窗口来提取样本。每个样本包含频率为 20 Hz 的 10 秒时间序列。 与 GrabMyo 的做法类似数据集以 3:1 的比例分为训练集和测试集使得两个集都包含来自所有受试者的数据。4.2 学习协议4.2.1 任务分割遵循标准 CIL 定义我们需要将数据集拆分为 任务确保每个任务包含互斥的类。 与[57]中的过程类似我们在拆分之前打乱类顺序。 这使我们能够根据类顺序评估 CIL 方法的稳健性。 之后我们将所有班级平均分配到每个任务中。 与 Split-MNIST 和 Split-CIFAR10 [69] 类似我们为这项工作中的每个任务分配 2 个不同的类。4.2.2 数据标准化。输入数据的标准化对于模型的训练至关重要。 许多 TSCIL 研究在任务分割之前应用 Z 分数归一化并使用在整个数据集上计算的统计数据进行归一化 [11,36,82]。 这种做法违反了 CL 的基本原则因为在训练之前无法访问完整的数据集。 为了解决这个问题我们通过在模型第一层之前插入输入标准化层来应用实例标准化。 它可以是 LayerNorm (LN) [6] 或 InstanceNorm (IN) [68]而不包含可学习的仿射变换或偏差。 这可确保输入在特定维度上标准化为均值 0 和标准差 1。 输入归一化层的选择可以根据验证任务的性能来决定。 除了没有应用归一化的 WISDM 之外我们对 UWave 应用 IN而对其余数据集采用 LN。4.2.3 超参数调优超参数的选择在 CL 领域是一个具有挑战性的问题通常遵循两个协议。 第一个 [34, 64] 涉及将每个任务划分为训练集、验证集和测试集然后执行网格搜索。 根据所有任务的验证集性能选择最佳参数。 然而这种方法需要访问整个任务流并且需要对先前验证数据和未来任务之间的相关性进行强有力的假设。 另一个协议 [9] 将任务分为用于交叉验证和超参数调整的“验证”流以及用于训练和评估的“实验”流。 我们对 UCI-HAR 和 UWave 使用第一个协议分别只有 3 个和 4 个任务对具有更多任务的数据集使用第二个协议将验证流任务计数设置为 3。我们强调这两个协议都是常见的标准实践每个协议都有自己的优点和局限性。 我们在工具包中提供了这两个选项允许用户根据自己的需求进行选择。4.3选择方法我们首先选取了9种具有代表性的基于正则化的方法和经验回放技术进行比较。这些方法包括在图像域中提出的一般方法以及针对TS数据的特定算法。在基于正则化的方法中我们选择了LWF[43]、MAS[2]和DT2W[54]。对于经验回放包括ER[59]、DER[7]、羊群[57]、ASER[63]、CLOPS[35]和FastICARL[37]。为了研究存在数据隐私问题的场景我们进一步采用了基于生成-重放的方法GR[]。这种方法避免了节省原始样本其实验结果将在5.2节中讨论。最后我们报告了两个简单的基线的结果幼稚和离线。前者给出了性能的下限因为它对在不使用任何CIL技术的情况下按顺序对任务建模。后者作为理想的上界因为它与来自整个数据流的所有样本进行联合训练。表2列出了所选CIL方法的摘要。附录A.1提供了更多详细信息。表2已实现的CIL算法摘要。图 2使用 (a) BatchNorm 或 (b) LayerNorm 进行归一化时平均准确度 (A) 的演变。 利用内存缓冲区的方法用三角形标记。 由于 Offline 表示对整个任务序列进行联合训练因此其结果显示为单个点而不是曲线。4.4 评估指标我们采用了 3 种用于 TSCIL 评估的标准指标。令表示在训练完任务后在已学习任务() 的测试集上评估的准确率。1. 平均准确率 (Average Accuracy)学习任务后的平均准确率定义为它是所有已学习任务测试集的准确率均值反映了模型的整体性能。2. 平均遗忘率 (Average Forgetting) [9]学习任务后的平均遗忘率定义为其中() 表示由于学习任务而导致在任务上性能下降的程度。该指标反映了模型在任务层面遗忘了多少已获得的知识。3. 平均学习准确率 (Average Learning Accuracy) [58]该指标定义为该指标表明了使用 CIL 方法对学习新任务的整体影响通过序列中所有任务的当前任务准确率的平均值来体现。最终性能报告为了反映最终性能社区通常报告最终平均准确率和最终平均遗忘率这些指标是在学习完最后一个任务后跨所有任务计算得出的。4.5 模型架构对于本文的实验我们采用类似于[56]的 1D-CNN 主干作为特征提取器。 它由四个卷积块组成每个块包含一个 1D 卷积层、一个 BatchNorm (BN) 层、一个 MaxPooling 层和一个 Dropout 层。 除非另有说明我们在所有算法中都使用具有 softmax 激活的单头分类器。 我们专门研究了消融研究中不同类型分类器的影响。 对于使用内存缓冲区的方法我们将缓冲区大小设置为实验任务流中训练大小的 5%。 此外规范化层在 CIL 问题中也发挥着至关重要的作用。 尽管大多数文献将 BN 层纳入其模型中但经验表明 BN 层在 CIL 场景中存在偏差问题 [52]。 我们通过比较使用 BN 和 LN 的结果在 TSCIL 领域进一步研究这个问题。 对于 GR 的生成器我们使用 TimeVAE [17]编码器和解码器分别设计有四层 Conv1D 和 ConvTranspose1d。4.6 实现细节所有实验均使用不同的类顺序和随机种子运行 5 次。 对于每次运行我们都会按照上述协议调整其特定的最佳超参数。 与[70]类似所有模型都使用 Adam 优化器对每个任务进行 100 个 epoch 的训练学习率为 0.001批量大小为 64。学习率调度程序被配置为用于调整的超参数。 为了减轻训练数据的过度拟合在训练期间使用提前停止。 为了公平比较我们选择不调整不同方法的架构相关参数。 相反我们采用固定且一致的模型架构。 有关框架实施的更多详细信息请参阅附录 A.2。 我们强调我们的框架是可扩展的。 用户可以按照我们代码页中的说明合并新的数据集、算法和自定义实验设置。5 实验与讨论5.1 基于正则化和基于 ER 的方法的评估5.1.1 使用 BN 和 LN 的性能比较。 我们首先关注允许保存历史样本的基本场景。 如表 2 所列我们评估了 3 种基于正则化的方法和 5 种基于经验回放的方法。 同时我们还通过运行 2套 来研究归一化层的影响实验组。 一种使用带有 BN 层的默认 CNN 主干另一种使用 LN 层替换模型中的 BN 层。 BN 的总体性能结果如表 3(a) 所示LN 的总体性能结果如表 3(b) 所示。 我们还在图 2 中展示了跨任务的平均准确率 A 的演变。评估结果回答了以下问题。表 3使用 (a) BatchNorm 或 (b) LayerNorm 进行归一化时基于正则化和基于 ER 的方法在我们的 5 个 TSCIL 基准上的评估指标。 报告第 4.4 节中引入的度量标准即 A(↑)、F(↓) 和 A (↑)。 对于每个指标都会报告 5 次运行的平均值和置信区间。问题1正则化vsER在TSCIL中如何表现 与图像领域的研究结果类似 [39, 48]基于 ER 的方法稳定优于基于正则化的方法而无需在 TSIL 中保存样本。 正如预期的那样在不使用任何 CIL 技术的情况下Naive 不可避免地会导致灾难性的遗忘。 通过保存内存样本所有基于 ER 的方法都有效地减少了跨数据集的遗忘。 令人惊讶的是当使用 LN 进行归一化时即使是具有 5% 内存预算的基本 ER 方法有时也能获得接近离线训练上限的结果。 相比之下基于正则化的方法仅在任务较少的简单基准测试中显示出明显的优势例如 UCI-HAR 和 UWave。 在这些数据集中DT2W 始终优于 MAS而 MAS 又提供了比 LwF 更好的结果。 然而在更具挑战性的基准中相同的正则化方法会几乎完全是失败的。具体地说他们努力平衡稳定性和可塑性导致显著的遗忘(LWF)或降低学习精度(MAS和DT2W)。图 3使用不同内存预算时最终平均准确度 (A) 的演变。 结果包含 4 个数据集上的 4 种基于 ER 的方法利用 BatchNrom顶行或 LayerNorm底行进行标准化。问题2BN和LN的选择对TSCIL有何影响 虽然 BN 和 LN 之间的选择对离线训练影响很小但我们发现使用 LN 似乎可以显着提高大多数基于 ER 的方法的性能。 值得注意的是切换到闪电网络的影响是如此深远以至于它可能掩盖算法本身的选择。 在某些情况下仅在同一算法内从 BN 过渡到 LN 就可以将性能提升到几乎与离线训练相当的水平。 [52]将这种现象归因于BN中运行统计的偏差这是由于新样本和记忆样本的不平衡造成的导致先前获得的知识丢失。 相比之下采用实例标准化例如 LN可以有效地规避这个问题。 然而我们强调BN的偏差的影响是双向的。 根据学习准确率A的变化我们发现BN的偏差不仅降低了稳定性而且阻碍了新知识的学习。 此外与原始样本的重放相比BN 的偏差对 Logits 的重放产生了更明显的影响用 LN 替代 BN 后DER 得到了显着的改进。 有趣的是ASER 似乎是一个例外它在 BN 上的性能比其他比较方法要好得多但它并没有显示出使用 LN 带来的显着好处。 我们认为这是由于 ASER 的 MemoryRetrieval 机制所致该机制选择一批平衡且具有代表性的内存样本来维持 BN 层中的无偏差统计数据。 在某种程度上ASER 对 BN 的优越性强调了 MemoryRetrieval 在 ER 技术中的重要性。 与基于 ER 的方法相反基于正则化的方法无法在 BN 和 LN 中表现出一致的模式。 总之基于 ER 的方法始终受益于使用 LN 并取得了实质性改进而基于正则化的方法需要根据数据集决定选择 BN 或 LN。 5.1.2 消融研究。 在本节中我们研究内存预算和分类器类型对 TSIL 性能的影响。 我们首先在一系列内存预算中评估基于 ER 的方法结果如图 3 所示。内存预算设置为整个训练数据集大小的 1%、5%、10%、20% 和 100%。 之后我们比较了使用 3 种不同类型的分类器时 LwF、MAS、ER 的性能。 我们在图 4 中展示了结果。所有评估均使用 BN 和 LN 进行归一化。 结果回答了以下问题。问题 3内存预算如何影响基于 ER 的方法 正如直观预期的那样基于 ER 的方法通常会随着内存缓冲区大小的增加而表现出更高的性能。 然而值得注意的是超过一定的缓冲区大小性能增益就会饱和。 这种趋势表现出使用 BN 和 LN 之间的差异。 一个令人惊讶的观察是在 100% 内存预算下所有遇到的数据都被保存以供重播与离线相同。 当使用BN时除了ASER之外的所有方法与离线训练相比都表现出明显的性能差距。 这表明 BN 对新任务的偏见并不是源于内存预算和新任务训练数据大小之间的不平衡。 相反偏差是由 2 批次 ER 管道产生的参见附录 A.1 中的算法 1。 随着任务数量的增加M中每个旧类样本的比例减少导致每一步中新旧类样本分布不平衡。 相比之下LN 上的结果显示所有配置的趋势一致在接近离线的水平上饱和。 这些结果证明了标准 ER 协议中的潜在问题并进一步强调了在 TSCIL 中使用 LN 进行重放的优势。问题 4不同的分类器类型如何影响 TSCIL 已知传统的softmax分类器在没有排练数据的CIL场景中表现出偏差问题即新类的权重大小大于旧类的权重大小[28]。这是因为最小化Softmax分类损失总是会降低旧类别的权值。处理此问题的一种简单方法是用Sigmoid替换Softmax并用BCE[5765]训练模型。使用这种基于BCE的分类器我们观察到LWF的结果得到了持续的改善并有显著的差距。然而这种改善在MAS或ER中并不是始终如一的。另一个分类器是分裂余弦分类器[28]它对特征和类别权重进行归一化并计算它们的余弦相似度。然而使用这样的分类器并不能持续地提高性能甚至可能会阻碍MAS。最后NCM分类器只适用于利用记忆样本的方法并且没有观察到显著的改进。我们假设的原因是记忆样本的排练减轻了单头分类器的偏差导致不同分类器的性能相似。总之分类器的选择取决于方法和数据集而对于使用ER的方法则不那么关键。图 4不同类型分类器的消融研究。 前两个代表分别用 CE 和 BCE 训练的单头分类器。5.2 隐私敏感场景中GR的评估在本节中我们考虑一个具有数据隐私问题的实际场景限制原始历史样本的存储。 由于基于无样本正则化的方法表现出固有的局限性我们通过使用 TimeVAE [17] 作为生成器来研究 GR。 在使用 BN 或 LN 的模型上进行实验结果如表 4 所示。问题 5GR 与 ER 在 TSCIL 中的表现如何 在 UCI-HAR 和 UWave 等更简单的数据集中GR 作为 ER 的替代方案表现出了显着的功效。 值得注意的是它始终优于基于正则化的方法并且还表现出与 ER 相当或更好的结果。 通过显示 UWave 的原始样本和生成样本我们发现 GR 可以生成类似于原始数据中发现的某些模式的伪样本。 见图 7。 然而GR 的有效性在 DSA 和 GRABMyo 等更复杂的数据集中受到限制与 ER 相比表现出显着的性能差距。 我们将 GR 的局限性归因于两个原因。 首先对于时间序列数据来说在具有大量类或变量的数据集上训练熟练的生成器模型仍然具有挑战性特别是当训练过程是增量时。 生成样本的多样性也受到限制参见附录 B.1 中的图 6。 其次朴素的GR方法无法控制生成样本的类别阻碍了旧类别的平衡排练。 相比之下ER 的 i.i.d. 内存更新可以规避这些问题从而导致显着的性能差异。 此外与 ER 类似GR 受益于使用 LN 而不是 BN尤其是在 UCI-HAR 和 DSA 中。 这表明固有偏差会影响所有采用重放的 CIL 方法。 综上所述虽然GR在更简单的数据集上表现出较强的竞争力但在更复杂的环境中遇到了显着的挑战5.3 分析受试者之间的类内差异问题 6类内差异如何影响 TSCIL 时间序列数据通常从不同的主题或来源收集每个主题或来源可能表现出不同的输入域。 例如图 5 描述了在 DSA 的两个类上训练的 VAE 内的特征分布。 值得注意的是每个类别在特征空间内形成八个簇每个簇对应一个不同的主题。 尽管这种现象在 TSCIL 中经常被忽视但我们发现不同科目之间的分布变化可能会在很大程度上影响学习成绩。 我们在附录 B.2 中进一步分析了这种受试者分布如何影响基于 ER 的方法。 为了进一步研究这一点我们使用 DSA 数据集将原始 ER 基线与其两个变体进行比较。 原始的 ER 采用了 MemoryUpdate 的水库采样理论上确保缓冲区中的内存样本与原始分布独立同分布。 然而其基于随机选择的MemoryRetrieval策略可能无法确保每批重放样本都遵循主题分布。 我们的第一个变体修改了MemoryUpdate策略只从部分受试者中选择样本故意导致内存样本的受试者分布与实际分布存在偏差。 第二种变体保留了原始的 MemoryUpdate 策略但改进了 MemoryRetrieval 策略以确保内存样本在每个检索批次中都是主题平衡的。 评估指标如表 5 所示其中前两种方法分别对应于来自两个和四个受试者的第一个变量采样。 “平衡”代表第二个平衡检索变体。观察到的结果强调了维持 TSCIL 中受试者分布的重要性。 具体来说从部分受试者中取样表明重放效果减弱。 相比之下使用受试者平衡的记忆样本可以显着增强排练过程。 这一发现证实了将类内差异纳入 CIL 可以改善结果的观点。 另一方面忽略这一方面会导致次优结果。 这些见解指出了 TSCIL 中的一个新挑战特别是对于依赖 ER 和 GR 的方法需要考虑由不同输入域引起的类内分布变化。6 未来方向本节概述了 TSCIL 研究未来潜在的方向。(1)复杂时间序列的生成重播在复杂数据集中使用GR是进一步探索的挑战。 我们列出了几种潜在的解决方案。 第一个是将原始时间序列转换为时频表示例如频谱图并使用图像生成模型来改进 TS 合成 [1,26,76]。第二个是应用因果关系学习旨在揭示潜在的数据生成过程。 将其与持续学习相结合成为一种有前途的方法可以增强模型的可解释性和对分布变化的适应性[13]特别是当将其应用于时间序列生成时[80]。最后一项是研究基于模型反演的 CIL 方法 [45, 81]该方法已被证明在图像域中合成伪样本方面是有效的。(2) 类内变异将类内变异纳入 CIL 方法中的情况根据其使用的策略而有所不同。 对于正则化假设不同类之间的类内变化相似[​​83]一个潜在的途径是设计一个度量来捕获可用作正则化项的类内变化。 对于 ER一个方向是定制内存管理策略以考虑类内变化。 对于GR可以实现集群内条件生成器[84]来提高性能。(3)非标准CIL设置本文重点讨论标准CIL设置。 对于行业环境人们可能需要考虑当前学术设置之外的更多实际因素例如数据不平衡[35]、不规则抽样[25]以及在线[48]或多视图学习[38]。 我们计划在未来扩展我们的框架以纳入这些具有挑战性的环境。(4)频域知识的结合当前CIL方法的关键局限性之一在于忽视了TS和图像之间的内在差异。 例如时间序列比图像更有可能表现出周期性。 此外TS将关键信息封装在频域或时频域内。 然而现有的方法是通用的忽略了这些重要的属性。 将这些属性融入到特定于 TS 的算法中是未来研究的一个重要课题。(5) 时间序列基础模型大型预训练模型在基于图像的 CIL [77] 中表现出了有竞争力的性能即使在没有内存样本的情况下也是如此。 然而TSCIL 中预训练模型的探索仍未得到充分研究这主要是由于缺乏通用的 TS 预训练模型。 然而开发时间序列基础模型 [79, 86] 的最新进展标志着一个重要的里程碑。 此类模型在大量 TS 数据集上进行预训练可应用于分类或预测等各种下游任务。 将此类模型应用于 TSCIL 是一个有前途的探索方向。7 结论本文介绍了时间序列类增量学习TSCIL的统一评估框架。 我们提供了全面的比较以证明现有 CIL 策略在解决 TSCIL 问题方面的前景和局限性。 我们广泛的实验评估了 TSCIL 的重要方面包括算法、归一化层、内存预算和分类器选择。 我们发现基于重放的方法通常比正则化技术表现出优越性并且使用 LayerNorm 代替 BatchNorm 显着缓解了稳定性-可塑性困境。 我们进一步探讨了对 TSIL 成功至关重要的时间序列数据的一些挑战。 结果和分析强调了标准化、数据隐私和类内变异的挑战以及它们如何影响 TSCIL 的结果。 我们坚信我们的工作为 TSCIL 研发社区提供了宝贵的资产。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询