文献综述!

发布时间 2023-05-01 00:19:42作者: Ankitone

2.1国内外研究现状
在一分类研究方面,国外学者多注重于理论方面的研究。像国外Khan S S,和Madden M G两位学者介绍了一种新的异常检测方法--深度支持向量数据描述,它是基于异常检测的目标进行训练的。适应深度系统需要其的神经网络和训练程序满足某些特性,两位学者从理论上证明了这一点。他们展示了他们的方法在MNIST和CIFAR-10图像基准数据集上的有效性,以及对GTSRB停车标志的对抗性例子的检测[2]。
另一个团队Goyal S, Raghunathan A, Jain M指出,目前在应用于像图像这样的结构化领域时需要仔细的特征工程。第一种方法是基于预测变换的方法,虽然在某些领域是成功的,但关键是取决于适当的特定领域的变换集,而这些变换在一般情况下是很难得到的。第二种方法是在学到的最后一层表征上最小化经典的单类损失,但存在表征崩溃的基本缺点。在这项工作中,我们提出了深层稳健单类分类(DROCC),它既适用于大多数标准领域,又不需要任何侧面信息,而且对表征崩溃也没有影响。实证评估表明,DROCC在两个不同的单类问题设置和一系列不同的现实世界数据集上非常有效,比最先进的异常检测方法的准确率提高了20%[3]。
相较于理论方面的深入改进,国内学者更倾向于在多方面的应用和使用。张煜琦团队将一分类算法应用于异常行为检测方面。异常行为虽然其数量较少, 但在许多领域中都具有重要的研究价值。对异常行为的研究不仅可以优化现有的问题,还可以发现潜在的问题,为后续分析和决策提供良好的基础。可以预见,如果在试验前不对异常行为进行处理,可能会造成严重后果。其在论文中使用了基于单分类算法的异常行为检测,并对该分类算法进行了优化,提出了基于稀疏主成分分析和遗忘算法的创新方法进行特征筛选,对预处理后的数据使用一分类支持向量机与孤立森林两种算法建立模型。试验表明,两种算法均可具有较好的异常检测效果,且泛化性能较好。因此,基于单分类算法的异常行为检测具有实际应用价值和研究前景[7]。
姚沐言团队为了解决智能手机的安全性问题,采用了基于上采样单分类算法的智能手机手势密码隐式身份认证机制。通过收集手机内置传感器从不同维度采集用户的行为特征,对所提取的特征进行向量排序、筛选以及降维,并提出了基于单分类的认证决策机制。最后基于实际的样本集进行性能测试,结果表明,所提方案在准确率、FAR、FRR与AUC指标上的表现部分优于使用大规模数据进行训练的传统KNN二分类器[12],这说明了经过改良的单分类器的优越性。
来自重庆大学的硕士生周颖,将一分类研究算法用于财务舞弊识别领域。她抛弃了以往研究中大多基于舞弊公司和非舞弊公司建立二分类识别模型,提出并使用单分类方法构建新的财务舞弊识别模型。不同于以往模型对非舞弊公司的真实性难以保证,新算法仅通过学习舞弊公司样本数据便可以构建出有效的舞弊识别模型。她选择了单分类模型中较为常用的一分类支持向量机作为财务舞弊识别基础模型,利用集成学习思想改进模型,创新性地使用LSCP(Locally Selective Combination in Parallel Outlier Ensembles)框架来融合多个一分类支持向量机,提升了舞弊识别模型的准确率和泛化能力, 为财务舞弊识别研究提供了新方向[4]。在工业领域,张文安团队在做工业控制系统的网络化时,意识到做好ICS安全防护是一件迫在眉睫的事情。鉴于此,综述了ICS入侵检测的研究现状、存在的问题以及有待进一步解决的问题[8]。
刘敬团队在进行网络异常检测研究时,首先利用原始数据采用无监督方式建立单分类支持向量机模型,然后结合主动学习找出对提高异常检测性能最有价值的样本进行人工标记,利用标记数据和无标记数据以半监督方式对基于单分类支持向量机的异常检测模型进行扩展。最终通过实验证明,该方法能够利用少量标记数据获取性能提升,并能够通过主动学习减小人工标记代价,更适用于实际网络环境,对于性能的提升是巨大的[5]。在电商领域,杨帅团队在电子商务领域通过使用基于单分类的协同过滤推荐算法实现出了不错的效果。其团队根据目标用户评分商品对应的类别,选择候选最近邻居集,采用单分类预测用户对商品的评分,目的是减小目标用户与候选最近邻居所形成的数据集稀疏性。由此提出一种基于单分类的协同过滤推荐算法。其实验结果表明该算法能提高准确性,改善协同过滤的推荐质量[10]。
薛文团队在对一分类分类算法的研究中,提出了一种集成金字塔模型(Single-Class Classification Integrated Pyramid Model,SCCIPM),由综合获取层、辅助判定层、核心分类层和结果优化层4个独立协同的层面组成。其中综合获取层由改进的KNN以及优化的1-DNF两个分类方法组成,主要用来获取反例,其结果均提交到辅助判定层投票后得到可靠反例;核心分类层通过多次迭代更新可靠反例,每次迭代建立一个分类器;结果优化层根据核心分类层所建立的不同分类器优化选择最终分类器。仿真实验表明,当正例占整个样本的50%以下时,SCCIPM较其它方法优势明显,在解决单分类上具有良好的分类性能[11]。
吴定海团队研究两种支持向量域数据模型,即基于支持向量机理论和单类分类思想的2种支持向量域数据描述模型,即单分类支持向量机和支持向量描述模型。其团队分析2类模型之间的区别和联系以及参数的优化设置,总结支持向量域单分类方法存在的缺点并探索了对这两类支持向量描述模型的改进方向,从而有效地改善了一分类算法的应用场景[6]。缪志敏团队在解决单分类问题的支持向量数据描述算法的基础上提出了适用于两类不平衡问题的I-SVDD(imbalance-support vector date description)算法。通过增加样本的分布信息,对带野值的SVDD算法中的C值重新进行了定义。采用该算法的实验表明,改进后的I-SVDD算法比带野值的SVDD算法的AUC值平均提高12%以上;比AdaBoost算法在正类查全率上平均提高35%,精确度也提高了2%以上。I-SVDD算法在保证少数类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少数类样本的处理要求[12]。
李凌均团队提出了一种名为支持向量数据描述法的新方法,旨在解决在机械智能监测与诊断中缺少故障样本的问题。该方法只需要一类目标样本作为学习样本,就可以建立起单值分类器,从而区分非目标样本和目标样本。这种方法可以应用在机械故障诊断和状态监测中,只需要正常运行时的数据信号就可以监测机器的运行状态,且不需要对原始数据进行特征提取。实验结果表明,支持向量数据描述法比传统的神经网络方法具有更好的分类能力和更高的计算效率[9]。
综上所述,国外在一分类分类算法理论研究方面已经取得了很多成果,而国内的理论研究相对较少。在未来的研究中,国内的研究者可以借鉴国外的成果,同时也应该探索适合中国特点的一分类研究方法。
2.2研究趋势预测
近年来,随着机器学习的广泛应用,一分类研究在异常检测、图像分类、文本分类等领域中得到了广泛的应用。其中,k近邻算法是一种常见的方法,但是其存在一定的缺点,如对异常数据敏感、噪声数据干扰等。因此,近年来出现了一些基于逆近邻的一分类研究方法,其可以有效地解决k近邻算法的缺点。本文将对这一领域的研究进行趋势预测。
首先,可以预见的是,随着机器学习技术的不断发展,基于逆近邻的一分类研究方法将得到更加广泛的应用。逆近邻可以有效地解决k近邻算法中存在的问题,并且其在异常点检测、文本分类、图像分类等领域中都得到了广泛应用,因此可以预见,该方法的应用将不断扩展。
其次,未来的一分类研究中,基于逆近邻的方法将与其他机器学习方法相结合,以进一步提高算法的准确性和效率。例如,在深度学习中,可以结合逆近邻方法,利用其优秀的特征提取能力,从而提高深度学习算法的准确性和效率。
此外,随着数据的不断增长,如何处理大规模数据成为了一个重要的问题。在一分类研究中,基于逆近邻的方法具有较好的可扩展性和效率,可以有效地处理大规模数据。因此,我预测在未来的研究中,基于逆近邻的方法将得到更广泛的应用。
最后,需要注意的是,虽然基于逆近邻的一分类研究方法在解决k近邻算法的缺点方面取得了显著进展,但是其本身也存在一些局限性。例如,逆近邻算法的计算复杂度较高,需要耗费大量的时间和计算资源。此外,逆近邻方法对数据的分布也有一定的要求,对于非线性可分的数据,其分类效果可能会受到影响。因此,在未来的研究中,需要进一步探索如何克服这些局限性,提高算法的效率和准确性。
综上所述,基于逆近邻的一分类研究方法具有广阔的应用前景,未来将得到更广泛的应用和研究。
3.总结
在实际异常行为检测中一分类算法具有较好的效果,基于一分类算法的异常行为检测具有实际应用价值和研究前景,可进一步研究[7]。总的来说,使用逆近邻来代替k近邻的方法在一分类研究中具有一定的优势和应用前景。相对于传统的k近邻方法,逆近邻算法能够更准确地识别异常点,同时在样本分布不均匀或者存在噪声的情况下也表现更具有鲁棒性。此外,该方法在计算距离和寻找邻居时具有较高的计算效率和可扩展性,适合应用于大规模数据集的处理。然而,逆近邻算法也存在一些局限性,如对邻居数的选择敏感,需要进行调参等,这些问题需要在具体应用时进行注意和解决。因此,使用逆近邻来代替k近邻的方法需要根据具体问题的特点和数据集的特征进行合理选择和调整,才能发挥其最大的优势和价值。