一种无监督不平衡域的自适应加权跨域宽度学习模型
摘要
关键词
迁移学习;自适应加权;类不平衡;跨域宽度学习
正文
1引言
域自适应方法已被广泛应用于解决多个领域的分类问题,例如文本分类,疾病评估,故障诊断等。域自适应方法旨在通过分布平移,特征选择和子空间变换等方式找到有标记源域样本和无标记目标域样本的相似之处,从而建立一个性能良好的目标域分类模型。尽管域自适应方法已经在多个领域取得较好的应用效果,但现有的方法普遍忽略了数据中的类不平衡现象。
受样例选择标准,场景变化等因素影响,源域和目标域样本中的类分布会不平衡,造成不平衡域自适应问题。若采用平等的方式对待域中的每个类,可能会影响域自适应方法在应用中的性能。因此,如何处理不平衡域自适应问题是迁移学习中的一个重要挑战。研究者通过构造平衡子集来学习最优分类超平面,从而解决类不平衡问题。但该方法忽略了源域和目标域之间的分布差异。研究者提出了一种转移联合匹配方法(TJM)来处理不平衡域自适应问题。但该方法仅学习了特定样本的权重,忽略了类与类之间的权重。研究者提出了一种称作最近公共空间学习(CCSL)的方法来处理域间的类不平衡现象。但CCSL的实例权重选择与相似度的度量高度依赖于专家经验。研究者提出了面向领域适应的预测权重调整方法,有效的缓解了迁移学习中的类不平衡现象。但是该方法主要是根据不同样本的预测结果调整权重,忽略了样本所在类的权重。研究者提出了一种类不平衡迁移学习框架用于解决不平衡域自适应问题。但该框架的使用需要目标域标记样本的参与。研究者提出了加权平衡域自适应方法(BDA)来有效解决希尔伯特空间中的不平衡域自适应问题。文献[14]将加权最大均值差异项融入卷积神经网络(CNN)的目标函数中,构建了一种用于解决不平衡域适应问题的深度迁移网络,取得了良好的跨域不平衡分类性能。但该网络会受到极其耗时的训练过程的困扰。其主要原因是该网络继承了深度学习结构复杂的特点,需要调整大量参数。
宽度网络(BLS)是一种扁平型神经网络,由特征节点,增强节点和输出系数组成。特征节点和增强节点能够提取有效特征,使模型具有良好的通用逼近能力。BLS的输出系数采用仅需迭代一次的伪逆算法来快速求解,这能够保证模型的学习效率。因此,BLS已经被应用于众多领域来解决分类问题。例如故障诊断,图像分类,模糊分类,脑电识别等。但在上述应用中,BLS要求训练数据中的类均衡且数据分布与测试数据一致。因此,BLS难以出色的解决不平衡域自适应问题。
在迁移学习场景中,域中数据经常会出现类不平衡现象。域自适应方法能够借助源域知识来有效提升目标域的分类效果。但现有的域自适应方法普遍假设域中的类满足平衡分布,这限制了它们在常见的不平衡跨域任务上的性能。为了提升跨域不平衡分类效果,本文提出了一种称为加权跨域宽度学习模型的方法。通过4种不同的跨域不平衡分类任务验证了方法的有效性。本文主要的贡献总结如下:
1)与BLS相似,通过构造特征空间(特征节点和增强节点组合)来提取域间有效特征,这能够保证W-CDBLS的通用逼近能力。2)在提取域间有效特征的基础上,构造了不平衡匹配正则化项来计算域中每类权重,以匹配两域特征的投影均值,以降低域间数据不平衡现象对目标分类任务的影响。此外,还能够挖掘数据的潜在信息,从而获得更多的信息结果。3)结合源域BLS项和不平衡匹配正则化项设计W-CDBLS的损失函数,以平衡域间类分布,最小化域间分布差异,解决无监督不平衡域自适应问题。4)实验通过1种数据集构造了4种跨域不平衡分类任务来验证W-CDBLS的有效性。结果表明,W-CDBLS在4种不同的跨域不平衡任务上均能取得较好的分类性能,具有较好的适应性和较强的稳定性。
2. 加权跨域宽度学习模型理论推导
在不平衡域自适应问题中,数据来自于源域
和目标域
。有标签的源域
含有数据集
,且
,
,
。
,
,
表示属于类
的源域样本数;
表示所有类数。无标签的目标域
含有数据集
。
和
分别表示源域数据和目标域数据的边缘概率分布,
和
分别表示源域数据和目标域数据的条件概率分布。如图X所示,
和
拥有相似的边缘分布和不相似的条件分布时,即
且
。
通过构建特征节点和增强节点将
和
变换到BLS特征空间中,以获取两域数据的有效特征:
(1) |
式(1)中,
,
为样本的个数,
为特征节点数目,
,
为增强节点数目,
。
将
重写为下式:
(2) |
式(2)中,AS为源域数据的所有节点,
,AT为目标域数据的所有节点,
.
源域中实际输出和期望输出之间的误差可通过下式表达:
| (3) |
式(3)中,
为第
个源域样本的期望输出,
。
由于目标域数据没有标签。因此,可以利用源域样本
训练基本BLS模型对
进行预测,从而得到
的伪标签
。源域BLS的构建如下:
(4) |
受域自适应启发,本文将传统MMD投影到BLS特征空间中,获得
。
(5) |
,
表示源域数据集中标签属于
类的样本个数,
表示目标域数据集中伪标签属于
类的样本个数,
表示类总数目,
表示源域数据中样本
的标签,
表示目标域数据中样本
的伪标签。
的矩阵形式表达如下:
(6) |
为了更好的利用源域BLS项和不平衡匹配正则化项设计W-CDBLS的损失函数,以平衡域间类分布,最小化域间分布差异,解决无监督不平衡域自适应问题。
W-CDBLS的目标函数如下所示:
| (7) |
利用约束函数对W-CDBLS的目标函数进行转换:
|
(8) |
式(7)中,
是
的对角矩阵,其前
个对角元素为
,其余对角元素为0,
是训练的目标,它的前
行等于
,其余为0.
对
进行梯度置0:
(9) |
由式(9)可求解得到W-CDBLS的输出系数
(10) |
式(10)中,
,
为单位阵。
3.实验
3.1数据集
为了验证所提出方法W-CDBLS的有效性,我们采取了MNIST+USPS数据集。USPS+MNIST是两个不同的灰度手写数字数据集,拥有公用10个数字类,0-9。本文从USPS和MNIST数据集中分别抽取数字0(类1)和数字1(类2)的200张图片,并以转换灰度像素值的方式将所有图像均匀的缩放到16×16。数据集信息如下所述:
USPS和MNIST是两个不同的灰度手写数字数据集,拥有公用10个数字类别,0-9。本文从USPS和MNIST数据集中分别抽取1800和2000张图像数据,并通过编码灰度像素值的方式将所有图像均匀的大小缩放到
。USPS数据集有200个样本数目,特征维数为256,类别为2,其包含2个子集,数字1和2。MINIST数据集有200个样本数目,特征维数为256,类别为2,其包含2个子集,数字1和2。
我们利用MNIST+USPS数据集构造了4种不平衡跨域分类任务,4种不平衡跨域分类任务如下述所示:
任务1中,源域为M,目标域为U,源域少样本类别为1,少样本类的样本数为50,正常样本数为200,任务2中,源域为M,目标域为U,源域少样本类别为2,少样本类的样本数为50,正常样本数为200,任务3中,源域为U,目标域为M,源域少样本类别为1,少样本类的样本数为50,正常样本数为200,任务1中,源域为U,目标域为M,源域少样本类别为2,少样本类的样本数为50,正常样本数为200。
3.2比较方法
实验将W-CDBLS方法与一些流行的迁移学习、跨域不平衡分类方法相比较,以说明方法的有效性。实验采用网格搜索法在相同的参数空间中实现了各自方法的较优参数设置,并记录相应的结果。
1)BLS:BLS仅采用不平衡的源域数据集进行训练。BLS的正则化参数
选取较优的经验值,为
。BLS的节点设置为10-10-2000。
2)W-DDC:W-DDC是一种经典的深度迁移学习方法,能够平衡数据差异。W-DDC网络的权重衰减,正则化等参数都是从
中选取。选取后,其结果为
,其具有3层结构,每层结构具有50个神经元,神经元可用于提取数据特征,神经元之间通过节点连接。
3)W-CDBLS:W-CDBLS能够自适应地改变每个类权重,平衡域间的类分布,最小化域间的分布差异。W-CDBLS的参数及节点设置如下所述。
在任务1中,W-CDBLS参数
,
,
分别为
,
,
,节点结构为12-16-450,在任务2中,W-CDBLS参数分别为
,
,
,节点结构为28-16-450,在任务3中,W-CDBLS参数分别为
,
,
,节点结构为12-18-450,在任务4中,W-CDBLS参数分别为
,
,
,节点结构为10-16-450。
3.3实验结果与分析
为比较各方法在不同跨域不平衡分类任务上的性能。实验选取了测试精度(%)和平均训练时间(s)两方面来进行比较。所有的实验都是在相同的电脑上采用MATLAB2020上运行代码获得的结果,还将训练精度进行10次后去取平均值,以确保结果的稳定性和合理性。并且,对于训练时间,实验进行10次后去取平均值,以确保结果的稳定性和合理性。实验结果下述所示:
在任务1中,BLS的精度为82.00%,W-DDC为94.00%,W-CDBLS为98.00%,在任务2中,BLS的精度为85.75%,W-DDC为98.25%,W-CDBLS为100%,在任务3中,BLS的精度为91.25%,W-DDC为97.75%,W-CDBLS为99.25%,在任务4中,BLS的精度为79.50%,W-DDC为90.50%,W-CDBLS为95.50%,在平均值中,BLS的精度为84.62%,W-DDC为95.12%,W-CDBLS为98.18%。
从上述结果可知,在任务1到任务4中(MNIST+USPS),W-CDBLS的平均跨域分类精度为98.18%,优于其它几种分类模型。特别是在任务2中,W-CDBLS的跨域分类精度达到了100%。
在综合任务中,BLS的平均分类时间为0.98秒,W-DDC的平均分类时间为179.73,W-CDBLS的平均分类时间为14.29秒。
从上述结果可知,W-DDC的分类时间分别为179.73s,远多于其它方法。这是因为其具有深度学习结构复杂,参数众多的特点,致使其训练时容易陷入极度耗时的优化参数过程。与其它方法相比,W-CDBLS的分类效率较优,这是因为W-CDBLS继承了BLS结构简单,学习效率高的特点。结果表明,不平衡域自适应问题在分类问题中是常见的,并且对分类结果的影响很大,若是不采用所提出的方法,则难以获得良好的分类结果,所提出的方法能够在一定程度上解决域间不平衡问题,提升分类结果。并且,所提出的方法在分类效率上仍保有一定的优势,继承了BLS的优点,避免了深度学习结构带了的困扰,因此,所提出的方法在结果上具有一定的优势。
4.结论
域自适应方法能够借助源域知识来有效提升目标域的分类效果。但现有的域自适应方法普遍假设域中的类满足平衡分布,这限制了它们在常见的不平衡跨域任务上的性能。针对迁移学习中的无监督不平衡域自适应问题,提出了一种称为加权跨域宽度学习系统(W-CDBLS)的方法。首先,通过特征节点和增强节点来提取域间有效特征,使模型保持通用逼近能力;其次,构造不平衡匹配正则化项来自适应地调整域中每类权重,匹配两域特征的投影均值,以降低域间数据不平衡现象对目标分类任务的影响;最后,结合源域BLS项和不平衡匹配正则化项设计W-CDBLS的损失函数,以平衡域间类分布,最小化域间分布差异,解决无监督不平衡域自适应问题。
实验通过1种数据集构造了4种跨域不平衡分类任务来验证W-CDBLS的有效性。结果表明,W-CDBLS在4种不同的跨域不平衡任务上均能取得较好的分类性能,具有较好的适应性和较强的稳定性。与W-DDC相比,W-CDBLS的分类结果更好,具有较优的分类能力、较强的适应性和较好分类性能。
基金项目:天津市教育科学研究院院级青年课题:借助多模态特征评估青少年心理健康研究;编号:TJJKY2025-QN-48
作者简介:郑建杰(1997.01--)男,汉族,浙江衢州人,研究实习员,博士研究生学历,研究方向:图像分类
...
