学术论文

      一种基于核SMOTE的非平衡数据集分类方法

      A Classfication Method For Imbalance Data Set Based on Kernel SMOTE

      摘要:
      本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.
      Abstract:
      An approach based on kernel SMOTE (Synthetic Minority Over-sampling Technique) to solve classification on imbalance data set by Support Vector Machine (SVM) is presented. The method first oversamples the minority class in feature space by kernel SMOTE algorithm, then the pre-images of the synthetic instances are found based on a distance relation between feature space and input space. Finally, these pre-images are appended to the original data set to train a SVM. Experiments on real data sets indicate that compared with SMOTE approach, the samples constructed by the kernel SMOTE algorithm have the higher quality.As a result, the effectiveness of classification by SVM on imbalance data set is unproved.
      作者: 曾志强 [1] 吴群 [2] 廖备水 [2] 高济 [2]
      Author: ZENG Zhi-qiang [1] WU Qun [2] LIAO Bei-shui [2] GAO Ji [2]
      作者单位: 厦门理工学院计算机科学与技术系,福建厦门,361024;浙江大学计算机科学与技术学院,浙江杭州,310027 浙江大学计算机科学与技术学院,浙江杭州,310027
      刊 名: 电子学报 ISTICEIPKU
      年,卷(期): 2009, 37(11)
      分类号: TP181
      机标分类号: TP1 TP3
      在线出版日期: 2010年1月29日
      基金项目: 国家自然科学基金,福建省青年人才项目