学术论文

      基于Hadoop平台下的Canopy-Kmeans高效算法

      Efficient Algorithm of Canopy-Kmeans Based on Hadoop Platform

      摘要:
      介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性.
      作者: 赵庆
      Author: ZHAO Qing
      作者单位: 西安电子科技大学电子工程学院,陕西西安,710071
      刊 名: 电子科技
      年,卷(期): 2014, 27(2)
      分类号: TP301.6
      机标分类号: TN9 O24
      在线出版日期: 2014年2月25日