学术论文

      随机森林模型在分类与回归分析中的应用

      Using "random forest" for classification and regression

      摘要:
      随机森林(random forest)模型是由Breiman和Cutler在2001年提出的一种基于分类树的算法.它通过对大量分类树的汇总提高了模型的预测精度,是取代神经网络等传统机器学习方法的新的模型.随机森林的运算速度很快,在处理大数据时表现优异.随机森林不需要顾虑一般回归分析面临的多元共线性的问题,不用做变量选择.现有的随机森林软件包给出了所有变量的重要性.另外,随机森林便于计算变量的非线性作用,而且可以体现变量间的交互作用(interaction).它对离群值也不敏感.本文通过3个案例,分别介绍了随机森林在昆虫种类的判别分析、有无数据的分析(取代逻辑斯蒂回归)和回归分析上的应用.案例的数据格式和R语言代码可为研究随机森林在分类与回归分析中的应用提供参考.
      作者: 李欣海
      作者单位: 中国科学院动物研究所 北京 100101
      刊 名: 应用昆虫学报 ISTICPKU
      年,卷(期): 2013, 50(4)
      在线出版日期: 2013年10月10日
      基金项目: 中国科学院战略性先导科技专项,环保部公益项目